Back to Question Center
0

Chrome Web Scraper Tutorial Mill Semalt Espert

1 answers:

Jekk qed tuża Google Chrome, hemm estensjoni għall-browser tiegħek li jista 'jgħin biex jinbarax il-paġni tal-web. Huwa magħruf bħala '' Scrapper '', u jista 'jintuża mingħajr problemi. Scrapper jgħin fil-brix tal-kontenut tal-websajt u jitla 'r-riżultati għad-dokumenti ta' Google.

Kif tirrilaxxa websajt billi tuża l-estensjoni tar-Ruttam?

1. Agħżel Chrome Web Store fi Google Chrome;

2. Fl-estensjonijiet, iwettaq tfittxija għal '' Scrapper '';

3. L-ewwel riżultat tat-tfittxija huwa l-estensjoni magħrufa bħala '' Scrapper '';

6. Ikklikja l-buttuna li ġejja ('' Żid ma 'Chrome' ')

rabta ;

7. Issa tfittex MP waħda u aċċerta ruħek li tiddaħħal l-iskrizzjoni;

8. Ikklikkja fuq il-lemin biex tagħżel "Imbattla Għażla simili ... "

9. Il-console għal scrapper se tinfetaħ f'tieqa oħra;

10. Ara l-kontenut imqaxxar fil-barraxa console;

11. Biex jiġi żgurat li l-kontenut jiġi ffrankat bħala Spreadsheet Google, agħżel "Save to Google Docs ..."

Brix estiż

Qabel ma żżomm ma 'din ir-riċetta , huwa utli li wieħed jifhem il-punti bażiċi ta 'l-HTML. Pereżempju, tista' taqra introduzzjoni qasira għal HTML permezz ta 'dan rabta

Immaġina li aħna ninsabu interessati fil-films kollha li stordew lil Asia Argento, attriċi Taljana famuża.

1. Hemm arkivju dettaljat ħafna ta 'atturi fl-IMDB. Is-sit ta' Asia Argento huwa: https://www.imdb.com/name/nm0000782/;

2. Hawnhekk, tista 'tara r-rwoli kollha tal-attriċi..Ejjew nibdew ineħħu l-informazzjoni li għandna nħarsu;

3. Ipprova jinbarah il-mod deskritt hawn fuq;

4. Trid tara li l-lista hija daqsxejn mgħawġa. Dan huwa dovut għall-fatt li l-lista hawn tista 'tkun strutturata b'mod differenti;

5. Taqbad il-console tar-ras. Fuq ix-xellug, tkun taf tara l-kaxxa ż-żgħira li tgħid l-XPath;

6. Xpath hija tip ta 'lingwa ta' mistoqsija li taħdem għal XML u HTML;

7. XPath jista 'jgħin biex jillokalizza l-partijiet tal-paġna li inti interess fiha. Il-ħaġa li jmiss hi li ssib element xieraq u tikteb l-XPath għaliha;

8. Issa ejjew nistabbilixxu t-tabella tagħna;

9. Int ser ikollok tara li XPath eżistenti tagħna, li għandha d-data kollha meħtieġa hija "// div [3] / div [3] / div [2] / div";

10. XPath tinforma lis-Sistema biex tara d-dokument HTML u tagħżel it-tielet element, imbagħad it-tieni element u mbagħad kollha kemm huma;

11. Iżda, nixtiequ li d-data tagħna tkun separata;

12. Uża s-sezzjoni tal-kolonni fil-console għal skrappjar biex tagħmel dan;

13. Ejjew l-ewwel isibu t-titlu РІР,“ Uża Spezzjona Element biex tara t-titlu;

14. Iċċekkja t-titlu f'tikketta. Żid il-lametta mal-XPath;

15. L-espressjoni tidher li tiffunzjona b'mod xieraq, għalhekk tagħmilha l-ewwel kolonna tagħna;

16. Fit-taqsima "Kolonni", ibdel l-isem tal-ewwel kolonna għal "titolu";

17. Żid l-XPath miegħu;

18. Fit-taqsima tal-kolonna, l-XPaths huma relattivi u jfisser li "./b" jagħżel l-element

19. Fil-XPath għall-kolonna tat-titlu, żid "./b" u agħżel "jinbarax";

20. Issa nibqgħu sejrin għal sena. Snin jistgħu jinstabu f'medda waħda;

21. Oħloq kolonna ġdida billi tagħżel iż-żgħir plus ħdejn il-kolonna għat-titlu tiegħek;

22. Bl-użu ta 'XPath "./span" tinħoloq kolonna għal "sena";

23. Ikklikkja jinbarax u tara kif ġiet miżjuda s-sena;

24. Magħmul!

December 6, 2017
Chrome Web Scraper Tutorial Mill Semalt Espert
Reply