Back to Question Center
0

Semalt: Kif Tbassar A Web Page Bl-użu ta 'Google Chrome Extension

1 answers:

A scraper screen huwa script li jaqra siti u estratti informazzjoni utli mill-web. Screen scraping hija s-soluzzjoni aħħarija biex tinkiseb dejta reali minn websajts u paġni tal-web għal Microsoft Excel. Google Chrome Extraction Scraper hija qawwija screen scraping tool li taħdem kemm fuq Windows u Mac OS.

Għaliex l-Extension Rraxxatur Google Chrome?

Il-barraxa ta 'estensjoni tal-Google Chrome hija għodda qawwija ta' skriping tal-iskrin li tmur b'xejn fuq Chrome Web Store - lamberts pea protein amazon. Din l-għodda brix hija installata fil-browser Chrome bħala plugin. Il-plugin jippermetti lill-bloggers u l-kummerċjanti biex jerġgħu jiksbu d-dejta minn paġni tal-web billi jikklikkjaw fuq xi element. '' Scrape Simili '' għandha toħroġ fuq l-iskrin tiegħek jekk ikklikkja fuq il-lemin element.

Introduzzjoni għal XPaths

XPath hija lingwa ta 'programmar użata biex issib informazzjoni kruċjali fl-istrutturi XML. Il-fajl HTML huwa eżempju eċċellenti ta 'struttura XML. XPath tintuża komunement biex tagħżel nodi mmirati. F'dan il-kuntest, l-XPaths se jintużaw biex jiddeterminaw it-test li għandu jiġi estratt fuq paġna web. XPaths se jgħin ukoll biex jidentifika l-ismijiet tal-partijiet u n-numri tat-telefon tad-deputati Svediżi.

Bl-użu tar-ruttam tal-Google Chrome biex ikollok aċċess għad-dettalji ta 'l-indirizz ta' 349 MP Svediżi

Bl-Iskraper ta 'Chrome, estrazzjoni ta' informazzjoni minn paġna web mhix sempliċi iżda wkoll meraviljuża. Int ser ikollok tgawdi l-proċess u t-teknika nfisha.

Il-websajt telenka l-membri Svediżi kollha u l-indirizzi tagħhom. Biex tibda, ikklikkja fuq kwalunkwe MP u agħżel "Scrape simili. "Għandek tara d-display li ġej fuq l-iskrin tiegħek.

Jekk ikklikkja fuq il-lemin fuq MP waħda u agħżel "Spezzjona l-element," se tinħoloq lista alfabetika taħt "" grid_6 alpha omega klassi tar-riżultat tat-tiftix ". Se jintużaw żewġ passi biex jinbarax din il-paġna. L-ewwel pass se jinvolvi l-għażla ta 'tikketti li jinkludu informazzjoni minn MP bi XPath. It-tieni stadju se jinvolvi li jintgħażlu partijiet speċifiċi ta 'dejta bħal ismijiet ta' partijiet, ismijiet u numru tat-telefon u torganizza d-dejta f'kolonni.

Stadju 1

Żid aktar fil-fond l-istruttura HTML u żomm l-elementi intatti. Indika t-tikketti biex tidentifika n-numru ta 'tikketti li jikkorrispondu ma' elementi fuq l-istruttura tiegħek. Identifika l-aħħar lametta li tinkludi d-dejta mmirata. Mexxi test XPath fuq l-istruttura billi tikklikkja "Scrape. "

Lista fuq 349 ringiela tidher fuq l-iskrin tiegħek. 349 jirrappreżentaw in-numru totali tad-deputati Żvediżi.

Stadju 2

Iddeskartja d-data ppreżentata f'kolonni. Spezzjona l-kodiċi HTML fuq il-paġni tal-internet li kont qed tuża. F'dan il-każ, il-biċċiet li għandhom jiġu estratti f'dan il-mument huma enfasizzati bl-isfar. Daħħal l-XPaths fil-qasam tal-kolonni maħluq u kklikkja "Scrape" biex tmexxi l-plugin.

Jekk għandek għarfien bażiku ta 'XPaths, l-ipprogrammar ta' fehim mhux se jkun kompitu hectic għalik. Il-passi msemmija hawn fuq jiggwidawk dwar kif tiskrinja l-paġna tal-paġni. Jekk qed taħdem fuq brix ta 'bosta paġni tal-web, jeħtieġ li jkollok ħiliet ta' programmazzjoni.

December 22, 2017