Espert ta ’Semalt Jipprovdi Gwida Biex Tqaxxar Il-Web B’Javascript

Il-brix tal-web jista 'jkun sors eċċellenti ta' dejta kritika li tintuża fil-proċess tat-teħid tad-deċiżjonijiet f'kull negozju. Għalhekk, huwa fil-qalba tal-analiżi tad-dejta għaliex huwa l-mod wieħed żgur li tinġabar dejta affidabbli. Iżda, minħabba li l-ammont ta 'kontenut onlajn disponibbli biex jiġi skrappjat dejjem qiegħed jiżdied, jista' jsir kważi impossibbli li r-ruttam ta 'kull paġna manwalment. Dan jitlob awtomazzjoni.

Filwaqt li hemm ħafna għodda hemmhekk imfassla għal proġetti differenti ta 'brix awtomatizzat, il-biċċa l-kbira minnhom huma premium u jiswik fortuna. Dan huwa fejn Puppeteer + Chrome + Node.JS jidħlu. Dan it-tutorja jiggwidak permezz tal-proċess li jiżgura li tista 'tinbarax il-websajts bil-ħeffa awtomatikament.

Kif taħdem is-setup?

Huwa importanti li wieħed jinnota li li jkollok ftit għarfien dwar JavaScript se jkun ta 'għajnuna f'dan il-proġett. Biex nibdew, ikollok tikseb l-hawn fuq 3 programmi separatament. Puppeteer huwa Librerija tan-Nodi li tista 'tintuża biex tikkontrolla Chrome mingħajr ras. Chrome mingħajr ras tirreferi għall-proċess li tmexxi chrome mingħajr l-GUI tiegħu, jew fi kliem ieħor mingħajr li tmexxi chrome. Int ser ikollok tinstalla Node 8+ mill-websajt uffiċjali tagħha.

Wara li installajt il-programmi, wasal iż-żmien li jinħoloq proġett ġdid sabiex tibda titfassal il-kodiċi. Idealment, huwa JavaScript jinbarax billi tuża l-kodiċi biex tgħaqqad il-proċess tal-brix. Għal aktar informazzjoni dwar Puppeteer irreferi għad-dokumentazzjoni tiegħu, hemm mijiet ta 'eżempji disponibbli għalik li tilgħab.

Kif awtomat il-brix tal-JavaScript

Meta toħloq proġett ġdid, ipproċedi biex toħloq fajl (.js). Fl-ewwel linja, ser ikollok ċċempel id-dipendenza ta 'Puppeteer li kellek installat qabel. Din tiġi segwita minn funzjoni primarja "getPic ()" li ser iżżomm il-kodiċi tal-awtomazzjoni kollha. It-tielet linja se tinvoka l-funzjoni "getPic ()" biex titħaddem. Meta wieħed iqis li l-funzjoni getPic () hija funzjoni "async", allura nistgħu nużaw l-espressjoni stennija li se nieqaf il-funzjoni waqt li nistennew li "l-wegħda" tissolva qabel tgħaddi għal-linja tal-kodiċi li jmiss. Dan jiffunzjona bħala l-funzjoni tal-awtomazzjoni primarja.

Kif cempel chrome bla ras

Il-linja tal-kodiċi li jmiss: "const browser = tistenna puppeteer.Launch ();" awtomatikament iniedi puppeteer u jmexxi istanza chrome billi tissettjaha għall-varjabbli "browser" li għadu kif ġie maħluq. Ipproċedi biex toħloq paġna li mbagħad tintuża biex tinnaviga għall-URL li trid ir-ruttam.

Kif tintuża skart tad-dejta

Puppeteer API jippermettilek tilgħab madwar inputs differenti tal-websajt bħal clocking, mili tal-formola kif ukoll qari tad-dejta. Tista 'tirreferi għaliha biex ikollok veduta mill-qrib dwar kif tista' awtomat dawk il-proċessi. Il-funzjoni "barraxa ()" tintuża biex tiddaħħal il-kodiċi tal-brix tagħna. Ipproċedi biex tmexxi l-funzjoni node scrape.js biex tibda l-proċess tal-brix. Is-setup kollu għandu mbagħad jibda awtomatikament joħroġ il-kontenut meħtieġ. Huwa importanti li tiftakar li tgħaddi mill-kodiċi tiegħek u tivverifika li kollox qed jaħdem skont id-disinn biex tevita li tinkorpora żbalji matul it-triq.