Veebi kraapimine: head ja halvad robotid - Semalt selgitus

Botid moodustavad peaaegu 55 protsenti kogu veebiliiklusest. See tähendab, et suurem osa teie veebisaidi liiklusest tuleb pigem Interneti-robotite kui inimeste kaudu. Bot on tarkvararakendus, mis vastutab automatiseeritud toimingute eest digitaalses maailmas. Botid täidavad tavaliselt korduvaid ülesandeid suure kiirusega ja on inimestele enamasti ebasoovitavad. Nad vastutavad pisikeste tööde eest, mida me tavaliselt iseenesestmõistetavaks peame, sealhulgas otsingumootorite indekseerimine, veebisaidi tervise jälgimine, selle kiiruse mõõtmine, API-de toide ja veebisisu hankimine. Roboteid kasutatakse ka turbeauditi automatiseerimiseks ja teie saitide skannimiseks, et leida nõrkusi, kõrvaldades need koheselt.

Heade ja halbade robotite erinevuse uurimine:

Robotid saab jagada kahte erinevasse kategooriasse: head robotid ja halvad robotid. Head robotid külastavad teie saite ja aitavad otsingumootoritel erinevaid veebisaite indekseerida. Näiteks indekseerib Googlebot Google'i tulemustes rohkesti veebisaite ja aitab Internetis uusi veebisaite avastada. See kasutab algoritme, et hinnata, milliseid blogisid või veebisaite tuleks indekseerida, kui sageli tuleks roomata ja mitu lehte on seni indekseeritud. Halvad robotid vastutavad pahatahtlike toimingute, sealhulgas veebisaitide kraapimise, kommentaaride rämpsposti ja DDoS-i rünnakute eest. Need moodustavad üle 30 protsendi kogu Interneti-liiklusest. Häkkerid täidavad halvad robotid ja täidavad mitmesuguseid pahatahtlikke toiminguid. Nad skannivad miljoneid miljardeid veebisaite ja nende eesmärk on ebaseaduslikku sisu varastada või kraapida. Samuti tarbivad nad ribalaiust ja otsivad pidevalt pistikprogramme ja tarkvara, mida saab kasutada teie veebisaitide ja andmebaaside tungimiseks.

Mis kahju?

Tavaliselt vaatavad otsimootorid kraapitud sisu duplikaadina. See on teie otsingumootorite paremusjärjestusele kahjulik ja teie skriptid haaravad teie RSS-kanalid teie sisule juurde pääsemiseks ja uuesti avaldamiseks. Selle tehnikaga teenivad nad palju raha. Kahjuks pole otsimootorid halbadest robotitest vabanemiseks ühtegi viisi rakendanud. See tähendab, et kui teie sisu korrapäraselt kopeeritakse ja kleebitakse, rikub saidi asetus mõne nädala pärast. Otsimootorid karistavad saite, mis sisaldavad dubleerivat sisu, ja nad ei suuda tuvastada, millisel veebisaidil sisu esmakordselt avaldati.

Kõik veebi kraapimine pole halb

Peame tunnistama, et kraapimine ei ole alati kahjulik ja pahatahtlik. Veebisaitide omanikele on see kasulik, kui nad soovivad andmeid levitada võimalikult paljudele isikutele. Näiteks pakuvad valitsuse saidid ja reisiportaalid üldsusele kasulikke andmeid. Seda tüüpi andmed on tavaliselt saadaval API-de kaudu ja nende andmete kogumiseks kasutatakse skreeperit. Mitte mingil juhul pole see teie veebisaidile kahjulik. Isegi selle sisu kraapimisel ei kahjusta see teie veebiettevõtte mainet.

Veel üks näide autentsest ja seaduslikust kraapimisest on koondsaidid, näiteks hotellide broneerimise portaalid, kontsertide piletite saidid ja uudiste turustusvõimalused. Nende veebilehtede sisu levitamise eest vastutavad robotid hangivad andmeid API-de kaudu ja kraapivad seda vastavalt teie juhistele. Nende eesmärk on liiklust juhtida ja veebimeistritele ning programmeerijatele teavet hankida.