úterý 14. prosince 2010

Web scraping


Firmy zaoberajúce sa predajom údajov a užívateľoch internetu, získaných zbieraním ich detailov z konverzácií, sociálnych sietí, pracovných portálov (životopisy) a fór, skrátka zo všadiaľ, kde ľudia odhaľujú svoj život. Aj to je realita dnešného Internetu. Tomu čo web scraping, znamená, kto sa ním zaoberá a ako to funguje sa v krátkosti venuje tento tento článok.

Slová web scraping, web harvesting a web data extraction v preklade do slovenčiny znamenajú zbieranie dát na webe. Doslova sa jedná o zoškrabávanie a zber. Wikipedia definuje web scraping ako softwarovú techniku získavania informácií z webových stránok. Väčšinou tieto programy simulujú ľudské prehliadanie webu implementáciou nízko-úrovňového http alebo sa vryjú do webových prehliadačov. Web scraping má blízko k webovému indexovaniu, kde robot indexuje obsah webových stránok a ktoré využíva väčšina internetových vyhľadávačov. Príkladmi web scrapingu je napríklad on-line porovnávanie cien, monitorovanie dát o počasí a detekcia zmeny stránky. Avšak web scraping sa môže zaoberať aj získavaním dát o anonymných užívateľoch a ich prepojením na konkrétne blogy, stránky alebo profily, čím sa anonymita vytráca.

Denník Wall Street Journal nedávno vo svojom článku o web scrapingu uviedol príklad zneužitia. Užívateľ (registrovaný pod prezývkou) na stránke PatientsLikeMe.com , kde ľudia môžu zdieľať citlivé informácie o ich zdravotných problémoch sa stal obeťou tejto techniky. Jednalo sa o nepovolené vniknutie, keď nový užívateľ stránky začal „zoškrabovať“ všetky jednotlivé príspevky na fóre danej stránky. Hoci sa vlastníkovi stránky podarilo podozrivého užívateľa odstaviť, stihol profil daného človeka prepojiť s jeho blogom, kde sa nachádzalo jeho skutočné meno. Jednalo sa o spoločnosť Nielsen Co., založenú New Yorku, ktorá sa zaoberá prieskumom mediálneho trhu a medzi ktorej klientov patria aj spoločnosti vyrábajúce lieky a ktoré kupujú dáta z webu aby získali náhľad od užívateľov na ich produkty. Spoločnosť Nielsen tvrdí, že už ďalej nescrapuje stránky ktoré vyžadujú pre prístup užívateľský účet. Táto firma je lídrom v monitorovaní sociálnych médií, zbiera údaje zo 130 miliónov blogov, 8000 diskusií, Twitteru a sociálnych sietí. Vo svojom portfóliu má službu "ThreatTracker", ktorá upozorní spoločnosť, ak je na ňu referované v negatívnom obraze. Vzhľadom k marketingovému materiálu spoločnosti patrí medzi jej klientov dvanásť najväčších farmaceutických spoločností. Nemožno sa čudovať, že záujem o takto získané informácie je značný. Získané dáta majú neobmedzené využitie, napríklad pre potreby priameho marketingu, sledovania chovania spotrebiteľov, zamestnancov, uchádzačov o prácu alebo samozrejme existuje aj priestor pre zneužitie. Podľa denníka Wall Street Journal sa trh s online dátami do roku 2012 zdvojnásobí na 840 mil. USD zo 410 mil. USD v roku 2009.

Zatiaľ čo niektoré spoločnosti zbierajú osobné informácie preto aby získali detailné informačné pozadie o ľuďoch, iné ponúkajú rôzne služby ktoré sú dostupné aj širokej verejnosti. Napríklad stránka Date Check ponúka službu, ktorá skontroluje kriminálne pozadie osoby, s ktorou sa chystáte na rande za 15 USD. Iné spoločnosti o scrapingu vedia, ale ponúkajú dáta len z tej časti stránky kam nie je treba sa registrovať. Iné spoločnosti predávajú dáta z celej stránky, ale len anonymne. Spoločnosti ponúkajúce služby web scrapingu argumentujú, že raz čo už boli nejaké dáta dobrovoľne zdieľané, je možné ich získať a predať. Ak to vraj neurobia oni, urobí to niekto iný. V podstate je možné s týmto názorom súhlasiť, ale otázkou je do akej miery by mali byť rôzne informácie pomocou algoritmov prepojované a spájané s konkrétnou osobou, pričom tá osoba si želala zostať v anonymite. Firma PeekYou LLC sa špecializuje na spojenie reálnych mien s účtami a pseudonymami v blogoch, Twitteri a iných sociálnych sieťach na internete. Táto spoločnosť dokonca podala žiadosť na zaregistrovania patentu jej postupu pri tejto činnosti. Schému ilustruje obrázok vpravo. Algoritmus priraďuje podľa typu odpovede na otázky body a pri dosiahnutí stanoveného množstva priradí informácie ku konkrétnej osobe alebo profilu.

Na boj proti scraperom využívajú stránky tzv. captchas čo sú strojovo nečitateľné písmená a ľudská osoba tak dokáže, že nie je robot. Takisto pre túto činnosť blokovania scraperov existujú vo svete rôzne firmy, ale tvrdia, že blokovanie scraperov len zvýši počet pokusov o scrapovanie stránky.

Scraperi sa nachádzajú v šedej zóne práva, medzinárodne sa anti-scrapingové zákony sa líšia. Scraping je všade prítomný ale otázny. Každý to robí ale nie je jasné či by to malo byť umožnené každému a bez povolenia.

Z toho čo tu bolo uvedené vyplýva, že scraping má vo svete dát už svoje pevné miesto a dá sa očakávať len jeho rozvoj. Samozrejme ak nedôjde k ráznemu obmedzeniu zo strany zákonov. Užívatelia by mali byť stále viac obozretnejší, aké informácie dávajú o sebe na web, pretože tieto môžu byť zneužité aj keď sú zdieľané anonymne.

Ak by ste si chceli scraping vyskúšať, na webovej stránke www.screen-scraper.com je možné si zdarma stiahnuť základnú verziu programu, ktorá po inštalácii zaberá 100MB.

Žádné komentáře:

Okomentovat