Kako narediti spletnega bota
Iskalniki, kot sta Google ali Yahoo!, potegnejo spletne strani med svoje rezultate iskanja s pomočjo spletnih robotov (včasih imenovanih tudi pajki ali pajki), ki so programi, ki skenirajo internet in indeksirajo spletna mesta v bazo podatkov. Spletne robote je mogoče izdelati z uporabo večine programskih jezikov, vključno s C, Perl, Python in PHP, ki vsi programskim inženirjem omogočajo pisanje skriptov, ki izvajajo postopkovna opravila, kot sta spletno skeniranje in indeksiranje.
1. korak
Odprite aplikacijo za urejanje navadnega besedila, kot je Beležnica, ki je vključena v Microsoft Windows, ali TextEdit Mac OS X, kjer boste avtor aplikacije Python Web bot.
2. korak
Zaženite skript Python tako, da vključite naslednje vrstice kode in zamenjate vzorčni URL z URL-jem spletnega mesta, ki ga želite pregledati, in ime vzorčne baze podatkov z bazo podatkov, ki bo shranjevala rezultate:
import urllib2, re, string enter_point ='http://www.exampleurl.com' db_name ='example.sql'
3. korak
Vključite naslednje vrstice kode, da določite zaporedje operacij, ki jim bo sledil spletni bot:
def uniq(seq):set ={} map(set.setitem , seq, []) vrni set.keys()
4. korak
Pridobite URL-je v strukturi spletnega mesta z uporabo naslednjih vrstic kode:
def geturls(url):items =[] request =urllib2.Request(url) request.add.header('Uporabnik', 'Bot_name;)') content =urllib2.urlopen(request).read() items =re. findall('href="http://.?"', content) urls =[] vrni urls
5. korak
Določite zbirko podatkov, ki jo bo uporabljal spletni bot, in določite, katere informacije naj shrani za dokončanje izdelave spletnega bota:
db =open(db_name, 'a') allurls =uniq(geturls(enter_point))
6. korak
Shranite besedilni dokument in ga naložite na strežnik ali računalnik z internetno povezavo, kjer lahko izvedete skript in začnete skenirati spletne strani.