Kako da napravim crawler za sopstveni pretrazivac

[ WawaHOO! @ 03.03.2006. 20:08 ] @

Potrebna mi je pomoc oko pravljenja web pauka tj. crawlera koji ce indeksirati pojmove koje mu navedem. Konkretno,intresuje me kako se takav crawler programira (koji se jezik koristi itd...) i kako da napisem algoritam koji ce rangirati rezultate.

Ako bude zaintresovanih za pomoc zeleo bih da postavim jos par pitanja.

Hvala unapred

_{[Ovu poruku je menjao WawaHOO! dana 24.03.2006. u 14:31 GMT+1]}

[ WawaHOO! @ 24.03.2006. 13:34 ] @

Toliko strucni ljudi na ovom forumu a nijedan odgovor,ne moguce da niko ne zna.
Dajte barem neki savet oko pravljenja pretrazivaca ili tako nesto sto bi pomoglo,ne morate da krijete znanje.
Jezik neki ili nesto...

[ bsaric @ 24.03.2006. 14:00 ] @

Zaposli stručnjake na tom polju i pripremi budžet od nekoliko milijuna eura :)

Savjet koji tražiš nije realan za dobit.

[ WawaHOO! @ 24.03.2006. 14:08 ] @

Ne mislim ja da napravim Google vec mali pretrazivac za 5000-6000 strana :-)

[ jablan @ 24.03.2006. 14:11 ] @

Citat:

WawaHOO!: Toliko strucni ljudi na ovom forumu a nijedan odgovor,ne moguce da niko ne zna.

Možda se ljudi plaše ovoga:

Citat:

WawaHOO!: Ako bude zaintresovanih za pomoc zeleo bih da postavim jos par pitanja.

Crawler možeš napraviti praktično u bilo kom programskom jeziku opšte namene.

[ bojan_bozovic @ 24.03.2006. 14:18 ] @

Jedan, W3C validator, mozes da skines kao perl skriptu (mislim da koristi libwww) http://validator.w3.org/source/

@bsaric

Halo? Sta to pricas? W3C nije potosio milione evra na ovaj!

_{[Ovu poruku je menjao bojan_bozovic dana 24.03.2006. u 15:20 GMT+1]}

[ bsaric @ 24.03.2006. 14:49 ] @

a čuj nije bio precizan u pitanju, pa niti ja :)

[ _owl_ @ 24.03.2006. 20:37 ] @

Nije tesko napraviti jednostavan crawler, taj program samo treba da prodje kroz HTML dokument i pronadje linkove u <a href=...> tagovima (ako sada zanemarimo JS pomocu kojeg mogu da se zamaskiraju linkovi).
Algoritam koji bi prikupljene podatke rangirao na osnovu kljucnih moze vredeti mnogo para.

[ mongule @ 03.10.2006. 14:40 ] @

Webspider mozes i besplatno da skines na ovoj adresi:

Webspider download

[ adamm @ 03.10.2006. 17:10 ] @

Nutch je Open Source SE pisan u Javi.

Google "Nutch"

[ markobgd @ 25.10.2006. 13:20 ] @

evo npr neka moja ideja ;)
ako hoces da tako nesto isprogramiras, treba ti xml/tidy/regexp
znachi pocnes od neke strane, libtidy sredi kod da bude xml valid, xml-om povadis a href-ove nadjes vrednost href-a uneses u queue, i tako redom citas iz queue.
znachi, bukvalno pratis linkove od svake strane i dajes da ide ka drugoj strani. e sad ogranicenje tu moze biti content.. npr, ako hoces samo yu sajtove da dodas u queue, moras neki algoritam da napravis da proceni dal je yu sajt ili nije;). sve te pronadjene href-ove analiziras za keyword-e pomocu regexp.. i unosis u neku svoju bazu, gde matchujes keyword sa link-om i nekim njenim rangom... za rang isto napravis neki mali algoritam, npr po broju stranica pronadjenih ili po broju linkova, da bi mogao output za neki keyword da sortiras.. ;)
to bi bila neka moja ideja ;)

poz