[ WawaHOO! @ 03.03.2006. 20:08 ] @
Potrebna mi je pomoc oko pravljenja web pauka tj. crawlera koji ce indeksirati pojmove koje mu navedem. Konkretno,intresuje me kako se takav crawler programira (koji se jezik koristi itd...) i kako da napisem algoritam koji ce rangirati rezultate.

Ako bude zaintresovanih za pomoc zeleo bih da postavim jos par pitanja.

Hvala unapred

[Ovu poruku je menjao WawaHOO! dana 24.03.2006. u 14:31 GMT+1]
[ WawaHOO! @ 24.03.2006. 13:34 ] @
Toliko strucni ljudi na ovom forumu a nijedan odgovor,ne moguce da niko ne zna.
Dajte barem neki savet oko pravljenja pretrazivaca ili tako nesto sto bi pomoglo,ne morate da krijete znanje.
Jezik neki ili nesto...
[ bsaric @ 24.03.2006. 14:00 ] @
Zaposli stručnjake na tom polju i pripremi budžet od nekoliko milijuna eura :)

Savjet koji tražiš nije realan za dobit.
[ WawaHOO! @ 24.03.2006. 14:08 ] @
Ne mislim ja da napravim Google vec mali pretrazivac za 5000-6000 strana :-)
[ jablan @ 24.03.2006. 14:11 ] @
Citat:
WawaHOO!: Toliko strucni ljudi na ovom forumu a nijedan odgovor,ne moguce da niko ne zna.

Možda se ljudi plaše ovoga:
Citat:
WawaHOO!: Ako bude zaintresovanih za pomoc zeleo bih da postavim jos par pitanja.

Crawler možeš napraviti praktično u bilo kom programskom jeziku opšte namene.
[ bojan_bozovic @ 24.03.2006. 14:18 ] @
Jedan, W3C validator, mozes da skines kao perl skriptu (mislim da koristi libwww) http://validator.w3.org/source/

@bsaric

Halo? Sta to pricas? W3C nije potosio milione evra na ovaj!

[Ovu poruku je menjao bojan_bozovic dana 24.03.2006. u 15:20 GMT+1]
[ bsaric @ 24.03.2006. 14:49 ] @
a čuj nije bio precizan u pitanju, pa niti ja :)
[ _owl_ @ 24.03.2006. 20:37 ] @
Nije tesko napraviti jednostavan crawler, taj program samo treba da prodje kroz HTML dokument i pronadje linkove u <a href=...> tagovima (ako sada zanemarimo JS pomocu kojeg mogu da se zamaskiraju linkovi).
Algoritam koji bi prikupljene podatke rangirao na osnovu kljucnih moze vredeti mnogo para.
[ mongule @ 03.10.2006. 14:40 ] @
Webspider mozes i besplatno da skines na ovoj adresi:

Webspider download
[ adamm @ 03.10.2006. 17:10 ] @
Nutch je Open Source SE pisan u Javi.

Google "Nutch"
[ markobgd @ 25.10.2006. 13:20 ] @
evo npr neka moja ideja ;)
ako hoces da tako nesto isprogramiras, treba ti xml/tidy/regexp
znachi pocnes od neke strane, libtidy sredi kod da bude xml valid, xml-om povadis a href-ove nadjes vrednost href-a uneses u queue, i tako redom citas iz queue.
znachi, bukvalno pratis linkove od svake strane i dajes da ide ka drugoj strani. e sad ogranicenje tu moze biti content.. npr, ako hoces samo yu sajtove da dodas u queue, moras neki algoritam da napravis da proceni dal je yu sajt ili nije;). sve te pronadjene href-ove analiziras za keyword-e pomocu regexp.. i unosis u neku svoju bazu, gde matchujes keyword sa link-om i nekim njenim rangom... za rang isto napravis neki mali algoritam, npr po broju stranica pronadjenih ili po broju linkova, da bi mogao output za neki keyword da sortiras.. ;)
to bi bila neka moja ideja ;)

poz