[ CorZe @ 05.10.2010. 11:12 ] @
Pozdrav interesuje me da li neko ima iskustva sa apache nutch-om, kakvi su vam utisci i slicno, hvala
[ Dejan Lozanovic @ 06.10.2010. 22:32 ] @
Ne znam sta te konkretno zanima ? Nutch je vise sklop par razlicitih komponenti , generalno pustis ga da crawluje net i nakon par sati mislim da mozes vec da dobijes nekakav rezultat querija.
[ CorZe @ 07.10.2010. 11:02 ] @
pa interesuje me koliko prostora na hard disku treba za skeniranje neta znaci web search nekih 100 miliona sajtova
[ hoplit @ 11.10.2010. 23:17 ] @
ako 1 sajt ima u prosjeku , npr. nekih 1 mb , 100 miliona sajtova ti je oko 100 TB . Dakle , ni govora o 1 hd . S tim da sajt ima u prosjeku mnogo vise od 1mb , tesko da ce to da fercera :)
[ Dejan Lozanovic @ 12.10.2010. 15:15 ] @
Citat:
hoplit: ako 1 sajt ima u prosjeku , npr. nekih 1 mb , 100 miliona sajtova ti je oko 100 TB . Dakle , ni govora o 1 hd . S tim da sajt ima u prosjeku mnogo vise od 1mb , tesko da ce to da fercera :)


Mnogo vise od 1MB cistog html-a, znaci nista slike. U svakom slucaju to prelazi kapacitet jednog kompjutera.
[ iMac @ 23.10.2010. 23:21 ] @
Ne bih ti preporucio nutch nikako ako koristis svoju masinu za testiranje, ucenje i tako to. Nije optimizovan za jednu masinu. Pre bih ti savetovao da pises svoje botove koji ce krolovati, da sam napises parsere i siguran sam da ces, em nauciti vise sta se desava ispod haube i kako su sajtovi organizovani nego da koristis Nutch kao crnu kutiju iz koje dobijas neke podatke. To ti je moja preporuka.