[ tOwk @ 16.06.2003. 19:43 ] @
Pošto vidim da je počeo da beleži stranice, ono što me zanima je kako Gugl zaključuje o kom se jeziku radi. Prvo sam koristio HTTP zaglavlje „Content-Language“ (postavljeno na „sr“), a zatim sam isto to dodao i među META HTTP-EQUIV oznake (mada to ne bi trebalo da je relavantno). Ipak, i dalje ništa, tj. Google procenjuje proizvoljno na kom su jeziku stranice.

Kao primer, sve stranice niže je proglasio za „ruski“ jezik:
http://www.google.com/search?h...=+site:prevod.org+gnome+prevod


Drugi problem koji imam je da kada ukucam „prevod“ na 6–7 mestu dobijem ovu stranicu, ali ona sadrži neki opis koji je bio na serveru jedno nedelju dana u aprilu, a posle toga još neko vreme je korišćena kao „errordocument“ stranica. Ubrzo je potpuno uklonjena, ali i dalje se ona nalazi u Guglovom kešu, iako je jednom prilikom (početkom juna) postojala ispravna verzija.

Pa, kako Gugl kešira, i otkud ovako suludo ponašanje?

Što se ostalog tiče, kako funkcionišu ovi novi „roboti“, pošto vidim da su neke unutrašnje stranice indeksirane, a početna nije (link ka njoj se nalazi na svakoj unutrašnjoj stranici)?
[ byTer @ 16.06.2003. 20:00 ] @
Sto se Googlea tice, mislim da nema sta da se zameri, jer je stvarno djavolski dobar. Ipak, mene vise buni kako uspevaju da kesiraju ceo onternet... (verovatno imaju neki algoritam za kompresiju), a sto se tice jezika mozda su, ukoliko nema navedenog taga na stranici, pozajmili algoritam za prevod, pa su preveli deo teksta stranice ;) mada ;) iako je moguce da sortiraju najtacnije reyultate (recimo po tom tagu) pa tek onda one koji nemaju taj tag... Ne znam sta bi drugo moglo da bude.
[ tOwk @ 16.06.2003. 20:05 ] @
????

Napomenuću da je „Content-Language“ HTTP zaglavlje, i samim tim deo svake HTTP poruke, i obavezno se šalje uz svaku HTTP poruku sa ovih stranica (osim u slučaju Apache index-a, ali tada i nije potreban).

Za neupućene, šalje se na isti način kao i Content-Type, koji uključuje i charset parametar.
[ Vukan Karadžić @ 16.06.2003. 21:52 ] @
Da budem iskren, ne znam odgovor na ovo oko jezika, ali dobra je vest da ces nakon ovog update- verovatno biti prvi za "prevod" : http://www-fi.google.com/searc...=prevod&btnG=Google+Search :)
A sto se kesiranja tice: kao sto sam rekao, u ovom update ce referentan biti fi datacentar, i (makar) na njemu bi morao biti novi index i novi cache.
<edit: provereno, jeste : http://216.239.41.100/search?q...+prevod&hl=en&ie=UTF-8 >
[ tOwk @ 17.06.2003. 10:45 ] @
Hvala u svakom slučaju (i na tim podacima sa „fi datacentra“) ;-)
[ sojic @ 08.02.2005. 14:22 ] @
Slucajno sam naisao na ovu temu. I mene je to mucilo: http://www.elitesecurity.org/tema/85638

Ako moze malo vise detelje.