Google indeksira 8 milijardi strana

[ boccio @ 13.11.2004. 17:59 ] @

Eto, zapusili su nam usta...Google's index nearly doubles. Pustili su da spekulisemo o tome kako su pukli sa 4-bajtnim DocID, kako ih MSN gazi, i onda iz cista mira (vedra neba? :)) duplirali index...

Medjutim, izgleda da talasanje tek pocinje...neke strane su mi ispale iz indeksa (URL only), sto je prilicno cudno. Zanima me da li je neko od vas primetio zadnjih nedelju dana divljanje googlebota? Ja nisam, pa mi se cini da ovo sad nije slucajno, nego su izgleda mesecima cekali "na penal" da odjednom lansiraju dupliranje indeksa...Osim toga ni jedan sajt mi nije pokazao primetno uvecanje broja indeksiranih strana...

Ne sumnjam da je solidan broj strana koje sad uvecavaju index i dalje spam / doorway / etc... ali trebalo bi da postojeci sajtovi sa velikim footprintom pokazu ovu promenu u indeksu. Jel neko to vidi?

Gojko, sta kaze ES? jel indexirano primetno vise strana? nisam pratio ranije, pa ne mogu da ocenim...

[ crodream.com @ 13.11.2004. 19:35 ] @

Citat:

jel indexirano primetno vise strana

meni iako imam oko 1000 prikazuje indeksirano 3130 iako ne znam odkuda toliko:)

[ Ilija Studen @ 13.11.2004. 20:51 ] @

Recimo: http://www.php9.com/index.php?p=27

[ boccio @ 14.11.2004. 11:43 ] @

da...ne znam, meni se cudne stvari desavaju. po logovima jednog sajta ispade da je googlebot napadao nekih 20% vise u oktobru nego sad...

Promene u SERP-ovima? Jel ima nekih znacajnijih oscilacija?

[ Gojko Vujovic @ 14.11.2004. 12:13 ] @

Sve je to čist marketing, ništa se pametno neće promeniti. Ja kad sam saznao da ne možeš da dobiješ više od 1000 rezultata za bilo koji keyword, razočarao sam se u moć gugla. Pa zato on tako brzo i radi, sve dobro preindeksirano u matrici i u RAMu, ni nema šta da ga uspori kad drži tako malo stranica... a skripta kao procenjuje da te reči ima na 200000, milion i slično tome.. a od toga često ne može NI 1000 da ti prikaže.

[ -zombie- @ 15.11.2004. 05:07 ] @

odakle ti to da google "drži tako malo (1000 per keyword) stranica u RAMu" ??

naravno, postoje limiti koje je google nametnuo (pretpostavljam) prvenstveno da bi zaštitio svoj index i svoju tehnologiju (jel inače, zašto bi ti ikada trebalo više od 1000 rezultata za jedan keyword, osim da izučavaš kako google radi?)..

pa i pored toga što postoje limiti, ipak je moguće dobiti i više od 1000 rezultata. recimo, prvo pada na pamet da se rezultat podeli uz pomoć dodatne ključne reči (uključivanjem i isključivanjem iz pretrage)..

http://google.com/search?q=eli...y+site:elitesecurity.org+-tema

drugi način je recimo uz pomoć manje poznatog daterange: operatora..

http://google.com/search?q=dat...litesecurity.org+elitesecurity

jeste da nije uvek precizno (valjda se za datum stranice uzima kada je google (prvi?) put indexirao), i jeste da za neki dan može da bude više od 1000 rezultata (našao sam da je google u samo jednom danu indexirao preko 9000 stranica ESa), ali i to se da posle iscepkati prvom metodom (uključi/isključi dodatni keyword)..

a što se 8 milijardi stranica tiče, slažem se da je to prvenstveno marketing.. mene stvarno briga da li će google da indexira svih 20 milijardi web stranica (ili koliko već postoji), ili će da indexira samo onih "bitnih" par (stotina) miliona.. isto kao što me boli uvo da li moj upit zadovoljava 10 ili 10,000 stranica, mene interesuje ona jedna (najbolje ako je prva ;) koja je baš ono što sam tražio..

tako da je razmetanje sa brojem indexiranih stranica čist marketing (verovatno izazavan najavom msn-beta pretrage koja se hvali sa 5 milijardi stranica), a ključ za uspeh pretraživača je u štelovanju algoritma rangiranja, tako da prva stranica u rezultatu bude ujedno i baš ona koju tražim.. :-P

[ Gojko Vujovic @ 15.11.2004. 07:17 ] @

Hajde ovako.. moguće da se nisam snašao sa tim, ali evo šta npr. hoću.

Tražimo reč sex na gulgu. Bez dodatnih keywords, prosta pretraga. Dobijem rezultate, i među 1000 prvih ne mogu da nađem elitesecurity, ali me ipak zanima na kom je mestu rangiran za tu reč. Ne mogu da pregledam preko 1000 rezultata, gugl neće da ih prikazuje (Sorry, Google does not serve more than 1000 results for any query. (You asked for results starting from 999.)). To mogu da saznam.... kako?

[ noviKorisnik @ 15.11.2004. 07:39 ] @

... a da popraviš rejting za sex? Recimo - u titlebaru umesto [es] može da stoji [sex] ;)

[ NetworkAdmin @ 15.11.2004. 08:31 ] @

Domains dostupnih za rjec tomica: 520 (broj rezultata 186,000)
Domains dostupnih za rjec zombie: 718 (broj rezultata 5,380,000)
Domains dostupnih za rjeci tomica+zombie: 179 (broj rezultata 13,100)
domains koji se poklapaju u tomica i zombie: 16
domains koji se poklapaju u zombie i tomica+zombie: 7
domains koji se poklapaju u tomica i tomica+zombie: 18

Search algoritam ocito ne ide duboko mada zadavajuci parametre kao sto je site i slicno moze se izvuci vise rezultata iz google ali u 99% slucajeva

Evo recimo na kojemredoslijedom se nalaze intersect rezultata ta tomica
www.geocities.com
www.epinions.com
www.amazon.com
www.freewebs.com
zombie.codewalkers.com
www.geocities.co.jp
store.artistdirect.com
users.pandora.be
dmoz.org
www.dooyoo.co.uk
membres.lycos.fr
www.elitesecurity.org
www.amazon.co.uk
en.wikipedia.org
directory.google.com
members.aol.com

a ovo je u zombie
www.geocities.com
www.amazon.com
en.wikipedia.org
www.geocities.co.jp
zombie.codewalkers.com
www.freewebs.com
members.aol.com
dmoz.org
www.epinions.com
store.artistdirect.com
www.dooyoo.co.uk
users.pandora.be
www.elitesecurity.org
membres.lycos.fr
www.amazon.co.uk
directory.google.com

ovo je prosti intersect rezultata ali kako vidimo google u tomica+zombie izbaci codewalkers i es kao prve rezultate sto je odlican rezultat.

Ali stoji konstatacija da nam nije dostupna masa jer na osnovu frekvencije rjeci google pretpostavlja broj rezultata tako za "the" je to 8 milijardi a to nije tacno sa svaki dokument u sebi ima "the" slicno je sa "and" a sad trazis "and+the" dobices svega 56 miliona sto govori o kvalitetu "formule" za odredjivanje broja rezultata i stvarno to je cisti marketing koliko ima rezultata u indexu.

Slazem se sa konstatacijom da bas me briga koliko ima stranica ako ja nadjem ono sto trazim.

[ boccio @ 15.11.2004. 18:07 ] @

Citat:

Gojko Vujovic:
Tražimo reč sex na gulgu. Bez dodatnih keywords, prosta pretraga. Dobijem rezultate, i među 1000 prvih ne mogu da nađem elitesecurity, ali me ipak zanima na kom je mestu rangiran za tu reč. Ne mogu da pregledam preko 1000 rezultata, gugl neće da ih prikazuje. To mogu da saznam.... kako?

Nikako :) Cak i da koristis GoogleAPI, opet mozes dobiti samo rezultate do 1K...

prosta cifra nije (bar meni) u fokusu...ono sto me realno zanima, a zato bih voleo da se webmasteri ukljuce u ovu pricu, je da li je to dupliranje indexa donelo neke vece fluktuacije u SERP-ovima (moralo bi!) i da li su povecani footprintovi vecih sajtova. Ako nije - znaci da je cist marketing u pitanju.

...a da li ce u dnu homepage-a gugla da pise 5 triliona ili 12 kvadriliona - zabole me, a koliko vidim i ostali tako misle...

[ NetworkAdmin @ 15.11.2004. 18:56 ] @

sad ljudi ocekuju sta? da se udupla broj posjeta sa google?

NE to ne moze biti (jedino ako se udupla broj pretraga na google).

Sad neko treba da dobije a neko da izgubi u raspodjeli kolaca... ja mislim da word i keyphraze tabele su ostale iste i nije bilo stresova po pojedinim search queries.

Sta se desilo? Pa sami su rekli da oni "rijetki" queries su malo vise dubine dobili jer i index je selektivno pravljen najvise racuna je potroseno na one rijeci i fraze koje se cesce traze.

Bas ovih dana sam nesto radio na jednom algoritmu a i gojko je bio u toku i aktivno sam koristio google kao knowledge base i mogu vam reci da ovo ogranicenje od 1000 po dubini je pravi hendikep

[ -zombie- @ 17.11.2004. 00:03 ] @

Citat:

Gojko Vujovic:
Tražimo reč sex na gulgu. Bez dodatnih keywords, prosta pretraga. Dobijem rezultate, i među 1000 prvih ne mogu da nađem elitesecurity, ali me ipak zanima na kom je mestu rangiran za tu reč.

a gde baš nađe "sex".. što ne probaš bolje "free sex".. :-P

nego ozbiljno, to naravno da ne možeš, ali kome bi "normalnom" tako nešto trebalo?

treba tebi (znači ti si nenormalan :-P), koji želiš da saznaš na kom je mestu ES, i želiš da uradiš nešto po tom pitanju (čitaj, da "prevariš" google), a to je upravo onaj drugi deo o limitu koji postoji da bi zaštitio googlov index i tehnologiju..

Citat:

NetworkAdmin:
Bas ovih dana sam nesto radio na jednom algoritmu a i gojko je bio u toku i aktivno sam koristio google kao knowledge base i mogu vam reci da ovo ogranicenje od 1000 po dubini je pravi hendikep

baš me zanima šta si to tražio za šta ti je trebalo više od 1000 rezultata? osim ako pod "algoritam" ne podrazumevaš neki "algoritam" za SEO "optimizaciju", ali onda i ti potpadaš podpadaš pod onu drugu grupu.. :-P

nego, šta tačno predstavljaju oni rezultati, i kako si ih uopšte i dobio? ;)

[ crodream.com @ 18.11.2004. 19:51 ] @

evo sa: http://www.google.com/googleblog/
što oni kažu za 8 miljardi indeksiranih stranica

Citat:

Wednesday, November 10, 2004

Google's index nearly doubles.
You probably never notice the large number that appears in tiny type at the bottom of the Google home page, but I do. It's a measure of how many pages we have in our index and gives an indication of how broadly we search to find the information you're looking for. Today that number nearly doubled to more than 8 billion pages. That made me smile.

Comprehensiveness is not the only important factor in evaluating a search engine, but it's invaluable for queries that only return a few results. For example, now when I search for friends who previously generated only a handful of results, I see double that number. These are not just copies of the same pages, but truly diverse results that give more information. The same is true for obscure topics, where you're now significantly more likely to find relevant and diverse information about the subjects. You may also notice that the result counts for broader queries (with thousands or millions of results) have gone up substantially. However, as with any search engine, these are estimates, and the real benefit lies with the queries that generate fewer results.

The documents in Google's index are in dozens of file types from HTML to PDF, including PowerPoint, Flash, PostScript and JavaScript. Together these pages represent a good chunk of the world's information, but hardly all of it. That's why we keep building more advanced systems for crawling the web and creating more sophisticated indices to sort what we find. So 8 billion pages is a milestone worth noting, but it's not the end of the road. The real test is how well we do in finding what you want from within those pages. We'll keep improving that too.

Bill Coughran
V.P., Engineering

[ NetworkAdmin @ 19.11.2004. 12:47 ] @

Citat:

-zombie-: baš me zanima šta si to tražio za šta ti je trebalo više od 1000 rezultata? osim ako pod "algoritam" ne podrazumevaš neki "algoritam" za SEO "optimizaciju", ali onda i ti potpadaš podpadaš pod onu drugu grupu.. :-P

nego, šta tačno predstavljaju oni rezultati, i kako si ih uopšte i dobio?

Cuj evo da govorimo o konkretnom slucaju. OSCommerce je vrlo poznata i rasprostranjena free e-commerce skripta. I sad neko bi volio da zna na kojim sve sajtovima se ona koristi. Onda nadjes neku frazu koja se nalazi u OScommerce nekih 6 do 10 rjeci i stavis pod navodnike. I search ti vrati sve rezultate sajtove koji koriste oscommerce i sad ti krenes skines 700 i nesto domains i tacka dalje nema eto to je recimo jedan grubi primjer kako bi nekad bilo korisno ici duble od 1000 strana.

ne govorim o SEO nego o data-mining.

A formula za broj rezultata je isto interesantna stvar da uporedim svoje neke indexe sa googleovim

[ Pancir @ 23.11.2004. 18:56 ] @

Evo postavicu ovde link da probam da udjem medju tih 8 milijardi posto me google uporno izbegava
http://www.pancir.com/vidikovac

_{[Ovu poruku je menjao Pancir dana 09.12.2004. u 15:37 GMT+1]}

[ crodream.com @ 24.11.2004. 19:49 ] @

Citat:

Evo postavicu ovde link da probam da udjem medju tih 8 milijardi posto me google uporno izbegava...

da postaviš robots.txt na server...

upute: http://google.wmd.hr/all-about-robots-txt.htm

[ boccio @ 25.11.2004. 07:19 ] @

ne, robots.txt nema veze sa tim...

[ BytEfLUSh @ 25.11.2004. 11:11 ] @

Citat:

Pancir: Evo postavicu ovde link da probam da udjem medju tih 8 milijardi posto me google uporno izbegava...
http://www.pancir.com/vidikovac

Otkud znaš da te nije ideksirao? Jesi išao da addurl na Google? I kako to misliš da će ti pomoći ako postaviš link ovde?

[ boccio @ 25.11.2004. 11:32 ] @

Ljudi, dajte bar informisite se malo pre nego postujete cisto da bi napisali nesto...

addurl na guglu je opcija koju treba zaobilaziti u sirokom luku, osim ako ti je savrseno svejedno da li i kad ce ti strana biti indexirana. Postavljanje linka na domen pod teskim napadima googlebota (kao es, naprimer) je najbrzi i najsigurniji nacin da ti sajt bude indexiran...

[ BytEfLUSh @ 25.11.2004. 11:34 ] @

Citat:

boccio: Ljudi, dajte bar informisite se malo pre nego postujete cisto da bi napisali nesto...

Isto važi i za tebe. Pogledaj cached verziju ES-a ne google-u, i reci mi kakvi su linkovi?

Inače, sa addurl nikad nisam imao problema i stranice su mi vrlo visoko rangirane.

[ crodream.com @ 25.11.2004. 12:40 ] @

Citat:

ne, robots.txt nema veze sa tim...

znači robots.txt je uzaludan?

meni osobno bez robots.txt je google dolazio tu i tam dve stranice pogledat, a kad sam stavio robots.txt u jednom danu mi indeksirao 500 stranica odjednom, također sam to napravio sa svim svojim stranicama i na svima je bilo isto

[ boccio @ 25.11.2004. 12:57 ] @

Citat:

crodream.com: znači robots.txt je uzaludan?

naravno da nije uzaludan. ali nema nikakve veze sa indexiranjem, tj. u kontekstu u kojem si ga ti upotrebio u tvom postu. poenta tog fajla je cisto da navede bota na to koje dirove da ne crawluje, sta da preskoci, itd...
medjutim stavljanje robots.txt u root nece uticati na to da li ce bot uopste da dodje da ti indexira sajt.

Citat:

BytEfLUSh: Isto važi i za tebe. Pogledaj cached verziju ES-a ne google-u, i reci mi kakvi su linkovi?

e, potpuno si neverovatan :) ajde, glup sam danas, pojasni mi sta to treba da vidim na keshiranoj verziji?

Citat:

BytEfLUSh:
Inače, sa addurl nikad nisam imao problema i stranice su mi vrlo visoko rangirane.

cekaj, posto si ove 2 izjave stavio u istu recenicu dolazim u iskusenje da pomislim da su ti stranice vrlo visoko rangirane zato sto si koristio addurl? a sve i da nisi koristio, kakve veze ima rangiranje stranica sa nacinom na koji ti pretrazivac "pokupi" svezi sajt?!?

off topic: a zivo me zanima sta i koliko ti je to visoko rangirano? ajde, postuj: web stranica, keyword, pozicija...

[ CONFIQ @ 25.11.2004. 19:01 ] @

Google je namenjen za običnog korisnika a ne za geekove koga zanima šta ima posle 1000 stranica.A i pogledajte ostale pretraživače. MSN: 990, Yahoo daje isto kao google tako da i nemate baš neku alternativu ha?

A pod ostalom, ako ne nađem nešto što me zanima na prvih 50 stranica, radije bi promenio pretraživača nego da proveravam ostalih 950 stranica.

Offtopic: ti BytEfLUSh, je li svaki topik moraš da pretvoriš u nepotrebnu svađu?

[ BytEfLUSh @ 25.11.2004. 19:20 ] @

Citat:

e, potpuno si neverovatan :)

Jesam.

Citat:

ajde, glup sam danas, pojasni mi sta to treba da vidim na keshiranoj verziji?

To da linkovi prestaju da budu linkovi. Nestaje <a href...> i prelazi u url=..... Mada, eto priznajem grešku - to važi samo za sajt u profilu i url linkove dok normalni linkovi poput ovog što je Pancir postovao ipak ostaju. Svejedno, čak i meni se ponekad desi da pogrešim, samo što makar znam da priznam grešku.

Citat:

Ne, zapravo, nema nikakve veze, to je i bila poenta - neće ništa izgubiti ako ide na addurl. Do sada sam dodao 15-tak sajtova na Google preko addurl, uglavnom sam čekao nedelju-dve maksimum dok ne indeksira, ali je zato svaki put stranica bila indeksirana.

Citat:

off topic: a zivo me zanima sta i koliko ti je to visoko rangirano? ajde, postuj: web stranica, keyword, pozicija...

Sajtovi su odavno ugašeni - dobro, još uvek postoje na netu, ali sam odavno prestao da ih update-ujem. Pored toga, korišten je amaterski HTML kod (čitaj: IE) pa ne bih da dajem link. Keyword-i pomoću kojih se može naći su razni, uglavnom ukoliko u sebi sadrže "mp3".

Citat:

CONFIQ: Offtopic: ti BytEfLUSh, je li svaki topik moraš da pretvoriš u nepotrebnu svađu?

Whut? Gde sam ja to započeo svađu? Ajde nađi mi konkretno - koja poruka?

[ boccio @ 26.11.2004. 07:55 ] @

Citat:

CONFIQ: Google je namenjen za običnog korisnika a ne za geekove koga zanima šta ima posle 1000 stranica.A i pogledajte ostale pretraživače. MSN: 990, Yahoo daje isto kao google tako da i nemate baš neku alternativu ha?

A pod ostalom, ako ne nađem nešto što me zanima na prvih 50 stranica, radije bi promenio pretraživača nego da proveravam ostalih 950 stranica.

ma ok je to iz perspektive koju pominjes, ali meni bi stvarno koristilo da kad radim SEO (pogotovo u pocetnoj fazi) znam da li sam za neki keyword na 1001 mestu od milion rezultata ili ne postojim (banovan, sandbox, etc...)...ovako mogu samo da spekulisem dok/ako se ne pojavim medju 1K.

btw, nije 1000 stranica, nego 1000 rezultata (100 stranica)...