[ stdlib.h @ 03.06.2008. 01:32 ] @
zanima me na koji nacin mogu najefikasnije da implementiram obradu rezultata pretrage u svojoj php skripti, a da to ne ide kroz nusoap/API tj. kroz nesto poput toga?

API je odavno abandoned, te mi ova skripta zadaje vise problema nego sto mi pomaze, a treba mi bas "duboko" pretrazivanje- za svaku rec bih morao da "pokupim" cirka 500 rezultata tj. da predjem kroz 50ak stranica u proseku, ako je 10 rezultata po stranici..

a, ne bih da zavrsim tako sto ce Gugl da mi banuje IP sajta, dakle- jurim za resenjem koje je u skladu s TOS-om

svaka sugestija/link je-dobrodosla!
[ stdlib.h @ 19.06.2008. 22:21 ] @
rephrase: ne treba mi kod (znam i sam da parsujem guglov sajt, a i da koristim skripte koje rade pomocu APIja/nusoap klijenta) ALI mi treba savet glede problema koji se svodi na to da gugl bas i nije voljan da dozvoli skriptama da ga koriste
tj.
kratko i jednostavno - posle nekoliko kverija krece da zahteva captchu, a ako se i posle toga nastavi - blokira IP

a meni, jbg, trebaju ti rezultati, jer nikako drugacije ne mogu da zavrsim skriptu za pretragu blogova na kojima se nalazi uneti keyword BEZ guglove pomoci :-(

imate ideju/sugestiju?
sada mi je vec - hitno ;-(
[ Miroslav Ćurčić @ 29.06.2008. 15:18 ] @
Ja sam uspevao da dobijem stotinak kverija dnevno,
i to u više navrata,
više od toga nisam ni pokušavao jer mi je ovo bilo dovoljno.

Jedino sam Jahua malo više malteretirao (jer je u onome što mi je trebalo bio bolji og Gugla) i blokirao me je na oko 1000 kverija.

Probaj Guglu da pristupaš na njegove različite adrese, recimo nešto idi kroz google.com, nešto kroz google.co.uk, pa google.rs, ...

Isto tako, potrudi se da serveru pristupaš tako da te što teže prepozna kao skriptu,
ja sam pristupao sa fsockopen i sledećim zaglavljem:
Code:
        
$this->SocketHeader= "GET %s HTTP/1.0\r\n"
    ."Host: %s\r\n"
    ."User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.7) Gecko/20070914 Firefox/2.0.0.7\r\n"
    ."Accept-Language: en-us,en;q=0.5\r\n"
    ."Accept-Charset: UTF-8,*\r\n"
    ."Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5\r\n"
    ."Connection: close\r\n"
    ."Cache-Control: max-age=0\r\n\r\n";