[ kelja @ 18.04.2011. 12:52 ] @
Uz pomoc simpledom klase:

http://simplehtmldom.sourceforge.net/

odradio sam neki scraper.

Konkretno, radi se o ovom sajtu:
http://www.clickbank.com/mkplS...words=habits&firstResult=1

Treba izvuci cene, imena proizvoda, linkove, itd, itd...

Korisnik zadaje keyword i skript bi trebalo da izlista SVE rezultate (varijabla firstResult se uvecava za 10, kad kliknete na sledeci link u paginaciji; da, vidim da moze da izlista i po 50 rezultata).

E, sad, kako se to izlistavanje stranica radi? Koji nacini spadaju u dobru praksu, a koji ne?
(Ja sam odradio refresh i uvecavanje $_GET varijable koja predstavlja pocetni rezultat, ali ne znam koliko je to ok???)

Hvala!
[ Skaarj @ 18.04.2011. 15:44 ] @
Kod tebe je u pitanju jednostavna stranica, iz koje mozes da izvuces sve sa nekoliko regexa, tako da bih u konkretnom slucaju zabatalio simplehtmldom. Znaci dovuces stranicu cURLom, parsiras sta treba, i pozoves ostale stranice opet CURLom (zavisno koliko ima rezultata).

Ako aplikacija ima vise simultanih zahteva ili jako cesto pretrazuje pomenuti sajt, sto moze da dovede do banovanja, razmisli o korsicenju vise IP adresa, ili koristi TOR.

Za pomoc za curlom pogledaj http://www.dinke.net/blog/en/2006/08/31/curl-http-client/ jako lepa i funkcionalna klasa, koju mozes i da doradis po potrebi.

[ kelja @ 18.04.2011. 23:49 ] @
Hvala.
Pa da, prvo sam mislio da koristim curl, pa sam ipak odradio skript sa simplehtmldom klasom (radi vezbe, ucinilia mi se prilicno zgodnom) i regularnijem ekspresijama (nije bio dovoljan sam simplehtmldom, edit: ili jos nisam naucio da koristim, sto je verovatnije :D, html nije konzistentan, neki trazeni elementi se ne nalaze na stranici, a treba to upisati u csv/bazu/sta god, trebalo je odvojiti kategoriju od subkategorije, itd, itd)

Citat:
Ako aplikacija ima vise simultanih zahteva ili jako cesto pretrazuje pomenuti sajt, sto moze da dovede do banovanja, razmisli o korsicenju vise IP adresa, ili koristi TOR.


Ono sto me zanimalo je zapravo ovo sto si pomenuo - kako izbeci banovanje zbog precestih zahteva... Vidim da se koriste i proxy-ji.

A ovu klasu cu svakako da isprobam!