[ miličić.marko @ 27.03.2007. 20:51 ] @
Potrebno je napisati PHP kod koji parsira HTML fajlove odredjenog formata i prikuplja ciste podatke. Na primer, podaci mogu biti predstavljenji tabelarno, a podaci su vredsnosti u <td> tagovima.

Stranice mogu biti jako komplekse (ugnjezdene tabele i slicno) sta predlazete od PHP alata ili biblioteka za resavanje ovog problema. Razlimsljao sam o HTML tidy biblioteci i konvertovanju HTML koda u XML kod a zatim parsiranje XML koda uz pomoc nekog XML parsera.


Da li nekome pada na pamet neko drugacie resenje.

PS.
Mislim da regularni izrazi ne bi mogli da rese ovako slozene stranice.....
[ dakipro @ 27.03.2007. 21:43 ] @
Glasam za konvertovanje u XML, pa parsing. To je i meni prvo palo na pamet, a nekako je lako za navigaciju po strani. Celu stranu parsiras u niz, i vadis sta ti treba.
[ Nemanja Avramović @ 28.03.2007. 00:09 ] @
Ako su baš tabele u pitanju, glasam za table2arr
[ nezki @ 28.03.2007. 19:30 ] @
Ja sam za to da odmah parsiras html, a za to imas gotovu pear klasu, a ako ne koristis pear pogledaj na PHP class imas takodje gotovu klasu.
Kada resis problem hajde budi dobar clan ovog foruma pa podeli resenje sa ostalima jer je ova tema bas zanimljiva i korisna.
Poz :)
[ miličić.marko @ 28.03.2007. 21:29 ] @
Hvala na savetima. Pocecu sa idejom da uz pomoc tidy-ja konvertujem HTML u XML, a zatim da parsiram taj XML koriscenjem xpath funkcionalnosti SimleXML-a koji je ugradjen u PHP 5. Takodje planiram da napisem apstratkni skup klasa za parsiranje bilo kog HTML-a. Infomracije ce da se pronalaze xpath sintaksom....


Ukoliko se pokaze i suvise komplikovano verovatno cu direkno da parsiram HTML koristeci se iskljucivo PHP-um.


Javljam kako ide :)


predlozi su i dalje dobrodosli.
[ miličić.marko @ 28.03.2007. 21:36 ] @
@ Nemanja Avramovic.

Nazalos nisu samo tabele u ptanju. Ugnjezdene table sam naveo kao primer slozene strukture HTML dokumenta. Njih je najteze parsirati za razliku od web20 lepo formatiranih HTML stranica.... css stil ti je dovoljan da izvuces sve sto ti treba. medjutim god starok (messy) HTML koda, a pogotovo generisanog uz pomoc ASP-a parsiranje postaje nocna mora.