[ sojic @ 16.11.2004. 02:14 ] @
Ima li neka gotova komponenta, funkcija.... so od dadenog html teksta ce ca izvadi najcesce koriscene reci i generira keywords.

Mislim da elitesecurity ima nesto slicno.
[ igac @ 16.11.2004. 03:12 ] @
cisto php nema... a es ne radi tako, vec gleda koju temu si posjetio ili sta trazis pa onda trazi po sqlu takav LIKE (ja mislim da tako radi:))
[ Gojko Vujovic @ 16.11.2004. 07:07 ] @
igac, čini mi se da čovek pita za meta tagove "description" i "keywords" u okviru es stranica (na primer ove, pogledaj source..). To nema direktne veze sa "srodnim temama".

Što se tiče vađenja keywords iz teksta, prosto je. Princip je da napraviš array sa stopwords koje te ne zanimaju i njih sa nekom replace funkcijom izbaciš, onda eventualno uradiš transliteraciju (iconv?) u neki char set pošto imam utisak da je bolje da se naši utf karakteri ne nalaze u meta tagovima.. uradiš htmlspecialchars nad dobijenim rečima, splituješ po word boundaries i sortiraš kako ti odgovara, možda opet proveriš za stopwords (posle transliteracije), izbaciš reči kraće od 3 slova na primer, i na kraju ovo što je ostalo spojiš zarezom i razmakom jedno na drugo i dobio si meta tag.
[ u_m @ 16.11.2004. 13:48 ] @
da da, dobra stvar, ovo mi nije palo na pamet

zato google voli es :) sta got ga pitas bar jedan rezultat je na es-u
[ sojic @ 16.11.2004. 18:41 ] @
U principu mi treba ovo sto kaze (pise) Gojko. Ali, kako da izbacim tagove?

Ideja mi je:

1. Izbacim tagove (dobijem cist tekst).
2. Uradim explode ili split, i dobijem nizu.
3. Izbacim reci krace od x karaktera i reci iz crne liste
4. (Opciono), trazim densiti reci, tako da stavim one reci koje se ponavljaju vise puta.

Znaci, glavan problem, kako iz html koda da dobijem cist tekst.
[ sojic @ 16.11.2004. 20:05 ] @
Mislim da sam nasao. strip_tags()
[ igac @ 16.11.2004. 21:53 ] @
znaci ipak ne funkcionisem tako rano ;)