[ Djordje Sumic @ 13.12.2004. 01:03 ] @
Kako napraviti search u PHP-u koji treba da trazi po html stranicama na serveru (ne po bazi) s tim da su sve stranice radjene u cirilici. Kada se neshto ukuca u search box za pretragu naravno skoro nikakav rezultat ne izadje jer je pretraga u latinici a pretrazivane strane u cirilici
[ milanvla @ 14.12.2004. 14:37 ] @
Pa probja da prevedes to sto ne uneto u cirilicu

mozda tako hoce
[ Djordje Sumic @ 24.12.2004. 18:07 ] @
sad se pojavio problem druge vrste. To prevodjenje iz latinice u cirilicu cak sad i nije bitno.

Problem je da i kad se ukuca trazena stvar u cirilici nikakav rezultat ne izadje. Proverio sam kodnu stranu, proverio, reci sve je ok, ali pretraga ne daje nikakve rezultate.

Sajt je inace radjen u unicodu ili ne znam vec kako se zove to kad u source-u strane ne pise lepo cilrilicom rec "nesto" nego pise "нешто", ali svejedno napravio sam da i pretraga radi po tom principu, ali rezultata i dalje nema.

Pomagajte !!!
[ Radovan__III @ 24.12.2004. 20:59 ] @
Cek cek jedno pitanje. Kakav ti je to search koji pretrazuje html?
[ Djordje Sumic @ 25.12.2004. 23:56 ] @
php search ciji je glavni princip da sa fopen otvara fajlove i pretrazuje njihov sadrzaj.... ne znam sto ovo uopste odgovaram, valjda se podrazumeva o kakvom searchu pricam
[ JovanT @ 26.12.2004. 17:08 ] @
@Djordje Sumic

Kodiranje koje koristi taj sajt nije Unicode nego windows-1252. Ja ti toplo preporučujem da ceo sajt prebaciš u Unicode jer ćeš tako imati mnogo efikasniju i bržu pretragu a i moći ćeš da direktno u izvornom kodu čitaš ćirilicu. Još jedna velika prednost Unicode-a je u tome što može da se upotrebljava na skoro svim postojećim platformama dok si sa windows-1252 ograničen samo na Windows platformu.

Pretraga koju si ti zamislio je u teoriji izvodljiva ali u praksi nije baš najsrećnije rešenje. To otvaranje fajlova i čitanje može veoma usporiti brzinu pretrage ako je potrebno pretraživati veći broj fajlova tako da ti savetujem da upotrebiš MySql bazu ako imaš mogućnosti.
[ Djordje Sumic @ 05.01.2005. 14:59 ] @
ok, ali kako onda da prebacim nekoliko desetina html stranica

stranice su dakle otprilike ovakve
<html>
<head>
.....

&#1059; &#1058; &#1059; &#1058; &#1059; &#1058; &#1059; &#1058; &#1059; &#1058; &#1059; &#1058; &#1059; &#1058; &#1059; &#1058;
<img src="blabla.jpg"> &#1059; &#1058; &#1059; &#1058; &#1059; &#1058; &#1059; &#1058; &#1059; &#1058;

...
</html>

..samo sa dosta dosta teksta.
Jel ima neki automatizovan nacin (dreamweaver, neki poseban program) da se ceo source prebaci u citljivu cirilicu tj ceo dokument iz charset=iso-8859-1 koji je sad na sajtu u utf-8 ili sta je vec pogodnije za pravljenje cirilicnog searcha??
[ -zombie- @ 06.01.2005. 17:44 ] @
ako nemaš (ili ti nisu bitni) slike i formatiranje texta (bold, italic, itd..), onda je najlakše da otvoriš stranicu u nekom pismenom browseru, selektuješ text, kopiraš ga, i prebaciš u neki pismen editor (sa utf8 podrškom).

ako ti je pak bitno html formatiranje, onda možeš da probaš recimo html_entity_decode() funkciju..
[ Djordje Sumic @ 06.01.2005. 22:49 ] @
kako ovako naizgledan jednostavna stvar moze da bude tako komplikovana

zombie, ne moze ni tako
Formatiranje je bitno, ima dosta formatiranog teksta a ima i slika

Sto se tice drugog predloga ni to ne radi.
Ta funkcija ne moze da konvretuje ovo sto meni treba
konvertuje ona npr &gt; &lt; i to lepo radi, ali kad treba &#1059; &#1058; ...itd, to nece

iz najjednostavnijeg primera

<?=html_entity_decode("&gt;");?>
<?=html_entity_decode("&#1059;")?>;

cete videti da ce se u sourceu pojaviti lepo > ali posle toga ide &#1059; ...dakle ne uspe taj karakter da konvertuje
[ -zombie- @ 07.01.2005. 11:12 ] @
pogledaj komentare korisnika za tu funkciju..

o bože.. zar baš niko više ne RTFM??

[ Djordje Sumic @ 07.01.2005. 15:42 ] @
citao sam FM ali chm offline koji za ovu funkciju nije imao nijedan komentar

svejedno ni online komentari nisu dali resenje jer te funkcije tj njihovi predlozi &#1059; konvertuju u Ó umesto u cirilicno U

cak i onaj njihov primer "&#1055;&#1088;&#1080;&#1074;&#1077;&#1090;" sa win-1251 konvertuje u besmisleno Ïðèâåò
[ JovanT @ 08.01.2005. 10:41 ] @
Citat:
Djordje Sumic: ok, ali kako onda da prebacim nekoliko desetina html stranica

stranice su dakle otprilike ovakve
<html>
<head>
.....

&#1059; &#1058; &#1059; &#1058; &#1059; &#1058; &#1059; &#1058; &#1059; &#1058; &#1059; &#1058; &#1059; &#1058; &#1059; &#1058;
<img src="blabla.jpg"> &#1059; &#1058; &#1059; &#1058; &#1059; &#1058; &#1059; &#1058; &#1059; &#1058;

...
</html>

..samo sa dosta dosta teksta.
Jel ima neki automatizovan nacin (dreamweaver, neki poseban program) da se ceo source prebaci u citljivu cirilicu tj ceo dokument iz charset=iso-8859-1 koji je sad na sajtu u utf-8 ili sta je vec pogodnije za pravljenje cirilicnog searcha??


Pronađi program Vučko. On ima mogućnost konverzije kodnih rasporeda iz jedan u drugi. Korisna stvarčica...
[ Djordje Sumic @ 08.01.2005. 15:36 ] @
ah konacno bar to da resim
Vucko izgleda radi super. nisam bas kontrolisao sve strane ali jednu povecu sam proverio i na prvi pogled bar izgleda da je sve savrseno preveo bez kvarenja formatiranja, slika, tabela i HTMLa uopste.

Sad jos deo oko searcha
Javicu se vec ako mi treba neki search-vucko mada pretpostavljam da ce sledeca poruka biti 'ok je, sad radi search'
[ Djordje Sumic @ 10.01.2005. 16:17 ] @
ok je, sad radi search :)

inace neko je spominjao da je ovakav nacin pretrage postojecih .html fajlova na serveru spor, pa me zanima koje su to brze alternative da se iz php-a pretrazuje sajt sastavljen od staticnih html stranica?