Pretraga cirilicnog sajta

[ Djordje Sumic @ 13.12.2004. 01:03 ] @

Kako napraviti search u PHP-u koji treba da trazi po html stranicama na serveru (ne po bazi) s tim da su sve stranice radjene u cirilici. Kada se neshto ukuca u search box za pretragu naravno skoro nikakav rezultat ne izadje jer je pretraga u latinici a pretrazivane strane u cirilici

[ milanvla @ 14.12.2004. 14:37 ] @

Pa probja da prevedes to sto ne uneto u cirilicu

mozda tako hoce

[ Djordje Sumic @ 24.12.2004. 18:07 ] @

sad se pojavio problem druge vrste. To prevodjenje iz latinice u cirilicu cak sad i nije bitno.

Problem je da i kad se ukuca trazena stvar u cirilici nikakav rezultat ne izadje. Proverio sam kodnu stranu, proverio, reci sve je ok, ali pretraga ne daje nikakve rezultate.

Sajt je inace radjen u unicodu ili ne znam vec kako se zove to kad u source-u strane ne pise lepo cilrilicom rec "nesto" nego pise "нешто", ali svejedno napravio sam da i pretraga radi po tom principu, ali rezultata i dalje nema.

Pomagajte !!!

[ Radovan__III @ 24.12.2004. 20:59 ] @

Cek cek jedno pitanje. Kakav ti je to search koji pretrazuje html?

[ Djordje Sumic @ 25.12.2004. 23:56 ] @

php search ciji je glavni princip da sa fopen otvara fajlove i pretrazuje njihov sadrzaj.... ne znam sto ovo uopste odgovaram, valjda se podrazumeva o kakvom searchu pricam

[ JovanT @ 26.12.2004. 17:08 ] @

@Djordje Sumic

Kodiranje koje koristi taj sajt nije Unicode nego windows-1252. Ja ti toplo preporučujem da ceo sajt prebaciš u Unicode jer ćeš tako imati mnogo efikasniju i bržu pretragu a i moći ćeš da direktno u izvornom kodu čitaš ćirilicu. Još jedna velika prednost Unicode-a je u tome što može da se upotrebljava na skoro svim postojećim platformama dok si sa windows-1252 ograničen samo na Windows platformu.

Pretraga koju si ti zamislio je u teoriji izvodljiva ali u praksi nije baš najsrećnije rešenje. To otvaranje fajlova i čitanje može veoma usporiti brzinu pretrage ako je potrebno pretraživati veći broj fajlova tako da ti savetujem da upotrebiš MySql bazu ako imaš mogućnosti.

[ Djordje Sumic @ 05.01.2005. 14:59 ] @

ok, ali kako onda da prebacim nekoliko desetina html stranica

stranice su dakle otprilike ovakve
<html>
<head>
.....

У Т У Т У Т У Т У Т У Т У Т У Т
<img src="blabla.jpg"> У Т У Т У Т У Т У Т

...
</html>

..samo sa dosta dosta teksta.
Jel ima neki automatizovan nacin (dreamweaver, neki poseban program) da se ceo source prebaci u citljivu cirilicu tj ceo dokument iz charset=iso-8859-1 koji je sad na sajtu u utf-8 ili sta je vec pogodnije za pravljenje cirilicnog searcha??

[ -zombie- @ 06.01.2005. 17:44 ] @

ako nemaš (ili ti nisu bitni) slike i formatiranje texta (bold, italic, itd..), onda je najlakše da otvoriš stranicu u nekom pismenom browseru, selektuješ text, kopiraš ga, i prebaciš u neki pismen editor (sa utf8 podrškom).

ako ti je pak bitno html formatiranje, onda možeš da probaš recimo html_entity_decode() funkciju..

[ Djordje Sumic @ 06.01.2005. 22:49 ] @

kako ovako naizgledan jednostavna stvar moze da bude tako komplikovana

zombie, ne moze ni tako
Formatiranje je bitno, ima dosta formatiranog teksta a ima i slika

Sto se tice drugog predloga ni to ne radi.
Ta funkcija ne moze da konvretuje ovo sto meni treba
konvertuje ona npr > < i to lepo radi, ali kad treba У Т ...itd, to nece

iz najjednostavnijeg primera

<?=html_entity_decode(">");?>
<?=html_entity_decode("У")?>;

cete videti da ce se u sourceu pojaviti lepo > ali posle toga ide У ...dakle ne uspe taj karakter da konvertuje

[ -zombie- @ 07.01.2005. 11:12 ] @

pogledaj komentare korisnika za tu funkciju..

o bože.. zar baš niko više ne RTFM??

[ Djordje Sumic @ 07.01.2005. 15:42 ] @

citao sam FM ali chm offline koji za ovu funkciju nije imao nijedan komentar

svejedno ni online komentari nisu dali resenje jer te funkcije tj njihovi predlozi У konvertuju u Ó umesto u cirilicno U

cak i onaj njihov primer "Привет" sa win-1251 konvertuje u besmisleno Ïðèâåò

[ JovanT @ 08.01.2005. 10:41 ] @

Citat:

Djordje Sumic: ok, ali kako onda da prebacim nekoliko desetina html stranica

stranice su dakle otprilike ovakve
<html>
<head>
.....

У Т У Т У Т У Т У Т У Т У Т У Т
<img src="blabla.jpg"> У Т У Т У Т У Т У Т

...
</html>

..samo sa dosta dosta teksta.
Jel ima neki automatizovan nacin (dreamweaver, neki poseban program) da se ceo source prebaci u citljivu cirilicu tj ceo dokument iz charset=iso-8859-1 koji je sad na sajtu u utf-8 ili sta je vec pogodnije za pravljenje cirilicnog searcha??

Pronađi program Vučko. On ima mogućnost konverzije kodnih rasporeda iz jedan u drugi. Korisna stvarčica...

[ Djordje Sumic @ 08.01.2005. 15:36 ] @

ah konacno bar to da resim
Vucko izgleda radi super. nisam bas kontrolisao sve strane ali jednu povecu sam proverio i na prvi pogled bar izgleda da je sve savrseno preveo bez kvarenja formatiranja, slika, tabela i HTMLa uopste.

Sad jos deo oko searcha
Javicu se vec ako mi treba neki search-vucko mada pretpostavljam da ce sledeca poruka biti 'ok je, sad radi search'

[ Djordje Sumic @ 10.01.2005. 16:17 ] @

ok je, sad radi search :)

inace neko je spominjao da je ovakav nacin pretrage postojecih .html fajlova na serveru spor, pa me zanima koje su to brze alternative da se iz php-a pretrazuje sajt sastavljen od staticnih html stranica?