Da li je moguce bas svaki karakter prebaciti u UTF-8?

[ bmanj @ 30.03.2005. 19:23 ] @

Da li je moguce svaki karakter prebaciti u UTF-8 standard, i ako je moguce, kako to uraditi?

Dok ako nije, da li je moguce proveriti da li karakter postoji u UTF-8 standardu?

[ Not now, John! @ 30.03.2005. 20:18 ] @

Moguće je.

[ Goran Rakić @ 30.03.2005. 20:42 ] @

UTF8 podrzava skoro sve moguce karaktere koji se upotrebljavaju u svetskim jezicima. Tako da jeste moguce ali obrati paznju da su UTF8 karakteri promenljive "duzine", tako da ce ASCII karakteri biti isto zapisani i u UTF8 kodnoj stranici.

[ bmanj @ 31.03.2005. 08:12 ] @

Da li postoji nacin da se (najbolje PHP-om, mada moze i neki skript u Linuxu ili Javi) proveri da li neki karakter pripada UTF-8 setu?

Konkretno me muci karakter koji podseca na ` ali takav da je "okrenut" na drugu stranu (ne znam cak ni kako da ga ukucam).

Predpostavljam na cu nailaziti na slicne probleme, i zato me zanima da li postoji neki nacim na proverim koji karakter ne mogu da prebacim u UTF-8.

Veliko, veliko hvala unapred!

[ jablan @ 31.03.2005. 08:55 ] @

Citat:

bmanj: Predpostavljam na cu nailaziti na slicne probleme, i zato me zanima da li postoji neki nacim na proverim koji karakter ne mogu da prebacim u UTF-8.

Glavno pitanje je odakle. Odakle hoćeš da prebaciš karakter u unikod?

[ bmanj @ 31.03.2005. 11:06 ] @

Ovako:

Treba da isparsujem fajl, i da na osnovu toga kreiram drugi fajl, koji ce biti u utf-8 formatu.

Problem je sto prvi fajl, sadrzi neke karaktere koji ne pripadaju UTF-8.

Da li postoji neki nacin da ucitam prvi fajl, i da proverim da li svaki karakter moze da se prekonvertuje u utf-8 (makar isao karakter po karakter, nema veze sto ce biti sporo, vazno je samo da radi posao).

[ proNick @ 31.03.2005. 11:17 ] @

Ovo bi (mozda) moglo da pomogne:

Code:

<?php
if (iconv('UTF-8', 'UTF-8', $input) != $input) {
       /* It's not UTF-8--for me, it's probably CP1252, the Windows
           version of Latin 1, with directed quotation marks and
           the Euro sign.  */
}
?>

Skinuto sa http://www.php.net/utf8-decode

[ bzero @ 31.03.2005. 11:18 ] @

A taj prvi fajl, u kom je on kodnom rasporedu?

[ bmanj @ 31.03.2005. 11:25 ] @

Citat:

bzero: A taj prvi fajl, u kom je on kodnom rasporedu?

Ne postoji pravilo u kom formatu moze da bude prvi fajl.

[ Goran Rakić @ 31.03.2005. 11:32 ] @

svaki moguci karakter moze da se pretvori u UTF8, inace ga ti ne bi video kada taj svoj fajl otvoris u editoru...

A evo dobrog linka koji sam koristio kada smo radili nekakav seminarski iz OP-a na fakultetu:
http://software.hixie.ch/utili...e-decoder/character-identifier

[ bzero @ 31.03.2005. 11:48 ] @

Code:

Ne postoji pravilo u kom formatu moze da bude prvi fajl

Ne mora da postoji pravilo, ali za konkretan fajl moras da znas u kom je kodnom rasporedu ako zelis da ga konverutjes u UTF-8.

Ako imas karkter 0xE4, u nekom jednobajtnom kodnom rasporedu, to ti ne govoris nista o tome koji je to karakter, jer kako ce taj karakter biti prikazan zavisi od kodnog rasporeda u kome se prikazuje. 0xE4 ce u iso-8859-1 biti prikazan kao ä , a na primer u windows-1251 kao d (d cirilicom), itd, itd. Shodno tome kada se 0xE4 konvertuje u UTF-8 koji ce se karkater dobiti zavisi od toga iz kojeg se kodnog raspreda konvertuje.

[ bmanj @ 31.03.2005. 14:49 ] @

Okej je, ovo proNickovo radi posao.

Sad da li bas svaki moze da se konvertuje u UTF-8 i da se dobije korektan karakter, nisam siguran:

http://www1.tip.nl/~t876506/entitiesTips.html

Sve jedno, moj problem je resen. Hvala proNick!

[ Goran Rakić @ 31.03.2005. 15:00 ] @

Cekaj, ti hoces da proveris da li je neki fajl u UTF8 kodnom rasporedu? Ili zelis da proveris da li ces neki drugi raspored moci konvertovati u UTF8? U prvom slucaju ovaj kod radi, u drugom slucaju svakako moras znati u kojoj kodnoj stranici je originalni tekst jer preslikavanje nije jedinstveno (kodne stranice se preklapaju).