[ Tulex @ 17.06.2008. 09:40 ] @
Treba da nadjem nacin kako da konvertujem non-ascii karaktere u ascii. Znaci nase slovo Š u S Ž u Z itd.
E sad problem je sto mi je potrebno neko genericko resenje za veci broj non-ascii karaktera, jer tu mogu da se nadju i nemacki i madjarski karakteri.
Da su upitanju samo ovi nasi karakteri izmapirao bih to rucno, ali u pitanju je mnogo veci broj karaktera.
Zanima me da li postoji neko open source resenje ili tako nesto. Ili neka genijalna ideja da se recimo svaki karakter pretvori u unicode...pa se skonta kom delu unicode tabele pripada...pa se nekako mapira.
Nemam jos neku konkretnu ideju, pa bih bio zahvalan ako bi mi neko dao neke smernice.
[ Tulex @ 18.06.2008. 08:23 ] @
OK...nasao sam resenje koje je zaista jednostavno. Klasa java.text.Normalizer upravo rastavlja slozene karaktere npr. È,É,Ê,Ë,Û,Ù,Ï,Î,À,Â,Ô,è,é,ê,ë,û,ù,ï,î,à,â,ô,ç
na jednostavnije elemente...znaci slovo E i ~ tako da se jednostavno moze izdvojiti samo slovo nakon ove dekompozicije.
Jedini nedostatak je sto ne podrzava cirilicna slova...to cu ipak morati izmapirati rucno.

PS: Klasa Normalize dolazi sa javom 1.6