[ mucky @ 12.05.2003. 01:13 ] @
Dakle, imam jedan veliki problem, i pokušavam da ga rešim već dugo ali nikako ne ide.

Radim program koji, između ostalog, čita HTML stranice sa Interneta. Za čitanje koristim
običan InputStreamReader. Kada naiđem na stranicu sa charset-om npr. ISO-8859-1, pre
svakog pročitanog karaktera koji nije iz standardnog ASCII-ja (npr. slova Š, Č, Ć i sl.) mi
se pojavljuje neki čudan karakter, slovo A sa nekom kukom/kvakom gore. Ovaj karakter
se pojavljuje kada se stranica snimi. Zasigurno znam da metod koji čita stranicu NE dodaje
nikakve karaktere kojih nije bilo. Probao sam da konstruktoru InputStreamReader-a prosledim
ime charset-a koji stranica koristi, međutim mrka kapa. Da li neko ima ideju šta bi ovo
moglo biti?
[ Gojko Vujovic @ 12.05.2003. 15:55 ] @
Zeznuto je to malo. Ne znam tačan odgovor ali probaj da pročitaš poglavlje The Java I/O System knjige Thinking in Java. Bavi se i time pa ti možda razjasni neke stvari.
[ StMilan @ 12.05.2003. 16:20 ] @
Pa zar taj charset uopste sadrzi nasa slova?
Vidim da u Java SDK 1.4 postoji paket java.nio.charset, mada si to verovatno vec probao.

Kad bi svi samo presli na UTF-8 i tu bi bio kraj svih problema.
[ Gojko Vujovic @ 12.05.2003. 16:37 ] @
U pravu si, prevideo sam da je to napisao. ISO...-2 sadrži naša slova, ne ovaj koji si ti naveo.

Najbolje na unicode da pređeš, svakako.
[ mucky @ 12.05.2003. 17:46 ] @
Da, u pravu ste, napisao sam ISO-8859-1 umesto ISO-8859-2 ali to sada i nije tako bitno pošto sam rešio problem :)

Fora je da se kod Jave svi karakteri posmatraju kao Unicode, a svi ostali charset-ovi se moraju
konvertovati. E sada, ja umesto da sam odmah pogledao u Java tutorial sa java.sun.com ne bih
ovde ni postavljao temu ali ajde... Fora je napraviti InputStreamReader sa željenim charset-om
(konstruktor ide nešto ovako InputStreamReader(InputStream in, String charset_name) ), raditi
sa karakterima šta vam volja, i onda, kada treba rezultate zapisati u fajl, napraviti OutputStreamWriter
sa istim charset-om (OutputStreamWriter(OutputStream out, String charset_name) i problem rešen :)
[ mucky @ 12.05.2003. 19:07 ] @
Proba, moderator neka odmah obrishe