[ ttasovac @ 13.02.2004. 11:43 ] @
zdravo!

pokusavam da eksportujem bazu kao xml koristeci mysqldump --xml, ali mi se u outputu samo xml tagovi pojavljuju pravilno, dok cirilicni utf8 sadrzaj izlazi necitljiv, t.j. pogresno enkodiran. to se NE desava prilikom normalnih upita SELECT etc...

zasto bi mysqldump i select imali razlicito enkodirani output? da li neko zna u cemu bi mogao da bude problem?

hvala unapred.

pozdrav,
Toma
[ -zombie- @ 15.02.2004. 12:37 ] @
prvo pitanje, da li si siguran da to nije pravilno. iz kog alata pregledaš/proveravaš rezultate?

utf8 će izgledati kao "đubre" ako ga pogledaš iz nekog editora koji zna samo za ascii.

koristio sam tu opciju, i sve je bilo ok. nikakvih problema. probaj recimo da duplim klikom otvoriš dobijeni xml fajl. trebalo bi da ti ga otvori IE (ako nisi instalirao neki XML editor), i trebalo bi da vidiš naša slova..


ako nije to problem, pogledaj opcije za podešavanje charseta pri dumpovanju. mysqldump ima parametre --default-charset i --charsets-dir, pa pogledaj da nemaju neke (pogrešne) default vrednosti..
[ ttasovac @ 15.02.2004. 14:57 ] @
hvala zombie, ali problem nije u uredjivacu. ja sam na mac-u i sve ovo radim iz Terminal-a, koji, kako sam rekao, moze da prikaze i znake koji nisu ascii -- tako mi cirilicu sasvim normalno prikazuje u outputu za SELECT itd... eksplicitno stavljanje charseta takodje nista ne pomaze. otvaranje xml fajla u xml editoru (oxygen 3.1) pokazuje iste kuke i motike.

Code:
/usr/local/mysql/bin/mysqldump --default-character-set=utf8 -u root --xml xmlprep entry > /Volumes/Users/ttasovac/Desktop/mysqldump.xml


dakle, nema greske u sintaksi, dump je sasvim legalan, samo nema cirilice -- nego je svaki drugi znak kao latinicno dj.

pogledao sam character-set-dir ali ne znam sta da radim s njim. u index.xml fajlu se nalazi i utf8, ali nema posebnog fajla za utf8 (kao sto postoje hebrew.xml, koi8u.xml itd...)

znaci, ne mogu da shvatim zasto se problem pojavljuje iskljucivo sa dumpom, ali ne i sa normalnim upitima...

Toma
[ -zombie- @ 15.02.2004. 16:23 ] @
Citat:
ttasovac:
dakle, nema greske u sintaksi, dump je sasvim legalan, samo nema cirilice -- nego je svaki drugi znak kao latinicno dj.


pa baš sam i rekao da je verovatno greška sa alatom kojim gledaš, jer ovi ĐđĐđĐ to baš potvrđuju. ako snimiš bilo koji text na ćirilici u fajl sa utf8 enkodingom, i otvoriš u nekom editoru/vieweru koji zna samo za ASCII, videćeš te ĐđĐ znake.

možda tvoj mysqldump ne stavlja BOM karakter na početak xml fajla, a koliko znam, ne stavlja ni encoding parametar u <?xml?> prologu, tako da se možda tvoj editor time zbuni (mada je valjda utf8 default enkoding za xml. mora da proverim ;).


ajde uploaduj taj fajl ovde (znači kao ceo fajl, a ne iskopiranu/pasteovanu njegovu sadržinu), pa mogu da ga pogledamo, i potražimo gde je problem..


// btw: čini mi se da je ovo više tema za XML forum, pa se moli neki supermoderator da je prebaci tamo, ili bar moderator do čekaonice, pa da je ja preuzmem. ili ako već nije za XML, onda je bar za mysql podforum ;)
[ Dag @ 16.02.2004. 07:05 ] @
Citat:
-zombie-:
ajde uploaduj taj fajl ovde (znači kao ceo fajl, a ne iskopiranu/pasteovanu njegovu sadržinu), pa mogu da ga pogledamo, i potražimo gde je problem..

Bash da vidimo... interesananto. Meni se sve chini da je to ono shto ja zovem 'unishteni' (lazhni) Unicode. Ne bi bilo loshe da da atachment i njegov Unicode i c'irilichni tekst.
[ ttasovac @ 16.02.2004. 10:38 ] @
Ciao.

evo, fajl se nalazi ovde:

http://www.transpoetika.org/texts/test/mysqldump.xml

unisteni, lazni unikod? ovo postaje uzbudljivo. :)

nemam nikakav drugi tekst da dam, posto sam ja rucno uneo svega nekoliko reci u bazu, da isprobam kako sve funkcionise, bas zbog xml eksporta koji mi je preko potreban.

hvala na pomoci!

poz,
T.
[ Dag @ 16.02.2004. 13:30 ] @
Citat:
ttasovac:
unisteni, lazni unikod? ovo postaje uzbudljivo. :)

Pa eto... od sada c'esh znati -- Join the club.

To ti je bash kao kod tebe: kaobajagi Unicode, i neka slova su apsolutno ispravna ali sve u svemu, garbage.

http://orwell.ru/junk/UTest_02.html

Neshto slichno se dobija ako se dobar Unicode tekst provuche kroz redaktor koji ne podrzhava Unicode i tako sachuva (i / ili(!) kao ANSI). Kao nekada davno kada e-mail prolazi duplu konvertaciju (shalju ti 7bitni; ti dobijesh 8...) ali onda se moglo ic'i unazad tj. rekonvert --> rekonvert i evo ti dobar tekst. Na primer KOI8-R, Cyr1251 i t. d.

Evo, na primer, tvoj 43: rech analogija
Cyr 'j' treba da izgleda ovako:
(decimal) 208 + 184
a kod tebe
209 + 63

Kada bih mogao da mu ulovim pravilo, napisao bih konverter ali, nisam se bash neshto time bavio jer nije bilo potrebe.

Tasovac: uradi ovako: uradi istim metodom samo jedan red (row) ali sa svim srpskim slovima (i velika i mala) ili, josh bolje: uradi nekoliko redova -- u svakom sva srpska (cyr) slova ali im promeni redosled i aploaduj to negde.

Verovatno nije bash neka pomoc' ali... hebi ga: za sada - to mu je shto mu je.

A mozhe da bud i da taj tvoj db_xml konverter ima bag... sada vidim da nema ni sh ni ch... a koji mu charset ti predajesh?
____
Pishi srpski da te... Unicode razume
[ popeye @ 16.02.2004. 14:28 ] @
Koju verziju MySQL baze koristis?
[ -zombie- @ 16.02.2004. 14:35 ] @
ni ja nisam baš provalio šablon. samo sam video da je dva puta enkodovano sa UTF-8. znači, jednom odradim konverziju iz UTF-8 u "ASCII" (u stvari u ISO-8859-1), i to dobijeno opet interpretiram kao UTF-8.

pa ni tada nisam provalio sve reči. samo neke od njih su bili kako-tako ok: zima, analogija, život, oko, zub i šminka.

baš čudno..

inače, nažalost izgleda da konvertor ne bi ni bilo moguće napraviti, jer greške nisu konzistentne..


izgleda da neka stavka u celom tom krugu (unos podataka u bazu, export iz baze, upis u fajl, parsiranje i prikaz xml fajla) na Mac platformi ima problem sa unikodom. nažalost, nemam Mac-a pa da vidim i koja..

možda da probaš da proveravaš podatke posle svakog koraka nekom drugom (nezavisnom) metodom?
[ popeye @ 16.02.2004. 14:42 ] @
Podrazumevano kodiranje za mysqldump je pre 4.1 verzije bilo ISO-8859-1, a nakon toga UTF-8. Ako je starija verzija, mozda zbog neke greske u portu za Mac, dolazi do prebacivanja u podrazumevani format, a nakon toga u UTF-8...
[ ttasovac @ 16.02.2004. 18:20 ] @
bih ja vrlo rado proverio svaki korak nezavisnom metodom, ali nemam pojma kako to da uradim. proverio sam i moja verzija mysql je 5.0 alpha.

postavio sam novi xmldump fajl sa svim cirilicnim slovima. za prva tri reda sa koristio cocoaMySQL kao frontend, a za cetvrti sam koristio direktno Terminal -- da vidimo da li tu postoji razlika

http://www.transpoetika.org/texts/test/mysqldump_example.xml

ej, i mnogo vam hvala sto mi pomazete, tim pre sto je ovo moje prvo igranje sa bazama. sve, bre, neki fini svet, izgleda... :)

poz,
t.
[ Dag @ 16.02.2004. 19:44 ] @
Neka ti je Bog na pomoc'i. Ne vredi: izgleda da je greshka negde do tebe ipak.

Ovaj Option... on registruje shta i kako (kao neki log)? A odakle ti onda ovo:

Collation="latin1_swedish_ci"

----
<options Name="example" Type="MyISAM" Row_format="Dynamic" Rows="4" Avg_row_length="123" Data_length="564" Max_data_length="4294967295" Index_length="2048" Data_free="72" Auto_increment="7" Create_time="2004-01-22 12:47:22" Update_time="2004-02-16 19:09:14" Collation="latin1_swedish_ci" Create_options="" Comment=""/>

Uglavnom ti je drugi simbol unishten. Na onoj istoj stranici ja sam postavio celu tablicu (i unicode i dec. numbers...) Ako ti neshto pomogne... Ivo Andricu bi se dopalo:))
[ ttasovac @ 17.02.2004. 09:46 ] @
uh kakva depresija. ne znam odakle je ostao onaj svedski collation, ali mislim da nije to problem.

inace, znas kako je to uvek bilo: crnjanski, ili lako je andricu.

pominjes option -- verovatno je to u vezi sa tastaturom koju koristim Russian QWERTY (posto mi treba i za ruski i za srpski) pa onda srpska slova su na njoj option + ... sad cu pogledati da li nije tu nesto pogresno izmapirano.

eto... sad cu vas, radne i fine ljude, ostaviti na miru. ali samo molim za jos jednu uslugu: kako bre vi to magicno proveravate decimale i bajtove u mom fajlu? da li postoji neki program/utility koji radi i na meku (mozda neka java ili tako nesto) koji bih mogao da koristim za tu svrhu? da ne bih dolazio ovde stalno i plakao vam na ramenima...

poz,
T.
[ ttasovac @ 17.02.2004. 09:47 ] @
oooops, vidim da si govorio o drugom option-u... nemam pojma sta je... ko ce ga znati...

idem da stojim u cosku za kaznu.
[ Dag @ 17.02.2004. 17:20 ] @
Citat:
ttasovac:
uh kakva depresija. ne znam odakle je ostao onaj svedski collation, ali mislim da nije to problem.

Da, da... u ćoše more:))
Vdi: ne znam taj sistem ali lepo se vidi da je to čisti log. Tako da radiš ti sa švedskom ćirilcom (verovatno je ona dobra za one koji znaju - ja nikada nisam ni čuo za nju:)))

Citat:

u vezi sa tastaturom koju koristim Russian QWERTY (posto mi treba i za ruski i za srpski)

Ugh... pa šta ti je to druže? Ovamo XSL a ovamo tastatura iz prošlog veka... ili je to specifika Mac-a? Nije vam baš taj Mac naučio da radi sa Unicode... kada mi je jedan poznati tovariš poslao skrinšote... hteo sam da polomim kompjuter... vaši safari ni css specifikacije ne znaju...

Citat:

kako bre vi to magicno proveravate decimale i bajtove u mom fajlu?

Ne znam stvarno kako tamo to Zombi radi, on je profi... ja sve to radim otprilike: uzmem i skopiram u abyword, uveličam i onda pogađam... uglavnom uspešno:)) ASCujem sebe a onda se SHIFTujem malo desno malo levo i to ti je to. Jel ti uopšte možeš da vidiš Unicode simbol kao dva bajta ili ne?

Jedini programi koje ja koristim su TextPad, MSWord (zbog VB), Uniedit i 1stPage2000 (sve to kada je reč o Unicode a za sve ostalo samo TextPad).

Ajde napiši ti nešto na ćirilici i postavi ovde (text fajl!) ili napiši meni private.
----
Nisam mala al' umem da varam...
[ ttasovac @ 17.02.2004. 22:44 ] @
Citat:

Ugh... pa šta ti je to druže? Ovamo XSL a ovamo tastatura iz prošlog veka... ili je to specifika Mac-a? Nije vam baš taj Mac naučio da radi sa Unicode... kada mi je jedan poznati tovariš poslao skrinšote... hteo sam da polomim kompjuter... vaši safari ni css specifikacije ne znaju...


ne igraj se s vatrom!!! znas da su mekovci osetljivi na kritiku. tastaturu, t.j. keyboard layout koristim iz lenjosti, jer sam se nekada mnogo vise bavio ruskim nego srpskim, pa se posle nikada nisam navikao na nasa slova tamo gde treba da budu. a u safari mi isto ne diraj, dobar je ko leba bela (ja sam radio lokalizaciju za srpski) ne znam sta ti je drug pokazivao i mora biti da je bila neka rana beta -- vec dugo sve izgleda super, ukljucujuci i text-shadow i alpha-transparency...

ali, ne smem da se svadjam, posto:
Citat:

Ajde napiši ti nešto na ćirilici i postavi ovde (text fajl!) ili napiši meni private.


prkosno, ponosno, pesma nas je odrzala, ziveo mek i svedska cirilica (uskoro ti stize primer na priv)
T.
[ -zombie- @ 17.02.2004. 23:31 ] @
ne kapiram zašto ljudi toliko vole da "privatizuju" (da šalju stvari na private ;) rasprave na forumu. pošalji bre to ovde, pa da svako gleda ko je imalo pametan..

a što se mene tiče, nisam neki profi, samo se ovim stvarima bavim pomalo u poslednje vreme, što pod moranje (posao), što iz čiste radoznalosti. ;)
[ Dag @ 18.02.2004. 06:06 ] @
Švedska ćirilica
Citat:

ne kapiram zašto ljudi toliko vole da "privatizuju" (da šalju stvari na private ;)

Smiri se Tomice:)) nije "neki ljudi" nego Dag ako ćemo već tako (imam ja ime) a pod dva, ako sam pročitaš malo pažljivije, videćeš da je čovek ("čovek" -- to je Toma) sam napisao da bi hteo da prekine trid. I još ćeš videti da sam napisao nešto u smislu "Ako nećeš ovde da postuješ, onda napiši na private." (re: ILI).

A tako... slažem se sa jednom stvari: uvek je glupo i besmisleno ako trid nema logičan kraj tj. ako problem nije rešen. Ali možda je čovek makovac pa se stidi... ili je mlad (oko 30, 40...)...
Citat:

znas da su mekovci osetljivi na kritiku.

Da znaš da ima u tome nešto:)) I uvek napadate nas koji se ne pravimo kao da Mac ne postoji. A sve one koji vas ignorišu ne dirate...
Citat:

vec dugo sve izgleda super, ukljucujuci i text-shadow i alpha-transparency...

Ma... znam ja sve to. Ne znam šta je to šedou... verovatno nešto za decu (a mislim da je i depreciated:)) Pazi: nije to samo kod Safari... to je Mac manira za fontove. Vi još uvek koristite local (region) ekstenziju... a kada font ne postoji ne umete da zamenite serif nekim serifom ("Times CY" na primer) nego dajete neki svoj osnovni sans (Helveticu mislim). Samo zbog Mac-a ću prestati sasvim da koristim fontove. Evo ti tu svi tvoji fontovi (polovinu nećeš verovatno moći da vidiš):

http://orwell.ru/test/CSS/fonts/mac/

Ajde uradi i ti nećto za mene:)) uradi i pošalji mi sledeći test (Unicode a ne bi bilo loše i da uradiš Win1251):

http://orwell.ru/test/CSS/fonts/mac/utf-8

Inače, dopada mi se ideja da guraš tu švedsku ćirilicu:)) ako ne radi probaj finsku ili dansku. Ja često koristim stokholmsku... sa jat:))

. . .
Teško da je ta tastatura problem mada... baš ću da pogledam taj Mac raspored...
----

Srpski pišem i zborim, svakom gromko govorim:
narodnost mi srbinska, um i duša slavjanska.
Vl. P. P. Nj.
[ -zombie- @ 18.02.2004. 12:55 ] @
Citat:
Dag:
Smiri se Tomice:)) nije "neki ljudi" nego Dag ako ćemo već tako (imam ja ime) a pod dva, ako sam pročitaš malo pažljivije, videćeš da je čovek ("čovek" -- to je Toma) sam napisao da bi hteo da prekine trid. I još ćeš videti da sam napisao nešto u smislu "Ako nećeš ovde da postuješ, onda napiši na private." (re: ILI).


nisam ni mislio na tebe, već konkretno na tasovca, a uopštenije na sve češću pojavu na forumu..

[ Dag @ 18.02.2004. 13:01 ] @
Izvini onda, nisam odmah ukapirao.

Tako shto Tomo Tasovcu, dovedi stvar do kraja. I ne treba nikog da shtedish.
[ ttasovac @ 18.02.2004. 14:38 ] @
orah je vocka cudnovata. pola dana nisam uz kompjuter, a kad se vratim, shvatim da sam zpooceo rat za svedsku cirilicu, safari, css, i generalno postao jabuka razdora... evo sada objasnjenja i razresenja:

1) mysqldump

ponukan vasim otkricem o laznom unicodu u mom dumpu, proverio sam mapping mog keyboard layouta i utvrdio da je sve u redu. ondak sam sinoc uradio nesto sto je trebalo da uradim jos na pocetku: napravio sam probnu tabelu u bazi na mom remote serveru (umesto lokalno), popunio sa utf8 cirilicom i probao mysqldump... i, cudna mi cuda, sve je funkcionisalo super.

znaci: greska je bila 100% moja, negde sam nesto sa char set-ovima pogresio u bazi.

2) privatizacija, elektrifikacija, petoljetka

jedini razlog zasto sam zeleo da privedem ovu nit kraju je sto nisam hteo da gnjavim sto godina -- i sto sam mislio da ste mi vec dovoljno pomogli. dag je ponudio da pogleda da li je problem mozda u mek-u i njegovoj implementaciji unikoda, a meni se cinilo da to vec izlazi iz okvira teme ove niti, pa sam zato isto mislio da je bolje da to nastavimo van liste.

3) css, safari etc. -- to je stvarno nova tema i ja cu se dagu javiti cim pogledam sve ono sto mi je poslao.

Citat:
I uvek napadate nas koji se ne pravimo kao da Mac ne postoji.


ma ne bre, ja sam se po mekovskom pitanju stvarno samo zezao, zato sto se od mene ocekuje da napadam. sve je ovo meta-meta nivo.

jos jednom, puno hvala. ja sam novi clan ovde na listi i odusevljen sam sto su ljudi spremni da pomognu i pocetnicima.

poz,
Toma