[ X Files @ 18.12.2008. 11:06 ] @
Imam PDF dokument, ćirilica je u pitanju. Želim da iskopiram tekst.

Select All > Copy > Paste u Word, prenese samo hijeroglife. Obično se ispravno prenesu delovi teksta koji su brojevi, ili neki usamljeni latinični naslov ;)

Adobe Reader > File > Properties > Fonts daje spisak korišćenih fontova: Symbol i TimesNewRoman (embedded subset) su u pitanju, Type: True Type, Encoding: Custom.


Postoji li neko lako zaobilazno rešenje da pokupim tu ćirilicu (a da ne štampam i OCR-ujem)?
[ Miroslav Jeftić @ 18.12.2008. 11:24 ] @
Hm, probaj možda da u Regional and Language Settings/Advanced pod Select a language to match... blabla staviš Serbian (Cyrillic).
[ X Files @ 18.12.2008. 11:38 ] @
^
Dobra ideja, probaću, pa javljam...
[ X Files @ 18.12.2008. 11:55 ] @
Pazi kad ni to nije upalilo! Opet su se iskopirali samo delovi latiničnog teksta i brojevi.
[ Hackman @ 18.12.2008. 16:14 ] @
Pokušaj da ga provučeš kroz finerader 9.
[ bokan2007 @ 18.12.2008. 18:30 ] @
Provjereno sa ABBYY FineReader 9.0 Professional Edition radi super,imas dosta kombinacija sa konvertovanjem (Doc to Pdf or PDF to Doc)etc ......Pozz
[ X Files @ 18.12.2008. 20:13 ] @
OK, hvala za info. Imam instaliran Abby FineReader 9, ali mi je taj famozni PDF ostao na poslu... tako da cu sve ovo probati ovih dana.
[ X Files @ 25.12.2008. 18:46 ] @
Ja sam sebi (još pre par dana) završio posao i zaboravio da se zahvalim za korisan savet, i da potvrdim da je provlačenje tih problematičnih (u smislu kopiranja) PDF dokumenata kroz Abby Finereader rešilo problem.

E sad, da li Abby čita PDF dokument 'iznutra' ili zaista vrši OCR slike- ne znam, a nije ni bitno jer je procenat uspešnosti prepoznavanja valjda 100% zbog toga što je tekst nije skeniran već generisan pa je time i idealan.
[ _Diamond_ @ 27.12.2008. 15:43 ] @
Pokušaj sa programom "pdf-Xchange wiever".Odličan PDF čitač,a meni je radio copy/paste ćirilice,naravno ne za sve tekstove ali probaj,trebalo bi da može.Postoji i u portabl verziji.