Kopiranje ćiriličnog teksta iz PDF-a...

[ X Files @ 18.12.2008. 11:06 ] @

Imam PDF dokument, ćirilica je u pitanju. Želim da iskopiram tekst.

Select All > Copy > Paste u Word, prenese samo hijeroglife. Obično se ispravno prenesu delovi teksta koji su brojevi, ili neki usamljeni latinični naslov ;)

Adobe Reader > File > Properties > Fonts daje spisak korišćenih fontova: Symbol i TimesNewRoman (embedded subset) su u pitanju, Type: True Type, Encoding: Custom.

Postoji li neko lako zaobilazno rešenje da pokupim tu ćirilicu (a da ne štampam i OCR-ujem)?

[ Miroslav Jeftić @ 18.12.2008. 11:24 ] @

Hm, probaj možda da u Regional and Language Settings/Advanced pod Select a language to match... blabla staviš Serbian (Cyrillic).

[ X Files @ 18.12.2008. 11:38 ] @

^
Dobra ideja, probaću, pa javljam...

[ X Files @ 18.12.2008. 11:55 ] @

Pazi kad ni to nije upalilo! Opet su se iskopirali samo delovi latiničnog teksta i brojevi.

[ Hackman @ 18.12.2008. 16:14 ] @

Pokušaj da ga provučeš kroz finerader 9.

[ bokan2007 @ 18.12.2008. 18:30 ] @

Provjereno sa ABBYY FineReader 9.0 Professional Edition radi super,imas dosta kombinacija sa konvertovanjem (Doc to Pdf or PDF to Doc)etc ......Pozz

[ X Files @ 18.12.2008. 20:13 ] @

OK, hvala za info. Imam instaliran Abby FineReader 9, ali mi je taj famozni PDF ostao na poslu... tako da cu sve ovo probati ovih dana.

[ X Files @ 25.12.2008. 18:46 ] @

Ja sam sebi (još pre par dana) završio posao i zaboravio da se zahvalim za korisan savet, i da potvrdim da je provlačenje tih problematičnih (u smislu kopiranja) PDF dokumenata kroz Abby Finereader rešilo problem.

E sad, da li Abby čita PDF dokument 'iznutra' ili zaista vrši OCR slike- ne znam, a nije ni bitno jer je procenat uspešnosti prepoznavanja valjda 100% zbog toga što je tekst nije skeniran već generisan pa je time i idealan.

[ _Diamond_ @ 27.12.2008. 15:43 ] @

Pokušaj sa programom "pdf-Xchange wiever".Odličan PDF čitač,a meni je radio copy/paste ćirilice,naravno ne za sve tekstove ali probaj,trebalo bi da može.Postoji i u portabl verziji.