[ tordajav @ 01.04.2011. 21:49 ] @
Pozdrav svima,
imam dve knjige koje bih da skeniram i prebacim u elektronski format, tačnije, nemam skener, ali sam mislio da ih putem fotoaparata ubacim u komp pa pomoću ovog OCR programa napravim PDF knjige.
Međutim, pošto sam početnik, javljaju se problemi.
Ako mi neko može pomoći sa tutorijalom, bilo bi mi od velike koristi, a ako ne, evo i konkretne stvari gde je zakočilo:

dakle, JPEG sliku stranice knjige je Abbyy pročitao super, prezadovoljan sam, bela pozadina, font super, ma samo da sačuvam u PDF-u, ali kad sačuvam i otvorim to što je sačuvao, PDF stranica je baš mala, upola od onoga što sam očekivao da će sačuvati i kako izgleda u Abbyy programu; tačnije, izgleda kao kad bi zumirali PDF stranicu, ali umanjili na 30-40%. Dakle bela površina oko cele stranice je ogromna. Znači ZOOM u PDF-u je 100% abela površina oko skeniranog teksta ogromna.

Može li mi neko pomoći u čemu je problem? Šta to treba da se podesi prilikom čuvanja skeniranog materijala u PDF?
[ dekster2 @ 02.04.2011. 00:09 ] @
Pa probaj da sačuvaš u wordu pa posle konvertuj u PDF,sa word to pdf ili koji već to radi.Probaj tako.
[ koska @ 02.04.2011. 00:17 ] @
Nisam se zezao sa takvim stvarima, ali meni deluje kao da ga buni ulazna rezolucija fotografije i izlazni format. Mozda ti je rezolucija fotografija, na primer, 900dpi, pa samim tim Abby kapira da je dimenzija strane mala.

Resenje 1.
Pusti batch akciju u Photoshopu gde ces sve slike da svedes na iste dimenzije

Resenje 2.
Exportuj takav PDF, pa ga na kraju kropuj u Acrobatu, tako da ti margine budu odgovarajuce.
[ tordajav @ 02.04.2011. 07:51 ] @
Malo sam čačkao po opcijama, i uspeo nešto:
tools-options-save-PDF pa pod "Default paper size" postoji izbor:
Automatic; A3; A4; A5; Legal; Letter; Executive; Keep original image size; i Set custom paper size.
pa jedino kad stavim na "Keep original image size" tekst u PDF-u kad se sačuva bude zumiran čak i do 150%, mada nisam zadovoljan sa belim marginama okolo teksta...
Možda bi čak trebao da namestim i ovo poslednje "Set custom paper size" pa neke posebne dimenzije, ali nisa se još upoznao sa tim.
Hvala vam
[ tordajav @ 19.02.2014. 15:34 ] @
Pozdrav ponovo :)
Skenirao sam jednu knjigu, ali nedovoljno dobro; tj. redovi teksta nisu baš idealno vodoravni, već malo naginju na dole ili na gore. Kada mi Abbyy FineReader 10 bez problema pročita/prepozna tekst, on ga ostavi tako blago ukrivo (naniže). Da li postoji neka opcija koja ovo rešava?

Takođe, da li postoji opcija koja bi skenirani tekst sa cele stranice CENTRIRAO na sredinu novog prepoznatog PDF-a, jer mi ipak ostaje blago pomeren u jedan od ćoškova stranice, zavisno od skeniranog JPG fajla?

Hvala unapred za pomoć! :)
[ Langrenus @ 21.02.2014. 18:37 ] @
Imaš nekoliko načina da rešiš ovaj problem.
Pre svega, verovao ili ne, mnogo bolji OCR će ti odraditi Acrobat 11 nego FineReader, plus, ispraviće sav tekst da bude paralelan sa ivicom stranice.
Acrobat je bolji jer u OCR-ovanju napravi virtuelni font i onda sve što čita upoređuje s time, tako da manje greši, posebno ako skenovi nisu dobri.
FR će ladno malo slovo N ako je prekinuto dva piksela na najtanjem delu videti kao dva i, a Acrobat nikad to ne uradi. Akrobat sve što čita upoređuje sa virtuelnim fontom i u stanju je da vidi neverovatne stvari.

Ako baš hoćeš da radiš u FR, zbog zgodnog interfejsa za ispravljanje, onda prvo napravi pdf od skeniranih stranica, što Akrobat radi automatski uz opciju ispravljanja teksta, pa onda u FR učitaj taj PDF.

Ili naprosto skeniraj pažljivije, ispravan sken je pola urađenog posla kod OCR-ovanja.

[ tordajav @ 22.02.2014. 11:08 ] @
Hvala na odgovoru Langrenus, nisam nikad koristio Acrobat Pro pa mi je zato to okruženje strano.
Vredi probati. Hvala za ideju!
[ Langrenus @ 23.02.2014. 00:46 ] @
pa nisam ni ja do skoro.
Ali radio sam neku knjigu koja je štampana tipo tehnikom, olovni slog, i tu kad je jači otisak ili kad slova nisu dobro izlivena, pojavljuju se linijice pored mnogih slova.
To toliko zbunjuje FR da sam bio očajan. Inače, normalne knjige dobro štampane radi sa slovom greške po strani ili manje. Ali ovde ih je bilo po tri u svakom redu.
Slova tanka i ako skeniram svetlije da se izgube linije, mnoga slova se prekinu. Za FR su to uvek dva slova.
Iz zezanja probam u Akrobatu i dobijem zaprepašćujući rezultat. Akrobat je potpuno zanemario sve te piknice i čitao samo slova.

Mislim da nešto slično može da se namesti i u FR, bar je nekad moglo, ali svaka nova verzija, kao i većina drugih programa, sve opcije porazmeštaju, a kako inače nove verzije rade mnogo bolje, onda više nisam ni tragao za tim dodatnim podešavanjima. Bilo je pre negde da se namesti broj piksela koje OCR treba da zanemari u čitanju, ali sada to uopšte nisam uspeo da nađem, mada nisam mnogo ni tražio.