PDF obrađen u Abby FineReader-u sporo se otvara

[ tordajav @ 20.02.2015. 23:17 ] @

Pozdrav,

obavio sam OCR u Abby FineReader 12 i sačuvao u PDF. Sve je super obavio, brzo, ali prilikom otvaranja tog PDF-a poprilično sporo se stranice učitavaju; CPU se digne 100% dok učitava stranicu ispred ili iza one koje čitam. Kada okrenem malo dalje taj PDF moram sačekati da se stranice učitaju 2-3-4 sekunde. PDF nema slika, samo je tekst, ništa komplikovano. Zato mi nije jasno, zašto je taj PDF tako zahtevan za kompjuter.

Zna li neko zbog čega je to tako sa tim PDF-om kad sa drugim PDF-ovima koji nisu izlazni iz Abby FineReader-a sasvim normalno otvaram?
Da li se neko razume u opcije Abby FineReader-a ili je imao sličan problem sa težim učitavanjem PDF fajlova?

[ Lavlja_Jazbina @ 21.02.2015. 08:54 ] @

Ne znam sta je problem,ali probaj da otvoris sa nekim drugim programom za PDF i vidi da li se isto desava.!

[ amaama @ 21.02.2015. 10:33 ] @

Meni se čini da nisi dobro uradio OCR, tj da si odskenirao stranicu kao "sliku" i dobio si verovatno TIF format, to bi objasnilo sporost. Program uopšte nije ni uradio OCR ili po srpski prepoznavanje teksta. Proveri da li možeš da eksportuješ tekst iz PDF-a, ako ne možeš tj. nema ništa u txt datoteci, onda sam u pravu, nisi dobro podesio OCR.

[ tordajav @ 21.02.2015. 18:26 ] @

Koristim odavno SumatraPDF, mnogo je laganiji od Adobe Reader-a, jer mi nikakve druge funkcije za PDF-ove nisu potrebne.
A sa drugim PDF-ovima nisam imao tih problema. Izgleda da je u pitanju neki output kada Abbyy sačuvava PDF.
Pokušao sam u opcijama da menjam da tekst bude iza slike, ili da bude ispred, - da napomenem, originalni PDF nije ni malo brilijantan, vide se senke, ivice, papir je tamniji... e sad ja takav izlazni PDF i hoću, samo da slova mogu da se prepoznaju, označe i kopiraju po želji. Dakle izlazni PDF hoću da mi ima iste stranice kao i original, a ne da je beo neutralni papir iza, sa prepoznatim tekstom, i po kojom slikom koju sam manuelno označio.
Pokušao sam da menjam opcije, i dobijam izlazni PDF od 3MB do 87MB, to je sa i bez te neke kompresije.. ne razumem se.
Ali jedino me nervira to što kad hoću da taj gotov PDF normalno da čitam, vidim da je prezahtevan za CPU. Kao da u tom PDF-u postoje multimedijalni zapisi, slike ne znam ti ja koje rezolucije i vanzemaljska slova. bzvz
Zašto bih dobio TIF fajl kad idem na Save As PDF?

[ tuxserbia @ 21.02.2015. 19:11 ] @

Nisam odavno koristio Abby, pa pričam napamet. To je OCR program, znači ima mogućnost da "prepozna" tekst i prevede ga u binarnu formu, pa da novonastali fajl može da se pretražuje, kopira, seče, preuređuje. Ako ti treba "samo" kao slika, to jest kopija originalnog dokumenta, dovoljno je da skeniraš klasično dokument, skenerom, eventualno nekim programom za obradu slika, a siguran sam da i Abbt može da uradi to isto, klasična kopir mašina. Noviji OCR imaju mogućnost da pored original kopije, u PDF stave i drugi deo, prepoznati tekst, pa tako dobiješ najbolje iz oba sveta. Dokument možeš da pretražuješ, kopiraš delove, a plus, kao reper, imaš i original izgled dokumenta. Taj originalni je skeniran kao slika, svejedno da li TIFF, ili JPG, pa onda kompresovan. To ti je baš onaj multimedijalni deo PDF-a. U opcijama podesiš da nema kompresiju, ili da je minimalna, pa onda fajl bude ogroman, ali ne opterećuješ (mnogo) procesor. Ta kompresija utiče samo na veličinu fajla, da bi lakše mogao da ga kopiraš i šalješ mail-om, zauzeće memorije je (skoro) isto. Pa još dodaš i dekompresiju tog fajla, pa dobiješ zauzeće od 100%.

[ amaama @ 22.02.2015. 00:21 ] @

Citat:

tordajav:
Zašto bih dobio TIF fajl kad idem na Save As PDF?

Tvoje pitanje pokazuje da brkaš šta je skeniranje, šta OCR a šta čuvanje rezultata u određenom formatu. Tux ti je već napisao na tu temu, imaš na netu šta je šta pa pogledaj ako te interesuje.
Za to što bi ti hteo rekao bih da je Abby preterana opcija, posao će završiti bilo koji sken-program, može i onaj koji ide uz Win. Ako nemaš instaliran PDF printer instaliraj CutePDF ili nešto slično, skini sa neta, to će ti omogućiti da kao i iz Abby snimiš rezultat u PDF. Onda u sken-programu pre skeniranja podesi rezoluciju na max.150dpi (dosta je za čitanje, može i manje), podesi kontrast i osvetljenje kako ti odgovara, a ako je samo tekst u pitanju probaj i opciju da skenira samo kao crno-belu sliku ili eventualno grey. Skeniraj, ako ti ne ponudi na kraju da sačuvaš u PDF, snimi u JPG. Otvori tu sliku, idi na print izaberi PDF printer i sačuvaj. Da li je sad reader brže otvara ?

[ tordajav @ 22.02.2015. 02:35 ] @

amaama, mi se izgleda ne razumemo; ja imam skener ali mi on i skeniranje uopšte nije potrebno. Ja reč 'skeniranje' nisam ni jednom pomenuo.
PDF je u kompjuteru, ja nemam knjigu van kompjutera. Nemam ja šta da skeniram. Ja hoću da taj PDF u kom trenutno nije moguće uraditi pretragu teksta i njegovo kopiranje učinim mogućim.
Dakle treba mi Optical character recognition (OCR) = Abbyy FineReader.
I to sam obavio ok, moguće je kopiranje teksta i njegva pretraga.
Jedino što me buno je to što se taj dobijeni PDF ponaša 'teško' za listanje, treba mu vremena da pokaže stranice kad okrenem npr. pet stranica napred - onda mu treba par sekundi da prikaže stranicu na kojoj se našao, a i CPU je visok dok učitava i stranicu pre i posle te na kojoj se našao.

Da ponovim, prepoznavanje teksta je dobro obavljeno, može se kopirati i pretraživati. Dobijeni format je PDF.

[ Lavlja_Jazbina @ 22.02.2015. 07:46 ] @

Citat:

Ja hoću da taj PDF u kom trenutno nije moguće uraditi pretragu teksta i njegovo kopiranje učinim mogućim.

Ako je samo to,ta opcija odlicno radi u Acrobat reader PRO.

[ tordajav @ 22.02.2015. 14:10 ] @

Citat:

Lavlja_Jazbina: Ako je samo to,ta opcija odlicno radi u Acrobat reader PRO.

Nisam nikad koristio Adobe Acrobat PRO pa me interesuje da li bi on to uradio automatski jer imam 185 strana? Da li bih morao na svakoj stranici da obeležavam tekst - jer Abby je ipak uže specijalizovan za ovo.
Hvala

[ Miroslav Jeftić @ 22.02.2015. 19:06 ] @

Nisam nikad imao problem sa fajlovima iz Abbyy-ja, a radim puno s njim, kolika je uopšte veličina tog pdf fajla, da li si siguran da zbog njega zakucava kompjuter, možda je nešto drugo u pitanju?

[ amaama @ 22.02.2015. 20:06 ] @

Citat:

tordajav:
amaama, mi se izgleda ne razumemo;

Izvini, moja greška. Ako nije problem veličina, možeš li da staviš taj PDF ovde ? Baš si me zaintrigirao da vidim šta je Abby uradio.

[ tordajav @ 23.02.2015. 03:20 ] @

Heh najmanji fajl koji sam dobio je bio malo više od 3MB a ES forum dozvoljava oko 1 MB, pa ne vredi.
Originalni fajl je 159MB težak, 185 strana.
Taj problem sam imao i pre godinu i po / dve, kada sam sa nekom starijom verzijom radio. To sam tada radio na XP-u i starijoj mašini, a sada sam to uradio na novom laptopu sa mnogo više RAM-a i 4-jezgarnim procesorom - oduševilo me kako Abbyy brzo radi.
Nego, Miroslave, da li bi mogao možda da eksportuješ svoja podešavanja iz tvog Abbyy-a i zakačiš ovde, pa da probam sa tim podešavanjima obradim ili samo sačuvam obrađen PDF?
Hvala vam na odgovorima

----------------------

Evo pokušaću da prikačim nešto;
evo jedna stranica originalnog dokumenta, i 21 str. dokumenta sa prepoznatim tekstom.
Može li mi neko reći kako se ovaj drugi PDF otvara kod vas? Npr. prebacite se odjednom na npr. 15-u ili 18-u stranicu ili bilo gde tako malo dalje, i ako može neka mi neko kaže da li je dokument spor. Kod mene se takav dokument otvara sporije od bilo kog drugog PDF-a. I taj isti ali originalni neobrađen dokument se otvara i lista sasvim normalno.
Hvala

_{[Ovu poruku je menjao tordajav dana 23.02.2015. u 05:53 GMT+1]}

_{[Ovu poruku je menjao tordajav dana 23.02.2015. u 06:01 GMT+1]}

_{[Ovu poruku je menjao tordajav dana 23.02.2015. u 06:02 GMT+1]}

_{[Ovu poruku je menjao tordajav dana 23.02.2015. u 06:03 GMT+1]}

[ Miroslav Jeftić @ 23.02.2015. 08:54 ] @

Hm... nikakva posebna podešavanja nisam nameštao, sve mi je na default. Možda da reinstaliraš/uradiš repair programa ako sumnjaš da sa te strane nešto ne valja.