Ogromna PDF baza

[ triD @ 15.09.2004. 13:30 ] @

Treba napraviti bazu koja se brzo moze pretraživati po svim rečima.
Baza se pravi od skeniranih dnevnih novina formata A3. Zahtev je da se novina skenira, pretvori u pdf fajlove i postavi u bazu koja bi se mogla brzo pretraživati.
Problem je naizgled jednostavan, ali radi se o novini koja izlazi 40 godina, svaki dan, i ima 40 strana.
Treba napraviti projekat koji uključuje hardver, softver organizaciju.

[ zsteva @ 15.09.2004. 15:24 ] @

u, dobra posao.

oko pola miliona A3 strana.

skeniranje: ako u proseku ne moze bez jednog minuta da se skenira stranica,
to izadje na oko 3 godina/covek vremena.

sken strane ne moze biti manji od 1Mb shto mu dodje oko 500Gb.

OCR, uz malo srece moze da se uradi, uz dovoljno hardwera, i dovoljno dobar
program. brzina, pa verovatno ne brze nego skeniranje...

indexiranje, e to je vec decija igra kad se ovo gore reshi....

sve u svemu projekat verovatno cirkla preko 10 miliona dinara.

pitanje samo kome to treba....

[ MorenoArdohain @ 15.09.2004. 16:23 ] @

Izvodjljivo je, pitanje je samo da li imate pare za tako nesto

[ flylord @ 15.09.2004. 17:42 ] @

Citat:

zsteva:
skeniranje: ako u proseku ne moze bez jednog minuta da se skenira stranica,
to izadje na oko 3 godina/covek vremena.

Odakle ti minut!??!?! Sto pricas nesto sto ne znas!?!? Imas profi skenere koji mogu da skeniraju na 200-300 dpi (za novine i txt uglavnom dosta), za 0.5-1 sec!!!
Prema tome, kad ne znas, bolje cuti
I gde si nasao 10 000 000 din? Na osnovu cega si izracunao!?
uzass

[ zsteva @ 15.09.2004. 19:35 ] @

prvo, ako si expert daj tacnu racunicu. ja nisam ni upucen u tu oblast, samo sam
pokushao sebi i ostalima da predstavim red velicine problema.

pa nije samo skeniranje deo procesa ? kolko kamiona novina treba da se spremi
tako da moze da se provuce kroz profi skener.

recimo da je to oko 50tak metara visoka gomila formata A3, kolko treba
vreme/covek jedinica da se takav materijal spremi za ultra brzi skener ?

ja se nadam da ce (ako projekat ikad bude realizovan) da se informacije:
kolko para, kolko ljudi i kolko vremena pojavi ovde na forumu.

btw: ljudi su se gadno mucili da naprave PDF izdanje necega shto imaju u quark-u,
ovo je extra proces.

_{[Ovu poruku je menjao Bojan Basic dana 16.09.2004. u 00:37 GMT]}

[ zsteva @ 15.09.2004. 19:40 ] @

BTW, sha mislite da li bilo koji OCR ume da prepozna sken sa novinskog papira,
starog 40 godina, sa ko zna kakvim fontom...

[ Raspucin @ 15.09.2004. 20:57 ] @

"Imate li vi momci para za ovo planinarenje?"...

Naravno salim se. Dosta ozbiljan posao.

Citat:

zsteva:
indexiranje, e to je vec decija igra kad se ovo gore reshi....

Indeksiranje je cela nauka pogotovu za nesto ovog obima.

[ byTer @ 15.09.2004. 21:00 ] @

Skeniranje svega je glavni problem. Ako moze ko sto kaze flylord da se skenira sve to brzo, onda je laganica da se sve to lako odradi.

Znaci
- skeniranje i citanje iz Fine Readera
- save as Word Document
- (spajanje dokumenata)
- Konverzija u PDF

Samo me malo zulja sto sve ovo ne ide u bazu nego ide u PDF.

[ Raspucin @ 15.09.2004. 21:19 ] @

Ovo je tolika koska da ne mozes ni da zamislis kolika. Raspitaj se malo sta je uradio i dokle su stigli JAT i Djerdap sa skeniranjem i skladistenjem svoje dokumentacije.

Ovde nema ni l od "laganice", osim toga da li je neko radio sa bazom reda velicine 500GB-1TB?

_{[Ovu poruku je menjao Bojan Basic dana 16.09.2004. u 00:37 GMT]}

[ VRider @ 15.09.2004. 21:28 ] @

Kojih crnih 500GB-1TB? Da li ste ludi?
Jedan A3 list u pdf-u == 1MB? LOL
Ovo ne bi bilo vece od 30-40GB.
'Ajde da ja budem konstruktivniji: koji je list? Koje pismo (cirilica ili latinica)? Koliko su ocuvani primerci koje treba skenirati? Koliko ljudi, vremena i para ste spremni da odvojite za ovako nesto?

[ Raspucin @ 15.09.2004. 21:41 ] @

Citat:

VRider: Kojih crnih 500GB-1TB? Da li ste ludi?
Jedan A3 list u pdf-u == 1MB? LOL
Ovo ne bi bilo vece od 30-40GB.

Za one koji ne znaju da racunaju 1list=1MB*40 strana (1 dan)=40MB
40MB*365 dana (1 godina) =14600MB ili ti drugim recima 14.6GB
14.6GB * 40 godina= 584GB

Da li ti ocekujes da dobijes samo tekst kao u Notepad-u bez i slika svega sto jos moze da se pojavi?

[ VRider @ 15.09.2004. 21:49 ] @

Racunica za broj listova je OK, ali

Citat:

Jedan A3 list u pdf-u == 1MB?

u ovome je kljuc.

Citat:

Da li ti ocekujes da dobijes samo tekst kao u Notepad-u bez i slika svega sto jos moze da se pojavi?

U pitanju je dnevni list a ne slikovnica. Pa cak i da je slikovnica, u pitanju su slike jako niske rezolucije (halo? 40 godina).

[ Raspucin @ 15.09.2004. 22:04 ] @

Citat:

VRider: Racunica za broj listova je OK, ali

U pitanju je dnevni list a ne slikovnica. Pa cak i da je slikovnica, u pitanju su slike jako niske rezolucije (halo? 40 godina).

Bez komentara...

[ Dejan Lozanovic @ 15.09.2004. 22:32 ] @

Zasto bas mora PDF, tj pitanje da li pdf mora da bude 100% verodostojna kopija, odnosno da li bi zadovoljavalo da text bude isti sa stranica a slike da se zasebno dodaju sa odredjenim kordinatama sa ovime bi se dobio priblizan izgled preko 90% slican. Bio bi verovatno razlicit font pa bi text mozda bio malo durgacije aranziran, tj neka rec bi se nasla u jednoj liniji iznad ili ispod originalnog texta(svi znate za ovaj efekat kada u wordu ili nekom slicnom programu promenite font). U svakom slucaju moj predlog je ova varijanta slicnog izgleda, jer ce skladistenje tih podataka biti manje, sa druge strane ukoliko insistirate na 100% verodostojnosti onda predlazem da se uradi OCR nad tekstom a da se cela stranica cuva u nekom grafickom formatu jpg,png,gif itd... a sam PDF bi se mogao izgenerisati po potrebi.

Kako bi moglo da se dobije vise informacija u vezi projekta.

_{[Ovu poruku je menjao Dejan Lozanovic dana 16.09.2004. u 00:43 GMT]}

[ popeye @ 15.09.2004. 22:42 ] @

OCR je vrlo problematičan kod štampanih medija, pogotovu naših koji su očajnog kvaliteta. Kako održavam sistem sličan ovom, iz iskustva znam da skeniranje i skladištenje nije problem, ukoliko se radi jednobitno (crno-belo) i pri rezoluciji od 400dpi. Skladištenje članaka u boji znatno povećava veličinu skeniranih slika, ali olakšava OCR.

[ Dejan Lozanovic @ 15.09.2004. 22:45 ] @

Citat:

Raspucin: Za one koji ne znaju da racunaju 1list=1MB*40 strana (1 dan)=40MB
40MB*365 dana (1 godina) =14600MB ili ti drugim recima 14.6GB
14.6GB * 40 godina= 584GB

Da li ti ocekujes da dobijes samo tekst kao u Notepad-u bez slika svega sto jos moze da se pojavi?

Sve zavisi kakav se pdf ocekuje, posto ukoliko niste upoznati i PDF cuva tekst kao klasican formatiran tekst i ima moguncos da ubacite slike (gledajte na njega kao na neku vrstu HTML), ukoliko se radi o toj normalnoj varijanti onda ti pdf-ovi nece mnogo mesta zauzimati. tj nece sigurno 1list 1 mb, vec ce to biti dosta manje, tacnije od broja slika i njihove rezolucije to sve zavisi. U svakom slucaju pogledajte razne tehnicke manuale u pdf-u, otrilike to su knjize od 400 strana koje stanu u 5-6 mb sve zajedno sa semama.

[ popeye @ 15.09.2004. 22:49 ] @

Kao što rekoh, OCR je nepouzdan i nikako se ne treba na njega oslanjati pri pravljenju PDF-a. Najbolji kvalitet se postiže čuvanjem strane kao slike, od koje se po potrebi može generisati PDF (mada je bespredmetno, čisto ako hoćete da dokument otvorite u Acrobat Readeru).

[ pctel @ 15.09.2004. 23:09 ] @

Slazem se da je OCR tesko realizovati, ali ovde je potrebno pretrazivanje tekstova, znaci nema druge mogucnosti - ili OCR ili da se kuca sve ponovo. Jeste li probali neki OCR program? Koliko strana ste uspeli pravilno da prebacite u tekst za sat vremena? Ja ne vise nego sto uvezban daktilograf moze da otkuca! Realna cena za to je 10 miliona dinara, koji dinar gore-dole, ali to je red velicine. To i nije mnogo, ako se posao odradi kako treba, a ako se samo uradi OCR da pola prepozna pola ne, onda treba da bude visestruko jeftinije.

[ broker @ 15.09.2004. 23:20 ] @

Mozda bi bipak trbalo naci neko konmpromisno resenje. U tekstu novina ipak nije svaka rec kljucna. Mozda bi bilo zadovoljavajuce cuvati bitmapirane skenove a pored njih praviti bazu kljucnih reci za svaku stranu. Kljucne reci bi odredjivao neko ko je upucen u njihovu vaznost (urednik?) a daktilografi bi u bazu ukucavali samo kljucne reci po strani.

Tako bi se dobila baza kljucnih reci razumnog obima za razumno vreme a opet bi korisnik imao mogucnost da pregleda kompletne strane novina.

Mislim da je pocetni zahtev da se svi brojevi unazad 40 godina pretvore u tekst radi pretrazivanja preteran i ekonomski neisplativ.

[ popeye @ 15.09.2004. 23:24 ] @

OCR se mora raditi, naravno, ali se stranice moraju čuvati kao slike. Što se brzine tiče, mogu se dobiti zadovoljavajući rezultati (300-400 A4 strana na sat). Preciznost prepoznavanja na kvalitetnijim štampanim medijima se može podići iznad 95%.

[ popeye @ 15.09.2004. 23:28 ] @

Citat:

broker: Mislim da je pocetni zahtev da se svi brojevi unazad 40 godina pretvore u tekst radi pretrazivanja preteran i ekonomski neisplativ.

Ništa posebno, isti obim je i raditi 40 medija za godinu dana.

[ jablan @ 16.09.2004. 07:55 ] @

Na stranu problemi sa OCR-om, što se indeksiranja tiče nema problema jer stvarno nije velika količina podataka.

Ko je uopšte rekao da treba da se indeksiraju PDF-ovi? Indeksira se valjda tekst koji se u njima nalazi. Na stranici sumnjam da ima više od par kilobajta suvog teksta (ajde recimo 5). 5(k) * 40(strana) * 365(dana) * 40(godina) izađe oko 3 gigabajta. Sa tim bi čak i prosečan PC mogao da izađe na kraj.

PDFovi se čuvaju odvojeno i koriste samo za prikazivanje.

[ djolep @ 16.09.2004. 09:23 ] @

Citat:

broker:Mozda bi bilo zadovoljavajuce cuvati bitmapirane skenove a pored njih praviti bazu kljucnih reci za svaku stranu. Kljucne reci bi odredjivao neko ko je upucen u njihovu vaznost (urednik?)

Taj bi morao da pregleda 40*365*40=569.600 strana

[ dr ZiDoo @ 16.09.2004. 11:36 ] @

Jeste vi meni likovi, ne znam zašto ste zapeli toliko za ta skeniranja. To je veliki projekat a ta skeniranja kada se rade ne rade se na jednom skeneru sa jednim čovjekom nego se za relativno sitne pare iznajme ljudi, honorarno, studenti, djaci, koji to izskeniraju za 1-2 mjeseca.

Nisam nikada radio ništa slično, ali mislim da prijekat nije težak 10 miliona dinara.
Sada je pitanje kako su zamislili arhiviranje toga, pretraživanje etc.

[ flylord @ 16.09.2004. 11:50 ] @

Za sve postoji programi koji to rade!!! I za indeksiranje, i za pretrazivanje, i za skeniranje... Ne koriste se obicni skeneri, za OCR se ne koristi FineReader koji vi znate nego nesto drugacije...
A cena.. Prava sitnica: Posto su trazili i hardware i software, recimo da ce samo 1 skener i 2-3 programcica koji moraju da se koriste da ih kostaju izmedju 900 000 - 2 500 000 dinara. I to je neka minimalna cifra. Za sve ostalo, ko zna sta je sve potrebno neka se javi ljudima i poprica sa njima kao sto cu ja da uradim, ko ne zna, e pa sta cu, nek se raspita.
poz

[ zsteva @ 16.09.2004. 13:07 ] @

Citat:

flylord: Za sve postoji programi koji to rade!!! I za indeksiranje, i za pretrazivanje, i za skeniranje... Ne koriste se obicni skeneri, za OCR se ne koristi FineReader koji vi znate nego nesto drugacije...
A cena.. Prava sitnica: Posto su trazili i hardware i software, recimo da ce samo 1 skener i 2-3 programcica koji moraju da se koriste da ih kostaju izmedju 900 000 - 2 500 000 dinara. I to je neka minimalna cifra. Za sve ostalo, ko zna sta je sve potrebno neka se javi ljudima i poprica sa njima kao sto cu ja da uradim, ko ne zna, e pa sta cu, nek se raspita.
poz

da ponovim josh jednom ;) kad posao bude gotov, a ja ti zelim sve najbolje,
a po najvishe razspolozenost poslodavca da plati poduhvat; ti napravi kratak dokumentarac
o samom poslu, bilo bi vrlo edukativno, a mozda i vrlo profitabilno za kasnije
poslove slicnog tipa. A posle toga mozesh da se okomish na razne knjige i slicno koje
leze po bibliotekama.

[ madamov @ 16.09.2004. 13:33 ] @

Ovo može da se uradi, ali je skupo. Štaviše, neko je to već uradio u Beogradu, doduše ne baš kompletan OCR svega jer je reč o ćirličnim izdanjima. Najbolje rešenje za ovo je Acrobat Capture u saradnji sa brzim skenerom. On odmah skenira u PDF, ili već skenirani TIFF pretvara u PDF, pri tome OCR-ujući šta treba.

Deo ovog posla je uradio Pedja Milin iz Službenog Lista SCG, javi mi se privatnom porukom da ti dam njegov broj telefona na poslu. Naime, Pedja je prebacio sve Službene listove od 1945. na ovamo u PDF i Službeni list prodaje to na CD-ima.