[ bOkIcA @ 29.09.2003. 06:38 ] @
Trebao bih da napravim neku povecu bazu pdf-ova, pa full text pretragom samo download ili pozicioniranje na odredjeni nadjeni pdf. (otprilike opis zadatka koji treba da pocnem za 15-tak dana)

Problem je kako izvuci samo text iz pdf-ova kako bi mogao da ga ubacim u bazu?

Za sada nisam nasao niti jedno open source resenje u php-u. Mozda postoji neki drugi nacin pa ako neko slucajno zna...
[ markantz @ 29.09.2003. 09:44 ] @
Imas neki program Pdf Edit, ali ne znam da li bi on mogao da pomogne jer sa njim navodno mozes da editujes PDF, ali Abby Fine Reader verzija 6 ili 7 ce ti zavrsiti posao (jeste da je to program za OCR ali radi i sa pdf-om)
[ Br@nkoR @ 29.09.2003. 09:50 ] @
ScanSoft PDF Converter
[ tOwk @ 29.09.2003. 12:51 ] @
Citat:
bOkIcA:
Problem je kako izvuci samo text iz pdf-ova kako bi mogao da ga ubacim u bazu?


Apsolutno pouzdano — nikako! Sa velikom verovatnoćom, moguće je.

Najbolje bi bilo da opišeš kojim alatima su ti PDF dokumenti pravljeni, pa da ispitaš na koji način to oni rade, i tek onda možeš da razmišljaš o pravljenju odgovarajućeg softvera.
[ brcha @ 29.09.2003. 12:56 ] @
Ako imas GhostScript, iskoristi njegov programcic "ps2ascii" (nema veze sto pise ps, radi i sa ps i sa pdf i to vrlo dobro).

Poz!
F
[ bOkIcA @ 29.09.2003. 14:17 ] @
Pdf-ove kreira Acrobat Distiller od prn fajlova Quark-a.

E sad, uspeo sam nesto sa pdftohtml koji to (za sada jos neprovereno sigurno) odradi, s tim da moram da skidam html tagove.

Naleteo sam i na ps2ascii i pdftotext, ali ih nisam jos probao.


Ma cudi me kako ima sto nekih lib-ova, wrapera (ili kako li se vec zovu) koji sluze za kreiranje pdf-ova direktno iz php-a, al za citanje nijedan.
Cim budem imao vremena da probam ove i ako naletim na jos koji nacin, postovacu ovde - mozda nekom zatreba.

tnx 2 all
[ 0x01 @ 11.10.2003. 13:04 ] @
http://www.webattack.com/download/dlpdftotext.html

Moze da ti bude od pomoci
[ neddim @ 10.07.2006. 13:47 ] @
Jednostavno:

Imas sve besplatno: www.software995.com ili potrazi VeryPDF.

Poz.
N.