PDF to text
Anze
anze at volja.net
Thu Sep 4 04:00:29 CEST 2003
Zivjo!
V PHPju bi za search engine rad dobil ves tekst iz poljubne pdf datoteke.
Vem sicer, da obstaja pdftotext programcek, ampak ce je le mozno, bi se rad
izognil klicanju zunanjih programov...
Obstaja mogoce kaksna knjiznica, ki bi to omogocala? Malo sem gledal
specifikacijo PDFjev, pa se mi stvar ne zdi tako komplicirana, da je ne bi
mogel sam spacati skupaj, ce bi bilo nujno, ne bi pa rad izumljal tople
vode... Pdftotext ima namrec malo vecji problem, ker mora poskrbeti tudi za
pravilno postavitev elementov v tekstu, meni pa za to ni treba skrbeti, moram
le najti vse objekte, jih odkodirati in dobiti iz njih tekst... V teoriji
seveda.
Potem je pa tukaj se LZW dekodiranje... PHP kolikor vem nima funkcij za to
(ceprav baje dekodiranje ni pokrito z Unisys patentom), drugje jih pa tudi
nisem nasel... Lahko bi sicer uporabil knjiznice v Cju in naredil PHP
extension, ampak potem se mi zdi pdftotext ze bolj zanimiva moznost... :)
Se je kdo ze kdaj lotil takega (ali podobnega) projekta, sem mogoce kaj
spregledal? Kar cudno se mi zdi, da bi pri vseh search engine-ih uporabljali
pdftotext program, se posebej, ker je pdf specifikacija javno objavljena na
Netu...
LP!
Anze
More information about the lugos-prog
mailing list