PDF to text

Anze anze at volja.net
Thu Sep 4 04:00:29 CEST 2003


Zivjo!

V PHPju bi za search engine rad dobil ves tekst iz poljubne pdf datoteke. 
Vem sicer, da obstaja pdftotext programcek, ampak ce je le mozno, bi se rad 
izognil klicanju zunanjih programov...

Obstaja mogoce kaksna knjiznica, ki bi to omogocala? Malo sem  gledal 
specifikacijo PDFjev, pa se mi stvar ne zdi tako komplicirana, da je ne bi 
mogel sam spacati skupaj, ce bi bilo nujno, ne bi pa rad izumljal tople 
vode... Pdftotext ima namrec malo vecji problem, ker mora poskrbeti tudi za 
pravilno postavitev elementov v tekstu, meni pa za to ni treba skrbeti, moram 
le najti vse objekte, jih odkodirati in dobiti iz njih tekst... V teoriji 
seveda.

Potem je pa tukaj se LZW dekodiranje... PHP kolikor vem nima funkcij za to 
(ceprav baje dekodiranje ni pokrito z Unisys patentom), drugje jih pa tudi 
nisem nasel... Lahko bi sicer uporabil knjiznice v Cju in naredil PHP 
extension, ampak potem se mi zdi pdftotext ze bolj zanimiva moznost... :)

Se je kdo ze kdaj lotil takega (ali podobnega) projekta, sem mogoce kaj 
spregledal? Kar cudno se mi zdi, da bi pri vseh search engine-ih uporabljali 
pdftotext program, se posebej, ker je pdf specifikacija javno objavljena na 
Netu... 

LP!

Anze



More information about the lugos-prog mailing list