PDFMiner fungerer ved først å ta innholdet i en PDF-fil og konvertere den til en mer form format som HTML.
Derfra er tekst og data hentet og analysert, og basert på forhåndsdefinerte regler separerte og presenteres for brukeren eller sendes til andre mer kraftige data analyseverktøy.
Hvis tekstanalyse er ikke hva du har tenkt å gjøre, kan du enkelt konfigurere PDFMiner å bare trekke ut eller bare konvertere PDF-data også.
Funksjonene kan jobbe separat fra hverandre og tillate en bredere bruk spektrum takket være det
Egenskaper .
- 100% Python kode, ingen C eller C ++
- analysere PDF-filer
- Analyser PDF-filer
- Konverter PDF-filer til andre formater
- ToC vifte
- Få bare merket innhold
- Støtte for et stort antall tekst PDF funksjoner
- Støtte for et stort antall skrifttyper inne PDF-filer
- support Basic kryptering (RC4)
Hva er nytt i denne versjonen:
- PDFDocument.initialize () metoden er fjernet og ikke lenger nødvendig . Et passord er gitt som et argument for en PDFDocument konstruktør.
Hva er nytt i versjon 20110515:.
- API endringer
- LTPolygon klassen ble omdøpt LTCurve.
Hva er nytt i versjon 20110227:.
- Feilrettinger og forbedringer layout analyse
Hva er nytt i versjon 20101226:.
- Et par feilrettinger og mindre forbedringer
Hva er nytt i versjon 20101017:.
- Et par feilrettinger og mindre forbedringer
Hva er nytt i versjon 20100424:.
- Bugfikses og små forbedringer på TOC utvinning
Krav
- Python 2.4 opp til 3
Begrensninger .
- PDFMiner kan være 20 ganger tregere enn C / C ++ - basert programvare
Kommentarer ikke funnet