Prog.varedetaljer:
Versjon: 2.6.0
Last opp dato: 20 Feb 15
Lisens: Shareware
Pris: 1900.00 $
Popularitet: 63
PDFTextStream prosjektet er en PDF tekst og metadata utvinning biblioteket tilgjengelig for Java, Python, og .NET.
Den støtter alle versjoner av PDF-dokumentet spesifikasjonen, (inkludert v1.6, som brukes av Acrobat 7), utvinning av tekst som er kodet i dobbeltbytetegnsett (inkludert kinesisk, japansk og koreansk), dekryptering av 40-bit og 128 bits kryptert dokumenter og utvinning av alle dokument metadata som tilbys av PDF-dokumenter (inkludert skjemadata, bokmerker og notater).
Enkel integrasjon med Jakarta Lucene er inkludert
Hva er nytt i denne utgaven:.
- Denne versjonen inneholder en rekke feilrettinger gjort å sikre PDFTextStream er i stand til å trekke ut tekst fra PDF-dokumenter som er avvikende til PDF-spesifikasjonen.
- Det inkluderer også en rekke ytelsesforbedringer.
Hva er nytt i versjon 2.3.0:
- lagt en .isStruckThrough () -metoden for å com. snowtide.pdf.TextUnit, som indikerer om en karakter har en gjennomstreking trukket gjennom den.
- Forbedret PDFTextStream støtte for innebygde tegn kartlegginger.
- Beregningen av mellomrom mellom ord har blitt festet til riktig høyde for whitespace som er eksplisitt kodet i kilde PDF-dokumenter.
- Forbedret PDFTextStream håndtering av sammensatte innholds kodinger, som tidligere kan mislykkes som resulterer i noen områder av PDF-innhold blir "ignorert" under utvinning.
- Fikset en bug i VisualOutputTarget hvor tekst fra en enkelt linje vil bli fordelt over flere linjer
- Forbedret vertikale justeringen av tekst hentet ved hjelp VisualOutputTarget
- Forbedret VisualOutputTarget produserte ekstrakter for å eliminere falsk ekstra mellomrom mellom nært tilstøtende ord
Hva er nytt i versjon 2.2.5:
- Denne utgivelsen legger til støtte for utpakking XFA skjemadataene som XML.
- Det forbedrer ytelsen til tekst utvinning ved hjelp VisualOutputTarget. Støtte for PDF-dokumenter som er større enn 2 GB.
- En fiks for en bug der kodinger fra innebygde Type1-skrifter var tidligere ikke blir brukt riktig i noen tilfeller.
- En fiks for et problem der nyere innhold i oppdaterte PDF-dokumenter ble noen ganger blir ignorert.
- En fiks for et problem der PDFDocEncoding-kodede bokmerker og metadata ikke ble dekodet riktig.
- En .getDestinationName () metoden i com.snowtide.pdf.Bookmark.
Krav :
- Apache Lucene
Kommentarer ikke funnet