PDFTextStream

Skjermbilde programvare:
PDFTextStream
Prog.varedetaljer:
Versjon: 2.6.0
Last opp dato: 20 Feb 15
Lisens: Shareware
Pris: 1900.00 $
Popularitet: 2

Rating: nan/5 (Total Votes: 0)

PDFTextStream prosjektet er en PDF tekst og metadata utvinning biblioteket tilgjengelig for Java, Python, og .NET.
Den støtter alle versjoner av PDF-dokumentet spesifikasjonen, (inkludert v1.6, som brukes av Acrobat 7), utvinning av tekst som er kodet i dobbeltbytetegnsett (inkludert kinesisk, japansk og koreansk), dekryptering av 40-bit og 128 bits kryptert dokumenter og utvinning av alle dokument metadata som tilbys av PDF-dokumenter (inkludert skjemadata, bokmerker og notater).
Enkel integrasjon med Jakarta Lucene er inkludert

Hva er nytt i denne utgaven:.

  • Denne versjonen inneholder en rekke feilrettinger gjort å sikre PDFTextStream er i stand til å trekke ut tekst fra PDF-dokumenter som er avvikende til PDF-spesifikasjonen.
  • Det inkluderer også en rekke ytelsesforbedringer.

Hva er nytt i versjon 2.3.0:

  • lagt en .isStruckThrough () -metoden for å com. snowtide.pdf.TextUnit, som indikerer om en karakter har en gjennomstreking trukket gjennom den.
  • Forbedret PDFTextStream støtte for innebygde tegn kartlegginger.
  • Beregningen av mellomrom mellom ord har blitt festet til riktig høyde for whitespace som er eksplisitt kodet i kilde PDF-dokumenter.
  • Forbedret PDFTextStream håndtering av sammensatte innholds kodinger, som tidligere kan mislykkes som resulterer i noen områder av PDF-innhold blir "ignorert" under utvinning.
  • Fikset en bug i VisualOutputTarget hvor tekst fra en enkelt linje vil bli fordelt over flere linjer
  • Forbedret vertikale justeringen av tekst hentet ved hjelp VisualOutputTarget
  • Forbedret VisualOutputTarget produserte ekstrakter for å eliminere falsk ekstra mellomrom mellom nært tilstøtende ord

Hva er nytt i versjon 2.2.5:

  • Denne utgivelsen legger til støtte for utpakking XFA skjemadataene som XML.
  • Det forbedrer ytelsen til tekst utvinning ved hjelp VisualOutputTarget. Støtte for PDF-dokumenter som er større enn 2 GB.
  • En fiks for en bug der kodinger fra innebygde Type1-skrifter var tidligere ikke blir brukt riktig i noen tilfeller.
  • En fiks for et problem der nyere innhold i oppdaterte PDF-dokumenter ble noen ganger blir ignorert.
  • En fiks for et problem der PDFDocEncoding-kodede bokmerker og metadata ikke ble dekodet riktig.
  • En .getDestinationName () metoden i com.snowtide.pdf.Bookmark.

Krav :

  • Apache Lucene

Kommentarer til PDFTextStream

Kommentarer ikke funnet
Legg til kommentar
Slå på bilder!