Apache Tika

Skjermbilde programvare:
Apache Tika
Prog.varedetaljer:
Versjon: 1.9 Oppdatert
Last opp dato: 20 Jul 15
Lisens: Gratis
Popularitet: 89

Rating: 5.0/5 (Total Votes: 1)

Apache Tika ble utviklet som et lavt nivå verktøykasse for å søke innhold inne i andre filer.
Tika gjør ikke mye av seg selv å være en enkel biblioteket, men det kan integreres i kraftigere verktøy som søkemotorer, digital asset management systemer eller CMSS å gi en fullt funksjonell i-fil søkesystem.
Biblioteket har tilgang bare filens header for rask generell informasjon fil, eller det kan gå virkelig dypt og søk selv i filen kropp av ulike typer data, i tekst eller binært format.
Et bredt spekter av filtyper støttes og Tika kan også brukes med andre programmeringsspråk, takket være en rekke tredjeparts bindinger og wrappers.

Hva er nytt i denne utgivelsen :

  • Denne utgivelsen inneholder feilrettinger og nye funksjoner, inkludert en ny Tesseract OCR parser; en ny GDAL parser; mer støttede formater, og generelle forbedringer i Tika stabilitet.

Hva er nytt i versjon 1.8:

  • Denne utgivelsen inneholder feilrettinger og nye funksjoner, inkludert en ny Tesseract OCR-parser; en ny GDAL parser; mer støttede formater, og generelle forbedringer i Tika stabilitet.

Hva er nytt i versjon 1.7:

  • Denne utgivelsen inneholder feilrettinger og nye funksjoner, inkludert en ny Tesseract OCR-parser; en ny GDAL parser; mer støttede formater, og generelle forbedringer i Tika stabilitet.

Hva er nytt i versjon 1.6:

  • Denne utgivelsen inneholder feilrettinger og nye funksjoner, inkludert en ny oversettelse API, mer støttede formater, og generelle forbedringer i Tika stabilitet.

Hva er nytt i versjon 1.5:.

  • Rettet feil i håndteringen av embedded fil behandling i PDF-filer
  • Lagt SourceCodeParser å støtte java, Groovy, C ++ filer.
  • Oppdatert Tika Server som støtter multipart / formdata nyttelast.
  • Oppdatert Tika Server til CXF 2.7.8.
  • Oppdatert Tika Server til å godta forespørsler enn joker adresser.
  • Lagt til muligheten til å bruke alternative NonSequentialPDFParser.
  • Innhold fra PDF AcroForms er nå trukket ut.
  • Faste ugyldige stjernene fra lysbildemalen i PPT.
  • Lagt testtilfeller for å bekrefte håndtering av auto-date i PPT og PPTX.

Hva er nytt i versjon 1.4:

  • Fjernet en test HTML-fil med et dårlig valgt GPL tekst i det.
  • Forbedringer til tika-server for å tillate det å produsere text / html og tekst / xml innhold.
  • Det er gjort forbedringer kompressoren parser å håndtere g'zipped filer som krever decompressConcatenated alternativet er satt til true.
  • Adressert en typografisk feil som hindret fra påvisning av awk filer.

Hva er nytt i versjon 1.2:

  • Apache Tika 1.2 inneholder en rekke forbedringer og feilrettinger.

Hva er nytt i versjon 1.0:

  • Apache Tika 1.0 inneholder en rekke forbedringer og feilrettinger.

Hva er nytt i versjon 0.9.

  • Denne utgivelsen inneholder flere viktige feilrettinger og nye funksjoner

Hva er nytt i versjon 0.8:

  • er språk identifikasjon nå dynamisk konfigurerbare, klarte via en config fil lastet fra klassebanen.
  • Tika støtter nå parsing Feeds ved å pakke den underliggende Roma biblioteket.
  • En rask start guide for Tika parsing ble bidratt.
  • En tilnærming for avløp gjennom XHTML attributter ble lagt.
  • Media type hierarki informasjon er nå tatt hensyn til når du velger den beste parser for et gitt innspill dokumentet.
  • Støtte for parsing vanlige vitenskapelige dataformater, inkludert NetCDF og HDF4 / 5 ble lagt til.
  • Enhet tester for Windows har blitt fikset, slik at TestParsers å fullføre.

Hva er nytt i versjon 0.7:

  • MP3-fil parsing ble forbedret, inkludert Channel og sample utvinning og ID3v2 støtte. Videre lyd parsing mime påvisning ble også forbedret for MIDI format.
  • Tika er avhengig ikke lenger på X11 for sin RTF parsing funksjonalitet.
  • En tråd-safe bug i AutoDetectParser ble oppdaget og rettet opp.
  • Oppgrader til PDFBox 1.0.0. Den nye PDFBox versjonen forbedrer PDF parsing ytelse og fikser en rekke tekst utvinning problemer.

Krav

  • Java 6 eller høyere

Lignende programvare

Infect.js
Infect.js

1 Mar 15

Polymaps
Polymaps

21 Jul 15

matchMedia.js
matchMedia.js

9 Apr 16

JsRender
JsRender

12 Mar 16

Annen programvare fra utvikleren Apache Software Foundation

Apache Etch
Apache Etch

13 Apr 15

Apache Cordova
Apache Cordova

10 Dec 15

Apache Flume
Apache Flume

4 Jun 15

Kommentarer til Apache Tika

Kommentarer ikke funnet
Legg til kommentar
Slå på bilder!