Apache Tika

Skjermbilde programvare:
Apache Tika
Prog.varedetaljer:
Versjon: 1.9 Oppdatert
Last opp dato: 20 Jul 15
Lisens: Gratis
Popularitet: 320

Rating: 4.0/5 (Total Votes: 2)

Apache Tika ble utviklet som et lavt nivå verktøykasse for å søke innhold inne i andre filer.
Tika gjør ikke mye av seg selv å være en enkel biblioteket, men det kan integreres i kraftigere verktøy som søkemotorer, digital asset management systemer eller CMSS å gi en fullt funksjonell i-fil søkesystem.
Biblioteket har tilgang bare filens header for rask generell informasjon fil, eller det kan gå virkelig dypt og søk selv i filen kropp av ulike typer data, i tekst eller binært format.
Et bredt spekter av filtyper støttes og Tika kan også brukes med andre programmeringsspråk, takket være en rekke tredjeparts bindinger og wrappers.

Hva er nytt i denne utgivelsen :

  • Denne utgivelsen inneholder feilrettinger og nye funksjoner, inkludert en ny Tesseract OCR parser; en ny GDAL parser; mer støttede formater, og generelle forbedringer i Tika stabilitet.

Hva er nytt i versjon 1.8:

  • Denne utgivelsen inneholder feilrettinger og nye funksjoner, inkludert en ny Tesseract OCR-parser; en ny GDAL parser; mer støttede formater, og generelle forbedringer i Tika stabilitet.

Hva er nytt i versjon 1.7:

  • Denne utgivelsen inneholder feilrettinger og nye funksjoner, inkludert en ny Tesseract OCR-parser; en ny GDAL parser; mer støttede formater, og generelle forbedringer i Tika stabilitet.

Hva er nytt i versjon 1.6:

  • Denne utgivelsen inneholder feilrettinger og nye funksjoner, inkludert en ny oversettelse API, mer støttede formater, og generelle forbedringer i Tika stabilitet.

Hva er nytt i versjon 1.5:.

  • Rettet feil i håndteringen av embedded fil behandling i PDF-filer
  • Lagt SourceCodeParser å støtte java, Groovy, C ++ filer.
  • Oppdatert Tika Server som støtter multipart / formdata nyttelast.
  • Oppdatert Tika Server til CXF 2.7.8.
  • Oppdatert Tika Server til å godta forespørsler enn joker adresser.
  • Lagt til muligheten til å bruke alternative NonSequentialPDFParser.
  • Innhold fra PDF AcroForms er nå trukket ut.
  • Faste ugyldige stjernene fra lysbildemalen i PPT.
  • Lagt testtilfeller for å bekrefte håndtering av auto-date i PPT og PPTX.

Hva er nytt i versjon 1.4:

  • Fjernet en test HTML-fil med et dårlig valgt GPL tekst i det.
  • Forbedringer til tika-server for å tillate det å produsere text / html og tekst / xml innhold.
  • Det er gjort forbedringer kompressoren parser å håndtere g'zipped filer som krever decompressConcatenated alternativet er satt til true.
  • Adressert en typografisk feil som hindret fra påvisning av awk filer.

Hva er nytt i versjon 1.2:

  • Apache Tika 1.2 inneholder en rekke forbedringer og feilrettinger.

Hva er nytt i versjon 1.0:

  • Apache Tika 1.0 inneholder en rekke forbedringer og feilrettinger.

Hva er nytt i versjon 0.9.

  • Denne utgivelsen inneholder flere viktige feilrettinger og nye funksjoner

Hva er nytt i versjon 0.8:

  • er språk identifikasjon nå dynamisk konfigurerbare, klarte via en config fil lastet fra klassebanen.
  • Tika støtter nå parsing Feeds ved å pakke den underliggende Roma biblioteket.
  • En rask start guide for Tika parsing ble bidratt.
  • En tilnærming for avløp gjennom XHTML attributter ble lagt.
  • Media type hierarki informasjon er nå tatt hensyn til når du velger den beste parser for et gitt innspill dokumentet.
  • Støtte for parsing vanlige vitenskapelige dataformater, inkludert NetCDF og HDF4 / 5 ble lagt til.
  • Enhet tester for Windows har blitt fikset, slik at TestParsers å fullføre.

Hva er nytt i versjon 0.7:

  • MP3-fil parsing ble forbedret, inkludert Channel og sample utvinning og ID3v2 støtte. Videre lyd parsing mime påvisning ble også forbedret for MIDI format.
  • Tika er avhengig ikke lenger på X11 for sin RTF parsing funksjonalitet.
  • En tråd-safe bug i AutoDetectParser ble oppdaget og rettet opp.
  • Oppgrader til PDFBox 1.0.0. Den nye PDFBox versjonen forbedrer PDF parsing ytelse og fikser en rekke tekst utvinning problemer.

Krav

  • Java 6 eller høyere

Lignende programvare

task.js
task.js

5 Jun 15

JSPath
JSPath

1 Oct 15

jsonparse
jsonparse

10 Dec 15

Facter
Facter

6 Mar 16

Annen programvare fra utvikleren Apache Software Foundation

Apache Storm
Apache Storm

20 Jul 15

Apache log4php
Apache log4php

6 Jun 15

Apache UIMA
Apache UIMA

17 Feb 15

Apache Thrift
Apache Thrift

13 Apr 15

Kommentarer til Apache Tika

Kommentarer ikke funnet
Legg til kommentar
Slå på bilder!