Apache Tika ble utviklet som et lavt nivå verktøykasse for å søke innhold inne i andre filer.
Tika gjør ikke mye av seg selv å være en enkel biblioteket, men det kan integreres i kraftigere verktøy som søkemotorer, digital asset management systemer eller CMSS å gi en fullt funksjonell i-fil søkesystem.
Biblioteket har tilgang bare filens header for rask generell informasjon fil, eller det kan gå virkelig dypt og søk selv i filen kropp av ulike typer data, i tekst eller binært format.
Et bredt spekter av filtyper støttes og Tika kan også brukes med andre programmeringsspråk, takket være en rekke tredjeparts bindinger og wrappers.
Hva er nytt i denne utgivelsen :
- Denne utgivelsen inneholder feilrettinger og nye funksjoner, inkludert en ny Tesseract OCR parser; en ny GDAL parser; mer støttede formater, og generelle forbedringer i Tika stabilitet.
Hva er nytt i versjon 1.8:
- Denne utgivelsen inneholder feilrettinger og nye funksjoner, inkludert en ny Tesseract OCR-parser; en ny GDAL parser; mer støttede formater, og generelle forbedringer i Tika stabilitet.
Hva er nytt i versjon 1.7:
- Denne utgivelsen inneholder feilrettinger og nye funksjoner, inkludert en ny Tesseract OCR-parser; en ny GDAL parser; mer støttede formater, og generelle forbedringer i Tika stabilitet.
Hva er nytt i versjon 1.6:
- Denne utgivelsen inneholder feilrettinger og nye funksjoner, inkludert en ny oversettelse API, mer støttede formater, og generelle forbedringer i Tika stabilitet.
Hva er nytt i versjon 1.5:.
- Rettet feil i håndteringen av embedded fil behandling i PDF-filer
- Lagt SourceCodeParser å støtte java, Groovy, C ++ filer.
- Oppdatert Tika Server som støtter multipart / formdata nyttelast.
- Oppdatert Tika Server til CXF 2.7.8.
- Oppdatert Tika Server til å godta forespørsler enn joker adresser.
- Lagt til muligheten til å bruke alternative NonSequentialPDFParser.
- Innhold fra PDF AcroForms er nå trukket ut.
- Faste ugyldige stjernene fra lysbildemalen i PPT.
- Lagt testtilfeller for å bekrefte håndtering av auto-date i PPT og PPTX.
Hva er nytt i versjon 1.4:
- Fjernet en test HTML-fil med et dårlig valgt GPL tekst i det.
- Forbedringer til tika-server for å tillate det å produsere text / html og tekst / xml innhold.
- Det er gjort forbedringer kompressoren parser å håndtere g'zipped filer som krever decompressConcatenated alternativet er satt til true.
- Adressert en typografisk feil som hindret fra påvisning av awk filer.
Hva er nytt i versjon 1.2:
- Apache Tika 1.2 inneholder en rekke forbedringer og feilrettinger.
Hva er nytt i versjon 1.0:
- Apache Tika 1.0 inneholder en rekke forbedringer og feilrettinger.
Hva er nytt i versjon 0.9.
- Denne utgivelsen inneholder flere viktige feilrettinger og nye funksjoner
Hva er nytt i versjon 0.8:
- er språk identifikasjon nå dynamisk konfigurerbare, klarte via en config fil lastet fra klassebanen.
- Tika støtter nå parsing Feeds ved å pakke den underliggende Roma biblioteket.
- En rask start guide for Tika parsing ble bidratt.
- En tilnærming for avløp gjennom XHTML attributter ble lagt.
- Media type hierarki informasjon er nå tatt hensyn til når du velger den beste parser for et gitt innspill dokumentet.
- Støtte for parsing vanlige vitenskapelige dataformater, inkludert NetCDF og HDF4 / 5 ble lagt til.
- Enhet tester for Windows har blitt fikset, slik at TestParsers å fullføre.
Hva er nytt i versjon 0.7:
- MP3-fil parsing ble forbedret, inkludert Channel og sample utvinning og ID3v2 støtte. Videre lyd parsing mime påvisning ble også forbedret for MIDI format.
- Tika er avhengig ikke lenger på X11 for sin RTF parsing funksjonalitet.
- En tråd-safe bug i AutoDetectParser ble oppdaget og rettet opp.
- Oppgrader til PDFBox 1.0.0. Den nye PDFBox versjonen forbedrer PDF parsing ytelse og fikser en rekke tekst utvinning problemer.
Krav
- Java 6 eller høyere
Kommentarer ikke funnet