Apache Tika

Skjermbilde programvare:
Apache Tika
Prog.varedetaljer:
Versjon: 1.4
Last opp dato: 20 Feb 15
Lisens: Gratis
Popularitet: 6

Rating: nan/5 (Total Votes: 0)

Apache Tika er en åpen kildekode-verktøykasse for å finne og hente ut metadata, samt strukturert tekstinnhold fra flere dokumenter, ved hjelp av noe annet enn eksisterende parser biblioteker.
Apache Tika støtter følgende dokumentformater: Hypertext Markup Language (HTTP), XML og avledet formater, Microsoft Office-dokumentformater, Opendocument Format (ODF), Portable Document Format (PDF), elektronisk publisering Format (EPF), Rich Text Format (RTF ), komprimering og emballasje formater, tekst / lyd / bilde / video-formater, mbox-formatet, og Java class filer og arkiver.
Tidligere Apache Tika var et delprosjekt av Apache Lucene programvare bibliotek. Nå er det distribuert som en frittstående pakke av Apache Software Foundation

Hva er nytt i denne utgaven:.

  • Fjernet en test HTML-fil med et dårlig valgt GPL tekst i det (Tika-1129).
  • Forbedringer til tika-server for å tillate det å produsere tekst / html og tekst / xml innhold (TIKA-1126, Tika-1127).
  • Det er gjort forbedringer til Kompressor parser å håndtere g'zipped filer som krever decompressConcatenated alternativet er satt til true (Tika-1096).
  • Adressert en typografisk feil som hindret fra påvisning av awk filer (Tika-1081).
  • Lagt til en ny endepunkt til Tika sin JAX-RS REST server som bare oppdager mediet-type basert på en liten del av dokumentet sendes (Tika-1047).
  • RTF:. Bestilt og sorterte lister er nå trukket ut (TIKA-1062)
  • MP3: Audio varighet er nå trukket ut (Tika-991)
  • Java .class filer:. Oppgradert fra ASM 3.1 til ASM 4.1 for parsing Java bytecodes (Tika-1053)
  • MIME-typer: Definisjoner utvides til å eventuelt inkludere Link (URL) og UTI, sammen med detaljer for flere vanlige formater (Tika-1012 / Tika-1083)
  • Unntak når parsing OLE10 innebygde dokumenter, når parsing sammendrag informasjon fra Office-dokumenter, og da sparer innebygde documennts i TikaCLI er nå logget i stedet for å avbryte utvinning (Tika-1074)
  • MS Word: linje tabell karakter er nå erstattet med linjeskift (TIKA-1128)
  • XML: ElementMetadataHandlers kan nå eventuelt godta dupliserte og tomme verdier (TIKA-1133)
  • .

Krav :

  • Java 2 Standard Edition Runtime Environment

Annen programvare fra utvikleren The Apache Software Foundation

Kommentarer til Apache Tika

Kommentarer ikke funnet
Legg til kommentar
Slå på bilder!