Mange programmer som omhandler ustrukturerte data krever tilgang til tekstinnholdet i formatert eller merket opp dokumenter. Organisasjoner som arkiverer dokumenter krever ofte tilgang til tekstlig innhold for å gjøre dokumentene søkbare og muliggjøre innhold aggregering, rapportering og gruvedrift av dokumentarkiv. Søk og gjenfinning søknad må også trekke ut og tokenize tekst fra ulike filformater.
En standard mekanisme for å få tilgang til og trekke ut tekst fra dokumenter er levert av IFilter plug-in grensesnitt som brukes i Microsoft søkemotorer. Det er noen iFilter implementeringer utviklet av Microsoft og andre leverandører som dekker en rekke filformater. Standard eller pålitelighet og tekst utvinning kvaliteten varierer på tvers av flere IFilter utviklere.
Opait Tekst Filter er et lite verktøy program med et enkelt grensesnitt for å IFilters som allerede er installert på vertsmaskinen samt noen få tilpasset tekst utvinning filtre som arbeider direkte med filformater og forbedre den standard iFilter implementeringer.
. Grensesnittet for å trekke ut tekst er levert av en liten klasse bibliotek kalt Opait.Filters som er inkludert og kan brukes til å integrere tekst filtrene inn NET applikasjoner
Krav :
.NET Framework 4.5
Kommentarer ikke funnet