Apache Lucene er egnet for alle programmer som krever støtte for fulltekstsøking, samtidig holde serveren ressursforbruk ned og produsere raske og høy nøyaktighet resultater.
Lucene er ansett som en av de beste søkemotorene rundt, å være i kjernen av mange andre søkeverktøy, den mest kjente er Apache Solr .
Lucene er skrevet i Java og siden de ble utgitt av Apache Foundation, har det blitt oversatt til mange andre språk og ulike bindinger og pakke eksisterer som tredjepartsutviklet programvare.
Hva er nytt i denne versjonen:
- All filtilgang bruker nå Javas NIO.2 APIer som gir Lucene sterkere indeksen sikkerhet i form av bedre feilhåndtering og tryggere inger.
- Hver Lucene segment lagrer nå en unik id per segment og per-forplikte seg til å hjelpe til med nøyaktig replikering av indeksfilene.
- Under sammenslåing, nå alltid sjekker IndexWriter innkommende segmenter for korrupsjon før sammenslåing. Dette kan bety, på å oppgradere til 5.0.0, kan det sammenslåing avdekke langvarig latent korrupsjon i en eldre 4.x indeks.
Hva er nytt i versjon 5.2.1 / 4.10.4 / 3.6.2:
- All fil tilgang nå bruker Javas NIO.2 APIer som gir Lucene sterkere indeksen sikkerhet i form av bedre feilhåndtering og tryggere inger.
- Hver Lucene segment lagrer nå en unik id per segment og per-forplikte seg til å hjelpe til med nøyaktig replikering av indeksfilene.
- Under sammenslåing, nå alltid sjekker IndexWriter innkommende segmenter for korrupsjon før sammenslåing. Dette kan bety, på å oppgradere til 5.0.0, kan det sammenslåing avdekke langvarig latent korrupsjon i en eldre 4.x indeks.
Hva er nytt i versjon 5.1.0 / 4.10.4 / 3.6.2:
- All fil tilgang nå bruker Javas NIO.2 APIer som gir Lucene sterkere indeksen sikkerhet i form av bedre feilhåndtering og tryggere inger.
- Hver Lucene segment lagrer nå en unik id per segment og per-forplikte seg til å hjelpe til med nøyaktig replikering av indeksfilene.
- Under sammenslåing, nå alltid sjekker IndexWriter innkommende segmenter for korrupsjon før sammenslåing. Dette kan bety, på å oppgradere til 5.0.0, kan det sammenslåing avdekke langvarig latent korrupsjon i en eldre 4.x indeks.
Hva er nytt i versjon 5.0.0 / 4.10.3 / 3.6.2:
- Nye vilkår .getMin / Max metoder for å hente de laveste og høyeste vilkårene per felt.
- New IDVersionPostingsFormat, optimalisert for ID-oppslag som assosierer en monotont økende versjon per ID.
- Atomic oppdatering av et sett med doc verdier felt.
- Mange optimaliseringer for doc verdier søk punktligheten.
- New (standard) Lucene49NormsFormat å bedre komprimere visse tilfeller som svært korte felt.
- New SORTED_NUMERIC docvalues type for effektiv behandling av multi-verdsatt numeriske felt.
- Indexer passerer forrige token stream for enklere gjenbruk.
- MoreLikeThis godtar flere verdier per felt.
- Alle klasser som anslår deres RAM-bruk nå gjennomføre en ny Account grensesnitt.
- Lucene filer er nå skrevet av (File) OutputStream på alle plattformer, helt disallowing søker med forenklede IO APIer.
- Bedre forvirrende feilmelding når MMapDirectory ikke kan lage et nytt kart.
Hva er nytt i versjon 4.8.0:
- Lucene har en ny Rescorer / QueryRescorer API for å utføre andre-pass rescoring eller reranking av søkeresultatene ved hjelp av dyrere scorings funksjoner etter første-pass hit samling.
- AnalyzingInfixSuggester støtter nå nær-sanntid autosuggest.
- Forenklet støt sortert innlegg (bruker SortingMergePolicy og EarlyTerminatingCollector) å bruke Lucene sin Sorter klasse å uttrykke sorteringsrekkefølgen.
- Bulk scoring og normal iterator-basert scoring ble separert, så noen spørsmål kan gjøre bulk score mer effektivt.
- Byttet til MurmurHash3 til hasj vilkår under indeksering.
- IndexWriter støtter nå oppdatering av binære doc verdifelt.
- HunspellStemFilter bruker nå 10 100x mindre RAM. Den laster også alle kjente Openoffice ordbøker uten feil.
- Lucene nå også fsync-skriv katalogen metadata på inger, hvis operativsystemet og filsystemet tillater det (Linux, MacOSX er kjent for å fungere).
- Lucene nå bruker Java 7 filsystem funksjoner under panseret, så indeksfiler kan slettes på Windows, selv når leserne er fortsatt åpen.
- En alvorlig feil i NativeFSLockFactory ble fikset, noe som kan føre til at flere IndexWriters å skaffe seg den samme låsen. Låsen filen er ikke lenger slettet fra indeksen katalogen selv når låsen ikke blir holdt.
Hva er nytt i versjon 4.7.0:
- Når sortering av String (SortField.STRING), Du kan nå angi om manglende verdier skal sorteres først (standard), eller sist.
- NRT støtte for filsystemer som ikke har slette fjor nær eller kan ikke slette mens refererte semantikk.
- Lagt LongBitSet for å forvalte mer enn 2.1b biter (ellers bruker FixedBitSet).
- Lagt Analyzer for kurdisk.
- Lagt Payload støtte til FileDictionary (Foreslå) og gjøre det mer konfigurerbar.
- Lagt til en ny BlendedInfixSuggester, som er som AnalyzingInfixSuggester men øker forslag som passet tokens med lavere plasseringer.
- Lagt SimpleQueryParser. parser for menneskeutfylte spørsmål
- Lagt multitermquery (jokertegn, prefiks, etc) til PostingsHighlighter.
Hva er nytt i versjon 4.6.0:
- Lagt til støtte for oppdateringer NumericDocValues felt (uten re- indeksere dokumentet) gjennom IndexWriter.updateNumericDocValue (Term, String, Long).
- New FreeTextSuggester kan forutsi neste ord ved hjelp av en enkel Ngram språkmodell nyttig for & quot; long tail & quot; forslag.
- Et nytt uttrykk modul gir mulighet for tilpasset rangering med script-lignende syntaks.
- En ny DirectDocValuesFormat kan holde alle doc verdier i haugen som ukomprimert java innfødte arrays.
- Term.hasFreqs kan nå avgjøre om et gitt felt indeksert per-doc
- varige frekvenser.
Hva er nytt i versjon 4.5.0:
- Nye i-minne DocIdSet implementeringer som er spesielt bedre enn FixedBitSet på små sett:. WAH8DocIdSet, PFORDeltaDocIdSet og EliasFanoDocIdSet
- CachingWrapperFilter cacher nå filtre med WAH8DocIdSet som standard, som har samme minnebruken som FixedBitSet i verste fall, men er mindre og raskere på små sett.
- TokenStreams nå angi posisjonen tilvekst i slutten (), slik at vi kan håndtere etterfølgende hull.
- IndexWriter ikke lenger kloner den gitte IndexWriterConfig.
- Ulike feilrettinger og optimaliseringer siden 4.4 utgaven.
Hva er nytt i versjon 4.4.0:
- New Replicator modul: replikere indeks revisjoner mellom server og klienten.
- New AnalyzingInfixSuggester. finner forslag basert på kampene til noen tokens i forslaget, ikke bare basert på ren prefiks matchende
- New PatternCaptureGroupTokenFilter. avgir flere symboler, ett for hver fangst gruppe i ett eller flere Java regexes
- New Lucene Fasett modulen.
Hva er nytt i versjon 4.3.0:
- New SearcherTaxonomyManager forvalter nær-sanntid gjenåpner av både IndexSearcher og TaxonomyReader (for face).
- Lagt ny fasett metode til fasett-modulen for å beregne fasett teller hjelp SortedSetDocValuesField, uten en egen taksonomi indeks.
- betydelige ytelsesforbedringer for minShouldMatch BooleanQuery grunn til å hoppe over noe som resulterer i opp til 4000% raskere spørringer.
- Ulike feilrettinger og optimaliseringer siden 4.2.1 utgivelsen.
Hva er nytt i versjon 4.1.0:
- Lucene søker ikke lenger når du skriver filer (alle felt er skrevet i en append-eneste måten). Dette betyr at det fungerer som standard med append-bare bekker, hdfs, etc ..
- New foreslår implementeringer: AnalyzingSuggester, hvor den underliggende form (beregnet fra en Lucene Analyzer) som brukes for forslag er atskilt fra den returnerte tekst og FuzzySuggester, som i tillegg gir mulighet for unøyaktig matching på inngangs .
- nær sanntidsstøtte ble lagt i fasett modulen.
- New Highlighter (postingshighlighter) lagt til merkepenn modulen.
- Lagt FilterStrategy å FilteredQuery for mer fleksibilitet i filtrert spørringen kjøres.
- Lagt CommonTermsQuery å fremskynde spørringer med svært høyt hyppige vilkår. Term frekvenser er effektivt oppdaget på spørre tid -. Ingen indeks tid forberedelse kreves
- Flere feilrettinger og optimaliseringer siden 4.0 versjonen.
Hva er nytt i versjon 4.0-alpha:
- Indeksen formater for vilkår, post lister, lagret felt, term
- vektorer, etc. er pluggbare via Codec api. Du kan velge fra den medfølgende implementeringer eller tilpasse indeksen format med din egen Codec for å møte dine behov.
- Vesentlig raskere ytelse når du bruker et filter under søket.
- filsystem baserte kataloger kan rangere-limit IO (MB / sek) av flette tråder, for å redusere IO stridigheter mellom sammenslåing og søker tråder.
- FuzzyQuery er 100-200 ganger raskere enn i tidligere utgivelser.
- En ny stavekontroll, DirectSpellChecker, finner mulige korreksjoner
- direkte mot hovedsøkeindeksen uten å kreve en egen indeks.
Hva er nytt i versjon 3.6.0:
- I tillegg til Java 5 og Java 6, dette meldingen er nå i full Java 7-støtte (minimum JDK 7u1 nødvendig).
- TypeTokenFilter filtre tokens basert på deres TypeAttribute.
- fast avvik bugs i en rekke CharFilters, Tokenizers og TokenFilters som kan føre til unntakene under utheving.
- Lagd fonetiske kodere: Metaphone, Soundex, Caverphone, Beider-Morse, etc .
- CJKBigramFilter og CJKWidthFilter erstatte CJKTokenizer.
- Kuromoji morfologisk analysator tokenizes japansk tekst, produsere både sammensatte ord og deres segmentering.
- Statisk indeksen beskjæring (Carmel beskjæring) fjerner innlegg med lavt innenfor-dokument sikt frekvens.
- QueryParser Nå tolker «*» som en åpen ende for områdespørringer.
- FieldValueFilter utelukker dokumenter mangler det angitte feltet.
- CheckIndex og IndexUpgrader lar deg spesifisere den spesifikke FSDirectory gjennomføringen å bruke med den nye -dir-impl kommandolinjealternativet.
- fsts kan nå gjøre reverse lookup (ved utgang) i visse tilfeller, og kan pakkes for å redusere deres størrelse. Det er nå en metode for å hente topp N korteste stier fra en start node i en FST.
- støtter New WFSTCompletionLookup suggester finkornete ranking for forslag.
- FST basert suggesters nå bruke en offline (diskbasert) liksom, i stedet for i-minne sortere, når pre-sortering forslagene.
- ToChildBlockJoinQuery tiltrer i motsatt retning (forelder ned til barne dokumenter).
- Ny spørring-tiden begynte er mer fleksibel (men mindre performant) enn indeks tid tiltrer.
- Lagt HTMLStripCharFilter å strippe HTML markup.
Hva er nytt i versjon 3.5.0:
- Lagt til en meget betydelig (3-5X) RAM reduksjon kreves for å holde begrepene indeksen på å åpne en IndexReader.
- Lagt IndexSearcher.searchAfter som returnerer resultater etter en spesifisert ScoreDoc (f.eks siste dokumentet på forrige side) for å støtte dype paging bruksmåter.
- Lagt SearcherManager å administrere deling og gjenåpning IndexSearchers over flere søke tråder. Underliggende IndexReader tilfeller er trygt stengt hvis ikke referert lenger.
- Lagt SearcherLifetimeManager som sikkert gir en konsistent visning av indeksen over flere forespørsler (f.eks paging / Drilldown).
- omdøpt IndexWriter.optimize å forceMerge å fraråde bruk av denne metoden siden det er fryktelig kostbart og sjelden forsvares lenger.
Hva er nytt i versjon 3.3.0:
- stavekontroll modulen inneholder nå foreslå / autofullfør funksjonalitet, med tre implementeringer:. Jaspell, Ternary Trie, og Finite State
- Støtte for å samordne informasjon fra flere skår, for både & quot; normal & quot; søkeresultater (TopDocs.merge) samt gruppert resultatene med gruppering modul (SearchGroup.merge, TopGroups.merge).
- En optimalisert gjennomføring av KStem, en mindre aggressiv Stemmer for engelsk.
- Single-pass gruppering implementering basert på blokken dokumentet indeksering.
- Forbedret MMapDirectory (nå også standard implementering returnert av FSDirectory.open på 64-bits Linux).
- NRTManager forenkler håndtering nær-sanntid søk med flere søke tråder, slik at programmet til å kontrollere hvilke indeksering endringer må være synlig for hvilke søkeforespørsler.
- TwoPhaseCommitTool letter å utføre en multi-ressurs to-faset begå, inkludert IndexWriter.
- Standard merge politikk, TieredMergePolicy, har en ny metode (sett / getReclaimDeletesWeight) for å kontrollere hvor aggressivt det mål segmenter med slettinger, og er nå mer aggressive enn før som standard.
- PKIndexSplitter verktøyet deler en indeks av en mid-point sikt.
Hva er nytt i versjon 3.2.0:
- En ny gruppering modul under Lucene / contrib / gruppering, gjør søkeresultatene for å bli gruppert etter en enkelt verdi indeksert feltet.
- En ny IndexUpgrader verktøyet fullt konverterer en gammel indeks til dagens format.
- En ny Directory implementering, NRTCachingDirectory, bufrer små segmenter i RAM, for å redusere I / O belastning for applikasjoner med rask NRT gjenåpne priser.
- En ny Collector implementering, CachingCollector, er i stand til å samle søke treff (dokument IDer og eventuelt også score) og deretter spille dem. Dette er nyttig for Collectors som krever to eller flere passeringer å produsere resultater.
- Index et dokument blokk hjelp IndexWriter nye addDocuments eller updateDocuments metoder. Disse eksperimentelle APIer sikre at blokken av dokumentene vil alltid forbli sammenhengende i indeksen, slik interessant fremtid funksjoner som gruppering og tiltrer.
- En ny standard merge politikk, TieredMergePolicy, som er mer effektiv grunn til å være i stand til å slå sammen ikke-sammenhengende segmenter.
- NumericField er nå tilbake på riktig måte når du laster inn et lagret dokument (tidligere du mottok en normal Feltet tilbake, med den numeriske verdien omregnet streng).
Hva er nytt i versjon 3.1.0.
- ConstantScoreQuery nå tillater direkte innpakning en Query
- IndexWriter er nå konfigurert med en ny separat byggmester API, IndexWriterConfig. Du kan nå kontrollere IndexWriter sin tidligere faste gjenger grense ved å ringe setMaxThreadStates.
- IndexWriter.getReader erstattes av IndexReader.open (IndexWriter). I tillegg kan du nå angi om slett skal løses når du åpner en NRT leser.
- MultiSearcher er foreldet; ParallelMultiSearcher har blitt absorbert direkte inn IndexSearcher.
- På 64bit Windows og Solaris JVM, er MMapDirectory nå standard implementering (returneres av FSDirectory.open). MMapDirectory muliggjør også unmapping hvis JVM støtter det.
- New TotalHitCountCollector bare teller totalt antall treff.
- ReaderFinishedListener API muliggjør eksterne cacher å kaste oppføringer når et segment er ferdig.
Hva er nytt i versjon 3.0.1.
- Fjern unødvendige synkronisering i FuzzyTermEnum
- Når løse slettet vilkår, gjør det i begrepet sorteringsrekkefølge for bedre ytelse.
- Ikke feilaktig holde advarsel om den samme enorme sikt, når IndexWriter.infoStream er på.
- Fix Min / MaxPayloadFunction returnerer 0 når bare en nyttelast er til stede.
- Spørsmål bestående av alle null-boost klausuler (for eksempel tekst: foo ^ 0) sorteres feil og produsert ugyldige docids .
- Fjernet beskyttet indre klassen ScoreTerm fra FuzzyQuery. Endringen var nødvendig fordi komparatoren av denne klassen måtte endres på en inkompatibel måte. Klassen var aldri ment å være offentlig.
Hva er nytt i versjon 2.9.2:
- BooleanQuery var ignorerer disableCoord i sin hashCode og lik metoder , føre til dårlige ting til å skje når caching BooleanQueries.
- Ikke feilaktig holde advarsel om den samme enorme sikt, når IndexWriter.infoStream er på.
- Ved høye indeksering priser, kunne NRT leseren midlertidig miste slettinger.
Hva er nytt i versjon 3.0.0:
- Fjernet systemegenskapen å sette SegmentReader klasse gjennomføring.
- Endre retur type SnapshotDeletionPolicy # snapshot () fra IndexCommitPoint til IndexCommit. Kode som bruker denne metoden må rekompileres mot Lucene 3.0 for å fungere. Den tidligere frarådet IndexCommitPoint er også fjernet.
- Gi en praktisk AttributeFactory som skaper en Token eksempel for alle grunnleggende egenskaper.
- Fjern rekursjon i NumericRangeTermEnum.
- Optimize Levenshtein Avstand beregning i FuzzyQuery.
Kommentarer ikke funnet