ASPseek er en Internett-søkemotor programvare utviklet av SWsoft og lisensiert som fri programvare under GNU GPL.
ASPseek består av en indekseringsrobot, et søk daemon, og en CGI søk frontend. Det kan indeksere så mange som noen millioner webadresser og søke etter ord og setninger, bruke jokertegn, og gjøre en boolsk søk. Søkeresultatene kan være begrenset til tidsperioden gitt, nettstedet eller web plass (sett av nettsteder) og sortert etter relevans (Pagerank brukes) eller dato.
ASPseek er optimalisert for flere nettsteder (gjenget indeksen, async DNS-oppslag, gruppere resultatene etter område, Web mellomrom), men kan brukes til å søke ett sted også. ASPseek kan arbeide med flere språk / kodinger samtidig (inkludert multibyte kodinger som kinesisk) på grunn av Unicode lagringsmodus. Andre funksjoner inkluderer stoppordfiler og ispell støtte, en charset og språk guesser, HTML maler for søkeresultater, utdrag og spørreord utheving.
ASPseek er skrevet i C ++ bruker STL bibliotek, og bruker blanding av SQL database og binærfiler for lagring.
Her er noen viktige trekk ved "ASPseek":
Evne til å indeksere og søke gjennom flere millioner dokumenter
· Ved hjelp ASPseek, kan du bygge en database og søke gjennom mange områder, og resultatene for hver spørring vil bli returnert raskt selv om du har et par millioner av dokumenter indeksert. Selvfølgelig avhenger dette av maskinvare, så ikke forvent "gode gamle" i486 maskin til å håndtere hvert område i .com-domenet. Alt avhenger av CPU (s), minne, disk hastighet etc. Så dine egne tester før du kjøper dedikert maskinvare.
· At ASPseek er optimalisert for høye volumer bør ikke stoppe deg fra å bruke den til å søke ditt eget nettsted som inneholder noen hundre av dokumenter - det fungerer der også.
Meget god relevansen av resultatene
· Formålet med søkemotor er å finne hva brukeren ønsker. Det kan være tusenvis av nettadresser funnet som et resultat av søk, men det kan alle være irrelevant, så brukeren vil være misfornøyd.
· Output resultater i ASPseek er sortert etter relevans (eller rang), men rang beregningen er ikke en lett oppgave. Utviklere prøvde sitt beste for å innlemme største og nyeste teknikker i ASPseek motoren og samtidig opprettholde god søkehastigheten.
Ispell støtte
· Når ASPseek brukes med ispell støtte, searchd (1) kan eventuelt finne alle former for alle spesifiserte ord (f.eks: lage -> create eller opprettet en skaper). Så, det kan du finne ordet i alle forskjellige former.
Unicode lagringsmodus
· ASPseek kan lagre informasjon om dokumenter i Unicode, og dermed gjøre mulig å gjennomføre en flerspråklige søkemotor. Så, du kan indeksere og søke i dokumenter på engelsk, russisk og selv kinesisk, alt i én database.
HTTP, HTTPS, HTTP proxy, FTP (via proxy) protokoller
· Som ASPseek er en web-søkemotor, bruker den HTTP-protokollen til å indeksere nettsteder. ASPseek støtter også sikker https: // protokollen. FTP-protokollen støttes ikke direkte, men du kan bruke proxy (som blekksprut) og indeksere FTP-områder via proxy.
· ASPseek støtter "grunnleggende godkjenning" funksjonen i HTTP, slik at du kan indeksere passordbeskyttede områder (for eksempel privat informasjon på intranettet).
Text / html og tekst / vanlig dokumenttyper støtte
· ASPseek kan forstå dokumenter skrevet i HTML og ren tekst dokumenter. Dette er de mest populære formatene i Internett.
· Andre formater som PDF, RTF, etc, kan støttes med hjelp av noen eksternt program / script som er i stand til å konvertere formater til HTML eller ren tekst.
Multithreaded design, async DNS resolver etc
· ASPseek bruker POSIX tråder, som betyr at en prosess har mange tråder som kjører parallelt. Så indeks nedlastinger dokumenter fra mange steder, og søk daemon prosesser mange søk samtidig. Dette bidrar ikke bare ASPseek å skalere godt på SMP (fler) systemer, men forbedrer også indeksering hastighet, fordi i tilfelle av en tråd mest tid vil bli brukt på å vente på data fra nettverket.
· En ting som sakte indekseringsprosessen ned mye er DNS-oppslag (en prosess med å bestemme IP-adressen ved hjelp servernavn). For å unngå forsinkelser, er asynkrone oppslag (lookup er gjort av egne dedikerte prosesser) og IP-adresse cache implementert.
Stoppordfiler
· Stoppordfiler er et ord som ikke har noen mening i seg selv. Eksempler: er, er, på dette. Søker etter på er ubrukelig, så slike ord er ekskludert fra søket. Stoppordfiler er også ekskludert fra databasen under indeksering, slik database blir mindre og raskere.
· Det er ingen "innebygde" stoppordfiler i ASPseek, blir de lastet under oppstart fra filer. Mange stopword filer for ulike språk kommer med ASPseek.
Charset guesse
· Noen ødelagte eller feilkonfigurert servere ikke fortelle kundene charset der de gir innhold. Hvis du indeksere slike servere, eller bruke ASPseek å indeksere FTP-servere (FTP protokollen vet ingenting om tegnsett), kan charset guesser brukes til å håndtere det. Charset guesser bruker ordet frekvenstabeller (kalt langmaps) å bestemme riktig charset.
Robot utestenging standard støtte (robots.txt)
· ASPseek støtter fullt ut denne standarden. Den er beregnet for web site forfattere for å fortelle roboten (for eksempel ASPseek indeks (1)) for å hoppe indeksering noen kataloger av sine områder.
· For mer informasjon se http://www.robotstxt.org/wc/robots.html
Innstillinger for å kontrollere bruken båndbredde og webservere belastning
· Du kan nøyaktig kontroll nettverksbåndbredde at indeksen (1) bruker. Nøyaktig, kan du begrense båndbredden (uttrykt i bytes per sekund) som brukes av indeksen (1) for gitt tidspunkt av dagen. For eksempel kan du begrense båndbredden i forretningstiden slik at folk på kontoret ikke vil oppleve treg Internett.
· Du kan også stille inn minimumstiden mellom to forespørsler til samme webserver, så det vil ikke bli overbelastet og kom ned til knærne mens du kjører indeks (1).
Real-time asynkron indeksering
· Noen søkemotorer krever at søket bør stoppes for tiden av databaseoppdatering. ASPseek ikke trenger det, slik at du kan søke non-stop.
· Mer å si, det er en spesiell modus for indeksering kalles "real-time" indeksering. Du kan bruke den for lite antall dokumenter, og så vidt slikt dokument er lastet ned og behandlet, endringene er umiddelbart synlige i søkegrensesnitt. Denne funksjonen er en stor hjelp hvis du bygger søkemotor for sider med raskt skiftende innhold, for eksempel nettaviser etc.
· Vær oppmerksom på at antall dokumenter i "real-time" database er begrenset. Det handler om 1000 på vår hardware (din kjørelengde kan variere), og flere dokumenter du har i "real-time" database, desto lengre tid tar hastighet indeksering inn i den (og bare det) database. Dette vil ikke påvirke søkehastigheten skjønt.
· Dokumenter fra "real-time" database er flyttet til normal database etter å ha kjørt indeks (1) på en normal måte.
Sortere resultatene etter relevans eller etter dato
· Søkemotorer returnerer vanligvis mest relevante resultatene først. Men hvis du er ute etter nye sider, kan du fortelle ASPseek å sortere resultatene etter siste endringsdato, slik at sidene vises først nylig blitt endret (eller laget).
Utdrag, spørreord utheving
· Utdrag er et stykke fant dokument med ord søkte på merket, bare for å gi et inntrykk av hva dokumentet handler om. Du kan tilpasse antall utdrag viser og deres lengde. Hvis du vil deaktivere utdrag, vil begynnelsen av dokumentet vises.
· Hver funnet dokumentet er ledsaget med "hurtigbuffer" linken. ASPseek holder en lokal komprimert kopi av alle dokumenter som behandles, slik at brukeren kan se hele dokumentet med (valgfritt) uthevet ord som det er søkt for, selv om det har blitt fjernet fra opprinnelige området (det skjer noen ganger).
Gruppering resultatene etter reiser
· Resultater fra en internettside kan grupperes sammen. Hvis gruppering av nettsteder er på, er det bare to resultater vises fra samme sted som standard, og brukeren kan se andre sider fra samme sted ved å følge en "Flere resultater fra ..." link.
Kloner
· Clones er identiske dokumenter på forskjellige steder. De blir oppdaget og gruppert sammen, slik at brukeren ikke vil bli presentert med en side full av nettadresser til de samme dokumentene.
· Clone deteksjon er vanligvis begrenset av en internettside (så identiske dokumenter fra forskjellige steder regnes ikke som kloner), men du kan endre dette ved rekompileres ASPseek med --disable-kloner-by-side-alternativet.
Spaces og undergrupper
· Plass er det sett av nettsteder. Så, hvis du ønsker å gi søke redusert til enkelte område, kan du opprette en plass og søke i det rommet. Bare hele steder (f.eks http://www.mysite.com/) får lov til å bli inkludert i rommet.
· Subsets kan også brukes til å begrense søket. Du kan opprette undergruppe og sette URL maske (som http://www.mysite.com/mydir/%) inn på det, og da begrense søkeområdet til bare gitt undergruppe.
· Du kan begrense søkeområdet til ikke bare én, men flere undergrupper eller mellomrom.
HTML maler for lett å tilpasse søkeresultatene
· Du kan tilpasse søkesider, slik at de vil se ut og bli sømløst integrert med resten av området. Dette gjøres ved enkel redigering av søk mal fil.
Installasjon
gzip -DC aspseek-1.2.10.tar.gz | tar xf -
cd aspseek-1.2.10. / konfigurere
gjøre
su
make install
Prog.varedetaljer:
Kommentarer ikke funnet