Methabot programvare er en speed-optimalisert, prosedyre og svært konfigurerbar web, ftp og lokale filsystem crawler. Den støtter Scripted filetype parsing, et bredt utvalg av tilpasningsmuligheter og er lett konfigureres til å passe noens spesielle behov.
Med bruk av modulsystemet og skriptspråk, brukerne er i stand til å dra full eller delvis kontroll over gjennomgangen prosessen og bestemmer imidlertid Methabot bør lagre web data, statistikk og mye mer.
Bare ved å kjøre Methabot fra kommandolinjen kan du konfigurere egendefinerte filtyper, filtrering uttrykk, atferd, og mye mer, slik at du ikke trenger å være en scripter
Egenskaper :
- Det er raskt, designet fra grunnen og opp med speed-optimalisering i tankene.
- Prosedyre gjennom Javascript med E4X
- Brukerdefinert filetype filtrering (i henhold til MIME-type, filtype eller Umex uttrykk)
- Multi-threaded
- Svært konfigurerbar fra kommandolinjen
- Extensible modulsystem, støtter tilpassede data parsere og filtre.
- Enkel, men kraftig filtrering av URLer gjennom Umex.
- Automatisert nedlasting
- Støtte for automatisk håndtering av informasjonskapsler når du kjører over HTTP
- Pålitelig, feiltolerant nettverk
- Portable, testet med suksess på 32-bit / 64-bit Linux 2.6, 32-bit / 64-bit FreeBSD 6.x / 7.0, Windows XP og Mac OS X. Skal fungere på nesten alle Unix-lignende OS.
Hva er nytt i denne versjonen:
- Feilretting, når ekstern-titt ble brukt dybdegrense var messed up.
- Minne opprydding fikser
- dynamisk-url alternativet er ikke lenger satt til oppslag som standard, siden det bremser ned kryp betydelig
- Bygg system skaper nå og installerer noen header filer som moduler kan bruke når du kobler
- Metha-config verktøyet lagt
- lmm_mysql flyttet ut av denne pakken
Bruk
Hva er nytt i versjon 1.5.0:
- Endringer og nye funksjoner:
- Støtte for lesing innledende buffer fra stdin
- - type og --base-url kommandolinjevalg lagt til, sammen med initial_filetype alternativ i konfigurasjonsfiler
- Cookies og DNS info er nå skikkelig deles mellom arbeidstakere når du kjører flertrådet
- Lagt noen eksempel bruk kommandoer til --examples
- Store forbedringer i inter-tråden kommunikasjon, nå raskere og mer organisert
- Lagt til støtte for 'init' funksjoner til skript. Les mer om init funksjoner på http://bithack.se/projects/methabot/docs/e4x/init_functions.html
- libmetha ikke fryser når du gjør flere samtidige HTTP HEAD forespørsler lenger. Årsaken til de fryser var en bug i libcurl som nå er løst. Noen løsninger er lagt til libmetha å hindre fryser fra forekommer ved bruk av defekt libcurl versjoner også.
- Støtte for eldre libcurl versjoner 7.17.x og 7.16.x
- Ny informasjon er tilgjengelig i & quot; dette & quot; Hensikten med javascript parsere, innholdstype og overføring statuskode. Les mer på http://bithack.se/projects/methabot/docs/e4x/this.html
- - verbose alternativet erstattet med --silent, siden verbose mode er nå standard
- Første støtte for FTP kryp og ftp_dir_url crawler alternativet
- Dybde begrensende er nå crawler-spesifikke
- Lagt kommandolinjealternativene --crawler og --filetype
- Støtte for å utvide og altoverskyggende allerede definerte crawlere og filtyper
- Støtte for kopien søkeord i konfigurasjonsfiler
- Støtte for dynamisk bytte den aktive crawler, lar dette deg gjennomgå ulike nettsteder i helt forskjellige måter i en krypende økt. Les mer om crawler switching på http://bithack.se/projects/methabot/docs/crawler_switching.html
- libev versjon oppgradere til 3.51
- Den inkluderer direktivet i konfigurasjonsfiler gjør nå at den medfølgende konfigurasjonsfilen ikke allerede er lastet inn, for å hindre inkludere-buer og flere filetype / belte definisjoner.
- Ulike Spidermonkey søppelrydding rettinger, libmetha ikke krasjer lenger når rydde opp etter en flertrådet økt
- Lagt litt ekstra informasjon til --info alternativet
- The 'eksterne' er nå løst og aktivert igjen
- New opsjons --spread-arbeidere
- New libmetha API-funksjonen lmetha_global_setopt () lar deg endre den globale feil / melding / advarsel reporter
- Lagt første implementeringen av en testsuite for utviklere
- Bedre feilrapportering ved lasting konfigurasjonsfiler
- Feilretting når en HTTP-server returnerte ikke en Content-Type header etter en HEAD forespørsel
- Feilretting når sorterings URLer etter flere HTTP HEAD forespørsler
- Feilretting i html til xml converter når HTML-siden ikke har en & lt; html & gt; tag
- Feilretting, den extless-url alternativet fungerte ikke
- Feilretting, html til xml konverter ikke lenger choker på byte-order merker eller annen tekst før selve HTML
- Feilretting, forhindret libmetha fra å prøve å få tilgang til nettadressene protokoller som ikke støttes
- Feilretting da slå etter en feil.
- Feilretting, gjorde uløselig webadresser ikke bryte ut retry loopen etter tre forsøk
- Meget eksperimentell og ustabil støtte for Win32, hovedsakelig ment for utviklere
- Nye konfigurasjonsfiler:
- google.conf, å utføre google søk
- youtube.conf, youtube søker
- meta.conf, utskrifter meta-informasjon slik som søkeord og beskrivelse om HTML-sider
- title.conf, skriver tittelen på HTML-sider
- ftp.conf, for gjennomgang FTP-servere
Hva er nytt i versjon 1.4.1:
- Konfigurer kunne ikke finne jsapi.h på noen systemer Dette bør være løst nå.
- Konfigurasjonsfiler er nå i stand til å endre belte og filtyper flagg, lagt opsjonenes ytre "og" external_peek '
- Feilretting, Methabot noen ganger ville krasje når rydde opp tomme URLer etter flere HTTP HEAD
- Fikset en krasj som oppstod når du kjører synkront.
- Bygg systemet inkluderer fix når jsconfig.h ikke ble funnet.
Krav
- Spidermonkey overskrifter
- cURL
Kommentarer ikke funnet