Apache Nutch prosjektet er en åpen kildekode, skalerbar, svært utvidbar og gratis web-basert web crawler programvare som bygger på Apache Lucene (Java-versjon) bibliotek.
Den legger Web detaljer, for eksempel en crawler, en link-grafdatabase, parsere for HTML og andre dokumentformater, etc. Det er utviklet og distribuert av Apache Foundation, den to separate grener.
Å være modulbasert og pluggbare, har Apache Nutch sine fordeler, ved å gi utvid grensesnitt som Parse, Index og ScoringFilter for tilpassede implementeringer, for eksempel Apache Tika for analysering.
Videre er Apache Nutch designet for å kjøre på en enkelt maskin, men det er mer kraftfull når du kjører i en Hadoop cluster. Pluggbare indeksering finnes for Elastic Search, Apache Solr, etc
Hva er nytt i denne utgaven.
- Nutch-1779 Apply formatering til koden (lewismc)
- Nutch-1907 Feil utgang outlinks å Hosts innen HostDbUpdateReducer (lewismc)
- Nutch-1 856 Document webpage.avsc og host.avsc (lewismc)
- Nutch-1834 GeneratorMapper atferd avhenger loggnivået (Gerhard Gossen via snagel)
- Nutch-1899 oppgradering restlet lib for å hindre oppbygging svikt (talat)
- Nutch-1797 fjerne ubrukte pakke oanhtml (Saurabh Chhajed via snagel)
- Nutch-1888 Spesifiser HTMLMapper å bruke i TikaParser (Halil Simsek via jnioche)
- Nutch-1 897 Enklere debugging av plugin XML feil (markus)
- Nutch-1823 Oppgradering til elasticsearch 1.4.1 (Phu Kieu, markus, lewismc)
- Nutch-1829 Generator: ute av stand til å skille reelle feil (Mathieu Bouchard, jnioche, snagel)
- Nutch-1778 Generator ikke logge antall nettadresser i batch riktig (jnioche via snagel)
- Nutch-1 877 suffiks URL filter for å ignorere søkestrengen som standard (markus via snagel)
- Nutch-1 825 protokoll-http kan henge i visse websider (Phu Kieu via snagel)
- Nutch-1 483 Kan ikke krype filsystem med protokoll-fil plugin (Rogerio Pereira Araujo, Mengying Wang, snagel)
- Nutch-1 885 Protocol-filen skal behandle symbolske lenker som omdirigeringer (Mengying Wang, snagel)
- Nutch-1880 URLUtil bør ikke legge til flere flenger for filen URLer (snagel)
- Nutch-1879 Regex URL normalizer bør fjerne flere flenger etter filen: protokoll (snagel)
- Nutch-1 820 remove feltet & quot; orig & quot; som dupliserer & quot; id & quot; (lewismc, snagel)
- Nutch-1843 Oppgradering til Gora 0,5 (Talat, lewismc, Kiril Menshikov, drazzib)
- Nutch-1 883 bin / crawl: bruk funksjonen til å kjøre bin / Nutch og sjekk exit verdi (snagel)
- Nutch-1882 maur eclipse mål å legge utgang banen til src / test (snagel)
- Nutch-1 827 Port Nutch-1467 og Nutch-1 561 til 2.x (snagel)
- Nutch-1 876 oppgradering til Belte Commons 0.5 (jnioche)
- Nutch-1 866 maur eclipse målet bør ikke slette runtime (nimafl via lewismc)
- Nutch-1 859 Gjør Nutch webapp port konfigurerbar (Nima Falaki via lewismc)
- Nutch-1848 Bug i DashboardPage.html tilfeller teller (Nima Falaki via lewismc)
- Nutch-841 Lag en Wicket-baserte Web Application for Nutch (Fjodor Vershinin via lewismc)
- Nutch-1 832 Gjør Nutch arbeid uten en indekser (mattmann via lewismc)
- Nutch-1840 beskrive funksjon i SolrIndexWriter er feil (Kaveh minooie via jnioche)
- Nutch-1837 Oppgradering til Tika 1,6 (lewismc)
- Nutch-1829 Generator: ute av stand til å skille reelle feil (Mathieu Bouchard via jnioche)
- Nutch-1828 bin / crawl: feil håndtering av Nutch feil (Mathieu Bouchard via jnioche)
- Nutch-1 693 TextMD5Signature beregnet på tekstlig innhold (Tien Nguyen Manh, markus via snagel)
- Nutch-1409 Fjern frarådet egenskaper db. {standard, max} .fetch.interval, generate.max.per.host.by.ip (Matthias Agethle via snagel)
- Nutch-1 819 batchId i GeneratorJob (Fjodor Vershinin via lewismc)
- Nutch-1 708 bruk samme id når indeksering og slette omdirigeringer (snagel)
- Nutch-1 817 Fjern pom.xml fra kilde (jnioche)
- Nutch-1811 bin / Nutch JUnit å bruke JUnit 4 test runner (snagel)
- Nutch-1 776 Logg uriktige plugin.folder filbanen (Diaa via snagel)
- Nutch-1566 bin / Nutch å tillate mellomrom i baner (tejasp, snagel)
- Nutch-1605 MIME-type detektor gjenkjenner xlsx som zip-fil (snagel)
- Nutch-385 Forbedre beskrivelse av trådrelatert konfigurasjon for henter (jnioche, Lufeng)
- Nutch-1 798 Crawl script ikke kalle index kommandoen riktig (Aaron Bedward via jnioche)
- Nutch-1 769 REST API refactoring (Fjodor Vershinin via lewismc)
- Nutch-1 633 slf4j er levert av Hadoop og bør ikke tas med i jobben fil (Kaveh minooie via jnioche)
- Nutch-1 787 oppdatering og full oversikt API doc side (snagel)
- Nutch-1 767 fjerne særbehandlingen av & quot; params & quot; i relative lenker (snagel)
- Nutch-1718 redefinere http.robots.agent som & quot; ekstra byråets navn & quot; (snagel, Tejas Patil, Daniel Kugel)
- Nutch-1 796 Sørg Gora objekt utbyggere blir brukt som motsetter seg til tomme konstruktører (snagel via lewismc)
- Nutch-1 590 [SECURITY] Frame injeksjon sårbarhet publisert Javadoc (jnioche)
- Nutch-1736 Kan ikke hente siden hvis http respons header inneholder Transfer-Encoding: du delvis (YSC via jnioche)
- Nutch-1782 NodeWalker å returnere gjeldende node (markus)
- Nutch-1781 Update Gora - * - mapping.xml og gora.proeprties å reflektere Gora 0,4 (lewismc)
- Nutch-1768 Oppgradering til ElasticSearch 1.1.0 (jnioche)
- Nutch-1634 readdb -stats viser resultatet to ganger (Kaveh minooie via jnioche)
- Nutch-1 780 ttl og gc_grace_seconds attributter mangler fra Gora-cassandra-mapping.xml fil (Kaveh minooie via lewismc)
- Nutch-1676 Legg rudimentær SSL-støtte til protokoll http (jnioche, markus)
- Nutch-1 674 Bruk batchId filter for å aktivere skanning (GORA-119) for Fetch, Parse, Update, Index (Tien Nguyen Manh og Alparslan Avci via jnioche)
- Nutch-1 714 oppgradering til Gora 0,4 (Alparslan Avci via jnioche)
- Nutch-1 752 Cache robots.txt regler per protokoll: host: port (snagel)
- Nutch-1 613 Tidsavbrudd i protokoll-httpclient ved gjennomgang samme vert med & gt; 2 tråder (brian44 via jnioche)
- Nutch-1182 fetcher logge hang tråder (snagel)
- Nutch-1 618 Slå spekulativ utføring av for Henter (talat)
- Nutch-1657 ORIGINAL_CHAR_ENCODING og CHAR_ENCODING_FOR_CONVERSION aldri satt i HTMLParser (Talat)
- Nutch-1 725 CleaningJob sin redusering ikke forplikte slettede dokumenter. (ilhamikalkan via talat)
- Nutch-1 728 indekser-Solr plugin ikke slette dokumenter fra Solr (ilhamikalkan via talat)
- Nutch-1753 Eclipse dependecy problem for 2.x (talat)
- Nutch-1720 Duplicate linjer i HttpBase.java (Walter Tietze via jnioche)
- Nutch-797 URL ikke riktig konstruert når koblingen målet begynner med en & quot;? & quot; (Doug Cook, Robert Hohman, Stondet, ab via snagel)
- Nutch-1759 Oppgradering til Belte Commons 0.4 (jnioche)
- Nutch-1700 Fjern deprecated kode i src / plugin / creative / build.xml (lewismc)
- Nutch-1 761 Crawl script ikke klarer å finne jobb fil hvis ikke startet fra innsiden bin dir (David Hosking, jnioche)
- Nutch-1 603 ZIP parser klager på avkortet PDF-fil (snagel via lewismc)
- Nutch-1 743 parsechecker vise outlinks (snagel)
- Nutch-1732 Bedre cmd linje parsing for NutchServer (Fjodor Vershinin via lewismc)
- Nutch-1751 Tomme ankere bør ikke indeks (Sertac Turkel via lewismc)
- Nutch-1733 parse-html å støtte HTML5 charset definisjoner (snagel)
- Nutch-1727 konfigureres lengde for toppdomener (Sertac Turkel via lewismc)
- Nutch-1 738 Expose antall nettadresser som genereres per batch i GeneratorJob (Talat UYARER via ewismc)
- Nutch-1 671 indexchecker å legge fordøye feltet (snagel, Lufeng)
- Nutch-1 645 JUnit Test Case for Adaptive Fetch Schedule klasse (Yasin Kilinc, Lufeng, Sertac Urkel via snagel)
- Nutch-1478 Analyser-metatags og index-metadata plugin for Nutch 2.x-serien (Kiran, Nguyen Anh Tien, Talat UYARER, Vangelis Karvounis via lewismc)
- Nutch-1 729 oppgradering til Tika 1,5 (jnioche)
- Nutch-1721 Oppgradering til belte vanlig 0,3 (tejasp)
- Nutch-1 719 DomainStatistics mislykkes i 2.x fordi URL ikke er ureverserte (Gerhard Gossen via lewismc)
- Nutch-1253 inkompatibel neko og Xerces versjoner (snagel, lewismc, Talat UYARER)
- Nutch-1715 RobotRulesParser legger ekstra "*" til roboter navn (tejasp)
- Nutch-356 Plugin repository cache kan føre til minnelekkasje (Enrico Triolo, Dogacan Guney via markus)
- Nutch-1 164 Skriv JUnit tester for protokoll http (Sertac Turkel via tejasp)
- Nutch-1710 Legg Gora pakke logging til log4j.properties (lewismc)
- Nutch-1 655 Indexer Plugin for Elastic Søk (Talat UYARER via lewismc)
- Nutch-1699 Tika parser - Bildetolke Bug (Mehmet Zahid Yuzuguldu, snagel via lewismc)
- Nutch-1 568 port pluggbare indeksering arkitektur til 2.x (Talat UYARER via lewismc)
- Nutch-1672 inlinks tilsettes to ganger i DbUpdateReducer (Tien Nguyen Manh via lewismc)
- Nutch-1667 updatedb alltid ignorere batchId (Tien Nguyen Manh via lewismc)
- Nutch-1 695 NutchDocument.toString () (markus via lewismc)
- Nutch-1696 Aktiver bruk av (Gora) Stillbilde avhengig (lewismc)
- Nutch-1681 I URLUtil.java, toUNICODE metoden ikke fungerer riktig (A
Kommentarer ikke funnet