Apache Nutch projekt egy nyílt forráskódú, skálázható, rugalmasan bővíthető és ingyenes web-alapú web crawler szoftver, amely épít Apache Lucene (Java változat) könyvtárat.
Hozzáteszi Web sajátosságait, mint például a bejáró egy link-grafikon-adatbázis elemzők, HTML és egyéb dokumentum formátumot, stb Ez által kifejlesztett és forgalmazott az Apache Foundation, hogy két különböző ágai.
Mivel moduláris és dugaszolható, Apache Nutch megvannak a maga előnyei, azáltal, hogy bővíthető felületek, mint Értelmezési, az Index és ScoringFilter egyéni megvalósításokat, mint például az Apache Tika az elemzés.
Sőt, az Apache Nutch úgy tervezték, hogy fut egy gépen, de sokkal erősebb, ha fut egy Hadoop klaszter. Dugaszolható indexelés létezik Rugalmas keresés, Apache Solr, stb.
Mi az új ebben a kiadásban:
- NuTcH-1779 Apply formázás a kód (lewismc)
- NuTcH-1907 Hibás kimenete outlinks a vendéglátók belül HostDbUpdateReducer (lewismc)
- NuTcH-1856 Dokumentum webpage.avsc és host.avsc (lewismc)
- NuTcH-1834 GeneratorMapper viselkedése függ naplózási szint (Gerhard Gossen keresztül snagel)
- NuTcH-1899 frissítés restlet lib megelőzésére sikerül elkészíteni (Talat)
- NuTcH-1797 eltávolítás nem használt csomagot oanhtml (Saurabh Chhajed keresztül snagel)
- NuTcH-1888 Adja HTMLMapper használni TikaParser (Halil Simsek keresztül jnioche)
- NuTcH-1897 Könnyebb hibakeresés plugin XML hibák (Markus)
- NuTcH-1823 Bővítés elasticsearch 1.4.1 (Phu Kieu, Markus, lewismc)
- NuTcH-1829 Generátor: képtelenek különbséget tenni a valós hibák (Mathieu Bouchard, jnioche, snagel)
- NuTcH-1778 Generátor nem bejelentkezéssel URL-ek száma szakaszos helyesen (jnioche keresztül snagel)
- NuTcH-1877 utótag URL-szűrő figyelmen kívül hagyni query string alapértelmezés szerint (Markus keresztül snagel)
- NuTcH-1825 protokoll-http lefagy bizonyos weboldalak (Phu Kieu keresztül snagel)
- NuTcH-1483 nem tudja feltérképezni fájlrendszert protokoll-fájl plugin (Rogerio Pereira Araujo, Mengying Wang, snagel)
- NuTcH-1885 Jegyzőkönyv-fájlt kell kezelni szimbolikus linkeket átirányítások (Mengying Wang, snagel)
- NuTcH-1880 URLUtil nem kell hozzá további perjeleket fájl URL-ek (snagel)
- NuTcH-1879 Regex URL normalizáló kell távolítani több slashes után fájlt: protokoll (snagel)
- NuTcH-1820 eltávolítás területen & quot; orig & quot; amely megduplázza & quot; id & quot; (lewismc, snagel)
- NuTcH-1843 Bővítés Gora 0,5 (Talat, lewismc, Kiril Menshikov, drazzib)
- NuTcH-1883 bin / csúszás: használható funkciót, futtassuk a bin / nuccsot és ellenőrizze kilépési érték (snagel)
- NuTcH-1882 ant napfogyatkozás cél, hogy adjunk kimeneti útvonalat a src / teszt (snagel)
- NuTcH-1827 Port NuTcH-1467 és NuTcH-1561 a 2.x (snagel)
- NuTcH-1876 Bővítés Lánctalpas Commons 0.5 (jnioche)
- NuTcH-1866 ant napfogyatkozás célt ne törölje futásidejű (nimafl keresztül lewismc)
- NuTcH-1859 Győződjön Nutch webapp port konfigurálható (Nima Falaki keresztül lewismc)
- NuTcH 1848 Bug DashboardPage.html esetekben számláló (Nima Falaki keresztül lewismc)
- NuTcH-841 Hozzon létre egy átjáróval-alapú webes alkalmazás Nutch (Fjodor Vershinin keresztül lewismc)
- NuTcH-1832 Győződjön Nutch munka nélkül az indexelő (mattmann keresztül lewismc)
- NuTcH-1840 leírni funkció SolrIndexWriter nem helyes (Kaveh minooie keresztül jnioche)
- NuTcH-1837 Bővítés Tika 1.6 (lewismc)
- NuTcH-1829 Generátor: képtelenek különbséget tenni a valós hibák (Mathieu Bouchard keresztül jnioche)
- NuTcH-1828 bin / csúszás: helytelen kezelése nuccsot hibák (Mathieu Bouchard keresztül jnioche)
- NuTcH-1693 TextMD5Signature számítson szöveges tartalom (Tien Nguyen Manh, Markus keresztül snagel)
- NuTcH-1409 eltávolítás elévült tulajdonságokat db. {alapértelmezett, max} .fetch.interval, generate.max.per.host.by.ip (Matthias Agethle keresztül snagel)
- NuTcH-1819 batchId a GeneratorJob (Fjodor Vershinin keresztül lewismc)
- NuTcH-1708 használatát ugyanazon id, amikor indexelés és törlése átirányítások (snagel)
- NuTcH-1817 Remove pom.xml forrásból (jnioche)
- NuTcH-1811 bin / nuccsot JUnit használni JUnit 4 teszt futó (snagel)
- NuTcH-1776 Belépés helytelen plugin.folder fájl elérési útját (Diaa keresztül snagel)
- NuTcH-1566 bin / nuccsot hogy szóközt utak (tejasp, snagel)
- NuTcH-1605 MIME típusú érzékelő felismeri XLSX- a zip fájlt (snagel)
- NuTcH-385 Javítani leírása menet kapcsolódó konfiguráció Fetcher (jnioche, Lufeng)
- NuTcH-1798 Crawl script nem keresi index parancs helyesen (Aaron Bedward keresztül jnioche)
- NuTcH-1769 REST API újratervezés (Fjodor Vershinin keresztül lewismc)
- NuTcH-1633 slf4j biztosítja Hadoop és nem kell figyelembe venni a feladat fájl (Kaveh minooie keresztül jnioche)
- NuTcH-1787 frissítés és teljes API doc áttekintése oldal (snagel)
- NuTcH-1767 különleges elbánás megszüntetése a & quot; params & quot; A relatív hivatkozások (snagel)
- NuTcH-1718 újradefiniálni http.robots.agent & quot; további szer nevét & quot; (snagel, Tejas Patil, Daniel Kugel)
- NuTcH-1796 Biztosítsa Gora objektum építők használják ellenzi az üres konstruktor (snagel keresztül lewismc)
- NuTcH-1590 [SECURITY] Keret injekciós sebezhetőség közzétett Javadoc (jnioche)
- NuTcH-1736 Nem sikerült az oldal, ha a http válasz fejléce tartalmazza Transfer-Encoding: chunked (YSC keresztül jnioche)
- NuTcH-1782 NodeWalker visszatérni jelenlegi csomópont (Markus)
- NuTcH-1781 frissítés gora - * - mapping.xml és gora.proeprties hogy tükrözze Gora 0,4 (lewismc)
- NuTcH-1768 Bővítés ElasticSearch 1.1.0 (jnioche)
- NuTcH-1634 readdb -stats eredményét mutatja kétszer (Kaveh minooie keresztül jnioche)
- NuTcH-1780 ttl és gc_grace_seconds attribútumok hiányoznak gora-Cassandra-mapping.xml fájl (Kaveh minooie keresztül lewismc)
- NuTcH-1676 Add kezdetleges SSL támogatás a protokoll-http (jnioche, Markus)
- NuTcH-1674 használata batchId szűrő lehetővé teszi scan (GORA-119) számára lekérése, feldolgozni, Update Index (Tien Nguyen Manh és Alparslan Avci keresztül jnioche)
- NuTcH-1714 Bővítés Gora 0,4 (Alparslan Avci keresztül jnioche)
- NuTcH-1752 gyorsítótár robots.txt szabályok protokoll: host: port (snagel)
- NuTcH-1613 Időtúllépések a protokoll-httpclient feltérképezése során ugyanazt a házigazda & gt; 2 szál (brian44 keresztül jnioche)
- NuTcH-1182 fetcher bejelentkezni hung szálak (snagel)
- NuTcH-1618 Turn spekulatív végrehajtás le lekérése (Talat)
- NuTcH-1657 ORIGINAL_CHAR_ENCODING és CHAR_ENCODING_FOR_CONVERSION soha meghatározott HTMLParser (Talat)
- NuTcH-1725 CleaningJob a szűkítő nem követ törölt docs. (ilhamikalkan keresztül Talat)
- NuTcH-1728 indexelő-Solr plugin nem törli dokumentumait Solr (ilhamikalkan keresztül Talat)
- NuTcH-1753 Eclipse függőségkezelés problémát 2.x (Talat)
- NuTcH-1720 Ismétlődő sorok HttpBase.java (Walter Tietze keresztül jnioche)
- NuTcH-797 URL nem megfelelően kialakított, amikor a kapcsolat cél kezdődik a & quot;? & quot; (Doug Cook, Robert Hohman, Stondet, ab keresztül snagel)
- NuTcH-1759 Bővítés Lánctalpas Commons 0.4 (jnioche)
- NuTcH-1700 Remove elavult kódot src / plugint / CreativeCommons / build.xml (lewismc)
- NuTcH-1761 Crawl szkript nem talál munkát fájlt, ha nem indult belülről bin könyvtárába (David Hosking, jnioche)
- NuTcH-1603 ZIP értelmező panaszkodik csonka PDF fájl (snagel keresztül lewismc)
- NuTcH-1743 parsechecker megmutatni outlinks (snagel)
- NuTcH-1732 Jobb parancssorban elemzés számára NutchServer (Fjodor Vershinin keresztül lewismc)
- NuTcH-1751 Üres horgonyok nem kellene-index (Sertac Turkel keresztül lewismc)
- NuTcH-1733 parse-html, hogy támogassa HTML5 charset meghatározások (snagel)
- NuTcH-1727 Beállítható hosszúságú TLD-k (Sertac Turkel keresztül lewismc)
- NuTcH-1738 Tegye URL-ek száma generált tételt GeneratorJob (Talat UYARER keresztül ewismc)
- NuTcH-1671 indexchecker hozzá megemészteni területen (snagel, Lufeng)
- NuTcH-1645 Junit próbájának Adaptive lekérése Menetrend osztály (Yasin Kilinc, Lufeng, Sertac Urkel keresztül snagel)
- NuTcH-1478 Értelmezési-metatags és az index-metaadatok plugin Nutch 2.x sorozat (Kiran, Nguyen Anh Tien, Talat UYARER, Vangelis Karvounis keresztül lewismc)
- NuTcH-1729 Bővítés Tika 1.5 (jnioche)
- NuTcH-1721 Upgrade lánctalpas közös 0.3 (tejasp)
- NuTcH-1719 DomainStatistics nem 2.x mert URL nem nem megfordítottkép (Gerhard Gossen keresztül lewismc)
- NuTcH-1253 Incompatable neko és xerces változat (snagel, lewismc, Talat UYARER)
- NuTcH-1715 RobotRulesParser hozzáteszi további "*" a robotok nevet (tejasp)
- NuTcH-356 Plugin adattár cache vezethet memóriavesztés (Enrico Triolo, Doğacan Guney keresztül Markus)
- NuTcH-1164 Write JUnit teszt protokoll-http (Sertac Turkel keresztül tejasp)
- NuTcH-1710 Felvétel gora csomag naplózást log4j.properties (lewismc)
- NuTcH-1655 indexelőt Plugin Elastic keresés (Talat UYARER keresztül lewismc)
- NuTcH-1699 Tika Elemző - kép Értelmezési hiba (Mehmet Zahid Yuzuguldu, snagel keresztül lewismc)
- NuTcH-1568 port dugaszolható indexelés architektúra 2.x (Talat UYARER keresztül lewismc)
- NuTcH-1672 Inlinks adunk kétszer DbUpdateReducer (Tien Nguyen Manh keresztül lewismc)
- NuTcH-1667 updatedb mindig figyelmen kívül hagyja batchId (Tien Nguyen Manh keresztül lewismc)
- NuTcH-1695 NutchDocument.toString () (Markus keresztül lewismc)
- NuTcH-1696 Engedélyezi (Gora) PILLANATKÉP függőségek (lewismc)
- NuTcH-1681 URLUtil.java, toUNICODE módszer nem működik megfelelően (A
Hozzászólás nem található