Apache Nutch épült a tetején a Apache Lucene , egy erős Java kereső.
Nutch fejlesztők módosította a Lucene codebase, átalakítva az adatokat-agnosztikus Lucene codebase a projekt célja adatok lekérdezéséhez a Web konkrétan.
Ez a technológia alkalmazható keresni a saját weboldalak, mint a beépített kereső szerver, vagy a web feltérképezése során keresett adatokat elemezni, és kaparja a saját adatbázis.
Nutch futhat egy gépen, de jobban működik Hadoop klaszterek.
Több beépülő állnak rendelkezésre bővíti felhasználási spektrumát.
Mi az új ebben a kiadásban:
- Ellenőrizze, ismétlődő címkéket nem léteznek A microformat-reltag tag set.
- Egy jobb esik vissza érték dátum mező.
- Megszabadulni a rettegett.
- Frissítés Hadoop 1.2.0.
- Frissítés Tika 1.3.
Mi az új 2.0 verzióban:
- Új néven HTMLParseFilter be ParseFilter.
- Vegye fennmaradó robotok / IP blokkoló kódot lib-http.
- Port naplózást slf4j.
- Külső elemző támogatja a kódolási attribútum.
- Ivy konfigurációs beállítások nem tartalmazzák Gora.
- injektor hozzá kell adni a metaadatok hívás előtt injectedScore.
- Port Nutch benchmark a Nutchbase.
- Add parse-html vissza.
- MoreIndexingFilter hiányzó dátum formátumát.
- Timeout for elemző.
- Próbálja újra intervallum csúszás a dátum: 0.
- Létrehoz naplót a Solr indexelő és dedup.
- Továbbfejlesztett NutchConfiguration.
- SolrDeleteDuplicates kell klónozni a SolrRecord tárgyakat.
- Native Hadoop függvénytárakért nem érhető el maven.
- szét a build és futási környezetek.
Mi az új 1.5-ös verzióban:
- Ez a kiadás számos fejlesztést, beleértve a frissítéseket több fő összetevője beleértve Tika 1.1 és Hadoop 1.0.0 javításokat LinkRank és WebGraph elemek, valamint számos új bővítmény, amely a feketelistára, a szűrés és elemzés, hogy csak néhányat említsünk.
Mi az új 1.4-es:
- Added Solr 4x (trunk) példa séma.
- Added "/ runtime" az svn figyelmen kívül hagyja.
- application / xhtml + xml engedélyezni kell plugin.xml a parse-html; hogy több olyan típussal a plugin.xml.
- Fix parse-Tika, és feldolgozni-html használni relatív URL felbontású RFC-3986.
- Továbbfejlesztett hogy Tika 0.10. Megjegyzés: Tika új RTF értelmező figyelmen kívül hagyhatja több szöveget hibás dokumentumokat, mint korábban - lásd TIKA-748 részletekért.
- Added Sonar célokat Ant build.xml.
- Továbbfejlesztett SolrJ verzióra 3.4.0.
- Ant PMD korong nem törött.
- Továbbfejlesztett Solr sémát az 1.4-es verziója.
Mi az új 1.3 verzió:
- Ez a kiadás számos fejlesztést (javított RSS elemzés támogatására, szorosabb integráció Apache Tika, külső elemzés támogatása, jobb nyelvi azonosítás és egy nagyságrenddel kisebb forráskódú kiadás tar - csak mintegy 2 MB!).
Mi az új a 1.2-es verzió:
- index-nagyobb plug-in konfigurálható.
- konfigurálható protokoll szülő könyvtár csúszó.
- Timeout for elemző.
- honlap még Lucene márkás.
- Próbálja újra intervallum csúszás a dátum: 0.
Mi az új 1.0 verzió:
- Allow értelmezők, hogy visszatérjen több Értelmezési tárgyakat.
- Az eltávolított redundáns commons-naplózás jar a ontológiát plugin.
- Bug SegmentReader okoz végtelen ciklusba.
- A pontozás szűrőt kell terjeszteni pontszámot minden outlinks egyszerre.
- Csökkentse a figyelmeztetések száma a nuccsot core.
Hozzászólás nem található