Apache Nutch

Szoftver screenshot:
Apache Nutch
Szoftver adatai:
Változat: 2.3
Feltöltés dátuma: 1 Mar 15
Engedély: Ingyenes
Népszerűség: 128

Rating: 3.0/5 (Total Votes: 1)

Apache Nutch épült a tetején a Apache Lucene , egy erős Java kereső.
Nutch fejlesztők módosította a Lucene codebase, átalakítva az adatokat-agnosztikus Lucene codebase a projekt célja adatok lekérdezéséhez a Web konkrétan.
Ez a technológia alkalmazható keresni a saját weboldalak, mint a beépített kereső szerver, vagy a web feltérképezése során keresett adatokat elemezni, és kaparja a saját adatbázis.
Nutch futhat egy gépen, de jobban működik Hadoop klaszterek.
Több beépülő állnak rendelkezésre bővíti felhasználási spektrumát.

Mi az új ebben a kiadásban:

  • Ellenőrizze, ismétlődő címkéket nem léteznek A microformat-reltag tag set.
  • Egy jobb esik vissza érték dátum mező.
  • Megszabadulni a rettegett.
  • Frissítés Hadoop 1.2.0.
  • Frissítés Tika 1.3.

Mi az új 2.0 verzióban:

  • Új néven HTMLParseFilter be ParseFilter.
  • Vegye fennmaradó robotok / IP blokkoló kódot lib-http.
  • Port naplózást slf4j.
  • Külső elemző támogatja a kódolási attribútum.
  • Ivy konfigurációs beállítások nem tartalmazzák Gora.
  • injektor hozzá kell adni a metaadatok hívás előtt injectedScore.
  • Port Nutch benchmark a Nutchbase.
  • Add parse-html vissza.
  • MoreIndexingFilter hiányzó dátum formátumát.
  • Timeout for elemző.
  • Próbálja újra intervallum csúszás a dátum: 0.
  • Létrehoz naplót a Solr indexelő és dedup.
  • Továbbfejlesztett NutchConfiguration.
  • SolrDeleteDuplicates kell klónozni a SolrRecord tárgyakat.
  • Native Hadoop függvénytárakért nem érhető el maven.
  • szét a build és futási környezetek.

Mi az új 1.5-ös verzióban:

  • Ez a kiadás számos fejlesztést, beleértve a frissítéseket több fő összetevője beleértve Tika 1.1 és Hadoop 1.0.0 javításokat LinkRank és WebGraph elemek, valamint számos új bővítmény, amely a feketelistára, a szűrés és elemzés, hogy csak néhányat említsünk.

Mi az új 1.4-es:

  • Added Solr 4x (trunk) példa séma.
  • Added "/ runtime" az svn figyelmen kívül hagyja.
  • application / xhtml + xml engedélyezni kell plugin.xml a parse-html; hogy több olyan típussal a plugin.xml.
  • Fix parse-Tika, és feldolgozni-html használni relatív URL felbontású RFC-3986.
  • Továbbfejlesztett hogy Tika 0.10. Megjegyzés: Tika új RTF értelmező figyelmen kívül hagyhatja több szöveget hibás dokumentumokat, mint korábban - lásd TIKA-748 részletekért.
  • Added Sonar célokat Ant build.xml.
  • Továbbfejlesztett SolrJ verzióra 3.4.0.
  • Ant PMD korong nem törött.
  • Továbbfejlesztett Solr sémát az 1.4-es verziója.

Mi az új 1.3 verzió:

  • Ez a kiadás számos fejlesztést (javított RSS elemzés támogatására, szorosabb integráció Apache Tika, külső elemzés támogatása, jobb nyelvi azonosítás és egy nagyságrenddel kisebb forráskódú kiadás tar - csak mintegy 2 MB!).

Mi az új a 1.2-es verzió:

  • index-nagyobb plug-in konfigurálható.
  • konfigurálható protokoll szülő könyvtár csúszó.
  • Timeout for elemző.
  • honlap még Lucene márkás.
  • Próbálja újra intervallum csúszás a dátum: 0.

Mi az új 1.0 verzió:

  • Allow értelmezők, hogy visszatérjen több Értelmezési tárgyakat.
  • Az eltávolított redundáns commons-naplózás jar a ontológiát plugin.
  • Bug SegmentReader okoz végtelen ciklusba.
  • A pontozás szűrőt kell terjeszteni pontszámot minden outlinks egyszerre.
  • Csökkentse a figyelmeztetések száma a nuccsot core.

Hasonló program

Searchkick
Searchkick

10 Feb 16

Sphinx
Sphinx

12 May 15

Elastica
Elastica

6 Mar 16

ack
ack

10 Feb 16

Más szoftver fejlesztő Apache Software Foundation

Apache Wookie
Apache Wookie

13 Apr 15

Apache Axiom
Apache Axiom

6 Mar 16

Apache Shiro
Apache Shiro

1 Oct 15

Apache Gora
Apache Gora

10 Dec 15

Hozzászólások a Apache Nutch

Hozzászólás nem található
Megjegyzés hozzáadása
Kapcsolja be a képeket!