Apache Nutch

Szoftver screenshot:
Apache Nutch
Szoftver adatai:
Változat: 2.3
Feltöltés dátuma: 1 Mar 15
Engedély: Ingyenes
Népszerűség: 36

Rating: 3.0/5 (Total Votes: 1)

Apache Nutch épült a tetején a Apache Lucene , egy erős Java kereső.
Nutch fejlesztők módosította a Lucene codebase, átalakítva az adatokat-agnosztikus Lucene codebase a projekt célja adatok lekérdezéséhez a Web konkrétan.
Ez a technológia alkalmazható keresni a saját weboldalak, mint a beépített kereső szerver, vagy a web feltérképezése során keresett adatokat elemezni, és kaparja a saját adatbázis.
Nutch futhat egy gépen, de jobban működik Hadoop klaszterek.
Több beépülő állnak rendelkezésre bővíti felhasználási spektrumát.

Mi az új ebben a kiadásban:

  • Ellenőrizze, ismétlődő címkéket nem léteznek A microformat-reltag tag set.
  • Egy jobb esik vissza érték dátum mező.
  • Megszabadulni a rettegett.
  • Frissítés Hadoop 1.2.0.
  • Frissítés Tika 1.3.

Mi az új 2.0 verzióban:

  • Új néven HTMLParseFilter be ParseFilter.
  • Vegye fennmaradó robotok / IP blokkoló kódot lib-http.
  • Port naplózást slf4j.
  • Külső elemző támogatja a kódolási attribútum.
  • Ivy konfigurációs beállítások nem tartalmazzák Gora.
  • injektor hozzá kell adni a metaadatok hívás előtt injectedScore.
  • Port Nutch benchmark a Nutchbase.
  • Add parse-html vissza.
  • MoreIndexingFilter hiányzó dátum formátumát.
  • Timeout for elemző.
  • Próbálja újra intervallum csúszás a dátum: 0.
  • Létrehoz naplót a Solr indexelő és dedup.
  • Továbbfejlesztett NutchConfiguration.
  • SolrDeleteDuplicates kell klónozni a SolrRecord tárgyakat.
  • Native Hadoop függvénytárakért nem érhető el maven.
  • szét a build és futási környezetek.

Mi az új 1.5-ös verzióban:

  • Ez a kiadás számos fejlesztést, beleértve a frissítéseket több fő összetevője beleértve Tika 1.1 és Hadoop 1.0.0 javításokat LinkRank és WebGraph elemek, valamint számos új bővítmény, amely a feketelistára, a szűrés és elemzés, hogy csak néhányat említsünk.

Mi az új 1.4-es:

  • Added Solr 4x (trunk) példa séma.
  • Added "/ runtime" az svn figyelmen kívül hagyja.
  • application / xhtml + xml engedélyezni kell plugin.xml a parse-html; hogy több olyan típussal a plugin.xml.
  • Fix parse-Tika, és feldolgozni-html használni relatív URL felbontású RFC-3986.
  • Továbbfejlesztett hogy Tika 0.10. Megjegyzés: Tika új RTF értelmező figyelmen kívül hagyhatja több szöveget hibás dokumentumokat, mint korábban - lásd TIKA-748 részletekért.
  • Added Sonar célokat Ant build.xml.
  • Továbbfejlesztett SolrJ verzióra 3.4.0.
  • Ant PMD korong nem törött.
  • Továbbfejlesztett Solr sémát az 1.4-es verziója.

Mi az új 1.3 verzió:

  • Ez a kiadás számos fejlesztést (javított RSS elemzés támogatására, szorosabb integráció Apache Tika, külső elemzés támogatása, jobb nyelvi azonosítás és egy nagyságrenddel kisebb forráskódú kiadás tar - csak mintegy 2 MB!).

Mi az új a 1.2-es verzió:

  • index-nagyobb plug-in konfigurálható.
  • konfigurálható protokoll szülő könyvtár csúszó.
  • Timeout for elemző.
  • honlap még Lucene márkás.
  • Próbálja újra intervallum csúszás a dátum: 0.

Mi az új 1.0 verzió:

  • Allow értelmezők, hogy visszatérjen több Értelmezési tárgyakat.
  • Az eltávolított redundáns commons-naplózás jar a ontológiát plugin.
  • Bug SegmentReader okoz végtelen ciklusba.
  • A pontozás szűrőt kell terjeszteni pontszámot minden outlinks egyszerre.
  • Csökkentse a figyelmeztetések száma a nuccsot core.

Hasonló program

Fuzzysearch
Fuzzysearch

12 Apr 15

PySolarized
PySolarized

13 May 15

Apache Blur
Apache Blur

13 Apr 15

Más szoftver fejlesztő Apache Software Foundation

Apache Cassandra
Apache Cassandra

25 May 16

Apache Derby
Apache Derby

11 Mar 16

Apache Sqoop
Apache Sqoop

12 May 15

Apache JSPWiki
Apache JSPWiki

12 May 15

Hozzászólások a Apache Nutch

Hozzászólás nem található
Megjegyzés hozzáadása
Kapcsolja be a képeket!
Keresés kategória szerint