Apache Nutch

Szoftver screenshot:
Apache Nutch
Szoftver adatai:
Változat: 2.3
Feltöltés dátuma: 1 Mar 15
Engedély: Ingyenes
Népszerűség: 128

Rating: 3.0/5 (Total Votes: 1)

Apache Nutch épült a tetején a Apache Lucene , egy erős Java kereső.
Nutch fejlesztők módosította a Lucene codebase, átalakítva az adatokat-agnosztikus Lucene codebase a projekt célja adatok lekérdezéséhez a Web konkrétan.
Ez a technológia alkalmazható keresni a saját weboldalak, mint a beépített kereső szerver, vagy a web feltérképezése során keresett adatokat elemezni, és kaparja a saját adatbázis.
Nutch futhat egy gépen, de jobban működik Hadoop klaszterek.
Több beépülő állnak rendelkezésre bővíti felhasználási spektrumát.

Mi az új ebben a kiadásban:

  • Ellenőrizze, ismétlődő címkéket nem léteznek A microformat-reltag tag set.
  • Egy jobb esik vissza érték dátum mező.
  • Megszabadulni a rettegett.
  • Frissítés Hadoop 1.2.0.
  • Frissítés Tika 1.3.

Mi az új 2.0 verzióban:

  • Új néven HTMLParseFilter be ParseFilter.
  • Vegye fennmaradó robotok / IP blokkoló kódot lib-http.
  • Port naplózást slf4j.
  • Külső elemző támogatja a kódolási attribútum.
  • Ivy konfigurációs beállítások nem tartalmazzák Gora.
  • injektor hozzá kell adni a metaadatok hívás előtt injectedScore.
  • Port Nutch benchmark a Nutchbase.
  • Add parse-html vissza.
  • MoreIndexingFilter hiányzó dátum formátumát.
  • Timeout for elemző.
  • Próbálja újra intervallum csúszás a dátum: 0.
  • Létrehoz naplót a Solr indexelő és dedup.
  • Továbbfejlesztett NutchConfiguration.
  • SolrDeleteDuplicates kell klónozni a SolrRecord tárgyakat.
  • Native Hadoop függvénytárakért nem érhető el maven.
  • szét a build és futási környezetek.

Mi az új 1.5-ös verzióban:

  • Ez a kiadás számos fejlesztést, beleértve a frissítéseket több fő összetevője beleértve Tika 1.1 és Hadoop 1.0.0 javításokat LinkRank és WebGraph elemek, valamint számos új bővítmény, amely a feketelistára, a szűrés és elemzés, hogy csak néhányat említsünk.

Mi az új 1.4-es:

  • Added Solr 4x (trunk) példa séma.
  • Added "/ runtime" az svn figyelmen kívül hagyja.
  • application / xhtml + xml engedélyezni kell plugin.xml a parse-html; hogy több olyan típussal a plugin.xml.
  • Fix parse-Tika, és feldolgozni-html használni relatív URL felbontású RFC-3986.
  • Továbbfejlesztett hogy Tika 0.10. Megjegyzés: Tika új RTF értelmező figyelmen kívül hagyhatja több szöveget hibás dokumentumokat, mint korábban - lásd TIKA-748 részletekért.
  • Added Sonar célokat Ant build.xml.
  • Továbbfejlesztett SolrJ verzióra 3.4.0.
  • Ant PMD korong nem törött.
  • Továbbfejlesztett Solr sémát az 1.4-es verziója.

Mi az új 1.3 verzió:

  • Ez a kiadás számos fejlesztést (javított RSS elemzés támogatására, szorosabb integráció Apache Tika, külső elemzés támogatása, jobb nyelvi azonosítás és egy nagyságrenddel kisebb forráskódú kiadás tar - csak mintegy 2 MB!).

Mi az új a 1.2-es verzió:

  • index-nagyobb plug-in konfigurálható.
  • konfigurálható protokoll szülő könyvtár csúszó.
  • Timeout for elemző.
  • honlap még Lucene márkás.
  • Próbálja újra intervallum csúszás a dátum: 0.

Mi az új 1.0 verzió:

  • Allow értelmezők, hogy visszatérjen több Értelmezési tárgyakat.
  • Az eltávolított redundáns commons-naplózás jar a ontológiát plugin.
  • Bug SegmentReader okoz végtelen ciklusba.
  • A pontozás szűrőt kell terjeszteni pontszámot minden outlinks egyszerre.
  • Csökkentse a figyelmeztetések száma a nuccsot core.

Hasonló program

mysolr
mysolr

13 Apr 15

Texticle
Texticle

13 May 15

Lupyne
Lupyne

13 Apr 15

Más szoftver fejlesztő Apache Software Foundation

Apache XMLBeans
Apache XMLBeans

13 Apr 15

Apache Roller
Apache Roller

12 Apr 15

Apache Spark
Apache Spark

6 Mar 16

Apache XML-RPC
Apache XML-RPC

14 Apr 15

Hozzászólások a Apache Nutch

Hozzászólás nem található
Megjegyzés hozzáadása
Kapcsolja be a képeket!
Keresés kategória szerint