Apache Tika

Szoftver screenshot:
Apache Tika
Szoftver adatai:
Változat: 1.4
Feltöltés dátuma: 20 Feb 15
Engedély: Ingyenes
Népszerűség: 6

Rating: nan/5 (Total Votes: 0)

Apache Tika egy nyílt forráskódú eszköztár, hogy megtalálja és metaadatokat, valamint strukturált szöveges tartalmak több dokumentumot, a semmi, de a meglévő értelmező könyvtárak.
Apache Tika támogatja a következő dokumentum-formátum: Hypertext Markup Language (HTTP), XML és az azokból származó formátumok, Microsoft Office dokumentum-formátum, OpenDocument Format (ODF), Portable Document Format (PDF), elektronikus publikáció Format (EPF), Rich Text Format (RTF ), tömörítés és kiszerelési formák, text / audio / kép / videó formátumokat, a mbox formátumban, és a Java class fájlokat és archívum.
Korábban Apache Tika volt alprojekt a Apache Lucene szoftver könyvtár. Most kerül forgalomba, mint egy önálló csomagban az Apache Software Foundation.

Mi az új ebben a kiadásban:

  • Az eltávolított egy teszt HTML fájlt egy rosszul megválasztott GPL szöveget is (TIKA-1129).
  • Fejlesztések Tika-szervert, hogy azért, hogy a text / html és text / xml tartalmat (TIKA-1126, TIKA-1127).
  • javulás volt a kompresszor Értelmező kezelni g'zipped fájlokat, amelyek megkövetelik a decompressConcatenated opciót true (TIKA-1096).
  • intézett nyomdai hibákért, hogy megakadályozta a kimutatására awk fájlok (TIKA-1081).
  • Egy új végpont a Tika JAX-RS REST szerver, amely csak érzékeli a média-típus alapján egy kis része a benyújtott irat (TIKA-1047).
  • RTF: Rendezett és rendezetlen listája most kivont (TIKA-1062).
  • MP3: A hang időtartamát most kivont (TIKA-991)
  • Java .class fájlok: frissített ASM 3.1 ASM 4.1 elemzés a Java bájtkód (TIKA 1053).
  • MIME típusok: definíciók terjeszteni esetben tartalmazhat Link (URL) és a húgyúti fertőzés részleteivel együtt több közös formátumok (TIKA-1012 / TIKA 1083)
  • kivételes elemzésekor OLE10 beágyazott dokumentumokat, elemzésekor összefoglaló információt az Office dokumentumokat, és mentéskor beágyazott documennts a TikaCLI most bejelentkezve helyett megszakítása kitermelés (TIKA-1074)
  • MS Word: online táblázatos karakter váltotta fel az új sor (TIKA-1128)
  • XML: ElementMetadataHandlers ezentúl lehetősége elfogadom a két-, illetve az üres értékek (TIKA-1133).

követelmények :

  • Java 2 Standard Edition Runtime Environment

Más szoftver fejlesztő The Apache Software Foundation

Apache Cassandra
Apache Cassandra

19 Feb 15

Apache Ant
Apache Ant

2 Sep 17

Batik
Batik

3 Jun 15

Apache ManifoldCF
Apache ManifoldCF

20 Feb 15

Hozzászólások a Apache Tika

Hozzászólás nem található
Megjegyzés hozzáadása
Kapcsolja be a képeket!