Apache Tika

Szoftver screenshot:
Apache Tika
Szoftver adatai:
Változat: 1.4
Feltöltés dátuma: 20 Feb 15
Engedély: Ingyenes
Népszerűség: 102

Rating: nan/5 (Total Votes: 0)

Apache Tika egy nyílt forráskódú eszköztár, hogy megtalálja és metaadatokat, valamint strukturált szöveges tartalmak több dokumentumot, a semmi, de a meglévő értelmező könyvtárak.
Apache Tika támogatja a következő dokumentum-formátum: Hypertext Markup Language (HTTP), XML és az azokból származó formátumok, Microsoft Office dokumentum-formátum, OpenDocument Format (ODF), Portable Document Format (PDF), elektronikus publikáció Format (EPF), Rich Text Format (RTF ), tömörítés és kiszerelési formák, text / audio / kép / videó formátumokat, a mbox formátumban, és a Java class fájlokat és archívum.
Korábban Apache Tika volt alprojekt a Apache Lucene szoftver könyvtár. Most kerül forgalomba, mint egy önálló csomagban az Apache Software Foundation.

Mi az új ebben a kiadásban:

  • Az eltávolított egy teszt HTML fájlt egy rosszul megválasztott GPL szöveget is (TIKA-1129).
  • Fejlesztések Tika-szervert, hogy azért, hogy a text / html és text / xml tartalmat (TIKA-1126, TIKA-1127).
  • javulás volt a kompresszor Értelmező kezelni g'zipped fájlokat, amelyek megkövetelik a decompressConcatenated opciót true (TIKA-1096).
  • intézett nyomdai hibákért, hogy megakadályozta a kimutatására awk fájlok (TIKA-1081).
  • Egy új végpont a Tika JAX-RS REST szerver, amely csak érzékeli a média-típus alapján egy kis része a benyújtott irat (TIKA-1047).
  • RTF: Rendezett és rendezetlen listája most kivont (TIKA-1062).
  • MP3: A hang időtartamát most kivont (TIKA-991)
  • Java .class fájlok: frissített ASM 3.1 ASM 4.1 elemzés a Java bájtkód (TIKA 1053).
  • MIME típusok: definíciók terjeszteni esetben tartalmazhat Link (URL) és a húgyúti fertőzés részleteivel együtt több közös formátumok (TIKA-1012 / TIKA 1083)
  • kivételes elemzésekor OLE10 beágyazott dokumentumokat, elemzésekor összefoglaló információt az Office dokumentumokat, és mentéskor beágyazott documennts a TikaCLI most bejelentkezve helyett megszakítása kitermelés (TIKA-1074)
  • MS Word: online táblázatos karakter váltotta fel az új sor (TIKA-1128)
  • XML: ElementMetadataHandlers ezentúl lehetősége elfogadom a két-, illetve az üres értékek (TIKA-1133).

követelmények :

  • Java 2 Standard Edition Runtime Environment

Más szoftver fejlesztő The Apache Software Foundation

Apache ManifoldCF
Apache ManifoldCF

20 Feb 15

Apache Lucy
Apache Lucy

20 Feb 15

Apache Avro
Apache Avro

18 Jul 15

jakarta-tomcat
jakarta-tomcat

2 Jun 15

Hozzászólások a Apache Tika

Hozzászólás nem található
Megjegyzés hozzáadása
Kapcsolja be a képeket!