Apache Tika egy nyílt forráskódú eszköztár, hogy megtalálja és metaadatokat, valamint strukturált szöveges tartalmak több dokumentumot, a semmi, de a meglévő értelmező könyvtárak.
Apache Tika támogatja a következő dokumentum-formátum: Hypertext Markup Language (HTTP), XML és az azokból származó formátumok, Microsoft Office dokumentum-formátum, OpenDocument Format (ODF), Portable Document Format (PDF), elektronikus publikáció Format (EPF), Rich Text Format (RTF ), tömörítés és kiszerelési formák, text / audio / kép / videó formátumokat, a mbox formátumban, és a Java class fájlokat és archívum.
Korábban Apache Tika volt alprojekt a Apache Lucene szoftver könyvtár. Most kerül forgalomba, mint egy önálló csomagban az Apache Software Foundation.
Mi az új ebben a kiadásban:
- Az eltávolított egy teszt HTML fájlt egy rosszul megválasztott GPL szöveget is (TIKA-1129).
- Fejlesztések Tika-szervert, hogy azért, hogy a text / html és text / xml tartalmat (TIKA-1126, TIKA-1127).
- javulás volt a kompresszor Értelmező kezelni g'zipped fájlokat, amelyek megkövetelik a decompressConcatenated opciót true (TIKA-1096).
- intézett nyomdai hibákért, hogy megakadályozta a kimutatására awk fájlok (TIKA-1081).
- Egy új végpont a Tika JAX-RS REST szerver, amely csak érzékeli a média-típus alapján egy kis része a benyújtott irat (TIKA-1047).
- RTF: Rendezett és rendezetlen listája most kivont (TIKA-1062).
- MP3: A hang időtartamát most kivont (TIKA-991)
- Java .class fájlok: frissített ASM 3.1 ASM 4.1 elemzés a Java bájtkód (TIKA 1053).
- MIME típusok: definíciók terjeszteni esetben tartalmazhat Link (URL) és a húgyúti fertőzés részleteivel együtt több közös formátumok (TIKA-1012 / TIKA 1083)
- kivételes elemzésekor OLE10 beágyazott dokumentumokat, elemzésekor összefoglaló információt az Office dokumentumokat, és mentéskor beágyazott documennts a TikaCLI most bejelentkezve helyett megszakítása kitermelés (TIKA-1074)
- MS Word: online táblázatos karakter váltotta fel az új sor (TIKA-1128)
- XML: ElementMetadataHandlers ezentúl lehetősége elfogadom a két-, illetve az üres értékek (TIKA-1133).
követelmények :
- Java 2 Standard Edition Runtime Environment
Hozzászólás nem található