Apache Tika alakult, mint egy alacsony szintű eszköztárat keres tartalmat a belsejében más fájlokat.
Tika nem sokat saját olyan egyszerű könyvtár, de lehet építeni erősebb eszközöket, mint a keresők, digitális vagyonkezelés rendszerek vagy CMS-ek, hogy egy teljesen működőképes-file kereső rendszer.
A könyvtár érheti csak a fájl fejlécében gyors fájl teljes információt, vagy lehet menni nagyon mély és keresni még a fájl testét különféle típusú adatok, szöveges vagy bináris formában.
A széles fájltípusokat támogatja és Tika is fel lehet használni más programozási nyelvek köszönhetően egy sor harmadik fél kötések és csomagolóanyagok.
Mi az új ebben a kiadásban :
- Ez a kiadás tartalmazza hibajavítások és új funkciók, többek között egy új Tesseract OCR Értelmező; Új GDAL Értelmező; További támogatott formátumok, és az általános javulás Tika stabilitását.
Mi az új 1.8 verzió:
- Ez a kiadás tartalmazza hibajavítások és új funkciók, többek között egy új Tesseract OCR Értelmező; Új GDAL Értelmező; További támogatott formátumok, és az általános javulás Tika stabilitását.
Mi az új 1.7 verzió:
- Ez a kiadás tartalmazza hibajavítások és új funkciók, többek között egy új Tesseract OCR Értelmező; Új GDAL Értelmező; További támogatott formátumok, és az általános javulás Tika stabilitását.
Mi az új 1.6:
- Ez a kiadás tartalmazza hibajavítások és új funkciók, többek között egy új fordítás API, több támogatott formátumok, és az általános javulás Tika stabilitását.
Mi az új 1.5-ös verzióban:
- Javítva kezelésében beágyazott fájl feldolgozása PDF.
- Added SourceCodeParser támogatja a Java, a Groovy, C ++ fájlokat.
- Frissítve Tika Server támogassa a többrészes / form-data rakományt.
- Frissítve Tika Server CXF 2.7.8.
- Frissítve Tika Server elfogadni kérések helyettesítő címeket.
- Új lehetőség, hogy használja az alternatív NonSequentialPDFParser.
- Tartalom PDF AcroForms most kivont.
- Fix érvénytelen csillagokat diamintából PPT.
- Added teszt esetek, hogy erősítse kezelése auto-date PPT és PPTX.
Mi az új 1.4-es:
- Az eltávolított egy teszt HTML fájlt egy rosszul kiválasztott GPL szöveg azt.
- javításai Tika-szervert, hogy azért, hogy a text / html és text / xml tartalmat.
- fejlesztéseket végeztek a kompresszor Értelmező kezelni g'zipped fájlokat, amelyek megkövetelik a decompressConcatenated opció értéke igaz.
- Címzett tipográfiai hiba megakadályozta az észlelés awk fájlokat.
Mi az új 1.2-es verzió:
- Apache Tika 1.2 tartalmaz számos fejlesztést és hibajavítást.
Mi az új 1.0 verzióban:
- Apache Tika 1.0 tartalmaz számos fejlesztést és hibajavítást.
Mi az új 0.9 verzió:
- Ez a kiadás számos fontos hibajavítások és új funkciók.
Mi az új 0.8 verzió:
- Nyelv azonosítása jelenleg dinamikusan konfigurálható, sikerült keresztül a config file betöltésre a osztályútvonalfájlok.
- Tika már támogatja elemzés hírcsatornák a csomagolás az alapjául szolgáló római könyvtár.
- A gyorsindító útmutató a Tika elemzés volt, hozzájárult.
- Az a megközelítés, a vízvezeték keresztül XHTML attribútumok adunk.
- Média típus hierarchia információkat most figyelembe venni, amikor kiválasztja a legjobb elemző egy adott bemeneti dokumentum.
- Támogatás parsolásra közös tudományos adatok formátumot, beleértve NetCDF és HDF4 / 5-t adunk.
- Unit tesztek Windows javítva lett, így TestParsers befejezni.
Mi az új 0.7 verzió:
- MP3 fájl elemzési javult, beleértve Channel és samplerate kitermelése és ID3v2 támogatás. Továbbá, audio elemzés pantomim felismerés is javult a MIDI formátum.
- Tika már nem támaszkodik X11 annak RTF elemzés funkcióval.
- A szálbiztosságát hiba a AutoDetectParser fedezték fel és kezelik.
- Frissítés PDFBox 1.0.0. Az új PDFBox verzió javítja PDF elemzés teljesítményét és javít számos szövegkinyerés kérdések.
követelmények :
- Java 6 vagy újabb
Hozzászólás nem található