PDFMiner működik, hogy először figyelembe a tartalmat egy PDF fájlt, és átalakítja azt egy rugalmas formátum, mint a HTML.
Onnan, szöveges és le kell szedni és elemezték, és az előre meghatározott szabályok szétválasztjuk, és a felhasználónál, vagy küldött más erősebb adatelemző eszközöket.
Ha a szöveg elemzés nem, mit szándékozik tenni, könnyen konfigurálható PDFMiner egyszerűen kivonat vagy csak átalakítani PDF adatokat is.
Feladatai működhet egymástól elkülönítve, és lehetővé teszi a szélesebb körű alkalmazására spektrum köszönhetően ez.
Tulajdonságok :
- 100% Python kód, nem C vagy C ++
- Feldolgozási PDF
- elemzése PDF
- Convert PDF fájlok más formátumokba
- ToC elszívó
- Get csak címkézett tartalom
- Támogatás számos szöveges PDF funkciók
- Támogatás nagyszámú betűtípusok belsejében PDF
- Basic titkosítás (RC4) támogatása
Mi az új ebben a kiadásban:
- PDFDocument.initialize () metódus eltávolítjuk, és már nincs szükség . A jelszó van megadva érvként egy PDFDocument kivitelező.
Mi az új verzióban 20110515:
- API változások.
- LTPolygon class átnevezték LTCurve.
Mi az új verzióban 20110227:
- hibajavítások és elrendezés elemzési fejlesztéseket.
Mi az új verzióban 20101226:
- Egy pár hibajavítás és kisebb fejlesztések.
Mi az új verzióban 20101017:
- Egy pár hibajavítás és a kisebb javulás.
Mi az új verzióban 20100424:
- hibajavítás és apró javulás a TOC kitermelése.
követelmények :
- Python 2.4 akár 3
Korlátozások :
- PDFMiner lehet 20-szor lassabb, mint a C / C ++ - alapú szoftver.
Hozzászólás nem található