gyönyörű Soup projekt egy Python HTML / XML parser célja a gyors átfutási projektek például a képernyő-kaparás. Három funkciók teszik erőteljes:
Gyönyörű Soup nem megfojtani ha adsz neki rossz jelölést. A hozamok egy elemzési fa, ami kb annyi értelme van, mint az eredeti dokumentumot. Ez általában elég jó, hogy az adatgyűjtés van szüksége, és elszaladt.
Gyönyörű Soup biztosít néhány egyszerű módszerek és Pythonic szólások a navigálás, keresés, és módosítása elemzési fa: eszköztárat boncoló a dokumentumot, és kitermelése, amire szüksége van. Nem kell, hogy hozzon létre egy egyéni értelmező az egyes alkalmazások.
Gyönyörű Soup automatikusan átalakítja a beérkező dokumentumokat a Unicode és kimenő dokumentumok UTF-8. Nem kell gondolni kódolásban, kivéve, ha a dokumentum nem határozza meg a kódolást és a Beautiful Soup nem autodetekt egyet. Akkor csak meg kell határoznunk az eredeti kódolást.
Gyönyörű Soup értelmezi bármit adsz meg, és nem a fa bejárás cucc az Ön számára. Azt lehet mondani, hogy "Találd meg az összes kapcsolat", vagy "Találd meg az összes kapcsolatok osztály externalLink", vagy a "Találd meg az összes kapcsolatot amelyek URL egyezik" foo.com ", vagy a" Találd meg a fejlécben, hogy Van félkövér szöveg, majd adja nekem a szöveget. "
Az értékes adatok, hogy az egykor bezárva rosszul megtervezett honlapok már karnyújtásnyira van. Projekteket, amelyek volna órával vegye csak pár percre, gyönyörű Soup.
követelmények :
- Python
Hozzászólás nem található