Vakre Soup prosjektet er et Python HTML / XML parser designet for rask behandlingstid prosjekter som skjerm-skraping. Tre funksjoner gjør det kraftig:
Vakker Soup vil ikke kvele hvis du gir det dårlig markering. Det gir en parsetreet som gjør omtrent like mye mening som originaldokumentet. Dette er vanligvis god nok til å samle inn dataene du trenger og løpe vekk.
Vakker Soup gir noen enkle metoder og Pytonske idiomer for navigering, søking og modifisere en parsetreet: en verktøykasse for å dissekere et dokument og trekke ut det du trenger. Du trenger ikke å lage en egendefinert parser for hvert program.
Vakker Soup konverterer automatisk innkommende dokumenter til Unicode og utgående dokumenter til UTF-8. Du trenger ikke å tenke på kodinger, med mindre dokumentet ikke angir en koding og Vakker Soup kan ikke autodetect en. Så er det bare å spesifisere original koding.
Vakker Soup analyserer alt du gir den, og gjør treet traversering ting for deg. Du kan si det "Finn alle linkene", eller "Finn alle koblinger av klasse externalLink", eller "Finn alle linkene som har webadresser matche" foo.com ", eller" Finn på tabelloverskriften som har fått fet tekst, og deretter gi meg at teksten. "
Verdifulle data som en gang var låst opp i dårlig designet nettsteder er nå innen rekkevidde. . Prosjekter som ville ha tatt timer tar bare noen minutter med Vakker Soup
Krav :
- Python
Kommentarer ikke funnet