cpdetector prosjektet er en liten, men smart rammeverk for kodesiden gjenkjenning.
cpdetector er en liten, men smart rammeverk for kodesiden deteksjon som integrerer ulike strategier. Det kan brukes som et bibliotek for tredjeparts programvare som har tilgang tekstlige data over nettverk.
Det inkluderer også en best-praksis implementering i form av et kommandolinjeverktøy som gjør det mulig å sortere og omforme store samlinger av dokumenter basert på deres kodesiden.
Tilgjengelige strategier inkluderer: jchardet (eksklusjon, frekvensanalyse, og gjette), påvisning av HTML charset eiendom, og påvisning av XML-koding erklæringen.
Hva er en kode side?
Til å begynne med, er et tekstdokument noe mer enn sekvenser av bits. En datamaskin har til å bestemme, hvordan han kan vise disse dataene i form av tegn (som er identifisert av datamaskinen som tall).
En kode side - som også er kjent som charset encoding - kartlegger rådata fra en tekstlig dokument til tegn. Den opprinnelige ASCII-kode side for eksempel bare bruker 7 biter av en oktett (byte) for å avgjøre den karakter som er representert dermed tillater bare å kartlegge 128 forskjellige tegn. I det siste minne var dyrt og datamaskiner oftest bare hadde registre og busser for 8 bit.
Når en stormaskin ble unnfanget det måtte avgjøres, hvilke tegn det bør støtte. Leger og matematikere for eksempel trengte spesialtegn for ligninger. Som et resultat, en datamaskin ofte levert med en spesiell kodesiden
Hva er nytt i denne utgaven:.
- Denne store bugfix versjonen løser to problemer i kommandolinje batch-modus.
- Bryteren å hoppe bevegelige uoppdaget dokumenter fungerer nå igjen.
- Ingen forsøk vil bli gjort for å omkode uoppdaget dokumenter (sistnevnte forårsaket eksepsjonell program flow).
Hva er nytt i versjon 1.0.8:
- Denne utgivelsen er en stabilitet utgivelse og fikser byte bestille mark deteksjon og inkompatibilitet med OpenJDK. Det krever også Java 1.5 nå.
Kommentarer ikke funnet