Jericho HTML Parser

Skjermbilde programvare:
Jericho HTML Parser
Prog.varedetaljer:
Versjon: 3.4
Last opp dato: 10 Dec 15
Utvikler: Martin Jericho
Lisens: Gratis
Popularitet: 12

Rating: nan/5 (Total Votes: 0)

Det kan redigere server-side og klientsiden tags, mens gjengi ordrett noe ukjent eller ugyldig HTML.

Det gir også høyt nivå HTML-skjema manipulasjon funksjoner

Egenskaper .

  • Tilstedeværelsen av dårlig formatert HTML ikke forstyrrer analyseringen av resten av dokumentet, som gjør biblioteket ideell for bruk med & quot; virkelige verden & quot; HTML som kveler andre parsere.
  • ASP, JSP, PSP, PHP og Mason server koder er uttrykkelig godkjent av parseren. Dette betyr at normal HTML er fortsatt analyseres riktig selv om det er server-tags inni dem, noe som er vanlig for eksempel når dynamisk innstilling elementattributter.
  • En ny strøm basert analyser alternativet bruker StreamedSource klasse, noe som gir minne effektiv behandling av store filer ved hjelp av en hendelse iterator. Dette er egentlig en Stax alternativ med evnen til å behandle HTML og ikke-validere XML, samt flere andre funksjoner som ikke er tilgjengelig i andre streaming parsere.
  • I standardutgaven er det verken en hendelse eller treet basert parser, men heller bruker en kombinasjon av enkelt tekstsøk, effektiv tag anerkjennelse og en tag posisjon cache. Teksten i hele kildedokumentet blir først lastet inn i minnet, og da bare de relevante segmentene søkte på de aktuelle tegnene i hvert søk drift.
  • I forhold til et tre basert parser som DOM, minnet og ressursbehov kan være langt bedre hvis bare små deler av dokumentet må analyseres eller endres. Uriktige eller dårlig formatert HTML kan lett bli ignorert, i motsetning til tre basert parsere som må identifisere hver node i dokumentet fra topp til bunn.
  • I forhold til en hendelse basert parser som SAX, er grensesnittet på et mye høyere nivå og mer intuitivt, og et tre representasjon av dokumentet element hierarkiet er enkelt laget ved behov.
  • start- og sluttposisjoner i kildedokumentet for alle analyserte segmenter er tilgjengelige, slik modifisering av bare utvalgte deler av dokumentet uten å rekonstruere hele dokumentet fra et tre.
  • rad og kolonnenummer til hver stilling i kildedokumentet er lett tilgjengelig.
  • Gir en enkel, men omfattende grensesnitt for analyse og manipulering av HTML-skjemakontroller, inkludert utvinning og befolkningen i startverdier, og konvertering til beskyttede eller data visningsmoduser. Analyse av kontrollene skjema også gjør at data mottatt fra skjemaet som skal lagres og presenteres på en hensiktsmessig måte.
  • Innebygd funksjonalitet for å trekke ut all tekst fra HTML markup, egnet for å mate inn en tekst søkemotor som Apache Lucene.
  • Innebygd funksjonalitet for å gjengi HTML markup med enkle tekstformatering.
  • Innebygd funksjonalitet for å formatere HTML kildekoden som rykker elementer i henhold til deres dybde i dokumentet element hierarkiet. (Klikk her for en online demonstrasjon)
  • Innebygd funksjonalitet til kompakt HTML-kildekoden ved å fjerne alle unødvendige tomrom.
  • Custom tag typer kan lett definert og registrert for anerkjennelse av parseren.

Hva er nytt i denne utgaven.

  • Lagt Source (File) konstruktør
  • Lagt OutputDocument.getSegment () -metoden.
  • Lagt OutputDocument.remove (int begynne, int slutten) metoden.
  • Lagt Renderer.setHRLineLength () -metoden.
  • Lagt RenderToText.jsp webapp prøven.
  • Lagt Segment.getRowColumnVector () -metoden.
  • Encoding deteksjon ignorerer nå vanlige kodinger spesifisert i metakoder som har en kode enhetsstørrelse uforenlig med den foreløpige koding.

Hva er nytt i versjon 3.1:

  • feilrettinger:
  • Infinite sløyfe på Segment.getAllStartTags ()
  • Infinite sløyfe på Segment.getAllElements ()
  • Segment.getFirst * metoder returnert segmenter utenfor markerings segmentet.
  • Segment.getAllElements metoder ikke kom tilbake alle lukkede elementer i enkelte tilfeller.
  • Till dokumentasjon feil i Segment.getAllElements metoder.
  • Lagt StreamedSource klasse.
  • Endringer som kan påvirke atferden til eksisterende programmer:
  • Endret ParseText fra klasse til grensesnittet.
  • Segment.getNodeIterator () returnerer nå tegnet referanser som separate noder.
  • Lagt tag søkemetoder basert på attributtverdi regulære uttrykk.
  • Lagt tag søkemetoder basert på HTML klasse attributt.
  • Lagt statisk Source.LegacyNodeIteratorCompatabilityMode eiendom midlertidig å gjenopprette Segment.getNodeIterator () funksjonalitet som i tidligere versjoner.
  • Fjernet char [] basert søkemetoder i ParseText.
  • Lagt CharacterReference.appendCharTo (innspillings) metoden.
  • Lagt OutputDocument (segment) konstruktør.
  • Lagt StreamedSourceCopy prøveprogram.

Lignende programvare

Compass
Compass

28 Feb 15

RWD-Calc
RWD-Calc

28 Feb 15

Annen programvare fra utvikleren Martin Jericho

Kommentarer til Jericho HTML Parser

Kommentarer ikke funnet
Legg til kommentar
Slå på bilder!