Gratis nedlasting Jericho HTML Parser For Web ::: Programvare

Jericho HTML Parser

Skjermbilde programvare:

Prog.varedetaljer:

Versjon: 3.4

Last opp dato: 10 Dec 15

Utvikler: Martin Jericho

Lisens: Gratis

Popularitet: 105

Nedlasting

Currently 4.50/5
1
2
3
4
5

Rating: 4.5/5 (Total Votes: 2)

Det kan redigere server-side og klientsiden tags, mens gjengi ordrett noe ukjent eller ugyldig HTML.

Det gir også høyt nivå HTML-skjema manipulasjon funksjoner

Egenskaper .

Tilstedeværelsen av dårlig formatert HTML ikke forstyrrer analyseringen av resten av dokumentet, som gjør biblioteket ideell for bruk med & quot; virkelige verden & quot; HTML som kveler andre parsere.
ASP, JSP, PSP, PHP og Mason server koder er uttrykkelig godkjent av parseren. Dette betyr at normal HTML er fortsatt analyseres riktig selv om det er server-tags inni dem, noe som er vanlig for eksempel når dynamisk innstilling elementattributter.
En ny strøm basert analyser alternativet bruker StreamedSource klasse, noe som gir minne effektiv behandling av store filer ved hjelp av en hendelse iterator. Dette er egentlig en Stax alternativ med evnen til å behandle HTML og ikke-validere XML, samt flere andre funksjoner som ikke er tilgjengelig i andre streaming parsere.
I standardutgaven er det verken en hendelse eller treet basert parser, men heller bruker en kombinasjon av enkelt tekstsøk, effektiv tag anerkjennelse og en tag posisjon cache. Teksten i hele kildedokumentet blir først lastet inn i minnet, og da bare de relevante segmentene søkte på de aktuelle tegnene i hvert søk drift.
I forhold til et tre basert parser som DOM, minnet og ressursbehov kan være langt bedre hvis bare små deler av dokumentet må analyseres eller endres. Uriktige eller dårlig formatert HTML kan lett bli ignorert, i motsetning til tre basert parsere som må identifisere hver node i dokumentet fra topp til bunn.
I forhold til en hendelse basert parser som SAX, er grensesnittet på et mye høyere nivå og mer intuitivt, og et tre representasjon av dokumentet element hierarkiet er enkelt laget ved behov.
start- og sluttposisjoner i kildedokumentet for alle analyserte segmenter er tilgjengelige, slik modifisering av bare utvalgte deler av dokumentet uten å rekonstruere hele dokumentet fra et tre.
rad og kolonnenummer til hver stilling i kildedokumentet er lett tilgjengelig.
Gir en enkel, men omfattende grensesnitt for analyse og manipulering av HTML-skjemakontroller, inkludert utvinning og befolkningen i startverdier, og konvertering til beskyttede eller data visningsmoduser. Analyse av kontrollene skjema også gjør at data mottatt fra skjemaet som skal lagres og presenteres på en hensiktsmessig måte.
Innebygd funksjonalitet for å trekke ut all tekst fra HTML markup, egnet for å mate inn en tekst søkemotor som Apache Lucene.
Innebygd funksjonalitet for å gjengi HTML markup med enkle tekstformatering.
Innebygd funksjonalitet for å formatere HTML kildekoden som rykker elementer i henhold til deres dybde i dokumentet element hierarkiet. (Klikk her for en online demonstrasjon)
Innebygd funksjonalitet til kompakt HTML-kildekoden ved å fjerne alle unødvendige tomrom.
Custom tag typer kan lett definert og registrert for anerkjennelse av parseren.

Hva er nytt i denne utgaven.

Lagt Source (File) konstruktør
Lagt OutputDocument.getSegment () -metoden.
Lagt OutputDocument.remove (int begynne, int slutten) metoden.
Lagt Renderer.setHRLineLength () -metoden.
Lagt RenderToText.jsp webapp prøven.
Lagt Segment.getRowColumnVector () -metoden.
Encoding deteksjon ignorerer nå vanlige kodinger spesifisert i metakoder som har en kode enhetsstørrelse uforenlig med den foreløpige koding.

Hva er nytt i versjon 3.1:

feilrettinger:
Infinite sløyfe på Segment.getAllStartTags ()
Infinite sløyfe på Segment.getAllElements ()
Segment.getFirst * metoder returnert segmenter utenfor markerings segmentet.
Segment.getAllElements metoder ikke kom tilbake alle lukkede elementer i enkelte tilfeller.
Till dokumentasjon feil i Segment.getAllElements metoder.
Lagt StreamedSource klasse.
Endringer som kan påvirke atferden til eksisterende programmer:
Endret ParseText fra klasse til grensesnittet.
Segment.getNodeIterator () returnerer nå tegnet referanser som separate noder.
Lagt tag søkemetoder basert på attributtverdi regulære uttrykk.
Lagt tag søkemetoder basert på HTML klasse attributt.
Lagt statisk Source.LegacyNodeIteratorCompatabilityMode eiendom midlertidig å gjenopprette Segment.getNodeIterator () funksjonalitet som i tidligere versjoner.
Fjernet char [] basert søkemetoder i ParseText.
Lagt CharacterReference.appendCharTo (innspillings) metoden.
Lagt OutputDocument (segment) konstruktør.
Lagt StreamedSourceCopy prøveprogram.

10 Dec 15 I Utviklingsverktøy skript, HTML Verktøy scripts

Kommentarer til Jericho HTML Parser

Søk etter kategori

Jericho HTML Parser

Lignende programvare

DOMPDF

Slopy Elements

LargeLocalStorage

Siimpler HTML Framework

Annen programvare fra utvikleren Martin Jericho

Jericho HTML Parser

Jericho HTML Parser

Kommentarer til Jericho HTML Parser

Kommentarer ikke funnet

Legg til kommentar

Søk etter kategori

Søk etter kategori

Populær programvare

Ninite 14 Dec 14

fb.py 6 Jun 15

PHPExcel 13 May 15

Kernel Video Sharing 10 Dec 15

Thinglink 14 Dec 14

ICS File Viewer 21 Nov 14

Turnitin 18 Jun 16

Jericho HTML Parser

Lignende programvare

DOMPDF

Slopy Elements

LargeLocalStorage

Siimpler HTML Framework

Annen programvare fra utvikleren Martin Jericho

Jericho HTML Parser

Jericho HTML Parser

Kommentarer til Jericho HTML Parser

Kommentarer ikke funnet

Legg til kommentar

Søk etter kategori

Populær programvare

Timeglider 21 Jul 15

CKEditor 18 Jul 16

SmartCAT 18 Jun 16

Handshake 12 May 15

Genially 18 Jun 16

Flowplayer 28 Apr 16

PDFescape 15 Dec 14