Jericho HTML Parser

Skjermbilde programvare:
Jericho HTML Parser
Prog.varedetaljer:
Versjon: 3.3
Last opp dato: 20 Feb 15
Utvikler: Martin Jericho
Lisens: Gratis
Popularitet: 56

Rating: nan/5 (Total Votes: 0)

Jerich HTML-parser er en åpen kildekode, enkel, men kraftig bibliotek skrevet i Java.
Den lar programmerere å manipulere og analysere deler av et HTML-dokument.
Jerich HTML-parser har også høyt nivå HTML-skjema manipulasjon funksjoner

Hva er nytt i denne utgaven:.

  • feilrettinger:
  • [3581664] CharacterReference.decode () ikke dekode enheter som inneholder siffer - & frac12; & Frac14; & Frac34; & Sup1; & Sup2; & Sup3; & There4;
  • [3311286] SourceCompactor ikke respekterer TEXTAREA-
  • [3519131] Renderer utgang feil når konstruert med et Element objekt.
  • [3538829] Renderer produksjon av skrift dekorasjon på blokkgrenser feil.
  • Segment.getAllStartTags (navn) og Segment.getFirstElement (navn) fungerer ikke hvis argumentet inneholder store bokstaver.
  • Slutten skille av en felles server tag inni en rømt server tag er feilaktig gjenkjent som slutten skilletegn av den rømte tag.
  • ENDRINGER som kan påvirke Adferd av eksisterende PROGRAMMER:
  • [3427073] Segment.getStyleURISegments () nå inkluderer stil element innhold samt stil attributtverdier.
  • [3427927] Segment.getURIAttributes () nå omfatter arkiv attributtene til objektet og applet elementer.
  • Kommentarer ikke lenger anerkjent inne script elementer ved full sekvensiell parse. Tidligere ble de anerkjent for kompatibilitet med de store nettleserne, men moderne nettleser atferd har endret seg.
  • Endret loggnivået av alle analysefeil fra INFO til feilen, og loggnivået av Source.fullSequentialParse () rådgivende melding fra WARN til INFO. De tidligere nivåer ga den rådgivende melding en høyere alvorlighetsgrad enn analysefeil, hindrer loggesystemer fra skjule rådgivende melding mens viser analysefeil. Tegnkodings advarsler forbli uendret på WARN nivå.
  • Endret atferd Renderer.renderHyperlinkURL (StartTag) metode, slik at relative URLer ikke gjengis.
  • Endret atferd Renderer slik at hyperkobling element innhold ikke gjengis hvis det er den samme som den hyperkobling URL, ignorerer eventuelle http:. // Prefiks eller / suffiks
  • EndTag.tidy () fjerner nå mellomrom før den avsluttende brakett.
  • Lagd Source (File) konstruktør.
  • Lagd OutputDocument.getSegment () -metoden.
  • Lagd OutputDocument.remove (int begynne, int slutten) metoden.
  • Lagd Renderer.setHRLineLength () -metoden.
  • Lagd RenderToText.jsp webapp prøven.
  • Lagd Segment.getRowColumnVector () -metoden.
  • Encoding deteksjon ignorerer nå vanlige kodinger spesifisert i metakoder som har en kode enhetsstørrelse uforenlig med den foreløpige koding.
  • Oppgradert til følgende logger APIer: slf4j-api-1.7.2, log4j-1.2.17

Hva er nytt i versjon 3.1:

  • feilrettinger:
  • [2793556] Infinite sløyfe på Segment.getAllStartTags ()
  • Infinite sløyfe på Segment.getAllElements ()
  • Segment.getFirst * metoder returnert segmenter utenfor markerings segmentet.
  • Segment.getAllElements metodene ikke returnere alle lukkede elementer i enkelte tilfeller.
  • Faste dokumentasjon feil i Segment.getAllElements metoder.
  • Lagd StreamedSource klasse.
  • ENDRINGER som kan påvirke Adferd av eksisterende PROGRAMMER:
  • Endret ParseText fra klasse til grensesnittet.
  • Segment.getNodeIterator () returnerer nå karakter referanser som separate noder.
  • Lagt tag søkemetoder basert på attributtverdi regulære uttrykk.
  • Lagt tag søkemetoder basert på HTML klasse attributt.
  • Lagt statisk Source.LegacyNodeIteratorCompatabilityMode eiendom midlertidig å gjenopprette Segment.getNodeIterator () funksjonalitet som i tidligere versjoner.
  • Fjernet char [] baserte søkemetoder i ParseText.
  • Lagd CharacterReference.appendCharTo (innspillings) metoden.
  • Lagd OutputDocument (segment) konstruktør.
  • Lagd StreamedSourceCopy prøveprogram.

Hva er nytt i versjon 3.0:

  • feilrettinger:
  • Character referanser representerer Unicode supplerende tegn ble ikke dekodet riktig til UTF-16 kode enhet parene.
  • [2188446] Element.getDepth () og Element.getParentElement () returnerte gale resultater hvis heter i parse on demand-modus.
  • Kommentarer er nå anerkjent innenfor & lt; script & gt; elementer.
  • API endringer som ikke er bakoverkompatibel:
  • Endret pakkenavn for å net.htmlparser.jericho
  • Egenskap verdier må nå være String snarere enn CharSequence.
  • Fjernet alle utdaterte metoder / klasser fra tidligere versjoner.
  • All finne * metoder foreldet i favør av få * metoder for å bruke en konsistent navnekonvensjon tvers av alle tag søkemetoder.
  • Tag, Element og HTMLElements klasser ikke lenger implementere HTMLElementName grensesnitt. (Bruker statisk import i stedet)
  • Alle samlinger nå stongly skrevet ved hjelp av generiske legemidler.
  • Endret FormControlOutputStyle klasse til enum.
  • Endret FormControlType klasse til enum.
  • Lagd CharStreamSource.appendTo (innspillings) metoden.
  • Lagd Source.iterator () -metoden.
  • Source nå implementerer Iterable.
  • Internt bruker Stringbuilder for bedre ytelse.
  • Lagd Source.getNextStartTag (StartTagType) metoden.
  • Lagd Source.getNextEndTag (EndTagType) metoden.
  • Lagd Source.getPreviousStartTag (StartTagType) metoden.
  • Lagd Source.getPreviousEndTag (EndTagType) metoden.
  • Lagd Segment.getAllStartTags (StartTagType) metoden.
  • Lagt alle Segment.getFirst * metoder.
  • Lagd Renderer.renderHyperlinkURL (StartTag) metoden.
  • Lagd HTMLSanitiser prøveprogram.
  • Oppgradert til slf4j-api-1.5.6

Krav :

  • Java 2 Standard Edition Runtime Environment

Lignende programvare

pandoc
pandoc

11 May 15

Markdown
Markdown

14 Apr 15

markup.py
markup.py

14 Apr 15

Annen programvare fra utvikleren Martin Jericho

Kommentarer til Jericho HTML Parser

Kommentarer ikke funnet
Legg til kommentar
Slå på bilder!