Apache Spark

Skjermbilde programvare:
Apache Spark
Prog.varedetaljer:
Versjon: 1.6.0 Oppdatert
Last opp dato: 6 Mar 16
Lisens: Gratis
Popularitet: 70

Rating: nan/5 (Total Votes: 0)

Apache Spark er designet for å forbedre behandlingshastighet for dataanalyse og manipulasjon programmer.

Det ble skrevet i Java og Scala og gir funksjoner som ikke finnes i andre systemer, hovedsakelig fordi de ikke er mainstream eller som nyttig for ikke-dataprosesseringsapplikasjoner.

Spark ble først opprettet ved UC Berkeley AMP Lab og senere donert til Apache Software Foundation

Hva er nytt i denne utgaven.

  • Unified Memory Management -.
  • Parkett Resultater - Forbedre Parkett skanneytelse når du bruker flate skjemaer
  • .
  • Forbedret spørplanlegger for spørringer som har forskjellige samlinger -. Kriterier planer distinkte samlinger er mer robust når forskjellige kolonnene har høy kardinalitet
  • Adaptive spørringen kjøres -. Første støtte for automatisk å velge antall reduksjoner for sammenføyninger og samlinger
  • Unngå doble filtre i datakilde API -.
  • Ved implementering av en datakilde med filter pushdown, kan utviklere nå fortelle Spark SQL for å unngå dobbeltbeskatning vurdere en presset ned filter
  • Fast null-safe tiltrer - Slår sammen ved hjelp av null-safe likestilling (& # X3c; = & # x3e;) vil nå utføre ved hjelp SortMergeJoin i stedet for å beregne en cartisian produkt
  • .
  • I-minne Søyle Cache Ytelse - Betydelig (opp til 14x) fremskynde når caching av data som inneholder komplekse typer i DataFrames eller SQL
  • .
  • SQL Execution Bruke Off-Heap minne - Støtte for konfigurering av spørringen kjøres til å skje ved hjelp av off-heap minne for å unngå GC overhead

Hva er nye i versjon 1.5.2:

  • Kjernen API støtter nå multi-level aggregering trær å hjelpe fremskynde dyrt redusere driften.
  • Forbedret feilrapportering har blitt lagt for enkelte fikser operasjoner.
  • Spark Jetty avhengighet er nå i skyggen for å unngå konflikter med brukerprogrammer.
  • Spark støtter nå SSL-kryptering for noen kommunikasjon endepunkter.
  • Realtime GC beregninger og platetellinger er lagt til brukergrensesnittet.

Hva er nye i versjon 1.4.0:

  • Kjernen API støtter nå multi-level aggregering trær å hjelpe fremskynde dyrt redusere driften.
  • Forbedret feilrapportering har blitt lagt for enkelte fikser operasjoner.
  • Spark Jetty avhengighet er nå i skyggen for å unngå konflikter med brukerprogrammer.
  • Spark støtter nå SSL-kryptering for noen kommunikasjon endepunkter.
  • Realtime GC beregninger og platetellinger er lagt til brukergrensesnittet.

Hva er nytt i versjon 1.2.0:

  • PySpark tallet slags operatøren støtter nå ekstern søl for store datasett .
  • PySpark støtter nå kringkastings variabler større enn 2 GB og utfører ekstern søl under slag.
  • Spark legger til en jobb-nivå fremgang siden i Spark UI, en stabil API for fremgang rapportering og dynamisk oppdatering av utgangs beregninger som jobber komplett
  • .
  • Spark har nå støtte for lesing binærfiler for bilder og andre binære formater.

Hva er nytt i versjon 1.0.0:

  • Denne versjonen utvider Tennstandardbiblioteker, innføre en ny SQL-pakke (Spark SQL) som lar brukere integrere SQL-spørringer i eksisterende Spark arbeidsflyt.
  • MLlib, Spark maskin læring bibliotek, er utvidet med sparsom vektor støtte og flere nye algoritmer.

Hva er nytt i versjon 0.9.1:

  • Fast hash kollisjon bug i ytre søl
  • Fast konflikt med Spark log4j for brukere å stole på andre loggesystem i
  • Fast Graphx mangler gnist montering krukke i maven bygger
  • Till tause svikt som følge av kart utgangsstatus stiger Akka rammestørrelse
  • Fjernet Spark unødvendig direkte avhengighet av ASM
  • Fjernet beregninger-ganglia fra standard build grunn LGPL-lisensen konflikt
  • Fikset bug i distribusjon tarball ikke inneholder gnist montering krukke

Hva er nytt i versjon 0.8.0:

  • Utvikling har flyttet til Apache Sowftware Foundation som en inkubator prosjekt.

Hva er nytt i versjon 0.7.3:

  • Python ytelse: Spark mekanisme for gyting Python VMs har blitt forbedret for å gjøre det raskere når JVM har en stor haug størrelse, påskynde Python API.
  • Mesos fikser: JAR lagt til jobben din vil nå være på klassebanen når deserializing oppgave resultater i Mesos
  • .
  • feilrapportering. Bedre feilrapportering for ikke-serialiserbar unntak og altfor store oppgave resultater
  • Eksempler:.
  • Lagt til et eksempel på Stateful stream behandling med updateStateByKey
  • Bygg:. Spark Streaming ikke lenger er avhengig av Twitter4J repo, som skal tillate det å bygge i Kina
  • Feilrettinger i foldByKey, streaming teller, statistikk metoder, dokumentasjon, og web-grensesnitt.

Hva er nytt i versjon 0.7.2.

  • Scala versjon oppdatert til 2.9.3
  • Flere forbedringer Bagel, inkludert prestasjonsrettinger og en konfigurerbar lagring nivå.
  • Nye API metoder. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition og andre
  • En ny beregninger rapporteringsgrensesnitt, SparkListener, for å samle informasjon om hver beregning scenen. Oppgave lengder, byte stokkes, etc
  • Flere nye eksempler som bruker Java API, inkludert K-midler og databehandling pi.

Hva er nytt i versjon 0.7.0:

  • Spark 0.7 legger en Python API kalt PySpark <. / li>
  • Tenn jobber nå lansere en nettoversikten for å overvåke minnebruken til hver fordelt datasett (RDD) i programmet.
  • Spark kan nå bygges ved hjelp av Maven i tillegg til SBT.

Hva er nytt i versjon 0.6.1:

  • Fast altfor aggressiv melding outs som kan føre til at arbeidstakere til koble fra klyngen.
  • Fikset en bug i den frittstående distribuere modus som ikke utsette vertsnavn til planleggeren, påvirker HDFS lokalitet.
  • Forbedret tilkobling gjenbruk i shuffle, som i stor grad kan fremskynde små stokker.
  • Fikset noen potensielle vranglås i blokkmanager.
  • Fikset en bug får IDer av mislykkede vertene fra Mesos.
  • Flere EC2 script forbedringer, som bedre håndtering av stikk tilfeller.
  • Laget den lokale IP-adressen som Spark binder seg til å tilpasse.
  • Støtte for Hadoop 2 distribusjoner.
  • Støtte for lokalisering Scala på Debian distribusjoner.

Hva er nytt i versjon 0.6.0.

  • Enklere utrulling
  • Spark dokumentasjonen har blitt utvidet med en ny rask start guide, flere instruksjoner distribusjon, konfigurasjon guide, tuning guide, og forbedret Scaladoc API dokumentasjon.
  • En ny kommunikasjonssjef bruker asynkron Java NIO lar shuffle operasjoner kjøre raskere, spesielt når du sender store mengder data eller når arbeidsplasser har mange oppgaver.
  • En ny lagersjef støtter per-datasett lagring nivå (f.eks om du vil beholde datasettet i minnet, deserialisert, på disken, etc, eller til og med kopiert over noder).
  • Forbedret feilsøking.

Annen programvare fra utvikleren Apache Software Foundation

Apache Derby
Apache Derby

11 Mar 16

Apache Thrift
Apache Thrift

13 Apr 15

Apache OpenNLP
Apache OpenNLP

19 Jul 15

Apache UIMA
Apache UIMA

17 Feb 15

Kommentarer til Apache Spark

Kommentarer ikke funnet
Legg til kommentar
Slå på bilder!