Apache Spark

Skjermbilde programvare:
Apache Spark
Prog.varedetaljer:
Versjon: 1.6.0 Oppdatert
Last opp dato: 6 Mar 16
Lisens: Gratis
Popularitet: 104

Rating: 1.0/5 (Total Votes: 1)

Apache Spark er designet for å forbedre behandlingshastighet for dataanalyse og manipulasjon programmer.

Det ble skrevet i Java og Scala og gir funksjoner som ikke finnes i andre systemer, hovedsakelig fordi de ikke er mainstream eller som nyttig for ikke-dataprosesseringsapplikasjoner.

Spark ble først opprettet ved UC Berkeley AMP Lab og senere donert til Apache Software Foundation

Hva er nytt i denne utgaven.

  • Unified Memory Management -.
  • Parkett Resultater - Forbedre Parkett skanneytelse når du bruker flate skjemaer
  • .
  • Forbedret spørplanlegger for spørringer som har forskjellige samlinger -. Kriterier planer distinkte samlinger er mer robust når forskjellige kolonnene har høy kardinalitet
  • Adaptive spørringen kjøres -. Første støtte for automatisk å velge antall reduksjoner for sammenføyninger og samlinger
  • Unngå doble filtre i datakilde API -.
  • Ved implementering av en datakilde med filter pushdown, kan utviklere nå fortelle Spark SQL for å unngå dobbeltbeskatning vurdere en presset ned filter
  • Fast null-safe tiltrer - Slår sammen ved hjelp av null-safe likestilling (& # X3c; = & # x3e;) vil nå utføre ved hjelp SortMergeJoin i stedet for å beregne en cartisian produkt
  • .
  • I-minne Søyle Cache Ytelse - Betydelig (opp til 14x) fremskynde når caching av data som inneholder komplekse typer i DataFrames eller SQL
  • .
  • SQL Execution Bruke Off-Heap minne - Støtte for konfigurering av spørringen kjøres til å skje ved hjelp av off-heap minne for å unngå GC overhead

Hva er nye i versjon 1.5.2:

  • Kjernen API støtter nå multi-level aggregering trær å hjelpe fremskynde dyrt redusere driften.
  • Forbedret feilrapportering har blitt lagt for enkelte fikser operasjoner.
  • Spark Jetty avhengighet er nå i skyggen for å unngå konflikter med brukerprogrammer.
  • Spark støtter nå SSL-kryptering for noen kommunikasjon endepunkter.
  • Realtime GC beregninger og platetellinger er lagt til brukergrensesnittet.

Hva er nye i versjon 1.4.0:

  • Kjernen API støtter nå multi-level aggregering trær å hjelpe fremskynde dyrt redusere driften.
  • Forbedret feilrapportering har blitt lagt for enkelte fikser operasjoner.
  • Spark Jetty avhengighet er nå i skyggen for å unngå konflikter med brukerprogrammer.
  • Spark støtter nå SSL-kryptering for noen kommunikasjon endepunkter.
  • Realtime GC beregninger og platetellinger er lagt til brukergrensesnittet.

Hva er nytt i versjon 1.2.0:

  • PySpark tallet slags operatøren støtter nå ekstern søl for store datasett .
  • PySpark støtter nå kringkastings variabler større enn 2 GB og utfører ekstern søl under slag.
  • Spark legger til en jobb-nivå fremgang siden i Spark UI, en stabil API for fremgang rapportering og dynamisk oppdatering av utgangs beregninger som jobber komplett
  • .
  • Spark har nå støtte for lesing binærfiler for bilder og andre binære formater.

Hva er nytt i versjon 1.0.0:

  • Denne versjonen utvider Tennstandardbiblioteker, innføre en ny SQL-pakke (Spark SQL) som lar brukere integrere SQL-spørringer i eksisterende Spark arbeidsflyt.
  • MLlib, Spark maskin læring bibliotek, er utvidet med sparsom vektor støtte og flere nye algoritmer.

Hva er nytt i versjon 0.9.1:

  • Fast hash kollisjon bug i ytre søl
  • Fast konflikt med Spark log4j for brukere å stole på andre loggesystem i
  • Fast Graphx mangler gnist montering krukke i maven bygger
  • Till tause svikt som følge av kart utgangsstatus stiger Akka rammestørrelse
  • Fjernet Spark unødvendig direkte avhengighet av ASM
  • Fjernet beregninger-ganglia fra standard build grunn LGPL-lisensen konflikt
  • Fikset bug i distribusjon tarball ikke inneholder gnist montering krukke

Hva er nytt i versjon 0.8.0:

  • Utvikling har flyttet til Apache Sowftware Foundation som en inkubator prosjekt.

Hva er nytt i versjon 0.7.3:

  • Python ytelse: Spark mekanisme for gyting Python VMs har blitt forbedret for å gjøre det raskere når JVM har en stor haug størrelse, påskynde Python API.
  • Mesos fikser: JAR lagt til jobben din vil nå være på klassebanen når deserializing oppgave resultater i Mesos
  • .
  • feilrapportering. Bedre feilrapportering for ikke-serialiserbar unntak og altfor store oppgave resultater
  • Eksempler:.
  • Lagt til et eksempel på Stateful stream behandling med updateStateByKey
  • Bygg:. Spark Streaming ikke lenger er avhengig av Twitter4J repo, som skal tillate det å bygge i Kina
  • Feilrettinger i foldByKey, streaming teller, statistikk metoder, dokumentasjon, og web-grensesnitt.

Hva er nytt i versjon 0.7.2.

  • Scala versjon oppdatert til 2.9.3
  • Flere forbedringer Bagel, inkludert prestasjonsrettinger og en konfigurerbar lagring nivå.
  • Nye API metoder. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition og andre
  • En ny beregninger rapporteringsgrensesnitt, SparkListener, for å samle informasjon om hver beregning scenen. Oppgave lengder, byte stokkes, etc
  • Flere nye eksempler som bruker Java API, inkludert K-midler og databehandling pi.

Hva er nytt i versjon 0.7.0:

  • Spark 0.7 legger en Python API kalt PySpark <. / li>
  • Tenn jobber nå lansere en nettoversikten for å overvåke minnebruken til hver fordelt datasett (RDD) i programmet.
  • Spark kan nå bygges ved hjelp av Maven i tillegg til SBT.

Hva er nytt i versjon 0.6.1:

  • Fast altfor aggressiv melding outs som kan føre til at arbeidstakere til koble fra klyngen.
  • Fikset en bug i den frittstående distribuere modus som ikke utsette vertsnavn til planleggeren, påvirker HDFS lokalitet.
  • Forbedret tilkobling gjenbruk i shuffle, som i stor grad kan fremskynde små stokker.
  • Fikset noen potensielle vranglås i blokkmanager.
  • Fikset en bug får IDer av mislykkede vertene fra Mesos.
  • Flere EC2 script forbedringer, som bedre håndtering av stikk tilfeller.
  • Laget den lokale IP-adressen som Spark binder seg til å tilpasse.
  • Støtte for Hadoop 2 distribusjoner.
  • Støtte for lokalisering Scala på Debian distribusjoner.

Hva er nytt i versjon 0.6.0.

  • Enklere utrulling
  • Spark dokumentasjonen har blitt utvidet med en ny rask start guide, flere instruksjoner distribusjon, konfigurasjon guide, tuning guide, og forbedret Scaladoc API dokumentasjon.
  • En ny kommunikasjonssjef bruker asynkron Java NIO lar shuffle operasjoner kjøre raskere, spesielt når du sender store mengder data eller når arbeidsplasser har mange oppgaver.
  • En ny lagersjef støtter per-datasett lagring nivå (f.eks om du vil beholde datasettet i minnet, deserialisert, på disken, etc, eller til og med kopiert over noder).
  • Forbedret feilsøking.

Annen programvare fra utvikleren Apache Software Foundation

Kommentarer til Apache Spark

Kommentarer ikke funnet
Legg til kommentar
Slå på bilder!