Apache Spark er designet for å forbedre behandlingshastighet for dataanalyse og manipulasjon programmer.
Det ble skrevet i Java og Scala og gir funksjoner som ikke finnes i andre systemer, hovedsakelig fordi de ikke er mainstream eller som nyttig for ikke-dataprosesseringsapplikasjoner.
Spark ble først opprettet ved UC Berkeley AMP Lab og senere donert til Apache Software Foundation
Hva er nytt i denne utgaven.
- Unified Memory Management -.
- Parkett Resultater - Forbedre Parkett skanneytelse når du bruker flate skjemaer .
- Forbedret spørplanlegger for spørringer som har forskjellige samlinger -. Kriterier planer distinkte samlinger er mer robust når forskjellige kolonnene har høy kardinalitet
- Adaptive spørringen kjøres -. Første støtte for automatisk å velge antall reduksjoner for sammenføyninger og samlinger
- Unngå doble filtre i datakilde API -. Ved implementering av en datakilde med filter pushdown, kan utviklere nå fortelle Spark SQL for å unngå dobbeltbeskatning vurdere en presset ned filter
- Fast null-safe tiltrer - Slår sammen ved hjelp av null-safe likestilling (& # X3c; = & # x3e;) vil nå utføre ved hjelp SortMergeJoin i stedet for å beregne en cartisian produkt .
- I-minne Søyle Cache Ytelse - Betydelig (opp til 14x) fremskynde når caching av data som inneholder komplekse typer i DataFrames eller SQL .
- SQL Execution Bruke Off-Heap minne - Støtte for konfigurering av spørringen kjøres til å skje ved hjelp av off-heap minne for å unngå GC overhead
Hva er nye i versjon 1.5.2:
- Kjernen API støtter nå multi-level aggregering trær å hjelpe fremskynde dyrt redusere driften.
- Forbedret feilrapportering har blitt lagt for enkelte fikser operasjoner.
- Spark Jetty avhengighet er nå i skyggen for å unngå konflikter med brukerprogrammer.
- Spark støtter nå SSL-kryptering for noen kommunikasjon endepunkter.
- Realtime GC beregninger og platetellinger er lagt til brukergrensesnittet.
Hva er nye i versjon 1.4.0:
- Kjernen API støtter nå multi-level aggregering trær å hjelpe fremskynde dyrt redusere driften.
- Forbedret feilrapportering har blitt lagt for enkelte fikser operasjoner.
- Spark Jetty avhengighet er nå i skyggen for å unngå konflikter med brukerprogrammer.
- Spark støtter nå SSL-kryptering for noen kommunikasjon endepunkter.
- Realtime GC beregninger og platetellinger er lagt til brukergrensesnittet.
Hva er nytt i versjon 1.2.0:
- PySpark tallet slags operatøren støtter nå ekstern søl for store datasett .
- PySpark støtter nå kringkastings variabler større enn 2 GB og utfører ekstern søl under slag.
- Spark legger til en jobb-nivå fremgang siden i Spark UI, en stabil API for fremgang rapportering og dynamisk oppdatering av utgangs beregninger som jobber komplett .
- Spark har nå støtte for lesing binærfiler for bilder og andre binære formater.
Hva er nytt i versjon 1.0.0:
- Denne versjonen utvider Tennstandardbiblioteker, innføre en ny SQL-pakke (Spark SQL) som lar brukere integrere SQL-spørringer i eksisterende Spark arbeidsflyt.
- MLlib, Spark maskin læring bibliotek, er utvidet med sparsom vektor støtte og flere nye algoritmer.
Hva er nytt i versjon 0.9.1:
- Fast hash kollisjon bug i ytre søl
- Fast konflikt med Spark log4j for brukere å stole på andre loggesystem i
- Fast Graphx mangler gnist montering krukke i maven bygger
- Till tause svikt som følge av kart utgangsstatus stiger Akka rammestørrelse
- Fjernet Spark unødvendig direkte avhengighet av ASM
- Fjernet beregninger-ganglia fra standard build grunn LGPL-lisensen konflikt
- Fikset bug i distribusjon tarball ikke inneholder gnist montering krukke
Hva er nytt i versjon 0.8.0:
- Utvikling har flyttet til Apache Sowftware Foundation som en inkubator prosjekt.
Hva er nytt i versjon 0.7.3:
- Python ytelse: Spark mekanisme for gyting Python VMs har blitt forbedret for å gjøre det raskere når JVM har en stor haug størrelse, påskynde Python API.
- Mesos fikser: JAR lagt til jobben din vil nå være på klassebanen når deserializing oppgave resultater i Mesos .
- feilrapportering. Bedre feilrapportering for ikke-serialiserbar unntak og altfor store oppgave resultater
- Eksempler:. Lagt til et eksempel på Stateful stream behandling med updateStateByKey
- Bygg:. Spark Streaming ikke lenger er avhengig av Twitter4J repo, som skal tillate det å bygge i Kina
- Feilrettinger i foldByKey, streaming teller, statistikk metoder, dokumentasjon, og web-grensesnitt.
Hva er nytt i versjon 0.7.2.
- Scala versjon oppdatert til 2.9.3
- Flere forbedringer Bagel, inkludert prestasjonsrettinger og en konfigurerbar lagring nivå.
- Nye API metoder. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition og andre
- En ny beregninger rapporteringsgrensesnitt, SparkListener, for å samle informasjon om hver beregning scenen. Oppgave lengder, byte stokkes, etc
- Flere nye eksempler som bruker Java API, inkludert K-midler og databehandling pi.
Hva er nytt i versjon 0.7.0:
- Spark 0.7 legger en Python API kalt PySpark <. / li>
- Tenn jobber nå lansere en nettoversikten for å overvåke minnebruken til hver fordelt datasett (RDD) i programmet.
- Spark kan nå bygges ved hjelp av Maven i tillegg til SBT.
Hva er nytt i versjon 0.6.1:
- Fast altfor aggressiv melding outs som kan føre til at arbeidstakere til koble fra klyngen.
- Fikset en bug i den frittstående distribuere modus som ikke utsette vertsnavn til planleggeren, påvirker HDFS lokalitet.
- Forbedret tilkobling gjenbruk i shuffle, som i stor grad kan fremskynde små stokker.
- Fikset noen potensielle vranglås i blokkmanager.
- Fikset en bug får IDer av mislykkede vertene fra Mesos.
- Flere EC2 script forbedringer, som bedre håndtering av stikk tilfeller.
- Laget den lokale IP-adressen som Spark binder seg til å tilpasse.
- Støtte for Hadoop 2 distribusjoner.
- Støtte for lokalisering Scala på Debian distribusjoner.
Hva er nytt i versjon 0.6.0.
- Enklere utrulling
- Spark dokumentasjonen har blitt utvidet med en ny rask start guide, flere instruksjoner distribusjon, konfigurasjon guide, tuning guide, og forbedret Scaladoc API dokumentasjon.
- En ny kommunikasjonssjef bruker asynkron Java NIO lar shuffle operasjoner kjøre raskere, spesielt når du sender store mengder data eller når arbeidsplasser har mange oppgaver.
- En ny lagersjef støtter per-datasett lagring nivå (f.eks om du vil beholde datasettet i minnet, deserialisert, på disken, etc, eller til og med kopiert over noder).
- Forbedret feilsøking.
Kommentarer ikke funnet