mrjob

Skjermbilde programvare:
mrjob
Prog.varedetaljer:
Versjon: 0.4
Last opp dato: 20 Feb 15
Utvikler: David Marin
Lisens: Gratis
Popularitet: 66

Rating: 2.0/5 (Total Votes: 2)

mrjob er en Python-modul som hjelper deg skrive og kjøre Hadoop Streaming jobber.
mrjob støtter fullt Amazons Elastic MapReduce (EPJ) tjeneste, som lar deg kjøpe tid på en Hadoop cluster på timebasis. Det fungerer også med din egen Hadoop cluster.
Installasjon:
python setup.py installere
Sette opp EPJ på Amazon
& Nbsp; * skape en Amazon Web Services konto: http://aws.amazon.com/
& Nbsp; * registrere deg for Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Få din tilgang og hemmelige nøkler (gå til http://aws.amazon.com/account/ og klikk på "sikkerhetsinformasjon") og sette miljøvariabler $ AWS_ACCESS_KEY_ID og $ AWS_SECRET_ACCESS_KEY tilsvar

Prøv det ut!

# Lokalt
python mrjob / eksempler / mr_word_freq_count.py README.md> teller
# På EPJ
python mrjob / eksempler / mr_word_freq_count.py README.md -r EPJ> teller
# På Hadoop cluster
python mrjob / eksempler / mr_word_freq_count.py README.md -r Hadoop> teller
Advanced Configuration
Å kjøre i andre AWS regioner, laste opp din kilde treet, kjøre make, og bruke andre avanserte mrjob funksjoner, må du sette opp mrjob.conf. mrjob ser for sin conf fil i:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf hvor som helst i din $ PYTHONPATH
& Nbsp; * /etc/mrjob.conf
Se mrjob.conf.example for mer informasjon

Egenskaper .

  • Kjør jobber på EPJ, din egen Hadoop cluster, eller lokalt (for testing).
  • Skriv flertrinns jobber (ett kart-redusere trinn trekkes inn i den neste)
  • Duplicate produksjonsmiljøet inne Hadoop
  • Last opp din kilde treet og legge den i din jobb er $ PYTHONPATH
  • Kjør make og andre oppsetts scripts
  • Sett miljøvariabler (f.eks $ TZ)
  • Du kan enkelt installere python pakker fra tarballs (EPJ only)
  • Oppsett håndteres transparent av mrjob.conf config fil
  • Automatisk tolke feillogger fra EPJ
  • SSH tunnel til Hadoop jobb tracker på EPJ
  • Minimal installasjon
  • Hvis du vil kjøre på EPJ, satt $ AWS_ACCESS_KEY_ID og $ AWS_SECRET_ACCESS_KEY
  • Hvis du vil kjøre på din Hadoop cluster, satt $ HADOOP_HOME

Krav :

  • Python

Lignende programvare

paexec
paexec

20 Feb 15

python-hostlist
python-hostlist

20 Feb 15

ClusterControl
ClusterControl

3 Jun 15

Annen programvare fra utvikleren David Marin

doloop
doloop

11 May 15

Kommentarer til mrjob

Kommentarer ikke funnet
Legg til kommentar
Slå på bilder!