MDP (Modular verktøykasse for Data Processing) er et bibliotek med mye brukt databehandling algoritmer som kan kombineres i henhold til en rørledning analogi til å bygge mer komplekse databehandlingen programvare.
Fra brukerens perspektiv, består MDP av en samling av tilsyn og unsupervised læring algoritmer og andre data prosesseringsenheter (noder) som kan kombineres til databehandling sekvenser (strømmer) og mer komplekse mate fremover nettverksarkitekturer. Gitt et sett med inngangsdata, tar MDP vare på suksessivt opplæring eller gjennomføre alle noder i nettverket. Dette gjør det mulig for brukeren å spesifisere komplekse algoritmer som en serie av enklere databehandlingstrinn på en naturlig måte.
Basen av tilgjengelige algoritmer er stadig økende, og inkluderer, for å nevne de mest vanlige, Principal Component Analysis (PCA og NIPALS), flere Independent Component Analysis algoritmer (CuBICA, FastICA, TDSEP, JADE, og XSFA), Slow Feature Analyse, Gaussian klassifiserere, Restricted Boltzmann Machine, og lokalt Linear innebygging.
Spesiell forsiktighet er tatt for å gjøre beregninger effektiv når det gjelder hastighet og hukommelse. For å redusere kravene til minne, er det mulig å gjennomføre læring ved hjelp av grupper av data, og for å definere de interne parametere av nodene for å være enkelt presisjon, noe som gjør bruken av svært store datasett er mulig. Videre er den "parallelle" subpackage har en parallell implementering av de grunnleggende noder og strømmer.
Fra utviklerens perspektiv er MDP et rammeverk som gjør implementering av nye tilsyn og uten tilsyn læring algoritmer enkel og grei. Den grunnleggende klasse, 'Node', tar seg av kjedelige oppgaver som numerisk type og dimensionality kontroll, slik at utbygger fritt til å konsentrere seg om gjennomføringen av læring og gjennomføringsfasen. På grunn av den felles grensesnitt, så integreres noden automatisk med resten av biblioteket og kan brukes i et nettverk sammen med andre noder. En node kan ha flere treningsfaser og enda en ubestemt antall faser. Dette gjør at implementering av algoritmer som trenger å samle inn statistikk over hele inngangs før du fortsetter med selve treningen, og andre som har behov for å iterere over en treningsfase inntil en konvergens kriterium er oppfylt. Evnen til å trene hver fase ved hjelp av biter av inngangsdata opprettholdes hvis de biter er generert med iteratorer. Videre er krasjgjenoppretting tilgjengelig som ekstrautstyr: i tilfelle feil, er den nåværende tilstand av flyt lagret for senere inspeksjon.
MDP har blitt skrevet i sammenheng med teoretisk forskning innen nevrovitenskap, men det har blitt designet for å være nyttig i enhver sammenheng hvor trainable dataprosesseringsalgoritmer brukes. Sin enkelhet på brukersiden sammen med gjenbruksverdien av gjennomførte noder gjør det også et gyldig pedagogisk verktøy
Hva er nytt i denne utgaven.
- Python 3-støtte.
- Nye utvidelser: caching og gradient .
- En forbedret og utvidet opplæringen.
- Flere forbedringer og feilrettinger.
- Denne utgivelsen er under en BSD-lisens.
Hva er nytt i versjon 2.5:
- 2009-06-30: Lagt online påvisning av numerisk backend parallell python støtte, symeig backend og numerisk backend til utgangen av enhet tester. Bør bidra i debugging.
- 2009-06-12. Integrering av cutoff og histogram noder
- 2009-06-12. Fikset bug i parallell (avvikshåndtering)
- 2009-06-09: Fikset bug i LLENode når output_dim er en dupp. Takk til Konrad Hinsen.
- 2009-06-05:. Faste bugs i parallell for flere planleggere
- 2009-06-05. Fikset en bug i lag inverse, takket være Alberto Escalante
- 2009-04-29:. Lagt til en LinearRegressionNode
- 2009-03-31: PCANode klager ikke lenger når kovariansmatrisen har negative egenverdier IFF SvD == Sant eller redusere == sann. Hvis output_dim har blitt spesifisert har en ønsket variasjon, er negative egenverdier ignorert. Forbedret feilmelding for SFANode i tilfelle av negative egenverdier, har vi nå foreslår å foranstille noden med en PCANode (SvD = True) eller PCANode (redusere = True).
- 2009-03-26: Overført fra gamle tråden pakke til den nye threading en. Lagt flagget for å deaktivere caching i prosessen planleggeren. Det er noen brudd endringer for tilpassede planleggere (parallell opplæring eller henrettelse er ikke påvirket).
- 2009-03-25:. Lagt svn revisjonen sporing støtte
- 2009-03-25: Fjernet copy_callable flagget for planleggeren, dette er nå fullstendig erstattet av gaffel den TaskCallable. Dette har ingen effekt for praktisk ParallelFlow grensesnittet, men tilpassede planleggere få ødelagt.
- 2009-03-22. Implementert caching i ProcessScheduler
- 2009-02-22:. Make_parallel nå fungerer helt in-sted å spare minne
- 2009-02-12:. Lagt container metoder til FlowNode
- 2009-03-03:. Lagt CrossCovarianceMatrix med tester
- 2009-02-03:. Lagt IdentityNode
- 2009-01-30:. Lagt til en hjelpefunksjon i hinet å direkte vise en flyt HTML representasjon
- 2009-01-22. Tillat output_dim i lag for å bli satt dovent
- 2008-12-23:. Lagt total_variance til NIPALS node
- 2008-12-23:. Alltid satt explained_variance og total_variance etter trening i PCANode
- 2008-12-12: Endret symrand å virkelig gå tilbake symmetriske matriser (og ikke bare positive klart). Tilpasset GaussianClassifierNode å gjøre rede for det. Tilpasset symrand å returnere også komplekse Hermitisk matriser.
- 2008-12-11: Fast ett problem i PCANode (når output_dim ble satt til input_dim den totale variansen ble behandlet som ukjent). Fast var_part parameter i ParallelPCANode.
- 2008-12-11:. Lagt var_part funksjonen til PCANode (filter i henhold til avviket i forhold til absoute varians)
- 2008-12-04: Fast mangler aksen arg i amaks samtale i opplæringen. Takk til Samuel John!
- 2008-12-04: Fikset tom data iterator håndtering i ParallelFlow. Også lagt tomme iteratorknapper sjekker på vanlig Flow (heve et unntak hvis iterator er tom).
- 2008-11-19: Endret PCA og SFA noder for å se etter negaive egenverdier i COV matriser
- 2008-11-19: symeig integrert i scipy, MDP kan bruke det derfra nå .
- 2008-11-18:. Lagt ParallelFDANode
- 2008-11-18:. Oppdatert toget oppsigelige for ParallelFlow å støtte flere argumenter
- 2008-11-05: Omskriving av make parallell kode, støtter nå hinet strukturer .
- 2008-11-03: Omskriving av hinet HTML repesentation skaperen. Dessverre er dette også bryter den felles grensesnitt, men endringene er ganske enkel.
- 2008-10-29: Steng advarsler fra eksterne prosesser i ProcessScheduler
- 2008-10-27:. Fikset problem med å overskrive kwargs i init metoden for ParallelFlow
- 2008-10-24:. Fikset pretrained noder bug i hinet.FlowNode
- 2008-10-20:. Fikset kritisk import bug parallelt pakken når pp (parallell python bibliotek) er installert
Krav
- Python
- NumPy
- SciPy
Kommentarer ikke funnet