reciprocal_smallest_distance

Skjermbilde programvare:
reciprocal_smallest_distance
Prog.varedetaljer:
Versjon: 1.1.5
Last opp dato: 20 Feb 15
Lisens: Gratis
Popularitet: 10

Rating: nan/5 (Total Votes: 0)

reciprocal_smallest_distance er en parvis orthology algoritme som bruker global sekvens justering og maximum likelihood evolusjonær avstand mellom sekvenser til nøyaktig oppdager ortologer mellom genomer.
Installere Fra en tarball
Last ned og pakk den nyeste versjonen fra github:
cd ~
curl -L https://github.com/downloads/todddeluca/reciprocal_smallest_distance/reciprocal_smallest_distance-VERSION.tar.gz | Tar xvz
Installere reciprocal_smallest_distance, og pass på å bruke Python 2.7:
cd reciprocal_smallest_distance-VERSJON
python setup.py installere
Ved hjelp av RSD å finne Othologs
Følgende eksempel kommandoer demonstrere de viktigste måtene å kjøre rsd_search. Hver påkallelse av rsd_search krever angi plasseringen av en FASTA-formatert sekvens fil for to genomer, kalt spørringen og emne genomer. Deres rekkefølge er vilkårlig, men hvis du bruker den --ids alternativet, må IDer komme fra spørringen genom. Du må også oppgi en fil for å skrive resultatene av ortologer funnet av den RSD algoritmen. Formatet på utdatafilen inneholder ett ortolog per linje. Hver linje inneholder spørringen sekvens id, lagt sekvens id, og avstand (beregnet ved codeml) mellom sekvensene. Du kan eventuelt angi en fil som inneholder ids bruker --ids alternativet. Deretter rsd vil bare søke etter ortologer for de IDer. Ved hjelp --divergence og --evalue, har du muligheten til å bruke forskjellige terskler fra standardene.
Få hjelp på hvordan du kjører rsd_search, rsd_blast, eller rsd_format:
rsd_search -h
rsd_blast -h
rsd_format -h
Finn ortologer mellom alle sekvensene i spørre og emne genomer, ved bruk av standard divergens og Evalue terskler
rsd_search -q eksempler / genomer / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genom = eksempler / genomer / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
Finn ortologer ved hjelp av flere ikke-standard divergens og Evalue terskler
rsd_search -q eksempler / genomer / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genom = eksempler / genomer / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.several.orthologs.txt
--de 0,2 1e-20 --de 0,5 0,00001 --de 0.8 0.1
Det er ikke nødvendig å formatere en FASTA fil for BLAST eller beregne BLAST treffer fordi rsd_search gjør det for deg.
Men hvis du har planer om å kjøre rsd_search flere ganger for de samme genomer, spesielt for store genomer, kan du spare tid ved å bruke rsd_format å preformatting de fasta filer og rsd_blast til precomputing BLAST-treff. Når du kjører rsd_blast, sørg for å bruke en --evalue så stor som den største Evalue terskelen du har tenkt å gi til rsd_search.
Her er hvordan du formaterer et par fasta filer på plass:
rsd_format -g eksempler / genomer / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
rsd_format -g eksempler / genomer / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
Og her er hvordan å formatere fasta filer, sette resultatene i en annen katalog (gjeldende mappe i dette tilfellet)
rsd_format -g eksempler / genomer / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa -d.
rsd_format -g eksempler / genomer / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa -d.
Her er hvordan du skal beregne forover og bakover blast treff (bruker standard Evalue):
rsd_blast -v -q eksempler / genomer / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genom = eksempler / genomer / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
--forward-treff q_s.hits --reverse-treff s_q.hits
Her er hvordan du skal beregne fremover og revers blast treff for rsd_search, ved hjelp av genomer som allerede er formatert for blast og en ikke-standard Evalue
rsd_blast -v -q Mycoplasma_genitalium.aa
--subject-genom = Mycobacterium_leprae.aa
--forward-treff q_s.hits --reverse-treff s_q.hits
no-format --evalue 0.1
Finn ortologer mellom alle sekvensene i spørringen og emne genomer bruker genomer som allerede er formatert for blast
rsd_search -q Mycoplasma_genitalium.aa
--subject-genom = Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
no-format
Finn ortologer mellom alle sekvensene i spørringen og emne genomer bruker treff som allerede har blitt beregnet. Legg merke til at no-format er inkludert, fordi siden sprengings treff er allerede beregnet genomene ikke trenger å være formatert for blast.
rsd_search -v --query-genom Mycoplasma_genitalium.aa
--subject-genom = Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.default.orthologs.txt
--forward-treff q_s.hits --reverse-treff s_q.hits no-format
Finn ortologer for bestemte sekvenser i søket genom. For å finne ortologer for bare noen få sekvenser, ved hjelp av no-blast-cache kan fremskynde beregning. YMMV.
rsd_search -q eksempler / genomer / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genom = eksempler / genomer / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o eksempler / Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
--ids eksempler / Mycoplasma_genitalium.aa.ids.txt --no-blast-cache
Output formater
Ortologer kan lagres i flere forskjellige formater ved hjelp av --outfmt muligheten rsd_search. Standardformatet, --outfmt -1, refererer til --outfmt 3. Inspirert av Uniprot dat filer, et sett med ortologer starter med en parametere linje, så har 0 eller flere ortolog linjer, så har en endelinjen. De parametes er spørringen genomet navn, emne genom navn, divergens terskel, og Evalue terskel. Hver ortolog er på én linje notering spørringen sekvens id, emnet sekvens id, og den maksimale sannsynligheten avstand estimat. Dette formatet kan representere ortologer for flere sett med parametere i en enkelt fil, samt sett med parametere uten ortologer. Derfor er det egnet for bruk med rsd_search når du spesifiserer flere divergens og Evalue terskler.
Her er et eksempel som inneholder to parameterkombinasjoner, hvorav den ene har ingen ortologer:
PA tLACJO tYEAS7 t0.2 t1e-15
ELLER tQ74IU0 tA6ZM40 t1.7016
ELLER tQ74K17 tA6ZKK5 t0.8215
//
PA tMYCGE tMYCHP t0.2 t1e-15
//
Den opprinnelige formatet RSD, --outfmt en, er gitt for bakoverkompatibilitet. Hver linje inneholder en ortolog, representert som emne sekvens id, spørring sekvens id, og maximum likelihood avstand estimat. Det kan bare representere et enkelt sett med ortologer i en fil.
Eksempel:
A6ZM40 tQ74IU0 t1.7016
A6ZKK5 tQ74K17 t0.8215
Også gitt for bakoverkompatibilitet er et format som brukes internt av Roundup (http://roundup.hms.harvard.edu/) som er som den opprinnelige RSD format, bortsett fra spørringen sekvens id kolonnen før faget sekvens id.
Eksempel:
Q74IU0 tA6ZM40 t1.7016
Q74K17 tA6ZKK5 t0.8215

Krav :

  • Python
  • NCBI BLAST 2.2.24
  • PAML 4.4
  • Kalign 2.04

Lignende programvare

snakemake
snakemake

20 Feb 15

goby
goby

14 Apr 15

Murka
Murka

14 Apr 15

bein
bein

12 May 15

Kommentarer til reciprocal_smallest_distance

Kommentarer ikke funnet
Legg til kommentar
Slå på bilder!