小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

ASCPsra: 讓你的SRA下載飛起來(lái)

 yjt2004us 2019-12-11

默認(rèn)從ena上直接拉取fq,而且支持多線程批量下載、斷點(diǎn)續(xù)傳、文件md5校驗(yàn)和重新下載

將速鉑下載工具進(jìn)行封裝,以便高效方便地批量下載SRA測(cè)序數(shù)據(jù)。

本腳本試圖將速鉑進(jìn)行封裝,實(shí)現(xiàn)只需提供SRA的ID號(hào),即可完成序列下載和轉(zhuǎn)換。

參考文章:SRA、SAM以及Fastq文件高速下載方法

更新信息

  • 默認(rèn)下載源更新為ENA

  • ENA下載fastq文件實(shí)現(xiàn)了自動(dòng)的md5校驗(yàn),且通過(guò)md5校驗(yàn)信息,自動(dòng)識(shí)別ID對(duì)應(yīng)的測(cè)序文件是單端還是雙端

程序安裝與環(huán)境部署

獲取程序

輸入下面的命令:

  1. git clone https://gitee.com/wangshun1121/ASCPsra.git

  2. perl ./ASCPsra.pl -h

若一切安裝就緒,則會(huì)顯示幫助信息。若部分組件未部署好,則程序會(huì)有提示。

依賴的perl modules安裝

需要安裝Parallel::ForkManagerParallel::Simple兩個(gè)perl module,以實(shí)現(xiàn)多個(gè)SRA并行下載。命令如下:

  1. sudo cpan install Parallel::ForkManager

  2. sudo cpan install Parallel::Simple

或者通過(guò)cpanm安裝(cpanm使用方法看這里):

  1. sudo cpanm --mirror http://mirrors.163.com/cpan Parallel::ForkManager

  2. sudo cpanm --mirror http://mirrors.163.com/cpan Parallel::Simple

安裝 aspera connect

官網(wǎng)下載最新版:http://downloads./en/downloads/8?list 。

或者,點(diǎn)這里通過(guò)百度云盤(pán)下載aspera-connect-3.7.4.147727-linux-64.tar.gz。

下載完成后部署aspera connect,下面的命令不要使用ROOT賬戶運(yùn)行:

  1. wget http://download./download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz

  2. tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz

  3. bash aspera-connect-3.7.4.147727-linux-64.sh

  4. # 查看是否有.aspera文件夾

  5. cd # 去根目錄

  6. ls -a # 如果看到.aspera文件夾,代表安裝成功

運(yùn)行結(jié)束,在home文件夾的 ~/.aspera/connect 中可發(fā)現(xiàn)部署的工具:

安裝 NCBI fastq-dump

從NCBI的ftp上下載最新的sratoolkit,或者通過(guò)百度云盤(pán)下載sratoolkit.2.9.0-ubuntu64.tar.gz。安裝方式按照下面的命令進(jìn)行:

  1. wget https://ftp-private.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz

  2. tar zxvf sratoolkit.current-ubuntu64.tar.gz

  3. # 永久添加環(huán)境變量

  4. echo 'export PATH=/path/to/sratoolkit.current-ubuntu64/bin:$PATH' >> ~/.bashrc

  5. source ~/.bashrc

  6. # 檢查程序是否可用

  7. fastq-dump -h

使用示例

直接下載Reads

  1. perl ASCPsra.pl -i SRR7166333

直接將SRR7166333的fastq的序列下載在當(dāng)前目錄。RR71663331.fastq.gz和SRR71663332.fastq.gz兩個(gè)文件。還有一個(gè)md5文件。下載結(jié)束,請(qǐng)使用下面的命令校驗(yàn)一下文件:

  1. md5sum -c md5

多個(gè)數(shù)據(jù)下載到指定文件夾中

SraAccList.txt中,兩個(gè)ID都是大腸桿菌的測(cè)序數(shù)據(jù)。其中SRR7167489是雙端數(shù)據(jù),ERR2002452是單端數(shù)據(jù)。

  1. perl ASCPsra.pl -l SraAccList.txt -o ./data -p 2

通過(guò)上面的命令,直接將同時(shí)下載在./data的文件夾當(dāng)中。-p參數(shù)表示同時(shí)下載多少個(gè)ID的數(shù)據(jù)。

每個(gè)ID都有對(duì)應(yīng)的fastq.gz文件。還有一個(gè)md5文件,下載結(jié)束務(wù)必校驗(yàn)一下文件完整性。

  • 文件下載結(jié)束,可將下載命令重新運(yùn)行一遍,程序會(huì)自動(dòng)檢查文件完整性,正確下載的文件會(huì)自動(dòng)跳過(guò),未正確下載的文件會(huì)繼續(xù)下載。

  • 這個(gè)福利僅限于ENA來(lái)源的數(shù)據(jù)。

SRA數(shù)據(jù)一鍵下載

從SRA下載數(shù)據(jù),需要首先下載.sra格式的文件,然后再通過(guò)pfastq-dump(并行封裝的fastq-dump)將.sra文件轉(zhuǎn)換為fastq文件。由于不能直接拿到fastq原始數(shù)據(jù),還要經(jīng)過(guò)二次轉(zhuǎn)換,這就是我為何在這個(gè)版本中將默認(rèn)的SRA下載源修改成了ENA。

  1. perl ASCPsra.pl -s SRA -i SRR7166333

直接將SRR7166333的fastq的序列下載在當(dāng)前目錄。產(chǎn)生SRR7166333.sra、SRR71663331.fastq.gz和SRR71663332.fastq.gz三個(gè)文件。

SRA數(shù)據(jù)源沒(méi)有給md5,因?yàn)橹挥型暾腟RA文件才能夠成功釋放出fastq。

從SRA數(shù)據(jù)源下數(shù)據(jù),可額外設(shè)定每個(gè)SRA轉(zhuǎn)換fastq的線程數(shù),通過(guò) -t參數(shù)指定。

  1. perl ASCPsra.pl -l SRAacc.list -s SRA -p 4 -t 6

SRA下載單端測(cè)序數(shù)據(jù)

目前的版本中,從NCBI SRA源下數(shù)據(jù)的時(shí)候,單端數(shù)據(jù)跟雙端數(shù)據(jù)必須分放在不同表格中下載,不能同時(shí)下

針對(duì)SRA數(shù)據(jù)源,添加單端single end數(shù)據(jù),需添加-single告訴程序這是單端數(shù)據(jù)——否則下載完SRA轉(zhuǎn)換fastq的時(shí)候會(huì)出錯(cuò)。(在將來(lái)的版本更新中,希望將這個(gè)參數(shù)取消,即讓程序自動(dòng)識(shí)別單端與雙端)。

單端數(shù)據(jù)下載實(shí)例見(jiàn):ERR2002452(SRA,ENA)。

  1. perl ASCPsra.pl -i ERR2002452 -s SRA -single

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多