將速鉑下載工具進(jìn)行封裝,以便高效方便地批量下載SRA測(cè)序數(shù)據(jù)。 本腳本試圖將速鉑進(jìn)行封裝,實(shí)現(xiàn)只需提供SRA的ID號(hào),即可完成序列下載和轉(zhuǎn)換。 參考文章:SRA、SAM以及Fastq文件高速下載方法。 更新信息
程序安裝與環(huán)境部署獲取程序輸入下面的命令:
若一切安裝就緒,則會(huì)顯示幫助信息。若部分組件未部署好,則程序會(huì)有提示。 依賴的perl modules安裝需要安裝Parallel::ForkManager和Parallel::Simple兩個(gè)perl module,以實(shí)現(xiàn)多個(gè)SRA并行下載。命令如下:
或者通過(guò)cpanm安裝(cpanm使用方法看這里):
安裝 aspera connect官網(wǎng)下載最新版:http://downloads./en/downloads/8?list 。 或者,點(diǎn)這里通過(guò)百度云盤(pán)下載aspera-connect-3.7.4.147727-linux-64.tar.gz。 下載完成后部署aspera connect,下面的命令不要使用ROOT賬戶運(yùn)行:
運(yùn)行結(jié)束,在home文件夾的 ~/.aspera/connect 中可發(fā)現(xiàn)部署的工具: 安裝 NCBI fastq-dump從NCBI的ftp上下載最新的sratoolkit,或者通過(guò)百度云盤(pán)下載sratoolkit.2.9.0-ubuntu64.tar.gz。安裝方式按照下面的命令進(jìn)行:
使用示例直接下載Reads
直接將SRR7166333的fastq的序列下載在當(dāng)前目錄。RR71663331.fastq.gz和SRR71663332.fastq.gz兩個(gè)文件。還有一個(gè)md5文件。下載結(jié)束,請(qǐng)使用下面的命令校驗(yàn)一下文件:
多個(gè)數(shù)據(jù)下載到指定文件夾中SraAccList.txt中,兩個(gè)ID都是大腸桿菌的測(cè)序數(shù)據(jù)。其中SRR7167489是雙端數(shù)據(jù),ERR2002452是單端數(shù)據(jù)。
通過(guò)上面的命令,直接將同時(shí)下載在./data的文件夾當(dāng)中。-p參數(shù)表示同時(shí)下載多少個(gè)ID的數(shù)據(jù)。 每個(gè)ID都有對(duì)應(yīng)的fastq.gz文件。還有一個(gè)md5文件,下載結(jié)束務(wù)必校驗(yàn)一下文件完整性。
SRA數(shù)據(jù)一鍵下載從SRA下載數(shù)據(jù),需要首先下載.sra格式的文件,然后再通過(guò)pfastq-dump(并行封裝的fastq-dump)將.sra文件轉(zhuǎn)換為fastq文件。由于不能直接拿到fastq原始數(shù)據(jù),還要經(jīng)過(guò)二次轉(zhuǎn)換,這就是我為何在這個(gè)版本中將默認(rèn)的SRA下載源修改成了ENA。
直接將SRR7166333的fastq的序列下載在當(dāng)前目錄。產(chǎn)生SRR7166333.sra、SRR71663331.fastq.gz和SRR71663332.fastq.gz三個(gè)文件。 SRA數(shù)據(jù)源沒(méi)有給md5,因?yàn)橹挥型暾腟RA文件才能夠成功釋放出fastq。 從SRA數(shù)據(jù)源下數(shù)據(jù),可額外設(shè)定每個(gè)SRA轉(zhuǎn)換fastq的線程數(shù),通過(guò) -t參數(shù)指定。
SRA下載單端測(cè)序數(shù)據(jù)目前的版本中,從NCBI SRA源下數(shù)據(jù)的時(shí)候,單端數(shù)據(jù)跟雙端數(shù)據(jù)必須分放在不同表格中下載,不能同時(shí)下 針對(duì)SRA數(shù)據(jù)源,添加單端single end數(shù)據(jù),需添加-single告訴程序這是單端數(shù)據(jù)——否則下載完SRA轉(zhuǎn)換fastq的時(shí)候會(huì)出錯(cuò)。(在將來(lái)的版本更新中,希望將這個(gè)參數(shù)取消,即讓程序自動(dòng)識(shí)別單端與雙端)。 單端數(shù)據(jù)下載實(shí)例見(jiàn):ERR2002452(SRA,ENA)。
|
|
|