小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

TCGA數(shù)據(jù)庫下載:多種方法及優(yōu)缺點介紹

 健明 2021-07-14

早就告訴圈內(nèi)好友,我把自己的28篇TCGA教程的部分知識點錄制成為了視頻,雖然播放量很少,但是看過的朋友都說收獲很大,而且還有專門的筆記系統(tǒng)性介紹自己學(xué)習的收獲,今天我們就分享其中一位優(yōu)秀學(xué)員的筆記:

數(shù)據(jù)挖掘必看視頻,實際上我發(fā)現(xiàn)很多人從我這里學(xué)習到知識點后刻意抹去我的存在,進行所謂的二次創(chuàng)作!
也刻意不轉(zhuǎn)發(fā)給身邊有需要的朋友,我不是很能理解它們的意圖!

在TCGA數(shù)據(jù)庫下載文件有很多種方法:

一.利用R語言下載

(本文重點介紹這個)

R語言有很多不同的包可以用于下載TCGA文件(意思就是不同的代碼實現(xiàn)下載TCGA數(shù)據(jù)的同一目的)

方法1:TCGAbiolinks包

(首推這個方法!!目前沒發(fā)現(xiàn)明顯缺點) TCGA數(shù)據(jù)下載—TCGAbiolinks包參數(shù)詳解TCGA數(shù)據(jù)下載—TCGAbiolinks包參數(shù)詳解

library(TCGAbiolinks)#加載包
query <- GDCquery(project = "TCGA-DLBC"#選定要下載的腫瘤類型
                     data.category = "Transcriptome Profiling",#選定要下載的數(shù)據(jù)范疇
                     data.type = "Gene Expression Quantification",#選定要下載的數(shù)據(jù)類型
                     workflow.type = "HTSeq - Counts"#選定要下載RNAseq的-COUNT文件
)#這個過程和官網(wǎng)的篩選是差不多的,和下圖的篩選是實現(xiàn)的同樣的目的image
GDCdownload(query, method = "api", files.per.chunk = 100)
expdat <- GDCprepare(query = query)
library(SummarizedExperiment)
count_matrix=assay(expdat)
write.csv(count_matrix,file = paste("TCGA-DLBC","Counts.csv",sep = "-"))
#下載,并把文件保存


方法2:RTCGAT包

source("https:///biocLite.R")
biocLite("RTCGA")
# Install the clinical and mRNA gene expression data packages
biocLite("RTCGA.clinical"## 14Mb
biocLite('RTCGA.rnaseq'##  (612.6 MB)
biocLite("RTCGA.mRNA"##  (85.0 MB)
biocLite('RTCGA.mutations')  ## (103.8 MB)
##加載包,這些包里面存的是相應(yīng)的數(shù)據(jù)
library(RTCGA)
all_TCGA_cancers=infoTCGA()
library(RTCGA.clinical) 
library(RTCGA.mRNA)

## 從下載的數(shù)據(jù)包中提取我們需要的文件,需要選擇癌癥種類,還有數(shù)據(jù)的種類等,基因種類等
library(RTCGA)
library(RTCGA.mRNA)
expr <- expressionsTCGA(BRCA.mRNA, OV.mRNA, LUSC.mRNA,
                        extract.cols = c("GATA3""PTEN""XBP1","ESR1""MUC1"))

缺點:它是先下載所有已經(jīng)存儲的數(shù)據(jù),然后從里面挑選你要的,缺點一是下載所有數(shù)據(jù)是因為文件太大會很慢,缺點二是數(shù)據(jù)并非最新的,上面代碼為2015-11-01 版本的 TCGA 數(shù)據(jù)

方法3:RTCGAToolbox包

#source("https:///biocLite.R")
#biocLite("RTCGAToolbox")
#加載包
library(RTCGAToolbox)
#哪些癌癥數(shù)據(jù)可以下載
getFirehoseDatasets()
#數(shù)據(jù)庫中更新時間
getFirehoseRunningDates()
getFirehoseAnalyzeDates()
## 下載數(shù)據(jù),需要選擇癌癥種類,數(shù)據(jù)分析時間,還有數(shù)據(jù)的種類
brcaData = getFirehoseData (dataset="BRCA", runDate="20160128",
                            forceDownload = TRUE,
                            clinical=TRUE, Mutation=TRUE)
save(brcaData,file='brcaData.RTCGAToolbox.Rdata')
load(file='brcaData.RTCGAToolbox.Rdata')
brcaData

缺點:有時候過大的文件下載不下來,我應(yīng)用時就出現(xiàn)了要求下載RNAseq時它無法下載,下下來的是臨床數(shù)據(jù),不明白原因,如果有大佬看到麻煩解答一下

二.一起下載所有的TCGA文件

(小白首推方法!?。?/h3>

方法一:

這是生信技能樹健明老師的已經(jīng)下載好的TCGA數(shù)據(jù)庫網(wǎng)盤鏈接,可以直接在里面選擇下載,超級福利,超方便?。。篽ttps://share./56URQ3a



方法二:UCSC xena瀏覽器

已經(jīng)給你把TCGA數(shù)據(jù)分類好了,直接點相應(yīng)的癌癥類型,相應(yīng)數(shù)據(jù)下載

https:///datapages/


優(yōu)點:簡單方便
缺點:如果網(wǎng)速慢,你往往面臨網(wǎng)頁打不開,下載慢等問題

三.在其TCGA網(wǎng)頁上直接下載

輸入選擇條件,點擊加入購物車,然后一起下載。

優(yōu)點:簡介方便,有點類似淘寶購物
缺點:此方法一般用于少量樣本的下載,因為不能下載過大的數(shù)據(jù),而且點那么多次購物車也很累??!

四.通過TCGA官方網(wǎng)站提供的GDC下載工具下載

安裝一個軟件,然后運行后臺下載

優(yōu)點:下載的是實時的最新文件
缺點:步驟比較多,需要更改的方面比較多,電腦小白可能比較難以操作,且中文的系統(tǒng)無法用

五.網(wǎng)頁工具下載

方法一:

如果想要數(shù)據(jù)復(fù)現(xiàn)的話推薦:cBioPortal網(wǎng)頁工具,內(nèi)部的數(shù)據(jù)是根據(jù)TCGA發(fā)表的paper分類的


方法二:



最后
感謝jimmy的生信技能樹團隊!
感謝導(dǎo)師岑洪老師!
感謝郭寶平師兄的指點!
感謝健明、孫小潔,慧美等生信技能樹團隊的老師一路以來的指導(dǎo)和鼓勵!

    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多