|
早就告訴圈內(nèi)好友,我把自己的28篇TCGA教程的部分知識點錄制成為了視頻,雖然播放量很少,但是看過的朋友都說收獲很大,而且還有專門的筆記系統(tǒng)性介紹自己學(xué)習的收獲,今天我們就分享其中一位優(yōu)秀學(xué)員的筆記:
 數(shù)據(jù)挖掘必看視頻,實際上我發(fā)現(xiàn)很多人從我這里學(xué)習到知識點后刻意抹去我的存在,進行所謂的二次創(chuàng)作!也刻意不轉(zhuǎn)發(fā)給身邊有需要的朋友,我不是很能理解它們的意圖!在TCGA數(shù)據(jù)庫下載文件有很多種方法:
一.利用R語言下載(本文重點介紹這個)R語言有很多不同的包可以用于下載TCGA文件(意思就是不同的代碼實現(xiàn)下載TCGA數(shù)據(jù)的同一目的)
方法1:TCGAbiolinks包library(TCGAbiolinks)#加載包 query <- GDCquery(project = "TCGA-DLBC", #選定要下載的腫瘤類型 data.category = "Transcriptome Profiling",#選定要下載的數(shù)據(jù)范疇 data.type = "Gene Expression Quantification",#選定要下載的數(shù)據(jù)類型 workflow.type = "HTSeq - Counts"#選定要下載RNAseq的-COUNT文件 )#這個過程和官網(wǎng)的篩選是差不多的,和下圖的篩選是實現(xiàn)的同樣的目的imageGDCdownload(query, method = "api", files.per.chunk = 100) expdat <- GDCprepare(query = query) library(SummarizedExperiment) count_matrix=assay(expdat) write.csv(count_matrix,file = paste("TCGA-DLBC","Counts.csv",sep = "-")) #下載,并把文件保存
 
方法2:RTCGAT包source("https:///biocLite.R") biocLite("RTCGA") # Install the clinical and mRNA gene expression data packages biocLite("RTCGA.clinical") ## 14Mb biocLite('RTCGA.rnaseq') ## (612.6 MB) biocLite("RTCGA.mRNA") ## (85.0 MB) biocLite('RTCGA.mutations') ## (103.8 MB) ##加載包,這些包里面存的是相應(yīng)的數(shù)據(jù) library(RTCGA) all_TCGA_cancers=infoTCGA() library(RTCGA.clinical) library(RTCGA.mRNA)
## 從下載的數(shù)據(jù)包中提取我們需要的文件,需要選擇癌癥種類,還有數(shù)據(jù)的種類等,基因種類等 library(RTCGA) library(RTCGA.mRNA) expr <- expressionsTCGA(BRCA.mRNA, OV.mRNA, LUSC.mRNA, extract.cols = c("GATA3", "PTEN", "XBP1","ESR1", "MUC1"))
缺點:它是先下載所有已經(jīng)存儲的數(shù)據(jù),然后從里面挑選你要的,缺點一是下載所有數(shù)據(jù)是因為文件太大會很慢,缺點二是數(shù)據(jù)并非最新的,上面代碼為2015-11-01 版本的 TCGA 數(shù)據(jù) 方法3:RTCGAToolbox包#source("https:///biocLite.R") #biocLite("RTCGAToolbox") #加載包 library(RTCGAToolbox) #哪些癌癥數(shù)據(jù)可以下載 getFirehoseDatasets() #數(shù)據(jù)庫中更新時間 getFirehoseRunningDates() getFirehoseAnalyzeDates() ## 下載數(shù)據(jù),需要選擇癌癥種類,數(shù)據(jù)分析時間,還有數(shù)據(jù)的種類 brcaData = getFirehoseData (dataset="BRCA", runDate="20160128", forceDownload = TRUE, clinical=TRUE, Mutation=TRUE) save(brcaData,file='brcaData.RTCGAToolbox.Rdata') load(file='brcaData.RTCGAToolbox.Rdata') brcaData
缺點:有時候過大的文件下載不下來,我應(yīng)用時就出現(xiàn)了要求下載RNAseq時它無法下載,下下來的是臨床數(shù)據(jù),不明白原因,如果有大佬看到麻煩解答一下 二.一起下載所有的TCGA文件(小白首推方法!?。?/h3>方法一:
這是生信技能樹健明老師的已經(jīng)下載好的TCGA數(shù)據(jù)庫網(wǎng)盤鏈接,可以直接在里面選擇下載,超級福利,超方便?。。篽ttps://share./56URQ3a 

方法二:UCSC xena瀏覽器已經(jīng)給你把TCGA數(shù)據(jù)分類好了,直接點相應(yīng)的癌癥類型,相應(yīng)數(shù)據(jù)下載https:///datapages/ 
優(yōu)點:簡單方便 缺點:如果網(wǎng)速慢,你往往面臨網(wǎng)頁打不開,下載慢等問題 三.在其TCGA網(wǎng)頁上直接下載輸入選擇條件,點擊加入購物車,然后一起下載。優(yōu)點:簡介方便,有點類似淘寶購物 缺點:此方法一般用于少量樣本的下載,因為不能下載過大的數(shù)據(jù),而且點那么多次購物車也很累??! 四.通過TCGA官方網(wǎng)站提供的GDC下載工具下載安裝一個軟件,然后運行后臺下載優(yōu)點:下載的是實時的最新文件 缺點:步驟比較多,需要更改的方面比較多,電腦小白可能比較難以操作,且中文的系統(tǒng)無法用 五.網(wǎng)頁工具下載方法一:如果想要數(shù)據(jù)復(fù)現(xiàn)的話推薦:cBioPortal網(wǎng)頁工具,內(nèi)部的數(shù)據(jù)是根據(jù)TCGA發(fā)表的paper分類的
方法二:
最后 感謝jimmy的生信技能樹團隊! 感謝導(dǎo)師岑洪老師! 感謝郭寶平師兄的指點! 感謝健明、孫小潔,慧美等生信技能樹團隊的老師一路以來的指導(dǎo)和鼓勵!
|