|
文章來源于:sci666 TCGA數(shù)據(jù)庫目前是科研中最常用的數(shù)據(jù)庫之一,其中儲存著多種疾病的各組學(xué)的數(shù)據(jù),借助該數(shù)據(jù)庫,幫助了很多研究生們發(fā)表了自己的文章,達(dá)到了畢業(yè)條件。但是,如果你是剛?cè)腴T的新手,不用擔(dān)心,跟著我們的系列推文,完成TCGA數(shù)據(jù)庫的認(rèn)識與下載,開啟TCGA數(shù)據(jù)庫的大門。今天我們就來學(xué)習(xí)一下TCGA數(shù)據(jù)庫中癌癥的RNAseq數(shù)據(jù)下載。 1.TCGA數(shù)據(jù)庫簡介 TCGA數(shù)據(jù)庫全稱為The Cancer Genome Atlas,如名所示,它主要儲存關(guān)于各類腫瘤的一個基本信息,包括RNAseq,miRNAseq,DNA甲基化,CNV,SNP等信息,它是目前為止我們可以獲得的公開數(shù)據(jù)庫里面數(shù)據(jù)相對全面的一個,在各個領(lǐng)域得到了廣泛的應(yīng)用,為腫瘤基礎(chǔ)醫(yī)學(xué)和轉(zhuǎn)化醫(yī)學(xué)研究者提供了海量的基因組數(shù)據(jù)和與其關(guān)聯(lián)的臨床數(shù)據(jù),這為挖掘有意義的基因組變化和發(fā)現(xiàn)影響腫瘤起始、發(fā)展、分化、轉(zhuǎn)移等生物學(xué)機(jī)制提供了海量數(shù)據(jù)基礎(chǔ)。 2.TCGA網(wǎng)址 https://portal.gdc./ 首頁模樣如下: ![]() 3. 點(diǎn)擊 Repository,進(jìn)入數(shù)據(jù)存儲地,就會出現(xiàn)下面這個界面 ![]() 4. 點(diǎn)擊 Case,選擇疾病類型,就會出現(xiàn)下面這個界面,用于挑選各類癌癥,比如我們選擇喉癌(Larynx),在其前面打鉤即可。 ![]() ![]() 5.接著點(diǎn)擊 File,選擇文件類型,就會出現(xiàn)下面這個界面,用于選擇需要下載文件的數(shù)據(jù)類型,因?yàn)槲覀冃枰螺d的是RNAseq的數(shù)據(jù),所以需要在Transcriptome Profiling,在其前面打鉤即可。 ![]() 6.在Data Type選擇Gene Expression Quantification,在Experimental Strategy上由于只有一個選項(xiàng),所以我們不用選擇也可以,主要看到有三種類型,分別是counts,F(xiàn)PKM和FPKM-UQ,分別表示counts數(shù)和兩種歸一化后的值,一般推薦下載counts數(shù)據(jù)。 ![]() 7. 點(diǎn)擊counts之后,我們可以看到每一步操作都會記錄在里面,如下,也可以看到數(shù)據(jù)大小是31兆。 ![]() 8. 點(diǎn)擊Add All Files to Cart,然后就會看到箭頭所指的地方,變?yōu)橄鄳?yīng)的樣本數(shù),接著點(diǎn)擊cart,如下: ![]() ![]() 9. 點(diǎn)擊download,下載cart即可 ![]() 這樣你就完成了第一步基于網(wǎng)頁版tcga數(shù)據(jù)的下載。 10.下載的數(shù)據(jù)模樣 ![]() 下載的結(jié)果是一個壓縮包,我們解壓之后就會發(fā)現(xiàn),每個文件存儲的為一個樣本。 ![]() OK,今天的數(shù)據(jù)下載先講到這,下期再見。 關(guān)注公眾號,后臺回復(fù)“生信資源”,獲取200G生信資源包 |
|
|