|
Affymetrix表達(dá)譜芯片(以下簡(jiǎn)稱Affy)是小編最早接觸到的基因表達(dá)數(shù)據(jù)產(chǎn)出平臺(tái),以簡(jiǎn)單、成熟、便宜等特點(diǎn),與二代測(cè)序平臺(tái)形成鮮明對(duì)比,我們今天以GEO數(shù)據(jù)庫(kù)上的GSE15459數(shù)據(jù)為例,講解該芯片數(shù)據(jù)的預(yù)處理過(guò)程(從原始CEL文件到基因水平表達(dá)數(shù)據(jù))! ### GSE15459于2009年發(fā)布,收錄了使用Affy芯片平臺(tái)檢測(cè)的200個(gè)胃癌患者的基因表達(dá)數(shù)據(jù),如下: https://www.ncbi.nlm./geo/query/acc.cgi?acc=GSE15459 ### 提供兩種數(shù)據(jù)(原始數(shù)據(jù)和預(yù)處理后的數(shù)據(jù))的下載: 數(shù)據(jù)預(yù)處理要從原始數(shù)據(jù)(CEL格式)開(kāi)始,即GSE15459_RAW.tar文件: ### 既然提供了處理好的數(shù)據(jù),為什么還要自己做預(yù)處理? 1、有時(shí)候數(shù)據(jù)集并未詳細(xì)描述數(shù)據(jù)預(yù)處理過(guò)程,即你不知道他怎么得到的,不敢用; 2、數(shù)據(jù)預(yù)處理方法并非更受歡迎或者自己熟悉的方法,如下MAS方法雖然常用,但是也并不能直接用于后續(xù)分析: 3、處理好的文件,如本數(shù)據(jù)集的GSE15459_series_matrix.txt,用excel打開(kāi),格式如下: 可見(jiàn),在正式的表達(dá)矩陣(紅框選中)之前有大段的可以理解為注釋的數(shù)據(jù),所以在使用該文件分析時(shí)要考慮進(jìn)去! 4、也是最重要的一點(diǎn):自己處理有成就感! ### 對(duì)于GEO數(shù)據(jù)集的講解和數(shù)據(jù)下載,詳見(jiàn)歷史文章 數(shù)據(jù)挖掘?qū)n} | GEO芯片探針注釋 數(shù)據(jù)挖掘?qū)n} | GEO數(shù)據(jù)下載 數(shù)據(jù)挖掘?qū)n} | mac下極速下載GEO數(shù)據(jù) ### 將下載好的原始數(shù)據(jù)GSE15459_RAW.tar文件解壓縮,可見(jiàn)每個(gè)樣本一個(gè).gz壓縮文件: 文件不大,不到5M,與動(dòng)輒幾百兆,上G的測(cè)序數(shù)據(jù)相比... 注意不需要解壓縮,另外,其中有8個(gè)樣本被排除分析: 我們?cè)谶M(jìn)行預(yù)處理前也把這8個(gè)樣本刪除掉,即最終剩余192個(gè)樣本! Affy芯片成熟不僅僅在于官方提供了一系列的分析軟件,而且很多R包可以進(jìn)行Affy數(shù)據(jù)的處理分析,而其中最基礎(chǔ)的就是affy包: https:///packages/release/bioc/html/affy.html ### 安裝及加載 # try http:// if https:// URLs are not supported source('https:///biocLite.R') biocLite('affy') library(affy) ### 讀取CEL數(shù)據(jù) 重點(diǎn)就是ReadAffy函數(shù): 可見(jiàn)統(tǒng)計(jì)信息-探針數(shù):54675;樣本數(shù):192;注釋包:hgu133plus2.db 可以通過(guò)gsub函數(shù)將樣本名后的.CEL.gz去除掉 ### RMA標(biāo)準(zhǔn)化并提取探針?biāo)奖磉_(dá) RMA是對(duì)于Affy基因表達(dá)譜芯片最常用的標(biāo)準(zhǔn)化方法,包含背景矯正、標(biāo)準(zhǔn)化、log轉(zhuǎn)化等過(guò)程: ### 探針-基因?qū)?yīng)關(guān)系 對(duì)于該數(shù)據(jù)集,要用到的注釋R包是hgu133plus2.db:
可見(jiàn),第一列為探針I(yè)D,第二列為Gene Symbol,通過(guò)該對(duì)應(yīng)關(guān)系即可得基因水平表達(dá)數(shù)據(jù),步驟如下: 1、刪除對(duì)應(yīng)多個(gè)基因的探針:
2、去除無(wú)對(duì)應(yīng)基因的探針:
3、對(duì)應(yīng)同一基因的多個(gè)探針,取均值作為基因水平表達(dá)值:
4、補(bǔ)缺失【可選】:
|
|
|