小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

數(shù)據(jù)挖掘?qū)n} | Affymetrix表達(dá)譜芯片數(shù)據(jù)預(yù)處理

 yjt2004us 2018-06-12

Affymetrix表達(dá)譜芯片(以下簡(jiǎn)稱Affy)是小編最早接觸到的基因表達(dá)數(shù)據(jù)產(chǎn)出平臺(tái),以簡(jiǎn)單、成熟、便宜等特點(diǎn),與二代測(cè)序平臺(tái)形成鮮明對(duì)比,我們今天以GEO數(shù)據(jù)庫(kù)上的GSE15459數(shù)據(jù)為例,講解該芯片數(shù)據(jù)的預(yù)處理過(guò)程(從原始CEL文件到基因水平表達(dá)數(shù)據(jù))!


### GSE15459于2009年發(fā)布,收錄了使用Affy芯片平臺(tái)檢測(cè)的200個(gè)胃癌患者的基因表達(dá)數(shù)據(jù),如下:

https://www.ncbi.nlm./geo/query/acc.cgi?acc=GSE15459




### 提供兩種數(shù)據(jù)(原始數(shù)據(jù)和預(yù)處理后的數(shù)據(jù))的下載:

數(shù)據(jù)預(yù)處理要從原始數(shù)據(jù)(CEL格式)開(kāi)始,即GSE15459_RAW.tar文件:


### 既然提供了處理好的數(shù)據(jù),為什么還要自己做預(yù)處理?

1、有時(shí)候數(shù)據(jù)集并未詳細(xì)描述數(shù)據(jù)預(yù)處理過(guò)程,即你不知道他怎么得到的,不敢用;

2、數(shù)據(jù)預(yù)處理方法并非更受歡迎或者自己熟悉的方法,如下MAS方法雖然常用,但是也并不能直接用于后續(xù)分析:

3、處理好的文件,如本數(shù)據(jù)集的GSE15459_series_matrix.txt,用excel打開(kāi),格式如下:

可見(jiàn),在正式的表達(dá)矩陣(紅框選中)之前有大段的可以理解為注釋的數(shù)據(jù),所以在使用該文件分析時(shí)要考慮進(jìn)去!

4、也是最重要的一點(diǎn):自己處理有成就感!


### 對(duì)于GEO數(shù)據(jù)集的講解和數(shù)據(jù)下載,詳見(jiàn)歷史文章

數(shù)據(jù)挖掘?qū)n} | GEO芯片探針注釋

數(shù)據(jù)挖掘?qū)n} | GEO數(shù)據(jù)下載

數(shù)據(jù)挖掘?qū)n} | mac下極速下載GEO數(shù)據(jù)


### 將下載好的原始數(shù)據(jù)GSE15459_RAW.tar文件解壓縮,可見(jiàn)每個(gè)樣本一個(gè).gz壓縮文件:

文件不大,不到5M,與動(dòng)輒幾百兆,上G的測(cè)序數(shù)據(jù)相比...

注意不需要解壓縮,另外,其中有8個(gè)樣本被排除分析:

我們?cè)谶M(jìn)行預(yù)處理前也把這8個(gè)樣本刪除掉,即最終剩余192個(gè)樣本!


Affy芯片成熟不僅僅在于官方提供了一系列的分析軟件,而且很多R包可以進(jìn)行Affy數(shù)據(jù)的處理分析,而其中最基礎(chǔ)的就是affy包:

https:///packages/release/bioc/html/affy.html


### 安裝及加載 

# try http:// if https:// URLs are not supported

source('https:///biocLite.R')

biocLite('affy')

library(affy) 


### 讀取CEL數(shù)據(jù)

重點(diǎn)就是ReadAffy函數(shù):

可見(jiàn)統(tǒng)計(jì)信息-探針數(shù):54675;樣本數(shù):192;注釋包:hgu133plus2.db

可以通過(guò)gsub函數(shù)將樣本名后的.CEL.gz去除掉


### RMA標(biāo)準(zhǔn)化并提取探針?biāo)奖磉_(dá)

RMA是對(duì)于Affy基因表達(dá)譜芯片最常用的標(biāo)準(zhǔn)化方法,包含背景矯正、標(biāo)準(zhǔn)化、log轉(zhuǎn)化等過(guò)程:


### 探針-基因?qū)?yīng)關(guān)系

對(duì)于該數(shù)據(jù)集,要用到的注釋R包是hgu133plus2.db:

可見(jiàn),第一列為探針I(yè)D,第二列為Gene Symbol,通過(guò)該對(duì)應(yīng)關(guān)系即可得基因水平表達(dá)數(shù)據(jù),步驟如下:


1、刪除對(duì)應(yīng)多個(gè)基因的探針:


2、去除無(wú)對(duì)應(yīng)基因的探針:


3、對(duì)應(yīng)同一基因的多個(gè)探針,取均值作為基因水平表達(dá)值:


4、補(bǔ)缺失【可選】:


    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多