廣告:工作室提供有償芯片數據分析,大家有芯片相關數據處理,請留言....很久沒有處理芯片原始數據了,一般情況下去GEO下載數據的時候都是直接下載處理后的,所以用著用著也就懶了,今天去下載GSE42743的數據如圖,發(fā)現竟然沒有處理好的,糾結之余小編決定親自從原始數據入手,開啟洪荒之力。下面小編就一步一步教你實戰(zhàn)GEO芯片原始數據處理 下載芯片數據,進入GEO首頁搜索跟自身研究相關的GEO數據集,找到合適的數據比如GSE42743,點擊進去找到如下圖所示,可以看到File type為CEL即為原始數據啦,看到左側有個http有木有,點擊下載就哦啦 安裝affy包,很顯然原始芯片數據需要專門的包去處理,這里要使用affy包進行數據處理,所以安裝這個affy包也很簡單,有兩種方法如下: 1、install.package('affy') 2、 source('https:///biocLite.R') biocLite('affy') 擇其一選擇安裝即可,如果一種方法不行就換一種 導入affy包,這里因為affy包可能用到其他的包,所以導入affy包之前需要導入它所依賴的包,如果沒有安裝的話,就自行安裝就好了,導入包如下: library(BiocGenerics) library(parallel) library(Biobase) library(affy) 設置數據環(huán)境,導入affy完畢了之后,現在需要配置數據環(huán)境以便能夠對原始數據提取,先解壓下載下來的GSE42743_RAW文件,然后可以看到所有的CEL文件都在這個文件夾下面,可能你會發(fā)現后綴怎么會有個gz,不用擔心這是一種數據壓縮格式,affy會自動解壓,無需自己提前解壓;現在要設置當前操作目錄,使用命令如下: setwd('E:/Work/P1/SH824/GSE42743_RAW') 注意哦,路徑別寫錯啦 讀取原始數據啦,通過包的導入和數據環(huán)境的準備之后,現在開始讀取數據,也很簡單啦,有兩種方式哦,代碼如下: 1、rawdata <- ReadAffy()###讀取全部的原始文件,這個時候就考驗你的電腦內存了 2、rawdata1 <- ReadAffy('GSM1049165_MDA-HNS-112.CEL.gz')###讀取單個原始文件 標準化,讀取完數據當然是處理和標準化啦,這一步呢也是一條命令的事,但是芯片數據標準化方法很多,小編常常使用的兩種標準化方法分別為rma和mas5,這里都奉獻給你吧,代碼如下: 1、eset <- rma(rawdata) #rma標準化方式 2、eset <- mas5(rawdata)#mas5標準化方式 注意哦,rma只使用pm信號,exp數據已經進行l(wèi)og2處理。mas5綜合考慮pm和mm信號,exp數據沒有取對數。 很顯然,現在要把得到的芯片數據標準化的結果進行保存了,使用代碼如下: write.exprs(eset, file='NormalizedData.txt') 保存在了當前工作目錄下哦 當然如果你不想保存,還想繼續(xù)用的話就使用exprs函數進行轉換成表達譜矩陣啦,代碼如下: exp <- exprs(eset) 總結一下小編的代碼如下 library(BiocGenerics) library(parallel) library(Biobase) library(affy) setwd('GSE42743_RAW') rawdata <- ReadAffy() eset <- rma(rawdata)#eset <- mas5(rawdata) #rawdata1 <- ReadAffy('GSM1049165_MDA-HNS-112.CEL.gz') write.exprs(eset, file='NormalizedData.txt') 這其中呢要畫圖嘛,主要涉及兩張圖,一張是標準化前的,一張是標準化后的箱線圖,其實也很簡單啦 標準化前,繪圖,代碼如下: boxplot(exprs(rawdata)) 沒圖?。。。∫驗樾【庪娔X死機了 標準化后,繪圖代碼如下: boxplot(exprs(eset)) 怎么看這個前后效果呢,就看圖中小編畫了紅色的那條線,中位數的分布是否在一條線上,很明顯標準化前都不全在一條線上(無圖無真相,自己試吧),標準化后在一條線上了。 |
|
|
來自: 田明17grajsnth > 《GSEA》