|
轉錄組edgeR分析差異基因 edgeR是一個研究重復計數數據差異表達的Bioconductor軟件包。一個過度離散的泊松模型被用于說明生物學可變性和技術可變性。經驗貝葉斯方法被用于減輕跨轉錄本的過度離散程度,改進了推斷的可靠性。該方法甚至能夠用最小重復水平使用,只要至少一個表型或實驗條件是重復的。該軟件可能具有測序數據之外的其他應用,例如蛋白質組多肽計數數據。可用性:程序包在遵循LGPL許可證下可以從Bioconductor網站。 一:下載安裝該軟件 下載安裝edgeR這個R包,因為這是一次講R包的下載,我就啰嗦一點,這種生物信息學的包不同于普通的R包,是需要用biocLite來安裝的,命令如下
安裝成功之后會有以下提示。 但是我加載碰到一個很幼稚的錯誤,因為我的電腦太差了,這是一個測試的電腦,是300塊錢在二手市場里面淘的,所以內存不夠。 我簡單搜索了一下,才知道是虛擬內存太小了,需要調整 重啟電腦,就成功啦 二:準備數據 就是對tophat的bam文件用HTseq計數后的count文件,見前一篇文章
三:運行命令 因為主要是在R里面操作,我就只講R里面的命令了,首先要把那些HTseq產生的文件拷貝到R的工作目錄,我這里是自己設置了工作目錄 setwd("D:\\項目\\RNA-seq\\htseq") a=read.table("case1.sam.count") b=read.table("case2.sam.count") c=read.table("control.sam.count") counts=data.frame(case1=a[,2],case2=b[,2],control=c[,2]) rownames(counts)=a[,1] 這樣就讀入了一個counts數據框 可以看到有三個樣本,涉及到了23373個基因,每個樣本的測序量約50M的reads 可以看到,有很多基因的計數不到30次。 我們首先對第一組來選擇差異基因 case1_control=counts[,1:2];group=c("case1","control"); cds <- DGEList( case1_control, group = group ) 簡單看看這個構造的對象cds的具體內容 四:輸出文件解讀 呀,好像運行錯誤了,好像這個說明書太長了,希望有人跟我一起讀讀,總共78頁的PDF文件,我明天再弄弄! |
|
|