|
本次在線交流主要內(nèi)容如下: 問1:可不可以用DESeq歸一化的normalizedcounts進一步計算RPKM?? 答:可以的。Normalized counts 使用RPKM的換算公式可以直接轉化為RPKM值。 問2:下面這張圖怎么理解? 答:這張圖是經(jīng)典的Maplot。每個點代表一個基因。Y軸代表的是基因在兩個樣本的表達差異倍數(shù)。X軸代表基因在兩個樣本表達量的乘積。 黃色的點代表只在某一特異樣本高表達的基因。這類基因表達差異倍數(shù)比較大, Y軸上偏離0。但是乘積又非常小,所以在X軸的數(shù)值較小。所以意味著這類基因在一個樣本表達量高一個樣本表達量低,即可以理解為這個基因只在一個樣本上表達。 綠色位置的這些基因表達量在兩個樣本都比較高的,因為它的乘積也比較大,但在Y軸數(shù)值在零值附近,表達其沒有差異表達,這類基因一般是看家基因。另外,在樣本間進行reads counts校正的參照基因也屬于此類基因。 其他位置基因還包括一些在Y軸偏離0,但在X軸數(shù)值也較大的基因,表明在兩個樣本都有比較高表達量,而且有比較大的差異倍數(shù)的基因。 問2:下面不同比對方案分別對應的是哪些軟件? read count (多重比對的問題) 丟棄 平均分配 利用Unique region估計并重新分配 答:此處的分析,不屬于比對軟件要處理的問題。而是屬于后期的處理,可以通過寫腳本或某些軟件處理。 當reads比對到多個地方的時候,有兩種方法,一種是平均分配,一種是多重比對的時候不清楚是屬于誰,然后將其丟棄。前兩種方法可以通過寫腳本來處理。我們發(fā)現(xiàn)這種丟棄的方法在絕大多數(shù)情況下還是相當?shù)臏蚀_和穩(wěn)定的,這也是最早期方法。第三種方法是RSEM與cufflinks這兩種軟件使用的方法(這兩個軟件一般基于bowtie2或tophat的比對結果進行處理)。由于存在幾個轉錄本為可變剪切或者存在基因家族,所以有一些同源的區(qū)域完全相似的,必然導致某些reads多重比對。但是這幾個轉錄本或者編碼基因肯定有些地方是獨一無二的,這些位置的地方reads則是唯一比對的。軟件根據(jù)唯一比對的reads數(shù)比例,來重新分配那些多重比對的reads,即通過Unique mapping reads來分配那些multi-mapping比對的reads。 問3:用fpkm時做cuffdiff時,不同時間點的處理,用到的gtf文件是需要把所有樣品的gtf文件merge到一起嗎? 答:是的。因為最后有一個合并的過程,是需要把所有樣品的gtf文件merge到一起,不然沒有辦法比較表達量。 問4:請問無參轉錄組,利用RSEM計算的結果里面是有count,TPM以及FPKM值,這些數(shù)值我是可以直接用于后續(xù)的差異分析的嗎?還是只用count值呢? 答:如果使用DEseq或edger做差異分析一定要用count來計算,因為deseq與edger已經(jīng)考慮到了用count值來計算差異表達更加準確,而不是用其他。 問5:FKPM只能針對PE(雙端測序)的數(shù)據(jù)計算么? 答:FKPM實際上算的是fragment,當然是雙端的數(shù)據(jù)算一個fragment。如果是SE數(shù)據(jù),RPKM與FKPM應該是沒有區(qū)別了,因為是單端測序,每個reads就代表一個片段,當然也是可以計算FKPM的,因為一條reads就是一條片段,是等效的。 問6:reads 長度分布統(tǒng)計怎么計算,怎么畫出長度分布圖呢? 答:可以寫腳本,長度分布圖展示方法可以嘗試畫餅圖或者柱形圖來展示。 問7:RPKM類算法是什么意思? 答:就是說這類算法基本是以mRNA為總量來計算基因表達量的。 問8:RSEM與RPKM的區(qū)別? 答:兩者是兩個定義,RSEM是reads count的多重比對的軟件,核心是怎么算基因的reads count。我們公司目前的無參轉錄組流程也會用到RSEM,最后我們將算出來的reads count換算成RPKM來計算,所以RSEM更多是種reads counts統(tǒng)計軟件,基于它的統(tǒng)計結果可以換算成RPKM、FPKM或TPM。 問9:請問如果用HTseq-count的結果count做差異分析,可以用Cuffdiff得出的FPKM當表達量畫熱圖或趨勢分析嗎? 答:可以得。 BTW,在做差異分析的時候用count是合理的,如果用基因長度做校正后會掩蓋一些問題。因為差異分析軟件其實考慮到了reads counts給定量帶來的誤差。理論上如果一個基因reads數(shù)越多的話,表達量定量越穩(wěn)定的,誤差越小。反之,count數(shù)越少,定量誤差越大。但如果進行RPKM校正后,一個低reads counts的基因,如果由于其基因長度較短,則反而會得到一個高的RPKM值。這樣相當于丟失了原始的reads counts信息。count進行差異分析更加合理,所以大部分差異分析軟件采用未進行基因長度校正的reads counts為輸入進行差異分析。 所以做差異分析的時候,用deseq 或edger用count來計算是對的。但后續(xù)的分析,例如繪制熱圖,依然建議換算成RPKM后進行處理。 更多問答整理請下載PDF文檔查看:
|
|
|