OmicShare Forum 專業(yè)的生物信息學論壇

ypgao 2019-05-08

展開全文

本次在線交流主要內(nèi)容如下：

問1：可不可以用DESeq歸一化的normalizedcounts進一步計算RPKM？？

答：可以的。Normalized counts 使用RPKM的換算公式可以直接轉化為RPKM值。

問2：下面這張圖怎么理解？

答：這張圖是經(jīng)典的Maplot。每個點代表一個基因。Y軸代表的是基因在兩個樣本的表達差異倍數(shù)。X軸代表基因在兩個樣本表達量的乘積。

黃色的點代表只在某一特異樣本高表達的基因。這類基因表達差異倍數(shù)比較大， Y軸上偏離0。但是乘積又非常小，所以在X軸的數(shù)值較小。所以意味著這類基因在一個樣本表達量高一個樣本表達量低，即可以理解為這個基因只在一個樣本上表達。

綠色位置的這些基因表達量在兩個樣本都比較高的，因為它的乘積也比較大，但在Y軸數(shù)值在零值附近，表達其沒有差異表達，這類基因一般是看家基因。另外，在樣本間進行reads counts校正的參照基因也屬于此類基因。

其他位置基因還包括一些在Y軸偏離0，但在X軸數(shù)值也較大的基因，表明在兩個樣本都有比較高表達量，而且有比較大的差異倍數(shù)的基因。

問2：下面不同比對方案分別對應的是哪些軟件？

read count (多重比對的問題)

丟棄

平均分配

利用Unique region估計并重新分配

答：此處的分析，不屬于比對軟件要處理的問題。而是屬于后期的處理，可以通過寫腳本或某些軟件處理。

當reads比對到多個地方的時候，有兩種方法，一種是平均分配，一種是多重比對的時候不清楚是屬于誰，然后將其丟棄。前兩種方法可以通過寫腳本來處理。我們發(fā)現(xiàn)這種丟棄的方法在絕大多數(shù)情況下還是相當?shù)臏蚀_和穩(wěn)定的，這也是最早期方法。第三種方法是RSEM與cufflinks這兩種軟件使用的方法（這兩個軟件一般基于bowtie2或tophat的比對結果進行處理）。由于存在幾個轉錄本為可變剪切或者存在基因家族，所以有一些同源的區(qū)域完全相似的，必然導致某些reads多重比對。但是這幾個轉錄本或者編碼基因肯定有些地方是獨一無二的，這些位置的地方reads則是唯一比對的。軟件根據(jù)唯一比對的reads數(shù)比例，來重新分配那些多重比對的reads，即通過Unique mapping reads來分配那些multi-mapping比對的reads。

問3：用fpkm時做cuffdiff時，不同時間點的處理，用到的gtf文件是需要把所有樣品的gtf文件merge到一起嗎？

答：是的。因為最后有一個合并的過程，是需要把所有樣品的gtf文件merge到一起，不然沒有辦法比較表達量。

問4：請問無參轉錄組，利用RSEM計算的結果里面是有count，TPM以及FPKM值，這些數(shù)值我是可以直接用于后續(xù)的差異分析的嗎？還是只用count值呢？

答：如果使用DEseq或edger做差異分析一定要用count來計算，因為deseq與edger已經(jīng)考慮到了用count值來計算差異表達更加準確，而不是用其他。

問5：FKPM只能針對PE（雙端測序）的數(shù)據(jù)計算么？

答：FKPM實際上算的是fragment，當然是雙端的數(shù)據(jù)算一個fragment。如果是SE數(shù)據(jù)，RPKM與FKPM應該是沒有區(qū)別了，因為是單端測序，每個reads就代表一個片段，當然也是可以計算FKPM的，因為一條reads就是一條片段，是等效的。

問6：reads 長度分布統(tǒng)計怎么計算，怎么畫出長度分布圖呢？

答：可以寫腳本，長度分布圖展示方法可以嘗試畫餅圖或者柱形圖來展示。

問7：RPKM類算法是什么意思？

答：就是說這類算法基本是以mRNA為總量來計算基因表達量的。

問8：RSEM與RPKM的區(qū)別？

答：兩者是兩個定義，RSEM是reads count的多重比對的軟件，核心是怎么算基因的reads count。我們公司目前的無參轉錄組流程也會用到RSEM，最后我們將算出來的reads count換算成RPKM來計算，所以RSEM更多是種reads counts統(tǒng)計軟件，基于它的統(tǒng)計結果可以換算成RPKM、FPKM或TPM。

問9：請問如果用HTseq-count的結果count做差異分析，可以用Cuffdiff得出的FPKM當表達量畫熱圖或趨勢分析嗎？

答：可以得。

BTW，在做差異分析的時候用count是合理的，如果用基因長度做校正后會掩蓋一些問題。因為差異分析軟件其實考慮到了reads counts給定量帶來的誤差。理論上如果一個基因reads數(shù)越多的話，表達量定量越穩(wěn)定的，誤差越小。反之，count數(shù)越少，定量誤差越大。但如果進行RPKM校正后，一個低reads counts的基因，如果由于其基因長度較短，則反而會得到一個高的RPKM值。這樣相當于丟失了原始的reads counts信息。count進行差異分析更加合理，所以大部分差異分析軟件采用未進行基因長度校正的reads counts為輸入進行差異分析。

所以做差異分析的時候，用deseq 或edger用count來計算是對的。但后續(xù)的分析，例如繪制熱圖，依然建議換算成RPKM后進行處理。

更多問答整理請下載PDF文檔查看：