|
本期內容是二代測序即NGS又稱為高通量測序,內容包括二代測序的平臺、儀器、技術參數(shù),如何去判斷測序數(shù)據(jù)質量等。如果大家后續(xù)有測序需求,也可以判斷一下測序公司的質量和專業(yè)性。 一、二代測序介紹 常見的二代測序有常規(guī)轉錄組、單細胞轉錄組、宏基因組、擴增子、時空組等等。從研究方向看涉及的領域還是比較多的,但底層技術都是二代測序。簡單來說,二代測序技術就是在DNA復制過程中通過捕捉新添加的堿基所攜帶的特殊標記來確定DNA的序列,一般為熒光分子標記。 目前市面上的測序公司用的主要測序平臺有illumina和華大智造,比如說illumina的novaseq6000、Xplus,小通量的有miniseq、miseq,測序公司可能用高通量儀器比較多。華大平臺的有DNBseq-G99、DNBseq-T1、T7等等。這里給大家總結了幾款儀器的技術參數(shù),包括讀長、通量、運行時間、技術特點、適用場景(內容參考的是平臺官方的說明書)。 ![]() 二、如何判斷測序數(shù)據(jù)質量 1.Phred score/Q值 它是用來衡量測序堿基識別準確性的關鍵指標,通常以Q來表示,比如說Q20、Q30、Q40,我們常見的 Q30 > 80%,其中 Q30 就是表示堿基識別錯誤概率為 10?3,也就是 0.1% ,這就意味著正確率是 99.9% 。計算公式如下: ![]() P表示堿基識別錯誤的概率,并不是直接測量值,是通過測序儀的信號強度統(tǒng)計模型推導得出,比如說熒光信號,假設某個位點的信號強度為:A=9000, T=30, C=30, G=40。堿基A是當前位點的正確堿基,則其他信號(T/C/G)就可能由噪聲或交叉干擾產生。此時P=錯誤信和之和/總信號之和,即(30 30 40)/(9000 30 30 40)= 0.01。 Phred score的值一般和儀器本身、測序方法比如說是單端測序還是雙端測序、還和測序的讀長有關,以下是illumina novaseq 6000和華大DNBseq-G99的質量分數(shù): ![]() ![]() ![]() 可以理解為基因組中每個堿基被測序到的平均次數(shù),也就是將基因組測了幾遍。比如某樣本的測序深度為50X,意思就是這個樣本基因組上每一個堿基平均被測序了30次。如果就數(shù)據(jù)量來說的話,某基因組大小是3G,測序深度是30X,那么最終得到的數(shù)據(jù)量就是3X30=90G。測序深度不夠會引發(fā)很多問題,包括對低頻突變的漏檢也就是假陰性率高,比如說在30×深度下,2%突變可能僅被0.6條reads覆蓋,無法進行確認,容易被誤認為測序噪聲。同樣的測序深度不夠也會造成假陽性,把隨機測序錯誤誤認為是真實變異。這就像是我們計算硬幣正反面概率,那次數(shù)肯定是越多越好,無限多次拋硬幣,得到的概率結果才更趨于真實概率。測序深度一般是和我們的樣本質量、檢測目的、數(shù)據(jù)分析要求有關。 即adapter污染率,上機測序的文庫序列結構中是包含有接頭序列的,比如說單細胞中cDNA文庫的序列構成: ![]() 黑色片段即為測序接頭。接頭涉及到具體的測序原理,后期內容再出。接頭污染會對數(shù)據(jù)造成多種影響。比如,降低比對率,因接頭序列無法比對到參考基因組,導致有效數(shù)據(jù)比例下降。此外,還會增加假陽性變異,因接頭序列可能被誤認為變異,導致假陽性結果。兩個平臺的接頭污染率根據(jù)其官方文件及相關文獻中的數(shù)據(jù)顯示列表: ![]() 即標簽跳躍或錯配,指的是在測序的過程中,樣本的index標簽錯誤地分配到其他樣本上,導致數(shù)據(jù)混淆和錯誤分配。index在單細胞的視頻里面提到過,可以理解為是樣本的標簽,index hopping會造成特定類型錯比對,導致文庫不能比對到預期標簽而是被錯誤地比對到另一個標簽上。index hopping率越高,數(shù)據(jù)質量相對就較差。 兩個平臺的indexhopping率根據(jù)其官方文件及相關文獻中的數(shù)據(jù)顯示列表: ![]() 提供幾篇對不同平臺數(shù)據(jù)進行對比的文獻 ![]() 此外,還有比對率、重復率、GC含量偏差、隨機錯誤率等等指標沒有展開說,感興趣的話可以評論區(qū)告訴我。 |
|
|