“拿著放大鏡去看腫瘤基因組” ------腫瘤NGS生物信息分析科普之一

生物_醫(yī)藥_科研 2019-09-01

展開全文

很多人提及生物信息分析都覺得像是黑匣子一樣，未知而神秘，今天就讓我們來解開它神秘的面紗，進入腫瘤NGS生物信息數(shù)據(jù)分析的世界暢游一番。

腫瘤NGS生信分析事實上是屬于人類基因組重測序分析的一種，更近一步，是針對靶向捕獲高通量測序數(shù)據(jù)的分析。舉個例子，仿佛是拿著一個“分子放大鏡”，根據(jù)”自己的意圖”，隨便找人類基因組上的一段來看個究竟。

那么從高通量測序儀產出數(shù)據(jù)之后，是如何實現(xiàn)“看個究竟”的目的呢？腫瘤NGS生信數(shù)據(jù)分析是通過如下幾個關鍵環(huán)節(jié)來完成的：

1.數(shù)據(jù)質控

每一例樣本經過實驗處理后就會上機測序，之后獲得的原始下機數(shù)據(jù)流轉到生物信息環(huán)節(jié)就變成了格式為fastq的文件，fastq是一種存儲了生物序列（通常是核酸序列）以及相應的質量評價的文本格式，長成如下圖的樣子：

其中第二行就是我們測序得到的序列，但是這時得到的數(shù)據(jù)我們還不能直接使用，需要對這些數(shù)據(jù)進行預處理，比如過濾掉測序時錯誤率比較高的序列?。ǖ唾|量序列）、信號模糊無法確定的序列?。ê琋過多reads）、實驗時連接引入的引物序列?。╝dapter過濾）等等，這樣保留下來的數(shù)據(jù)用于后續(xù)分析才能更靠譜。

2.序列比對

我們把上述得到的一條條ATCG組成的序列與人類參考基因組進行比對，這樣我們就能將每條測序得到的序列回貼到人類參考基因組序列上。在實驗PCR過程中會引入重復序列，這些序列均由同一DNA模版復制而來，將這些重復序列標記出來，就獲取到由非重DNA模版組成的序列集合，也就是傳說中的Unique Mapping Reads。

3.變異檢測

在進行序列比對之后，我們就可以了解到每一條序列的位置，是否有和人類參考序列存在差異的地方，這些差異中就包含了我們感興趣的變異位點；比如在7號染色體的55249071處發(fā)現(xiàn)了堿基和人類參考序列不同，在參考序列中這一位置原本是堿基C（野生型），而患者中發(fā)現(xiàn)一定比例的序列中此位置是堿基T（突變型），那么說明在此位置發(fā)生了C>T的突變，如圖所示：

又如我們發(fā)現(xiàn)在人類參考序列的某些位置上存在的DNA序列在待測樣本數(shù)據(jù)中看不到，也就表明此樣本發(fā)生了相應的缺失變異，如圖所示：

當然這一切的識別過程均由復雜的統(tǒng)計模型或者人工智能支持的算法來處理，最終識別出真正的變異位點，呈現(xiàn)出上述描述的可視化界面（IGV: Intergrative Genomics Viewer）。

4.變異注釋

前面我們提到序列被定位，被識別到突變，但是這一個個字母的變化帶來了什么樣的影響呢？為此我們就需要把每一個突變都進行注釋（也就是解釋說明），比如這個突變是否參與編碼蛋白，是否影響氨基酸的變化，原來的氨基酸是什么，變成了什么等等，將突變按照國際標準注釋后我們就獲取到了待測樣本最終的檢測結果，比如上述提及的7號染色體55249071處發(fā)生C>T的突變就是我們熟知的EGFR T790M熱點突變。

現(xiàn)在大家對腫瘤生物信息數(shù)據(jù)分析有了一定的了解了嗎？想知道每一個環(huán)節(jié)的具體分析原理嗎，每一環(huán)節(jié)的操作差異會對檢測結果產生何種影響嗎？敬請期待我們的下一次分享噢。