上一節(jié)我們講到了,腫瘤外顯子數(shù)據(jù)處理系列教程(四)比對(duì)結(jié)果的質(zhì)控,接下來(lái)我們將通過(guò)igv可視化的方式,對(duì)bam文件進(jìn)行一個(gè)深入的了解,同樣也是以這個(gè)樣本case1_biorep_A_techrep為例。
bam文件格式
bam(或者是sam,cram)文件,是比對(duì)后拿到的文件,sam文件是純文本,非常占用存儲(chǔ)空間,bam是sam的二進(jìn)制格式,cram則是進(jìn)一步壓縮后的格式,這三者所記錄的內(nèi)容是一致的,但是bam文件是最常用的。記錄了每一條reads比對(duì)到參考基因組的結(jié)果,主要有11列比較重要的信息(每一列以制表符分開):
| 列 | 列名 | 簡(jiǎn)介 | 舉例 |
|---|
| 1 | QNAME | reads的名稱 | case1_biorep_A_techrep.89335031 |
| 2 | FLAG | 由二進(jìn)制數(shù)表示,每一個(gè)數(shù)字代表一種比對(duì)情況,這里的值是符合情況的數(shù)字相加總和,如75=1+2^1^ +2^3^+2^6^ | 129 |
| 3 | RNAME | 參考序列,一般是染色體 | chr17 |
| 4 | POS | 比對(duì)到染色體位置 | 42852401 |
| 5 | MAPQ | mapping質(zhì)量 | 60 |
| 6 | CIGAR | MIDNSHP=XB這10個(gè)字符代表不同的含義,M比對(duì)成功,I插入,D刪除 | 76M3D |
| 7 | RNEXT | 配對(duì)reads比對(duì)到的參考序列(染色體) | chr11 |
| 8 | PNEXT | 配對(duì)reads比對(duì)到染色體的位置 | 96427099 |
| 9 | TLEN | 可以理解為測(cè)序是文庫(kù)插入片段長(zhǎng)度 | 0 |
| 10 | SEQ | 序列,fq文件的第二行 | GCTTC…CCAGC |
| 11 | QUAL | 質(zhì)量值,fq文件第四行 | @@@?D…CA@DD |
更多的說(shuō)明可以查看官方教程:
https://samtools./hts-specs/SAMv1.pdf
提取小bam
由于原bam文件特別大,下載到本地載入igv非常耗資源,所以我們就提取一個(gè)小的bam進(jìn)行演示。首先,要構(gòu)建索引,提取小bam,這里我們提取17號(hào)染色體的信息:chr17。再對(duì)小bam文件構(gòu)建索引,因?yàn)閕gv要求bam文件需要帶索引才能載入。
samtools index case1_biorep_A_techrep.bam
samtools view -h case1_biorep_A_techrep.bam chr17 | samtools view -Sb - > small.bam
samtools index small.bam
對(duì)比一下大小,如果還覺得太大,上面提取的參數(shù)chr17可以改為類似chr17:42850000-42950000。
12G 8月 29 05:46 case1_biorep_A_techrep.bam
694M 8月 29 12:15 small.bam
載入IGV
然后把小bam文件及其索引下載到本地,打開IGV,加載hg38參考基因組,然后把bam文件拖到IGV窗口中。

點(diǎn)擊17和右上角的+

直到標(biāo)尺顯示的尺度小于30kb,igv默認(rèn)小于30kb才會(huì)顯示reads的信息。

定位到感興趣的位置
也可以在搜索框中輸入感興趣的位置或者基因,比如chr17:42,850,644-42,853,784或者AOC3

這里我們可以看到有5條軌道:
第一條是Coverage即覆蓋深度,可以直觀的看出染色體的每一處reads的覆蓋情況,因?yàn)槲覀兪峭怙@子捕獲測(cè)序,所以極大部分的reads都覆蓋到了參考基因組的外顯子區(qū)域及其側(cè)翼區(qū)域。值得注意的是在這一行開頭有峰的高度范圍,且默認(rèn)是隨覆蓋深度動(dòng)態(tài)變化的。
第二條是Junctions,一般用于轉(zhuǎn)錄組數(shù)據(jù),可以看可變剪切,默認(rèn)是不顯示的,這里是我之前設(shè)置。
第三條是bam文件中reads詳細(xì)信息,每一塊代表一條reads,將鼠標(biāo)放到某一條reads上,就會(huì)呈現(xiàn)該reads的詳細(xì)比對(duì)信息,與bam文件的中信息相對(duì)應(yīng)。而且可以通過(guò)鼠標(biāo)右鍵,調(diào)出設(shè)置菜單,方便進(jìn)一步探索。
第四條是sequence,參考基因組的序列堿基信息,當(dāng)放大至一定程度時(shí)就會(huì)顯示出來(lái)。
第五條是參考基因組注釋信息,可以看到有基因、外顯子、內(nèi)含子、5'UTR、3'UTR等,還可以右鍵選擇顯示基因的各個(gè)轉(zhuǎn)錄本。
顏色代表的含義
可以看到,這些reads大多數(shù)是灰色的,部分是透明,少部分是紅色、藍(lán)色、棕色等等,不同的顏色有不同的含義。
灰色:指的是比對(duì)成功,沒有其他特別的含義
白色:指的是比對(duì)失敗,對(duì)應(yīng)的是bam文件中第5列,MAPQ比對(duì)質(zhì)量值,我們把鼠標(biāo)放到透明的reads上就可以看到

紅色和藍(lán)色:igv會(huì)根據(jù)配對(duì)的兩條reads的距離,即bam的第9列TLEN,可以理解為測(cè)序時(shí)文庫(kù)插入片段長(zhǎng)度,來(lái)判斷是否存在染色體的結(jié)構(gòu)變異deletions,insertions,inter-chromosomal rearrangements。紅色代表插入片段大于期望值,可能是deletions的證據(jù),藍(lán)色代表插入片段小于預(yù)期,可能是insertions的證據(jù)。我們可以通過(guò)右鍵選擇view as pairs來(lái)進(jìn)一步理解這個(gè)含義。藍(lán)色的兩條reads重疊,而紅色的reads距離都比較大

其他顏色:指的是這條reads所配對(duì)的另一條reads沒有比對(duì)到同一條染色體,不同顏色代表不同染色體,具體看下圖:

比如下面棕色的reads,代表與之配對(duì)的reads比對(duì)到了11號(hào)染色體上了:
我們可以通過(guò)bam文件來(lái)檢驗(yàn)一下,因?yàn)槭莗air-end,所以id號(hào)相同,可以grep 89335031:$ samtools view -h case1_biorep_A_techrep.bam chr11 | grep 89335031
case1_biorep_A_techrep.89335031 65 chr11 96427099 60 76M chr17 42852401 0 AAATTGAATCTGCAATTTCTCAACCCATTAAATTGTTCATCAATGCTGAACTAATACAAGAGTTACATTAATAAGC @>>??G?@AEDEDCAAAADCECADBBCAAABA?@FAAECAEBA@EEDCAADDABAADCBEAF@A@EC@@=A@>@DD NM:i:0 MD:Z:76 MC:Z:76M AS:i:76 XS:i:19 RG:Z:case1_biorep_A_techrep
$ samtools view -h case1_biorep_A_techrep.bam chr17 | grep 89335031
case1_biorep_A_techrep.89335031 129 chr17 42852401 60 76M chr11 96427099 0 GCTTCCAAGGAGAAAGACTAGTTTATGAGATAAGCCTCCAAGAGGCCTTGGCCATCTATGGTGGAAATTCCCCAGC @@@?DDCAFCAEABAE@DC@E@@@@ADAFAAAAEEBCDCBAFAFDECDAFDEDBAEDBBFD@GD@AAA@E@CA@DD NM:i:0 MD:Z:76 MC:Z:76M AS:i:76 XS:i:0 RG:Z:case1_biorep_A_techrep
關(guān)于顏色更多的介紹,請(qǐng)參考igv官方文檔:
http://software./software/igv/interpreting_insert_size
寫在最后
不同組學(xué)的測(cè)序策略不同,這里展示的是外顯子組的bam文件,還有其他組學(xué)的bam文件也可以在igv中可視化,對(duì)此推薦大家看一下不同組學(xué)測(cè)序數(shù)據(jù)拿到的bam文件在igv可視化結(jié)果的區(qū)別:各種NGS組學(xué)數(shù)據(jù)分析異同點(diǎn)視頻講解
介紹到這里只講了一部分,還有bam文件載入igv也可以看變異位點(diǎn),SNP和INDEL,這部分我們留到后面分析拿到vcf文件后再繼續(xù)討論。
下一期我們將走gatk最佳實(shí)踐流程,并且會(huì)詳細(xì)介紹每一步分析的原理以及需要注意的細(xì)節(jié)。