小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

腫瘤外顯子數(shù)據(jù)處理系列教程(番外篇)bam文件載入igv可視化

 生物_醫(yī)藥_科研 2019-09-03

上一節(jié)我們講到了,腫瘤外顯子數(shù)據(jù)處理系列教程(四)比對(duì)結(jié)果的質(zhì)控,接下來(lái)我們將通過(guò)igv可視化的方式,對(duì)bam文件進(jìn)行一個(gè)深入的了解,同樣也是以這個(gè)樣本case1_biorep_A_techrep為例。

bam文件格式

bam(或者是sam,cram)文件,是比對(duì)后拿到的文件,sam文件是純文本,非常占用存儲(chǔ)空間,bam是sam的二進(jìn)制格式,cram則是進(jìn)一步壓縮后的格式,這三者所記錄的內(nèi)容是一致的,但是bam文件是最常用的。記錄了每一條reads比對(duì)到參考基因組的結(jié)果,主要有11列比較重要的信息(每一列以制表符分開):

列名簡(jiǎn)介舉例
1QNAMEreads的名稱case1_biorep_A_techrep.89335031
2FLAG由二進(jìn)制數(shù)表示,每一個(gè)數(shù)字代表一種比對(duì)情況,這里的值是符合情況的數(shù)字相加總和,如75=1+2^1^ +2^3^+2^6^129
3RNAME參考序列,一般是染色體chr17
4POS比對(duì)到染色體位置42852401
5MAPQmapping質(zhì)量60
6CIGARMIDNSHP=XB這10個(gè)字符代表不同的含義,M比對(duì)成功,I插入,D刪除76M3D
7RNEXT配對(duì)reads比對(duì)到的參考序列(染色體)chr11
8PNEXT配對(duì)reads比對(duì)到染色體的位置96427099
9TLEN可以理解為測(cè)序是文庫(kù)插入片段長(zhǎng)度0
10SEQ序列,fq文件的第二行GCTTC…CCAGC
11QUAL質(zhì)量值,fq文件第四行@@@?D…CA@DD

更多的說(shuō)明可以查看官方教程:

https://samtools./hts-specs/SAMv1.pdf

提取小bam

由于原bam文件特別大,下載到本地載入igv非常耗資源,所以我們就提取一個(gè)小的bam進(jìn)行演示。首先,要構(gòu)建索引,提取小bam,這里我們提取17號(hào)染色體的信息:chr17。再對(duì)小bam文件構(gòu)建索引,因?yàn)閕gv要求bam文件需要帶索引才能載入。

samtools index case1_biorep_A_techrep.bam
samtools view -h case1_biorep_A_techrep.bam chr17 | samtools view -Sb - > small.bam
samtools index small.bam

對(duì)比一下大小,如果還覺得太大,上面提取的參數(shù)chr17可以改為類似chr17:42850000-42950000。

12G 8月   29 05:46 case1_biorep_A_techrep.bam
694M 8月  29 12:15 small.bam

載入IGV

然后把小bam文件及其索引下載到本地,打開IGV,加載hg38參考基因組,然后把bam文件拖到IGV窗口中。

點(diǎn)擊17和右上角的+

直到標(biāo)尺顯示的尺度小于30kb,igv默認(rèn)小于30kb才會(huì)顯示reads的信息。

定位到感興趣的位置

也可以在搜索框中輸入感興趣的位置或者基因,比如chr17:42,850,644-42,853,784或者AOC3

這里我們可以看到有5條軌道:

  • 第一條是Coverage即覆蓋深度,可以直觀的看出染色體的每一處reads的覆蓋情況,因?yàn)槲覀兪峭怙@子捕獲測(cè)序,所以極大部分的reads都覆蓋到了參考基因組的外顯子區(qū)域及其側(cè)翼區(qū)域。值得注意的是在這一行開頭有峰的高度范圍,且默認(rèn)是隨覆蓋深度動(dòng)態(tài)變化的。

  • 第二條是Junctions,一般用于轉(zhuǎn)錄組數(shù)據(jù),可以看可變剪切,默認(rèn)是不顯示的,這里是我之前設(shè)置。

  • 第三條是bam文件中reads詳細(xì)信息,每一塊代表一條reads,將鼠標(biāo)放到某一條reads上,就會(huì)呈現(xiàn)該reads的詳細(xì)比對(duì)信息,與bam文件的中信息相對(duì)應(yīng)。而且可以通過(guò)鼠標(biāo)右鍵,調(diào)出設(shè)置菜單,方便進(jìn)一步探索。

  • 第四條是sequence,參考基因組的序列堿基信息,當(dāng)放大至一定程度時(shí)就會(huì)顯示出來(lái)。

  • 第五條是參考基因組注釋信息,可以看到有基因、外顯子、內(nèi)含子、5'UTR、3'UTR等,還可以右鍵選擇顯示基因的各個(gè)轉(zhuǎn)錄本。

顏色代表的含義

可以看到,這些reads大多數(shù)是灰色的,部分是透明,少部分是紅色、藍(lán)色、棕色等等,不同的顏色有不同的含義。

灰色:指的是比對(duì)成功,沒有其他特別的含義

白色:指的是比對(duì)失敗,對(duì)應(yīng)的是bam文件中第5列,MAPQ比對(duì)質(zhì)量值,我們把鼠標(biāo)放到透明的reads上就可以看到

紅色和藍(lán)色:igv會(huì)根據(jù)配對(duì)的兩條reads的距離,即bam的第9列TLEN,可以理解為測(cè)序時(shí)文庫(kù)插入片段長(zhǎng)度,來(lái)判斷是否存在染色體的結(jié)構(gòu)變異deletions,insertions,inter-chromosomal rearrangements。紅色代表插入片段大于期望值,可能是deletions的證據(jù),藍(lán)色代表插入片段小于預(yù)期,可能是insertions的證據(jù)。我們可以通過(guò)右鍵選擇view as pairs來(lái)進(jìn)一步理解這個(gè)含義。藍(lán)色的兩條reads重疊,而紅色的reads距離都比較大

其他顏色:指的是這條reads所配對(duì)的另一條reads沒有比對(duì)到同一條染色體,不同顏色代表不同染色體,具體看下圖:

比如下面棕色的reads,代表與之配對(duì)的reads比對(duì)到了11號(hào)染色體上了:

我們可以通過(guò)bam文件來(lái)檢驗(yàn)一下,因?yàn)槭莗air-end,所以id號(hào)相同,可以grep 89335031
$ samtools view -h case1_biorep_A_techrep.bam chr11 | grep 89335031
case1_biorep_A_techrep.89335031    65  chr11   96427099    60  76M chr17   42852401    0   AAATTGAATCTGCAATTTCTCAACCCATTAAATTGTTCATCAATGCTGAACTAATACAAGAGTTACATTAATAAGC    @>>??G?@AEDEDCAAAADCECADBBCAAABA?@FAAECAEBA@EEDCAADDABAADCBEAF@A@EC@@=A@>@DD    NM:i:0  MD:Z:76 MC:Z:76M    AS:i:76 XS:i:19 RG:Z:case1_biorep_A_techrep

$ samtools view -h case1_biorep_A_techrep.bam chr17 | grep 89335031
case1_biorep_A_techrep.89335031    129 chr17   42852401    60  76M chr11   96427099    0   GCTTCCAAGGAGAAAGACTAGTTTATGAGATAAGCCTCCAAGAGGCCTTGGCCATCTATGGTGGAAATTCCCCAGC    @@@?DDCAFCAEABAE@DC@E@@@@ADAFAAAAEEBCDCBAFAFDECDAFDEDBAEDBBFD@GD@AAA@E@CA@DD    NM:i:0  MD:Z:76 MC:Z:76M    AS:i:76 XS:i:0  RG:Z:case1_biorep_A_techrep

關(guān)于顏色更多的介紹,請(qǐng)參考igv官方文檔:
http://software./software/igv/interpreting_insert_size

寫在最后

不同組學(xué)的測(cè)序策略不同,這里展示的是外顯子組的bam文件,還有其他組學(xué)的bam文件也可以在igv中可視化,對(duì)此推薦大家看一下不同組學(xué)測(cè)序數(shù)據(jù)拿到的bam文件在igv可視化結(jié)果的區(qū)別:各種NGS組學(xué)數(shù)據(jù)分析異同點(diǎn)視頻講解

介紹到這里只講了一部分,還有bam文件載入igv也可以看變異位點(diǎn),SNP和INDEL,這部分我們留到后面分析拿到vcf文件后再繼續(xù)討論。

下一期我們將走gatk最佳實(shí)踐流程,并且會(huì)詳細(xì)介紹每一步分析的原理以及需要注意的細(xì)節(jié)。

然后提一個(gè)小問(wèn)題給讀者:

如果你的測(cè)序數(shù)據(jù)qc結(jié)果如上所示,你會(huì)怎么處理?

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多