|
Nature genetics下一個BWA+GATK: genome graphs可以進化的基因組數(shù)據(jù) 好的工具,讓復雜遺傳病易于被診斷 如果覺得內(nèi)容對您有用,歡迎分享 如果有不同觀點或建議,歡迎留言 先來點有意思的 硬核思路圖自取 本期參考文獻 0 從人類參考基因組說起 自人類基因組計劃完成后, 通過測序得到基因組序列草圖, 解決了數(shù)不清的遺傳學問題, 如 致病基因定位 人類遺傳差異性鑒定 GWAS分析等等 隨著測序技術(shù)的進步, 基因組參考序列也越來越完善。 參考基因組也是測序分析的基石之一, 借助參考基因組序列, 各種測序數(shù)據(jù)才能得到變異相關(guān)信息, 并借助生物信息學的幫助, 建立各種參考數(shù)據(jù)庫, 如refseq,ccds,encode等, 尤其是高通量測序的時代, 如果沒有參考基因組作為分析基礎, 海量測序數(shù)據(jù)的分析是難以想象的。 1 目前的分析流程 目前二代測序的數(shù)據(jù)分析, 流程相對固定, 測序數(shù)據(jù)比對+變異分析, 比對的過程是 將測序數(shù)據(jù)匹配到基因組的對應位置 通常用BWA軟件從fastq數(shù)據(jù)得到BAM數(shù)據(jù) 變異分析過程是 得到參考基因組不一致的測序數(shù)據(jù)信息 通常用GATK工具包從BAM數(shù)據(jù)得到VCF數(shù)據(jù) 比對和分析過程, 都依賴于參考基因組數(shù)據(jù), 核心目的是找到測序樣本的特有基因型, 也就是和參考基因組不一致的部分。 2 參考基因組的局限 目前的參考基因組, 除了序列還進一步完善之外, 一個關(guān)鍵的局限性是 線性序列 意思是每個位置的參考堿基都是固定的。 這種線性基因組 雖然對嚴重遺傳疾病分析影響不大, 但是從遺傳學角度來說, 不同人之間的序列差異非常多樣, 存在各種差異變異, 這些個體之間的差異變異, 可以給測序分析提供非常有用的信息, 例如GATK流程中 會利用人群變異信息做變異校正, 同時也會用樣本集中分析的方法 (joint calling), 來提高變異的靈敏度與特異性。 但這些有用的遺傳信息, 目前的線性基因組中是不包括的, 只能通過其他流程來補充, 這一方面會增加分析的復雜程度, 另一方面也會不可避免的造成信息丟失。 3 基因組序列+遺傳學信息 = genome graphs 為了解決線性基因組的局限性, 便產(chǎn)生了genome graphs的概念, genome graphs的主要思想是: 借助數(shù)學分支graph theory的思想 將遺傳學信息和基因組信息整合 產(chǎn)生的新數(shù)據(jù)形式就是genome graphs 文章開頭文獻中使用的工具, 是七橋公司公開的一個genome graphs工具包, 這個工具包 將基因組序列和人群變異數(shù)據(jù)庫的信息結(jié)合, 得到了包含人群遺傳變異的參考基因組數(shù)據(jù)。 構(gòu)建好基因組圖數(shù)據(jù)后, reads序列會通過哈希index, 在圖基因組上尋找對應位置, 如果變異已經(jīng)存在于圖數(shù)據(jù)中, 會很快通過序列路徑得到結(jié)果, 對于不存在于圖中的變異, 會進行新變異的分析。 4 genome graphs的優(yōu)勢 genome graphs的優(yōu)勢在基因組序列中, 加入了其他遺傳學信息, 這些信息在序列比對時能提供有效幫助, 目前加入的遺傳學信息是1kg的變異數(shù)據(jù), 包括snp,indel和sv數(shù)據(jù), 這些數(shù)據(jù)可以 進一步提高變異的靈敏度與特異性。 另外一個優(yōu)勢是sv的分析, 二代測序分析sv通常需要其他軟件的輔助, 但genome graphs通過加入的sv信息, 可以有效在比對過程中發(fā)現(xiàn)sv變異。 ![]() genome graphs還可以 通過不斷加入新的變異數(shù)據(jù), 來提高變異發(fā)現(xiàn)的能力, 意味著genome graphs可以通過數(shù)據(jù)積累, 信息變得越來越豐富, 這是目前的線性基因組無法實現(xiàn)的。 ![]() 5 模型潛力 目前公開的軟件, 暫時只能在基因組序列中 加入人群變異信息, 但作者計劃會讓基因組中 加入更多信息, 如AF,LD等信息, 并開發(fā)更多功能, 如同時分析群體樣本等。 此外,作者還構(gòu)想了其他領域, 如RNA-seq,CHIP-seq等的應用。 總之,genome graphs是一個重要的方向, 依靠graph theory強大的理論基礎, 期待能有更多的潛能被挖掘。 最后 一起來看看genome graphs官方介紹吧 視頻提供者 B站(bilibili)id: 大尾巴龍龍, 還有更多遺傳學視頻,推薦大家關(guān)注 如果對文章內(nèi)容有評價或不同看法, 歡迎到行業(yè)大咖顧大夫創(chuàng)建的論壇中討論 ![]() NGS基因診斷率能力提高之路徑 ![]() 多維度、多學科、多角度,合共同之力解決問題。 『廣告時間』 bpvast(上海冪普智能科技有限公司)的基因檢測智能操作系統(tǒng)(g-TIES),是由多年單基因遺傳病領域的資深從業(yè)人士領銜,整合國內(nèi)最優(yōu)秀的生物信息學和生產(chǎn)運營管理團隊,并與業(yè)內(nèi)專家反復溝通交流,最終開發(fā)出的適合大規(guī)模應用的單基因遺傳病檢測支持系統(tǒng)。詳細請見:基因檢測智能操作系統(tǒng)(g-TIES) ![]() 上海瀚垚生物全國獨家代理,如有試用和購買需要請聯(lián)系 info@56dna.cn,或在公眾號留言。 上海瀚垚生物 (www.56dna.cn) ![]() 我們?yōu)槟峁﹥?yōu)質(zhì)的基因檢測服務: A、低成本即可獲得最高質(zhì)量的基因測序和數(shù)據(jù)解讀服務,對于初期客戶,可以提供低成本的試錯機會,未來業(yè)務證明可以做大,可以無縫銜接到Turn key服務模塊。 B、團隊多年從事遺傳類疾病檢測服務,可以幫客戶完成最復雜的數(shù)據(jù)解讀環(huán)節(jié),客戶可以做到零參與或只參與審核。 C、快速的實驗周期,大部分項目20個工作日可完成報告。 感謝CHPO組織及各位專家在HPO工具漢化和應用中所做的卓越貢獻,為下游應用和開發(fā)工具提供了很好的基礎設施! ![]() 趕緊關(guān)注,讓我們與您一起對話基因 |
|
|
來自: 生物_醫(yī)藥_科研 > 《待分類》