小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

基因組注釋與功能基因挖掘那些事

 生物_醫(yī)藥_科研 2019-01-30

文獻(xiàn)解讀



近日,美吉生物合作客戶,南開大學(xué)的王威老師課題組在影響因子5.8的雜志Bioresource Technology上發(fā)表了一篇名為“Novel thermostable enzymes from Geobacillus thermoglucosidasius W-2 for high-efficient nitroalkane removal under aerobic and anaerobic conditions”的文章[1]。






              思路解讀                


研究人員從華北某深層油田中分離到一株可以降解有機硫以及硝基烷烴的嗜熱菌Geobacillus thermoglucosidasius,該菌可以在好氧及厭氧條件下高效降解環(huán)境污染物——硝基烷烴類化合物。接著,通過基因組測序及注釋,找到了3個候選的硝基烷烴氧化酶基因。最后,將這3個基因分別克隆到大腸桿菌BL21進(jìn)行蛋白表達(dá)純化,發(fā)現(xiàn)這3種酶都具有很強的溫度、pH、壓力適應(yīng)性,且其中一個酶Gt2929能夠非常高效地降解多種硝基烷烴類化合物,具有非常大的工業(yè)及環(huán)境治理的應(yīng)用潛力。






                 思路延伸               



在這個過程中,一個很重要的節(jié)點是找到表型對應(yīng)的功能基因。如何找到功能基因,也是許多功能基因組學(xué)研究者們都非常關(guān)心的話題。接下來我們就來探討一下與尋找功能基因相關(guān)的概念和方法。

 


基因組注釋



尋找功能基因,首先要做基因組注釋。所謂基因組注釋,就是利用生物信息學(xué)方法,對基因組中所有基因的生物學(xué)功能進(jìn)行高通量注釋?;蚪M注釋的核心內(nèi)容分為基因預(yù)測以及功能注釋兩部分。


 

1. 基因預(yù)測


 

在原核生物中,目前最常用的是基因預(yù)測方法是ab initio預(yù)測,即不借助參考基因組,完全根據(jù)統(tǒng)計軟件及算法對核酸序列上的起始密碼子及終止密碼子進(jìn)行識別,最后獲得基因預(yù)測結(jié)果。



圖2. 基因預(yù)測原理示意圖


 

2. 功能注釋


 

完成基因預(yù)測后,所有被預(yù)測出來的ORF(Open reading frame)會被翻譯成氨基酸序列,用于接下來的功能注釋。注釋的基本原理是將氨基酸序列與各種數(shù)據(jù)庫進(jìn)行序列比對,通過數(shù)據(jù)庫中被比對上的基因所記錄的基因功能,賦予新基因以功能注釋。有的數(shù)據(jù)庫為了避免注釋信息過于雜亂,會人工整理一些特定的類別。


比如KEGG數(shù)據(jù)庫中的KEGG ORTHOLOGY (KO)數(shù)據(jù)庫,每一類KO都包含了KEGG GENE數(shù)據(jù)庫中所有功能近似的同源基因。通過KEGG進(jìn)行基因注釋時,系統(tǒng)不會直接賦予被比對上基因的具體信息,而是賦予該基因?qū)?yīng)的KO ID以及相應(yīng)的KO功能描述(圖3)。



圖3. 兩種常見的基因功能注釋原理示意圖

 


目前,比較常用的細(xì)菌基因組注釋流程包括NCBI原核基因組注釋流程,RAST[5],KEGG注釋流程[6]等,而有一定生信基礎(chǔ)的研究者也會使用本地的數(shù)據(jù)庫進(jìn)行基因組注釋。




尋找功能基因




完成基因組注釋后,接下來就是尋找功能基因了。這一步我們有多個線下數(shù)據(jù)庫資源可以使用。這里我們以本公司的細(xì)菌基因組云平臺注釋結(jié)果為例,演示一下如何從Geobacillus thermoglucosidasius基因組(GCF_001655645.1)注釋結(jié)果中尋找硝基烷烴氧化酶。


 

1. KEGG通路搜索


 

KEGG的基因組注釋比較直觀,因為它的注釋結(jié)果最終可以在代謝通路圖上直接呈現(xiàn)出來(圖6)。



圖4. KEGG基因組注釋通路示意圖。其中每一個藍(lán)色背景的框代表數(shù)據(jù)庫中的一類或幾類基因,紅色外框表示基因組中有注釋到相應(yīng)功能的基因。


 

我們再以硝基烷烴氧化酶作為例子:


首先,KEGG數(shù)據(jù)庫中有上百個通路圖,基因組注釋結(jié)果會分布在其中大部分通路圖上。如果不清楚要找的特定功能基因?qū)儆谀膫€代謝通路,可以先通過搜索相關(guān)化合物鎖定通路圖(圖7)。如圖所示,通過搜索化合物“nitroalkane”,可以鎖定到氮代謝通路“Nitrogen metabolism”。



圖5. 通過化合物名稱鎖定代謝通路示意圖


 

鎖定通路后,打開該通路對應(yīng)的基因組注釋結(jié)果,得到以下結(jié)果(圖8)。


圖6. 基因組KEGG通路注釋示意圖——氮代謝通路圖



如上文所述,外圈帶紅框的基因表示基因組中存在被注釋到相應(yīng)位置的基因。在硝基烷烴(箭頭所指位置)氧化成亞硝酸鹽(Nitrite)這步反應(yīng)中,基因組中有基因編碼EC number為1.13.12.16的酶,而該基因?qū)?yīng)的KO ID是K00459。通過KO ID編號,就可以在基因組注釋表中直接找到對應(yīng)的基因了(圖9)。



圖7. i-sanger平臺基于KO ID查詢示意圖



2. 序列比對查找



除了用全基因組與數(shù)據(jù)庫進(jìn)行批量比對的方法外,使用已知功能的基因序列與測序的基因組進(jìn)行比對,也能夠幫助我們找出基因組中相應(yīng)功能的基因。

例如在NCBI上找到一個2-nitropropane dioxygenase蛋白序列(WP_008880084.1),用它對案例基因組的全氨基酸序列(W_2_CDS)進(jìn)行BLAST+比對:

makeblastdb -in W_2_CDS -dbtype prot -out W_2;

blastp -db W_2 -query WP_008880084.1 -out example;

可以獲得如下結(jié)果(圖10):



圖8. 使用序列比對工具尋找功能基因結(jié)果示意圖



通過使用已知的硝基丙烷氧化酶對基因組進(jìn)行序列比對,得到相似度最高的3個基因,也正是開頭文獻(xiàn)中所報道的那3個基因。




除此之外,為方便大家操作,i-sanger細(xì)菌基因組云平臺(www.i-sanger.com)整合了NCBI NR(Non-redundant protein),Swiss-prot,KEGG,COG,Pfam,GO等多個線下數(shù)據(jù)庫資源,有需求的科研汪可以直接在云平臺上一鍵注釋到多個數(shù)據(jù)庫。

 

綜上,本文介紹了幾種針對基因組測序后尋找特定功能基因的常用方法及數(shù)據(jù)庫,希望能對讀者們有所幫助,能夠挖掘更多有用的基因,多發(fā)高水平論文~

 




參考文獻(xiàn)

[1]    L. Sun, D. Huang, L. Zhu, et al., Novel thermostable enzymes from Geobacillus thermoglucosidasius W-2 for high-efficient nitroalkane removal under aerobic and anaerobic conditions. Bioresource Technology, 2019, 278:73-81

[2]    A.L. Delcher, K.A. Bratke, E.C. Powers, and S.L. Salzberg, Identifying bacterial genes and endosymbiont DNA with Glimmer. Bioinformatics, 2007, 23(6):673-679.

[3]    J. Besemer, A. Lomsadze and M. Borodovsky, GeneMarkS: a self-training method for prediction of gene starts in microbial genomes. Implications for finding sequence motifs in regulatory regions. Nucleic Acids Research, 2001, 29:2607-2618

[4]    D. Hyatt, G.L. Chen , P.F. Locascio , et al, Prodigal: prokaryotic gene recognition and translation initiation site identification. BMC Bioinformatics, 2010, 11(1):119.

[5]    R. Overbeek , R. Olson , G.D. Pusch , et al., The SEED and the Rapid Annotation of microbial genomes using Subsystems Technology (RAST). Nucleic Acids Research, 2014, 42(1):206-214.

[6]    M. Kanehisa, Y. Sato , K. Morishima, BlastKOALA and GhostKOALA: KEGG Tools for Functional Characterization of Genome and Metagenome Sequences. Journal of Molecular Biology, 2016, 428(4):726-731.



美吉生物

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多