小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

為什么要搞全基因組測序(一)

 微笑如酒 2019-01-31

  今天是生信星球陪你的第249天


   大神一句話,菜鳥跑半年。我不是大神,但我可以縮短你走彎路的半年~

   就像歌兒唱的那樣,如果你不知道該往哪兒走,就留在這學(xué)點生信好不好~

   這里有豆豆和花花的學(xué)習(xí)歷程,從新手到進階,生信路上有你有我!

豆豆寫于19.1.14

隨著測序技術(shù)的不斷升級優(yōu)化,讀長越來越長,某些基因組比較小的細菌可以實現(xiàn)從頭測到尾,那么為什么我們要獲得全基因組信息?它能為我們提供什么幫助呢?
今天先來了解了解基因預(yù)測的事情

認知的進化

首先對于生物這個詞匯,我們的認知水平是在不斷刷新的,從開始的生態(tài)學(xué)角度了解生物的形態(tài)結(jié)構(gòu)、種群群落組成到生物的生理生化過程研究(例如物質(zhì)代謝、能量流動),有了基因組后,我們就可以從基因組層面上對基因功能進行注釋,然后比較不同生物的基因組差異,看看哪些生物的基因組特征值得被研究??偠灾?,我們想搞明白我們從哪里來,能到哪里去。

基因組層面能分析些啥

這么高大上的詞匯背后肯定有大量的分析要點,否則不用這么費時費力去取樣、測序。另外,不管使用什么測序手段(Illumina、PacBio、IonTorrent等),最后得到的結(jié)果用處都差不多,大體上分為:結(jié)構(gòu)基因組學(xué)、功能基因組學(xué)、比較基因組學(xué)(來自百度百科),感覺這么說還是不太明白。

想想我們做基因組不還是為了更好地去了解這個物種嗎?

  • 那么首先,要對這個物種本身達成一定的認知,比如基因組上哪些位置是基因?基因的功能都是哪些?與該物種表現(xiàn)出來的特有的功能相關(guān)的基因是哪些?另外除了編碼區(qū)域,還有哪些區(qū)域是非編碼RNA?哪些是重復(fù)序列?哪些編碼比較特殊的基因元件?

  • 除了分析自身,還可以與其他物種比較 ,發(fā)現(xiàn)它們之間的差別(包括單堿基水平變化:轉(zhuǎn)換、顛換、插入、缺失;染色體水平變化:倒位、易位、插入、缺失),找到親緣關(guān)系遠近

  • 找到基因組上的差異后,可以再和表型信息進行關(guān)聯(lián)分析

舉個例子:人貴在有自知之明,那么我們?nèi)绾巫龅阶灾兀?br>首先最了解自己的人就是本體啦(包括自己適合做什么,有什么興趣愛好,對什么領(lǐng)域感興趣)=》物種本身認知,然后自己可以再和其他人比較(看看哪些地方做的還有所欠缺,哪些地方值得發(fā)揚)=》其他物種比較。明白差異后,我們可以有的放矢,去尋找和自己愛好相關(guān)的工作=》差異與表型關(guān)聯(lián)

基因預(yù)測

一般有兩種方法:

  • 和已知近緣物種基因集進行同源序列比對,篩選出同源比對區(qū)域,作為基因(就是利用已知的信息去預(yù)測未知)

  • 從頭預(yù)測:利用軟件對物種的基因組直接進行預(yù)測(如果分析的序列有明顯的特征,如:基因的編碼區(qū)CDS與開放閱讀框ORF、核糖體RNA的保守域、轉(zhuǎn)運RNA的倒三葉草結(jié)構(gòu),就可以用軟件識別結(jié)構(gòu)并預(yù)測)

兩種方法比較

從頭預(yù)測:不需要同源參考基因序列,直接可以進行預(yù)測,適用于新發(fā)現(xiàn)的物種(因為沒有足夠的已知信息,因此需要先構(gòu)建訓(xùn)練集【訓(xùn)練集:軟件先對基因組的特征做一個調(diào)查了解】)

序列比對:找的基因是已知發(fā)表過的,結(jié)果更加準確,但是畢竟是近緣物種,不可能序列區(qū)域一致,因此可能同源區(qū)不含有某個基因或者有一段非同源區(qū)域恰好含有特征基因,這樣就會漏掉一些

開放閱讀框(Open reading frame,ORF)

從5'端開始翻譯的其實密碼子(ATG)到終止密碼子(TTA、TAG、TGA)的蛋白編碼序列。預(yù)測之前我們是不知道DNA雙鏈中的哪一條鏈是編碼鏈,也不清楚準確的翻譯起始位置,但是知道的是:正負兩條鏈每條都有三種可能的ORF,兩條鏈共6種。于是我們就是利用這6種可能的ORF找到一個正確的,然后根據(jù)這個ORF得到氨基酸序列,最后預(yù)測出來蛋白產(chǎn)物

補充:不是所有的ORF都叫CDS

CDS,是編碼一段蛋白產(chǎn)物的序列;ORF是理論上的氨基酸編碼區(qū);CDS一定屬于ORF,當然可能包括許多個ORF,但是每個ORF不一定都是CDS。
ORF的識別是證明一個新的DNA序列為特定的蛋白質(zhì)編碼基因的部分或全部的先決條件。

http://bioinformatics.lofter.com/post/bffd5_243426

原核生物-軟件

基于HMM(隱馬可夫模型)glimmer3:https://ccb./software/glimmer/

Prodical:https://github.com/hyattpd/Prodigal

GeneMark:http://exon./GeneMark/

相對簡單,用自身的基因組作訓(xùn)練集即可

根據(jù)不同的物種,選擇適合的密碼子表
https://www.ncbi.nlm./Taxonomy/Utils/wprintgc.cgi

真核生物-軟件

復(fù)雜的地方在于:ORF不僅包含編碼蛋白的外顯子(exon)還有內(nèi)含子(intron),內(nèi)含子將ORF分割成許多個小片段,導(dǎo)致ORF的長度變化范圍很大。但是, 真核生物的外顯子與內(nèi)含子連接基本滿足GT-AG規(guī)律(即:內(nèi)含子序列的5’端起始的兩個核苷酸總是GT,3‘端最后的兩個核苷酸總是AG,5'-GT...AG-3'

利用Augustus(http://augustus./) 包括人、大型哺乳動物、植物、鳥類、真菌基因組等

訓(xùn)練集:http://augustus./datasets/

除了基因預(yù)測,還可以用于從頭預(yù)測,加入cDNA和EST序列,輔助提高預(yù)測準確度

一般可以選擇多個工具進行預(yù)測,因為預(yù)測是非常關(guān)鍵的一步,會影響到下游基因功能注釋部分,發(fā)表后別人還會以此來進行研究,因此,對于一個新的基因組,預(yù)測錯誤會產(chǎn)生“蝴蝶效應(yīng)”


    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多