小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

禾本科作物基因組的kmer分布

 洋溢九洲 2021-01-04

        做小麥的都知道麥類基因組龐大而且重復(fù)序列比例又很高,這給基因組分析造成了很大的困難,衡量基因組重復(fù)序列特征的一個(gè)方法就是統(tǒng)計(jì)kmer的分布情況。

        這里簡單的介紹下什么是kmer,所謂mer,大家可以理解成撕紙片,就是把基因組的堿基ATCG序列撕碎,怎么撕呢?假如k=4,就是撕成連續(xù)的4個(gè)堿基長度,k=20,就是就是撕成連續(xù)的20個(gè)堿基長度。假如基因組很小,只有ATCGCG,6個(gè)堿基組成,那么4mer就是ATCG,TCGG,CGCG。

        kmer的分布可以估算基因組的大小,基因組的重復(fù)序列占比,雜合性等特征??梢钥焖俚膶蚪M瞄一眼,看一看。所以利用重測序?qū)蚪M的kmer分布畫圖,一般也叫作調(diào)研圖。調(diào)研嗎,就是領(lǐng)導(dǎo)來走馬觀花的看一看,有時(shí)候準(zhǔn)有時(shí)候不準(zhǔn),只是看看,有個(gè)印象,別太當(dāng)真。

        一段長序列,按照一定的長度分拆后,就會(huì)產(chǎn)生片段化的mer,這時(shí)候?qū)@些短序列統(tǒng)計(jì)重復(fù)出現(xiàn)的次數(shù),可以得到?jīng)]有重復(fù)的mer和重復(fù)的mer,進(jìn)而得到?jīng)]有重復(fù)的mer占比。比如還是ATCGCG。2mers就是AT,TC,CG,GC,CG一共5個(gè)2mer,CG重復(fù)了一次,所以Uniqueness 2mers 比例就是3/5=0.6,4mers就是ATCG,TCGG,CGCG,沒有重復(fù)出現(xiàn)的mers,因此Uniqueness 4mers 比例就是1。大家可以想象的到一段序列重復(fù)序列越多Uniqueness kmers比例越低。

        今天給大家介紹一個(gè)軟件叫Tallymer來做這個(gè)分析。這個(gè)軟件其實(shí)是genometools軟件包下面的小軟件,詳細(xì)介紹和安裝(linux系統(tǒng)下載解壓就可以使用)可以參考這里http:///index.html。這里只做簡單的介紹。

        這個(gè)軟件有三個(gè)主要命令mkindex, occratio, 和search,第一個(gè)是對一段序列建立索引和kmer庫,occratio主要就是計(jì)算Uniqueness kmers 比值。結(jié)果有三列,第一列是mers大小,第二列是出現(xiàn)的頻次數(shù),第三列是出現(xiàn)的頻率。數(shù)據(jù)有了,下面畫圖就是小意思了。

1$gt suffixerator -dna -pl -tis -suf -lcp -v -parts 4 -db read1.fna -indexname reads
2
3 $
 gt tallymer occratio -scan -output unique relative -minmersize 10 -maxmersize 20 -esa reads
4# distribution of unique mers
510 223755 0.623
611 373775 0.802
712 444083 0.877
813 465859 0.904
914 468735 0.913
1015 465646 0.917
1116 460791 0.919
1217 455449 0.920
1318 450049 0.921
1419 444720 0.921
1520 439532 0.922
16# space peak in megabytes: 0.06
17# mmap space peak in megabytes: 3.93

這里貼上幾個(gè)小麥相關(guān)的kmer美圖,大家以后碰到這種圖就知道怎么回事了。

小麥染色體特征Circos圖。

        這個(gè)圖大家一看就知道哪里來的。這里第三圈,C圈,就是小麥Uniqueness 20-mers的頻率,著絲粒的地方明顯有一道黃線閃過,顯示重復(fù)序列更高。

        比較意外的是我在用這個(gè)軟件分析麥類作物的時(shí)候,發(fā)現(xiàn)和節(jié)節(jié)麥DD基因組發(fā)表時(shí)候kmer分布結(jié)果差別比較大。

圖2.麥類作物uniuqe kmers分布圖。

圖3. DD基因組發(fā)表時(shí)不同物種uniuqe kmer分布圖。

        圖2是我下載已發(fā)表的基因組序列算的,圖3是DD基因組發(fā)表時(shí)候的結(jié)果。可以看到我算出來的結(jié)果比圖3的Aet(DD)大的多。這是最先懷疑的是自己算錯(cuò)了,但是我又去比較了軟件發(fā)表時(shí),軟件作者的結(jié)果,可以看到圖4和我的結(jié)果比較類似,水稻雖然TE含量比較少,早早的就達(dá)到了90%以上,并不像圖3,一直在80%以下。

圖4. Tallymer軟件發(fā)表時(shí)計(jì)算的幾個(gè)物種uniuqe kmer分布圖。

有小伙伴知道原因嗎?歡迎來討論。

參考文獻(xiàn):

Kurtz S, Narechania A, Stein JC, Ware D. A new method to compute K-mer frequencies and its application to annotate large repetitive plant genomes.BMC Genomics. 2008 doi: 10.1186/1471-2164-9-517.

Luo MC, Gu YQ, Puiu D,Wang H, et al., Genome sequence of the progenitor of the wheat D genome Aegilops tauschii.Nature. 2017 Nov 23;551(7681):498-502. doi: 10.1038/nature24486.

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請遵守用戶 評(píng)論公約

    類似文章 更多