|
做小麥的都知道麥類基因組龐大而且重復(fù)序列比例又很高,這給基因組分析造成了很大的困難,衡量基因組重復(fù)序列特征的一個(gè)方法就是統(tǒng)計(jì)kmer的分布情況。 這里簡單的介紹下什么是kmer,所謂mer,大家可以理解成撕紙片,就是把基因組的堿基ATCG序列撕碎,怎么撕呢?假如k=4,就是撕成連續(xù)的4個(gè)堿基長度,k=20,就是就是撕成連續(xù)的20個(gè)堿基長度。假如基因組很小,只有ATCGCG,6個(gè)堿基組成,那么4mer就是ATCG,TCGG,CGCG。 kmer的分布可以估算基因組的大小,基因組的重復(fù)序列占比,雜合性等特征??梢钥焖俚膶蚪M瞄一眼,看一看。所以利用重測序?qū)蚪M的kmer分布畫圖,一般也叫作調(diào)研圖。調(diào)研嗎,就是領(lǐng)導(dǎo)來走馬觀花的看一看,有時(shí)候準(zhǔn)有時(shí)候不準(zhǔn),只是看看,有個(gè)印象,別太當(dāng)真。 一段長序列,按照一定的長度分拆后,就會(huì)產(chǎn)生片段化的mer,這時(shí)候?qū)@些短序列統(tǒng)計(jì)重復(fù)出現(xiàn)的次數(shù),可以得到?jīng)]有重復(fù)的mer和重復(fù)的mer,進(jìn)而得到?jīng)]有重復(fù)的mer占比。比如還是ATCGCG。2mers就是AT,TC,CG,GC,CG一共5個(gè)2mer,CG重復(fù)了一次,所以Uniqueness 2mers 比例就是3/5=0.6,4mers就是ATCG,TCGG,CGCG,沒有重復(fù)出現(xiàn)的mers,因此Uniqueness 4mers 比例就是1。大家可以想象的到一段序列重復(fù)序列越多Uniqueness kmers比例越低。 今天給大家介紹一個(gè)軟件叫Tallymer來做這個(gè)分析。這個(gè)軟件其實(shí)是genometools軟件包下面的小軟件,詳細(xì)介紹和安裝(linux系統(tǒng)下載解壓就可以使用)可以參考這里http:///index.html。這里只做簡單的介紹。 這個(gè)軟件有三個(gè)主要命令mkindex, occratio, 和search,第一個(gè)是對一段序列建立索引和kmer庫,occratio主要就是計(jì)算Uniqueness kmers 比值。結(jié)果有三列,第一列是mers大小,第二列是出現(xiàn)的頻次數(shù),第三列是出現(xiàn)的頻率。數(shù)據(jù)有了,下面畫圖就是小意思了。 1$gt suffixerator -dna -pl -tis -suf -lcp -v -parts 4 -db read1.fna -indexname reads這里貼上幾個(gè)小麥相關(guān)的kmer美圖,大家以后碰到這種圖就知道怎么回事了。 小麥染色體特征Circos圖。 這個(gè)圖大家一看就知道哪里來的。這里第三圈,C圈,就是小麥Uniqueness 20-mers的頻率,著絲粒的地方明顯有一道黃線閃過,顯示重復(fù)序列更高。 比較意外的是我在用這個(gè)軟件分析麥類作物的時(shí)候,發(fā)現(xiàn)和節(jié)節(jié)麥DD基因組發(fā)表時(shí)候kmer分布結(jié)果差別比較大。 圖2.麥類作物uniuqe kmers分布圖。 圖3. DD基因組發(fā)表時(shí)不同物種uniuqe kmer分布圖。 圖2是我下載已發(fā)表的基因組序列算的,圖3是DD基因組發(fā)表時(shí)候的結(jié)果。可以看到我算出來的結(jié)果比圖3的Aet(DD)大的多。這是最先懷疑的是自己算錯(cuò)了,但是我又去比較了軟件發(fā)表時(shí),軟件作者的結(jié)果,可以看到圖4和我的結(jié)果比較類似,水稻雖然TE含量比較少,早早的就達(dá)到了90%以上,并不像圖3,一直在80%以下。 圖4. Tallymer軟件發(fā)表時(shí)計(jì)算的幾個(gè)物種uniuqe kmer分布圖。 有小伙伴知道原因嗎?歡迎來討論。 參考文獻(xiàn): Kurtz S, Narechania A, Stein JC, Ware D. A new method to compute K-mer frequencies and its application to annotate large repetitive plant genomes.BMC Genomics. 2008 doi: 10.1186/1471-2164-9-517. Luo MC, Gu YQ, Puiu D,Wang H, et al., Genome sequence of the progenitor of the wheat D genome Aegilops tauschii.Nature. 2017 Nov 23;551(7681):498-502. doi: 10.1038/nature24486. |
|
|