|
聲明:本文轉(zhuǎn)載自“微生物生態(tài)”公眾號(hào),一個(gè)有干貨的公眾號(hào)
系統(tǒng)發(fā)育樹(shù)(Phylogenetic tree)又稱為系統(tǒng)進(jìn)化樹(shù),是用一種類似樹(shù)狀分支的圖形來(lái)概括各物種之間的親緣關(guān)系,可用來(lái)描述物種之間的進(jìn)化關(guān)系。
1.系統(tǒng)發(fā)育樹(shù)構(gòu)建步驟

系統(tǒng)發(fā)育樹(shù)構(gòu)建的第一步是進(jìn)行多序列比對(duì),常用的軟件包括MEGA, cluster X,Muscle,phylip等。(都很常用,就看哪個(gè)順手) MEGA是最常用的比對(duì)建樹(shù)軟件,優(yōu)點(diǎn)是可視化圖形界面,簡(jiǎn)單方便;缺點(diǎn)是比對(duì)速度慢,輸出格式單一。 Cluster X 的優(yōu)點(diǎn)是圖形界面,可輸出多種格式(如phy);缺點(diǎn)也是慢。 Muscle和phylip 的優(yōu)點(diǎn)是運(yùn)算快,不過(guò)需要輸入簡(jiǎn)單地代碼,可能不適合初學(xué)者。
系統(tǒng)發(fā)育樹(shù)構(gòu)建的基本方法有如下幾種:
1、Distance-based methods 距離法:
(基于距離的方法:首先通過(guò)各個(gè)物種之間的比較,根據(jù)一定的假設(shè)(進(jìn)化距離模型)推導(dǎo)得出分類群之間的進(jìn)化距離,構(gòu)建一個(gè)進(jìn)化距離矩陣。進(jìn)化樹(shù)的構(gòu)建則是基于這個(gè)矩陣中的進(jìn)化距離關(guān)系。) · Unweightedpair group method using arithmetic average(UPGMA)非加權(quán)分組平均法
· Minimum evolution(ME)最小進(jìn)化法 · Neighbor joining(NJ)鄰位歸并法 2、Character-based methods 特征法:
(基于特征的方法:不計(jì)算序列間的距離,而是將序列中有差異的位點(diǎn)作為單獨(dú)的特征,并根據(jù)這些特征來(lái)建樹(shù)。) · Maximum parsimony(MP) 最大簡(jiǎn)約法
· Maximum likelihood method(ML) 最大似然法 模型選擇的依據(jù)如下圖: 
其中UPGMA法已經(jīng)較少使用。一般來(lái)講,如果模型合適,ML的效果較好。對(duì)近緣序列,有人喜歡MP,因?yàn)橛玫募僭O(shè)最少。MP一般不用在遠(yuǎn)緣序列上,這時(shí)一般用NJ或ML.對(duì)相似度很低的序列,NJ往往出現(xiàn)Long-branch attraction(LBA,長(zhǎng)枝吸引現(xiàn)象),有時(shí)嚴(yán)重干擾進(jìn)化樹(shù)的構(gòu)建。貝葉斯的方法則太慢。對(duì)于各種方法構(gòu)建分子進(jìn)化樹(shù)的準(zhǔn)確性,一篇綜述(Hall BG. Mol Biol Evol 2005,22(3):792-802)認(rèn)為貝葉斯的方法最好,其次是ML,然后是MP。其實(shí)如果序列的相似性較高,各種方法都會(huì)得到不錯(cuò)的結(jié)果,模型間的差別也不大。不過(guò)現(xiàn)在文章普遍使用的是NJ是ML模型。
4.進(jìn)化樹(shù)評(píng)估
用截然不同的距離矩陣法與簡(jiǎn)約法分析一個(gè)數(shù)據(jù)集,如果能產(chǎn)生相似的系統(tǒng)發(fā)育樹(shù),這樣的樹(shù)可以認(rèn)為是可靠的。 我們一般用Bootstrap(自展法)進(jìn)行檢驗(yàn),現(xiàn)在一般文章要求Bootstrap值1000。雖然根據(jù)嚴(yán)格的統(tǒng)計(jì)學(xué)概念,自展值要大于95%才較為可信,然而在實(shí)際應(yīng)用中,特別是微生物等相似度比較大的分類中,一般大于50%就認(rèn)為可信(小于50%隱去)。 系統(tǒng)發(fā)育樹(shù)的一般解讀如下圖:

對(duì)我們而言 ,最常用到的三個(gè)指標(biāo)分別是距離標(biāo)尺,分支長(zhǎng)度和自展值。

距離標(biāo)尺:進(jìn)化樹(shù)可以顯示序列的差異度,這里的標(biāo)尺就可以當(dāng)做為進(jìn)化樹(shù)的“比例尺”。 分支長(zhǎng)度:在樹(shù)形結(jié)構(gòu)中,枝長(zhǎng)累積距離越近的樣本差異越小,反之差異越大。比如OTU16與Nitrosospira multiformis的差異度是A1+A2,OTU16與Nitrosospira briensis的距離是A2+A3+A4,以此類推。
自展值:剛才已經(jīng)講過(guò)關(guān)于自展值的評(píng)估方法。自展值可以顯示可信度。一般低于50%的會(huì)隱去。那啥情況下會(huì)低于50%呢,兩種情況,相似度太低或太高。一般來(lái)說(shuō),低自展值靠近分支末端,可能是由于相似度太高難以區(qū)分,這時(shí)建議可以換一個(gè)基因建樹(shù)。如果低自展值靠近根,可能是由于相似度太低。
5.進(jìn)化樹(shù)美化
進(jìn)化樹(shù)沒(méi)問(wèn)題以后,可以在美學(xué)角度對(duì)進(jìn)化樹(shù)進(jìn)行改善??梢杂玫降能浖蠥I, PS,ggtree、GraPhlAn、treeview,F(xiàn)igtree,和在線網(wǎng)站ITOL等。一般需要建完樹(shù)后用輸出格式為 *.tree 或 *.nwk 的文件,導(dǎo)入到相關(guān)軟件,進(jìn)行修飾。
最后,就可以做成這樣的圖啦! 
|