|
上一期的RNA-seq結果解讀,我們和生信小白們談了一下差異基因分析中的火山圖、韋恩圖、聚類圖(點這里查看這一期微信)。
本期咱們看看RNA-seq如何利用GO和KEGG數(shù)據(jù)庫!
GO(gene ontology)數(shù)據(jù)庫,收集的是對各種物種基因功能進行限定和描述的標準詞匯(term),是國際標準化的基因功能描述分類系統(tǒng)。根據(jù)基因產(chǎn)物的相關生物學過程( biological_process)、細胞組分(cellular_component)以及分子功能(molecular_function)三個大類分別給予定義,而每一大類下又包含更多層級具體term,這些定義與具體物種無關。
KEGG(Kyoto Encyclopedia of Genes and Genomes)是一個綜合數(shù)據(jù)庫,整合了基因組信息、化學信息和生化系統(tǒng)功能信息,目前包含了16個子數(shù)據(jù)庫。比如,KEGG PATHWAY數(shù)據(jù)庫包含了圖解的細胞代謝、膜轉運、信號傳導等通路信息; KEGG GENES數(shù)據(jù)庫、KEGG GENOME數(shù)據(jù)庫則包含了部分或者完整序列的基因/基因組信息;KEGG Orthology(KO)是KEGG直系同源數(shù)據(jù)庫,將各個KEGG注釋系統(tǒng)聯(lián)系在一起,將分子網(wǎng)絡和基因組信息聯(lián)系起來,根據(jù)直系同源關系,實現(xiàn)跨物種的基因組或轉錄組的功能注釋。
GO功能分類 

圖示解析: 橫坐標:GO三個基本分類(BiologicalProcess、CellularComponent、Molecular Function)以及各類的下一層級term,從中可以看到描述BP、CC或MF的具體term有哪些。通過該圖對應的表格可以查找某一基因的具體功能信息。 縱坐標:注釋到某一term(該term及其子term)的基因數(shù)目。
有向無環(huán)圖 

圖示解析: 有向無環(huán)圖(DAG圖):GO數(shù)據(jù)庫中,3大獨立的ontology(BP、CC、MF)下面又可以獨立出不同的亞層次,層層向下構成一個ontologies的樹型分支結構,即有向無環(huán)圖型。 RNA-seq中,對差異表達基因進行GO富集分析,采用topGO軟件包實現(xiàn)有向無環(huán)圖,展示差異基因富集的GO term及其層級關系,從上至下所定義的功能范圍越來越具體。 對BP、CC、MF三大類各取富集程度最高的前10位作為DAG圖主節(jié)點(方框表示),通過包含關系(is_a和part_of)將相關聯(lián)的GO term一起展示,顏色越深代表富集程度越高,可以看出某一個term可以有多個箭頭指向。比如 biological process term 'hexose biosynthesis' 有兩個parents:'hexose metabolism'和'monosaccharide biosynthesis',這是因為生物合成是代謝的一種,而己糖又是單糖的一種。 每一個節(jié)點(方框or橢圓),包含4行信息:GO term的id、該term的描述、GO富集的Corrected P-Value、該term下差異基因的數(shù)目/該term下基因組背景基因的數(shù)目。
散點圖 

圖示解析: RNA-seq中,對差異表達基因進行KEGG富集分析,可以通過散點圖展示。此圖中,KEGG富集程度通過Rich factor、qvalue和富集到此通路上的基因個數(shù)來衡量。 橫坐標是Rich factor,數(shù)值越大表示富集程度越大。Rich factor=位于該pathway term下的差異表達基因數(shù)/位于該pathway term下的所有有注釋基因數(shù)。 縱坐標是富集程度較高的pathway term(一般選取富集最顯著的20條進行展示,不足20條則全部列出)。 q value是經(jīng)過多重校驗的p value,取值范圍[0,1],以顏色表示,越紅表示q value越小,說明富集越明顯。 點的大小表示該term下差異基因的個數(shù),點越大表示基因數(shù)越多。
KEGG通路圖 

圖示解析: RNA-seq中,KEGG通路圖是將差異表達基因所處的通路信息進行展示。 對于有參考基因組的物種,轉錄組測序獲得的差異基因構建KEGG通路圖時可以選擇物種特異性通路圖(Organism-specificpathway map),物種相關的通路節(jié)點以綠色背景的方框表示。 節(jié)點(矩形框)代表某一基因、該基因編碼的酶及這個酶參與的反應??蛑械臄?shù)字 是EC編號。網(wǎng)頁版通路圖分析結果中,點擊該節(jié)點可以獲得具體的信息(如下圖)。550369是KEGG中的基因ID, T01004是物種標識符,然后是基因的名稱,屬于哪個KO分類以及表達的酶,對應的物種信息,參與哪些代謝途徑,下面還有結構、序列信息等等。 
紅色邊框表示該差異基因是上調(diào)的, 綠色邊框表示下調(diào)。上圖展示的是有參轉錄組差異基因參與的類固醇生物合成途徑。有時還會遇到黃色邊框標注的,表示既有上調(diào)的也有下調(diào)的。粉色邊框表示該節(jié)點是有差異的,但不區(qū)分具體上、下調(diào)。
對于沒有基因組序列的物種,選擇無參轉錄組測序,此時構建KEGG通路圖選擇的是 KO Reference pathway,不區(qū)分具體物種信息,節(jié)點以藍色背景標注(如下圖)。

KEGG通路圖中各種符號的含義: 
希望本期的分享能夠帶給你一點點幫助。如果大神們有更好的介紹,歡迎在評論區(qū)與大家分享交流~
文案:杜德超(轉錄調(diào)控事業(yè)部) 編輯:賈紅麗
|