|
大神一句話,菜鳥跑半年。我不是大神,但我可以縮短你走彎路的半年~ 就像歌兒唱的那樣,如果你不知道該往哪兒走,就留在這學(xué)點生信好不好~ 這里有豆豆和花花的學(xué)習(xí)歷程,從新手到進階,生信路上有你有我! title:Pathway enrichment analysis and visualization of omics data using g:Profiler, GSEA, Cytoscape and EnrichmentMap 使用g:Profiler,GSEA,Cytoscape和EnrichmentMap對組學(xué)數(shù)據(jù)進行通路富集分析和可視化 這個文章發(fā)表在nature protocols。在生信星球公眾號聊天窗口回復(fù)“121”可獲取文獻pdf。 對文章進行了簡單理解和翻譯,由于我是跨專業(yè),沒有什么背景知識積累,有不準(zhǔn)確的地方歡迎批評指正,目前只完成了這一部分,未完待續(xù)。 摘要通路富集分析有助于研究人員獲得從基因組規(guī)模(組學(xué))實驗產(chǎn)生的基因列表的機制洞察。該方法鑒定的基因列表中富含的生物通路比偶然預(yù)期的更多。我們解釋了通路富集分析的程序,并提供了一個實用的逐步指導(dǎo),以幫助解釋由RNA-seq和基因組測序?qū)嶒灝a(chǎn)生的基因列表。該方案包括三個主要步驟:從組學(xué)數(shù)據(jù)定義基因列表,確定統(tǒng)計學(xué)上富集的通路,以及結(jié)果的可視化和解釋。我們描述了如何將該方案與差異表達基因和突變癌基因的已發(fā)表實例一起使用; 但是,這些原則可以應(yīng)用于各種類型的組學(xué)數(shù)據(jù)。該流程描述了創(chuàng)新型可視化技術(shù),提供了全面的背景和故障排除指南,并使用免費提供和經(jīng)常更新的軟件,包括g:Profiler,Gene Set Enrichment Analysis(GSEA),Cytoscape和EnrichmentMap。完整的流程可在約4.5小時內(nèi)完成,設(shè)計用于沒有事先生物信息學(xué)培訓(xùn)的生物學(xué)家。 Introduction現(xiàn)在,生物樣品中DNA,RNA和蛋白質(zhì)的全面定量1?已成為常規(guī)。由此產(chǎn)生的數(shù)據(jù)是呈指數(shù)式增長,他們的分析有助于研究人員發(fā)現(xiàn)新的生物學(xué)功能,基因型-表型關(guān)系和疾病機理1,2。然而,對這些數(shù)據(jù)的分析和解釋是許多研究人員面臨的主要挑戰(zhàn)。分析經(jīng)常導(dǎo)致需要不切實際的大量手工文獻搜索解釋的長基因列表。解決該問題的標(biāo)準(zhǔn)方法是通路富集分析,其將大基因列表概括為更容易解釋的通路的較小列表。通過幾個常見的統(tǒng)計檢驗,考慮實驗中檢測到的基因數(shù)量,相對排名以及注釋到通路的基因數(shù)量,對實驗基因列表中相對于偶然預(yù)期的過度表達進行統(tǒng)計檢驗。例如,含有40%細胞周期基因的實驗數(shù)據(jù)令人驚訝地富集,因為只有8%的人類蛋白質(zhì)編碼基因參與了這一過程。 在最近的一個例子中,我們使用通路富集分析來幫助識別多梳抑制復(fù)合物(PRC2)的組蛋白和DNA甲基化作為室管膜瘤的第一個合理治療靶點,室管膜瘤是最常見的兒童腦癌之一3。該通路可通過可用的藥物如5-氮雜胞苷來靶向,其在患有終末病的患者中以富有同情心的方式使用并且停止快速轉(zhuǎn)移性腫瘤生長3。在另一個例子中,我們分析了自閉癥罕見的拷貝數(shù)變異(CNV的),并確定受基因缺失影響的重要通路,而通過對單個基因或基因座的病例對照關(guān)聯(lián)試驗,幾乎沒有發(fā)現(xiàn)顯著的影響(4),5。這些實例說明了使用通路富集分析可以實現(xiàn)的生物學(xué)機制的有用見解。 Development of the protocol該流程涵蓋了源自基因組規(guī)模(組學(xué))技術(shù)的大基因列表的通路富集分析。該流程適用于對解釋其組學(xué)數(shù)據(jù)感興趣的實驗生物學(xué)家。它只需要一個學(xué)習(xí)和使用“單擊”計算機軟件的能力,盡管高級用戶可以從我們提供的補充流程自動分析腳本中獲益1 - 4。我們分析先前公布的人基因的表達和體細胞突變的數(shù)據(jù)作為實例6,7,8; 然而,我們的概念框架適用于分析來自大規(guī)模數(shù)據(jù)的任何生物的基因或生物分子列表,包括蛋白質(zhì)組學(xué),基因組學(xué),表觀基因組學(xué)和基因調(diào)控研究。我們廣泛使用的通路富集分析了許多項目,并已評估了許多可用的工具9,10,11,12。我們在這里介紹的軟件包因其易用性,免費訪問,高級功能,大量文檔和最新數(shù)據(jù)庫而被選中,它們是我們在研究中每天使用的軟件包,并向合作者和學(xué)生推薦。此外,我們還向這些工具的開發(fā)人員提供了反饋,使他們能夠?qū)崿F(xiàn)我們在已發(fā)布分析中所需的功能。這些工具是g:Profiler 13,GSEA 14,Cytoscape 15和EnrichmentMap 16,所有這些都可以在線免費獲得:
Overview of the procedure本節(jié)概述了通路富集分析的主要階段。下面的過程中提供了詳細的逐步流程。通路富集分析涉及三個主要階段(圖1 ;參見框1的基本定義)。
圖1:流程概述。 fig1|來自不同組學(xué)數(shù)據(jù)的基因列表經(jīng)歷通路富集分析,使用g:Profiler或GSEA,以鑒定在實驗中富集的通路。使用其EnrichmentMap,AutoAnnotate,WordCloud和clusterMaker2應(yīng)用程序在Cytoscape中可視化和解釋通路富集分析結(jié)果。流程概述顯示在左側(cè),從基因列表輸入開始,每個階段的示例輸出顯示在右側(cè)。 Box 1 | DefinitionsPathway。共同實現(xiàn)生物過程的多個基因。 Gene set。一組相關(guān)的基因?!巴坊蚣卑ㄍ分械乃谢??;蚪M可以基于基因之間的各種關(guān)系,例如細胞定位(例如,核基因)或酶功能(例如,蛋白激酶)。蛋白質(zhì)相互作用等細節(jié)不包括在內(nèi)。 Gene list of interest。來自組學(xué)實驗的基因列表,其輸入到通路富集分析中。 Ranked gene list。在許多組學(xué)數(shù)據(jù)(例如,來自用于基因表達的RNA-seq的數(shù)據(jù))中,可以根據(jù)一些分?jǐn)?shù)(例如,差異表達水平)對基因進行分級,以提供用于通路富集分析的更多信息。富集在排序列表頂部的基因的通路得分高于如果通路基因隨機分散在排序列表中的情況。 Pathway enrichment analysis。一種統(tǒng)計技術(shù),用于鑒定在基因列表或排序的目標(biāo)基因列表中顯著表示的通路。 Multiple testing correction??梢詥为殰y試數(shù)以千計的通路進行富集,這可能導(dǎo)致顯著的富集P值單獨出現(xiàn)。多重檢測校正是一種統(tǒng)計技術(shù),用于校正個體富集測試中的P值以解決該問題并減少假陽性富集的機會(方框3)。 Leading-edge gene.。在GSEA分析中在最大ES處或之前的排名中發(fā)現(xiàn)的基因子集。這個基因子集通常可以解釋被定義為富集的通路。 Box2 通路富集分析資源Pathway databases 我們列出了一系列大型,開放獲取且便于訪問的通路數(shù)據(jù)庫,這些數(shù)據(jù)庫為通路富集分析提供了最大價值。數(shù)百個通路數(shù)據(jù)庫可用于多種目的82。 Gene set databases *基因本體論(GO)57:GO為生物過程,分子功能和細胞組分提供數(shù)千個標(biāo)準(zhǔn)化術(shù)語的分層組織,以及基于這些術(shù)語的多種物種的策劃和預(yù)測基因注釋。生物學(xué)過程GO注釋是通路富集分析中最常用的資源。
Detailed biochemical pathway databases 這些數(shù)據(jù)庫由管理團隊維護,他們手動收集詳細的通路信息,包括生化反應(yīng),基因調(diào)控事件和其他基因相互作用。信息可以導(dǎo)出或轉(zhuǎn)換為基因集格式。
Pathway meta-databases 這些數(shù)據(jù)庫收集自多個源通路數(shù)據(jù)庫的詳細通路描述。
|
|
|