小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

一篇零代碼的富集分析流程文獻(上)

 微笑如酒 2019-01-31

大神一句話,菜鳥跑半年。我不是大神,但我可以縮短你走彎路的半年~

   就像歌兒唱的那樣,如果你不知道該往哪兒走,就留在這學(xué)點生信好不好~

   這里有豆豆和花花的學(xué)習(xí)歷程,從新手到進階,生信路上有你有我!

title:Pathway enrichment analysis and visualization of omics data using g:Profiler, GSEA, Cytoscape and EnrichmentMap

使用g:Profiler,GSEA,Cytoscape和EnrichmentMap對組學(xué)數(shù)據(jù)進行通路富集分析和可視化

這個文章發(fā)表在nature protocols。在生信星球公眾號聊天窗口回復(fù)“121”可獲取文獻pdf。

對文章進行了簡單理解和翻譯,由于我是跨專業(yè),沒有什么背景知識積累,有不準(zhǔn)確的地方歡迎批評指正,目前只完成了這一部分,未完待續(xù)。

摘要

通路富集分析有助于研究人員獲得從基因組規(guī)模(組學(xué))實驗產(chǎn)生的基因列表的機制洞察。該方法鑒定的基因列表中富含的生物通路比偶然預(yù)期的更多。我們解釋了通路富集分析的程序,并提供了一個實用的逐步指導(dǎo),以幫助解釋由RNA-seq和基因組測序?qū)嶒灝a(chǎn)生的基因列表。該方案包括三個主要步驟:從組學(xué)數(shù)據(jù)定義基因列表,確定統(tǒng)計學(xué)上富集的通路,以及結(jié)果的可視化和解釋。我們描述了如何將該方案與差異表達基因和突變癌基因的已發(fā)表實例一起使用; 但是,這些原則可以應(yīng)用于各種類型的組學(xué)數(shù)據(jù)。該流程描述了創(chuàng)新型可視化技術(shù),提供了全面的背景和故障排除指南,并使用免費提供和經(jīng)常更新的軟件,包括g:Profiler,Gene Set Enrichment Analysis(GSEA),Cytoscape和EnrichmentMap。完整的流程可在約4.5小時內(nèi)完成,設(shè)計用于沒有事先生物信息學(xué)培訓(xùn)的生物學(xué)家。

Introduction

現(xiàn)在,生物樣品中DNA,RNA和蛋白質(zhì)的全面定量1?已成為常規(guī)。由此產(chǎn)生的數(shù)據(jù)是呈指數(shù)式增長,他們的分析有助于研究人員發(fā)現(xiàn)新的生物學(xué)功能,基因型-表型關(guān)系和疾病機理1,2。然而,對這些數(shù)據(jù)的分析和解釋是許多研究人員面臨的主要挑戰(zhàn)。分析經(jīng)常導(dǎo)致需要不切實際的大量手工文獻搜索解釋的長基因列表。解決該問題的標(biāo)準(zhǔn)方法是通路富集分析,其將大基因列表概括為更容易解釋的通路的較小列表。通過幾個常見的統(tǒng)計檢驗,考慮實驗中檢測到的基因數(shù)量,相對排名以及注釋到通路的基因數(shù)量,對實驗基因列表中相對于偶然預(yù)期的過度表達進行統(tǒng)計檢驗。例如,含有40%細胞周期基因的實驗數(shù)據(jù)令人驚訝地富集,因為只有8%的人類蛋白質(zhì)編碼基因參與了這一過程。

在最近的一個例子中,我們使用通路富集分析來幫助識別多梳抑制復(fù)合物(PRC2)的組蛋白和DNA甲基化作為室管膜瘤的第一個合理治療靶點,室管膜瘤是最常見的兒童腦癌之一3。該通路可通過可用的藥物如5-氮雜胞苷來靶向,其在患有終末病的患者中以富有同情心的方式使用并且停止快速轉(zhuǎn)移性腫瘤生長3。在另一個例子中,我們分析了自閉癥罕見的拷貝數(shù)變異(CNV的),并確定受基因缺失影響的重要通路,而通過對單個基因或基因座的病例對照關(guān)聯(lián)試驗,幾乎沒有發(fā)現(xiàn)顯著的影響(4),5。這些實例說明了使用通路富集分析可以實現(xiàn)的生物學(xué)機制的有用見解。

Development of the protocol

該流程涵蓋了源自基因組規(guī)模(組學(xué))技術(shù)的大基因列表的通路富集分析。該流程適用于對解釋其組學(xué)數(shù)據(jù)感興趣的實驗生物學(xué)家。它只需要一個學(xué)習(xí)和使用“單擊”計算機軟件的能力,盡管高級用戶可以從我們提供的補充流程自動分析腳本中獲益1 - 4。我們分析先前公布的人基因的表達和體細胞突變的數(shù)據(jù)作為實例6,7,8; 然而,我們的概念框架適用于分析來自大規(guī)模數(shù)據(jù)的任何生物的基因或生物分子列表,包括蛋白質(zhì)組學(xué),基因組學(xué),表觀基因組學(xué)和基因調(diào)控研究。我們廣泛使用的通路富集分析了許多項目,并已評估了許多可用的工具9,10,11,12。我們在這里介紹的軟件包因其易用性,免費訪問,高級功能,大量文檔和最新數(shù)據(jù)庫而被選中,它們是我們在研究中每天使用的軟件包,并向合作者和學(xué)生推薦。此外,我們還向這些工具的開發(fā)人員提供了反饋,使他們能夠?qū)崿F(xiàn)我們在已發(fā)布分析中所需的功能。這些工具是g:Profiler 13,GSEA 14,Cytoscape 15和EnrichmentMap 16,所有這些都可以在線免費獲得:

  • g:Profiler(https://biit.cs./gprofiler/)

  • GSEA(http://software./gsea/)

  • Cytoscape(http://www./)

  • EnrichmentMap(http://www./Software/EnrichmentMap)

Overview of the procedure

本節(jié)概述了通路富集分析的主要階段。下面的過程中提供了詳細的逐步流程。通路富集分析涉及三個主要階段(圖1 ;參見框1的基本定義)。

  1. 使用組學(xué)數(shù)據(jù)定義感興趣的基因列表。組學(xué)實驗在實驗環(huán)境中全面測量基因的活性。考慮到實驗設(shè)計,得到的原始數(shù)據(jù)集通常需要計算處理,例如歸一化和評分,以識別感興趣的基因。例如,可以從RNA-seq數(shù)據(jù)17導(dǎo)出兩組樣品之間差異表達的基因列表。從其它類型的組學(xué)實驗,如基因表達芯片得到的基因列表18,定量蛋白質(zhì)組學(xué)19,20,種系和體細胞的基因組測序21,22,23和總體DNA甲基化測定法24,25,可以在該流程中使用; 但是,每種類型的數(shù)據(jù)都可能需要特定的預(yù)處理步驟(參見“與替代方法的比較”部分)。

  2. 通路富集分析。統(tǒng)計方法用于鑒定第1階段基因列表中富集的通路,相對于偶然預(yù)期的通路。測試給定數(shù)據(jù)庫中的所有通路以在基因列表中富集(參見框2以獲得通路數(shù)據(jù)庫列表)??梢允褂脦追N已建立的通路富集分析方法,并且選擇使用哪種方法取決于基因列表的類型(參見“對替代方法的比較”部分)。

  3. 通路富集分析結(jié)果的可視化和解釋。在階段2中可以鑒定許多富集通路,通常包括相同通路的相關(guān)版本。可視化有助于確定主要的生物學(xué)主題及其關(guān)系,以進行深入研究和實驗評估。

圖1:流程概述。

fig1|來自不同組學(xué)數(shù)據(jù)的基因列表經(jīng)歷通路富集分析,使用g:Profiler或GSEA,以鑒定在實驗中富集的通路。使用其EnrichmentMap,AutoAnnotate,WordCloud和clusterMaker2應(yīng)用程序在Cytoscape中可視化和解釋通路富集分析結(jié)果。流程概述顯示在左側(cè),從基因列表輸入開始,每個階段的示例輸出顯示在右側(cè)。

Box 1 | Definitions

Pathway。共同實現(xiàn)生物過程的多個基因。

Gene set。一組相關(guān)的基因?!巴坊蚣卑ㄍ分械乃谢??;蚪M可以基于基因之間的各種關(guān)系,例如細胞定位(例如,核基因)或酶功能(例如,蛋白激酶)。蛋白質(zhì)相互作用等細節(jié)不包括在內(nèi)。

Gene list of interest。來自組學(xué)實驗的基因列表,其輸入到通路富集分析中。

Ranked gene list。在許多組學(xué)數(shù)據(jù)(例如,來自用于基因表達的RNA-seq的數(shù)據(jù))中,可以根據(jù)一些分?jǐn)?shù)(例如,差異表達水平)對基因進行分級,以提供用于通路富集分析的更多信息。富集在排序列表頂部的基因的通路得分高于如果通路基因隨機分散在排序列表中的情況。

Pathway enrichment analysis。一種統(tǒng)計技術(shù),用于鑒定在基因列表或排序的目標(biāo)基因列表中顯著表示的通路。

Multiple testing correction??梢詥为殰y試數(shù)以千計的通路進行富集,這可能導(dǎo)致顯著的富集P值單獨出現(xiàn)。多重檢測校正是一種統(tǒng)計技術(shù),用于校正個體富集測試中的P值以解決該問題并減少假陽性富集的機會(方框3)。

Leading-edge gene.。在GSEA分析中在最大ES處或之前的排名中發(fā)現(xiàn)的基因子集。這個基因子集通常可以解釋被定義為富集的通路。

Box2 通路富集分析資源

Pathway databases

我們列出了一系列大型,開放獲取且便于訪問的通路數(shù)據(jù)庫,這些數(shù)據(jù)庫為通路富集分析提供了最大價值。數(shù)百個通路數(shù)據(jù)庫可用于多種目的82。

Gene set databases

*基因本體論(GO)57:GO為生物過程,分子功能和細胞組分提供數(shù)千個標(biāo)準(zhǔn)化術(shù)語的分層組織,以及基于這些術(shù)語的多種物種的策劃和預(yù)測基因注釋。生物學(xué)過程GO注釋是通路富集分析中最常用的資源。

  • 分子簽名數(shù)據(jù)庫(MSigDB)80,81:MSigDB是基于GO基因集的數(shù)據(jù)庫,通路,治療,個體組學(xué)研究,序列基序,染色體位置,致癌性和免疫學(xué)表達特征,以及由GSEA團隊維護的各種計算機分析的基因組數(shù)據(jù)庫(http://www.)??梢垣@得相對非冗余的'標(biāo)志'基因集。該數(shù)據(jù)可與許多通路富集方法一起使用。

Detailed biochemical pathway databases

這些數(shù)據(jù)庫由管理團隊維護,他們手動收集詳細的通路信息,包括生化反應(yīng),基因調(diào)控事件和其他基因相互作用。信息可以導(dǎo)出或轉(zhuǎn)換為基因集格式。

  • Reactome 58:最活躍的人類通路通用公共數(shù)據(jù)庫(http://www.)。

  • Panther 38:人類信號通路(http:///pathway)。

  • NetPath 60:人類信號通路,重點是癌癥和免疫學(xué)(http://www./)。

  • HumanCyc 59:人類代謝通路(http:///)。

  • 國家癌癥研究所(NCI)通路相互作用數(shù)據(jù)庫(PID):人類癌癥相關(guān)的信號傳導(dǎo)通路; 此數(shù)據(jù)庫不再更新。

  • KEGG 83:KEGG數(shù)據(jù)庫是最有用的,因為有直觀的通路圖。它包含多種類型的通路,其中一些不是正常通路,而是與疾病相關(guān)的基因集,例如“癌癥中的通路”(http://www./kegg/)。由于數(shù)據(jù)許可限制,KEGG路徑的最新GMT文件目前無法免費提供。

Pathway meta-databases

這些數(shù)據(jù)庫收集自多個源通路數(shù)據(jù)庫的詳細通路描述。

  • Pathway Commons 45:從其他通路數(shù)據(jù)庫收集信息并以標(biāo)準(zhǔn)化格式提供。(http://www.)。

  • WikiPathways 48:共同驅(qū)動的通路集合,其中還包括來自其他數(shù)據(jù)庫的通路(http://www./)。


簡書:小潔忘了怎么分身

隔壁生信技能樹公益視頻合輯(學(xué)習(xí)順序是linux,r,軟件安裝,geo,小技巧,ngs組學(xué)!)

國內(nèi)看B站,教學(xué)視頻鏈接:https://m.bilibili.com/space/338686099 
國外看YouTube,教學(xué)視頻鏈接:https://m./channel/UC67sImqK7V8tSWHMG8azIVA/playlists 



    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多