小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

關(guān)于功能富集分析的基礎(chǔ)知識

 liufuqiang0909 2021-03-30

富集分析

基因富集分析(gene set enrichment analysis)是在一組基因或蛋白中找到一類過表達(dá)的基因或蛋白。研究方法可分為三種:Over-Repressentation Analysis(ORA),F(xiàn)unctional Class Scoring(FCS)和Pathway Topology。ORA是目前應(yīng)用最多的方法,GO富集分析和KEGG富集分析就是使用的這種方法;FCS這種方法應(yīng)用于GSEA分析。

功能分析(functional analysis)/ 通路分析(pathway analysis)是將一堆基因按照基因的功能/通路來進(jìn)行分類。換句話說,就是把一個基因列表中,具有相似功能的基因放到一起,并和生物學(xué)表型關(guān)聯(lián)起來。GO分析是將基因分門別類放入一個個功能類群,而pathway則是將基因一個個具體放到代謝網(wǎng)絡(luò)中的指定位置。

為了解決將基因按照功能進(jìn)行分類的問題,科學(xué)家們開發(fā)了很多基因功能注釋數(shù)據(jù)庫。這其中比較有名的就是Gene Ontology(基因本體論,GO)Kyoto Encyclopedia of Genes and Genomes(京都基因與基因組百科全書,KEGG)。

GO

GO數(shù)據(jù)庫是基因本體論聯(lián)合會(Gene Ontology Consortium)建立的一個數(shù)據(jù)庫(官網(wǎng)http:///),旨在建立一個適用于各種物種的、對基因和蛋白功能進(jìn)行限定和描述的,并能隨著研究不斷深入而更新的語義詞匯標(biāo)準(zhǔn)。分別從分子功能、參與的生物途徑及細(xì)胞中的定位對基因產(chǎn)物進(jìn)行了標(biāo)準(zhǔn)化描述,一個基因?qū)?yīng)有一個或多個GO term(GO功能),一個term對應(yīng)多個gene。

GO注釋分為三大類,分別是:分子生物學(xué)功能(Molecular Function,MF)、生物學(xué)過程(Biological Process,BP)和細(xì)胞學(xué)組分(Cellular Components,CC),通過這三個功能大類,對一個基因的功能進(jìn)行多方面的限定和描述。

Cellular component解釋的是基因產(chǎn)物在哪里,在細(xì)胞質(zhì)還是在細(xì)胞核,如果存在細(xì)胞質(zhì)那在哪個細(xì)胞器上,如果是在線粒體中那是存在線粒體膜上還是在線粒體的基質(zhì)中。

Biological process該基因參與了哪些生物學(xué)過程,比如參與了rRNA的加工或參與了DNA的復(fù)制。

Molecular function該基因在分子層面的功能是什么,它是催化什么反應(yīng)的。

通常在得到差異表達(dá)基因后,可通過功能富集分析進(jìn)一步篩選對生物體具有重要意義的基因。將篩選得到的基因分門別類放入細(xì)胞組分CC、分子功能MF和生物過程BP三個功能類別中,基因產(chǎn)物被盡可能的富集到最低層的功能term上。尋找各個基因是否有共同的GO條目,或者有沒有共同的上級GO條目,可以發(fā)現(xiàn)具有某些共同特點的基因。根據(jù)超幾何分布關(guān)系,GO分析會對涉及的GO返回一個p-value,小的p值表示差異基因在該GO 中出現(xiàn)了富集。GO 分析對實驗結(jié)果有提示的作用,通過差異基因的GO 分析,可以找到富集差異基因的GO分類條目,尋找不同樣品的差異基因可能和哪些基因功能的改變有關(guān)。

補充:

GO是Gene Ontology的縮寫。本體論是哲學(xué)概念,它是研究存在的本質(zhì)的哲學(xué)問題。后來這個詞被應(yīng)用到計算機界,定義為概念化的詳細(xì)說明。在實現(xiàn)上,一個ontology往往就是一個正式的詞匯表,其核心作用就在于定義某一領(lǐng)域或領(lǐng)域內(nèi)的專業(yè)詞匯以及他們之間的關(guān)系,是領(lǐng)域內(nèi)部不同主體之間進(jìn)行交流的一種語義基礎(chǔ)。

使用GO的時候一般需要GO定義文件和GO關(guān)聯(lián)文件。GO定義文件存放GO詞條的定義,而GO關(guān)聯(lián)文件則是不同命名體系與GO詞條的映射關(guān)系。條目標(biāo)準(zhǔn)定義:

id:GO編號,如:GO:0031985

name:全稱,Golgi cisterna

ontology:命名空間namespace,cellular_component

definition:定義,Any of the thin, flattened membrane-bounded compartments that form the central portion of the Golgi complex. Source: GOC:mah

條目之間的關(guān)系,采用有向無環(huán)圖(Directed Acyclic Graphs,DAG)的形式。注釋系統(tǒng)中每一個節(jié)點就代表了一個基本描述單元(term),有向指的是term之間的單向指向性關(guān)系,比如termA是內(nèi)質(zhì)網(wǎng),termB是細(xì)胞器,規(guī)定A是B,卻不能說B是A;無環(huán)指的是從任何一點開始沿著規(guī)定的指向都不能回到原點。

圖片來源于網(wǎng)絡(luò)

KEGG

KEGG是一個整合了基因組、化學(xué)和系統(tǒng)功能信息的綜合數(shù)據(jù)庫。KEGG下屬4個大類和17和子數(shù)據(jù)庫,而其中有一個數(shù)據(jù)庫叫做KEGG Pathway,專門存儲不同物種中基因通路的信息,也是用的最多的一個,所以,久而久之,KEGG就被大家當(dāng)做是一個通路數(shù)據(jù)庫了。

GO分析好比是將基因分門別類放入一個個功能類群,而pathway則是將基因一個個具體放到代謝網(wǎng)絡(luò)中的指定位置。根據(jù)挑選出的差異基因,計算這些差異基因同Pathway 的超幾何分布關(guān)系,Pathway 分析會對每個有差異基因存在的pathway 返回一個p-value,小的p 值表示差異基因在該pathway 中出現(xiàn)了富集。pathway 分析對實驗結(jié)果有提示的作用,通過差異基因的Pathway 分析,可以找到富集差異基因的Pathway 條目,尋找不同樣品的差異基因可能和哪些細(xì)胞通路的改變有關(guān)。pathway 是蛋白質(zhì)之間的相互作用,pathway 的變化可以由參與這條pathway 途徑的蛋白的表達(dá)量或者蛋白的活性改變而引起,因此pathway 分析的結(jié)果更顯得間接。

Over-Repressentation Analysis(ORA)

過表征分析,其實就是想看看某類功能或分類和隨機事件相比是否有更明顯的趨勢。統(tǒng)計方法包括Fisher精確檢驗、卡方檢驗等。Fisher精確檢驗是基于超幾何分布計算的,它分為兩種,分別是單邊檢驗(等同于超幾何檢驗)和雙邊檢驗。超幾何分布檢驗常用來對venn圖兩個圈overlap的顯著性進(jìn)行檢驗,F(xiàn)isher精確檢驗常用來對2×2的列聯(lián)表進(jìn)行檢驗。

分析列聯(lián)表中兩個變量的關(guān)聯(lián),可以采取卡方檢驗(Chi-square test)。先假設(shè)兩個變量之間沒有關(guān)系(是否在這個GO term和是否在目標(biāo)基因集沒有關(guān)系,即目標(biāo)基因集在特定GO term沒有富集),計算統(tǒng)計量:Σ(實際值-理論值)^2/理論值,然后根據(jù)自由度(等于1)查表得到p值。如果p值小于0.05,說明原假設(shè)不成立,即目標(biāo)基因集在特定GO term出現(xiàn)了富集。

卡方檢驗最大的優(yōu)勢在于計算比較簡便,可以徒手計算,Fisher精確檢驗的計算要相對復(fù)雜些,但是現(xiàn)在實現(xiàn)起來也很容易了。對于2×2列聯(lián)表來說,卡方檢驗通常只能做為近似估計值,特別是當(dāng)總樣本量或理論頻數(shù)比較小的時候,計算并不準(zhǔn)確。一般情況下,如果總樣本量大于40,最小理論頻數(shù)大于5,可以使用卡方檢驗。但是,如果采用卡方檢驗得到的P值在0.05附近時,應(yīng)該用Fisher確切概率法。如果差異很大,采用卡方檢驗和Fisher確切概率法得到的結(jié)果相差不大。現(xiàn)在GO富集分析一般都是使用超幾何分布進(jìn)行計算的。

富集分析的超幾何分布檢驗的p值計算如下。N為所有基因中具有pathway/GO term注釋的基因數(shù)目;n為N中差異表達(dá)基因的數(shù)目;M為所有基因中注釋為某特定pathway/GO term的基因數(shù)目;m為注釋為某特定pathway/GO term的差異表達(dá)基因數(shù)目。通過計算得到的P value會進(jìn)一步經(jīng)過多重檢驗校正,通常應(yīng)用的是BH方法,得到FDR值。然后以FDR≤0.05為閾值,滿足此條件的pathway/GO term定義為在差異表達(dá)基因中顯著富集的pathway/GO term。此外還有很多其他的算法來試圖解決一個基因?qū)?yīng)多個GO term、一個term對應(yīng)多個gene的問題,但是本質(zhì)上也是基于Fisher's exact test。

p值計算   看不懂也沒關(guān)系
舉個栗子

常見的富集結(jié)果描述包括:

RichFactor,富集因子,是指感興趣基因列表中屬于這個term的基因的數(shù)量/背景基因集中富集在這個term中所有基因的數(shù)量。

p值或q值:代表富集顯著程度,可以映射到圖形顏色。

GeneNumber:感興趣基因列表中屬于這個term的基因數(shù)量。

Gene Percent(%):感興趣基因列表屬于這個term的基因的數(shù)量占感興趣基因列表所有基因數(shù)量的百分比

富集分析工具

推薦clusterProfiler,它支持ORA和FCS兩類算法。函數(shù)為:enrichGO, gseGO: GO富集分析;enrichKEGG, gseKEGG: KEGG富集分析;enrichDAVID: DAVID富集分析。

DAVID(https://david./)是由美國Leidos 生物醫(yī)學(xué)研究公司的LHRI團(tuán)隊開發(fā)的一個在線基因注釋及功能富集網(wǎng)站,最為常用且權(quán)威,引用超高(>21000)。但是它的數(shù)據(jù)庫版本比較老,目前最新版的DAVID 6.8還是在2016年更新的,而且基本只更新了GO和ID轉(zhuǎn)換的數(shù)據(jù),KEGG也沒有更新。聽說2016年Nature Methods 專門寫了Impact of outdated gene annotations on pathway enrichment analysis 吐槽大家還在用老舊的DAVID。

現(xiàn)在還是2016年更新的

GSEA

Gene Set Enrichment Analysis(基因集富集分析)用來評估一個預(yù)先定義的基因集S(已知功能的基因集)的基因在與表型相關(guān)度排序的基因列表L(按照logFC、Signal to Noise Ratio等排序的基因列表)中的分布趨勢(是隨機分布,還是主要分布在頂部或底部),從而判斷其對表型的貢獻(xiàn)。GSEA確定一個預(yù)先定義的基因集是否能在兩個生物學(xué)狀態(tài)中顯示出顯著的一致性的差異,通俗一點就是某個通路/GO條目中的基因集在實驗組和對照組中呈現(xiàn)出一 致的上調(diào)或者下調(diào)趨勢。

富集分?jǐn)?shù)enrichment score(ES)代表集合S在排序列表L的頂部或底部被過表達(dá)的程度。這個分?jǐn)?shù)是通過遍歷列表L來計算的,當(dāng)我們遇到一個在S中的基因時增加一個running-sum statistic(類Kolmogorov-Smirnovlike統(tǒng)計量),當(dāng)遇到的基因不在S中時減少統(tǒng)計量。增量的大小取決于基因統(tǒng)計(例如基因與表型的相關(guān)性)。ES為random walk中遇到的與零的最大偏差(maximum deviation from zero)。GSEA的那條曲曲折折的線就是通過不斷的加分減分做出來的,圖中的每一條垂直線表示基因集S中一個基因。

圖片來源于網(wǎng)絡(luò)

利用置換檢驗(permutation test)計算ES的p值。具體地說,我們對基因列表L的gene labels進(jìn)行重新排列(permute),并為排列后的數(shù)據(jù)重新計算基因集的ES(重復(fù)1000次),從而為ES生成一個null distribution。然后相對于這個零分布計算觀察到的ES的p值。并使用FDR調(diào)整計算q值

圖片來源于網(wǎng)絡(luò)
來自生信技能樹的圖

各種方法的特點

ORA方法存在一些問題:僅使用了基因數(shù)目信息,而沒有利用基因表達(dá)水平或表達(dá)差異值,為了獲得感興趣或者差異表達(dá)基因,需要人為的設(shè)置閾值;ORA法通常僅使用最顯著的基因,而忽略差異不顯著的基因。在獲得感興趣的基因時, 往往需要選取合適的閾值, 有可能會丟失顯著性較低但比較關(guān)鍵的基因, 導(dǎo)致檢測靈敏性的降低;假設(shè)每個基因都是獨立的,忽視了基因在通路內(nèi)部生物學(xué)意義的不同(如調(diào)控和被調(diào)控基因的不同)及基因間復(fù)雜的相互作用;ORA假設(shè)通路與通路間是獨立的,但這個前提假設(shè)是錯誤的。

FCS方法相較于ORA 法在理論上有明顯突破,考慮到了基因表達(dá)值的屬性信息, 以待測基因功能集為對象來進(jìn)行檢驗, 也使得檢驗結(jié)果更加靈敏。認(rèn)為雖然個體基因表達(dá)改變之后會更多在通路中體現(xiàn),但是一些功能相關(guān)基因中較弱但協(xié)調(diào)的變化(small but consistent changes)也有明顯的影響。但是仍獨立分析每一條通路,但同一個基因可能涉及多條通路,所以不同通路間的基因出現(xiàn)重疊,所以別的通路可能由于重疊的基因,也出現(xiàn)顯著富集;仍然把待測基因功能集中的每個基因作為獨立的個體, 忽略了基因的生物學(xué)屬性和基因間的復(fù)雜相互作用關(guān)系。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多