小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

ID轉(zhuǎn)換不用怕(二),R大神Y叔clusterProfiler包幫你忙

 雙峰寶林 2019-05-06

之前Leopard老師介紹了關(guān)于用biomart包進(jìn)行ID轉(zhuǎn)換的方式,Byron現(xiàn)在給大家介紹另外一種方式,使用Y叔的clusterProfiler包進(jìn)行ID轉(zhuǎn)換。

簡(jiǎn)單介紹一下幾種常用的ID

Ensemble id由歐洲生物信息數(shù)據(jù)庫(kù)提供,一般以ENSG開(kāi)頭,后邊跟11位數(shù)字。如TP53基因:ENSG00000141510

Entrez id由美國(guó)NCBI提供,通常為純數(shù)字。如TP53基因:7157

Symbol id為我們常在文獻(xiàn)中報(bào)道的基因名稱(chēng)。如TP53基因的symbol id為T(mén)P53

Refseq idNCBI提供的參考序列數(shù)據(jù)庫(kù):可以是NG、NM、NP開(kāi)頭,代表基因,轉(zhuǎn)錄本和蛋白質(zhì)。如TP53基因的某個(gè)轉(zhuǎn)錄本信息可為NM_000546

簡(jiǎn)單介紹一下clusterProfiler包

clusterProfiler包是有Y叔開(kāi)發(fā)的包之一,可以進(jìn)行基因及基因簇的分析和基因譜功能可視化,功能強(qiáng)大且更新很頻繁。我們今天在clusterProfiler包中用到的是其中的叫做bitr()bitr_kegg()的函數(shù),支持許多物種的ID轉(zhuǎn)換。

一 clusterProfiler包的安裝與簡(jiǎn)介

與其他的在bioconductor包中安裝的方式相同

查看關(guān)于clusterProfiler包的使用文檔

之后會(huì)有網(wǎng)頁(yè)彈出,可以看到網(wǎng)頁(yè)版說(shuō)明、R代碼等

二 載入包library(clusterProfiler)

三 載入注釋包

如人類(lèi)的基因組注釋包library(org.Hs.eg.db)

安裝方式和別的bioconductor包中的方式相同

簡(jiǎn)單地說(shuō)明一下注釋包:

因?yàn)樵诓煌奈锓N中,都有著不同的注釋信息。當(dāng)我們要進(jìn)行人類(lèi)的基因組的注釋時(shí),我們要選擇人類(lèi)的基因組注釋包。另外,在bioconductor中OrgDb對(duì)象支持19個(gè)物種的注釋http:///packages/release/BiocViews.html#___OrgDb

四 查看注釋包中支持的ID轉(zhuǎn)換類(lèi)型

clusterProfiler包方便地提供了keytypes()函數(shù)查看注釋包中的可以進(jìn)行ID轉(zhuǎn)換的項(xiàng)目。

我們查看一下人類(lèi)的注釋包中支持的ID轉(zhuǎn)換類(lèi)型。keytypes(org.Hs.eg.db)

發(fā)現(xiàn)我們常用的幾種,如:ENSEMBL、ENTREZID、SYMBOL、REFSEQ都在其中。

五 進(jìn)行ID轉(zhuǎn)換

我們的輸入如果是SYMBOL ID的話

我們打算輸出為ENSEMBL、ENTREZID、REFSEQ這三種ID,

利用bitr()函數(shù),

完整的函數(shù)是:bitr(geneID, fromType, toType, OrgDb, drop = TRUE)。

其中的參數(shù)代表:

geneID:輸入的geneID

fromType:輸入的ID類(lèi)型

toType:輸出的ID類(lèi)型

OrgDb:注釋對(duì)象的信息

Drop:去除空值與否

輸出結(jié)果:

函數(shù)輸出的對(duì)象為數(shù)據(jù)框dataframe,有利用數(shù)據(jù)框的操作方式進(jìn)行后續(xù)操作。

留一個(gè)小作業(yè),請(qǐng)同學(xué)們嘗試一下查找自己感興趣基因的ensembl id、entrez id、refseq id吧。以TP53為例子:

六 利用bitr_kegg()函數(shù)進(jìn)行基因ID與蛋白質(zhì)ID的轉(zhuǎn)換

和之前的bitr函數(shù)類(lèi)似,完整的bitr_kegg()函數(shù)為bitr_kegg(geneID, fromType, toType, organism, drop = TRUE)

注意: 

1.這里我們的輸入fromType以及輸出toType,允許的ID為必須為:‘kegg’, ‘ncbi-geneid’, ‘ncbi-proteinid’ or ‘uniprot’中的一個(gè),否則會(huì)報(bào)錯(cuò);另外,kegg id的數(shù)據(jù)源是NCBI,所以這個(gè)kegg identrez id是一致的。

2.orgaism參數(shù)可以為:‘hsa’,代表人類(lèi)。其他的物種名稱(chēng)可以參考kegg的網(wǎng)站https://www./kegg/catalog/org_list.html

還是以TP53基因?yàn)槔?,我們這里的輸入為T(mén)P53的entrez id: 7157。

我們從kegg轉(zhuǎn)換成ncbi-proteinid

我們從kegg轉(zhuǎn)換成uniprot

這里我們需要了解為什么會(huì)出現(xiàn)3個(gè)不同了解的uniprot。

首先,在uniprot中,uniProtKB是經(jīng)過(guò)專(zhuān)家校驗(yàn)的蛋白數(shù)據(jù)庫(kù)集,我們一般也通過(guò)該數(shù)據(jù)庫(kù)查找蛋白的信息。UniProtKB英文全稱(chēng)UniProt Knowledgebase(UniProt知識(shí)庫(kù)。主要由兩部分組成:UniProtKB/Swiss-Prot (包含檢查過(guò)的、手工注釋的條目) 和 UniProtKB/TrEMBL (包含未校驗(yàn)的、自動(dòng)注釋的條目)。 

我們分別看一下我們通過(guò)轉(zhuǎn)換之后的uniprot id在uniprot數(shù)據(jù)庫(kù)中的說(shuō)明。我們進(jìn)入數(shù)據(jù)庫(kù)中查詢(xún),網(wǎng)站為https://www./

可以發(fā)現(xiàn),P04637顯示的是TP53基因的蛋白質(zhì)表達(dá)水平,級(jí)別是Reviewed,就是其來(lái)源為UniProtKB/Swiss-Prot。


同理,我們可以找到K7PPA8和Q53GA5的結(jié)果。兩者都是轉(zhuǎn)錄本水平的表達(dá),級(jí)別都是Unreviewed,就是其來(lái)源為UniProtKB/TrEMBL。另外,相對(duì)而言,K7PPA8的注釋分?jǐn)?shù)要高,說(shuō)明注釋的程度要高一些。

七 ID轉(zhuǎn)換之后

一般ID轉(zhuǎn)換僅僅為開(kāi)始的準(zhǔn)備工作,將自己的數(shù)劇轉(zhuǎn)換好之后可以進(jìn)行后續(xù)的分析。另外,利用clusterProfiler包可以進(jìn)行許多豐富的下游分析,比如GO分析、KEGG分析等等,有興趣的同學(xué)們可以進(jìn)一步學(xué)習(xí)。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多