|
這是發(fā)布在bioconductor平臺(tái)上面的一個(gè)數(shù)據(jù)庫(kù)文件,可以通過(guò)R里面下載安裝并使用,非常方便。而且用的是數(shù)據(jù)庫(kù)存儲(chǔ)方式,所以搜索起來(lái)也是非??焖?。 這個(gè)包里面有28個(gè)主流數(shù)據(jù)資料文件,這樣我們可以用select函數(shù)根據(jù)我們自己的ID在這28個(gè)數(shù)據(jù)庫(kù)里面隨意轉(zhuǎn)換自己想要的信息!?。?/p> 當(dāng)然我本人是比較喜歡直接下載原文件,然后寫(xiě)腳本自己進(jìn)行各種數(shù)據(jù)直接的轉(zhuǎn)換。 首先我們加載這個(gè)數(shù)據(jù)包,可以看到這個(gè)數(shù)據(jù)包依賴于很多其它的包,如果是第一次安裝。會(huì)耗時(shí)很長(zhǎng)! 用這個(gè)函數(shù),可以看到這個(gè)org.Hs.eg.db數(shù)據(jù)對(duì)象里面包含著各大主流數(shù)據(jù)庫(kù)的數(shù)據(jù),一般人都比較熟悉的entrez ID 和ensembl 數(shù)據(jù)庫(kù)的ID。 keytypes(org.Hs.eg.db) ## [1] “ENTREZID” “PFAM” “IPI” “PROSITE” ## [5] “ACCNUM” “ALIAS” “ENZYME” “MAP” ## [9] “PATH” “PMID” “REFSEQ” “SYMBOL” ## [13] “UNIGENE” “ENSEMBL” “ENSEMBLPROT” “ENSEMBLTRANS” ## [17] “GENENAME” “UNIPROT” “GO” “EVIDENCE” ## [21] “ONTOLOGY” “GOALL” “EVIDENCEALL” “ONTOLOGYALL” ## [25] “OMIM” “UCSCKG” 然后,我們用select函數(shù),就可以把任意公共數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行一一對(duì)應(yīng)了。 ensids <> “ENSG00000144644″, “ENSG00000159307″, “ENSG00000144485″) cols <> select(org.Hs.eg.db, keys=ensids, columns=cols, keytype=”ENSEMBL”) 比如說(shuō),我們有幾個(gè)ensembl的基因ID號(hào)。然后我們想找它所對(duì)應(yīng)的gene名和縮略詞簡(jiǎn)稱,就通過(guò)select函數(shù)來(lái)搞定即可! select(org.Hs.eg.db, keys=”BRCA1″, columns=c(“ENSEMBL”,”UNIGENE”,”ENTREZID”,”CHR”,”GO”,”GENENAME”), keytype=”SYMBOL”) 這樣得到了這個(gè)BRCA1基因的大部分信息,只是它的GO條目太多了,看得有點(diǎn)亂。
|
|
|
來(lái)自: zhuqiaoxiaoxue > 《生信》