|
作者:白介素2 大家好,我是白介素2同學(xué),想必小伙伴們?cè)缫验_工了,白介素同學(xué)這個(gè)春節(jié)實(shí)在是沒怎么學(xué)習(xí)呀(所謂人在江湖,身不由己,容我甩個(gè)鍋),慚愧慚愧,悟已往之不諫,知來者之可追。新的一年,我們都是追夢(mèng)人! 追夢(mèng),分享一個(gè)神器,向科研更深處探索 咱不來虛的,只分享干貨,不談枯燥的理論,只來通俗易懂的操作。先來看一張圖:
通過這張圖展示的是 GEO數(shù)據(jù)庫(kù)中的 RNA-seq數(shù)據(jù)與芯片數(shù)據(jù)積累隨時(shí)間的變化,很顯然測(cè)序數(shù)據(jù)從2015年開始就已經(jīng)超過了芯片數(shù)據(jù)的累積。大批量的數(shù)據(jù)產(chǎn)生固然是個(gè)好事,同時(shí)也帶來了一個(gè)問題,公開的RNA-seq數(shù)據(jù)大多提供的是原始數(shù)據(jù),這樣就對(duì)數(shù)據(jù)的重新挖掘使用帶來了很大困難。為啥嘞,數(shù)據(jù)量太大,臨床醫(yī)生,小實(shí)驗(yàn)室你確定做得了,就連測(cè)序數(shù)據(jù)從原始數(shù)據(jù)開始的分析都會(huì)遇到很多困難?今天要介紹的神器呢叫做 ARCHS4,它的誕生呢就是為了解決這個(gè)問題,過程講的比較復(fù)雜,簡(jiǎn)單講就是有一個(gè)團(tuán)隊(duì)人家用有效的設(shè)備算法把 GEO/SRA的 原始數(shù)據(jù)整合,分析,預(yù)處理成方便后續(xù)分析的矩陣格式,就像 TCGA那樣的數(shù)據(jù)庫(kù),之所以應(yīng)用廣泛,數(shù)據(jù)整理的格式就是原因之一呀。該數(shù)據(jù)庫(kù)包括人和鼠的sample 187,946 , 其中人84,863,鼠103,083。接下來就看下具體這個(gè)神器有哪些功能吧: 數(shù)據(jù)下載功能Downloadhttps://amp.pharm./archs4/download.html
可供下載的數(shù)據(jù)包括:
這里只列舉了部分,甚至還包括了 TCGA的數(shù)據(jù),數(shù)據(jù)都整理為 H5格式,數(shù)據(jù)包括原始的 read count數(shù)據(jù)和 meta data信息,簡(jiǎn)單講這些數(shù)據(jù)都整理成了方便后續(xù)分析的矩陣格式,可以這樣全部下載。 當(dāng)然也可以挑選自己感興趣的下載,可以挑選自己感興趣的組織,細(xì)胞系,也可以手動(dòng)選擇,基因集,Download部分會(huì)自動(dòng)產(chǎn)生下載數(shù)據(jù)的 R代碼,放到 Rstudio運(yùn)行即可。
這里白介素同學(xué),隨便測(cè)試下在了一個(gè)代碼,可以看看長(zhǎng)啥樣,有R基礎(chǔ)的小伙伴應(yīng)該更容易理解:
大概就是這樣,運(yùn)行下就可以啦。 https://amp.pharm./archs4/data.html# 此外數(shù)據(jù)下載后,就是做數(shù)據(jù)解析了,H5文件格式的解析,批次效應(yīng)移除等,都有提供相應(yīng)的代碼:
提供代碼鏈接:https://amp.pharm./archs4/help.html 查詢功能按 meta data信息查詢,可以看下自己感興趣的組織, 細(xì)胞系等的。
查找 signature,輸入數(shù)據(jù)為上調(diào)和下調(diào)基因,尋找match這些基因的sample。
富集查詢,找到富集某些基因集的sample然后下載,可以從8個(gè)基因集庫(kù)中選擇感興趣的,比如KEGG庫(kù),GO庫(kù),其實(shí)這是一個(gè)反向的操作,與咱們通常的差異分析得到基因集進(jìn)行富集不同,這是一種通過感興趣的通路,基因集來找sample。
基因查詢功能,遇到一個(gè)感興趣的基因,這時(shí)候這個(gè)功能就派上用場(chǎng)啦,比如案例給出的 FOXM1基因
點(diǎn)擊下就可以得到很多信息:
主要功能就是這些啦,提供處理過的數(shù)據(jù)下載和查詢功能。然后就是了解下這個(gè)數(shù)據(jù)庫(kù)的背景,文章在2018年4月發(fā)表在 Nature Communcations上。 內(nèi)容就分享到這兒啦,白介素同學(xué)祝大家學(xué)習(xí)愉快! |
|
|