小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

雪球說生信 | 科研老司機如何檢索不同類型的分子信息

 昵稱69125444 2020-06-25
酸菜曰:選分子如選妃,要綜合考量

從小白能懂的角度,聊生信方方面面。大家好,我是解螺旋的雪球。做醫(yī)學科研的小伙伴都知道分子的重要性。做一個完整的課題設計,就是在講一個故事,完整的論證環(huán)節(jié),環(huán)環(huán)相扣的劇情。大多數都是圍繞分子變量展開,篩選出哪些變量標記哪些marker,檢測哪些指標,與哪些通路和表型相關能否作為臨床診斷和預后的指標。這些研究的背后,還是以分子作為研究的對象或者標記鑒別的標簽tag。分子可以給課題帶來變化,以分子為主要研究要素在多個維度進行分析和論證,是基礎科研和生信領域研究的常規(guī)套路;不同的分子,用相同或者類似的研究套路,往往又是一個新的課題研究。

當然也有的科學研究,刻畫的是分子的群像,或者是從細胞的層面進行論證,這些不在本期的討論范圍。今天我就和大家聊一聊科研老司機是如何檢索不同分子類型的信息的。

1.檢索不同的分子類型的信息有必要嗎?有什么用?

當然有必要!無論在基礎科研和生信研究里,對于關鍵基因的信息檢索都是有必要的。

基礎科研分為五恒量和三變量:

五恒量包括疾?。―isease)、表型(Phenotype)、模型(Model)、檢測方法(Assay)、分子標志物(Biomarker)。

三變量包括分子(Molecule)、藥物(Drug)、通路(Pathway)。

從恒量研究的角度,一項研究的特征是由表型來確定的,而表型又是通過檢測分子標志物來鑒別細胞或者動物某種特點功能,從而用來描述發(fā)生在疾病背后的某種生理或者病理過程。分子及其分子集合可以作為表型描述的標簽。

從變量研究的角度,分子可以充當主變量和因變量的角色,可鹽可甜。一個有創(chuàng)新性的分子主變量,哪怕用熟悉的套路,也往往能盤活整個課題,老瓶裝新酒,作為一個新的故事來講,也能賣得出去。如果作為課題研究的主變量,對分子創(chuàng)新性的檢索就尤為重要。

同時,通路的識別也是依賴于其明星分子,對分子的檢測也可以作為其通路是否參與調節(jié)的某表型或者疾病的論證證據。這時候需要借助通路相關數據庫,檢索通路上相關的明星marker。

生信研究兩大作用,一個是篩分子,一個是篩機制,也有對應的恒量和變量體系。恒量包括疾病和問題,變量包括數據特征(數據來源、分子類型、實驗方法)和分析策略(表達差異、聚類分析、交互網絡、臨床意義)。

生信分析是根據高通量分析、表型篩選、臨床特征等篩選出一個有差異的分子集合;進一步對這些分子集合進行生物學功能和通路上的聚類,探究相關機制;再通過互作網絡分析,篩選靶分子或者關鍵基因;最后可以和表型/臨床相聯系,預測關鍵分子與熱點表型之間的聯系,以及作為診斷/預后/復發(fā)biomarker的潛能。

篩選到的關鍵基因這么多,選哪幾個作為后續(xù)驗證的對象,這時候需不需要對分子的基本信息進行檢索,再進一步手動篩選一下有創(chuàng)新性而且好驗證出來的基因,這樣就避免了盲篩,增加驗證出來的概率。

2.如何進行分子篩選?

分子怎么得來的呢?酸菜大大教授了六個字,“要么猜要么篩”。

就是查閱文獻看其亞細胞定位,分子結構域,看看新發(fā)表文獻中的分子沒在本領域發(fā)表過,從而找到1個或幾個分子,再進行后續(xù)的濕實驗驗證;

就是用自己的樣本做高通量篩選,或者用現有的公共數據庫進行數據挖掘,得到一系列的差異基因list,然后根據差異基因的排序,從上往下再篩選一波。

酸菜大大在《36策》第8策去蕪取精中傳授了分子篩選的經驗。

選擇標準有三:

一、創(chuàng)新性

指的是疾病中這個分子沒有被研究過;如果是比較龐大的腫瘤體系,可以適當放寬一下要求;比如你做腸癌,一般在其他腫瘤體系里面的報道總數不超過2篇的分子才可以入選。

二、關注分子的特征

關注分子的大小、結構域、細胞定位、表達分布、分子已知的功能、相似的蛋白家族的功能,包括分子有沒有不同轉錄本等一系列背景。

三、利用數據庫或者預實驗做二次驗證

分析分子在癌與癌旁中的表達分布情況,高低表達的分子在預后、診斷、復發(fā)中的表現情況,以及在qPCR實驗中檢測一下分子的表達情況。

3.如何檢測不同分子類型的信息?

分子是一個統稱,具體由很多不同類型的分子都可以作為研究變量,主要包括DNA、RNA和蛋白。其中RNA有編碼基因的mRNA和非編碼RNA,非編碼RNA包括miRNA、lncRNA和circRNA等等。

我們依次介紹一下對應的數據庫。

1

Pubmed (https://www.ncbi.nlm./)的Gene數據庫(所有基因)

操作

在搜索欄的選項卡中選擇Gene,在搜索欄輸入基因名,或者直接輸入“基因名 物種”或者利用PubMed右側的Top Organisms選項篩選物種。選擇對應的條目,可以進入該基因的信息頁。

功能:

1)summary(基因相關信息簡介):

基因的總體信息,包括官方名稱,全程,主要來源,基因類型,物種,別名,家系、表達情況,直系同源。

2)基因組背景

可以查看這個基因在DNA水平染色體位置上的相關信息。同時也可以簡單了解起上下游的基因。同時也可以查看在RNA水平上各個轉錄本的相關信息。

3)基因在各個組織中的表達情況和相關項目信息。

4)基因的文獻發(fā)表信息

5)相關的表型情況

包括:相關的疾病信息;拷貝數變異以及 GWAS情況、變異相關信息、通路相關信息。

6)與檢索基因有關的通路GO分析的結果

7)與之相互作用的分子信息

2

GeneCards數據庫(https://www./)(所有基因)

參考解螺旋單元課《GeneCards》數據庫

操作:

在搜索欄的選項卡中輸入基因名,點擊“GO”。

功能:

GeneCards是可檢索的人類基因綜合數據庫。整合了超過150個外鏈數據庫或網站的數據,其中125個網站數據自動同步更新,提供簡明的基因組、蛋白質組、轉錄組、遺傳和功能上所有已知的和預測的人類基因功能數據資料,并整理歸納成別名、疾病、結構域、藥物、表達、功能、基因組學、定位、同源序列、旁系同源基因、通路、產品、蛋白、文獻、資源、概述、轉錄本、變異等18類信息,是目前信息最全的基因注釋網站之一。

3

UCSC Genome Binformatics數據庫(http://genome./)(所有基因)

參考解螺旋免費課程/解螺旋出品/《優(yōu)選365》中的1-2 UCSC數據庫

操作:

首先選定物種和基因組版本,點擊之后,進入新的頁面。

在檢索框中輸入檢索詞,可以是基因位點(chr2:207,529,892-207,605,560),可以是基因名稱(CERB1),可以是GeneBank ID,可以是其他任意詞匯,如HCC(原發(fā)性肝癌)。輸入詞條之后,系統會自動補全,并顯示下拉列表,可在下拉列表中選擇符合要求的詞條,點擊Go。當鍵入的信息不完整時,搜索系統無法精確匹配,那么系統會自動跳轉到可以部分匹配的列表里??梢栽诹斜砝镞M行進一步選擇。

功能:

主要包含了人類、小鼠、果蠅等多種常見動物的基因組信息。UCSC里也包括了一系列的分析工具,幫助用戶瀏覽基因信息、查看已有基因組注釋信息和下載基因序列等。

4

Uniprot數據庫(https://sparql./)(蛋白質)

操作:在檢索框中輸入蛋白ID或者Accession Number查詢蛋白功能。

功能:UniProt數據庫是信息最豐富、資源最廣的蛋白質數據庫,提供蛋白質功能的相關檢索,包括蛋白功能描述、GO條目、細胞定位、組織特異性表達情況、生理病理情況描述、互作蛋白、Domain、翻譯后修飾位點信息,以及每條信息來源對應的引用文獻。

5

miRBase數據庫(http://www./)(miRNA)

參考解螺旋單元課《miRNA靶基因預測數據庫使用教程》

操作:在檢索欄中可以通過多種方式檢索miRNA。

功能:miRBase序列數據庫是一個提供包括miRNA序列數據、注釋、預測靶基因等信息的全方位數據庫,是儲存miRNA信息最主要的公共數據庫之一??梢詸z索miRNA前體對應的基因,序列,莖環(huán)結構等信息,以及miRNA前體產生的的成熟的miRNA序列和對應的靶標數據庫。

6

NONCODE數據庫(http://www./index.php)(lncRNA)

操作:在檢索框中輸入基因名或者轉錄本名稱。

功能:是一個比較全面的ncRNA相關注釋的數據庫,該數據庫中包含了除tRNA和rRNA之外的其他類型的非編碼RNA信息,尤其是lncRNA信息,不僅支持常用lncRNA的name、NONCODE ID(例如:NONHSAG000001)搜索,部分lncRNA支持其他數據庫名字進行搜索。該數據庫目前收入了16個物種,數據庫信息豐富,包括在不同組織和細胞系中的表達譜、二級結構、功能預測、與疾病關系、染色體位置、在不同物種間的序列保守性、相關疾病注釋等,并可進行序列Blast搜索,同時支持數據下載。

7

circRNADisease數據庫(http://:9091/circRNADisease/)(circRNA)

操作:分別可以按照circRNA, 熱點基因,疾病進行搜索。選擇檢索的方式,點擊對應的方框,進入檢索欄,輸入對應條目。

以circRNA為例,點擊search by circRNA,進入檢索框,輸入第一個例子,circFoxo3。

得到該基因在不同疾病的研究情況。

點擊details那里的more, 即可得到該基因在相應文獻里的研究情況。

功能:數據庫收錄了48種疾病和330條circRNA,共有354條信息,數據庫可以瀏覽、搜索和下載。提供cirRNA的基本信息,在疾病中的表達情況,相關的miRNA,以及發(fā)表這個基因在疾病中研究的相關文獻報道等信息。

8

The Human Protein Atlas數據庫(https://www./)(蛋白質)

操作:在檢索框中輸入基因名稱,點擊Search

功能:用免疫檢測技術(免疫印跡、免疫熒光和免疫組化),詳細地檢測了每一種蛋白在64個細胞系、48種人類正常組織和20種腫瘤組織中的表達情況,可以基因的描述(Gene description),證據評分(Evidence),以及該基因在各個圖譜中的結果。圖譜包括組織圖譜(Tissue Atlas)、病理圖譜(Pathology Atlas)、細胞圖譜(Cell Atlas)、腦圖譜(Brain Atlas),血液圖譜(Blood Atlas),以及代謝圖譜(Metabolic Atlas)。

9

Expression Atlas數據庫(http://www./gxa/home)(所有基因)

操作:在檢索框中,從左到右,分別輸入基因名稱,物種名稱,以及疾病名稱或者病灶的名稱。

功能:可以用來查詢基因、lncRNA、microRNA等分子在各種條件、各種疾病中的基礎表達和差異表達?;A表達一般幫助我們選擇研究功能的時候是用基因沉默還是過表達策略,如果本身表達低,我們就過表達,如果本身表達高,我們就沉默;而差異表達一般幫助我們選擇研究的主變量。

10

人類疾病數據庫MalaCards(http://www./)(針對疾?。?/strong>

操作:在檢索框中輸入疾病的名稱,點擊Go

功能:

1)提供了多個數據庫對于這個疾病的總結;

2)提供了疾病之間的相互作用關系網絡;

3)提供了這個疾病相關的生物學功能/通路以及打分;

4)查找和這個疾病相關的差異表達基因和關鍵基因;

5)提供了該疾病中目前藥物研究中重要有哪些重要的藥物;

6)疾病相關發(fā)表的文獻等

每個分子類型,每種檢索的切入點,我僅列了一個代表性數據庫,這樣不代表沒有列的數據庫就用不到。這里給大家推薦這10種比較常用的檢索不同分子類型信息的數據庫。但是工具其實不是重點,因為工具經常會更迭的,不要背這些工具,把這些工具當作字典的目錄來檢索,用的時候差一查,或者就收藏一下挑圈聯靠公號,關鍵詞檢索一下也立馬能搜得到。

與工具相比,最重要的是學會從這幾個分析維度,高效地檢索到分子的檢索信息,大家做實驗的時候可以提前檢索一下,應用到自己的研究當中,避免走彎路。

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發(fā)現有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多