|
文章題目:The UK Biobank resource with deep phenotyping and genomic data 研究人員:Clare Bycroft團隊 發(fā)表時間:2018. 10 期刊名稱:Nature 影響因子:41.577研究亮點 英國生物數(shù)據(jù)庫(UK Biobank)是一個前瞻性的隊列研究項目。該項目收集了來自英國的約50萬人的深度遺傳和表型數(shù)據(jù),人群的年齡在40-69歲之間。該項目所開放的資源的規(guī)模和范圍都是明顯超過其他相關(guān)開放資源的。在這50萬人的大型健康數(shù)據(jù)中,每個參與者都有豐富的表型和健康相關(guān)信息,包括生物測量、生活方式指標(biāo)、血液和尿液中生物標(biāo)志物以及軀干、大腦的成像圖。 該項目通過將健康和醫(yī)療記錄聯(lián)系起來,提供追蹤研究(follow-up)時的資料。可貴的是,UK Biobank竟然對所有參與者都收集了全基因組(genome-wide)基因型數(shù)據(jù)。這為尋找新的遺傳相關(guān)性與復(fù)雜性狀的遺傳基礎(chǔ)提供了許多機會。 在本文里研究者描述了對遺傳數(shù)據(jù)的集成式分析,包括基因型質(zhì)量、種群結(jié)構(gòu)特性和遺傳數(shù)據(jù)的相關(guān)性,以及高效的階段化和基因型估算,可測變異數(shù)量增加到約9600萬。同時,作者總結(jié)了UK Biobank所有表型資源的現(xiàn)有內(nèi)容,以及他們的一些研究計劃。同時也描述了全部50萬參與者的基因型數(shù)據(jù)集。UKB采用了一系列質(zhì)控程序,并進行了諸多分析,解釋了遺傳數(shù)據(jù)的特性,例如人口結(jié)構(gòu)和相關(guān)性,這對于下游分析非常重要。此外,研究者還估計了單倍型和推斷基因型,放進數(shù)據(jù)集,這使得可測試的變異數(shù)量增加100倍以上,達到約9600萬個變體。 UK Biobank 介紹 在大約50萬名UK Biobank參與者中,研究者團隊對每個參與者都收集了各種各樣的表型信息和生物樣本。在招募參與者時,每個參與者提供電子簽名同意書,并回答關(guān)于社會人口特征、生活方式和健康相關(guān)因素的問題等。他們還提供了血液、尿液和唾液樣本,這些樣本可以儲存起來進行許多不同類型的研究(例如:基因組、蛋白質(zhì)組和代謝組學(xué)分析)。一旦招募工作完全展開,更深一步的評估訪問將會進行,包括一系列的眼部測量,心電圖測量,動脈僵硬度和聽力的測試。 如圖1所示,采集的數(shù)據(jù)類型包括社會人口特征和生活方式因素、腦部成像(MRI)認知測試、聽力和視力測量、體育活動監(jiān)控(采用健康手環(huán))、心臟與軀體成像(MRI)、心臟和肺部功能測量、生物樣本采集(血液、唾液、尿液采集,用于生化標(biāo)記和基因組分析),骨骼和關(guān)節(jié)的全身雙能X光吸收、身體尺寸和阻抗測量。數(shù)據(jù)采集將與電子病例、死亡登記、癌癥記錄同步。與此同時,進行UK Biobank Axiom基因芯片的分析,得到的數(shù)據(jù)包括全基因組的覆蓋的63萬芯片位點,稀有變異及編碼變異125000個位點,目標(biāo)區(qū)域生物標(biāo)記47000個位點,與特異性表型相關(guān)聯(lián)的生物標(biāo)記45000個位點。基線的信息將以幾種方式繼續(xù)追蹤擴展。例如,在一部分群體中每隔幾年進行重復(fù)評估,以便能校準(zhǔn)測量數(shù)據(jù),調(diào)整回歸稀釋偏移和估計時間線上的變化。截止2018年5月,共有1萬4千多人死亡,7.9萬名人患癌,40萬參與者至少住院一次。目前正在采集其他國家數(shù)據(jù)庫的數(shù)據(jù),包括初級醫(yī)護,篩查方案與針對特別疾病的登記,同時也聯(lián)系參與和進行在線問卷調(diào)查。 此外,各種研究興趣指標(biāo)也得到了測量,包括與疾病相關(guān)的(例如影響血管病的脂類和影響癌癥的性激素),與診斷價值相關(guān)的(例如糖尿病的HbA1c酶和與關(guān)節(jié)炎有關(guān)的風(fēng)濕因子),以及去評估其他沒有被透徹評估的一些表型(例如肝功能和腎功能的標(biāo)記物)。UKB不僅規(guī)模龐大,它之所以在學(xué)界飽譽盛名,還是因為它是一個開放性的資源,它鼓勵全世界的研究人員申請數(shù)據(jù),包括學(xué)術(shù)目的、慈善目的和公共部門與商業(yè)部門,為任何符合公眾利益的健康相關(guān)研究來獲取數(shù)據(jù)。 全基因組基因分型 UKB包含了488,377個參與者的基因型。如此龐大的人群基因型數(shù)據(jù),是用兩個很相似的基因分型芯片來測定的。分別是UK BiLEVE Axiom芯片(807,411個標(biāo)記分型)和Applied Biosystems UK Biobank Axiom芯片(825,927個標(biāo)記分型),二者95%的標(biāo)記物內(nèi)容是一樣的,后者應(yīng)用到絕大多數(shù)參與者。芯片是用來捕獲SNP和INDEL的,如圖1中的總結(jié)。另外該芯片還包括了次等位基因頻率(MAF)的變體,包括稀有標(biāo)記( 頻率<1%)。另外在歐洲人群中常見(>5%)和低頻(1-5%)的MAF范圍下,這些標(biāo)記物提供了良好的基因組范圍的覆蓋以便推測。1%)。另外在歐洲人群中常見(> 與此同時,本研究項目對于人種也有專門的設(shè)計。參與者須報告他們的人種背景。然而大多數(shù)(94%)的參與者報告為白人,僅有少數(shù)歐洲以外的族裔。 研究通過統(tǒng)計測試來篩出質(zhì)量較差的芯片標(biāo)記,通過統(tǒng)計測試后,研究者將檢測基因型缺失率設(shè)為0.97%,跟昂飛芯片相比。同時,基因型性別(X,Y染色體的芯片標(biāo)記的相對強度)與報告的性別若有不符,可以作為依據(jù)來檢測樣本處理錯誤或其他類型的錯誤。當(dāng)然,除了人為的錯誤外,也可能會出現(xiàn)一些特例,如變性者、兩性人,或者罕見的基因突變、染色體變異等。但總的來說,檢測出與報告性別不一樣的參與者對于后續(xù)的研究而言還是必要的。
圖2 基因型數(shù)據(jù)質(zhì)量控制情況匯總 圖a表示MAF(次等位基因頻率)在UK Biobank中的大小分布直方圖。如圖所示,頻率越低,直方柱越高。這也符合研究的邏輯,MAF實際上是多態(tài)性和突變的一種體現(xiàn),而大多數(shù)位點出現(xiàn)的變體,其等位基因頻率是很低的,很多SNP變體也許只在一個參與者身上發(fā)生。圖a中嵌套的小圖只體現(xiàn)了MAF值小于0.01的部分,可以看出較多的生物標(biāo)記抓取到的次等位基因的計數(shù)在1000-10000之間;圖b 主要是描述質(zhì)控過濾掉的標(biāo)記的情況,可以看出絕大多數(shù)批次都通過質(zhì)控(橫坐標(biāo)為零);圖c對比了UK Biobank和另一個歐洲數(shù)據(jù)庫ExAC的次等位基因頻率分布對比,發(fā)現(xiàn)了相似性,研究者應(yīng)該是以此來證明UK Biobank MAF值總體的可靠性;圖d主要是體現(xiàn)質(zhì)控中報告性別和測得基因型性別相符以及不服的情況,不符的各自情況分類并進行在圖上進行了標(biāo)記。 研究成果 UK Biobank隊列研究的人群結(jié)構(gòu),是采用主成分分析進行測算的。研究者使用的算法叫做fastPCA,該算法通過近似出只在最頂端的n個可以解釋最多變異的主成分,來在數(shù)據(jù)集上運作。此次研究中主成分分析表現(xiàn)良好。這個算法只使用最頂端的n主成分來解釋最多的變異,所以需要事先指定好n值。在本次研究中,研究者用了通過最小化連鎖不平衡(minimise linkage disequilibrium)得到的407219個互不相干的高質(zhì)量樣本和147604個高質(zhì)量標(biāo)記,來計算出40個頂端主成分。之后研究者計算了主成分負荷,并把所有樣本投入到主成分中,從而形成了一個集合,包含所有樣本的主成分得分。 正如研究預(yù)期一樣,主成分分數(shù)相近的個體,也存在相似的民族背景(自我報告)。背景資料與基因型結(jié)果的一致性,在該研究中實際上起到了互相印證的效果,同時提高了背景調(diào)查、芯片測序結(jié)果、主成分分析算法這三者的置信能力。 圖3 祖先多樣性和家族關(guān)系 圖a 的每個點表示一個樣本,共488,377個點。每個樣本根據(jù)主成分分析的4項主要成分的得分的不同,在二維平面上排列成兩張圖。每個點的顏色根據(jù)自我報告的民族/國家/人種而不同,例如華裔就用紅色指代,最終在圖上也富集成了紅色區(qū)域。反之,如果自我報告結(jié)果和主成分分析結(jié)果不吻合,是無法形成純色的區(qū)域的;圖b表示的是參與者的親屬分布數(shù)量,例如親兄弟姐妹用藍色表示。可以看到在整理親緣關(guān)系后,只有1位親屬一起參與了該研究的參與者比較多。其實有的分析是要排除掉有親緣關(guān)系的個體的,因為可能提高樣本之間的關(guān)聯(lián)性,造成偏差。所以做這項分析對下游分析來說也是必要的;圖c表示了一些通過家庭關(guān)系分析以后,得出的家庭關(guān)系的例子。點代表參與者,線代表他們之間的推斷關(guān)系,線的顏色同圖b,每個網(wǎng)絡(luò)上的數(shù)顯示的是忽略了三級對后的同類型的家庭網(wǎng)絡(luò)在總樣本中有多少個。 根據(jù)HLA*IMP: 02的報告,研究者將每個位點(loci)上的HLA基因型定義為具有最大后驗概率的等位基因?qū)?。他們主要使用的分析相關(guān)性的方法是對HLA等位基因和每種疾?。ㄈ?型糖尿病和心肌梗死等)使用邏輯回歸,結(jié)果是沒有發(fā)現(xiàn)顯著性的相關(guān)性。 另外,研究者還對參與者的站立高度,即身高進行了全基因組關(guān)聯(lián)分析(GWAS)。這項分析的目的是評估直接測出的基因型與推斷出的數(shù)據(jù)(如HLA基因型)的使用潛力。研究者對34萬個歐洲血統(tǒng)的互不相關(guān)(根據(jù)上文的血緣分析)的個體進行了全基因組關(guān)聯(lián)分析。他們將分析結(jié)果與歐洲GIANT聯(lián)盟數(shù)據(jù)庫的25萬個體的薈萃分析(meta-analysis)結(jié)果進行對比。結(jié)果則很喜人,兩個數(shù)據(jù)庫的身高指標(biāo)的全基因組關(guān)聯(lián)分析的z-score是相似的。而且UK Biobank的統(tǒng)計功效(power)還要超過GIANT。這可以說是UK Biobank數(shù)據(jù)有效性的一個有力證據(jù)。 文章總結(jié) 除了諸多表型外,UK Biobank早已臨時公布了15萬參與者的基因型數(shù)據(jù),這些數(shù)據(jù)通過外部的研究者,向UK Biobank 反饋研究結(jié)果。并且該隊列研究還在逐漸添加一些表型信息。這些結(jié)果已匯成成千上萬的表型GWAS結(jié)果。與此同時,另一篇牛津大學(xué)基于UK Biobank數(shù)據(jù)的腦成像遺傳性研究也同時在Nature期刊上發(fā)布了。而如今,全部基因數(shù)據(jù)的可申請獲取性,將加速這一領(lǐng)域發(fā)展。 本研究中介紹的UK Biobank遺傳及表型數(shù)據(jù)集可通過訪問申請使用。(參見http://www./register-apply/) 小編評論 UK Biobank的公開對于流行病學(xué)研究、大型遺傳學(xué)研究來說,都意義重大。很多等位基因,由于頻率低的緣故,許多小樣本研究難以分析。而50萬人的大數(shù)據(jù),增加了很多分析可能性。可以說推動了整個健康領(lǐng)域發(fā)展也不為過。當(dāng)然,前提是研究者想申請的數(shù)據(jù),在UK Biobank中存在。這也體現(xiàn)出UK Biobank數(shù)據(jù)可贊之處,該項目是前瞻性的隊列研究,這意味著數(shù)據(jù)類型、數(shù)據(jù)隊列和數(shù)據(jù)質(zhì)量是可以被補充和修正的。這使得UKB的數(shù)據(jù)潛力巨大。而為了證明這大量的數(shù)據(jù),并沒有太大噪聲和偏差,UKB不僅做了詳盡的過濾和質(zhì)量控制,還做了配套的分析和對比,例如身高的GWAS與其他數(shù)據(jù)庫來進行對比,交叉驗證。此外,還同步與牛津大學(xué)合作發(fā)表了一篇高質(zhì)量的大腦成像遺傳學(xué)相關(guān)文章,算是小試牛刀,驗證該數(shù)據(jù)的潛力,真的是可以應(yīng)用在非常多的醫(yī)療健康亞領(lǐng)域。臨床基礎(chǔ)研究、流行病學(xué)研究到遺傳學(xué)研究、生物信息學(xué)研究都可以從中獲利。美中不足的是英國人群的祖源分布較為單調(diào),文章也有指出,大多數(shù)祖先被驗證為歐洲白人。這使得研究人群基于其他人種甚至混合人種的研究能獲取的等位基因頻率和疾病的參考性較低。不過好處是,這也使得UKB可以被視為歐洲白人人群的數(shù)據(jù)庫,沒有因人群混合而帶來太多不可預(yù)判的偏差。總之,UK Biobank使其數(shù)據(jù)公開可申請這一舉措,將會使全世界的健康領(lǐng)域研究者從中受益。 參考文獻: [1] Peter Donnelly, Jonathan Marchini, et al. The UK Biobank resource with deep phenotyping and genomic data[J]. Nature, 2018,562: 203–209. |
|
|
來自: 生物_醫(yī)藥_科研 > 《文獻案例》