|
研究亮點(diǎn) 文章利用了兩個(gè)代表一般人群的數(shù)據(jù)庫(kù)SEER與NAACCR,對(duì)TGCA與兩個(gè)數(shù)據(jù)庫(kù)的患病人群特征作對(duì)比。利用t檢驗(yàn)、Fisher檢驗(yàn)、logistic回歸、殘差分析、限制性平均存活時(shí)間分析等經(jīng)典統(tǒng)計(jì)方法,證明了TCGA患病人群的種族、性別、診斷年齡、診斷時(shí)患病階段(癌癥的早中晚期)等特征與兩個(gè)數(shù)據(jù)庫(kù)代表的一般患病人群在均值比較中部分癌癥類別有顯著性差異。 研究背景 每種癌癥的隊(duì)列研究的人群組成是重要的考量因素,因?yàn)橛蛇@些樣本產(chǎn)生的結(jié)果可以用于推斷一般人群的各自癌癥類型。而不同的遺傳背景(種族等因素)可能影響癌癥發(fā)病機(jī)制和治療效果等。另外,性別和年齡差異也對(duì)腫瘤進(jìn)程有巨大的影響。近年來(lái),伴隨著基因測(cè)序技術(shù)和生物信息學(xué)的技術(shù),各種癌癥發(fā)生相關(guān)的分子畸變得到了更加深入的理解。公共癌癥基因組數(shù)據(jù)庫(kù)有助于全面了解癌癥的分子發(fā)病機(jī)制,并影響了后續(xù)的癌癥診斷、治療和預(yù)防。 TCGA (癌癥基因組學(xué)圖譜)成立于2005年,當(dāng)時(shí)美國(guó)國(guó)家癌癥和國(guó)家人類基因組研究所聯(lián)合起來(lái)支持該項(xiàng)目的啟動(dòng),以全面繪制各種癌癥基因組變化。迄今為止,已有超過(guò)11,000名患有33種癌癥類型的人被納入該隊(duì)列。TCGA的數(shù)據(jù)庫(kù)已經(jīng)被廣泛用于被收錄于PubMed網(wǎng)站的超過(guò)2000項(xiàng)癌癥相關(guān)研究中。 之前的研究表明,種族通常被用作祖先和社會(huì)病因的代表因素,與癌癥的發(fā)病機(jī)制有關(guān),常見(jiàn)腫瘤類型的不同遺傳背景可能影響臨床結(jié)果和對(duì)治療的反應(yīng)。證據(jù)表明體細(xì)胞突變?cè)诟鞣N癌癥類型中,種族的頻率因種族而異,這意味著與種族相關(guān)的因素可能影響體細(xì)胞突變。其他證據(jù)也強(qiáng)調(diào)了性別和年齡差異對(duì)癌癥遺傳易感性的影響。 TCGA數(shù)據(jù)主要來(lái)自具有嚴(yán)格樣本選擇標(biāo)準(zhǔn)的癌癥患者的合格便利樣本,所以TCGA的患病組樣本特征可能與在一般人群中診斷出癌癥的人群特征存在差異,如果TCGA與正常人群中患病群體的體征真的存在顯著性的差異,那么其相關(guān)的研究結(jié)論是否能作為一般人群患癌的臨床證據(jù)就存疑了。 盡管有關(guān)于TCGA數(shù)據(jù)庫(kù)相對(duì)于一般人群癌癥病歷的臨床和人口統(tǒng)計(jì)學(xué)上存在差異的報(bào)道,但并未系統(tǒng)地評(píng)估此差異。在本研究中,研究者通過(guò)對(duì)比TCGA癌癥病例和2個(gè)基于人群的數(shù)據(jù)庫(kù)的33種癌癥類型的統(tǒng)計(jì)學(xué)與臨床特征(診斷時(shí)的年齡、性別、種族、診斷階段、生存時(shí)間),擴(kuò)展了以往此類研究的結(jié)果。 研究方法 本研究用了兩個(gè)數(shù)據(jù)庫(kù)的人群特征與TCGA做對(duì)比,這兩個(gè)數(shù)據(jù)庫(kù)分別是:1. SEER 18 數(shù)據(jù)庫(kù),目前涵蓋了約28%美國(guó)人群;2. 北美中央癌癥登記協(xié)會(huì)(NAACCR)的美國(guó)聯(lián)合登記處,涵蓋所有50個(gè)州和哥倫比亞特區(qū)的癌癥登記。因?yàn)镾EER過(guò)度采樣了美國(guó)的少數(shù)人群,研究者采用NAACCR來(lái)對(duì)比種族分布。 來(lái)自TCGA的XML文件包含了人口資料、癌癥變量和隨訪狀態(tài)等數(shù)據(jù),Python 3.6.0用以提取這些變量。人口資料變量包括性別年齡和種族。 STATA version 14用以統(tǒng)計(jì)分析。本文用了T檢驗(yàn)來(lái)量化差異,用了Cohen’s d分析來(lái)估計(jì)研究的效應(yīng)量大小(effect sizes)。Cohen’sd> 0.3則表明有至少中度的效應(yīng)量。線性回歸(最小二乘法)被用來(lái)估計(jì)總的TCGA與SEER之間的不同癌癥病例的年齡區(qū)別。卡方檢驗(yàn)和Fisher檢驗(yàn)則用以鑒別性別、種族和癌癥階段的數(shù)據(jù)有無(wú)顯著區(qū)別。 此外,對(duì)于種族和階段比較,使用經(jīng)調(diào)整的殘差來(lái)確定樣本量具有最大差異的類別。 調(diào)整后的殘差≥2.0表明TCGA案例中特定種族或階段類別的比例明顯高于比較人群,而調(diào)整后的殘差≤-2.0表示比例顯著較低。此外本研究還用了限制性平均存活時(shí)間(RMST)分析來(lái)量化所有原因造成的患者存活月數(shù),以12個(gè)月為終點(diǎn),以確保所有樣本有相同的觀察窗口。除了估計(jì)兩組間平均存活率的差異,也用了廣義線性回歸模型,通過(guò)診斷年齡,性別,種族和患病階段對(duì)模型進(jìn)行調(diào)整。 研究結(jié)果 1.診斷年齡 同癌癥類型下的TCGA 患者的診斷年齡要比SEER患者年輕3.9歲(95% CI: 1.7–6.2, P <><> Fig.1 診斷年齡差別 圖解:y軸顯示了Cohen’s d的效應(yīng)量結(jié)果,小于零即代表TCGA比SEER診斷年齡年輕的癌癥類別。 2.性別 對(duì)于大多數(shù)癌癥類型(22/27),觀察到的TCGA病例的性別分布與SEER病例相似。 肺鱗狀細(xì)胞癌(LUSC),皮膚皮膚黑色素瘤(SKCM)和甲狀腺癌(THCA)的男性病例比例顯著較高(74.0%vs. 62.4%,61.7%vs. 56.6%,26.8%vs.22.8% 在TCGA與SEER中,LIHC和SARC病例的女性病例過(guò)多(32.4%vs. 22.6%,54.4% vs.46.7%)。詳見(jiàn)Fig 4。 3.種族 與NAACCR病例相比,報(bào)告種族為其他(亞洲,美洲印第安人或阿拉斯加原住民)的個(gè)體在TCGA中的比例過(guò)高。 觀察到的種族分布對(duì)于13/18種癌癥類型是不成比例的(如圖2a)。 在13種癌癥中,8種(膀胱尿路上皮癌(BLCA),乳腺癌(BRCA),食管癌(ESCA),肝癌(LIHC),胰腺癌(PAAD),皮膚黑色素瘤(SKCM),胃腺癌(STAD)和甲狀腺癌(THCA))在報(bào)告其他種族的個(gè)體中具有顯著更高的百分比(校正殘留≥2)。 4.診斷時(shí)患病階段 對(duì)于具有階段信息的26種TCGA癌癥類型,對(duì)于大多數(shù)癌癥類型(25/26)觀察到階段差異的證據(jù)(圖2b)。 具體而言,與SEER病例相比,16例癌癥在TCGA隊(duì)列中的I期比例顯著較低,19例在II期中的比例顯著較高,12例在III期中具有顯著較高的比例,14例在IV期比例顯著性較低。 Fig.2a TCGA與NACCR人種比例對(duì)比圖 Fig.2b TCGA與SEER診斷時(shí)患病階段對(duì)比圖 5.生存月份 使用12個(gè)月作為終點(diǎn),TCGA中相對(duì)于SEER,有27/33癌癥類型的病例,調(diào)整后的平均全因存活月數(shù)顯著更長(zhǎng)。對(duì)于剩余的六種癌癥類型(宮頸癌(CESC),腎嫌色細(xì)胞癌(KICH),腎透明細(xì)胞癌(KIRC),卵巢癌(OV),睪丸生殖細(xì)胞腫瘤(TGCT)和UVM),未發(fā)現(xiàn)統(tǒng)計(jì)學(xué)上顯著的差異(圖3)。 值得注意的是,對(duì)于CHOL和SARC,TCGA病例在隨訪12個(gè)月后平均壽命超過(guò)SEER病例2個(gè)月(分別為2.35和2.47個(gè)月)。 Fig 3. TCGA與SEER平均生存時(shí)間(月份)的差別 圖解: 此處的x軸是各項(xiàng)癌癥的分類,而y軸并不是p值,就是兩組數(shù)據(jù)均值的差值,另外在每條線段的上端和下端則代表均值差異的95%置信區(qū)間,之所以不寫p值,是因?yàn)槿绻眯艆^(qū)間不包括0的情況下,即線段沒(méi)有被x軸穿過(guò)的情況下,差異就是顯著的,變相體現(xiàn)了P<0.05和p>0.05的情況。而且通過(guò)線段長(zhǎng)短可以看出標(biāo)準(zhǔn)差的大小,標(biāo)準(zhǔn)差越大,準(zhǔn)確性越低。所以該圖是很直觀的統(tǒng)計(jì)圖,體現(xiàn)了置信區(qū)間情況,而非只體現(xiàn)顯著性。 Fig 4. TCGA,SEER和NAACCR患者各項(xiàng)人口統(tǒng)計(jì)學(xué)和臨床特征分布的差異匯總 圖解:各列為相關(guān)特征比較的p值,回歸系數(shù),殘差等。32個(gè)簡(jiǎn)稱及對(duì)應(yīng)癌癥名稱分別為:急性淋巴白血病(LAML),擴(kuò)散大B細(xì)胞淋巴瘤(DLBC),胸腺瘤(THYM)。器官系統(tǒng)類有:婦科實(shí)體瘤:卵巢癌(OV),子宮內(nèi)膜癌(UCEC),宮頸鱗狀細(xì)胞癌和腺癌(CESC),乳腺癌(BRCA);泌尿類:膀胱尿路上皮癌(BLCA),前列腺腺癌(PRAD),睪丸生殖細(xì)胞腫瘤(TGCT),腎透明細(xì)胞癌(KIRC),腎嫌色細(xì)胞癌(KICH),腎乳頭狀細(xì)胞癌(KIRP);內(nèi)皮素類:甲狀腺癌(THCA)和腎上腺皮質(zhì)癌(ACC);核心胃腸道:食管癌(ESCA),胃腺癌(STAD),結(jié)腸腺癌(COAD),直腸腺癌(READ);發(fā)展性胃腸道:肝細(xì)胞癌(LIHC),胰腺腺癌(PAAD),膽管癌(CHOL);頭頸部:頭頸部鱗狀細(xì)胞癌(HNSC);胸部:肺腺癌(LUAD),肺鱗狀細(xì)胞癌(LUSC),間皮瘤(MESO)。中樞神經(jīng)系統(tǒng)類有:成膠質(zhì)母細(xì)胞瘤(GBM),腦低級(jí)膠質(zhì)瘤(LGG)。軟組織類有:肉瘤(SARC),子宮癌肉瘤(UCS)。神經(jīng)嵴起源組織類:嗜鉻細(xì)胞瘤和副神經(jīng)節(jié)瘤(PCPG)。此外還有皮膚黑色素瘤(SKCM)和葡萄膜黑素瘤(UVM)。 文章總結(jié) 文章通過(guò)對(duì)TGCA與SEER、NAACCR兩大數(shù)據(jù)庫(kù)作對(duì)比,證明了TCGA患病人群的種族、性別、診斷年齡、診斷時(shí)患病階段等特征與兩個(gè)數(shù)據(jù)庫(kù)代表的一般患病人群在部分比較中有顯著性差異。 然而本研究也有局限性,TCGA尚未公布針對(duì)每種癌癥類型的特定診斷標(biāo)準(zhǔn)。而SEER的鑒定標(biāo)準(zhǔn)已經(jīng)明確,可能TCGA對(duì)癌癥類型診斷的標(biāo)準(zhǔn)和SEER會(huì)略有出入,造成比較困難。 總的來(lái)說(shuō),本研究表明TCGA的病例比一般患病人群更年輕,并且可以存活更長(zhǎng)時(shí)間。因此本研究結(jié)果強(qiáng)調(diào)了將老年患者加入到癌癥基因組計(jì)劃的重要性,以增加研究結(jié)果和療法對(duì)這些患者的適用性。 小編評(píng)論 對(duì)精準(zhǔn)醫(yī)學(xué)來(lái)說(shuō),需要盡可能的減少混淆因子,提高數(shù)據(jù)庫(kù)的準(zhǔn)確性,本研究提醒了以TCGA為數(shù)據(jù)庫(kù)來(lái)進(jìn)行癌癥研究的研究者,TCGA的患病人群樣本不一定能代表總體(一般人群),可能需要進(jìn)行調(diào)整、修正或者作為偏差來(lái)討論。 研究者因?yàn)镾EER過(guò)度采樣了美國(guó)少數(shù)人種,而在對(duì)比人種比例時(shí)使用了另一個(gè)數(shù)據(jù)庫(kù)NACCR,這種做法雖然體現(xiàn)本研究的研究,但也把不同比較對(duì)象的結(jié)果和結(jié)論放在一起,難免會(huì)給人造成視覺(jué)和邏輯上的混淆。另外,也難免留下選擇有利研究結(jié)果的嫌疑。 同時(shí),令人思考另一點(diǎn)是,盡管該研究結(jié)論顯示TCGA的患病人群特征均值和與一般患病人群有差異,但是SEER既然有過(guò)度采樣現(xiàn)象,那么其他特征也會(huì)受影響,SEER并不能完全代表一般人群。作為采樣來(lái)說(shuō),各種誤差、偏差總是存在,只能盡量地去靠近真實(shí)值,然而真實(shí)值仍然總是難以得知,或許多用一些人群研究的數(shù)據(jù)庫(kù)進(jìn)行交叉比較,會(huì)顯得更嚴(yán)謹(jǐn)。 當(dāng)然,總的來(lái)看,本研究很有效地達(dá)到了其研究目的,讓研究者在使用TCGA數(shù)據(jù)庫(kù)或是其他大型疾病人群數(shù)據(jù)庫(kù),應(yīng)對(duì)該數(shù)據(jù)庫(kù)的各項(xiàng)人群特征與真實(shí)值的差異進(jìn)行思考、驗(yàn)證和討論。 |
|
|
來(lái)自: 生物_醫(yī)藥_科研 > 《TCGA 》