人類基因組中這些被忽視的非編碼序列，表達(dá)癌細(xì)胞生存必需蛋白

漠藩 2021-02-07

展開全文

2001年，人類基因組計劃（HGP）工作草圖發(fā)表，該計劃成功繪制了人類基因組圖譜，人類由此獲得了屬于自己的“自然天書”。從人類基因組圖譜中只發(fā)現(xiàn)了大約20000個編碼蛋白質(zhì)的基因，這些編碼蛋白質(zhì)的基因只占據(jù)人類基因組的1.5%左右，剩余的98.5%由重復(fù)序列、增強(qiáng)子、調(diào)控序列和非編碼RNA等不翻譯的序列占據(jù)，這些不翻譯的基因組序列也被稱為The dark genome（黑暗基因組）。

然而，在隨后20年的時間里，關(guān)于這本“天書”的解讀卻十分不易，直到現(xiàn)在，我們對人類基因組的表達(dá)模式仍缺乏足夠的認(rèn)識。

在分子生物學(xué)中，開放閱讀框（ORFs）是指一段從起始密碼子開始，結(jié)束于終止密碼子的連續(xù)DNA序列，由此可以編碼蛋白質(zhì)。值得注意的是，基因組分析預(yù)測表明人類基因組中存在許多非典型開放閱讀框，但它們是否能編碼生物活性蛋白尚未得知。

2021年1月28日，美國麻省理工學(xué)院-哈佛大學(xué)博德研究所（Broad Institute）的研究人員在Nature Biotechnology雜志上發(fā)表題為：Noncanonical open reading frames encode functional proteins essential for cancer cell survival 的研究論文。

這項研究表明，非典型開放閱讀框也可以表達(dá)生物活性蛋白！并且，部分非典型開放閱讀框還與癌癥的發(fā)生發(fā)展密切相關(guān)，編碼翻譯了癌細(xì)胞所必須的蛋白。

在人類基因組中，除了已知的20000個基因編碼蛋白質(zhì)外，還存在著大量之前未知的功能性蛋白，在疾病尤其是癌癥中發(fā)揮著作用。

這些蛋白可作為癌癥治療的潛在靶點，或?qū)⒂兄谛碌陌┌Y靶向治療藥物的開發(fā)。

人類基因組序列的早期分析表明，人類擁有10萬個甚至更多的編碼蛋白質(zhì)的基因。然而，進(jìn)一步的研究發(fā)現(xiàn)，這些候選基因中的大多數(shù)更有可能產(chǎn)生非編碼RNA、片段互補(bǔ)的DNA克隆或表達(dá)水平不顯著的RNA。

與此同時，人類蛋白質(zhì)組計劃中的NeXtProt數(shù)據(jù)庫識別出約17600個經(jīng)質(zhì)譜分析確認(rèn)的蛋白質(zhì)編碼基因以及約2100個未確認(rèn)的蛋白質(zhì)編碼基因。然而，越來越多利用核糖體相關(guān)RNA高通量分析的證據(jù)表明，目前注釋為非編碼RNA或假基因的DNA序列也可能可以編碼蛋白質(zhì)。

并且，由于嚴(yán)格的、基于保守的分析只向人類基因組中添加注釋了少量的新蛋白質(zhì)。目前尚不清楚這種翻譯是否反映了在構(gòu)建參考基因組數(shù)據(jù)庫、核糖體掃描或混亂的計算預(yù)測過程中被忽略的蛋白質(zhì)。

更重要的是，事實上質(zhì)疑這些預(yù)測的新蛋白質(zhì)是否可以穩(wěn)定翻譯，以及是否具有生物學(xué)功能，仍有待進(jìn)一步的系統(tǒng)實驗去驗證。

研究流程圖

在此項研究中，研究團(tuán)隊實驗性地從非典型開放閱讀框數(shù)據(jù)集中選擇了553個候選對象。研究人員發(fā)現(xiàn)，當(dāng)它們在人類癌細(xì)胞系中被敲除時，有57種誘導(dǎo)活性缺失，且在異位表達(dá)后，257個出現(xiàn)蛋白表達(dá)，401個誘導(dǎo)基因表達(dá)改變。

與此同時，CRISPR篩選和起始密碼子突變實驗表明，非典型開放閱讀框的生物學(xué)效應(yīng)是依賴于其翻譯而不是RNA介導(dǎo)的效應(yīng)。

CRISPR篩選以識別與癌細(xì)胞生存有關(guān)的未知開放閱讀框

不僅如此，研究人員還發(fā)現(xiàn)其中一個ORF——富含甘氨酸的胞外蛋白1（GREP1），其編碼了一個在乳腺癌中高表達(dá)的分泌蛋白。在263個乳腺癌細(xì)胞系中敲除該蛋白后，乳腺癌來源細(xì)胞系的增殖受到了抑制。

除此之外，研究還表明，表達(dá)了GREP1的癌癥細(xì)胞系所分泌的致癌細(xì)胞因子——GDF15的豐度增加，而補(bǔ)充GDF15可以減輕敲除GREP1后的細(xì)胞生長抑制作用。

GREP1在乳腺癌中的癌癥依賴基因的表征

論文作者表示：“我們確定，我們數(shù)據(jù)集中大約10%的開放閱讀框是癌細(xì)胞生存所需的。盡管數(shù)據(jù)集代表的是非典型開放閱讀框的精選列表，而不是所有可能的開放閱讀框的隨機(jī)抽樣，但這些實驗表明，非典型開放閱讀框可能對癌癥和其他疾病的發(fā)病機(jī)制和治療提供新的見解?！?/p>

識別翻譯的、未注釋的或未研究的非典型開放閱讀框

總而言之，盡管人類基因組在20年前就已經(jīng)完成了測序，但人類基因組中蛋白質(zhì)編碼基因的確切數(shù)量仍是一個爭議點。這項研究表明，在典型編碼區(qū)（CDS）以外的非編碼序列也普遍存在翻譯，這些非典型開放閱讀框也可以表達(dá)出生物活性蛋白，并且可能在癌癥等疾病的發(fā)生發(fā)展中起作用，未來或?qū)⒊蔀橹委熑祟惣膊〉男掳悬c！

https://www./articles/s41587-020-00806-2