Nature子刊：騰訊AI Lab發(fā)布scBERT模型，攻克單細(xì)胞測(cè)序數(shù)據(jù)分析痛點(diǎn)

子孫滿堂康復(fù)師 2022-09-29 發(fā)布于黑龍江

展開全文

來源：騰訊AI Lab 2022-09-28 11:44

該研究創(chuàng)新性地提出關(guān)于單細(xì)胞注釋的 scBERT 算法模型，實(shí)現(xiàn)了高解釋性、高泛化性、高穩(wěn)定性的單細(xì)胞類型注釋技術(shù)。這項(xiàng)研究成果對(duì)于單細(xì)胞轉(zhuǎn)錄組測(cè)序數(shù)據(jù)分析領(lǐng)域未來研究具有深遠(yuǎn)意義。

單細(xì)胞測(cè)序技術(shù)是生命科學(xué)領(lǐng)域的一項(xiàng)革命性技術(shù)?？梢约?xì)粒度地觀察和刻畫各個(gè)物種中組織、器官和有機(jī)體中單細(xì)胞分子圖譜（細(xì)胞表達(dá)），便于更好地了解腫瘤微環(huán)境，以達(dá)到精細(xì)分析病因、精準(zhǔn)匹配治療方案的效果，對(duì)于「精準(zhǔn)醫(yī)療」具有極高的應(yīng)用價(jià)值。

受數(shù)據(jù)樣本量小、人工干預(yù)多、過度依賴 marker gene（已報(bào)道的特異性基因）等因素的影響，單細(xì)胞測(cè)序細(xì)胞類型注釋技術(shù)一直面臨著泛化性、可解釋性、穩(wěn)定性均比較低的問題，現(xiàn)存的算法難以有更廣泛的應(yīng)用。

2022年9月27日，騰訊 AI Lab 姚建華等人在在 Nature 子刊 Nature Machine Intelligence 上發(fā)表了題為：scBERT as a Large-scale Pretrained Deep Language Model for Cell Type Annotation of Single-cell RNA-seq Data（基于大規(guī)模預(yù)訓(xùn)練語言模型的單細(xì)胞轉(zhuǎn)錄組細(xì)胞類型注釋算法）的研究論文。

該研究創(chuàng)新性地提出關(guān)于單細(xì)胞注釋的 scBERT 算法模型，實(shí)現(xiàn)了高解釋性、高泛化性、高穩(wěn)定性的單細(xì)胞類型注釋技術(shù)。這項(xiàng)研究成果對(duì)于單細(xì)胞轉(zhuǎn)錄組測(cè)序數(shù)據(jù)分析領(lǐng)域未來研究具有深遠(yuǎn)意義。

Nature Machine Intelligence 是計(jì)算機(jī)科學(xué)、人工智能領(lǐng)域期刊中影響因子最高的頂級(jí)期刊（IF=25.898），只關(guān)注對(duì)該領(lǐng)域具有重要影響的科研成果。因其嚴(yán)格的評(píng)審標(biāo)準(zhǔn)，每年收錄論文數(shù)量平均僅60篇左右。

該論文首次提出「基于大規(guī)模預(yù)訓(xùn)練語言模型的單細(xì)胞轉(zhuǎn)錄組細(xì)胞類型注釋算法」，即「scBERT」模型，首次將「transformer」（自然語言處理算法經(jīng)典計(jì)算單元）運(yùn)用到單細(xì)胞轉(zhuǎn)錄組測(cè)序數(shù)據(jù)分析領(lǐng)域。該模型基于BERT范式，將細(xì)胞中基因的表達(dá)信息轉(zhuǎn)化成可被計(jì)算機(jī)理解、學(xué)習(xí)的「語言」，并對(duì)細(xì)胞進(jìn)行精準(zhǔn)標(biāo)注。

為了保證全基因組內(nèi)基因級(jí)別的可解釋性，「scBERT」在預(yù)訓(xùn)練數(shù)據(jù)上沒有做任何的降維或篩選處理，最大程度上保留數(shù)據(jù)本身的特性和信息。此外，該模型復(fù)用了大規(guī)模的公開數(shù)據(jù)集，包含不同實(shí)驗(yàn)來源、批次和組織類型的單細(xì)胞數(shù)據(jù)，以保證模型能學(xué)習(xí)到更為「通用」的知識(shí)，精準(zhǔn)捕獲單個(gè)基因的表達(dá)信息及兩兩基因之間的作用關(guān)系。

從結(jié)果上來看，「scBERT」模型實(shí)現(xiàn)了高解釋性、高泛化性、高穩(wěn)定性的單細(xì)胞類型注釋技術(shù)。截至目前，通過了9個(gè)獨(dú)立數(shù)據(jù)集、超過50萬個(gè)細(xì)胞、覆蓋17種主要人體器官和主流測(cè)序技術(shù)組成的大規(guī)模benchmarking測(cè)試數(shù)據(jù)集上，該算法模型的優(yōu)越性均得以驗(yàn)證。其中，在極具挑戰(zhàn)的外周血細(xì)胞亞型細(xì)分任務(wù)上，相較現(xiàn)有最優(yōu)方法的70%準(zhǔn)確度提升了7%。

在應(yīng)用價(jià)值層面，該項(xiàng)技術(shù)能給細(xì)胞中的每個(gè)基因都印上專屬「身份證」，可用于臨床單細(xì)胞測(cè)序數(shù)據(jù)，并輔助醫(yī)生描述準(zhǔn)確的腫瘤微環(huán)境、檢測(cè)出微量癌細(xì)胞，從而實(shí)現(xiàn)個(gè)性化治療方案或者癌癥早篩。同時(shí)，對(duì)疾病致病機(jī)制分析、耐藥性、藥物靶點(diǎn)發(fā)現(xiàn)、預(yù)后分析、免疫療法設(shè)計(jì)等領(lǐng)域都具有極其重要的作用。

騰訊 AI Lab 是騰訊的企業(yè)級(jí) AI 實(shí)驗(yàn)室，于2016年4月在深圳成立。實(shí)驗(yàn)室強(qiáng)調(diào)研究與應(yīng)用并重發(fā)展?；A(chǔ)研究關(guān)注機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、語音技術(shù)及自然語言處理等四大方向；技術(shù)應(yīng)用聚焦在游戲、數(shù)字人、內(nèi)容、社交四大領(lǐng)域，并初探 AI 在工業(yè)、農(nóng)業(yè)、醫(yī)療、醫(yī)藥、生命科學(xué)等領(lǐng)域的研究應(yīng)用。

此前，騰訊 AI Lab 團(tuán)隊(duì)科研成果曾多次登上 Nature Communications、ACL-IJCNLP 等國際權(quán)威學(xué)術(shù)期刊。未來，騰訊會(huì)繼續(xù)基于自身先進(jìn) AI 技術(shù)的積累，與下游臨床、制藥和生命科學(xué)基礎(chǔ)研究領(lǐng)域進(jìn)行密切合作，為行業(yè)貢獻(xiàn)更多價(jià)值。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：子孫滿堂康復(fù)師 > 《藥學(xué)科醫(yī)藥研究》

舉報(bào)/認(rèn)領(lǐng)