小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

北大學(xué)者將Transformer模型帶入單細(xì)胞分析領(lǐng)域,能給出多層次的生物學(xué)解釋,軟件包與指導(dǎo)手冊均已開源

 江海博覽 2023-03-18 發(fā)布于浙江
2017 年,谷歌公司推出 Transformer 模型,這是是一種采用自注意力機(jī)制的深度學(xué)習(xí)模型,并促成了當(dāng)下大火的 GPT 等預(yù)訓(xùn)練模型的發(fā)展。
自誕生以來,Transformer 已被用于多個領(lǐng)域,生命科學(xué)領(lǐng)域當(dāng)然也不例外。前不久,北京大學(xué)定量生物學(xué)中心/生命科學(xué)聯(lián)合中心韓敬東教授將 Transformer 引入單細(xì)胞轉(zhuǎn)錄組分析領(lǐng)域中,解決了領(lǐng)域內(nèi)長期以來缺乏可解釋性的難題。
圖片
圖 | 韓敬東(來源:韓敬東
研究中,他們研發(fā)出一款名為 TOSICA 的模型,數(shù)十分鐘即可完成百萬級數(shù)據(jù)的細(xì)胞類型注釋,它能在不提供批次信息的前提下,準(zhǔn)確且快速地學(xué)習(xí)并參考數(shù)據(jù)集中的分類標(biāo)準(zhǔn),從而針對新數(shù)據(jù)自動地進(jìn)行細(xì)胞類型標(biāo)注,并能提供一個弱批次效應(yīng)的、可解釋的隱變量低維空間,以及建立高分辨率的細(xì)胞低維表示。
對于單細(xì)胞分析領(lǐng)域一直缺少的可解性,這款模型提供了一種新的技術(shù)支持。目前,TOSICA 模型的軟件包與指導(dǎo)手冊均已開源(https://github.com/JackieHanLab/TOSICA)。
圖片
(來源:Nature Communications
論文評審專家表示:“(作者們)在一個已經(jīng)相對擁擠的領(lǐng)域仍然做出了改進(jìn)。其所采用的注意力機(jī)制相當(dāng)有趣,且提供了多數(shù)深度學(xué)習(xí)模型不能提供的可解釋性。”并認(rèn)為這款模型“將 Transformer 帶入了單細(xì)胞分析領(lǐng)域,(是一個)非常有雄心并且意義重大的研究”。
日前,相關(guān)論文以《基于 Transformer 的一站式可解釋的細(xì)胞類型注釋器》(Transformer for one stop interpretable cell type annotation)為題發(fā)在 Nature Communications 上。
圖片
圖 | 相關(guān)論文(來源:Nature Communications
韓敬東教授擔(dān)任通訊作者,該校生命科學(xué)聯(lián)合中心 2018 級博士研究生陳嘉偉、以及 2021 級博士研究生徐浩為共同一作。
圖片
(來源:Nature Communications
在應(yīng)用前景上,TOSICA 模型可被直接推廣到科研人員手中,將他們從人工標(biāo)注中解放出來,同時還能夠給出多層次的生物學(xué)解釋。
另外,通過效仿 Transformer 在其他領(lǐng)域的應(yīng)用,借助 TOSICA 模型也可以共建一個模型分享社區(qū),也可以讓具備硬件能力的實(shí)驗(yàn)室來對模型進(jìn)行訓(xùn)練,并將訓(xùn)練之后的模型共享給其他課題組,從而用于直接預(yù)測。同時,TOSICA 模型在方便學(xué)界交流的同時,還有利于分類標(biāo)準(zhǔn)的統(tǒng)一。
圖片
(來源:Nature Communications
圖片
從 20 世紀(jì)最偉大的三項科學(xué)計劃說起
地球上一切的生命活動,由中心法則的信息傳遞決定。而測序——是一項可以幫助人類獲取體內(nèi)信息的技術(shù)。該技術(shù)也催生了 20 世紀(jì)最偉大的三項科學(xué)計劃之一的“人類基因組計劃”。
2009 年,單細(xì)胞測序技術(shù)的面世,讓人類得以在單個細(xì)胞水平上觀察生命活動。和測序數(shù)據(jù)相伴相生的,則是各種分析工具。
在單細(xì)胞轉(zhuǎn)錄組測序的發(fā)展早期,測序通量一般只有數(shù)百個,最多能有上千個細(xì)胞,每個細(xì)胞里有數(shù)千甚至上萬的基因表達(dá)量信息。
可以說,一個細(xì)胞就是一個高維的基因空間中的點(diǎn),而每一個維度代表著一種基因。
在傳統(tǒng)分析方法里,人們先是利用線性和非線性的降維手段,將高維信息降低到低維空間,然后在低維空間中對細(xì)胞進(jìn)行聚類。這時,相似的細(xì)胞會被歸為一類。
然后,再通過比較類與類之間的差異基因,借此得到不同細(xì)胞簇的標(biāo)志基因,最后結(jié)合已有知識對細(xì)胞身份進(jìn)行識別。
為了方便使用,學(xué)界將上述流程進(jìn)行集成和標(biāo)準(zhǔn)化,推出了兩大著名軟件包:Seurat 和 Scanpy。使用時只需改動一些參數(shù),就能輕易得到分析結(jié)果。不過,在操作時依然需要用戶自己去結(jié)合相關(guān)知識,以便進(jìn)行細(xì)胞身份的標(biāo)注。
圖片
圖 | 傳統(tǒng)單細(xì)胞轉(zhuǎn)錄組分析流程(來源:IET nanobiotechnology
伴隨著測序能力的提升,新出現(xiàn)的數(shù)據(jù)集規(guī)模往往達(dá)到十萬乃至百萬級別。鑒于測序技術(shù)的普及,經(jīng)常出現(xiàn)不同課題組開展相同實(shí)驗(yàn)的情況。這給當(dāng)前的分析工具提出了如下挑戰(zhàn):
其一,降維和聚類時所需的計算能力和運(yùn)算時間,會隨著分析數(shù)據(jù)量的增加而暴漲;
其二,在相同的實(shí)驗(yàn)里,由于不同實(shí)驗(yàn)室設(shè)置的參數(shù)不同,得到的結(jié)果也不盡相同。尤其在一些細(xì)胞亞群的注釋上,同一種細(xì)胞往往會出現(xiàn)被不同實(shí)驗(yàn)室“首次”發(fā)現(xiàn)的情況,并被冠以不同的名稱。當(dāng)沒有權(quán)威專家參與時,人們很難對細(xì)胞類型進(jìn)行命名,這既浪費(fèi)了資源也不利于學(xué)界交流;
其三,研究人員需要不斷調(diào)整參數(shù)來獲得最優(yōu)結(jié)果,而這會消耗大量的人力物力;
其四,受制于當(dāng)前的技術(shù)現(xiàn)狀,由于人為操作或機(jī)器原因,不同數(shù)據(jù)集之間可能存在差異,并經(jīng)常和和生物學(xué)差異混合在一起,這也被稱作批次效應(yīng)。因此,在使用傳統(tǒng)分析方法時,需要通過額外操作來去除批次效應(yīng),只有這樣才能集合不同數(shù)據(jù)并進(jìn)行比較。但是,在去除批次效應(yīng)時,也會受到實(shí)驗(yàn)人員自身經(jīng)驗(yàn)和偏好的影響,因此必須平衡好批次效應(yīng)的去除、以及真實(shí)生物學(xué)差異的保留。
但從本質(zhì)來看,細(xì)胞類型注釋是一個簡單的重復(fù)性勞動。如果能將科研人員從這一苦差事中解救出來,就能讓他們把精力用在更重要的事上。
在協(xié)助人類的生產(chǎn)生活上,人工智能是被運(yùn)用最多的技術(shù)之一。從機(jī)器學(xué)習(xí)、深度學(xué)習(xí),學(xué)界已經(jīng)進(jìn)行了諸多嘗試。
起初,科學(xué)家嘗試使用支持向量機(jī)、決策樹這些傳統(tǒng)的機(jī)器學(xué)習(xí)算法來做分類問題,并在前些年取得了不錯的成果。后來,學(xué)界嘗試通過計算新數(shù)據(jù)和已有數(shù)據(jù)之間的相似性,來輔助細(xì)胞類型的注釋。
很多方法直到今天依然湊效。但是,隨著神經(jīng)網(wǎng)絡(luò)的興起,研究者們也開始思考,神經(jīng)網(wǎng)絡(luò)能否為單細(xì)胞分析領(lǐng)域注入新的活力?
在當(dāng)前的單細(xì)胞分析領(lǐng)域里,比較主流的神經(jīng)網(wǎng)絡(luò)仍然是 Autoencoder 框架,它是一種非?!奥斆鳌钡淖员O(jiān)督降維算法,可以將高維原始表達(dá)逐步經(jīng)過非線性的特征抽?。‥ncoder 過程),實(shí)現(xiàn)在低維隱變量空間里的表達(dá),然后再根據(jù)低維空間信息經(jīng)過生成式模型(Decoder 過程),借此去還原原來的高維空間。
這時,將新數(shù)據(jù)的低維空間和參考數(shù)據(jù)的低維空間加以對齊,即可觀察未知細(xì)胞周圍參考細(xì)胞的身份,進(jìn)而就能預(yù)測未知細(xì)胞的身份。
圖片
圖 | Autoencoder 原理示意:X 是原始輸入,z 是富集信息降維后的隱變量,X~是經(jīng)過 Autoencoder 后生成的和原始輸入維度一致的輸出,且盡可能與原始輸入一致(來源:韓敬東課題組)
盡管上述方法很有用,但是新的問題接踵而至:
首先,在模型的 Encoder 過程中,信息被以非線性的方式進(jìn)行整合。所以,在最終的低維隱變量空間,每一個維度都有可能接收來自全部原始維度的信息。
然而,這些信息的來源并不明確,所以隱變量空間并不具備可解釋性,這也是目前大多數(shù)單細(xì)胞分析工具始終無法克服的難題。
其次,隱變量空間包含的信息必須足夠完整,以便能對原始信息進(jìn)行還原。所以,隱變量空間其實(shí)和原始空間一樣,包括了生物學(xué)信息和批次效應(yīng)信息。然而,理想的隱變量空間并不應(yīng)該包含批次信息,只有這樣才夠?qū)R不同批次。因此,多數(shù) Autoencoder 模型必須提供批次信息,才能讓模型學(xué)會主動忽略批次信息。
再次,理論來講把模型做大、做深,將有利于算力的提升,但這會增加對于硬件的要求,也可能會抬高計算成本。
基于此,在調(diào)研各類模型框架之后,該團(tuán)隊發(fā)現(xiàn)生物學(xué)界對于 Transformer 并不陌生,但是單細(xì)胞領(lǐng)域至今仍未涉足 Transformer。
Transformer 基于多頭注意力機(jī)制,最早出現(xiàn)在自然語言處理領(lǐng)域,它能通過注意力來獲取全局信息。
在自然語言處理領(lǐng)域中,每個句子由多個詞的 Token 進(jìn)行表示,Transformer 通過學(xué)習(xí) Token 之間的“注意力”(可以理解為一種相關(guān)性),來學(xué)習(xí)句子的結(jié)構(gòu)和語義。
而后,Transformer 又進(jìn)軍計算機(jī)視覺領(lǐng)域(Computer Vision,CV),大有和 CV 領(lǐng)域傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)“分庭抗禮”之勢態(tài)。再后,它甚至席卷到生物界,比如 AlphaFold2 的出現(xiàn)就驚艷了一眾結(jié)構(gòu)生物學(xué)家。
那么,韓敬東課題組為什么會關(guān)注 Transformer?事實(shí)上在 CV 領(lǐng)域,也存在分類的問題。因此,科學(xué)家們?yōu)?Transformer 增加了 Class Token(CLS)。
在使用時,CLS 和代表某一張圖片的 Patch Token 一起送入模型,并在處理過程中掌握圖片信息,這些信息最終被用于分類。
于此同時人們發(fā)現(xiàn),提取 CLS 對于其他 Token 的注意力之后,并將其展示在圖片上,就能勾勒出到底圖片中的哪些區(qū)域,對于分類是最重要的。
圖片
圖 | Vision Transformer 注意力可視化(來源:https:///abs/2010.11929)
并且,當(dāng) Transformer 在處理對象時,用于表示對象的特征維度,始終是不變的。所以,一旦對較低維度的細(xì)胞表征予以確認(rèn),在 Transformer 的處理過程中,對象的維度就不會再改變。并且對于分類來說,只要提取 CLS 的注意力,就能找出那些重要的特征維度。
相比基因所能提供的信息,生物學(xué)通路和調(diào)節(jié)子可以提供層次更高的、且具有生物學(xué)意義的信息。在降維的編碼過程中,比起基于全連接網(wǎng)絡(luò)的模型,生物學(xué)通路和調(diào)節(jié)子所提供的信息,會讓模型更加稀疏、更加有效。
基于此,該團(tuán)隊設(shè)計了一個 Mask Embed 層,先使用通路或其他生物學(xué)集合,來提取高維基因空間中的信息,即從使用數(shù)萬個基因來表示細(xì)胞、變成使用數(shù)百個通路(Pathway Token)表示細(xì)胞,而后送入 Transformer 訓(xùn)練成為一個分類模型,提取 CLS 對于 Pathway Token 的注意力并以此作為細(xì)胞的低維表示。
圖片
“What a coincidence!”
事實(shí)上,該團(tuán)隊原本計劃開發(fā)一款基于細(xì)胞類型的單細(xì)胞衰老時鐘,期間需要整合一些公共數(shù)據(jù)庫。
但是,由于隊列采樣的時間不統(tǒng)一,經(jīng)常要在每次出現(xiàn)新數(shù)據(jù)之后,再將所有數(shù)據(jù)全部整合、從頭分析,耗時且費(fèi)力。
為此,他們嘗試了不少市面上的工具,然而效果卻都不盡人意。期間,課題組也發(fā)現(xiàn) Autoencoder 在這一領(lǐng)域隱隱占據(jù)主導(dǎo)地位。
他們心想不如自己開發(fā)一個工具。這時,組里學(xué)生就開始向計算機(jī)專家們廣泛“取經(jīng)”。出發(fā)點(diǎn)主要有兩個:避開 Autoencoder、以及提供可解釋性。
當(dāng)這項研究于 2021 年立項時,Transformer 已經(jīng)面世 4 年,Vision Transformer 才剛出現(xiàn) 1 年,后者的關(guān)注度還不是很高。
幾名實(shí)驗(yàn)室成員看到 Attention map 那張圖的時候都很激動,一時間覺得迎來了曙光。而關(guān)鍵問題在于如何進(jìn)行降維處理——畢竟很難保留全部的基因維度。
不過,他們還是做出了第一版 TOSICA 模型,結(jié)果發(fā)現(xiàn)就算模型做得不夠大,也能實(shí)現(xiàn)不錯的準(zhǔn)確性。而后,該團(tuán)隊又利用專家知識來設(shè)計 Mask Embed 層,不僅進(jìn)一步提高了準(zhǔn)確性,且在可解釋性上更加具有生物學(xué)意義。
圖片
(來源:Nature Communications
在模型的命名上,課題組原本想借鑒 Transformer 在其他領(lǐng)域的命名方式,例如在視覺領(lǐng)域就叫做 Vision Transformer(ViT)。那么,在單細(xì)胞領(lǐng)域是不是可以叫 scTrans?
鑒于本次模型可以執(zhí)行細(xì)胞類型注釋的 Transfer 功能,名字中帶上“Trans”也顯得十分契合。
但是,他們覺得還是不夠朗朗上口,也不像 Seurat 聽起來富有藝術(shù)性——Seurat 的開發(fā)者認(rèn)為 Seurat 在繪制單細(xì)胞聚類圖上的小點(diǎn)時,和法國點(diǎn)彩畫家喬治·修拉(Georges Seurat)用點(diǎn)作畫時一樣美妙,于是用這位畫家的名字來給模型命名。
考慮到此,韓敬東課題組在給模型命名時,也想向人名、或向某些具有現(xiàn)實(shí)意義的雙關(guān)語方向靠攏,然而一直沒有好的想法。
后來,他們在總結(jié)工具優(yōu)點(diǎn)、以及擬定論文標(biāo)題時,發(fā)現(xiàn)把標(biāo)題中每一個單詞的首字母單拎出來,即可組成 TOSICA(Transformer for One Stop Interpretable Cell type Annotation),這聽起來很像一個人名。
“然后上網(wǎng)一查,在 Urban dictionary 上真的有這個詞,譯為'星球上最美好的生物’。What a coincidence!這個名字就這么敲定了?!?a data-miniprogram-appid='wx99cc64e6169731cc' data-miniprogram-path='pages/professor-detail/index?personage_id=61247&share=true' data-miniprogram-nickname='絡(luò)繹科學(xué)' href='' data-miniprogram-type='text' data-miniprogram-servicetype=''>韓敬東說。
圖片
圖 | TOSICA 網(wǎng)絡(luò)解釋(來源:urbandictionary)

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多