|
來源:生物世界 2022-10-17 10:48 基于DNA序列編碼基因表達模式的假設,該研究提出了深度學習模型Nvwa(女媧),首次實現了完全基于基因組序列預測單細胞水平的基因表達,且預測準確度與實驗測量精度相當。 浙江大學基礎醫(yī)學院/浙江省良渚實驗室郭國驥/韓曉平團隊在 Nature Genetics 期刊發(fā)表了題為:Deep learning of cross-species single cell landscapes identifies conserved regulatory programs underlying cell types 的研究論文。 該研究利用自主構建的高通量單細胞測序平臺Microwell-seq繪制了斑馬魚、果蠅和蚯蚓的全身單細胞轉錄組圖譜,并探究了八種代表性后生動物細胞類型的跨物種可比性,揭示了脊椎動物細胞類型保守的調控程序。 此外,該研究提出了深度學習模型——Nvwa(女媧),首次實現了完全基于基因組序列預測單細胞分辨率下的基因表達。該研究基于Nvwa模型學習衍生的譜系特異性基序,表征了跨物種細胞類型特異性的調節(jié)程序。
預測基因表達和解析基因調控機制一直是基因組學的重要目標。盡管研究人員已經努力使用細胞系或組織中的各種實驗特征來預測調節(jié)信號和基因表達,但在單細胞分辨率下進行生物體規(guī)模的表達預測仍然具有挑戰(zhàn)性。如今單細胞圖譜能夠以統(tǒng)一的標準呈現物種細胞的表型,因而人類有機會使用跨物種的單細胞數據來探索進化過程中不同細胞類型的表達和調控程序。 研究團隊假設可以直接從基因組序列預測生物體規(guī)模的單細胞基因表達,并試圖在具有巨大細胞類型多樣性的后生動物中檢驗這一假設。 該研究中,研究人員首先使用其團隊自主研發(fā)的高通量單細胞測序平臺Microwell-seq繪制了斑馬魚、果蠅和蚯蚓的全身單細胞轉錄組圖。其中,斑馬魚圖譜收集了635,228個單細胞數據,果蠅圖譜涵蓋了276,706個單細胞數據,蚯蚓圖譜包含了95,020個單細胞數據。該研究利用這三種模式動物的單細胞圖譜,并結合其他五種代表性動物的單細胞圖譜(人類、小鼠、海鞘、線蟲和渦蟲),挖掘了跨物種細胞譜系特異性的轉錄因子,探究了八種代表性后生動物細胞類型的跨物種可比性,揭示了脊椎動物細胞類型,特別是免疫細胞、基質細胞、神經元、上皮細胞、內皮細胞和生殖細胞的保守調節(jié)程序。
基于DNA序列編碼基因表達模式的假設,該研究提出了深度學習模型Nvwa(女媧),首次實現了完全基于基因組序列預測單細胞水平的基因表達,且預測準確度與實驗測量精度相當。 值得注意的是,Nvwa模型可以高度準確地預測幾乎所有測試物種的基因表達。此外,通過檢查模型第一層的卷積的基序特征Filter,團隊揭示了細胞類型特異的基序。這些基序與在特異細胞類型中作用機制明確的轉錄因子基序相一致?;谀vwa模型Filter的跨物種比較,該研究還發(fā)現同源Filter傾向于保持跨物種的細胞類型特異性。該工作首次建立了物種層面基因組編碼細胞圖譜的整合模型,并為解碼多物種基因調控程序提供了寶貴資源。
浙江大學基礎醫(yī)學院2019級直博生李佳琦、良渚實驗室特聘研究員王晶晶、浙江大學基礎醫(yī)學院博士后張霈婧和汪仁英為本文共同第一作者,浙江大學基礎醫(yī)學院郭國驥教授、韓曉平教授和良渚實驗室王晶晶研究員為共同通訊作者。研究獲得了國家重點研發(fā)計劃和國家自然科學基金的支持。 |
|
|
來自: 子孫滿堂康復師 > 《藥學科 醫(yī)藥研究》