|
□趙屹 大數(shù)據(jù),從一般定義上來講,是指難以被傳統(tǒng)數(shù)據(jù)管理系統(tǒng)有效存儲、管理、分析的復雜數(shù)據(jù)集。 雖然我們講了很多年的大數(shù)據(jù),可是什么樣的量級才能叫作“大數(shù)據(jù)”,還沒有定論。大數(shù)據(jù)產生的方式不一樣,數(shù)據(jù)的結構也不一樣。與傳統(tǒng)數(shù)據(jù)相比,大數(shù)據(jù)一般有四個V的特征。第一是volume,數(shù)據(jù)量大;第二是variety,數(shù)據(jù)類型多;第三是velocity,產生的速度快;最后一個是value,數(shù)據(jù)中包含著重要價值。這是大數(shù)據(jù)最重要的特征。但同時,它的價值密度低,數(shù)據(jù)之間的關系太復雜,用少量數(shù)據(jù)不太可能找到正確規(guī)律,因此,才需要龐大的數(shù)據(jù)作為基礎,進行傳輸、存儲、分析、可視化等工作。 要強調的是,作為研究使用的大數(shù)據(jù),必須嚴格控制選入標準和質量。否則一旦給人工智能模型garbage in(提供“垃圾”),就一定會garbage out(結果錯誤)。 去年,中科院多位院士進行了一系列調研總結,發(fā)現(xiàn)我國擁有非常龐大的醫(yī)療健康大數(shù)據(jù),這對進行生命健康領域原創(chuàng)性的研究,及對發(fā)展生物醫(yī)療產業(yè)來說,都是非常核心的競爭力。但當前的現(xiàn)狀卻不容樂觀:數(shù)據(jù)碎片化嚴重,缺乏大數(shù)據(jù)的質量規(guī)范和標準,缺乏共享機制,沒有建立大數(shù)據(jù)的綜合管理體系。這一現(xiàn)狀最直接的結果之一是患者們在不同醫(yī)院就醫(yī),醫(yī)院之間很難有信息共享的標準和體系。我們非常期望不同的學科及部門重視當前存在的問題,圍繞醫(yī)療健康大數(shù)據(jù)進行深入研究,共同促進科技和產業(yè)的發(fā)展。 為什么強調大數(shù)據(jù)的重要性?舉一個例子。2019年,有一篇刊發(fā)在Nature(《自然》)雜志的文章,研究的是精神分裂癥與基因遺傳位點的相關性。研究者發(fā)現(xiàn),當入組患者數(shù)量在6900名的時候,沒有在任何基因的位點上發(fā)現(xiàn)跟精神分裂癥的相關性;當樣本人群擴大到23000人,研究發(fā)現(xiàn)了7個位點;而當入組人數(shù)擴大到6萬多人的時候,可以找到22個位點;入組15萬人時,可以找到108個。從這個例子可以看出,數(shù)據(jù)規(guī)模和最終得到的科學結論是正相關的。因此,大數(shù)據(jù)是開展深度學習的重要基礎。 目前,我們所開展的醫(yī)療健康大數(shù)據(jù)的研究主要面向三類,分別是電子病歷、臨床影像以及生命組學數(shù)據(jù)。 第一類,電子病歷,大家都很熟悉。平常我們接觸的電子病歷都是醫(yī)生用自然語言寫的一段描述,但要讓計算機進行學習和分析,對某種疾病進行診斷,還要經(jīng)過數(shù)據(jù)結構化處理、數(shù)據(jù)治理等過程,把其中的關鍵詞提出來,讓計算機讀懂這些信息。比如,哪些是癥狀,哪些是診斷。 2019年,Nature Medicine(《自然醫(yī)學》)雜志發(fā)表了一篇文章。作者應用了臨床100多萬冊兒科門診病歷,通過結構化處理,進行深度學習,實現(xiàn)對兒童呼吸道疾病的診斷。最終,研究呈現(xiàn)出的模型,對兒童上呼吸道疾病和下呼吸道疾病的診斷率,分別能達到89%和87%。 如果再細分的話,對傳染性的單核細胞增多癥能達到90%的診斷率。 第二類是醫(yī)學影像數(shù)據(jù)。目前,醫(yī)學影像數(shù)據(jù)結合人工智能已給醫(yī)學發(fā)展帶來了巨大變革。人工智能最早的應用就是在圖片的識別上,而在醫(yī)療健康領域,早在2018年的JAMA(《美國醫(yī)學會雜志》)上,就曾刊發(fā)過一篇用深度卷積神經(jīng)網(wǎng)絡對糖尿病性的視網(wǎng)膜病變進行診斷的研究文章。 該研究使用超過12萬張圖片進行了訓練學習。最終,完成學習的人工智能模型,在對該類疾病的診斷上,完全可以達到專業(yè)眼科醫(yī)生的水準。當然,在計算機進行學習前,所有圖片必須通過專家3~7次的評估和標定。學習結束后,還要通過測試來檢測它的準確度。 而從時間和效率上來看,假如一位資深的病理學家看100張病理切片要花30個小時,同樣一批切片,人工智能模型可能只需要一個多小時,而且還可以確保一定的準確率。 此外,人工智能在對語音的識別和理解上也能做得很好。未來,人工智能不僅可以理解我們?yōu)樗斎氲男盘?、手勢動作,還可以把輸入的多模態(tài)信號做一些融合,進行認知,甚至進行情感理解、語義理解最終與人進行多模態(tài)的交互。這意味著,未來從接觸患者開始,就可以通過人工智能的問診來獲取信息,結構化之后再提供給醫(yī)生。患者所做的檢查,也可以通過數(shù)據(jù)的融合進行預診分診,告訴患者應該掛哪個科,考慮哪方面的疾病等等。 第三類是生命組學數(shù)據(jù)。在醫(yī)療健康領域,目前高通量低成本的基因測序,不僅可以了解基因組,還可以對轉錄的RNA進行測序,甚至檢測DNA不同的修飾,檢測人體微生物組學,進行蛋白組的測序。每個分子組學層面的變化或異常,都會跟一些疾病發(fā)生相關。 在對這些大量的數(shù)據(jù)進行分析后,不但要把不同組學的數(shù)據(jù)綜合在一起,還要把電子病例信息、影像數(shù)據(jù),以及其他可穿戴設備數(shù)據(jù)等整合進來,應用人工智能技術,最終為每一個人的健康狀況給出建議和指導。 現(xiàn)在,我們正處于大數(shù)據(jù)驅動的新型醫(yī)學研究模式之下。我們從以往只靠臨床數(shù)據(jù)去研究疾病,進入到一個通過人工智能算法,通過計算能力,來對醫(yī)學和疾病進行研究的階段。 雖然人工智能時代已經(jīng)來臨,但它在醫(yī)學健康領域的應用才剛剛起步。大數(shù)據(jù)是智能醫(yī)療的基礎,人工智能只是一類工具。智慧醫(yī)學的核心還是臨床應用場景,其發(fā)展的關鍵仍是交叉學科的人才培養(yǎng)。 |
|
|
來自: 濮水新聲 > 《互聯(lián)網(wǎng)+》