|
大數(shù)據(jù)文摘出品 來源:麻省理工科技評論 編譯:stats熊 無論是國內(nèi)還是國外,公眾對隱私保護的意識越來越強烈。 尤其是醫(yī)療數(shù)據(jù),因為大部分病人不愿意將自己的診斷結(jié)果等這類隱私信息拿出來,所以機器學習在疾病診斷和探索潛力被大大壓制。 在2017年的時候,谷歌曾經(jīng)悄悄的發(fā)表了一篇關(guān)于機器學習新方法的博客。 與常規(guī)方法需要把數(shù)據(jù)集中不同的是,新的方法會從多個數(shù)據(jù)源獲取數(shù)據(jù)進行學習。這種新方法的出現(xiàn),讓谷歌可以不需要通過讀取或者轉(zhuǎn)移安卓手機用戶的短信,就可以訓練他們用在這些收發(fā)短信上的預測語義模型。 這是一個鮮為人知卻可以保護隱私的訓練方法。 數(shù)據(jù)不離開每家醫(yī)院就可以完成整體模型訓練,并且準確率可以媲美整合多家醫(yī)院數(shù)據(jù)訓練的模型。 盡管這種聯(lián)合學習方式很聰明,但正如那些研究人員所言,這個在當時人工智能的圈子里并沒有太多吸引力?,F(xiàn)在,隨著在全新領(lǐng)域得到應(yīng)用,這種情況也將發(fā)生改變:這種隱私優(yōu)先的方法將會是解決人工智能在醫(yī)療健康領(lǐng)域障礙的一針強心劑。 MIT計算機科學相關(guān)的副教授Ramesh Raskar,曾這樣說過:“在病人數(shù)據(jù)隱私方面和數(shù)據(jù)對于社會的效用之間存在著一種錯誤的二分法,現(xiàn)在我們可以同時實現(xiàn)數(shù)據(jù)的隱私和效用,而數(shù)據(jù)就像腳下流走的沙子,人們完全察覺不到?!?/p> 過去的十年間,深度學習的迅速崛起引起了很多企業(yè)的變革。正是因為這種崛起推動了無人汽車的發(fā)展,從根本上改變了我們與設(shè)備交互方式,讓我們對網(wǎng)絡(luò)安全產(chǎn)生了新發(fā)明。在健康領(lǐng)域,盡管有許多研究表明深度學習可以探測和診斷疾病,但是利用機器學習來幫助真正的病人方面還是進展緩慢。 現(xiàn)在那些最流行的算法需要有大量數(shù)據(jù)做學習,在絕大多數(shù)情況下,越多數(shù)據(jù)算法的結(jié)果會越好。如果醫(yī)院和研究機構(gòu)想要有一個又大又多的數(shù)據(jù)資源池,那他們就需要把數(shù)據(jù)存儲在一起。 特別在美國和英國,將那些掌握在科技巨頭手中的敏感醫(yī)療信息中心化被多次證明極不受歡迎,而且并不讓人感到意外。 因此,將人工智能投入診斷研究的眼界和適用性就變得十分狹小。你不能在全世界推廣乳腺癌的探測模型,因為它只在來自同一家醫(yī)院的幾千名病人身上做過驗證。 這些都會通過聯(lián)合學習改變。這種技術(shù)可以用來自幾家不同醫(yī)院的數(shù)據(jù),同時這些數(shù)據(jù)從來沒有離開過醫(yī)院環(huán)境或者觸碰一家技術(shù)公司的服務(wù)器。 具體操作方式 這是如何做到的?首先在不同醫(yī)院用它自己的數(shù)據(jù)訓練出來不同的模型,然后把這些模型送到中心處理器并整合為一個完美模型。 當每個醫(yī)院不停獲取數(shù)據(jù),通過把最新的完美模型下載到醫(yī)院端,并將新數(shù)據(jù)導入,再推送回中心服務(wù)器。通過這樣的步驟,新的數(shù)據(jù)不會被交換出去,被交換的只有模型,所以數(shù)據(jù)也不會被反向揭露。 聯(lián)合學習面臨的挑戰(zhàn) 當然這種聯(lián)合學習還面對許多挑戰(zhàn)。其中之一,將幾個獨立模型合并成一個完美模型面臨的風險,要比每一個單獨的模型都要大。Raskar說,研究人員正在改善現(xiàn)有技術(shù),以保證這類問題不再發(fā)生。 另一個挑戰(zhàn),就是聯(lián)合學習需要每個醫(yī)院有訓練機器學習模型的基礎(chǔ)設(shè)施和基本能力。同時,如何把從全醫(yī)院收集來的數(shù)據(jù)進行標準化也是一大障礙。但是正如Raskar所說,“雖然說還有許多工作需要完成,但大多只是創(chuàng)可貼一樣的修修補補”,沒有什么困難是不能克服的。 其他隱私優(yōu)先的機器學習 事實上,其他的隱私優(yōu)先分布式學習技術(shù)已經(jīng)可以解決那些問題。例如,Raskar和他的學生近期研究出了分離學習。在聯(lián)合學習中,每個醫(yī)院開始都是訓練獨立模型,但只僅僅訓練半程。這些半成品模型之后被送往中心服務(wù)器去合并,同時完成訓練。 這樣做的優(yōu)點可以減輕一些醫(yī)院獨立計算的負擔。雖然說這個技術(shù)還是停留在概念證明階段,但是先前的試驗,讓Raskar的研究團隊同樣也證明了,如果在中心數(shù)據(jù)池里進行訓練,會形成一個接近于完美的模型。 少部分公司,包括IBM研究中心在內(nèi),正在推動聯(lián)合學習在現(xiàn)實生活中的人工智能在醫(yī)療健康方面的應(yīng)用??偛吭O(shè)在巴黎的Owkin公司,在Google投資公司的幫助下,開始應(yīng)用聯(lián)合學習來預測病人的抗藥性和抗治療性,同時觀測他們在確定疾病下的存活率。 這家公司同時借助在美國和歐洲的癌癥研究中心提供的數(shù)據(jù)來進行模型研究。公司創(chuàng)始人提到,合作的結(jié)果會被發(fā)表在一篇即將發(fā)表的研究論文上,是一個基于病人病理圖可以預測一種罕見癌癥存活率的模型。 Owkin公司聯(lián)合創(chuàng)始人兼臨床研究醫(yī)生Thomas Clozel,這樣說到:“我十分激動?,F(xiàn)如今在腫瘤學最大的障礙就是知識。讓我們感到非常興奮的是現(xiàn)在有能力解鎖這些知識,同時也可以在醫(yī)療領(lǐng)域開展創(chuàng)新性探索?!?/p> Raskar相信這些在分布式學習應(yīng)用將會遠遠拓展到醫(yī)療健康之外的企業(yè),尤其是那些人們不想分享數(shù)據(jù)的地方。最后他總結(jié)到:“在分散的、缺乏信任的環(huán)境下,這種學習方法將會十分十分十分有用。” Karen Hao是MIT技術(shù)評論人工智能板塊記者。特別是,她的報道涵蓋了技術(shù)的倫理和社會影響,也包括那些對于社會的應(yīng)用。 相關(guān)報道: https://www./s/613098/a-little-known-ai-method-can-train-on-your-health-data-without-threatening-your-privacy/ 實習/全職編輯記者招聘ing 加入我們,親身體驗一家專業(yè)科技媒體采寫的每個細節(jié),在最有前景的行業(yè),和一群遍布全球最優(yōu)秀的人一起成長。坐標北京·清華東門,在大數(shù)據(jù)文摘主頁對話頁回復“招聘”了解詳情。簡歷請直接發(fā)送至zz@bigdatadigest.cn |
|
|