|
2022年將成為一個(gè)新的技術(shù)分水嶺——從聯(lián)邦學(xué)習(xí)到可信聯(lián)邦學(xué)習(xí)。文|張婧怡編輯|蘇建勛封面來(lái)源|這是一個(gè)隱私和數(shù)據(jù)安全比以往更受關(guān)注的時(shí)代。人工智能技術(shù)正在各行業(yè)應(yīng)用落地,隨之提高的是人們對(duì)用戶隱私和數(shù)據(jù)安全的關(guān)注度。用戶更加關(guān)注隱私信息是否未經(jīng)許可便被他人出于商業(yè)或其他目的而利用,甚至濫用。同時(shí),隨著相關(guān)法律法規(guī)的進(jìn)一步實(shí)施,已有很多互聯(lián)網(wǎng)、金融機(jī)構(gòu)等企業(yè)由于泄露用戶數(shù)據(jù)而被重罰。另一方面,國(guó)家強(qiáng)調(diào)探索建立安全規(guī)格的數(shù)據(jù)要素流通規(guī)則。這意味著,監(jiān)管趨嚴(yán)背景下,機(jī)構(gòu)對(duì)數(shù)據(jù)的采集、流通與應(yīng)用愈發(fā)謹(jǐn)慎;而同時(shí)現(xiàn)實(shí)又在不斷推動(dòng)數(shù)據(jù)要素加速走向開放共享。因此,聯(lián)邦學(xué)習(xí)——作為隱私增強(qiáng)計(jì)算與人工智能相結(jié)合的新型技術(shù)范式,成為了解決數(shù)據(jù)安全與開放共享矛盾的一個(gè)重要技術(shù)路徑。聯(lián)邦學(xué)習(xí)中,客戶可以在自己的終端使用本地?cái)?shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,并將模型的加密參數(shù)進(jìn)行上傳匯總,將不同的模型更新進(jìn)行融合,優(yōu)化預(yù)測(cè)模型。而2022年將成為一個(gè)新的技術(shù)分水嶺——從聯(lián)邦學(xué)習(xí)到可信聯(lián)邦學(xué)習(xí)。針對(duì)近兩年來(lái)隱私計(jì)算和聯(lián)邦學(xué)習(xí)發(fā)展和應(yīng)用中面臨的安全、效率等挑戰(zhàn),“可信聯(lián)邦學(xué)習(xí)”被提出,這一范式將隱私保護(hù)、模型性能、算法效率作為核心,共同構(gòu)成了更加安全可信的聯(lián)邦學(xué)習(xí)。舉例來(lái)說(shuō),在一個(gè)新能源車廠的營(yíng)銷項(xiàng)目中,營(yíng)銷項(xiàng)目甲乙方兩邊的數(shù)據(jù)不能互傳,但是又有業(yè)務(wù)合作,因此一定要在合作高效率的前提下,又保證數(shù)據(jù)安全。這時(shí),可信聯(lián)邦算法的出現(xiàn)就極大地降低了數(shù)據(jù)被攻擊的可能性,又能極大提高效率。同時(shí),算法能高效防止終端有惡意用戶“下毒”,使得整個(gè)系統(tǒng)都是可信的。針對(duì)可信聯(lián)邦學(xué)習(xí)這一新范式,香港科技大學(xué)計(jì)算機(jī)與工程系講席教授、FATE開源社區(qū)技術(shù)指導(dǎo)委員會(huì)主席,可信聯(lián)邦學(xué)習(xí)提出者楊強(qiáng)院士在接受36氪采訪時(shí)表示:“現(xiàn)在越來(lái)越多的公司主動(dòng)要求引入隱私計(jì)算的解決方案,所以可信聯(lián)邦學(xué)習(xí)的商業(yè)前景的大門是開的,只不過(guò)技術(shù)的人要更加聰敏地設(shè)計(jì)平衡的方案。”楊強(qiáng)表示,任何多方參與進(jìn)行人工智能建模的過(guò)程,都繞不開可信聯(lián)邦學(xué)習(xí)這一通用的機(jī)器學(xué)習(xí)范式?!翱尚怕?lián)邦學(xué)習(xí)的核心命題是結(jié)合分布式機(jī)器學(xué)習(xí)和人工智能算法,找到聯(lián)合建??尚?、可行及可控的解決方案,極大降低隱私計(jì)算的成本,提升隱私計(jì)算應(yīng)用質(zhì)量,進(jìn)而推動(dòng)隱私計(jì)算的加速發(fā)展。”楊強(qiáng)介紹。同時(shí),楊強(qiáng)認(rèn)為,目前開源已成為大勢(shì)所趨,成為隱私計(jì)算產(chǎn)業(yè)生態(tài)核心組成部分。以國(guó)內(nèi)首個(gè)聯(lián)邦學(xué)習(xí)開源社區(qū)FATE為例,作為向隱私計(jì)算、聯(lián)邦學(xué)習(xí)開源生態(tài)中的開發(fā)者、貢獻(xiàn)者、用戶及生態(tài)伙伴建立的學(xué)習(xí)與交流平臺(tái),幫助開發(fā)人員快速實(shí)現(xiàn)聯(lián)邦學(xué)習(xí)應(yīng)用開發(fā)與部署,可通過(guò)可信聯(lián)邦學(xué)習(xí)中模型的“版權(quán)保護(hù)”(FedIPR),實(shí)現(xiàn)數(shù)據(jù)版權(quán)的保護(hù)和結(jié)果可溯源、可審計(jì)、可解釋;通過(guò)開源、開放和共享,實(shí)現(xiàn)普惠。以下是36 氪等媒體與香港科技大學(xué)計(jì)算機(jī)與工程系講席教授、可信聯(lián)邦學(xué)習(xí)提出者楊強(qiáng)的采訪實(shí)錄,經(jīng)編輯后發(fā)布:媒體:與傳統(tǒng)聯(lián)邦學(xué)習(xí)相比,可信聯(lián)邦學(xué)習(xí)進(jìn)行了哪些拓展?其優(yōu)勢(shì)是如何體現(xiàn)的?楊強(qiáng):傳統(tǒng)上,隱私計(jì)算更多強(qiáng)調(diào)“安全”,就是不可見(jiàn)的部分。但是在實(shí)踐當(dāng)中,不管是用聯(lián)邦學(xué)習(xí)也好、用多方安全計(jì)算也好,還是用什么其他的安全計(jì)算范式,在利用多方數(shù)據(jù)的安全前提下建模,都離不開聯(lián)邦學(xué)習(xí)的整體框架,并且一定要把“可用”提到和“安全”一樣的高度。所以問(wèn)題是如何把安全效率和模型效能,就是模型的準(zhǔn)確率和算法的效率,時(shí)間、復(fù)雜度,這三者如何做一個(gè)有機(jī)平衡。目前,我們已經(jīng)有了一些進(jìn)展:理論上,我們研究了通用的多方合作的聯(lián)合建模、聯(lián)合使用模型的方式,發(fā)現(xiàn)不管是聯(lián)邦學(xué)習(xí)也好、隱私計(jì)算也好、安全多方計(jì)算也好,都逃不出這樣一個(gè)均衡問(wèn)題。我們把這個(gè)問(wèn)題通俗易懂地描述成「沒(méi)有免費(fèi)的午餐」,就是不可能有烏托邦式的安全,也不可能有烏托邦式的效率。在實(shí)踐當(dāng)中,這三者的有效平衡是對(duì)每一個(gè)算法設(shè)計(jì)者和法律設(shè)計(jì)者的考驗(yàn)。下一階段,我們?cè)陔[私計(jì)算和聯(lián)邦學(xué)習(xí)技術(shù)的發(fā)展上,應(yīng)該對(duì)這樣的平衡非常重視。同時(shí)我們也認(rèn)為,后期的管理非常重要。比方我們建立一個(gè)模型,這個(gè)模型另外一方使用。在使用過(guò)程中,萬(wàn)一它把模型進(jìn)行二次售賣,在我不知情或者沒(méi)有收益的情況下,就相當(dāng)于把我的書復(fù)印了一份到其他的市場(chǎng)售賣一樣的道理,是一個(gè)違法行為。另外就是互通互聯(lián),我們希望各家的解決方案能夠很容易地互相聯(lián)通,有共用的基礎(chǔ)模塊,最后大家可以把這些模塊建成我們所要的基礎(chǔ)架構(gòu),軟件架構(gòu)、硬件架構(gòu),這就好像我們蓋房子一樣,我們有各種材料,最后把這些材料蓋成我們想要的房子。因此,開源尤其重要。開源對(duì)于安全機(jī)制也非常有效,因?yàn)榇蠹叶伎梢员O(jiān)管,在陽(yáng)光下有漏洞的可能性遠(yuǎn)遠(yuǎn)小于在陰暗的角落發(fā)展出一個(gè)黑箱所可能犯的錯(cuò)誤。所以,我們非常鼓勵(lì)開源和普惠。媒體:今年應(yīng)該是深度學(xué)習(xí)的十周年,在過(guò)去十年這一波人工智能是由深度學(xué)習(xí)驅(qū)動(dòng)的,您認(rèn)為可信聯(lián)邦學(xué)習(xí)對(duì)于以深度學(xué)習(xí)為基礎(chǔ)的人工智能發(fā)展的邏輯,是否會(huì)帶來(lái)一些改變呢?楊強(qiáng):我覺(jué)得有幾個(gè)改變是非常明顯的,也可以看作轉(zhuǎn)折點(diǎn)。第一,現(xiàn)在發(fā)現(xiàn)深度學(xué)習(xí)驅(qū)動(dòng)的人工智能發(fā)展確實(shí)非常有效,因?yàn)樗龠M(jìn)了人工智能指數(shù)型的發(fā)展。但是現(xiàn)在也有很多的跡象表明并沒(méi)有我們想象的那么理想,其中一個(gè)重要的原因是,它在輸入端并沒(méi)有大家想象的那么順暢。數(shù)據(jù)都有屬主,屬主有它的考慮、有它的利益、有它的隱私,因此安全性、對(duì)隱私的保護(hù)也被提出,這些都是轉(zhuǎn)折點(diǎn)的驅(qū)動(dòng)力。第二個(gè),在算法上,過(guò)去都是基于一個(gè)單計(jì)算中心設(shè)計(jì)的。但是當(dāng)我們有了上千萬(wàn)的手機(jī)、有了上百萬(wàn)級(jí)的無(wú)人車,每一個(gè)端點(diǎn)都是一個(gè)計(jì)算中心。這種狀態(tài)下,分布式的數(shù)據(jù)和分布式的計(jì)算,如何能夠安全高效地進(jìn)行人工智能的模型訓(xùn)練,這是過(guò)去沒(méi)有考慮過(guò)的問(wèn)題,這又是一個(gè)轉(zhuǎn)折點(diǎn)?,F(xiàn)在看到很多大模型都能做非常復(fù)雜的工作,但是他們?cè)趯?shí)用上卻少之又少,也就是說(shuō)它們現(xiàn)在變成一個(gè)“奧運(yùn)會(huì)”的比賽,并沒(méi)有深入到千家萬(wàn)家,為什么這樣,原因就在這,數(shù)據(jù)不是這樣分布的,數(shù)據(jù)真正是分布式的,算法沒(méi)有跟上,所以在算法層面我們是要研究一種算法。最后,當(dāng)我們有了這種分布式數(shù)據(jù)格局和倫理考慮之下,更多的不是數(shù)據(jù)在網(wǎng)絡(luò)當(dāng)中傳輸,是模型在傳輸,所以未來(lái)的世界是一個(gè)多模型世界,在多模型世界下,模型的治理、審計(jì)、合作、安全就被提出來(lái)了,在深度學(xué)習(xí)驅(qū)動(dòng)的AI里面沒(méi)有解決這樣一個(gè)模型驅(qū)動(dòng)世界的難題。媒體:從商業(yè)化的角度來(lái)看,可信聯(lián)邦學(xué)習(xí)未來(lái)的商業(yè)潛力是怎樣的?楊強(qiáng):從大概三四年以前,隱私計(jì)算和聯(lián)邦學(xué)習(xí)進(jìn)入大家視野,到現(xiàn)在已經(jīng)有了很多實(shí)際應(yīng)用的案例,有些案例也給我們很多啟發(fā)。其中一個(gè)重要的啟發(fā)就是效率是一個(gè)非常關(guān)鍵的問(wèn)題,如果使用一個(gè)隱私計(jì)算的解決方案使得算法的效率大為下降,這就屬于一個(gè)不可用的技術(shù)。所以,我們既要安全又要效率,這是商用需求的一個(gè)前提,不是我們提出來(lái)的,這是很多需求方首先提出來(lái)的。首先是可用和安全并舉,而不是空泛的安全,所以這方面的商業(yè)前景主要看需求,這個(gè)需求是非常強(qiáng)烈的。并且,我們也同時(shí)看到在法律和國(guó)家法規(guī)的要求下,現(xiàn)在普法的工作做得非常徹底,現(xiàn)在越來(lái)越多的公司主動(dòng)要求引入隱私計(jì)算的解決方案,所以我覺(jué)得這個(gè)商業(yè)前景的大門是開的,只不過(guò)技術(shù)的人要更加聰敏地設(shè)計(jì)平衡的方案。媒體:未來(lái)我們會(huì)進(jìn)入一個(gè)數(shù)據(jù)密態(tài)的時(shí)代,肯定要保證數(shù)據(jù)安全,它才能被更多人使用,但安全的提升是不是意味著全社會(huì)的數(shù)據(jù)流通的性能要下降呢,是不是意味著我們會(huì)迎來(lái)一個(gè)更慢的互聯(lián)網(wǎng)?未來(lái)在這方面會(huì)不會(huì)引發(fā)新一輪的技術(shù)創(chuàng)新?楊強(qiáng):實(shí)際上,我們希望數(shù)據(jù)是流通的。加了法律以后,大家都有所忌憚,可能在一個(gè)極端的情況下,大家都不合作,這個(gè)情況下是最安全的?,F(xiàn)在我們也看到了這樣一個(gè)現(xiàn)象,比方歐盟出了GDPR法案以后,很多公司不敢到歐洲去做生意了,這是因?yàn)樗慕?。所以,如果我們沒(méi)有一個(gè)既合法又能夠促進(jìn)模型和數(shù)據(jù)的交流的技術(shù)手段,那就會(huì)形成一種孤島和停滯的局面,這是我們不希望看到的。所以我們比較的不是那種野蠻狀態(tài)下的互聯(lián)網(wǎng)效率,而是在合法、安全狀態(tài)下的互聯(lián)網(wǎng)率。應(yīng)該說(shuō),我們用了可信聯(lián)邦學(xué)習(xí),效率反而提高了,因?yàn)楸容^的對(duì)象是停滯的孤島狀態(tài),孤島是沒(méi)有任何商業(yè)交流和合作的。相反,比那種野蠻生長(zhǎng)的會(huì)不會(huì)更慢呢?野蠻生長(zhǎng)是對(duì)誰(shuí)有利呢?只對(duì)寡頭有利,我們不認(rèn)為野蠻生長(zhǎng)是對(duì)大眾有利的。這會(huì)不會(huì)引發(fā)軟硬件結(jié)合新一輪的創(chuàng)新,我認(rèn)為會(huì)。比方在隱私計(jì)算里面,可能在業(yè)界對(duì)隱私計(jì)算和聯(lián)邦學(xué)習(xí)誰(shuí)是誰(shuí)的子集這樣的問(wèn)題,大家都有混淆。其實(shí)答案是非常簡(jiǎn)單的,我們有兩個(gè)概念,一個(gè)是目標(biāo),一個(gè)是工具,隱私計(jì)算和聯(lián)邦學(xué)習(xí)都可以是目標(biāo),它的目標(biāo)在AI的角度來(lái)看,都是聯(lián)合建模,利用分布式的數(shù)據(jù)建模,所以它們沒(méi)有區(qū)別,你可以用一個(gè)名字作為另外一個(gè)名字的代名詞。但是同時(shí),它們又是工具,作為工具來(lái)說(shuō),他們都是工具箱的一員。比如安全多方計(jì)算是工具箱的一員,TEE硬件解決方案也是這個(gè)工具箱的一員,聯(lián)邦學(xué)習(xí)這種分布式架構(gòu)也是一員。我們可以把這些工具作為滿足剛才說(shuō)的隱私計(jì)算和聯(lián)邦學(xué)習(xí)目標(biāo)的手段和它們的組合作為一個(gè)手段,所以這樣一個(gè)架構(gòu)的隱私計(jì)算和聯(lián)邦學(xué)習(xí)就并不是矛盾的,或者安全多方計(jì)算和聯(lián)邦學(xué)習(xí)并不是二選一,而是大家都有用,可以組合完成我們的總目標(biāo)。如何利用這些作為基礎(chǔ)的建筑材料,有些是磚頭、有些是混凝土、有些是門框,我們需要他們所有的互通互聯(lián)能夠搭建一個(gè)房子,這個(gè)房子就是隱私計(jì)算和聯(lián)邦學(xué)習(xí)。所以從這一點(diǎn)來(lái)看,新的創(chuàng)新確實(shí)是在發(fā)生。媒體:您覺(jué)得在可信聯(lián)邦學(xué)習(xí)模型最終成熟或者落地之后,下一個(gè)公共數(shù)據(jù)安全的挑戰(zhàn)點(diǎn)還會(huì)出現(xiàn)在哪個(gè)方面?楊強(qiáng):可信聯(lián)邦是數(shù)字經(jīng)濟(jì)的一個(gè)賦能者。但是賦能歸賦能,我們看到最終的目的是建立一個(gè)數(shù)字經(jīng)濟(jì),在數(shù)字化的互聯(lián)網(wǎng)上面進(jìn)行的商業(yè)活動(dòng)是滿足一系列的倫理、道德、法律、規(guī)章,同時(shí)又高效,又可以產(chǎn)生商業(yè)價(jià)值,它的這個(gè)商業(yè)分配機(jī)制也是公平的。那么從我們現(xiàn)在的狀態(tài)到剛才的理想狀態(tài)中間,還有很多的路要走。我們建立一個(gè)可信聯(lián)邦學(xué)習(xí)就是建立了這條公路,我們到達(dá)目標(biāo)這條公路。因此在這之后可能會(huì)有各種不同的挑戰(zhàn),如何能夠把需求變成一個(gè)真正的需求,而不是可有可無(wú)的一個(gè)狀態(tài)。舉例來(lái)說(shuō),我們現(xiàn)在所使用的軟件,包括我們?cè)赑C、在手機(jī)上使用的軟件還是比較落伍的。原因是我們現(xiàn)在基于的數(shù)據(jù)都是本地的,我們數(shù)據(jù)的傳輸還是在做數(shù)據(jù)上傳,我們?cè)谶M(jìn)行一項(xiàng)工作的時(shí)候,往往是利用不到其他數(shù)據(jù)源上數(shù)據(jù)來(lái)幫助我們提高效率。但未來(lái)的軟件也許會(huì)升級(jí)好幾個(gè)版本,也就是說(shuō)應(yīng)該是“聯(lián)邦學(xué)習(xí)inside”,每一個(gè)軟件應(yīng)該是自動(dòng)地帶有聯(lián)邦學(xué)習(xí)的特性,大家可以自主地形成合作,可以分配合理的收益,并且合法合規(guī),并且安全可信,可以大為提高我們的生產(chǎn)效率和生活質(zhì)量。而在現(xiàn)在,我們正處于一個(gè)“拓荒期”。舉例來(lái)說(shuō),好比我們剛剛從“石器時(shí)代”走入“鐵器時(shí)代”,但是后面還有很多的路要走,才能真正走到 “數(shù)字時(shí)代”。
|
|
|
來(lái)自: 餐意院 > 《Q.知識(shí)專家》