郭一璞 發(fā)自 凹非寺? 量子位 報(bào)道 | 公眾號(hào) QbitAI“來(lái)我辦公室一趟?!?/p> “您哪位???” “啥?你聽(tīng)不出來(lái)我是誰(shuí)嗎?” “是……張總嗎?” 
接著,就會(huì)發(fā)現(xiàn)電話(huà)那頭的“張總”,讓你去找財(cái)務(wù)部的同事,然后以“陪客戶(hù)”、“聯(lián)絡(luò)高層”的由頭,要求給一個(gè)陌生賬號(hào)匯款…… 你也接到過(guò)類(lèi)似的電話(huà)吧?這個(gè)詐騙套路關(guān)鍵的一環(huán)就在于,你要把他的聲音聽(tīng)成自己公司某個(gè)老板的聲音。 好在,大部分人不會(huì)聽(tīng)錯(cuò),因此也不會(huì)上當(dāng)受騙。 但現(xiàn)在,借助AI語(yǔ)音合成技術(shù),騙子可以讓他的聲音和你老板一模一樣,并且一家英國(guó)公司真的上當(dāng)受騙了,被騙走了22萬(wàn)歐元(173萬(wàn)人民幣)巨款。 案發(fā)過(guò)程據(jù)《華爾街日?qǐng)?bào)》報(bào)道,總部位于巴黎的保險(xiǎn)公司裕利安宜(Euler Hermes)的一家客戶(hù)上當(dāng)了。 這家客戶(hù)是總部位于英國(guó)的一家能源公司,該公司的母公司位于德國(guó),英國(guó)的是子公司。 一天,英國(guó)子公司CEO接了母公司“老板”電話(huà),畢竟母公司是德國(guó)的,因此母公司老板日常說(shuō)英文的時(shí)候會(huì)有德國(guó)腔。英國(guó)子公司CEO一聽(tīng),來(lái)電人的英語(yǔ)帶點(diǎn)德國(guó)口音,跟母公司的老板一毛一樣,那就是老板本人了。 原來(lái),德國(guó)“老板”在跟“匈牙利供應(yīng)商”談生意,賬要從英國(guó)的子公司走,也就是英國(guó)子公司把錢(qián)打給“匈牙利供應(yīng)商”,德國(guó)的母公司后續(xù)再給英國(guó)子公司補(bǔ)上。 德國(guó)“老板”要求的時(shí)間緊任務(wù)重,必須在一個(gè)小時(shí)之內(nèi)給“匈牙利供應(yīng)商”的賬戶(hù)打22萬(wàn)歐元,折合人民幣173萬(wàn)元。 
錢(qián)打過(guò)去之后,在當(dāng)天稍晚的時(shí)候,“老板”又打電話(huà)來(lái)了。這次“老板”說(shuō),剛才那22萬(wàn)歐元,德國(guó)的母公司已經(jīng)給英國(guó)子公司轉(zhuǎn)過(guò)去了,現(xiàn)在需要英國(guó)子公司再轉(zhuǎn)一筆錢(qián)。 這下英國(guó)子公司的人就覺(jué)得不對(duì)勁了。一方面,“老板”轉(zhuǎn)的錢(qián)沒(méi)到賬;另一方面,怎么“老板”這次是從奧地利打過(guò)來(lái)的電話(huà)呢? 雖然英國(guó)子公司沒(méi)有第二次上當(dāng)受騙,但之前打的22萬(wàn)歐元已經(jīng)回不來(lái)了。調(diào)查人員發(fā)現(xiàn),這22萬(wàn)歐元打到“匈牙利供應(yīng)商”的匈牙利賬戶(hù)之后,被轉(zhuǎn)到了墨西哥,之后轉(zhuǎn)到了其他地方,因此警察也找不到騙子在哪兒。 裕利安宜保險(xiǎn)公司要給客戶(hù)保密,沒(méi)有透露這是哪家公司,最后他們按照英國(guó)子公司的要求給予了理賠。 語(yǔ)音克隆技術(shù)相當(dāng)成熟這家受騙公司遭遇的核心問(wèn)題,在于打來(lái)的電話(huà)實(shí)在太像母公司那個(gè)真正的老板了。 騙子本人是不太可能剛好是這個(gè)聲音的,而能讓老板的聲音出現(xiàn),并且說(shuō)出特定的話(huà),用到的是語(yǔ)音克隆或者語(yǔ)音合成技術(shù)。 語(yǔ)音克隆技術(shù)已經(jīng)有了許多應(yīng)用,比如此前,搜狗輸入法就在終端推出了“變聲”功能,你對(duì)著手機(jī)說(shuō)一句話(huà),發(fā)送給好友之后就是林志玲、周星馳、高曉松等明星的聲音。 在今年的科大訊飛新品發(fā)布會(huì)上,就現(xiàn)場(chǎng)播報(bào)了合成的羅永浩和林志玲的聲音。 語(yǔ)音合成就更成熟了,你常用的百度地圖、高德地圖里,導(dǎo)航用的林志玲、易烊千璽等明星的語(yǔ)音包,都是用明星本人說(shuō)的話(huà)做語(yǔ)料庫(kù)訓(xùn)練,通過(guò)語(yǔ)音合成技術(shù)生成的。 甚至,今年315晚會(huì)上的AI打騷擾電話(huà),打來(lái)電話(huà)的聲音也是語(yǔ)音合成的。 如果你想體驗(yàn)一下語(yǔ)音克隆的效果,可以試試最近在GitHub上非?;鸬倪@個(gè)實(shí)時(shí)語(yǔ)音克隆的開(kāi)源項(xiàng)目: Real-Time-Voice-Cloning https://github.com/CorentinJ/Real-Time-Voice-Cloning 項(xiàng)目中已經(jīng)給出了預(yù)訓(xùn)練模型,下載到本地部署后,每次只要5秒鐘,就可以把另外一個(gè)人說(shuō)的話(huà),變成你的聲音。 也是因此,語(yǔ)音類(lèi)的技術(shù)易得、易用,效果也不錯(cuò),被壞人盯上也是難免的。 聲音造假,開(kāi)視頻驗(yàn)證呢?以前的電信詐騙都是短信、微信文字,上當(dāng)者會(huì)被銀行工作人員提醒:打個(gè)電話(huà)確認(rèn)一下。 現(xiàn)在,恐怕不僅要打電話(huà),還要視頻一下,以確保是本人了。然而,現(xiàn)在的一些AI技術(shù),不僅可以合成特定人的語(yǔ)音,甚至還能根據(jù)語(yǔ)音對(duì)口型、處理視頻。 可以讓人物的靜態(tài)照片動(dòng)起來(lái),并且說(shuō)出特定的話(huà)。帝國(guó)理工學(xué)院和三星這篇《Realistic Speech-Driven Facial Animation with GANs》論文,就用不少明星靜態(tài)照片: 直接生成說(shuō)話(huà)、唱歌的動(dòng)態(tài)視頻: 
點(diǎn)開(kāi)視頻聽(tīng)一聽(tīng),是不是表情口型毫無(wú)違和感? 
可以把錄好的視頻改掉。斯坦福和普林斯頓的這篇《Text-based Editing of Talking-head Video》論文中,錄好的說(shuō)話(huà)視頻,可以把聲音、口型全部改掉: 
蘋(píng)果今日收盤(pán)價(jià)191塊4,改成182塊2你也看不出來(lái)。 也可以讓照片中的人物邊說(shuō)話(huà)邊配上豐富的表情姿態(tài)。來(lái)自三星和俄羅斯斯科爾科沃科學(xué)技術(shù)研究所的這篇名為《Few-Shot Adversarial Learning of Realistic Neural Talking Head Models》的論文中發(fā)表的技術(shù),就讓靜態(tài)的蒙娜麗莎: 
變得活靈活現(xiàn): 

要知道,類(lèi)似的AI技術(shù)有不少都是開(kāi)源的,如果被用在惡意用途上,被用來(lái)混淆視聽(tīng)、詐騙,將造成極大的惡果。
實(shí)在不行,用AI來(lái)抓AI騙子不管是處理語(yǔ)音、圖片還是視頻,這些技術(shù)開(kāi)發(fā)出的新功能一般都被認(rèn)為能在幫助人類(lèi)節(jié)省時(shí)間、提升樂(lè)趣等方面起到作用。 但是,拿來(lái)作惡的也不少??赡茏屓嗣u(yù)掃地的AI換臉應(yīng)用、可能侵犯隱私的人臉識(shí)別、加上如今的AI詐騙,技術(shù)總有其兩面性。 正如AAAI前主席Subbarao Kambhampati看到這則消息之后的評(píng)論: 
我很震驚語(yǔ)音技術(shù)會(huì)被用于這種邪惡的目的!百度不是明確的告訴過(guò)我們,語(yǔ)音技術(shù)是用來(lái)讓忙碌的媽媽給娃唱搖籃曲的嘛?
也有人提出,以AI制AI可能是個(gè)不錯(cuò)的方法: 
我們需要人工智能輔助網(wǎng)絡(luò)安全框架來(lái)解決人工智能驅(qū)動(dòng)的網(wǎng)絡(luò)犯罪問(wèn)題
最后,要是你接到了聽(tīng)起來(lái)和老板聲音一樣的電話(huà),會(huì)用什么方法去辨別呢? 參考鏈接: https://www./articles/fraudsters-use-ai-to-mimic-ceos-voice-in-unusual-cybercrime-case-11567157402
|