|
近年來,生物識別技術(shù)發(fā)展勢頭迅猛,特別是人臉、指紋等技術(shù)已經(jīng)趨于成熟,在市場上早已被廣泛應(yīng)用。而聲紋識別作為生物識別技術(shù)的新秀,目前在市場上似乎表現(xiàn)得有些低調(diào),許多消費者對此都比較陌生。盡管聲紋識別在安防、金融等領(lǐng)域也有部分應(yīng)用落地,但市場規(guī)模相較指紋、人臉識別等成熟的生物識別技術(shù)似乎還有不少距離,聲紋識別技術(shù)能否迎來大規(guī)模應(yīng)用?距離市場爆發(fā)還有哪些問題需要解決呢? 技術(shù)趨于成熟,商用領(lǐng)域打頭炮 隨著移動支付、信息安全以及智能手機(jī)產(chǎn)業(yè)的發(fā)展,無論是企業(yè)還是消費者都對于信息安全有著越來越高的要求。在這種需求的的驅(qū)動之下,生物識別技術(shù)便迎來了最好的發(fā)展時期,近年如指紋、人臉等生物識別技術(shù)被廣泛應(yīng)用到各行各業(yè),已經(jīng)滲透到人們生活中的方方面面。 據(jù)前瞻產(chǎn)業(yè)研究院的分析,聲紋識別的市場規(guī)模目前將近百億美元,預(yù)計2020年,更是有望超過200億美元,占整個生物識別市場的22.4%。從網(wǎng)絡(luò)身份認(rèn)證應(yīng)用領(lǐng)域來看,據(jù)國外權(quán)威調(diào)研機(jī)構(gòu)MarketsandMarkets 數(shù)據(jù)顯示,2019年網(wǎng)絡(luò)安全市場預(yù)計增長至 1557.4億美元,其中,身份認(rèn)證信息安全市場規(guī)模將超過300億美元,聲紋識別在其中也將扮演重要角色。 作為生物識別技術(shù)之一,聲紋識別有著數(shù)十年的研究歷史,但直到近兩年來,依托學(xué)術(shù)界基礎(chǔ)理論突破、語音庫規(guī)模激增以及聲學(xué)傳感器技術(shù)的進(jìn)步等方面,聲紋識別在短語音、跨信道以及抗噪性能等方面取得突破,才驅(qū)動聲紋識別技術(shù)快速達(dá)到了趨于成熟的階段。目前,聲紋識別技術(shù)已能支持對千萬級的聲紋庫開展實時檢索應(yīng)用。 而另一方面,與指紋、人臉等生物識別技術(shù)相比,聲紋識別目前的應(yīng)用領(lǐng)域似乎還比較狹窄,據(jù)編者了解,目前聲紋識別在商業(yè)領(lǐng)域應(yīng)用較多,如金融、政企、安防等等。而對于普通消費者而言,聲紋識別還相對比較陌生,但近來也有向著消費終端發(fā)展的趨勢,時下流行的智能音箱如天貓精靈、小度等等都已經(jīng)配備了聲紋識別。 事實上,聲紋識別首先從金融、安防等商業(yè)領(lǐng)域獲得認(rèn)可并廣泛應(yīng)用,是有跡可循的。聲智科技合伙人兼CGO古擘在接受《華強電子》采訪時表示:“過去語音技術(shù)的應(yīng)用場景因為遠(yuǎn)場語音技術(shù)不成熟而受到很多應(yīng)用限制,聲紋也就局限在一些專業(yè)領(lǐng)域的特定場景。但是,這幾年隨著遠(yuǎn)場語音技術(shù)的成熟,語音交互應(yīng)用正在得到快速的發(fā)展,隨著以遠(yuǎn)場語音為特點的人機(jī)交互方式越來越普及,聲紋識別也必將從金融、安防等專業(yè)領(lǐng)域進(jìn)入更廣闊的應(yīng)用場景。另一方面是聲紋識別自身處理方法相對復(fù)雜,存在一定的技術(shù)壁壘,比如真實場景下聲紋識別對噪聲的魯棒性和短語音魯棒性。但是近年來,隨著深度學(xué)習(xí)的發(fā)展,真實場景下標(biāo)注數(shù)據(jù)的使用,以及智能設(shè)備的爆發(fā)式增長,聲紋識別結(jié)合多種語音技術(shù)和端到端方向發(fā)展,使得聲紋識別逐漸開始進(jìn)入多個場景應(yīng)用有了技術(shù)保證。” 而快商通公檢法事業(yè)群總經(jīng)理李稀敏認(rèn)為,聲紋識別首先在金融和安防等領(lǐng)域獲得廣泛應(yīng)用的原因是,這些領(lǐng)域本身具有的特殊性質(zhì)。李稀敏表示:“很多技術(shù)在金融和公安領(lǐng)域的應(yīng)用往往具備示范效應(yīng)。比如指紋和人臉識別,在金融、公安領(lǐng)域應(yīng)用價值大,哪怕識別精度不高,也能解決金融和公安的部分痛點。反過來,因金融和公安的投入比較大,對技術(shù)的促進(jìn)作用很大。不像在民用領(lǐng)域,個人痛點的價值本身不是很大,對技術(shù)的反推力嚴(yán)重不足,尤其是技術(shù)發(fā)展初期,民用領(lǐng)域基本沒有使用這些前沿技術(shù)的動力。因此,快商通在2016年也是率先將聲紋識別拓展到金融領(lǐng)域,隨后在2018又開始拓展聲紋在公安領(lǐng)域的應(yīng)用。2019年開始,公安領(lǐng)域在聲紋采集裝備上的投入非常大,促使全國10余家聲紋技術(shù)廠商大力投入聲紋技術(shù)和產(chǎn)品研發(fā),迅速地推動了聲紋技術(shù)的整體水平?!?/p> 另一方面,相比起指紋、人臉等生物識別技術(shù)需要通過接觸和主動面對鏡頭,聲紋的錄取信息和識別過程完全是無感的,這使得聲紋識別具有得天獨厚的優(yōu)勢。李稀敏表示,語音是最自然的人機(jī)交互方式,也是身份識別最佳的方式之一。一方面,隨著聲紋傳感器技術(shù)的進(jìn)步,聲紋識別已經(jīng)可以適用于復(fù)雜噪音場景下。另一方面,由于其非接觸式和低隱私侵犯性的獨特優(yōu)點,相比于指紋、人臉、虹膜等身份驗證方式,聲紋更容易被大眾接受,因此可以在金融、安防、政務(wù)等領(lǐng)域中能夠被廣泛使用。此外,在產(chǎn)業(yè)落地方面,由于聲紋傳感器造價更低而具備廣泛應(yīng)用的優(yōu)勢。 因此,聲紋識別在金融、安防等領(lǐng)域的應(yīng)用,是由于其本身的特性符合這些行業(yè)的需求,擊中了行業(yè)的痛點。同時,技術(shù)的發(fā)展離不開資本的支持,在這些行業(yè)的大力投入下,聲紋識別技術(shù)也得到了更大發(fā)展機(jī)遇,形成一個良性循環(huán)。在商用領(lǐng)域打下屬于自己版圖后,聲紋識別技術(shù)在民用領(lǐng)域的爆發(fā),似乎也近在咫尺。 軟硬結(jié)合與數(shù)據(jù)驅(qū)動解決聲紋識別兩大痛點 上文提到聲紋作為生物識別的一些優(yōu)勢,但事實上,在實際應(yīng)用過程中,還有不少問題需要面對。聲紋作為一種生物特征,相比于指紋、虹膜等其他生物特征而言,在識別過程中更容易受到外界或者人自身身體狀況的影響,比如錄音環(huán)境噪音,在編者體驗微信聲紋鎖時,在馬路上或是在茶餐廳等帶噪音場景下,識別率就會大幅度降低。除噪音之外,聲音的時變性、錄音通道多樣性、語音時長等變量較大的因素。那么,針對這些影響聲紋數(shù)據(jù)的因素,目前對于提升系統(tǒng)魯棒性都有哪些解決辦法? 在錄音獲取的過程中,不同設(shè)備在聲源采樣率、聲學(xué)信號處理法、壓縮編碼算法等方面都可能存在一定程度的差異。古擘表示:“這些差異會導(dǎo)致來自不同設(shè)備的錄音數(shù)據(jù)存在不同程度上的失真和信息損失,其中就包括蘊藏在錄音數(shù)據(jù)里的聲紋信息的損失,尤其是在一些低信噪比的遠(yuǎn)場環(huán)境下,這種損失影響可能會被放大,進(jìn)而導(dǎo)致聲紋識別的準(zhǔn)確定波動比較大,這對聲紋識別模型的穩(wěn)定性和魯棒性提出了很高的要求?!?/p> 針對從獲取錄音的流程中所存在的影響,目前主要在算法和硬件兩方面著手進(jìn)行改進(jìn)。古擘補充道:“為了解決這些問題,我們通過數(shù)據(jù)增強或者信道補償?shù)乃惴ㄊ沟糜?xùn)練數(shù)據(jù)豐富多樣化,這樣模型在訓(xùn)練階段就能得到較好的穩(wěn)定性和魯棒性。同時,我們還可以針對各個場景下采集設(shè)備的特點,配合特定應(yīng)用場景提供更細(xì)化、更適配的算法模型。另外,聲智還提供軟硬一體的整體解決方案,比如給公安行業(yè)研發(fā)的聲紋采集終端,采用4麥克風(fēng)和6麥克風(fēng)的陣列,每臺設(shè)備出廠都會做麥克風(fēng)一致性的校準(zhǔn),從硬件設(shè)計上減少語音采集的失真,再配合強大的麥克風(fēng)陣列算法,為后端的聲紋識別提供高質(zhì)量的信號采集。同時,聲智也在與第三方芯片和硬件合作伙伴緊密合作,不斷進(jìn)行用戶體驗的優(yōu)化?!?/p> 李稀敏也有著類似看法,他認(rèn)為當(dāng)前針對噪音環(huán)境,可以從聲紋傳感器方面著手,從聲紋的錄制環(huán)節(jié)解決噪音問題。部分廠商開發(fā)了指定區(qū)域和距離內(nèi)有效的聲紋傳感器,從而達(dá)到抑制噪音的目的。比如快商通的“智能聲紋傳感器及ASIC處理芯片協(xié)同開發(fā)與產(chǎn)業(yè)化”項目中,自研的聲紋傳感器就可以在指定區(qū)域和距離內(nèi)有效拾音。除了硬件方面的改進(jìn),也會從語音增強算法方面部分解決復(fù)雜噪音環(huán)境的問題。 而針對個人聲音的時變性,李稀敏表示,目前主要從研究提取更能表征個人特征的聲紋信息著手,基于海量數(shù)據(jù),利用深度神經(jīng)網(wǎng)絡(luò)模型挖掘穩(wěn)定性特征。對于錄音通道的多樣性,則更多地是使用數(shù)據(jù)驅(qū)動的方式,利用更大規(guī)模的數(shù)據(jù)庫來提取多種信道間的共性特征。與此同時,也有一些傳統(tǒng)的方式,包括常規(guī)的無監(jiān)督自適應(yīng)技術(shù)、DAT、PDLA等方法,但李稀敏認(rèn)為,未來趨勢還將會是數(shù)據(jù)驅(qū)動。 作為一種生物識別技術(shù),聲紋識別除了識別率外,其安全性更加值得關(guān)注。比如聲音模仿、錄音重放都是此前對聲紋識別系統(tǒng)常見的攻擊手段,但隨著語音合成技術(shù)的不斷發(fā)展,也會極大影響聲紋識別系統(tǒng)的安全性。目前,最優(yōu)秀的語音合成技術(shù)可以使用非常少的數(shù)據(jù)訓(xùn)練出近似人類說話的聲音,技術(shù)上完全可能通過機(jī)器語音合成來攻擊聲紋識別系統(tǒng)。 對此,古擘表示:“對于各種可能的攻擊手段,聲智科技的做法是,對聲紋模型采用多種靈活的檢測策略,同時結(jié)合前端語音處理,語音端點檢測,語音合成檢測,語音轉(zhuǎn)錄檢測,說話人分離等多種技術(shù)手段,通過一系列的語音處理方法來保證聲紋識別的安全性?!?/p> 針對聲紋識別安全性的問題,李稀敏向記者介紹了快商通參加ASVspoof自動聲紋識別欺騙攻擊與防御對策挑戰(zhàn)賽的一些情況。ASVspoof挑戰(zhàn)賽的主要目標(biāo)是提高聲紋識別系統(tǒng)的防止欺騙攻擊的能力,特別是來自虛假錄音的攻擊。而2017年的挑戰(zhàn)主題是“重放攻擊”,例如同一段虛假錄音在與訓(xùn)練數(shù)據(jù)不同的重放環(huán)境、播放設(shè)備等條件下,考驗聲紋識別系統(tǒng)的鑒偽穩(wěn)定性,而在聲紋認(rèn)證的攻擊中,錄音重放是最難檢測的??焐掏ㄔ谑紫茖W(xué)家李海洲院士的帶領(lǐng)下獲得了ASVspoof 2017的第一名,據(jù)介紹,除了算法和系統(tǒng)外,解決方案還需要數(shù)據(jù)驅(qū)動,大量的錄音樣本、設(shè)備測試、不同采樣率、不同時長、不同環(huán)境的訓(xùn)練。經(jīng)過長時間的積累,快商通的聲紋識別防欺騙攻擊已經(jīng)全面覆蓋到不同場景,因此安全方面也有所保證。 同時,在如今智能家居等使用場景下,經(jīng)常會遇到離線的使用環(huán)境,這對于較為依賴算力與數(shù)據(jù)庫的聲紋識別而言,是一個不小的挑戰(zhàn)。對于在線與離線識別的區(qū)別,古擘表示:“一般來說,在線識別與離線識別的區(qū)別就是看模型部署在云端還是本地,模型部署在云端的叫做在線識別,部署在本地的叫做離線識別,聲紋也是類似。在智能家居的家居設(shè)備控制場景下,受到終端設(shè)備的計算資源限制,通??梢远ㄖ茝氖畮讉€到幾十個不等的離線命令詞,具備泛化能力則支持上百個離線命令詞。在移動端場景下,因為手機(jī)的計算資源和存儲較大,也能夠安裝接近通用識別的離線語音識別模型?!?/p> “離線聲紋識別相比在線聲紋識別,一般說來相對較少的計算資源使得離線識別需要考慮參數(shù),計算量,定點量化的等一系列的優(yōu)化,使得離線聲紋模型的性能會低于在線模型。其次離線聲紋識別的安全性也會低于在線聲紋識別,因為計算資源的限制,使得在有限的資源上難以集成包含前端信號處理,語音端點檢測,語音合成檢測,語音轉(zhuǎn)錄檢測,說話人分離等一種或多種處理方式?!惫烹⒀a充到。 因此,從市場需求來看,不同場景下對于聲紋識別的要求會有所差異,比如部分智能家居場景下的聲紋識別是區(qū)分不同的用戶,基于短命令的離線聲紋可以滿足這類要求。而據(jù)古擘透露,聲智科技已經(jīng)有成熟的離線聲紋識別技術(shù),并且已經(jīng)成功應(yīng)用在智能電視、智能音箱等智能家居的產(chǎn)品上。 聲紋識別作為一項新興的生物特征識別技術(shù),市場應(yīng)用還在開拓和培育當(dāng)中,其應(yīng)用場景非常廣泛,但是單個應(yīng)用場景尚未形成足夠大規(guī)模的市場。但可以看出,在算法、硬件的配合,以及數(shù)據(jù)積累的幫助下,目前聲紋識別技術(shù)的識別率和安全性已經(jīng)得到長足發(fā)展,這為其未來在更多領(lǐng)域中的廣泛應(yīng)用打下了夯實的基礎(chǔ)。雖然以市場需求驅(qū)動技術(shù)發(fā)展的層面看,無論從公安、金融,還是智能家居等領(lǐng)域,當(dāng)前都已經(jīng)到了聲紋識別技術(shù)全面爆發(fā)的臨界點。不過,要想實現(xiàn)真正的普及,聲紋識別廠商們除了在開拓應(yīng)用領(lǐng)域投入之外,還需要繼續(xù)注重底層技術(shù)的開發(fā)。相信在現(xiàn)有應(yīng)用落地的基礎(chǔ)上,包容和不斷優(yōu)化聲紋識別技術(shù)上的不足,將會持續(xù)推進(jìn)這項技術(shù)的發(fā)展,聲紋識別在未來或?qū)谖覀兩钪须S處可見。 |
|
|