|
人工智能(AI)技術迅速發(fā)展,強化了語音識別能力,促使語音成為重要人機交互接口,應用層面從智能手機拓展到智能音箱、智能電視與車用等終端產(chǎn)品,進而帶動市場對麥克風旺盛需求。但是,不同類型終端產(chǎn)品需要的麥克風陣列不盡相同,所以,各大廠商相繼推出自己的麥克風陣列解決方案,也成為廠商競爭的一大利器。 語音控制一直被視為是最直觀的操控方式,早在2011年蘋果便推出iPhone手機語音助理Siri,但當時語音識別不成熟,導致語音助理成為手機娛樂產(chǎn)品。隨著人工智能興起,各大廠商通過自然語言處理(Natural Language Processing)訓練機器人類語言邏輯、提升語音識別能力,加上亞馬遜、Google、阿里巴巴與小米等廠商通過低價智能音箱打入市場,讓消費者快速了解語音交互的應用范疇,包含信息詢問、家電控制與購物等,大幅擴大語音應用的可能性,促使語音成為新的人機交互接口。 隨著語音應用興起,各廠商希望將新人機交互接口放到自家終端產(chǎn)品,推升麥克風需求,其中又以基于MEMS技術的麥克風需求成長最高。MEMS麥克風具備較高的可靠性、穩(wěn)定性與一致性,聲音收集品質(zhì)佳,對語音識別有很大幫助。 據(jù)麥姆斯咨詢介紹,因為各種智能終端產(chǎn)品的外型、應用環(huán)境與使用方式不同,所以使用的MEMS麥克風數(shù)量和陣列模型也有差異,從麥克風使用數(shù)量來看,手機MEMS麥克風需求為2~4顆;智能音箱需求范圍較廣,依照產(chǎn)品設計和價格定位,MEMS麥克風需求2~8顆不等。 由于智能音箱市場在2017年快速成長,推升整體MEMS麥克風產(chǎn)值達13.81億美元,2018年MEMS麥克風進一步拓展到電視和可穿戴設備,產(chǎn)值因此年增11%、達到15億美元。 汽車是語音應用的另一大市場,通過語音控制能讓駕駛?cè)嗽诓灰妻D(zhuǎn)視線的情況下直覺性操控、提升行車安全,因此車廠開始導入語音控制系統(tǒng),其MEMS麥克風數(shù)量2~6顆不等,甚至采用更多顆麥克風以抑制噪音,有望帶動另一波MEMS麥克風需求。 遠距離語音識別,多麥克風系統(tǒng)問世 MEMS麥克風陣列隨著語音控制需求增加而開始受到重視,語音控制存在的環(huán)境相當復雜,若使用時相隔距離較遠,收音上就會遇到回音干擾、室內(nèi)混響與多信號源干擾等問題,導致信噪比(SNR)降低,影響語音識別準確率。 過去手機大多采用單麥克風,能在低噪音、無混響與近距離下,獲得信號品質(zhì)較高的聲音,但當環(huán)境中有許多聲源和環(huán)境噪音,例如客廳、廚房與戶外等,就無法做到聲源分離,進而無法對聲源定位和識別。為了遠距離語音識別,多麥克風系統(tǒng)應運而生,通過幾何結(jié)構組合成線型、環(huán)型與球型等陣列,數(shù)量從2~1000顆不等,目的是為了收集不同空間方向的聲音信號來做噪音抑制、混響去除與人聲干擾抑制后,方能做到聲源側(cè)向,再通過波束成形做聲音定位。 近年隨著語音識別能力提高,加上廠商希望縮小產(chǎn)品設計并降低成本,因此開始減少MEMS麥克風使用量,一般消費性產(chǎn)品采用的MEMS麥克風陣列型態(tài)以線型和環(huán)型為主。但線性麥克風陣列仍舊有其限制,僅能做到180度聲源定位,無法針對全方位做空間指向性,像是亞馬遜第三代Echo Dot就采用4顆麥克風,雖較前一代減少3顆,但仍是采用環(huán)型陣列。 1. 線型MEMS麥克風陣列:寬邊陣列 電視和筆記本電腦等產(chǎn)品適合采用線性麥克風陣列中的寬邊陣列,寬邊陣列是指聲波方向和麥克風陣列垂直,通過聲波相加得出聲源方位,且抑制來自陣列側(cè)邊的聲音,使得前方和后方的響應一致,但該陣列具有軸對稱性,無法分辨出前方和后方聲源,因此適合聲音僅來自前方或后方的產(chǎn)品。通過增加橫向MEMS麥克風數(shù)量則能更有效抑制側(cè)邊聲音,借此增加聲源定位距離,不過,MEMS麥克風之間若間距過窄,會降低低頻衰減、增加低頻噪音干擾,但過寬又會造成機構設計困難,降低混迭頻率,因此在產(chǎn)品設計上需特別衡量橫向麥克風數(shù)量與其距離的安排。 以電視為例,其擺放的空間大多在較空曠的客廳,且人往往距離電視較遠,因此電視需搭載遠場語音識別讓用戶控制。要強化遠場語音識別的能力和距離,需要將數(shù)個MEMS麥克風排列成寬邊陣列,除了可以抑制電視兩側(cè)揚聲器所制造的噪音外,也能增強聲源定位距離,但遠距離容易造成聲音在室內(nèi)不斷反射,導致麥克風不斷收到重覆信號,造成語音識別困難。 2. 線型MEMS麥克風陣列:端射陣列 針對單方向做聲音檢測的產(chǎn)品,例如手機、耳機、助聽器、智能手環(huán)與智能手表等產(chǎn)品,就適合采用線性麥克風陣列中的端射陣列。端射陣列是指聲波方向與麥克風陣列平行,當前方比后方先接收到聲波時,就能通過麥克風拾取聲波的時間差得知聲波來源,通過訊號處理抑制其他方向的聲音干擾,形成空間指向性。 以可穿戴設備為例,由于產(chǎn)品體積較小,難以通過多個麥克風做橫向排列抑制周遭噪音,加上消費者使用可穿戴設備做語音控制時,往往會靠近嘴巴,代表定向聲源只有一個方向,而需抑制的噪音源同樣是來自嘴巴,并非聲源的反方向,因此通過端射陣列設計,能專注收取單一方向的聲音。 3. 環(huán)型MEMS麥克風陣列 環(huán)型MEMS麥克陣列是端射陣列的延伸應用,適用于需要針對全方位做聲源定位和識別的產(chǎn)品,在設計上各MEMS麥克風需要等距且均勻分布在圓周上,且排列形成多個端射陣列,以利針對不同角度的聲源做降噪、側(cè)向與定位。目前運用最廣的語音識別產(chǎn)品智能音箱,即是使用環(huán)型MEMS麥克風陣列。 由于智能音箱在使用上不具備方向性,多擺設在客廳、廚房與臥房,會因為環(huán)境多樣性而使得噪聲干擾方式不同,例如在客廳會受到多信號源干擾,在廚房則會受到諸多環(huán)境音干擾,在臥房則可能通過智能音箱播放音樂,導致噪音出現(xiàn),加上用戶聲音可能來自四面八方,因此需通過環(huán)型陣列做波束成形的指向性收音和降噪,提高語音識別準確率。 市場百家爭鳴,慎防邊緣化危機 隨著語音應用興起,MEMS麥克風陣列成為語音控制系統(tǒng)中第一道關卡,若MEMS麥克風陣列收音狀況不佳,將嚴重影響識別準確率,MEMS麥克風陣列解決方案成為各廠商重點角逐的市場。當前全球最大的MEMS麥克風廠商為樓氏電子(Knowles),市場占有率超過3成,同時也掌握MEMS芯片設計、MEMS麥克風封測與MEMS麥克風陣列模組,備受亞馬遜青睞。 不過,并非所有廠商都有一條龍的生產(chǎn)模式,多數(shù)廠商涵蓋設計到封測,或封測到系統(tǒng)整合廠部分,最后再由系統(tǒng)整合廠將MEMS麥克風模組或陣列出貨給品牌廠商。像是意法半導體只提供MEMS芯片設計到MEMS麥克風封測,原因在于MEMS麥克風供應鏈呈現(xiàn)金字塔狀,若意法半導體跨足MEMS麥克風陣列模組,將會與原先的合作廠商競爭;此外,如亞馬遜這類提供語音識別授權的業(yè)者,也開始進入MEMS麥克風陣列模組市場,將使該市場競爭更加激烈。 歌爾股份和瑞聲科技不具備MEMS芯片設計能力,僅提供封測到系統(tǒng)整合,為各類型產(chǎn)品提供不同解決方案,包含智能手機、可穿戴設備與智能音箱等,但隨著語音廠商開始切入MEMS麥克風陣列模組市場,該市場競爭更加激烈,因此模組廠商開始向上游發(fā)展,像是瑞聲科技開始自行開發(fā)ASIC,不僅能借此優(yōu)化自身MEMS麥克風模組,同時也能增加產(chǎn)品毛利。 歌爾股份則通過封裝方式將多個傳感器集成,使得單一元件擁有多種功能,減少基板使用面積而具有成本優(yōu)勢。此外,部分聲學廠商同時提供代工服務,例如歌爾股份、共達電聲、奮達科技與美律等,皆提供智能音箱和耳機的代工,優(yōu)勢在于聲學相關產(chǎn)品的機構設計是聲學廠商強項,且能直接提供聲學模組給品牌廠商。 近期語音廠商開始朝麥克風陣列模組發(fā)展,原因在于語音廠商希望達到最佳語音識別準確率,若采取非官方認證的麥克風陣列,語音識別可能會出現(xiàn)誤差,導致消費者體驗不佳。因此,為了讓實際收音和訓練樣本一致,語音識別業(yè)者開始推出麥克風陣列解決方案,像是亞馬遜、科大訊飛與阿里巴巴等,都提供相關解決方案,此外,語音識別業(yè)者可以通過麥克風陣列模組進行語音數(shù)據(jù)搜集,以優(yōu)化自家語音識別,同時也能擴大自家生態(tài)圈,從而拓展到更多產(chǎn)品,可謂一舉數(shù)得。 然而,語音識別業(yè)者跨入,導致下游MEMS麥克風陣列模組市場開始出現(xiàn)變化,語音識別業(yè)者通過軟硬整合方式吸引廠商采用,廠商則能直接進入語音識別業(yè)者的生態(tài)圈中,這對硬件開發(fā)商而言,是有相當強的吸引力。 面對語音識別業(yè)者的擠壓,原先的麥克風陣列模組廠商開始朝上游或代工發(fā)展,借此強化自身產(chǎn)品競爭力,否則只能轉(zhuǎn)向中低端市場,最終面臨被市場邊緣化的風險。 |
|
|