AI助力語音應用崛起，MEMS麥克風需求旺盛！

山蟹居 2019-01-30

展開全文

人工智能（AI）技術迅速發(fā)展，強化了語音識別能力，促使語音成為重要人機交互接口，應用層面從智能手機拓展到智能音箱、智能電視與車用等終端產(chǎn)品，進而帶動市場對麥克風旺盛需求。但是，不同類型終端產(chǎn)品需要的麥克風陣列不盡相同，所以，各大廠商相繼推出自己的麥克風陣列解決方案，也成為廠商競爭的一大利器。

語音控制一直被視為是最直觀的操控方式，早在2011年蘋果便推出iPhone手機語音助理Siri，但當時語音識別不成熟，導致語音助理成為手機娛樂產(chǎn)品。隨著人工智能興起，各大廠商通過自然語言處理（Natural Language Processing）訓練機器人類語言邏輯、提升語音識別能力，加上亞馬遜、Google、阿里巴巴與小米等廠商通過低價智能音箱打入市場，讓消費者快速了解語音交互的應用范疇，包含信息詢問、家電控制與購物等，大幅擴大語音應用的可能性，促使語音成為新的人機交互接口。

隨著語音應用興起，各廠商希望將新人機交互接口放到自家終端產(chǎn)品，推升麥克風需求，其中又以基于MEMS技術的麥克風需求成長最高。MEMS麥克風具備較高的可靠性、穩(wěn)定性與一致性，聲音收集品質(zhì)佳，對語音識別有很大幫助。

據(jù)麥姆斯咨詢介紹，因為各種智能終端產(chǎn)品的外型、應用環(huán)境與使用方式不同，所以使用的MEMS麥克風數(shù)量和陣列模型也有差異，從麥克風使用數(shù)量來看，手機MEMS麥克風需求為2~4顆；智能音箱需求范圍較廣，依照產(chǎn)品設計和價格定位，MEMS麥克風需求2~8顆不等。

由于智能音箱市場在2017年快速成長，推升整體MEMS麥克風產(chǎn)值達13.81億美元，2018年MEMS麥克風進一步拓展到電視和可穿戴設備，產(chǎn)值因此年增11％、達到15億美元。

汽車是語音應用的另一大市場，通過語音控制能讓駕駛?cè)嗽诓灰妻D(zhuǎn)視線的情況下直覺性操控、提升行車安全，因此車廠開始導入語音控制系統(tǒng)，其MEMS麥克風數(shù)量2～6顆不等，甚至采用更多顆麥克風以抑制噪音，有望帶動另一波MEMS麥克風需求。

遠距離語音識別，多麥克風系統(tǒng)問世

MEMS麥克風陣列隨著語音控制需求增加而開始受到重視，語音控制存在的環(huán)境相當復雜，若使用時相隔距離較遠，收音上就會遇到回音干擾、室內(nèi)混響與多信號源干擾等問題，導致信噪比（SNR）降低，影響語音識別準確率。

過去手機大多采用單麥克風，能在低噪音、無混響與近距離下，獲得信號品質(zhì)較高的聲音，但當環(huán)境中有許多聲源和環(huán)境噪音，例如客廳、廚房與戶外等，就無法做到聲源分離，進而無法對聲源定位和識別。為了遠距離語音識別，多麥克風系統(tǒng)應運而生，通過幾何結(jié)構組合成線型、環(huán)型與球型等陣列，數(shù)量從2~1000顆不等，目的是為了收集不同空間方向的聲音信號來做噪音抑制、混響去除與人聲干擾抑制后，方能做到聲源側(cè)向，再通過波束成形做聲音定位。

近年隨著語音識別能力提高，加上廠商希望縮小產(chǎn)品設計并降低成本，因此開始減少MEMS麥克風使用量，一般消費性產(chǎn)品采用的MEMS麥克風陣列型態(tài)以線型和環(huán)型為主。但線性麥克風陣列仍舊有其限制，僅能做到180度聲源定位，無法針對全方位做空間指向性，像是亞馬遜第三代Echo Dot就采用4顆麥克風，雖較前一代減少3顆，但仍是采用環(huán)型陣列。

1. 線型MEMS麥克風陣列：寬邊陣列

電視和筆記本電腦等產(chǎn)品適合采用線性麥克風陣列中的寬邊陣列，寬邊陣列是指聲波方向和麥克風陣列垂直，通過聲波相加得出聲源方位，且抑制來自陣列側(cè)邊的聲音，使得前方和后方的響應一致，但該陣列具有軸對稱性，無法分辨出前方和后方聲源，因此適合聲音僅來自前方或后方的產(chǎn)品。通過增加橫向MEMS麥克風數(shù)量則能更有效抑制側(cè)邊聲音，借此增加聲源定位距離，不過，MEMS麥克風之間若間距過窄，會降低低頻衰減、增加低頻噪音干擾，但過寬又會造成機構設計困難，降低混迭頻率，因此在產(chǎn)品設計上需特別衡量橫向麥克風數(shù)量與其距離的安排。

以電視為例，其擺放的空間大多在較空曠的客廳，且人往往距離電視較遠，因此電視需搭載遠場語音識別讓用戶控制。要強化遠場語音識別的能力和距離，需要將數(shù)個MEMS麥克風排列成寬邊陣列，除了可以抑制電視兩側(cè)揚聲器所制造的噪音外，也能增強聲源定位距離，但遠距離容易造成聲音在室內(nèi)不斷反射，導致麥克風不斷收到重覆信號，造成語音識別困難。

2. 線型MEMS麥克風陣列：端射陣列

針對單方向做聲音檢測的產(chǎn)品，例如手機、耳機、助聽器、智能手環(huán)與智能手表等產(chǎn)品，就適合采用線性麥克風陣列中的端射陣列。端射陣列是指聲波方向與麥克風陣列平行，當前方比后方先接收到聲波時，就能通過麥克風拾取聲波的時間差得知聲波來源，通過訊號處理抑制其他方向的聲音干擾，形成空間指向性。

以可穿戴設備為例，由于產(chǎn)品體積較小，難以通過多個麥克風做橫向排列抑制周遭噪音，加上消費者使用可穿戴設備做語音控制時，往往會靠近嘴巴，代表定向聲源只有一個方向，而需抑制的噪音源同樣是來自嘴巴，并非聲源的反方向，因此通過端射陣列設計，能專注收取單一方向的聲音。

3. 環(huán)型MEMS麥克風陣列

環(huán)型MEMS麥克陣列是端射陣列的延伸應用，適用于需要針對全方位做聲源定位和識別的產(chǎn)品，在設計上各MEMS麥克風需要等距且均勻分布在圓周上，且排列形成多個端射陣列，以利針對不同角度的聲源做降噪、側(cè)向與定位。目前運用最廣的語音識別產(chǎn)品智能音箱，即是使用環(huán)型MEMS麥克風陣列。

由于智能音箱在使用上不具備方向性，多擺設在客廳、廚房與臥房，會因為環(huán)境多樣性而使得噪聲干擾方式不同，例如在客廳會受到多信號源干擾，在廚房則會受到諸多環(huán)境音干擾，在臥房則可能通過智能音箱播放音樂，導致噪音出現(xiàn)，加上用戶聲音可能來自四面八方，因此需通過環(huán)型陣列做波束成形的指向性收音和降噪，提高語音識別準確率。

市場百家爭鳴，慎防邊緣化危機

隨著語音應用興起，MEMS麥克風陣列成為語音控制系統(tǒng)中第一道關卡，若MEMS麥克風陣列收音狀況不佳，將嚴重影響識別準確率，MEMS麥克風陣列解決方案成為各廠商重點角逐的市場。當前全球最大的MEMS麥克風廠商為樓氏電子（Knowles），市場占有率超過3成，同時也掌握MEMS芯片設計、MEMS麥克風封測與MEMS麥克風陣列模組，備受亞馬遜青睞。

不過，并非所有廠商都有一條龍的生產(chǎn)模式，多數(shù)廠商涵蓋設計到封測，或封測到系統(tǒng)整合廠部分，最后再由系統(tǒng)整合廠將MEMS麥克風模組或陣列出貨給品牌廠商。像是意法半導體只提供MEMS芯片設計到MEMS麥克風封測，原因在于MEMS麥克風供應鏈呈現(xiàn)金字塔狀，若意法半導體跨足MEMS麥克風陣列模組，將會與原先的合作廠商競爭；此外，如亞馬遜這類提供語音識別授權的業(yè)者，也開始進入MEMS麥克風陣列模組市場，將使該市場競爭更加激烈。

歌爾股份和瑞聲科技不具備MEMS芯片設計能力，僅提供封測到系統(tǒng)整合，為各類型產(chǎn)品提供不同解決方案，包含智能手機、可穿戴設備與智能音箱等，但隨著語音廠商開始切入MEMS麥克風陣列模組市場，該市場競爭更加激烈，因此模組廠商開始向上游發(fā)展，像是瑞聲科技開始自行開發(fā)ASIC，不僅能借此優(yōu)化自身MEMS麥克風模組，同時也能增加產(chǎn)品毛利。

歌爾股份則通過封裝方式將多個傳感器集成，使得單一元件擁有多種功能，減少基板使用面積而具有成本優(yōu)勢。此外，部分聲學廠商同時提供代工服務，例如歌爾股份、共達電聲、奮達科技與美律等，皆提供智能音箱和耳機的代工，優(yōu)勢在于聲學相關產(chǎn)品的機構設計是聲學廠商強項，且能直接提供聲學模組給品牌廠商。

近期語音廠商開始朝麥克風陣列模組發(fā)展，原因在于語音廠商希望達到最佳語音識別準確率，若采取非官方認證的麥克風陣列，語音識別可能會出現(xiàn)誤差，導致消費者體驗不佳。因此，為了讓實際收音和訓練樣本一致，語音識別業(yè)者開始推出麥克風陣列解決方案，像是亞馬遜、科大訊飛與阿里巴巴等，都提供相關解決方案，此外，語音識別業(yè)者可以通過麥克風陣列模組進行語音數(shù)據(jù)搜集，以優(yōu)化自家語音識別，同時也能擴大自家生態(tài)圈，從而拓展到更多產(chǎn)品，可謂一舉數(shù)得。

然而，語音識別業(yè)者跨入，導致下游MEMS麥克風陣列模組市場開始出現(xiàn)變化，語音識別業(yè)者通過軟硬整合方式吸引廠商采用，廠商則能直接進入語音識別業(yè)者的生態(tài)圈中，這對硬件開發(fā)商而言，是有相當強的吸引力。

面對語音識別業(yè)者的擠壓，原先的麥克風陣列模組廠商開始朝上游或代工發(fā)展，借此強化自身產(chǎn)品競爭力，否則只能轉(zhuǎn)向中低端市場，最終面臨被市場邊緣化的風險。