|
京中有善口技者。會賓客大宴,于廳事之東北角,施八尺屏障,口技人坐屏障中,一桌、一椅、一扇、一撫尺而已。眾賓團坐。少頃,但聞屏障中撫尺一下,滿坐寂然,無敢嘩者。 遙聞深巷中犬吠,便有婦人驚覺欠伸,其夫囈語。既而兒醒,大啼。夫亦醒。婦撫兒乳,兒含乳啼,婦拍而嗚之。又一大兒醒,絮絮不止。當(dāng)是時,婦手拍兒聲,口中嗚聲,兒含乳啼聲,大兒初醒聲,夫叱大兒聲,一時齊發(fā),眾妙畢備。滿坐賓客無不伸頸,側(cè)目,微笑,默嘆,以為妙絕。 未幾,夫齁聲起,婦拍兒亦漸拍漸止。微聞有鼠作作索索,盆器傾側(cè),婦夢中咳嗽。賓客意少舒,稍稍正坐。 忽一人大呼'火起',夫起大呼,婦亦起大呼。兩兒齊哭。俄而百千人大呼,百千兒哭,百千犬吠。中間力拉崩倒之聲,火爆聲,呼呼風(fēng)聲,百千齊作;又夾百千求救聲,曳屋許許聲,搶奪聲,潑水聲。凡所應(yīng)有,無所不有。雖人有百手,手有百指,不能指其一端;人有百口,口有百舌,不能名其一處也。于是賓客無不變色離席,奮袖出臂,兩股戰(zhàn)戰(zhàn),幾欲先走。 忽然撫尺一下,群響畢絕。撤屏視之,一人、一桌、一椅、一扇、一撫尺而已。 節(jié)選自《虞初新志》的《口技》,林嗣環(huán) (清) 圖1: 口技 聲音能刻畫得如此妙不可言,聽覺系統(tǒng)功不可沒。就人而言,聽覺系統(tǒng)由左右兩只耳朵構(gòu)成,一方面能幫助我們形成立體聽覺,有助于辯識聲音的位置,另一方面也方便我們在不喜聽到某事時,可以一只耳朵進(jìn),一只耳朵出。它是除了視覺以外,另一個可以幫助我們實現(xiàn)遠(yuǎn)距離以及視覺系統(tǒng)不可用時識別目標(biāo)的感知系統(tǒng)。比如《紅樓夢》中描繪的“未見其人先聞其聲”,便是林黛玉進(jìn)賈府初見王熙鳳的情形,朗朗的笑聲瞬間就把王熙鳳的形象樹立了起來。另外,因為人的視覺接受外界信號是以光的速度完成的,而接收聲音的速度則慢得多。所以,聽覺系統(tǒng)還能幫助糾正視覺上的錯覺。比如,有些人會看上去是非常的閃亮、聰明,這一印象會一直維持到聽到他開口說話為止。于是,為了保證視覺與聽覺美感上的“一致”,不少短視頻APP提供了大量有特色的聲音母帶。這也是短視頻大受歡迎的原因之一。因為對人類文明而言,聽覺系統(tǒng)促進(jìn)了智能體之間的交流和提升了精神生活的檔次。 圖2 耳朵結(jié)構(gòu)圖 要更具體地了解聽覺系統(tǒng),可參考圖2。它包括用于收集聲音的耳朵、用于聲音傳遞的外耳道、用于將聲音變?yōu)檎駝宇l率的耳膜、耳蝸內(nèi)用于將聲音轉(zhuǎn)為電脈沖的毛細(xì)胞、以及傳輸電脈沖的聽神經(jīng)和處理聲音的聽覺中樞。這里毛細(xì)胞是聽覺細(xì)胞,包括3500個內(nèi)毛細(xì)胞和12000個外毛細(xì)胞,以分別處理不同頻率的聲音。其中,低音部的毛細(xì)胞多,高音的相對較少。所以,對年紀(jì)大的人來說,首當(dāng)其沖損失的是高頻部分的聽力能力。 雖然人的聽覺系統(tǒng)中的毛細(xì)胞數(shù)量和布局,和人的視網(wǎng)膜有得一比。 但由于現(xiàn)有傳感器設(shè)備的限制, 機器在模仿時都將采集到的聲音最終簡化成一條曲線似的信號。好處是,多媒體研究最開始著手的方向,就是數(shù)字音頻處理。隨著計算機處理能力的增強,才逐漸將研究重點轉(zhuǎn)移到具有二維結(jié)構(gòu)的數(shù)字圖像上來。在1995年至本世紀(jì)初期,曾經(jīng)有一段時間,計算機學(xué)科中一大半的研究生從事的研究方向都與數(shù)字圖像處理密切相關(guān)。說不定,未來等量子計算機研制成功,基本的計算基元從二進(jìn)制轉(zhuǎn)成連續(xù)值后,也許得考慮量子語音處理、量子圖像處理了。 撇開這段歷史不表,因為聲音是多源的、隨時間變化的,當(dāng)聲音壓縮變成一維的語音信號后,語音處理的難度便大了不少。 早期的語音處理研究是舉步維艱的。曾記得95年左右的微軟曾出過一版語音識別軟件,識別的性能遠(yuǎn)低于期望,很快就被市場淡忘。當(dāng)年在連續(xù)語音識別的主要方法,包括統(tǒng)計學(xué)領(lǐng)域60年代、后在70年代中期被挪到語音領(lǐng)域的隱馬爾可夫模型, 和多個高斯分布組合的多元混合高斯模型。其中,隱馬爾可夫模型假定了聲音時間序列的前后時刻具有相關(guān)性,即馬爾可夫過程。同時,假定這些相關(guān)性由一組隱含的變量控制。將這些性質(zhì)構(gòu)成網(wǎng)絡(luò)后,便形成了隱馬爾可夫模型。盡管模型結(jié)構(gòu)有細(xì)微變化 ,但主體思想仍舊,曾在語音分析領(lǐng)域引領(lǐng)風(fēng)騷數(shù)十年。一直到近年來的深度學(xué)習(xí)的出現(xiàn),語音識別也由于預(yù)測性能的顯著提高而隨之走向全面實用化。 但實用化并不意味著聽覺系統(tǒng)就完全被了解清楚了,里面仍有許多不明的機理,如聽覺錯覺。同時,語音識別本身也還存在一些目前難以解決的問題。第三,人類在說話以外,還發(fā)展了音樂這樣獨一無二的能力,尤其是唱歌。理解唱歌,對于理解智能體本身也是有幫助的。本節(jié)中,我將從此三方面展開介紹。 一、聽覺錯覺 聽覺系統(tǒng)和視覺系統(tǒng)一樣,雖然有效,但同樣存在不少有意思的錯覺。這些錯覺既有來自聽覺系統(tǒng)的,也有來自大腦生理或心理感受的,還有來自外部經(jīng)過特殊設(shè)計誘導(dǎo)的。 來自聽學(xué)系統(tǒng)的通常是功能性退化引起的。舉例來說,當(dāng)外界不存在聲源輸入時,而人又能感受到聲音信息時,就是聽覺系統(tǒng)本身出了問題,可大可小。比較常見的是耳鳴,一些神經(jīng)官能癥患者或神經(jīng)衰弱的人會比較容易出現(xiàn)這種問題。它產(chǎn)生的原因,一直是眾說紛紜,有認(rèn)為是大腦聽覺中樞存在問題所致,也有認(rèn)為與傳導(dǎo)聲音的神經(jīng)通道在無信號時的活動有關(guān)。后一觀點里,比較有意思的一個研究成果是美國約翰-霍普金斯小組德懷特·彼格斯等最近做出的。他們在聽力還沒發(fā)育成熟的小鼠上進(jìn)行了實驗,發(fā)現(xiàn)耳鳴的發(fā)生可能與聽覺系統(tǒng)早期階段,非感覺性毛細(xì)胞,即支撐細(xì)胞有直接聯(lián)系。他們認(rèn)為,在聽覺系統(tǒng)未成熟前,這些支撐細(xì)胞會本能釋放ATP能量分子(腺苷三磷酸),形成電信號輸入大腦。這些電信號在發(fā)育初期聽起來就象是噪聲,可用于幫助聽覺系統(tǒng)盡早做好準(zhǔn)備。從我的感覺來看,這種準(zhǔn)備就像聽覺系統(tǒng)的自檢,和人晚上睡覺偶爾會蹬腿是為了自檢人是否還活著一個道理。而到長大以后,這種自檢偶爾還會被觸發(fā)。頻率發(fā)生過高的則有可能形成持續(xù)性耳鳴的疾病。所以,了解耳鳴的形成機理也許有助于理解人聽覺系統(tǒng)的早期發(fā)育。 除了這種耳鳴外,人甚至可以在不使用聽覺系統(tǒng)時,也能感受到聲音。比如, 你沉思的時候,那個在你腦袋里說話的聲音,是誰發(fā)出的呢? 另一種錯覺是人對聲音美感的感知。它包括說話聲和唱歌兩種錯覺。 在日常生活中,說話人錯覺更為常見。人們總是對自己的聲音比較滿意,直到聽到通過錄音方式播放出來的聲音后,才發(fā)現(xiàn)與自己以為聽到的還有點差距,有時會覺得錄音機里播出來的聲音會更難聽一些。其原因有兩個,一是因為人在聽自己聲音的時候,聲音是通過顱骨傳至內(nèi)耳再進(jìn)入聽覺中樞的。而其他人聽到的聲音,與錄音機通過空氣介質(zhì)傳播獲得的相同。傳播媒介不同,自然會有些差異。另一個原因可能是人類會習(xí)慣把自己的聲音標(biāo)定得更美好一些。在2000年兩位心理學(xué)家Dunning和Kruger提出的、獲得了《搞笑諾貝爾心理學(xué)獎》的達(dá)克效應(yīng)(Dunning-Kruger Effect)可以部分解釋這一現(xiàn)象。簡單來說,人容易沉靜在自我營造的虛幻優(yōu)勢之中,過高估計自己的能力,屬于一種認(rèn)知偏差。因此,人也會在大腦中自動地美化自己的聲音。 拋去錯覺不提,語音識別本身有許多細(xì)分和衍生的應(yīng)用值得研究。應(yīng)用面最寬的當(dāng)數(shù)語音轉(zhuǎn)換文字,可以是同一語種,也可以是跨語種。同語種的轉(zhuǎn)換,在深度學(xué)習(xí)出來后,性能確實有了一個質(zhì)的飛躍, 在識別性能和用于語音搜索方面都已經(jīng)不是90年代可比擬的了。不過,現(xiàn)階段的水平也并非完全能替代其它輸入設(shè)備,仍存在一些無法有效解讀的場景。以中文為例,漢字的數(shù)量超過8萬個,常用的約3500個,但漢字重音率特別高,只有1600多個。兩個數(shù)量相比,便可以知道中文語音轉(zhuǎn)換文字的難度有多高。極端情況下,可以參考“中國現(xiàn)代語言學(xué)之父”趙元任(1892.11.3—1982.2.24)當(dāng)年寫過的三首詩,《施氏食獅史》、《熙戲犀》和《季姬擊雞記》。其中一首于1930年在美國寫的《施氏食獅史》如下: 石室詩士施氏,嗜獅,誓食十獅。施氏時時適市視獅。十時,適十獅適市。是時,適施氏適市。施氏視是十獅,恃矢勢,使是十獅逝世。氏拾是十獅尸,適石室。石室濕,氏使侍拭石室。石室拭,氏始試食是十獅尸。食時,始識是十獅尸,實十石獅尸。試釋是事。 這段幾乎完全同音的文字,機器目前仍很難根據(jù)語音將其轉(zhuǎn)成有效文字的。如果通過目前正流行的知識圖譜來對重音字進(jìn)行輔助解釋,也許可以部分解決這一問題,對于打字不方便的人來說,是比較好的選擇。但對于熟悉打字的,引入知識圖譜這樣的操作會浪費大量不必要的時間。尤其像上例這種情況,知識圖譜能做的是每個單字可能都需要做解釋,顯然還不如打字來得快 。 而跨語種的翻譯,國內(nèi)外都在做,也有一些小型配套硬件被推出,但離同聲翻譯的距離還很遠(yuǎn),因此它不僅僅是語音識別的問題,還涉及到更復(fù)雜的自然語言處理,以及廣泛的背景知識。 語音也可以用于人身份的識別。盡管不如識別人的外表如人臉那么形象直觀,但仍然是重要的生物認(rèn)證方式之一,在反電話詐騙也有潛在的應(yīng)用。語音與視頻結(jié)合還能實現(xiàn)計算機讀唇語,這一技術(shù)對于聽力有障礙且交流困難的人尤其是聾啞人將有所幫助。 三、歌唱識別 人類聽覺系統(tǒng)除了用于交流、識別和警示外,還進(jìn)化了一種可能只有人類才具有的高級智能,就是音樂,如獨唱合唱、樂器獨奏合奏等。其中,唱歌是最容易又是最難的“樂器”。因為隨便誰都能唱,唱得好是“余音繞梁,三日不絕”,反之也可能會“嘔啞嘲哳難為聽”。與語音識別相比,歌唱的分析有更多的困難要克服,原因可以從兩個方面來解釋。 1、與說話的區(qū)別 人在說語時多以聲帶振動來發(fā)聲,音調(diào)、頻率都在人最自然的發(fā)聲區(qū),偶爾有些人會用腹式呼吸來增強聲音的厚度和減少聲帶的疲勞。即使情緒波動會影響發(fā)聲,但一般變化 也不會太大。 而唱歌則需要比較多的技巧,有著與說話顯著不同的特點。首先,唱歌的音域變化范圍很寬。比如俄羅斯男歌手維塔斯能從最低音到最高音唱跨四個八度,最高的聲音能跟開水壺?zé)_水發(fā)的聲音一樣高,非常的厲害。不過我也能,多啦米發(fā)嗦拉希多,重復(fù)五次,也有五個八度。其次,共鳴腔的運用上唱歌和講話的區(qū)別也非常之大。比如唱歌時用的頭部共鳴,有從鼻腔和后腦勺位置發(fā)聲共鳴的區(qū)別,這兩者導(dǎo)致的音色差別很大。要根據(jù)歌曲風(fēng)格不同來取舍,老百姓常聽到的美聲唱法喜歡把頭腔共鳴置后。如果留意看歌星唱歌,有些人唱高音的時候會擠眉弄眼,鼻子皺了起來,那其實就是在找高音共鳴的位置。為了歌曲表達(dá)的厚度,光靠頭腔還不夠,因為會比較單薄,還得利用胸腔共鳴加強中低音區(qū)的共鳴。如果想把音域再提高,還可以學(xué)習(xí)用咽音技巧來發(fā)聲。而低音比如呼麥的唱法則要把氣運到聲帶附近振動發(fā)聲。第三,氣息也是造成說話和唱歌區(qū)別變大的地方。歌曲中有些歌詞特別長,只用平時說話那種比較淺的胸式呼吸往往很難保持旋律的穩(wěn)定和連續(xù)性,所以需要借助胸腹式呼吸以及更復(fù)雜的換氣技巧;第四,不像說話一般是四平八穩(wěn)的,歌曲的節(jié)奏變化很豐富,一首歌里可能快慢緩急都會出現(xiàn);第五,對歌詞的理解和情感的投入也會使唱歌與說話有顯著的差別;第六,連讀問題。中文歌詞相對好一些,但英文在唱歌中的連讀就多得多了。 關(guān)于唱歌和說話,人們可能還會有個錯覺,以為口吃的人唱歌一定唱不好。但實際上這兩者屬于不同的發(fā)聲機制。說話是需要思考要講的內(nèi)容,并進(jìn)行語言組織,再說出來。而唱歌通常是歌曲的語調(diào)、語速和語氣都已經(jīng)給定,人需要做的是將這些內(nèi)容經(jīng)過反復(fù)練習(xí)后復(fù)述即可。所以,口吃的人可以,試著通過學(xué)習(xí)唱歌來找到流利發(fā)聲的自信。 唱歌和說話的這些區(qū)別,使得唱歌中的語音識別變得尤其困難,但因此也衍生了更多的與語音和智能相關(guān)的應(yīng)用。 2、如何評價歌曲的美 唱歌對多數(shù)人來說,是緩解心情的方式之一。聽到喜歡的歌,學(xué)來便唱了??墒浅煤貌缓媚??很多人并不太清楚,對自己的歌聲也比較“自信” ,我也是如此 。另外, 什么樣的歌才可以定義為好聽的歌曲呢? 音樂里面定義好聽與否,有個與頻率f相關(guān)的通用法則。這是日本著名物理學(xué)家武者利光于1965年在應(yīng)用物理學(xué)會雜志發(fā)表的文章“生物信息和1/f起伏”中提出的1/f波動原則。波動或起伏指在某個物理量在宏觀平均值附近的隨機變化,其原則在很多領(lǐng)域都適用。就音樂來說,1/f表明旋律在局部可以呈現(xiàn)無序狀態(tài),而在宏觀上具有某種相關(guān)性的,可以讓人感到舒適和諧的波動。如鄧麗君的《甜蜜蜜》、《小城故事》等就是符合1/f波動原則的曲子,所以大家很喜歡聽。但這一理論只適用解釋比較舒緩的歌曲。對于其它形式的音樂風(fēng)格,如搖滾、說唱等,則是因為其蘊含的律動能幫助人宣泄和抒發(fā)心情有關(guān) 。更有甚者,還有完全背離1/f波動原則的歌曲,如甲殼蟲樂隊(The Beatle)主唱約翰·列儂老婆小野洋子(Yoko Ono)在紐約的現(xiàn)代藝術(shù)博物館演唱的、幾乎接近噪聲的實驗歌曲《Fireworks》(原唱Katy Perry)。當(dāng)然,國內(nèi)也有類似的,有興趣的不妨聽聽左小祖咒的《六枝花》。 為幫助評估音樂是否好聽,科學(xué)家們還提出了一些心理聲學(xué)的定性和定量指標(biāo),如基于粗糙度、尖銳度、波動度和音調(diào)等聲學(xué)特征組合構(gòu)成的“煩惱度”和“感知愉悅度”等復(fù)合聲學(xué)指標(biāo)。但不管如何約定,聲音的感知仍是以個體的主觀感受為評價,公眾認(rèn)同的并不見得能用于刻畫小眾的審美觀點 。有人喜歡粗獷低沉的聲音,有人喜歡清澈如水的,有人喜歡嘹亮的,有人喜歡委婉的,有人喜歡稀奇古怪的,有人喜歡平鋪直敘,有人喜歡口水歌,有人喜歡陽春白雪。音樂風(fēng)格的多樣性和個性化色彩的濃郁,使得人工智能很難真正地形成統(tǒng)一的客觀標(biāo)準(zhǔn)來替代這一領(lǐng)域的工作。 3、歌曲/歌唱的相關(guān)應(yīng)用 雖然歌曲/歌唱的分析顯然比單純的語音識別復(fù)雜、難度高,但在人工智能領(lǐng)域還是有一些相關(guān)的應(yīng)用。這里列舉幾個比較有應(yīng)用價值的。一是歌曲哼唱識別,這是目前多數(shù)提供音樂的平臺有或者正在嘗試做的一項功能。其任務(wù)是要根據(jù)局部片段的旋律,來識別可能的曲子。難點在于,并非每個人都能準(zhǔn)確地把旋律哼出來。多數(shù)采用這種方式找曲子的,原因可能是不記得歌名,或者只是一段遙遠(yuǎn)的旋律記憶。其次,人的發(fā)音頻率、說話的清晰度和原唱都有一定的差異。所以,哼唱識別的任務(wù)是要從不精確的哼唱中找到有效的候選集。 除了哼唱,另一個重要的應(yīng)用是自動調(diào)音。一是因為很少有人能具有絕對音高的能力,即使經(jīng)過專業(yè)訓(xùn)練,仍然可能不穩(wěn)。二是多數(shù)人的音準(zhǔn)和穩(wěn)定性是存在問題的。而喜愛唱歌的人又多,所以,自動調(diào)音對于專業(yè)歌手和業(yè)余愛好者都有很大的應(yīng)用市場。但由于音樂的風(fēng)格往往千變?nèi)f化,而且還要學(xué)習(xí)和增強每個人特有的辨識度和個性化音色,所以,利用人工智能技術(shù)構(gòu)造自動調(diào)音師的難度顯而易見。 另外,音樂聲與人聲分離也是一個極其重要的研究方向。人類在這方面的能力非常強,可以在非常嘈雜的環(huán)境中輕松選擇自己關(guān)注的聲音來聆聽。1953年Cherry將人類聽覺注意引發(fā)的這一現(xiàn)象稱為雞尾酒會效應(yīng)(Cocktail Party Effect)。雖然這一問題提出了半個多世紀(jì),人工智能要實現(xiàn)和人相近的辨識能力還很難。因為獲取的音頻信號一般是經(jīng)過多個聲源混合而成的一維的音頻信號,但要分離出原來的多個信號源是一對多的病態(tài)問題。在人工智能領(lǐng)域通常會假定這些信息源是相互獨立的,且不符合之前提過的高斯分布,輸出結(jié)果為這些信息源的加權(quán)組合。信息源的分離,又稱為盲源分離,早先的做法是利用機器學(xué)習(xí)和模式識別領(lǐng)域的獨立分量分析(Independent Component Analysis)的技術(shù)或其改進(jìn)版來實現(xiàn),但這一方法的不足是收斂速度慢,且難以獲得唯一解。最近深度學(xué)習(xí)在這一方向上也有了長足的進(jìn)步。如“谷歌研究”2018年八月在圖形學(xué)頂級期刊ACM ToG上公布的最新成果。作者Ephrat等將音視頻結(jié)合起來,分別對視頻和音頻采用兩個深度學(xué)習(xí)模型提取各自特征。融合特征后,再用一個考慮時間變化的長短時記憶深度模LSTM來刻畫音視頻的時序特性,最后為每個說話者都采用兩個不同的解碼系統(tǒng)來分離音頻和視頻。該模型達(dá)到了目前的最佳效果,離模擬人類的雞尾酒會效應(yīng)又進(jìn)了一步。但其仍存在一些不足,主要有兩點。一是需要借助視頻,所以,人臉必須出現(xiàn)在畫面里幫助定位聲音源,這與人在雞尾酒會上并不需要視覺的幫助來定位相比還是要弱不少。其次,該研究還沒有涉及歌聲和樂器聲分離這一類更難的問題。 圖3:(a) 輸入的視頻幀與音頻;(b) 處理思路:分別提取視頻、音頻特征,并執(zhí)行音視頻源分離;(c): 為每個說話者輸出干凈的音頻 [1] 當(dāng)然,基于人工智能的音樂分析還有很多其他有意思的應(yīng)用,如計算機作曲/寫歌詞、設(shè)計像洛天依一樣的唱歌機器人等等。但總體來看,人類作者寫出的歌詞、旋律的意境往往具有更好的整體性和更強的邏輯性,而計算機模擬的目前還只能做到局部逼近,在大局觀、整體情緒情感的把握上仍然任重道遠(yuǎn),也許現(xiàn)階段考慮與人的混合智能處理是不錯的嘗試。 那么,音樂中還有沒有其他比較有意思的錯覺呢?下回書表! 參考文獻(xiàn): 1. Ariel Ephrat, Inbar Mosseri, Oran Lang, Tali Dekel, Kevin Wilson, Avinatan Hassidim, William T. Freeman, Michael Rubinstein. Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation. ACM Trans. Graph. 37(4): 112:1-112:11, Aug, 2018. arXiv:1804.03619v2 張軍平 2018年10月22日 文章來源:張軍平 |
|
|