|
智東西(公眾號:zhidxcom) 作者 | 韋世瑋 編輯 | 心緣 不到半年,僅成立兩年的TTS(語音合成)科技創(chuàng)企倒映有聲又開啟新一輪融資了。 如今,電子書、廣播劇等以聲音為載體的“耳朵經濟”快速興起,其中有些堪比專業(yè)播音員的聲音,其實是由人工智能(AI)合成出來的。 相比真人播音員,AI語音合成技術不僅大大縮短配音時間,而且更加節(jié)約制作成本和人力成本。以提供語音合成系統(tǒng)及解決方案起家的倒映有聲,即是在做這樣的事。 過去一年,倒映有聲上線的有聲讀物制作平臺,其AI主播每日單機生產速度已超500萬字,錄制成本可節(jié)約超90%。今年3月,它與中央廣播電視總臺音頻客戶端“云聽”APP達成合作,開展基于央廣總臺IP和融媒體領域的AI產品研發(fā),這意味著其業(yè)務已成功打入“國家隊”。 倒映有聲的核心團隊大多出身于百度、微軟、阿里等公司,早期小愛同學、小度智能音箱、百度語音導航、百度呼叫中心等語音產品底層技術的構建,都少不了這群技術專家的身影。 基于端到端神經網絡和深度學習合成器,倒映有聲自研了情緒和情感控制模塊,在音色模擬、情感展現(xiàn)、定制化服務、多語種等方面都已達行業(yè)領先水平。 其融資也在快速推進中。此前,這家創(chuàng)企已完成2019年5月300萬元的天使輪融資、今年5月千萬級人民幣的Pre-A輪融資,并正在啟動A輪融資,目標規(guī)模為2000-3000萬元,以加快技術研發(fā)、加速垂直場景的產品落地。 在北京建外SOHO的一間辦公室里,這家團隊規(guī)模不到20人的新興企業(yè),正醞釀著一場圍繞語音合成領域的新一輪搶位賽。 近日,智東西走進他們的北京總部,通過與其創(chuàng)始團隊展開深入交流,我們了解到更多這家公司的誕生與成長故事,也看到了不少他們對AI語音技術創(chuàng)新的探索和堅持。 從左到右分別為倒映有聲聯(lián)合創(chuàng)始人兼CTO李驍、倒映有聲創(chuàng)始人兼CEO肖朔、倒映有聲聯(lián)合創(chuàng)始人兼CMO何培成 一、助推百度小米智能音箱誕生,倒映有聲的起航2013年左右,碩士畢業(yè)于北京航空航天大學云計算專業(yè)的肖朔,加入了百度語音技術部工作。同期加入的,還有剛從英國帝國理工大學人工智能專業(yè)碩士畢業(yè)回國的李驍。這時,百度的人工智能(AI)業(yè)務才剛剛起步。 在百度期間,肖朔與李驍所在的團隊開發(fā)了國內首款情感語言合成系統(tǒng),并先后研發(fā)了小度智能音箱、百度呼叫中心等產品,給未來百度智能語音生態(tài)的構建和豐富打下了重要基礎。 此外,二人還曾任職于獵豹移動投資的AI創(chuàng)企——獵戶星空,在一年時間里與初創(chuàng)團隊共同參與了小米首款小愛智能音箱的開發(fā)項目。 在這幾年摸爬滾打的過程中,正是這兩段從0到1構建技術方案的經歷,讓肖朔與李驍逐漸產生了創(chuàng)業(yè)的想法。恰好在獵戶星空打拼的經歷,也讓他們接觸了許多創(chuàng)意知識和經驗,“消除了對創(chuàng)業(yè)的恐懼感?!?/p> 2019年,隨著百度語音技術已步入成熟發(fā)展的正軌,其語音技術戰(zhàn)略重點已不在語音合成,更多是聚焦在語音交互。與此同時,得益于硬件設施的完善、算力的增強,以及深度學習應用場景的進一步拓展,曾一直處于早期發(fā)展階段的語音合成技術終于有了變革性突破。 因此,肖朔和李驍決定離開百度,開啟創(chuàng)業(yè)生涯。2019年3月,倒映有聲于杭州正式注冊成立,由于跟隨他們一同出來創(chuàng)業(yè)的還有不少原百度團隊的伙伴,他們也選擇將公司總部“落戶”北京,并在成立兩個月后拿下300萬人民幣的天使輪融資。 肖朔和李驍?shù)膭?chuàng)業(yè)之旅正式起航,倒映有聲的挑戰(zhàn)也才剛剛開始。 二、押注有聲書和AI新聞播報,語音合成想象空間巨大不過,AI語音的賽道如此廣泛,倒映有聲為何堅定地選擇語音合成賽道? 在肖朔看來,語音識別是最早爆發(fā)的語音技術,科大訊飛、云知聲等公司已深耕多年,做出了智能醫(yī)療、智能翻譯筆、智能會議錄入系統(tǒng)等成熟產品,給新玩家留下的市場機會并不多。 技術方面,李驍認為目前語音識別技術已進入了單純比拼識別準確率的成熟階段。相比之下,語音合成仍有許多待發(fā)掘的細分場景,包括廣播劇、有聲書、游戲配音,甚至亞文化中的虛擬偶像等,都是未來的落地方向,想象空間巨大。 例如,以往有聲書、廣播劇等長音頻作品在制作過程中,需要人工對大量文字腳本進行前期畫本、中期配音、后期剪輯等工作,整套流程要花費幾個月時間,還涉及不少人工成本。但如果使用語音合成技術,能極大地壓縮各個環(huán)節(jié)中的時間和財務成本,只需幾天甚至幾個小時,就能完成一個長音頻作品的制作。 再比如影視和游戲配音中,為了保證用戶的觀影及游戲體驗,制作團隊需要花大量時間篩選適合角色的配音員,同時還需考慮配音員的休息時間、續(xù)集聲音的連貫性等,這些也對制作周期帶來了許多不確定性。若采用語音合成技術,只需輸入腳本就能快速生成適合人物形象和作品需求的聲音。 不過,由于用戶對語音合成技術的體感要求非常高,如果技術無法達到媲美真人的效果水平,就很難有用戶愿意付費,同時用戶付費的意愿與技術效果的提高成正比。 “因此語音合成技術是整個語音交互技術鏈路上最后爆發(fā)的賽道,一旦爆發(fā),市場空間會更大?!?/strong>肖朔評價。 目前,倒映有聲主要以有聲書和AI新聞播報兩大場景為切入點,為創(chuàng)作者、版權方和融媒體平臺等客戶提供高產能、低成本的音頻制作服務。 有聲書方面,倒映有聲主要提供有聲讀物交易制作平臺,用戶通過該平臺可實現(xiàn)從覆蓋文稿畫本到配音錄制,再到音頻剪輯的全流程云端制作,還可自主選擇全自動/半自動制作,以及純AI主播、AI人聲+真人主播錄制等。 例如在前期處理環(huán)節(jié),平臺可實現(xiàn)對文稿的篩選和清洗,如果是廣播劇級別的內容,還能對內容進行深層次的改造,包括配音的角色劃分、性格描述刻畫、情緒風格等要素,以改編成適合收聽的文本。 AI新聞播報方面,倒映有聲與中央廣播電視總臺音頻客戶端“云聽”APP合作打造AI新聞主播,提供音頻內容服務的一站式解決方案。和國內其他AI新聞主播相比,倒映有聲的播音效果情緒更加飽滿、自然,在音色模擬、情感展現(xiàn)、多語種等方面都已達業(yè)內領先水平。 倒映有聲語音合成技術在云聽APP上的應用實例 三、背后的技術城池構建,語音合成的三大優(yōu)勢不管是有聲書還是AI新聞播報背后,都離不開倒映有聲在語音合成領域的技術積累和創(chuàng)新。 李驍談道,以前傳統(tǒng)的語音合成技術主要有兩種方式,分別為拼接法和參數(shù)法。例如最初的小米小愛同學就是采用拼接法,幾乎使用真人的聲音片段進行算法拼接組合,優(yōu)勢是音色和自然度等效果好,缺點在于操作復雜度極高,對數(shù)據(jù)量需求也非常大。 “當時我們讓配音員錄了將近半年時間,前后加起來上百個小時,才將小愛同學打磨到一個非常好的水平?!崩铗斦f。 隨著端到端深度學習逐步拓展到語音合成領域,語音合成技術得到了質的飛躍。 一方面,基于深度學習的語音合成技術,其內部計算模塊和網絡構建更為復雜,不管是參數(shù)量還是技術復雜度,都遠遠超過以往水平;另一方面,內部結構的復雜也使得模型搭建完成后,后續(xù)的使用會變得非常簡單,無需再用大量數(shù)據(jù)去做底層支撐。 智能語音合成結構(圖源:頭豹研究院) 整體來看,倒映有聲的語音合成技術主要擁有三方面核心優(yōu)勢。 一是擬真度,這是語音合成技術的核心。語音合成通常覆蓋有聲繪本、有聲讀物、新聞播報、呼叫中心等多個應用場景,不同場景下的技術表達方式與操作邏輯都有著較大區(qū)別,例如小孩兒、成年人、老年人等不同音色,或是模擬不同動物、怪獸的發(fā)音,都是一個較大的課題。 倒映有聲則能大大減少語音合成和真人表達之間的差異性,拉近合成聲與真人之間的距離,合成后的聲音采樣率達48kHz,更接近真人在錄音棚中錄制的聲音,而市場上主流合成采樣率為16kHz。 在多情感方面,倒映有聲的語音合成技術還能將情感表達得更精準、細膩和豐富。同時,它還支持英文、中英文混合合成,跨語種定制成本低。 二是定制化能力。基于過去兩年的數(shù)據(jù)積累,倒映有聲在自己平臺上已沉淀了上千位真人主播,其語音合成定制化能力已達到只需200句話(約30分鐘時長),就能幾乎100%還原一個人的聲音,并且能達到商業(yè)化落地的水平。 甚至用戶只需錄10-15句話,倒映有聲就能將聲音以90%的相似度“克隆”下來,但“克隆”下來的主要是聲線,句子數(shù)非常小,所以在情緒還原上還需其他算法技術進行彌補。 三是語音合成技術的結合性。除了語音合成這一單點技術外,倒映有聲還很關注與之強相關的上下游技術點。例如在有聲讀物場景,倒映有聲已落地了全自動畫本能力,每句話該用哪個音庫、該用什么情感風格,都與語音合成技術有著強相關的綁定關系。 四、有聲書行業(yè)高速發(fā)展背后,倒映有聲的下一步規(guī)劃從2019年3月成立至今,倒映有聲將近花了一年多時間在做底層技術的打磨和積累,直到2020年5月開始正式商業(yè)化。2020年間,他們9月跑通有聲書賽道,12月進入廣電融媒體賽道……其中最大的變化在于聯(lián)合創(chuàng)始人兼CMO何培成的加入。 “何校長補齊了我們的市場商務團隊,讓倒映有聲從一家純粹的技術輸出型公司,轉變成了產品服務公司?!毙に诽岬?,在這個轉變中,公司針對幾個垂直場景形成了完整的產品服務,在打開市場局面的同時進一步擴充了公司營收。 “去年公司主要聚焦在技術和產品階段,營收基數(shù)較低?!焙闻喑烧劦?,今年公司營收出現(xiàn)了明顯爆發(fā),預計將有大幾百萬的收入,同比增長700%。 今年,倒映有聲的主要目標還是集中在技術和市場兩個方面,一是夯實已切入的有聲書和AI新聞播報市場,做出標桿客戶,實現(xiàn)更大規(guī)模收入的同時提升市場占有率,這也是今年他們最核心的目標;二是希望基于自身的語音合成技術,延伸到更多商業(yè)場景。 至于技術方面,李驍認為目前語音合成的關鍵挑戰(zhàn)是如何讓情緒表達更加細膩,“這將是我們持續(xù)深挖的點,只有把它攻克了,我們才有可能讓語音合成技術進入到更多場景中?!彼f,如何加強語音合成在長音頻中的自然和流暢感也是一個難點,因為目前語音合成仍聚焦在單句的合成上。 簡單來說,現(xiàn)階段語音合成技術的最大瓶頸已不在算力上,而是語音合成技術本身,如何才能用更好的數(shù)學模型來解釋人們發(fā)音的生理構造和原理,也許是語音合成技術下一個最重要的突破口。 因此倒映有聲的下一步技術研發(fā)方向,一方面將從深度出發(fā),持續(xù)挖掘情感的細膩表達,更好地控制在長文本上連貫的漸強、漸弱自然表達。同時,更低成本的定制化也是重點之一。 另一方面則從廣度出發(fā),加強和語音合成強相關的上下游技術鏈路,包括自然語言處理(NLP)方面的自動角色劃分、文本級情感預測等重點。李驍認為,再往下游走也有不少需要通過音頻驅動的場景,例如語音驅動虛擬人物的面部表情或肢體表達。 “整體來看,語音合成在有聲書和融媒體方向的落地都比較清晰了,真正挑戰(zhàn)是開拓增量場景?!毙に氛劦溃磥硭麄円矊⑾驏|南亞地區(qū),以及俄羅斯、日本、韓國等非英文母語國家提供服務,進一步拓展海外業(yè)務范圍。 結語:語音合成技術爆發(fā)潛力巨大智能語音作為當下發(fā)展如火如荼的技術,已成為各產業(yè)智能化過程中不可或缺的重要工具,尤其是語音交互和語音識別技術,已深入到人們生活、工作的方方面面。相比之下,語音合成技術確實還未來到全面爆發(fā)的節(jié)點。 但目前在語音合成賽道中,有聲書行業(yè)的市場規(guī)模正保持著高速增長。據(jù)市場研究機構艾媒咨詢數(shù)據(jù),中國有聲書行業(yè)規(guī)模已從2016年的23.7億元增長至2019年的63.6億元,連續(xù)三年增速超30%,預計2020年將達到95億元左右。 倒映有聲的成立,無疑為語音合成技術在更多領域的融合創(chuàng)新提供了一個值得借鑒的商業(yè)樣本。這支創(chuàng)業(yè)團隊讓我們看到了語音合成技術更廣闊的想象空間,從有聲書到AI新聞播報,從游戲到影視劇,從機器人到虛擬主播……似乎一切有視聽內容輸出的場景,都有著不少潛在機會。 未來,隨著語音合成技術逐步進入爆發(fā)階段,我們也期待它能給各行各業(yè)帶來更多創(chuàng)新性的突破和蛻變。 |
|
|
來自: aobaodingding > 《人工智能》