|
要回答這個(gè)問(wèn)題,我們需要從語(yǔ)音機(jī)器人的基礎(chǔ)能力介紹起 1、語(yǔ)音機(jī)器人簡(jiǎn)介及挑戰(zhàn) 語(yǔ)音機(jī)器人(電話機(jī)器人),主要包括兩種形態(tài):呼入,即由機(jī)器人來(lái)承接用戶電話咨詢業(yè)務(wù);外呼,即由機(jī)器人主動(dòng)發(fā)起電話,觸達(dá)用戶,從而完成語(yǔ)音對(duì)話。 不論呼入,還是外呼,核心都包括電話通信技術(shù)、語(yǔ)音識(shí)別技術(shù)、對(duì)話技術(shù),從當(dāng)前行業(yè)來(lái)說(shuō),由于電話通信技術(shù)比較成熟,語(yǔ)音機(jī)器人效果瓶頸主要在:語(yǔ)音識(shí)別技術(shù)、對(duì)話技術(shù)。要優(yōu)化語(yǔ)音與對(duì)話的體驗(yàn),核心主要包括兩方面:一方面對(duì)用戶的理解越來(lái)越準(zhǔn)確,另一方面提供盡量順暢的交互能力,最終達(dá)成好的交互體驗(yàn)和業(yè)務(wù)效果。 由于實(shí)際語(yǔ)音交互中,口語(yǔ)化表達(dá)、噪音干擾、短詞短句等情況廣泛存在,實(shí)際業(yè)務(wù)中對(duì)于用戶聲音轉(zhuǎn)寫(xiě)為文本、很難達(dá)到一個(gè)比較好的效果。
2、語(yǔ)音機(jī)器人與用戶交互模式 沃豐科技的語(yǔ)音機(jī)器人與用戶交互,在用戶聲音輸入后,通常包括幾個(gè)處理流程: ASR:Automatic Speech Recognition,自動(dòng)語(yǔ)音識(shí)別技術(shù),即將用戶輸入的聲音信息轉(zhuǎn)寫(xiě)成對(duì)應(yīng)的文本 NLU:Natural Language Understanding,自然語(yǔ)言理解,可以簡(jiǎn)單理解為,解析文本中包含的意圖/目的 DM:Dialog Management,對(duì)話管理,即基于NLU返回結(jié)果進(jìn)行決策,確定機(jī)器人下一步行動(dòng),可能是回復(fù)某個(gè)答案、也可能是表示對(duì)用戶問(wèn)題的不理解,也可能需要對(duì)用戶進(jìn)行反問(wèn)意圖確認(rèn)。 NLG:Natural Language Generation,自然語(yǔ)言生成,可以理解為,生成回復(fù)給用戶的答案,需要注意的是,此時(shí)的答案還是文本形式。 TTS:Text To Speech,從文本到語(yǔ)音,即語(yǔ)音合成,把NLG生成的文本答案合成為語(yǔ)音答案,從而播放給用戶。 由于整個(gè)對(duì)話的核心模塊(NLU、DM、NLG)是完全基于文本操作的,所以丟失了一些語(yǔ)音模態(tài)的信息,如用戶情緒化的語(yǔ)氣就無(wú)法傳遞給模型,同時(shí)ASR也會(huì)給下游帶來(lái)誤差傳播。 3、語(yǔ)音語(yǔ)義驅(qū)動(dòng)讓語(yǔ)音機(jī)器人更聰明 基于以上問(wèn)題,阿里對(duì)于ASR和NLU,提出了語(yǔ)音特色的文本驅(qū)動(dòng)對(duì)話。語(yǔ)音特色的文本驅(qū)動(dòng)對(duì)話,本質(zhì)是一個(gè)具有容錯(cuò)能力的模型,用戶聲音信息的理解,不在割裂為ASR和NLU兩段,機(jī)器人可同時(shí)基于發(fā)音信息和語(yǔ)義信息來(lái)解決用戶意思,在某些字有錯(cuò)誤的情況下,由于模型同時(shí)包含了語(yǔ)音、語(yǔ)義信息,因而具有更高的容錯(cuò)能力。 基于語(yǔ)音語(yǔ)義驅(qū)動(dòng)技術(shù),阿里的機(jī)器人能更準(zhǔn)確地理解用戶的意思,成為更聰明的機(jī)器人。 |
|
|
來(lái)自: 無(wú)xin之人 > 《集客營(yíng)銷(xiāo)》