|
「AI 技術(shù)生態(tài)論」 人物訪談欄目是 CSDN 發(fā)起的百萬人學 AI 倡議下的重要組成部分。通過對 AI 生態(tài)頂級大咖、創(chuàng)業(yè)者、行業(yè) KOL 的訪談,反映其對于行業(yè)的思考、未來趨勢的判斷、技術(shù)的實踐,以及成長的經(jīng)歷。 本文為 「AI 技術(shù)生態(tài)論」系列訪談的第十七期,解剖美團大腦和美團BERT技術(shù),解開美團AI的「冰山一角」。 百萬人學 AI 你也有份!今日起點擊閱讀原文報名「2020 AI開發(fā)者萬人大會」,使用優(yōu)惠碼“AIP211”,即可免費獲得價值299元的大會在線直播門票一張。限量100張,先到先得!提起美團,你首先會想到的是什么?是那個帶著醒目黃色的美團App,還是每日穿行在大街小巷、為我們送上外賣美食及新鮮水果的的快遞小哥?實際上,美團不僅有這么接地氣的一面,也有特別「高大上」的一面,比如立足于AI技術(shù)的美團大腦和美團BERT。CSDN(ID:CSDNnews)專訪美團AI平臺搜索與NLP部的技術(shù)負責人王仲遠博士,為大家揭曉美團在人工智能領(lǐng)域的「冰山一角」。 美團大腦打造大規(guī)模餐飲娛樂知識圖譜平臺 王仲遠表示,美團搜索、大眾點評搜索以及NLP中心都是放在一起的。這幾個重要的團隊之所以要放在一起,是因為在搜索中,NLP是一個非常關(guān)鍵且核心的技術(shù)。在過去兩年多的時間里,隨著美團組織架構(gòu)的不斷升級,美團NLP中心也開始和搜索部門并為一體。我們都知道,業(yè)界有非常多的AI Lab和AI平臺,但大家都面臨一個普遍的困境,即AI落地不達預期。而美團創(chuàng)造性地把AI團隊和業(yè)務(wù)平臺團隊直接放到一起,這就能使技術(shù)在第一時間進行驗證并快速進行落地。截止目前,美團及大眾點評的平臺上已有累計超過40億的用戶評價。在以往,這些數(shù)據(jù)只能安靜地躺在數(shù)據(jù)倉庫中「沉睡」,現(xiàn)在王仲遠帶領(lǐng)團隊通過美團的算力和算法,真正讓AI技術(shù)的研究有效地進行了落地。具體來說,美團除了外賣以外,還涉及到店餐飲、酒店、景點門票和電影票務(wù)等綜合性生活服務(wù)。近期,如果你在美團App中搜索「口罩」,就能看到附近藥店,距離你很近的快遞小哥也能像送餐一樣將口罩快速送達到你的手中。眾所周知,在移動互聯(lián)網(wǎng)之前的PC時代,人們有任何的需求幾乎都會在搜索引擎中去搜索。而在移動互聯(lián)網(wǎng)時代,搜索引擎實際上已經(jīng)被大大弱化了,其原因就是各種垂直App的數(shù)據(jù)在底層邏輯上并沒有實現(xiàn)互通。而美團憑借自身豐富的業(yè)務(wù)場景,有望打破這種「數(shù)據(jù)」孤立,并借此成為本地生活服務(wù)領(lǐng)域的一個超級App。王仲遠給我們舉了一個很簡單的例子,當用戶在美團搜索「水餃」時,他的需求其實是有很多種可能的:他可能是想叫一份水餃的外賣,也可能是想去店里吃堂食,還有可能是想買附近超市里的冷凍水餃,亦或是想查查水餃的做法,或在美團上買水餃的食材。這種多樣的搜索需求,是否都能在一個App實現(xiàn)呢?是的,美團可以滿足這些需求。王仲遠表示,現(xiàn)在美團搜索正在進行一項比較重大的改版,預計在2020年二季度會和大家見面。未來的美團搜索,將會成為一個本地生活服務(wù)領(lǐng)域的超級搜索引擎。屆時,用戶可以在美團App、大眾點評App上搜索任何關(guān)鍵詞。傳統(tǒng)上,大家會不自覺地在這兩個App上“小心翼翼”地挑選較短的搜索關(guān)鍵詞,比如「火鍋」、「烤串」、「麻辣燙」。但很快,用戶可以隨意表達他們的搜索需求。例如可以搜索「北京三里屯適合朋友聚餐的西餐廳」,或者「疫情期間最適合遛娃的景點」。這樣的話,用戶的體驗會得到非常明顯的提升。這背后是美團的NLP能力以及美團對于不同業(yè)務(wù)數(shù)據(jù)的高效整合能力在全力支撐。2018 年 5 月,王仲遠開始領(lǐng)導團隊構(gòu)建美團大規(guī)模餐飲娛樂知識圖譜的平臺——美團大腦。這個「大腦」充分挖掘、關(guān)聯(lián)各個場景數(shù)據(jù),使用 AI 算法讓機器「閱讀」用戶針對商戶的公開評論,理解用戶在菜品、價格、服務(wù)、環(huán)境等方面的喜好,構(gòu)建人、店、商品、場景之間的知識關(guān)聯(lián),從而形成一個「知識大腦」。目前,美團大腦目前包含了 33 類概念、30 億實體、1000 億三元組,這個知識關(guān)聯(lián)數(shù)量級已經(jīng)達到了世界級的規(guī)模。 美團BERT訓練本地生活服務(wù)模型 2018年10月,Google對外正式發(fā)布BERT模型,這也是自然語言處理領(lǐng)域近年最具突破性的進展之一。比爾·蓋茨曾說過:「自然語言處理是人工智能皇冠上的明珠?!瓜敫玫乩斫膺@句話,那么就得先來梳理下AI發(fā)展的脈絡(luò)。王仲遠歸納說,AI基本可以分為感知階段、認知階段和決策階段?;诋斍癆I技術(shù)演進趨勢,他重點介紹了對于AI感知和AI認知的看法。關(guān)于AI感知,人和動物都擁有視覺和聽覺,這種和大自然的交互,對應到AI技術(shù)便是視覺識別和語音識別。關(guān)于AI認知,據(jù)聯(lián)合國調(diào)查,世界語言十分復雜,專家估計大約有5000到7000種。而語言也是人類才有的一種交流工具。這也是NLP的難度,比視覺識別和語音識別更難的原因,所有的語言都是人類創(chuàng)造的,而每一種語言的創(chuàng)造方式都不一樣。這就導致NLP面臨一個巨大的困境,即同一套技術(shù),在中文上有效,在英文上未必有效。比如,分詞就是中文獨有的,英文根本不需要分詞,因為它本身就是以單詞的形式存在。并且即便同為中國人,對于分詞也會有不同的意見和理解。也正因此,NLP分出很多研究分支。此外,近些年隨著深度學習的爆發(fā)式增長,行業(yè)研究者也希望能夠挖掘出人類常用語言中的共同邏輯,這樣就能讓NLP實現(xiàn)跨語言處理。2018年11月,在Google提出BERT模型一個月后,美團于同年11月,成立秘密團隊——美團BERT。該團隊成立以來,一直在不斷研究和攻克美團在生活服務(wù)領(lǐng)域的技術(shù)難題。2019年,美團BERT取得長足的進展。該團隊使用幾百塊GPU和獨有數(shù)據(jù),訓練出一個本地生活服務(wù)的模型。帶給用戶的直接感受是,在美團和大眾點評中搜索一個詞語,系統(tǒng)的識別性變得越來越高。 MT-BERT整體技術(shù)框架2020年,微軟研究院發(fā)起學術(shù)評測Citation Intent Recognition,評測要求參賽者根據(jù)論文中對某項科研工作的描述,從論文庫中找出與該描述最匹配的Top3論文,美團搜索與NLP部與國內(nèi)兩所高校組隊,提出了一種基于BERT和LightGBM的多模融合檢索排序解決方案,一舉拿下WSDM Cup 2020 Task 1榜單第一名。此外,美團知識圖譜組在微軟MARCO比賽中,亦是排名榜首。自2018年比賽發(fā)布以來,知識圖譜組團隊所研發(fā)的深度閱讀理解TABLE模型在比賽指標 MRR@10上首次突破0.4,而該模型正是基于BERT的Listwise 排序模型,當時微軟官方Twitter還專門發(fā)推祝賀美團。 這對于王仲遠以及其團隊來說,都是一種莫大的鼓舞。此外,王仲遠也曾在國際相關(guān)的學術(shù)會議上發(fā)表過40多篇論文。盡管工作非常忙,他還是通過各種途徑學習,比如國際頂級會議上的學術(shù)論文,他一定會花時間仔細去閱讀。此外,美團技術(shù)團隊內(nèi)部也經(jīng)常有一些前沿技術(shù)分享會他也會不時去參加,通過各種途徑增加新知識。王仲遠認為,人工智能的發(fā)展既快又慢?!缚臁故且驗橹R更新非??欤f自己就曾看到很多面試者因為知識沒有跟上時代而慘遭淘汰?!嘎故且驗閺?940年人工智能首次被提出以來,至今經(jīng)過三起三落。2006年深度學習誕生,2012年人工智能進入爆發(fā)階段,但是至今八年的時間,仍有大量問題還沒有解決。近些年,各大互聯(lián)網(wǎng)廠商都在推出自己的人工智能小助手。這些小助手用來幫大家聽聽音樂、查查天氣以及定下鬧鐘都還可以,但是如果想對它有更大期望,還有很長的一段路要走,很多時候,我們會發(fā)現(xiàn)「人工智能」和「人工智障」有時只是一步之遙。這也說明,在人工智能領(lǐng)域,我們還是有很多技術(shù)亟待突破。這里要特別提一下,王仲遠博士之所以能對人工智能有這樣深刻的積累和解讀,也是得益于他多年對AI技術(shù)的專注以及積累。 閩地有才子,AI展才華 王仲遠出生于福建省仙游縣,成長在福建省永安市,得益于父親嚴厲的管理,再加上強大的自驅(qū)力,從小學習就非常優(yōu)秀,經(jīng)常拿到年級第一名。但是王仲遠的性格,卻帶著一種「寧靜致遠」的溫和,這點可能是受到性格慈和的母親的影響?!竾栏复饶浮沟拇钆洌醋屗膶W習得到很好的啟蒙。高考后,他順利考入中國人民大學。在碩士期間,王仲遠說自己有幸在孟小峰教授領(lǐng)導的WAMDM(網(wǎng)絡(luò)與移動數(shù)據(jù)管理)實驗室做項目,其中一個項目還獲得了SIGMOD07 Undergraduate Scholarship獎項,當年全球僅有7位獲獎成員。巧合的是,同樣獲得獎項的一位成員,還是王仲遠日后在Facebook的同事。 碩士畢業(yè)時,王仲遠冒險地婉拒百度、騰訊和 IBM 等眾多知名公司研究機構(gòu)的邀請,選擇堅持等待微軟亞洲研究院的Offer。王仲遠說自己很幸運,微軟亞洲研究院具備很多先天優(yōu)勢,在剛剛工作時就可以接觸到很多世界級的學者,了解各領(lǐng)域前沿研究已經(jīng)做到什么程度,無需摸著石頭過河。王仲遠在微軟亞洲研究院6年多,從校招生一直做到主管研究員,負責了微軟研究院知識圖譜項目和對話機器人項目。他一直專注于自然語言處理、知識圖譜及其在文本理解方面的研究,取得了不少成績,在國際頂級學術(shù)會議如 VLDB、ICDE、IJCAI、CIKM 等發(fā)表論文 40 余篇,并獲得 ICDE 2015 最佳論文獎。 后來,王仲遠在前同事的推薦下,遠程參加了Facebook的面試,為了這次面試,他元旦假期整整準備了三天的時間。幸運的是他還非常順利地拿到了工作簽證,這也讓他得以從國內(nèi)到硅谷工作,去看到更大的一片天空。到硅谷后,他感受到和微軟研究院完全不同的畫風,F(xiàn)acebook推行「Move Fast」文化,那里甚至沒有測試人員,產(chǎn)品上線極快、基本是一周一次。在 Facebook 工作期間,王仲遠所負責的一個項目是做實體鏈接,就是要把查詢(Query)和知識圖譜進行打通,這也是 NLP 領(lǐng)域一個非常重要的方向。短短半年的時間,效果就提升了80%左右,成為 Facebook內(nèi)部最重要同時也是世界上最先進的產(chǎn)品級實體鏈接服務(wù)?,F(xiàn)在Facebook 的搜索、推薦、廣告、智能助理等許多系統(tǒng)中,也在使用他此前負責的這些技術(shù)。幾年以后,王仲遠感覺中美兩國的人工智能,已經(jīng)來到同一個起跑線上,他帶著技術(shù)報國的想法回到中國,并選擇加入美團。他認為,AI技術(shù)想真正能夠落地,需要算力,需要數(shù)據(jù),需要算法模型,更需要豐富的應用場景。美團的應用場景豐富程度,遠超很多互聯(lián)網(wǎng)行業(yè)的同行。2019 年1月21日,《麻省理工科技評論》發(fā)布了 2018 年「35 歲以下科技創(chuàng)新 35 人」(35 Innovators Under 35)中國榜單,王仲遠獲評為「遠見者」。這就是王仲遠的「AI人生」,現(xiàn)在已經(jīng)描摹上濃重的色彩,未來必將更加明艷如春。 |
|
|