復(fù)旦數(shù)據(jù)院副院長(zhǎng)陽(yáng)德青：知識(shí)圖譜在個(gè)性化推薦系統(tǒng)中的應(yīng)用

知行合一ing 2019-02-17

展開(kāi)全文

來(lái)源：?jiǎn)⒌现巧虾?/p>

本文約2700字，建議閱讀5分鐘。

本文為你著重介紹基于知識(shí)圖譜的搜索與推薦方面的基本內(nèi)容和應(yīng)用，知識(shí)圖譜領(lǐng)域的研究及前沿技術(shù)。

我們幾乎每天都會(huì)收到各種各樣的推薦信息，從新聞購(gòu)物到吃飯娛樂(lè)個(gè)性化推薦系統(tǒng)作為一種信息過(guò)濾的重要手段，可以依據(jù)我們習(xí)慣和愛(ài)好推薦合適的服務(wù)，但傳統(tǒng)的推薦系統(tǒng)容易出現(xiàn)稀疏性和冷卻冷啟動(dòng)的問(wèn)題，而知識(shí)圖譜作為一種新興的輔助信息近幾年逐漸引起了研究人員的關(guān)注。本期創(chuàng)業(yè)沙龍有幸邀請(qǐng)到復(fù)旦大學(xué)大數(shù)據(jù)學(xué)院和大數(shù)據(jù)研究院副院長(zhǎng)、副教授陽(yáng)德青老師。陽(yáng)老師面向大數(shù)據(jù)學(xué)院、計(jì)算機(jī)學(xué)院和新聞學(xué)院的本科生、研究生講授過(guò)多門(mén)專(zhuān)業(yè)課程，包括《社交網(wǎng)絡(luò)挖掘》、《Java Web 應(yīng)用開(kāi)發(fā)》、《新媒體技術(shù)導(dǎo)論》等。這次本文為你著重介紹基于知識(shí)圖譜的搜索與推薦方面的基本內(nèi)容和應(yīng)用，知識(shí)圖譜領(lǐng)域的研究及前沿技術(shù)。

本次特邀嘉賓

復(fù)旦數(shù)據(jù)院副院長(zhǎng)陽(yáng)德青：知識(shí)圖譜在個(gè)性化推薦系統(tǒng)中的應(yīng)用

陽(yáng)德青

復(fù)旦大學(xué)大數(shù)據(jù)學(xué)院和大數(shù)據(jù)研究院

副院長(zhǎng)、副教授

2013年在復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院獲得計(jì)算機(jī)軟件與理論專(zhuān)業(yè)的博士學(xué)位。陽(yáng)老師的主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘、知識(shí)圖譜的構(gòu)建與應(yīng)用、推薦系統(tǒng)、社會(huì)網(wǎng)絡(luò)分析等，其研究成果論文先后在WWW、ICDM、CIKM、ECML等數(shù)據(jù)科學(xué)領(lǐng)域的國(guó)際頂尖學(xué)術(shù)會(huì)議上發(fā)表，并擁有多項(xiàng)發(fā)明專(zhuān)利。同時(shí)，他先后主持、參加了多項(xiàng)國(guó)家科技部、自科基金委、上海市科委、經(jīng)信委、教委等專(zhuān)項(xiàng)課題，并在與阿里、華為等科技公司的合作中取得了豐碩的實(shí)際應(yīng)用成果。此外，陽(yáng)老師先后擔(dān)任過(guò)復(fù)旦大學(xué)學(xué)生工作部、研究說(shuō)工作部副部長(zhǎng)和學(xué)生職業(yè)發(fā)展教育服務(wù)中心主任，具有豐富的學(xué)生管理和大學(xué)生雙創(chuàng)指導(dǎo)經(jīng)驗(yàn)。

一、知識(shí)圖譜的基本概念

什么是知識(shí)圖譜呢？

知識(shí)圖譜是由一條條知識(shí)組成，每條知識(shí)表示為一個(gè)SPO三元組(Subject-Predicate-Object)。形式化的進(jìn)行解釋?zhuān)?strong>知識(shí)圖譜是一種海量知識(shí)表征形式，蘊(yùn)含了各類(lèi)實(shí)體、概念及其間的各種語(yǔ)義關(guān)系。通俗來(lái)講就是一種數(shù)據(jù)庫(kù)，本質(zhì)上就是一種語(yǔ)義網(wǎng)路。相比于傳統(tǒng)語(yǔ)義網(wǎng)絡(luò)，知識(shí)圖譜具有更高的實(shí)體、概念覆蓋率，更為豐富的語(yǔ)義關(guān)系，自動(dòng)化構(gòu)建程度高以及較高的數(shù)據(jù)質(zhì)量等。它研究的意義在于為語(yǔ)義匹配（消除語(yǔ)義鴻溝）、實(shí)現(xiàn)機(jī)器智腦提供了豐富的背景知識(shí)。

復(fù)旦數(shù)據(jù)院副院長(zhǎng)陽(yáng)德青：知識(shí)圖譜在個(gè)性化推薦系統(tǒng)中的應(yīng)用

二、基于傳統(tǒng)知識(shí)的推薦

了解傳統(tǒng)知識(shí)推薦的特點(diǎn)和缺點(diǎn)，才可以更清晰的明白知識(shí)圖譜產(chǎn)生的必要性，更精準(zhǔn)的把握知識(shí)圖譜的特質(zhì)，怎么樣做到智能推薦。

復(fù)旦數(shù)據(jù)院副院長(zhǎng)陽(yáng)德青：知識(shí)圖譜在個(gè)性化推薦系統(tǒng)中的應(yīng)用

1.基于知識(shí)的傳統(tǒng)推薦

主要分為兩種：

基于約束的知識(shí)化推薦通過(guò)用戶的輸入限定物品屬性值形成規(guī)則集合，形成候選物品的范圍約束——關(guān)于用戶的知識(shí)。類(lèi)似于輸入條件的查詢。
基于個(gè)案的知識(shí)化推薦是先通過(guò)某種算法產(chǎn)生一組候選物品給用戶選擇，將用戶的選擇作為參照物，再通過(guò)物品間的相似性計(jì)算找出其他與參照物品高度相似的候選物品，再讓用戶進(jìn)一步選擇，多次與用戶的迭代交互，直至最終產(chǎn)生用戶最想要的物品。類(lèi)似問(wèn)答式的搜索。

2.傳統(tǒng)推薦算法的挑戰(zhàn)

基于協(xié)同過(guò)濾的弊端

·冷啟動(dòng) ·數(shù)據(jù)稀疏 ·可擴(kuò)展性

當(dāng)一個(gè)新用戶進(jìn)入一個(gè)網(wǎng)絡(luò)時(shí)，我們對(duì)他的興趣愛(ài)好還一無(wú)所知，這時(shí)如何做出推薦是一個(gè)很重要的問(wèn)題。一般在這個(gè)時(shí)候，我們只是向用戶推薦那寫(xiě)普遍反映比較好的物品，也就是說(shuō)，推薦完全是基于物品的。

新用戶問(wèn)題還有一個(gè)變種就是長(zhǎng)尾(long tail)問(wèn)題，在Amazon中，不是所有的用戶都對(duì)很多書(shū)給出了評(píng)分，很多用戶只給少數(shù)的書(shū)給出了評(píng)分，這些用戶就處在一個(gè)長(zhǎng)尾中，如何處理那些不太表露自己興趣的用戶，也是推薦系統(tǒng)的一個(gè)主要問(wèn)題。

基于內(nèi)容的弊端

·特征描述 ·同義/多義詞 ·“十面埋伏”是電影？小說(shuō)？還是成語(yǔ)？ ·結(jié)果的同質(zhì)性（缺乏多樣性）

在物品知識(shí)的獲取上，系統(tǒng)需要人工構(gòu)建知識(shí)，對(duì)長(zhǎng)尾實(shí)體的覆蓋有限。
在用戶知識(shí)的獲取上，系統(tǒng)需要用戶輸入信息，甚至要反復(fù)交互，體驗(yàn)感差。

3.推薦系統(tǒng)中引入知識(shí)圖譜的優(yōu)勢(shì)

首先，能夠提高推薦的精確性。知識(shí)圖譜中蘊(yùn)含了用品直接豐富的語(yǔ)義信息，能夠更好的發(fā)現(xiàn)用戶的興趣點(diǎn)。

其次，還能提高推薦的多樣性。在很多的推薦場(chǎng)景中，比如新聞推薦，我們知道多樣性是一個(gè)很大的問(wèn)題，我們很容易發(fā)現(xiàn)推薦算法發(fā)現(xiàn)了你的興趣點(diǎn)之后，給你推薦的東西越來(lái)越像，比如你點(diǎn)了幾個(gè)NBA的新聞，后面來(lái)的全是NBA新聞，一開(kāi)始可能覺(jué)得還不錯(cuò)，時(shí)間稍微長(zhǎng)一點(diǎn)，就會(huì)覺(jué)得厭煩了，閱讀的視野也會(huì)越來(lái)越窄。這是因?yàn)楹芏嗨惴ㄊ歉鶕?jù)文本里面抽取出來(lái)的關(guān)鍵字和主題來(lái)猜測(cè)用戶偏好，這樣推薦的時(shí)候就會(huì)產(chǎn)生比較類(lèi)似的結(jié)果。

而知識(shí)圖譜作為一種全局信息，里面有豐富的語(yǔ)義信息，每個(gè)物品對(duì)應(yīng)的節(jié)點(diǎn)通常都能擴(kuò)散到很多其他的信息節(jié)點(diǎn)上去，比如用戶喜歡霸王別姬這部電影，可能是因?yàn)橹餮荨㈩}材或者導(dǎo)演，每種都有可能，推薦的時(shí)候就不會(huì)過(guò)于集中到一種類(lèi)型中去，增加了多樣性。

第三，能增加推薦的可解釋性?？山忉屝允峭扑]系統(tǒng)的非常重要的因素，其重要性甚至在很多場(chǎng)景中要遠(yuǎn)遠(yuǎn)大于推薦的準(zhǔn)確性等效果指標(biāo)，可以被很好解釋的推薦系統(tǒng)才能增加用戶對(duì)系統(tǒng)的信任感。

那么實(shí)現(xiàn)一個(gè)好的推薦關(guān)鍵在于什么？去做好物品和用戶的畫(huà)像，這兩個(gè)畫(huà)像尋找準(zhǔn)確之后他們特征就可以精準(zhǔn)的把握，然后去找一些匹配的算法，那這樣的結(jié)果就是就八九不離十了。以及一些比較有挑戰(zhàn)的，比如說(shuō)跨領(lǐng)域的推薦。

三、基于知識(shí)圖譜的物品畫(huà)像

顯式畫(huà)像：從知識(shí)圖譜中直接找到的關(guān)聯(lián)（例如兩部電影的共同屬性）作為刻畫(huà)兩個(gè)物品相關(guān)性的依據(jù)。有基于向量空間模式和基于異構(gòu)信息網(wǎng)絡(luò)兩種模式。

復(fù)旦數(shù)據(jù)院副院長(zhǎng)陽(yáng)德青：知識(shí)圖譜在個(gè)性化推薦系統(tǒng)中的應(yīng)用

為每種屬性生成一個(gè)表示向量，每一維對(duì)應(yīng)該屬性的某個(gè)值的權(quán)重。例如，電影的演員屬性可以表示成一個(gè)向量，第一維的值可以是第1號(hào)演員對(duì)該電影的TF-IDF權(quán)重值。

復(fù)旦數(shù)據(jù)院副院長(zhǎng)陽(yáng)德青：知識(shí)圖譜在個(gè)性化推薦系統(tǒng)中的應(yīng)用

將物品和其每種屬性值對(duì)應(yīng)的實(shí)體都表示成異構(gòu)信息網(wǎng)絡(luò)的一類(lèi)結(jié)點(diǎn)，它們之間構(gòu)成各種類(lèi)型的邊。例如，每部電影和其每個(gè)演員都由一條表示“參演”的邊相連。

不同物品間會(huì)共享某些屬性對(duì)應(yīng)的實(shí)體，所以會(huì)有一條經(jīng)過(guò)該共享實(shí)體的元路徑meta-path將兩個(gè)物品相連。例如，成龍主演的不同電影之間都通過(guò)一條“電影-演員(成龍)-電影”的元路徑相連

由不同類(lèi)型的元路徑相連的兩個(gè)物品都具有一定的相似度。

隱式畫(huà)像：利用基于深度神經(jīng)網(wǎng)絡(luò)的嵌入embedding向量來(lái)表示物品，物品間的相似度計(jì)算基于其對(duì)應(yīng)嵌入向量在向量空間中的距離。有基于隨機(jī)游走的圖嵌入(graph embedding)和基于KG embedding兩種模型。

復(fù)旦數(shù)據(jù)院副院長(zhǎng)陽(yáng)德青：知識(shí)圖譜在個(gè)性化推薦系統(tǒng)中的應(yīng)用

四、基于知識(shí)圖譜的用戶畫(huà)像

基于概念標(biāo)簽的用戶畫(huà)像

·算法目標(biāo)：根據(jù)輸入一組標(biāo)簽（詞袋），生成的概念標(biāo)簽數(shù)盡量少，同時(shí)在語(yǔ)義上盡量全地覆蓋所有原始標(biāo)簽的語(yǔ)義。

復(fù)旦數(shù)據(jù)院副院長(zhǎng)陽(yáng)德青：知識(shí)圖譜在個(gè)性化推薦系統(tǒng)中的應(yīng)用

利用記憶網(wǎng)絡(luò)存儲(chǔ)刻畫(huà)用戶對(duì)物品屬性的偏好特征，比純基于用戶歷史上的偏好物品刻畫(huà)用戶特征要更加準(zhǔn)確、豐富。

五、基于知識(shí)圖譜的跨領(lǐng)域推薦

跨領(lǐng)域推薦的主要任務(wù)

·緩解冷啟動(dòng)問(wèn)題，為新用戶推薦提供選擇和幫助提高推薦精準(zhǔn)度，緩解數(shù)據(jù)稀疏問(wèn)題 ·增加推薦多樣性

跨領(lǐng)域推薦面臨的挑戰(zhàn)

·數(shù)據(jù)海量性 ·數(shù)據(jù)異構(gòu)性 ·數(shù)據(jù)稀疏性 ·數(shù)據(jù)相依性數(shù)據(jù)低質(zhì)性

復(fù)旦數(shù)據(jù)院副院長(zhǎng)陽(yáng)德青：知識(shí)圖譜在個(gè)性化推薦系統(tǒng)中的應(yīng)用

主流的跨領(lǐng)域推薦算法

基于協(xié)同過(guò)濾 ·基于語(yǔ)義關(guān)系 ·基于深度學(xué)習(xí)

實(shí)現(xiàn)跨領(lǐng)域推薦的關(guān)鍵假設(shè)

用戶的興趣偏好或項(xiàng)目特征在領(lǐng)域之間存在一致性或相關(guān)性（通過(guò)知識(shí)圖譜發(fā)現(xiàn)）

復(fù)旦數(shù)據(jù)院副院長(zhǎng)陽(yáng)德青：知識(shí)圖譜在個(gè)性化推薦系統(tǒng)中的應(yīng)用

— 完 —

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：知行合一ing > 《待分類(lèi)》

舉報(bào)/認(rèn)領(lǐng)