小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

復(fù)旦數(shù)據(jù)院副院長(zhǎng)陽(yáng)德青:知識(shí)圖譜在個(gè)性化推薦系統(tǒng)中的應(yīng)用

 知行合一ing 2019-02-17

來(lái)源:?jiǎn)⒌现巧虾?/p>

本文約2700字,建議閱讀5分鐘。

本文為你著重介紹基于知識(shí)圖譜的搜索與推薦方面的基本內(nèi)容和應(yīng)用,知識(shí)圖譜領(lǐng)域的研究及前沿技術(shù)。

我們幾乎每天都會(huì)收到各種各樣的推薦信息,從新聞購(gòu)物到吃飯娛樂(lè)個(gè)性化推薦系統(tǒng)作為一種信息過(guò)濾的重要手段,可以依據(jù)我們習(xí)慣和愛(ài)好推薦合適的服務(wù),但傳統(tǒng)的推薦系統(tǒng)容易出現(xiàn)稀疏性和冷卻冷啟動(dòng)的問(wèn)題,而知識(shí)圖譜作為一種新興的輔助信息近幾年逐漸引起了研究人員的關(guān)注。本期創(chuàng)業(yè)沙龍有幸邀請(qǐng)到復(fù)旦大學(xué)大數(shù)據(jù)學(xué)院和大數(shù)據(jù)研究院副院長(zhǎng)、副教授陽(yáng)德青老師。陽(yáng)老師面向大數(shù)據(jù)學(xué)院、計(jì)算機(jī)學(xué)院和新聞學(xué)院的本科生、研究生講授過(guò)多門(mén)專(zhuān)業(yè)課程,包括《社交網(wǎng)絡(luò)挖掘》、《Java Web 應(yīng)用開(kāi)發(fā)》、《新媒體技術(shù)導(dǎo)論》等。這次本文為你著重介紹基于知識(shí)圖譜的搜索與推薦方面的基本內(nèi)容和應(yīng)用,知識(shí)圖譜領(lǐng)域的研究及前沿技術(shù)。

本次特邀嘉賓

復(fù)旦數(shù)據(jù)院副院長(zhǎng)陽(yáng)德青:知識(shí)圖譜在個(gè)性化推薦系統(tǒng)中的應(yīng)用


陽(yáng)德青

復(fù)旦大學(xué)大數(shù)據(jù)學(xué)院和大數(shù)據(jù)研究院

副院長(zhǎng)、副教授


2013年在復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院獲得計(jì)算機(jī)軟件與理論專(zhuān)業(yè)的博士學(xué)位。陽(yáng)老師的主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘、知識(shí)圖譜的構(gòu)建與應(yīng)用、推薦系統(tǒng)、社會(huì)網(wǎng)絡(luò)分析等,其研究成果論文先后在WWW、ICDM、CIKM、ECML等數(shù)據(jù)科學(xué)領(lǐng)域的國(guó)際頂尖學(xué)術(shù)會(huì)議上發(fā)表,并擁有多項(xiàng)發(fā)明專(zhuān)利。同時(shí),他先后主持、參加了多項(xiàng)國(guó)家科技部、自科基金委、上海市科委、經(jīng)信委、教委等專(zhuān)項(xiàng)課題,并在與阿里、華為等科技公司的合作中取得了豐碩的實(shí)際應(yīng)用成果。此外,陽(yáng)老師先后擔(dān)任過(guò)復(fù)旦大學(xué)學(xué)生工作部、研究說(shuō)工作部副部長(zhǎng)和學(xué)生職業(yè)發(fā)展教育服務(wù)中心主任,具有豐富的學(xué)生管理和大學(xué)生雙創(chuàng)指導(dǎo)經(jīng)驗(yàn)。


一、知識(shí)圖譜的基本概念


什么是知識(shí)圖譜呢?

知識(shí)圖譜是由一條條知識(shí)組成,每條知識(shí)表示為一個(gè)SPO三元組(Subject-Predicate-Object)。形式化的進(jìn)行解釋?zhuān)?strong>知識(shí)圖譜是一種海量知識(shí)表征形式,蘊(yùn)含了各類(lèi)實(shí)體、概念及其間的各種語(yǔ)義關(guān)系。通俗來(lái)講就是一種數(shù)據(jù)庫(kù),本質(zhì)上就是一種語(yǔ)義網(wǎng)路。相比于傳統(tǒng)語(yǔ)義網(wǎng)絡(luò),知識(shí)圖譜具有更高的實(shí)體、概念覆蓋率,更為豐富的語(yǔ)義關(guān)系,自動(dòng)化構(gòu)建程度高以及較高的數(shù)據(jù)質(zhì)量等。它研究的意義在于為語(yǔ)義匹配(消除語(yǔ)義鴻溝)、實(shí)現(xiàn)機(jī)器智腦提供了豐富的背景知識(shí)。


復(fù)旦數(shù)據(jù)院副院長(zhǎng)陽(yáng)德青:知識(shí)圖譜在個(gè)性化推薦系統(tǒng)中的應(yīng)用


二、基于傳統(tǒng)知識(shí)的推薦


了解傳統(tǒng)知識(shí)推薦的特點(diǎn)和缺點(diǎn),才可以更清晰的明白知識(shí)圖譜產(chǎn)生的必要性,更精準(zhǔn)的把握知識(shí)圖譜的特質(zhì),怎么樣做到智能推薦。


復(fù)旦數(shù)據(jù)院副院長(zhǎng)陽(yáng)德青:知識(shí)圖譜在個(gè)性化推薦系統(tǒng)中的應(yīng)用



1.基于知識(shí)的傳統(tǒng)推薦

主要分為兩種:

  • 基于約束的知識(shí)化推薦通過(guò)用戶的輸入限定物品屬性值形成規(guī)則集合,形成候選物品的范圍約束——關(guān)于用戶的知識(shí)。類(lèi)似于輸入條件的查詢。
  • 基于個(gè)案的知識(shí)化推薦是先通過(guò)某種算法產(chǎn)生一組候選物品給用戶選擇,將用戶的選擇作為參照物,再通過(guò)物品間的相似性計(jì)算找出其他與參照物品高度相似的候選物品,再讓用戶進(jìn)一步選擇,多次與用戶的迭代交互,直至最終產(chǎn)生用戶最想要的物品。類(lèi)似問(wèn)答式的搜索。


2.傳統(tǒng)推薦算法的挑戰(zhàn)

基于協(xié)同過(guò)濾的弊端

·冷啟動(dòng) ·數(shù)據(jù)稀疏 ·可擴(kuò)展性

當(dāng)一個(gè)新用戶進(jìn)入一個(gè)網(wǎng)絡(luò)時(shí),我們對(duì)他的興趣愛(ài)好還一無(wú)所知,這時(shí)如何做出推薦是一個(gè)很重要的問(wèn)題。一般在這個(gè)時(shí)候,我們只是向用戶推薦那寫(xiě)普遍反映比較好的物品,也就是說(shuō),推薦完全是基于物品的。

新用戶問(wèn)題還有一個(gè)變種就是長(zhǎng)尾(long tail)問(wèn)題,在Amazon中,不是所有的用戶都對(duì)很多書(shū)給出了評(píng)分,很多用戶只給少數(shù)的書(shū)給出了評(píng)分,這些用戶就處在一個(gè)長(zhǎng)尾中,如何處理那些不太表露自己興趣的用戶,也是推薦系統(tǒng)的一個(gè)主要問(wèn)題。

基于內(nèi)容的弊端

·特征描述 ·同義/多義詞 ·“十面埋伏”是電影?小說(shuō)?還是成語(yǔ)? ·結(jié)果的同質(zhì)性(缺乏多樣性)

  • 在物品知識(shí)的獲取上,系統(tǒng)需要人工構(gòu)建知識(shí),對(duì)長(zhǎng)尾實(shí)體的覆蓋有限。
  • 在用戶知識(shí)的獲取上,系統(tǒng)需要用戶輸入信息,甚至要反復(fù)交互,體驗(yàn)感差。


3.推薦系統(tǒng)中引入知識(shí)圖譜的優(yōu)勢(shì)

首先,能夠提高推薦的精確性。知識(shí)圖譜中蘊(yùn)含了用品直接豐富的語(yǔ)義信息,能夠更好的發(fā)現(xiàn)用戶的興趣點(diǎn)。

其次,還能提高推薦的多樣性。在很多的推薦場(chǎng)景中,比如新聞推薦,我們知道多樣性是一個(gè)很大的問(wèn)題,我們很容易發(fā)現(xiàn)推薦算法發(fā)現(xiàn)了你的興趣點(diǎn)之后,給你推薦的東西越來(lái)越像,比如你點(diǎn)了幾個(gè)NBA的新聞,后面來(lái)的全是NBA新聞,一開(kāi)始可能覺(jué)得還不錯(cuò),時(shí)間稍微長(zhǎng)一點(diǎn),就會(huì)覺(jué)得厭煩了,閱讀的視野也會(huì)越來(lái)越窄。這是因?yàn)楹芏嗨惴ㄊ歉鶕?jù)文本里面抽取出來(lái)的關(guān)鍵字和主題來(lái)猜測(cè)用戶偏好,這樣推薦的時(shí)候就會(huì)產(chǎn)生比較類(lèi)似的結(jié)果。

而知識(shí)圖譜作為一種全局信息,里面有豐富的語(yǔ)義信息,每個(gè)物品對(duì)應(yīng)的節(jié)點(diǎn)通常都能擴(kuò)散到很多其他的信息節(jié)點(diǎn)上去,比如用戶喜歡霸王別姬這部電影,可能是因?yàn)橹餮荨㈩}材或者導(dǎo)演,每種都有可能,推薦的時(shí)候就不會(huì)過(guò)于集中到一種類(lèi)型中去,增加了多樣性。

第三,能增加推薦的可解釋性??山忉屝允峭扑]系統(tǒng)的非常重要的因素,其重要性甚至在很多場(chǎng)景中要遠(yuǎn)遠(yuǎn)大于推薦的準(zhǔn)確性等效果指標(biāo),可以被很好解釋的推薦系統(tǒng)才能增加用戶對(duì)系統(tǒng)的信任感。

那么實(shí)現(xiàn)一個(gè)好的推薦關(guān)鍵在于什么?去做好物品和用戶的畫(huà)像,這兩個(gè)畫(huà)像尋找準(zhǔn)確之后他們特征就可以精準(zhǔn)的把握,然后去找一些匹配的算法,那這樣的結(jié)果就是就八九不離十了。以及一些比較有挑戰(zhàn)的,比如說(shuō)跨領(lǐng)域的推薦。


三、基于知識(shí)圖譜的物品畫(huà)像


顯式畫(huà)像:從知識(shí)圖譜中直接找到的關(guān)聯(lián)(例如兩部電影的共同屬性)作為刻畫(huà)兩個(gè)物品相關(guān)性的依據(jù)。有基于向量空間模式和基于異構(gòu)信息網(wǎng)絡(luò)兩種模式。


復(fù)旦數(shù)據(jù)院副院長(zhǎng)陽(yáng)德青:知識(shí)圖譜在個(gè)性化推薦系統(tǒng)中的應(yīng)用



為每種屬性生成一個(gè)表示向量,每一維對(duì)應(yīng)該屬性的某個(gè)值的權(quán)重。例如,電影的演員屬性可以表示成一個(gè)向量,第一維的值可以是第1號(hào)演員對(duì)該電影的TF-IDF權(quán)重值。

復(fù)旦數(shù)據(jù)院副院長(zhǎng)陽(yáng)德青:知識(shí)圖譜在個(gè)性化推薦系統(tǒng)中的應(yīng)用


將物品和其每種屬性值對(duì)應(yīng)的實(shí)體都表示成異構(gòu)信息網(wǎng)絡(luò)的一類(lèi)結(jié)點(diǎn),它們之間構(gòu)成各種類(lèi)型的邊。例如,每部電影和其每個(gè)演員都由一條表示“參演”的邊相連。

不同物品間會(huì)共享某些屬性對(duì)應(yīng)的實(shí)體,所以會(huì)有一條經(jīng)過(guò)該共享實(shí)體的元路徑meta-path將兩個(gè)物品相連。例如,成龍主演的不同電影之間都通過(guò)一條“電影-演員(成龍)-電影”的元路徑相連

由不同類(lèi)型的元路徑相連的兩個(gè)物品都具有一定的相似度。

隱式畫(huà)像:利用基于深度神經(jīng)網(wǎng)絡(luò)的嵌入embedding向量來(lái)表示物品,物品間的相似度計(jì)算基于其對(duì)應(yīng)嵌入向量在向量空間中的距離。有基于隨機(jī)游走的圖嵌入(graph embedding)和基于KG embedding兩種模型。


復(fù)旦數(shù)據(jù)院副院長(zhǎng)陽(yáng)德青:知識(shí)圖譜在個(gè)性化推薦系統(tǒng)中的應(yīng)用


復(fù)旦數(shù)據(jù)院副院長(zhǎng)陽(yáng)德青:知識(shí)圖譜在個(gè)性化推薦系統(tǒng)中的應(yīng)用



四、基于知識(shí)圖譜的用戶畫(huà)像


基于概念標(biāo)簽的用戶畫(huà)像

·算法目標(biāo):根據(jù)輸入一組標(biāo)簽(詞袋),生成的概念標(biāo)簽數(shù)盡量少,同時(shí)在語(yǔ)義上盡量全地覆蓋所有原始標(biāo)簽的語(yǔ)義。


復(fù)旦數(shù)據(jù)院副院長(zhǎng)陽(yáng)德青:知識(shí)圖譜在個(gè)性化推薦系統(tǒng)中的應(yīng)用



利用記憶網(wǎng)絡(luò)存儲(chǔ)刻畫(huà)用戶對(duì)物品屬性的偏好特征,比純基于用戶歷史上的偏好物品刻畫(huà)用戶特征要更加準(zhǔn)確、豐富。


五、基于知識(shí)圖譜的跨領(lǐng)域推薦


跨領(lǐng)域推薦的主要任務(wù)

·緩解冷啟動(dòng)問(wèn)題,為新用戶推薦提供選擇和幫助提高推薦精準(zhǔn)度,緩解數(shù)據(jù)稀疏問(wèn)題 ·增加推薦多樣性

跨領(lǐng)域推薦面臨的挑戰(zhàn)

·數(shù)據(jù)海量性 ·數(shù)據(jù)異構(gòu)性 ·數(shù)據(jù)稀疏性 ·數(shù)據(jù)相依性數(shù)據(jù)低質(zhì)性


復(fù)旦數(shù)據(jù)院副院長(zhǎng)陽(yáng)德青:知識(shí)圖譜在個(gè)性化推薦系統(tǒng)中的應(yīng)用


主流的跨領(lǐng)域推薦算法

基于協(xié)同過(guò)濾 ·基于語(yǔ)義關(guān)系 ·基于深度學(xué)習(xí)

實(shí)現(xiàn)跨領(lǐng)域推薦的關(guān)鍵假設(shè)

用戶的興趣偏好或項(xiàng)目特征在領(lǐng)域之間存在一致性或相關(guān)性(通過(guò)知識(shí)圖譜發(fā)現(xiàn))


復(fù)旦數(shù)據(jù)院副院長(zhǎng)陽(yáng)德青:知識(shí)圖譜在個(gè)性化推薦系統(tǒng)中的應(yīng)用


— 完 —

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章 更多