|
來(lái)源:?jiǎn)⒌现巧虾?/p> 本文約2700字,建議閱讀5分鐘。 本文為你著重介紹基于知識(shí)圖譜的搜索與推薦方面的基本內(nèi)容和應(yīng)用,知識(shí)圖譜領(lǐng)域的研究及前沿技術(shù)。 我們幾乎每天都會(huì)收到各種各樣的推薦信息,從新聞購(gòu)物到吃飯娛樂(lè)個(gè)性化推薦系統(tǒng)作為一種信息過(guò)濾的重要手段,可以依據(jù)我們習(xí)慣和愛(ài)好推薦合適的服務(wù),但傳統(tǒng)的推薦系統(tǒng)容易出現(xiàn)稀疏性和冷卻冷啟動(dòng)的問(wèn)題,而知識(shí)圖譜作為一種新興的輔助信息近幾年逐漸引起了研究人員的關(guān)注。本期創(chuàng)業(yè)沙龍有幸邀請(qǐng)到復(fù)旦大學(xué)大數(shù)據(jù)學(xué)院和大數(shù)據(jù)研究院副院長(zhǎng)、副教授陽(yáng)德青老師。陽(yáng)老師面向大數(shù)據(jù)學(xué)院、計(jì)算機(jī)學(xué)院和新聞學(xué)院的本科生、研究生講授過(guò)多門(mén)專(zhuān)業(yè)課程,包括《社交網(wǎng)絡(luò)挖掘》、《Java Web 應(yīng)用開(kāi)發(fā)》、《新媒體技術(shù)導(dǎo)論》等。這次本文為你著重介紹基于知識(shí)圖譜的搜索與推薦方面的基本內(nèi)容和應(yīng)用,知識(shí)圖譜領(lǐng)域的研究及前沿技術(shù)。 本次特邀嘉賓 陽(yáng)德青 復(fù)旦大學(xué)大數(shù)據(jù)學(xué)院和大數(shù)據(jù)研究院 副院長(zhǎng)、副教授 2013年在復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院獲得計(jì)算機(jī)軟件與理論專(zhuān)業(yè)的博士學(xué)位。陽(yáng)老師的主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘、知識(shí)圖譜的構(gòu)建與應(yīng)用、推薦系統(tǒng)、社會(huì)網(wǎng)絡(luò)分析等,其研究成果論文先后在WWW、ICDM、CIKM、ECML等數(shù)據(jù)科學(xué)領(lǐng)域的國(guó)際頂尖學(xué)術(shù)會(huì)議上發(fā)表,并擁有多項(xiàng)發(fā)明專(zhuān)利。同時(shí),他先后主持、參加了多項(xiàng)國(guó)家科技部、自科基金委、上海市科委、經(jīng)信委、教委等專(zhuān)項(xiàng)課題,并在與阿里、華為等科技公司的合作中取得了豐碩的實(shí)際應(yīng)用成果。此外,陽(yáng)老師先后擔(dān)任過(guò)復(fù)旦大學(xué)學(xué)生工作部、研究說(shuō)工作部副部長(zhǎng)和學(xué)生職業(yè)發(fā)展教育服務(wù)中心主任,具有豐富的學(xué)生管理和大學(xué)生雙創(chuàng)指導(dǎo)經(jīng)驗(yàn)。 一、知識(shí)圖譜的基本概念什么是知識(shí)圖譜呢? 知識(shí)圖譜是由一條條知識(shí)組成,每條知識(shí)表示為一個(gè)SPO三元組(Subject-Predicate-Object)。形式化的進(jìn)行解釋?zhuān)?strong>知識(shí)圖譜是一種海量知識(shí)表征形式,蘊(yùn)含了各類(lèi)實(shí)體、概念及其間的各種語(yǔ)義關(guān)系。通俗來(lái)講就是一種數(shù)據(jù)庫(kù),本質(zhì)上就是一種語(yǔ)義網(wǎng)路。相比于傳統(tǒng)語(yǔ)義網(wǎng)絡(luò),知識(shí)圖譜具有更高的實(shí)體、概念覆蓋率,更為豐富的語(yǔ)義關(guān)系,自動(dòng)化構(gòu)建程度高以及較高的數(shù)據(jù)質(zhì)量等。它研究的意義在于為語(yǔ)義匹配(消除語(yǔ)義鴻溝)、實(shí)現(xiàn)機(jī)器智腦提供了豐富的背景知識(shí)。 二、基于傳統(tǒng)知識(shí)的推薦了解傳統(tǒng)知識(shí)推薦的特點(diǎn)和缺點(diǎn),才可以更清晰的明白知識(shí)圖譜產(chǎn)生的必要性,更精準(zhǔn)的把握知識(shí)圖譜的特質(zhì),怎么樣做到智能推薦。 1.基于知識(shí)的傳統(tǒng)推薦 主要分為兩種:
2.傳統(tǒng)推薦算法的挑戰(zhàn) 基于協(xié)同過(guò)濾的弊端 ·冷啟動(dòng) ·數(shù)據(jù)稀疏 ·可擴(kuò)展性 當(dāng)一個(gè)新用戶進(jìn)入一個(gè)網(wǎng)絡(luò)時(shí),我們對(duì)他的興趣愛(ài)好還一無(wú)所知,這時(shí)如何做出推薦是一個(gè)很重要的問(wèn)題。一般在這個(gè)時(shí)候,我們只是向用戶推薦那寫(xiě)普遍反映比較好的物品,也就是說(shuō),推薦完全是基于物品的。 新用戶問(wèn)題還有一個(gè)變種就是長(zhǎng)尾(long tail)問(wèn)題,在Amazon中,不是所有的用戶都對(duì)很多書(shū)給出了評(píng)分,很多用戶只給少數(shù)的書(shū)給出了評(píng)分,這些用戶就處在一個(gè)長(zhǎng)尾中,如何處理那些不太表露自己興趣的用戶,也是推薦系統(tǒng)的一個(gè)主要問(wèn)題。 基于內(nèi)容的弊端 ·特征描述 ·同義/多義詞 ·“十面埋伏”是電影?小說(shuō)?還是成語(yǔ)? ·結(jié)果的同質(zhì)性(缺乏多樣性)
3.推薦系統(tǒng)中引入知識(shí)圖譜的優(yōu)勢(shì) 首先,能夠提高推薦的精確性。知識(shí)圖譜中蘊(yùn)含了用品直接豐富的語(yǔ)義信息,能夠更好的發(fā)現(xiàn)用戶的興趣點(diǎn)。 其次,還能提高推薦的多樣性。在很多的推薦場(chǎng)景中,比如新聞推薦,我們知道多樣性是一個(gè)很大的問(wèn)題,我們很容易發(fā)現(xiàn)推薦算法發(fā)現(xiàn)了你的興趣點(diǎn)之后,給你推薦的東西越來(lái)越像,比如你點(diǎn)了幾個(gè)NBA的新聞,后面來(lái)的全是NBA新聞,一開(kāi)始可能覺(jué)得還不錯(cuò),時(shí)間稍微長(zhǎng)一點(diǎn),就會(huì)覺(jué)得厭煩了,閱讀的視野也會(huì)越來(lái)越窄。這是因?yàn)楹芏嗨惴ㄊ歉鶕?jù)文本里面抽取出來(lái)的關(guān)鍵字和主題來(lái)猜測(cè)用戶偏好,這樣推薦的時(shí)候就會(huì)產(chǎn)生比較類(lèi)似的結(jié)果。 而知識(shí)圖譜作為一種全局信息,里面有豐富的語(yǔ)義信息,每個(gè)物品對(duì)應(yīng)的節(jié)點(diǎn)通常都能擴(kuò)散到很多其他的信息節(jié)點(diǎn)上去,比如用戶喜歡霸王別姬這部電影,可能是因?yàn)橹餮荨㈩}材或者導(dǎo)演,每種都有可能,推薦的時(shí)候就不會(huì)過(guò)于集中到一種類(lèi)型中去,增加了多樣性。 第三,能增加推薦的可解釋性??山忉屝允峭扑]系統(tǒng)的非常重要的因素,其重要性甚至在很多場(chǎng)景中要遠(yuǎn)遠(yuǎn)大于推薦的準(zhǔn)確性等效果指標(biāo),可以被很好解釋的推薦系統(tǒng)才能增加用戶對(duì)系統(tǒng)的信任感。 那么實(shí)現(xiàn)一個(gè)好的推薦關(guān)鍵在于什么?去做好物品和用戶的畫(huà)像,這兩個(gè)畫(huà)像尋找準(zhǔn)確之后他們特征就可以精準(zhǔn)的把握,然后去找一些匹配的算法,那這樣的結(jié)果就是就八九不離十了。以及一些比較有挑戰(zhàn)的,比如說(shuō)跨領(lǐng)域的推薦。 三、基于知識(shí)圖譜的物品畫(huà)像顯式畫(huà)像:從知識(shí)圖譜中直接找到的關(guān)聯(lián)(例如兩部電影的共同屬性)作為刻畫(huà)兩個(gè)物品相關(guān)性的依據(jù)。有基于向量空間模式和基于異構(gòu)信息網(wǎng)絡(luò)兩種模式。 為每種屬性生成一個(gè)表示向量,每一維對(duì)應(yīng)該屬性的某個(gè)值的權(quán)重。例如,電影的演員屬性可以表示成一個(gè)向量,第一維的值可以是第1號(hào)演員對(duì)該電影的TF-IDF權(quán)重值。 將物品和其每種屬性值對(duì)應(yīng)的實(shí)體都表示成異構(gòu)信息網(wǎng)絡(luò)的一類(lèi)結(jié)點(diǎn),它們之間構(gòu)成各種類(lèi)型的邊。例如,每部電影和其每個(gè)演員都由一條表示“參演”的邊相連。 不同物品間會(huì)共享某些屬性對(duì)應(yīng)的實(shí)體,所以會(huì)有一條經(jīng)過(guò)該共享實(shí)體的元路徑meta-path將兩個(gè)物品相連。例如,成龍主演的不同電影之間都通過(guò)一條“電影-演員(成龍)-電影”的元路徑相連 由不同類(lèi)型的元路徑相連的兩個(gè)物品都具有一定的相似度。 隱式畫(huà)像:利用基于深度神經(jīng)網(wǎng)絡(luò)的嵌入embedding向量來(lái)表示物品,物品間的相似度計(jì)算基于其對(duì)應(yīng)嵌入向量在向量空間中的距離。有基于隨機(jī)游走的圖嵌入(graph embedding)和基于KG embedding兩種模型。 四、基于知識(shí)圖譜的用戶畫(huà)像基于概念標(biāo)簽的用戶畫(huà)像 ·算法目標(biāo):根據(jù)輸入一組標(biāo)簽(詞袋),生成的概念標(biāo)簽數(shù)盡量少,同時(shí)在語(yǔ)義上盡量全地覆蓋所有原始標(biāo)簽的語(yǔ)義。 利用記憶網(wǎng)絡(luò)存儲(chǔ)刻畫(huà)用戶對(duì)物品屬性的偏好特征,比純基于用戶歷史上的偏好物品刻畫(huà)用戶特征要更加準(zhǔn)確、豐富。 五、基于知識(shí)圖譜的跨領(lǐng)域推薦跨領(lǐng)域推薦的主要任務(wù) ·緩解冷啟動(dòng)問(wèn)題,為新用戶推薦提供選擇和幫助提高推薦精準(zhǔn)度,緩解數(shù)據(jù)稀疏問(wèn)題 ·增加推薦多樣性 跨領(lǐng)域推薦面臨的挑戰(zhàn) ·數(shù)據(jù)海量性 ·數(shù)據(jù)異構(gòu)性 ·數(shù)據(jù)稀疏性 ·數(shù)據(jù)相依性數(shù)據(jù)低質(zhì)性 主流的跨領(lǐng)域推薦算法 基于協(xié)同過(guò)濾 ·基于語(yǔ)義關(guān)系 ·基于深度學(xué)習(xí) 實(shí)現(xiàn)跨領(lǐng)域推薦的關(guān)鍵假設(shè) 用戶的興趣偏好或項(xiàng)目特征在領(lǐng)域之間存在一致性或相關(guān)性(通過(guò)知識(shí)圖譜發(fā)現(xiàn)) — 完 — |
|
|
來(lái)自: 知行合一ing > 《待分類(lèi)》