物理學(xué)背景的推薦算法與協(xié)同過濾 – 不周山

ShangShujie 2010-06-01

展開全文

隨著個性化推薦技術(shù)的發(fā)展，各種各樣的推薦算法也競相參與到這片新興應(yīng)用領(lǐng)域中進(jìn)行開荒，一時間百花齊放，其中就有一些基于物理學(xué)背景的算法參與其中，本文闡述的是這篇文章在推薦算法上的主要內(nèi)容，及其與傳統(tǒng)的協(xié)同過濾算法在形式上的對比。

文章原名為《Solving the apparent diversity-accuracy dilemma of recommender systems》，要解決的正是當(dāng)下推薦系統(tǒng)領(lǐng)域炙手可熱的問題：怎樣平衡推薦的精確度與多樣性。作者的專業(yè)背景是物理學(xué)，曾經(jīng)做過復(fù)雜系統(tǒng)、復(fù)雜網(wǎng)絡(luò)方面的研究，近年來在推薦領(lǐng)域發(fā)表過好幾篇文章，這一篇發(fā)表在著名雜志PNAS上，可以說是對之前工作的一個大匯總。

該文章大致的思路就是把推薦系統(tǒng)中用戶與待推薦對象的關(guān)系類比為二分圖，借用原來研究復(fù)雜網(wǎng)絡(luò)動力系統(tǒng)的一些概念與方法來研究推薦領(lǐng)域中的問題。關(guān) 于這樣的解決思路，我一年多前曾經(jīng)就作者的另一篇文章作過一些闡述，欲了解細(xì)節(jié)的可以先看看，看完對主要思想能有比較清晰的理解，本文將側(cè)重于數(shù)學(xué)方面的推導(dǎo)與比較，不再就細(xì)節(jié)上過多闡述。

下圖是我在稿紙上的推導(dǎo)過程，后面我結(jié)合著每一步的推導(dǎo)過程進(jìn)行說明，每一步以標(biāo)號標(biāo)示。

0、這里總括一下最終的推薦方式，等式右邊的f是一個用戶的收藏向量，取值為0-1，W是一個轉(zhuǎn)移矩陣，等式左邊為最終獲得的推薦向量，刨除用戶已經(jīng)收藏的對象，其余的按值排序取出前L個，即可視為對該用戶的推薦。所以，現(xiàn)在的問題就是，怎么得到W這個矩陣。

1、這里定義用戶收藏矩陣為A，維度為u*o，行表示用戶，列表示對象，依據(jù)文中的說法，這里只考慮取值為0-1的情況，取值為1則表示對應(yīng)位置的用戶收藏了相應(yīng)的對象，0則不然。

2、這里定義了用戶與對象的“度”向量，即對A矩陣的行與列求和。

3、對收藏矩陣作行歸一化，在本文，矩陣除以向量的統(tǒng)一意義為該矩陣每一列與該向量對位相除。

4、文章中提出了兩種算法，ProbS與HeatS，ProbS比較好理解，算法的詳細(xì)解釋見我之前的文章，這里僅列出其迭代公式。拉丁字母的下標(biāo)用以表示對象，英文字母的下標(biāo)用以表示用戶。這個迭代式的涵義是兩對象之間的影響，或者說是貢獻(xiàn)度。

5、經(jīng)過一番變換之后，可以得到ProbS算法的轉(zhuǎn)移矩陣，這個正是我們在0步里提到的要尋找的轉(zhuǎn)移矩陣。

6、HeatS算法的迭代式與ProbS的類似，只是最后要除的分母不同，從轉(zhuǎn)移矩陣來看，則僅僅只是轉(zhuǎn)置關(guān)系。

7、從第0步的對每個用戶的推薦過程，我們可以得到對所有用戶的推薦公式，其中W可為第5或第6步算出來的轉(zhuǎn)移矩陣。

8、再回顧一下我們熟悉item-based協(xié)同過濾（CF）的推薦過程，從矩陣的角度來描述，就是如8式所示，其中mod(A)表示A矩陣各列的模所組成的向量。形式與上面的算法類似，但相乘的順序不一樣，而且這里的W表示的是對象相似度矩陣。

9、這一番變換可以生成跟CF類似的推薦形式，WH就可以看作是CF中的相似度矩陣了（但計算方法不一樣）。殊途同歸，兩種算法就統(tǒng)一到一種形式上去了。但不要試圖用數(shù)學(xué)的方式來解釋這個式子，我嘗試過，無論如何解釋不通，只能從物理的角度來進(jìn)行描述。原文章中對此沒有作數(shù)學(xué)分析，只是從實驗角度來論證算法的有效性。

10、第10步是該文的最終算法，即混合之前的兩種算法，得到一個并不太會增加計算消耗的混合推薦算法。跟上面兩種算法的介紹類似，我在把迭代式列出來后，又把它轉(zhuǎn)換成矢量運算的形式，即最終結(jié)果是兩個矩陣的點乘。

除了上述我介紹的算法外，該文還有一部分重要的內(nèi)容是定義兩個精確度指標(biāo)、兩個多樣性指標(biāo)，并在三個數(shù)據(jù)集上對幾種推薦算法的效果進(jìn)行了對比，結(jié)論是：ProbS算法在精確度上表現(xiàn)更好，HeatS算法在多樣性上表現(xiàn)更好，而混合式的算法能得到精確度與多樣性兩全其美的效果，有興趣的讀者可以讀讀原文。

對于這篇文章，我存留有幾點疑問：

1、初始資源（即用戶收藏矩陣A）除了0-1，是否可以是別的值，這樣rating數(shù)據(jù)集也可以引入進(jìn)來？

2、W矩陣為什么不可以多步迭代生成？原文中用資源分配來描述W矩陣的轉(zhuǎn)移作用，從動力學(xué)的角度來說，這樣的迭代分配可以無限進(jìn)行下去直到達(dá)到一個穩(wěn)態(tài)，但為什么只迭代一次就用作推薦計算的轉(zhuǎn)換矩陣（即對用戶收藏矩陣的加權(quán)變換），這是何道理？

3、數(shù)學(xué)上的不可解釋性。正如第9步所得到的結(jié)果，該算法與CF有異曲同工之處，但CF算法可以從余弦距離的角度加以解釋，而你無法從推薦表達(dá)式上解釋為什么ProbS算法在精確度上表現(xiàn)更好，而HeatS在多樣上表現(xiàn)更好。

對以上前兩點文中沒有作過多的解釋，而從第三點來說由于整個推薦算法的有效性并不能從數(shù)學(xué)上得到解釋，而只是通過實驗對比結(jié)果進(jìn)行說明，所以對于這兩點疑慮，我也只能從實驗結(jié)果上進(jìn)行猜測：即以上兩步的嘗試會導(dǎo)致實驗結(jié)果變壞。

更新：我實現(xiàn)了兩個算法，并做了實驗，從簡單的觀測結(jié)果來看，兩種算法的TopK推薦結(jié)果都差不多，accuracy還可以，diversity沒有體現(xiàn)出來?？梢缘酱藶橹沽恕?/p>