|
國際萬維網(wǎng)大會 The Web Conference(以前稱世界互聯(lián)網(wǎng)大會,WWW)是由國際萬維網(wǎng)會議委員會發(fā)起主辦的頂級國際學(xué)術(shù)會議(CCF 推薦 A 類會議),每年舉辦一屆。大會在互聯(lián)網(wǎng)標(biāo)準(zhǔn)制定、互聯(lián)網(wǎng)應(yīng)用技術(shù)、互聯(lián)網(wǎng)內(nèi)容分析等研究領(lǐng)域享有盛名,在全球范圍內(nèi)為推動(dòng)互聯(lián)網(wǎng)技術(shù)的發(fā)展起到了重要作用。在 2014 年于韓國首爾舉辦的 WWW 大會上,組委會決定設(shè)立「Seoul Test-of-Time Award」 獎(jiǎng)項(xiàng),以表彰歷史上對推動(dòng)互聯(lián)網(wǎng)科學(xué)發(fā)展起到重要作用的優(yōu)秀論文。4 月 23 日,國際萬維網(wǎng)會議委員會宣布,今年的「Seoul Test-of-Time Award」大獎(jiǎng)授予于 WWW 2011 上發(fā)表的論文「Information credibility on twitter」,該論文的作者為西班牙龐培法布拉大學(xué)教授 Carlos Castillo、智利大學(xué)副教授 Barbara Poblete、智利圣瑪利亞理工大學(xué)副教授 Marcelo Mendoza。該論文是社交網(wǎng)絡(luò)信息可信度分析的里程碑式工作,它通過經(jīng)典的統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)方法巧妙地設(shè)計(jì)了用于自動(dòng)評估推特帖子可信度的特征,詳細(xì)地探究了各特征對推文可信度評估任務(wù)的影響,對后繼研究具有巨大的啟發(fā)意義。  圖 1:從左至右分別為「Information credibility on twitter」作者西班牙龐培法布拉大學(xué)教授 Carlos Castillo 、智利大學(xué)副教授 Barbara Poblete、智利圣瑪利亞理工大學(xué)副教授 Marcelo Mendoza。該論文的第一作者西班牙龐培法布拉大學(xué)教授 Carlos Castillo 是數(shù)據(jù)挖掘與信息檢索領(lǐng)域的權(quán)威學(xué)者。據(jù) AMiner 統(tǒng)計(jì),截至 2021 年 3 月,Carlos Castillo 共發(fā)表論文 315 篇,總引用量高達(dá) 16,631,H - 指數(shù)為 61。Carlos Castillo 教授曾獲得 WSDM 2008「十年時(shí)間檢驗(yàn)論文獎(jiǎng)」、WI 2009、ISCRAM 2013、ICAIL 2019、ISCRAM 2019 最佳論文獎(jiǎng),以及 WI 2010、CIKM 2009 最佳學(xué)生論文獎(jiǎng)。同時(shí),Carlos Castillo 教授也獲得了 AMiner 評選的 2018 數(shù)據(jù)挖掘領(lǐng)域最具影響力學(xué)者獎(jiǎng)、2018 信息檢索領(lǐng)域最具影響力學(xué)者獎(jiǎng)、2020 AI 2000 信息檢索與推薦領(lǐng)域全球最具影響力學(xué)者、2020 AI 2000 數(shù)據(jù)挖掘領(lǐng)域全球最具影響力學(xué)者。Carlos Castillo 個(gè)人學(xué)術(shù)主頁:https://www./profile/carlos-castillo/53f7aaf7dabfae92b40d471f在本文發(fā)表之前,研究人員針對傳統(tǒng)社交媒體和博客上的新聞可信度進(jìn)行了大量的研究。在 Twitter 新聞可信度分析領(lǐng)域,Schwarz 和 Morris 于 2011 年的人機(jī)交互頂級會議 ACM CHI 大會上在論文「Augmenting Web Pages and Search Results to Support Credibility Assessment」中指出,向用戶提供互聯(lián)網(wǎng)內(nèi)容的可信度估計(jì)結(jié)果是非常有意義的。相關(guān)研究發(fā)現(xiàn),在缺乏外部信息的情況下,對于在線內(nèi)容可信度的感受會在很大程度上收到與風(fēng)格有關(guān)的特征的影響(Flanagin et al., 2007)。而用戶也可能會由于推文作者的性別而轉(zhuǎn)變其對推文可信度的感受(Schmierbach et al., 2010)。與傳統(tǒng)媒體相比,當(dāng)相同新聞標(biāo)題出現(xiàn)在 Twitter 上時(shí),用戶往往會覺得新聞的可信度有所下降。用戶之所以不太信任 Twitter 上的新聞是由于當(dāng)下主流的搜索引擎都會突出展示「實(shí)時(shí)網(wǎng)頁」(博客和微博帖子)的搜索結(jié)果,對于熱門的話題更是如此。這種現(xiàn)象促使一些別有用心的人通過 Twitter 發(fā)送垃圾郵件,吸引用戶使用相關(guān)產(chǎn)品或服務(wù)。這種現(xiàn)象也使得傳播謊言和錯(cuò)誤信息的攻擊的潛在影響上升。有時(shí),Twitter 也會被用作一種政治宣傳的工具。此外,錯(cuò)誤的信息也會在不經(jīng)意間于 Twitter 上傳播。為了自動(dòng)識別出不可信的推文,本文作者 Carlos Castillo 教授試圖尋找可以被用來自動(dòng)近似用戶對推文可信度感受的因素。在這篇論文中,作者分析了通過 Twitter 傳播的新聞的可信度。在此之前,研究工作往往表明在 Twitter 上發(fā)布的信息大多數(shù)是真實(shí)的,但是實(shí)際上 Twitter 服務(wù)也常常在無意間被用于傳播錯(cuò)誤或虛假的信息。在本文中,作者提出了自動(dòng)評估給定的 Tweet 文章的可信度的方法。具體而言,作者對與熱門話題相關(guān)的微博帖子進(jìn)行了分析,并根據(jù)從中提取到的特征將帖子分為「可信」和「不可信」兩類。在本文中,作者使用到的特征包括用戶發(fā)布帖子、轉(zhuǎn)發(fā)帖子的行為,帖子的文本,以及對外部信息源的引用。在評估本文提出的分析方法時(shí),作者使用了大量對于近期發(fā)布的 Twitter 帖子樣本內(nèi)容可信度的人工評價(jià)。研究結(jié)果表明,我們可以測量出信息傳遞方式之間的差異,這些差異可以被用來自動(dòng)地對信息的可信度進(jìn)行分類,分類的準(zhǔn)確率在 70%-80% 之間。本文發(fā)表之后,在世界范圍內(nèi)引起了一陣對真假 Twitter 新聞分析的研究風(fēng)潮。在本文的啟發(fā)下,Vosoughi 等人在全球最權(quán)威的學(xué)術(shù)期刊「science」上發(fā)表論文「The spread of true and false news online」(截至 2021 年 3 月引用量為 2,880),研究了 2006 年至 2017 年間在 Twitter 上發(fā)布的所有經(jīng)過驗(yàn)證的真假新聞的傳播特性差異,并發(fā)現(xiàn)虛假信息比真實(shí)信息傳播地更遠(yuǎn)、更快、更深、更廣,其中虛假政治新聞的影響力較為顯著。IEEE Fellow、亞利桑那州立大學(xué)劉歡教授團(tuán)隊(duì)在數(shù)據(jù)挖掘頂會 KDD 2017 上發(fā)表論文「Fake News Detection on Social Media: A Data Mining Perspective」(截至 2021 年 3 月引用量為 1,132),從心理學(xué)、社會學(xué)理論、數(shù)據(jù)挖掘視角下的現(xiàn)有算法、評價(jià)指標(biāo)和代表性數(shù)據(jù)集等方面對社交媒體假新聞檢測任務(wù)進(jìn)行了綜述。Gupta 等人在頂級學(xué)術(shù)會議 WWW 2013 上發(fā)表論文「Faking Sandy: characterizing and identifying fake images on Twitter during Hurricane Sandy」(截至 2021 年 3 月引用量為 527),針對包含虛假圖片的推特帖子的特征進(jìn)行了分析,從而理解虛假圖像傳播的時(shí)間特點(diǎn)、社會聲譽(yù)和影響模式,并且實(shí)現(xiàn)了自動(dòng)識別推特上發(fā)布的真實(shí)圖片和虛假圖片。Morris 等人于人機(jī)交互領(lǐng)域頂級學(xué)術(shù)會議 CSCW 2012 上發(fā)表論文「Tweeting is believing?: understanding microblog credibility perceptions」(截至 2021 年 3 月引用量為 486),通過實(shí)驗(yàn)系統(tǒng)地評估了推特帖子的若干特征對可信度評級的影響,發(fā)現(xiàn)用戶難以僅僅憑內(nèi)容判斷帖子的真實(shí)性,他們會收到用戶名等啟發(fā)式因素的影響,因此推文作者可以使用某些策略來提高帖子在讀者眼中的可信度。下面,AMiner 將對本次獲得「Seoul Test-of-Time Award」大獎(jiǎng)的論文「Information credibility on twitter」進(jìn)行詳細(xì)的解讀。作為微博類服務(wù)的先驅(qū),Twitter 在世界范圍內(nèi)已經(jīng)積累了數(shù)以億計(jì)的用戶量。人們可以通過各種各樣的方式(例如,電子郵件、短信、Web 網(wǎng)頁)使用 Twitter 服務(wù),Twitter 有助于我們將信息實(shí)時(shí)傳播給大量的用戶群體。因此,人們可以通過 Twitter 直接從新聞來源或事件發(fā)生的現(xiàn)場直接傳播突發(fā)的新聞。一些用戶通過提供第一人稱的觀察或轉(zhuǎn)發(fā)外部的資訊在 Twitter 上生成新的信息。其中,人們認(rèn)為來自官方和信譽(yù)良好的來源的信息很有價(jià)值,并且會被用戶主動(dòng)地搜尋和傳播尋。其他的用戶會在連續(xù)地整合并闡述這些信息,從而產(chǎn)生一些衍生的解釋。在上述過程中,我們可以非常迅速地收集、過濾、傳播信息,但是卻可能無法區(qū)分真實(shí)信息和虛假謠言。然而,我們也注意到,被證明是錯(cuò)誤的信息比正確的信息更容易受到質(zhì)疑。這似乎表明,社交網(wǎng)絡(luò)在某種程度上傾向于支持真實(shí)的信息,而不是虛假的謠言。本文研究的重點(diǎn)是通過社交網(wǎng)絡(luò)傳播的信息的可信度。上世紀(jì) 90 年代,F(xiàn)ogg 和 Tseng 在論文「The elements of computer credibility」中將可信度描述為「由多個(gè)維度構(gòu)成的感知質(zhì)量」。在本文中,我們將可信度定義為「為被相信提供合理的理由」。我們首先要求用戶說明他們是否認(rèn)為某一組消息與某個(gè)有新聞價(jià)值的事件(而不是僅僅是非正式的對話)相對應(yīng)。接下來,對于那些被認(rèn)為與有新聞價(jià)值的事件相關(guān)的消息,我們要求另一組用戶判斷這些消息可能是真的還是假的。本文的主要目標(biāo)在于確定是否自動(dòng)評估 Twitter 上內(nèi)容的可信度水平。本文作者假設(shè),社交媒體環(huán)境中本身就存在一些信號,可以讓用戶評估信息的可信度。在這一假設(shè)下,我們將社交媒體可信度定義為「僅使用社交媒體平臺中可用的信息來評估信息可信度」的諸多因素中的一個(gè)層面。本文提出的方法以監(jiān)督式學(xué)習(xí)為基礎(chǔ),作者首先為學(xué)習(xí) Twitter 的可信度構(gòu)建了一個(gè)數(shù)據(jù)集,他們通過研究突發(fā)活動(dòng)來提取一組相關(guān)的討論話題。然后,作者令一組人類評價(jià)者根據(jù)話題是否對應(yīng)于某個(gè)有新聞價(jià)值的信息 / 事件,或非正式的對話進(jìn)行標(biāo)記。在創(chuàng)建了數(shù)據(jù)集后,另一組評價(jià)者會對具有價(jià)值的新聞信息 / 事件的可信度水平進(jìn)行評估。接下來,我們從每個(gè)帶標(biāo)簽的主題中提取相關(guān)的特征,并使用它們來構(gòu)建一個(gè)分類器,該分類器試圖自動(dòng)確定某個(gè)話題是否對應(yīng)于有新聞價(jià)值的信息 / 事件,然后自動(dòng)評估其可信度水平。在構(gòu)建數(shù)據(jù)集時(shí),作者重點(diǎn)關(guān)注了對時(shí)間敏感的信息,特別是當(dāng)前的新聞事件。在本文中,作者使用論文「 TwitterMonitor: trend detection over the twitter stream」中的 Twitter 信息監(jiān)控器進(jìn)行 Twitter 事件的發(fā)現(xiàn),這種在線的監(jiān)控系統(tǒng)可以檢測到從消息中發(fā)現(xiàn)的關(guān)鍵字集合中頻率突然增加的關(guān)鍵字。對于每一個(gè)檢測到的突發(fā)事件,Twitter 監(jiān)控器可以提供一種基于關(guān)鍵字的查詢。這里的查詢形如數(shù)學(xué)公式: $ (A\wedge {B}) $,其中 A 為關(guān)鍵字或標(biāo)簽的合取,而 B 則是關(guān)鍵字或標(biāo)簽的析取。作者收集了以每次突發(fā)事件的關(guān)鍵字頻率高峰為中心的 2 天內(nèi)的時(shí)間窗口中與上述查詢相匹配的推特帖子。作者將這些由這些推特帖子組成的子集稱為「話題」,在本文中,作者一共收集了超過 2,500 個(gè)話題。 表 1:2010 年 4 月至 7 月間的話題示例。屬于某類話題的推特帖子必須包含圖 x 中該時(shí)段所有的粗體字和至少一個(gè)非粗體字。如表 1 所示,本文作者將所有的推特帖子劃分為「新聞」和「對話」兩類。符合每種話題的推特帖子數(shù)差異很大,其分布如圖 2 所示。在本文構(gòu)建的數(shù)據(jù)集中,作者將每種帖子的數(shù)量上限設(shè)置為 10,000,這部分帖子占所有推特帖子總數(shù)的 99%。 圖 2:每個(gè)話題的推特帖子數(shù)量分布 在上述第一輪標(biāo)注中,作者試圖將傳播與新聞事件相關(guān)的信息的話題與對應(yīng)于個(gè)人觀點(diǎn)的話題區(qū)分開來。接下來,為了評估話題是否具有新聞價(jià)值,作者使用了土耳其機(jī)器人眾包服務(wù)。作者向眾包平臺上的評價(jià)者展示每個(gè)話題下的 10 條推特帖子樣本,以及通過 Twitter 信息檢測器得到的關(guān)鍵詞列表,并且讓評價(jià)者判斷是否大多數(shù)消息都傳播有關(guān)某個(gè)特定事件的新聞(將樣本標(biāo)注為「NEWS」),或者大部分是評論或?qū)υ挘▽⑦@類樣本標(biāo)注為「CHAT」)。對于每一個(gè)話題,作者還要求眾包評價(jià)者給出對該話題的簡短描述,我們可以通過這種描述語句過濾掉沒有道理的判斷答案,從而減少了評價(jià)系統(tǒng)中無效點(diǎn)擊的數(shù)量。 圖 3:話題新聞價(jià)值標(biāo)注系統(tǒng)用戶界面 在本例中,作者隨機(jī)地從 Twitter 信息監(jiān)測器收集到的數(shù)據(jù)中挑選出了 383 個(gè)主題,并通過土耳其機(jī)器人對其進(jìn)行評估。對于每個(gè)任務(wù)(被稱為「人類智能任務(wù)」——HIT)而言,作者隨機(jī)對主題進(jìn)行分組,每組包含 3 個(gè)主題。本文作者要求評價(jià)者在十天內(nèi)對 HIT 任務(wù)進(jìn)行評估,每個(gè) HIT 都會被 7 個(gè)不同的評價(jià)者評估,沒有提供簡短描述性語句的評價(jià)結(jié)果將會被過濾掉。如果 7 名評價(jià)者中有超過 5 名評價(jià)者都為某個(gè)話題給出了相同的標(biāo)簽,那么該標(biāo)簽就會被賦予給該啊護(hù)體。如此一來,由于沒有達(dá)到足夠的共識,有 35.6% 的話題(136 個(gè)話題)被賦予「不確定」的標(biāo)簽,被賦予「新聞」標(biāo)簽的話題占 29.5%(113 個(gè)話題),被賦予「對話」標(biāo)簽的話題占 34.9%(134 個(gè)話題)。為了對可信度進(jìn)行評估,作者對 2,524 個(gè)通過 Twitter 信息檢測器發(fā)現(xiàn)的帖子應(yīng)用了基于事件監(jiān)督的分類器。該分類器將 747 個(gè)帖子標(biāo)注為「新聞」,并使用這些實(shí)例進(jìn)行眾包評估,從而為每個(gè)帖子給出可信度等級。在初步進(jìn)行可信度評估是,幾乎所有的帖子都會被標(biāo)記為「可能正確」,這對于判斷推特帖子的可信度用處不大。因此,在可信度評估過程中,作者考慮了 4 個(gè)等級:(1)基本肯定是真實(shí)的(306 例,占比 41%)(2)可能是虛假的(237 例,占比 31.8%)(3)幾乎肯定是假的(65 例,占比 8.6%)(4)無法判定(139 例,占比 18.6%)。此時(shí),作者仍然要求每個(gè)評估者給出對答案的簡短證明語句,并且會忽略掉沒有證明語句的評價(jià)結(jié)果。 在本章中,給定一系列與某些話題相關(guān)的消息,作者提出的方法可以自動(dòng)地確定具有新聞價(jià)值的話題,并自動(dòng)地為每個(gè)具有新聞價(jià)值的話題賦予一個(gè)可信度等級標(biāo)簽。作者假設(shè),我們可以自動(dòng)地評估通過社交媒體傳播的信息的可信度等級。為了評估信息的可信度,我們可以考慮一些社交媒體平臺自有的因素:(1)特定話題引起的反應(yīng),以及用戶討論該話題時(shí)所表達(dá)的情感(2)用戶傳播信息時(shí)的確定性程度,即他們是否對獲知的信息產(chǎn)生質(zhì)疑(3)外部引用的信息源(4)傳播信息的用戶的特點(diǎn)。 作者將描述每個(gè)話題的特征總結(jié)在了表 2 中,根據(jù)這些特征所涉及的范圍,可以將它們分為四類:基于消息的特征、基于用戶的特征、基于話題的特征、基于傳播的特征。基于消息的特征:包括 「Twitter 相關(guān)的特征」與「Twitter 無關(guān)的特征」。Twitter 無關(guān)的特征包括消息的長度、文本是否包含某些感嘆詞或問題、一條消息中表達(dá)積極 / 消極情緒的單詞數(shù)。Twitter 相關(guān)的特征包括推特帖子是否包含某種標(biāo)簽,該帖子是否是轉(zhuǎn)發(fā)帖。 基于用戶的特征:發(fā)帖用戶的年齡、粉絲數(shù)、關(guān)注的人數(shù)、以往的發(fā)帖數(shù)。 基于話題的特征:根據(jù)前兩項(xiàng)特征整合而來。例如,包含 URL 鏈接的帖子比例,帶有標(biāo)簽的帖子比例,以及集合中積極語義和消極語義的比例。 基于傳播的特征:與根據(jù)轉(zhuǎn)發(fā)情況構(gòu)建的傳播樹相關(guān)的特征,包括轉(zhuǎn)發(fā)樹的深度、某個(gè)主題的初始推特帖子數(shù)。 自動(dòng)地發(fā)現(xiàn)具有新聞價(jià)值的話題在本文中,作者訓(xùn)練了一個(gè)有監(jiān)督的分類器來判斷某個(gè)推特帖子的集合是否描述了具有價(jià)值的新聞事件,在有監(jiān)督訓(xùn)練中使用了通過土耳其機(jī)器人得到的標(biāo)簽。作者訓(xùn)練了一個(gè)考慮三種活動(dòng)類別的分類器,執(zhí)行了一種對成本敏感的訓(xùn)練過程,從而增加了對「新聞」類別中實(shí)例的預(yù)測的相關(guān)性。在訓(xùn)練過程中,作者使用了一個(gè)成本矩陣,而在預(yù)測時(shí)則忽略了成本。作者構(gòu)建了一個(gè)成本敏感的樹,根據(jù)假正例和假負(fù)例這兩類誤差的相對成本對訓(xùn)練實(shí)例進(jìn)行加權(quán)。 表 3:具有新聞價(jià)值的話題分類結(jié)果總結(jié) 此外,作者還對訓(xùn)練數(shù)據(jù)集采用了自助抽樣策略,在假設(shè)從三類實(shí)例中抽取樣本的概率服從均勻分布的情況下,通過替換采樣得到數(shù)據(jù)集的隨機(jī)樣本。接著,作者還進(jìn)行了三折交叉驗(yàn)證。就采用的分析模型方面,作者嘗試了包含支持向量機(jī)、決策樹、決策規(guī)則、貝葉斯網(wǎng)絡(luò)等學(xué)習(xí)范式。上述技術(shù)得到的分類結(jié)果大致相當(dāng),其中 J48 決策樹取得了最佳性能,通過該方法得到的實(shí)驗(yàn)結(jié)果如表 3 所示。有監(jiān)督分類器獲得了高達(dá) 89% 的分類準(zhǔn)確率。 Kappa 統(tǒng)計(jì)量說明本文構(gòu)建的分類器的預(yù)測性能要明顯優(yōu)于隨機(jī)預(yù)測器。對于每一類話題的詳細(xì)評估結(jié)果如表 4 所示。作者對各種特征值的分布進(jìn)行了分析。為此,作者根據(jù)可信度任務(wù)提供的標(biāo)簽,在 747 個(gè)新聞集合的案例中進(jìn)行最佳特征選擇。最終,作者選出了如表 5 所示的 15 種特征。其中,前四種特征考慮了用戶的特性,例如:用戶使用 Twitter 的時(shí)間、曾經(jīng)發(fā)布推文的數(shù)量、粉絲 / 朋友的數(shù)量。另外,還有十種特征是根據(jù)每個(gè)新聞事件的推文集合計(jì)算得到的聚合特征。其中,基于情感分析的特征有非常明顯的作用。最后,作者還考慮了從轉(zhuǎn)發(fā)傳播樹中提取的信息。 為了說明上述特征的判別能力,作者繪制了如圖 4 所示的箱線圖。 圖 5:根據(jù) 15 中特征判斷基本肯定真實(shí)(A)和可幾乎肯定虛假(B)的分布的箱線圖。 如圖 5 所示,這兩類話題之間存在一些顯著的區(qū)別:(1)更加活躍的用戶傾向于傳播更可靠的信息,擁有新賬戶但是有很多粉絲和關(guān)注者的賬戶也是如此。(2)基于情感分析的特征對于可信度預(yù)測任務(wù)也很重要,表達(dá)了情感的推文一般來說更可能是不可信的信息,其中帶有積極情感的推文比帶有消極情感的推文可信度更低。(3)帶有「問號」或「微笑」表情的推文往往也更加不可信。(5)當(dāng)許多推文都提到同一個(gè)用戶時(shí),往往會有相似的可信度。(6)在傳播樹的某一級上,擁有轉(zhuǎn)發(fā)數(shù)較多的推文更可信。為了預(yù)測 Twitter 事件的可信度,作者訓(xùn)練了一種有監(jiān)督的分類器。在這里,作者重點(diǎn)關(guān)注檢測出被認(rèn)為「幾乎肯定真實(shí)」(A 類,共 306 個(gè)話題)和「其它新聞」(B 類,共 302 個(gè)話題),而不考慮被標(biāo)注為「無法確定」的話題,因此兩類用于分類的數(shù)據(jù)是十分平衡的。在眾多學(xué)習(xí)算法中,J48 決策樹取得了最佳的分類性能。具體而言,作者對訓(xùn)練集 / 驗(yàn)證集采用了三折交叉驗(yàn)證策略??尚哦确诸惼鞯膶?shí)驗(yàn)統(tǒng)計(jì)結(jié)果如表 6 所示: 如表 6 所示,有監(jiān)督分類器的準(zhǔn)確率高達(dá) 86%。Kappa 統(tǒng)計(jì)量說明該分類器顯著優(yōu)于隨機(jī)分類器。每一類話題的詳細(xì)可信度評估結(jié)果如表 7 所示。
 圖 6:為可信度分類任務(wù)構(gòu)建的決策樹 本文構(gòu)建的 J48 決策樹如圖 6 所示,根據(jù) GINI 系數(shù)劃分標(biāo)準(zhǔn),作者列舉出了一些對于可信度分類任務(wù)最關(guān)鍵的特征:基于話題的特征:包含 URL 鏈接的推文為決策樹的根。基于情感的特征(例如,負(fù)面情感的比重或包含感嘆詞的推文的比重)與樹的根非常接近,它們是很重要的特征。具體而言,我們發(fā)現(xiàn),不包含 URL 的推文可能與不可信的新聞相關(guān);另一方面,包含負(fù)面情感的推文與可信的新聞相關(guān)。當(dāng)用戶使用積極情感詞語時(shí)也是如此:只有很少一部分帶有積極情感詞的推文與不可信的新聞相關(guān)。 基于用戶的特征:值得注意的是,具有低可信度的新聞往往由之前很少撰寫推文的用戶傳播。用戶的朋友數(shù)量也是與決策樹根距離很近的特征。 基于傳播的特征:具有大量轉(zhuǎn)發(fā)數(shù)的推文與可信的新聞相關(guān)。 上述結(jié)果表明,文本信息與可信度分類任務(wù)緊密相關(guān)。用戶的意見使我們可以檢測到有關(guān)某個(gè)新聞事件的社區(qū)的普遍看法。另一方面,基于用戶的特征可以被看做用戶在社區(qū)中聲譽(yù)的重要指標(biāo)。在可信的用戶之間傳播的消息也往往是可信的,這也說明 Twitter 社區(qū)起到了社交過濾器的作用。作者研究了特定的特征子集對于可信度自動(dòng)評估任務(wù)的影響。具體而言,作者考慮了以下 4 個(gè)特征子集:文本特征子集:推文平均長度、基于情感的特征、與 URL 相關(guān) 的特征、與標(biāo)簽計(jì)數(shù)相關(guān)的特征等 20 種特征。 網(wǎng)絡(luò)特征子集:與消息作者相關(guān)的特征(粉絲數(shù)或朋友數(shù))等 7 種特征。 傳播特征子集:基于傳播的特征、轉(zhuǎn)發(fā)比重、推文總數(shù)等 6 種特征。 熱門元素特征子集:分別包含最頻繁出現(xiàn)的 URL、標(biāo)簽、提及的用戶、作者共 4 中特征。 在該任務(wù)中,作者將每個(gè)特征子集作為訓(xùn)練數(shù)據(jù)集訓(xùn)練了一個(gè) J48 決策樹,此處同樣采用了三折交叉驗(yàn)證策略。 表 8:使用不同特征子集進(jìn)行可信度分類的實(shí)驗(yàn)結(jié)果 如表 8 所示,粗體字代表每一類度量標(biāo)準(zhǔn)和話題類別下的最佳實(shí)驗(yàn)結(jié)果。作者發(fā)現(xiàn),傳播特征子集和熱門元素特征子集對于可信度評估十分重要。對于該任務(wù)而言,僅僅使用基于文本或基于作者的特征是遠(yuǎn)遠(yuǎn)不夠的。對于不可信的新聞而言,使用基于傳播的特征可以獲得很高的真正例率。另一方面,可信的新聞往往更難以被檢測出來。 圖 7:可信度預(yù)測任務(wù)中考慮的特征散點(diǎn)圖。黑色點(diǎn)代表可信信息,灰色點(diǎn)代表不可信信息。 為了說明可信度預(yù)測任務(wù)中各特征之間的依賴關(guān)系,作者繪制了特征對之間關(guān)系的散點(diǎn)圖。如圖 7 所示,大多數(shù)特征對之間的相關(guān)性都很低,而基于情感的特征之間則具有較強(qiáng)的依賴關(guān)系。
|