|
計(jì)算機(jī)科學(xué)與探索
2024,18(04),1010-1020
融合BERT多層次特征的短視頻網(wǎng)絡(luò)輿情情感分析研究韓坤 潘宏鵬 劉忠軼中國(guó)人民公安大學(xué)公安管理學(xué)院摘 要:
自媒體時(shí)代與網(wǎng)絡(luò)社交軟件的廣泛普及,導(dǎo)致短視頻平臺(tái)極易成為輿情事件起源和發(fā)酵的“孵化器”。分析短視頻平臺(tái)中的輿情評(píng)論信息,對(duì)于輿情事件的預(yù)警、處置和引導(dǎo)具有重要意義。鑒于此,結(jié)合BERT與TextCNN模型,提出一種融合BERT多層次特征的文本分類模型(BERT-MLFF-TextCNN),并對(duì)抖音短視頻平臺(tái)中的相關(guān)評(píng)論文本數(shù)據(jù)進(jìn)行情感分析。首先,利用BERT預(yù)訓(xùn)練模型對(duì)輸入文本進(jìn)行編碼。其次,提取各編碼層中的語(yǔ)義特征向量進(jìn)行融合。然后,融入自注意力機(jī)制突出其關(guān)鍵特征,從而實(shí)現(xiàn)特征的有效利用。最后,將所得特征序列輸入TextCNN模型中進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明,與BERT-TextCNN、GloVeTextCNN和Word2vec-TextCNN模型相比,BERT-MLFF-TextCNN模型表現(xiàn)更優(yōu),F(xiàn)1值達(dá)到了0.977。通過(guò)該模型能夠有效識(shí)別短視頻平臺(tái)輿情的情感傾向,在此基礎(chǔ)上利用TextRank算法進(jìn)行主題挖掘,實(shí)現(xiàn)輿情評(píng)論情感極性的主題詞可視化,為相關(guān)部門(mén)的輿情管控工作提供決策參考。 關(guān)鍵詞:網(wǎng)絡(luò)輿情;情感分析;主題可視化;BERT; 作者簡(jiǎn)介:韓坤(1999—),男,河南商丘人,碩士研究生,主要研究方向?yàn)榫W(wǎng)絡(luò)輿情管理、大數(shù)據(jù)分析。;潘宏鵬(1996—),男,山東濰坊人,博士研究生,主要研究方向?yàn)榫W(wǎng)絡(luò)輿情管理、大數(shù)據(jù)分析。;*劉忠軼(1983—),男,河北滄州人,博士,教授,主要研究方向?yàn)橹腔酃芾砼c人工智能。E-mail:liuzhongyi@ppsuc.edu.cn; 收稿日期:2023-11-02 基金:中國(guó)人民公安大學(xué)公安學(xué)一流學(xué)科培優(yōu)行動(dòng)及公共安全行為科學(xué)實(shí)驗(yàn)室建設(shè)項(xiàng)目(2023ZB02);北京社科基金重點(diǎn)項(xiàng)目(22GLA011); Research on Sentiment Analysis of Short Video Network Public Opinion by Integrating BERT Multi-level FeaturesHAN Kun PAN Hongpeng LIU ZhongyiSchool of Public Security Management, People's Public Security University of ChinaAbstract:
The era of self-media and the widespread popularity of online social software have led to short video platforms becoming“incubators”easily for the origin and fermentation of public opinion events. Analyzing the public opinion comments on these platforms is crucial for the early warning, handling, and guidance of such incidents. In view of this, this paper proposes a text classification model combining BERT and TextCNN, named BERT-MLFFTextCNN, which integrates multi-level features from BERT for sentiment analysis of relevant comment data on the Douyin short video platform. Firstly, the BERT pre-trained model is used to encode the input text. Secondly, semantic feature vectors from each encoding layer are extracted and fused. Subsequently, a self-attention mechanism is integrated to highlight key features, thereby effectively utilizing them. Finally, the resulting feature sequence is input into the TextCNN model for classification. The results demonstrate that the BERT-MLFF-TextCNN model outperforms BERT-TextCNN, GloVe-TextCNN, and Word2vec-TextCNN models, achieving an F1 score of 0.977. This model effectively identifies the emotional tendencies in public opinions on short video platforms. Based on this, using the TextRank algorithm for topic mining allows for the visualization of thematic words related to the sentiment polarity of public opinion comments, providing a decision-making reference for relevant departments in the public opinion management work.
Keyword:
network public opinion; sentiment analysis; theme visualization; BERT; Author: HAN Kun, born in 1999, M.S. candidate. His research interests include network public opinion management and big data analysis.; PAN Hongpeng, born in 1996, Ph.D. candidate. His research interests include network public opinion management and big data analysis.; LIU Zhongyi, born in 1983, Ph.D., professor. His research interests include smart management and artificial intelligence.; Received: 2023-11-02 Fund:supported by the Construction Project of the First Class Discipline Training Action and Public Safety Behavior Science Laboratory of Public Security at People’s Public Security University of China(2023ZB02);the Key Project of Beijing Social Science Foundation(22GLA011); 隨著移動(dòng)互聯(lián)網(wǎng)的飛速發(fā)展,我國(guó)互聯(lián)網(wǎng)用戶數(shù)量持續(xù)增長(zhǎng)。根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(China Internet Network Information Center,CNNIC)發(fā)布的第52次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示:截至2023年6月,我國(guó)網(wǎng)民規(guī)模已達(dá)10.79億,較2022年12月增長(zhǎng)1 109萬(wàn),互聯(lián)網(wǎng)普及率達(dá)76.4% 隨著抖音等短視頻平臺(tái)迅速發(fā)展,海量的富含情緒化的網(wǎng)絡(luò)輿情評(píng)論信息隨之產(chǎn)生。網(wǎng)民在瀏覽短視頻的過(guò)程中,極易受到評(píng)論區(qū)中情緒化信息的影響,甚至改變其對(duì)有關(guān)事件的判斷以及自身的立場(chǎng)。短視頻平臺(tái)的個(gè)性化推送所導(dǎo)致的“信息繭房”效應(yīng),也強(qiáng)化了情緒化信息的影響。這對(duì)政府部門(mén)的網(wǎng)絡(luò)輿情治理工作提出了新的挑戰(zhàn),如果不能及時(shí)有效地把控短視頻平臺(tái)中輿情事件的情感趨勢(shì),極易出現(xiàn)“以訛傳訛”的現(xiàn)象,從而引發(fā)社會(huì)輿論危機(jī) 鑒于此,本文將文本情感分析技術(shù)引入短視頻網(wǎng)絡(luò)輿情分析領(lǐng)域,設(shè)計(jì)了一種基于BERT(bidirectional encoder representations from transformers)多層次特征融合(multi-level feature fusion,MLFF)的文本分類模型(BERT-MLFF-TextCNN)。在此基礎(chǔ)上,構(gòu)建基于該模型的短視頻網(wǎng)絡(luò)輿情情感分析框架(如圖1所示),以抖音短視頻平臺(tái)作為數(shù)據(jù)源,選取2022年“唐山打人事件”為樣本案例,采集點(diǎn)贊量大于200萬(wàn)的視頻評(píng)論區(qū)文本數(shù)據(jù)進(jìn)行情感分析,并篩選出其中的熱門(mén)主題。通過(guò)結(jié)合不同情感對(duì)應(yīng)的文本信息,研判情感產(chǎn)生的原因,及時(shí)發(fā)現(xiàn)潛在的輿情焦點(diǎn)和隱患,為政府部門(mén)完善輿情分析機(jī)制、防范化解輿情風(fēng)險(xiǎn)提供決策支持。 本文的主要貢獻(xiàn)如下: (1)提出一種基于BERT多層次特征融合的文本分類模型,該模型不僅能夠深入挖掘文本的高級(jí)語(yǔ)義信息,還能捕捉到語(yǔ)法和詞匯層面的基礎(chǔ)特征,從而實(shí)現(xiàn)更全面的文本分析。 (2)通過(guò)在本研究構(gòu)建的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),有效驗(yàn)證了本文模型的性能。 (3)采用TextRank算法提取主題詞,并通過(guò)可視化手段加以展現(xiàn)。依據(jù)分析結(jié)果,進(jìn)一步提出了具體輿情管理建議。 1 國(guó)內(nèi)外相關(guān)工作1.1 國(guó)內(nèi)外研究總體分析1.1.1 國(guó)內(nèi)研究現(xiàn)狀在知網(wǎng)中以“短視頻”和“輿情”為關(guān)鍵詞進(jìn)行搜索,結(jié)果顯示,自2018年以來(lái)相關(guān)的學(xué)術(shù)期刊共計(jì)388篇。其中,關(guān)于短視頻輿情的研究主要涉及“新聞與媒體”“社會(huì)學(xué)及統(tǒng)計(jì)學(xué)”“行政學(xué)及國(guó)家行政管理”等學(xué)科,而涉及“計(jì)算機(jī)軟件及計(jì)算機(jī)應(yīng)用”學(xué)科的相關(guān)研究文獻(xiàn)僅有4篇。進(jìn)一步將篩選好的文獻(xiàn)以Refworks文件格式導(dǎo)出,并運(yùn)用Citespace軟件對(duì)文獻(xiàn)信息進(jìn)行分析,得出相關(guān)文獻(xiàn)中前10的關(guān)鍵詞與關(guān)鍵詞“情感分析”的頻次和中心性,如表1所示。其中,頻次是指某關(guān)鍵詞在文獻(xiàn)數(shù)據(jù)集中出現(xiàn)的次數(shù),頻次較高的關(guān)鍵詞通常代表著該研究領(lǐng)域的主要研究主題和熱點(diǎn)。中心性則反映了某個(gè)關(guān)鍵詞在該研究領(lǐng)域中的重要性,也是衡量研究熱度的重要指標(biāo)。 從表1中可以看出,關(guān)鍵詞“情感分析”僅出現(xiàn)過(guò)1次,對(duì)應(yīng)研究提出了一種融合母評(píng)論文本信息的短文本評(píng)論情感分類模型 1.1.2 國(guó)外研究現(xiàn)狀國(guó)外研究文獻(xiàn)的搜集以“Web of Science核心合集”為基礎(chǔ),以“short-form video public opinion”和“short video public opinion”為關(guān)鍵詞,結(jié)果顯示,自2004年以來(lái)相關(guān)的學(xué)術(shù)期刊共計(jì)45篇。其中,關(guān)于短視頻輿情的研究方向主要包括“知識(shí)工程與表達(dá)”“通信技術(shù)”及“法律”等。在此基礎(chǔ)上,將篩選后的文獻(xiàn)以純文本格式導(dǎo)出,并運(yùn)用Citespace軟件對(duì)文獻(xiàn)信息進(jìn)行分析,得出相關(guān)文獻(xiàn)中前10的關(guān)鍵詞與關(guān)鍵詞“情感分析”的頻次和中心性,如表2所示。 如表2所示,與國(guó)內(nèi)研究現(xiàn)狀相似,關(guān)鍵詞“情感分析(sentiment analysis)”僅被提及1次,對(duì)應(yīng)研究提出了一種采用多尺度卷積神經(jīng)網(wǎng)絡(luò)與交叉注意力融合機(jī)制的情感分析模型 綜合國(guó)內(nèi)外文獻(xiàn)的研究主題可以看出,有關(guān)短視頻網(wǎng)絡(luò)輿情的研究主要聚焦于新媒體動(dòng)態(tài)、用戶行為模式以及輿情引導(dǎo)策略等方面,而針對(duì)文本情感分析技術(shù)在短視頻網(wǎng)絡(luò)輿情管理中的應(yīng)用研究相對(duì)較少。與前人研究相比,本文將情感分析聚焦于短視頻平臺(tái)的評(píng)論文本并對(duì)文本特征提取方式進(jìn)行創(chuàng)新,提出一種基于BERT多層次特征融合的情感分類模型,以提高文本情感分析的準(zhǔn)確率。此外,本研究通過(guò)運(yùn)用TextRank算法提取主題詞并進(jìn)行可視化處理,能夠有效識(shí)別不同情感輿論的焦點(diǎn),并據(jù)此提出輿情管理建議,增加了本研究在輿情監(jiān)控與決策支持方面的實(shí)際應(yīng)用價(jià)值。 1.2 文本情感分析文獻(xiàn)綜述文本情感分析也稱為意見(jiàn)挖掘,是指對(duì)帶有情感色彩的主觀性文本進(jìn)行分析,挖掘其中蘊(yùn)含的情感傾向,對(duì)情感極性進(jìn)行劃分 1.2.1 基于情感詞典的分析方法基于情感詞典的情感分析方法依賴于情感詞典中情感詞語(yǔ)的預(yù)設(shè)情感值,并通過(guò)加權(quán)運(yùn)算得出文本的情感傾向。此類方法在具體實(shí)施過(guò)程中沒(méi)有考慮詞語(yǔ)間的聯(lián)系,即每個(gè)詞語(yǔ)的情感傾向是預(yù)先設(shè)定的,不會(huì)因應(yīng)用領(lǐng)域或上下文語(yǔ)境的不同而有所改變,因此需要針對(duì)特定領(lǐng)域建立相關(guān)的情感詞典來(lái)提高分類的準(zhǔn)確率。周知等 雖然基于情感詞典的方法具有較強(qiáng)的普適性,并且易于實(shí)現(xiàn),但該方法對(duì)于情感詞典的構(gòu)建有著較高的要求,這往往需要相關(guān)領(lǐng)域的研究人員投入大量的時(shí)間和精力來(lái)構(gòu)建高質(zhì)量的情感詞典。此外,在互聯(lián)網(wǎng)語(yǔ)境中,新的表達(dá)方式和詞匯不斷涌現(xiàn),而該方法依賴于預(yù)設(shè)的情感詞典,很容易出現(xiàn)現(xiàn)有情感詞典不能滿足當(dāng)下需求的情況。 1.2.2 基于機(jī)器學(xué)習(xí)的分析方法基于機(jī)器學(xué)習(xí)的情感分析方法是利用大量有情感標(biāo)記或無(wú)標(biāo)記的文本數(shù)據(jù)進(jìn)行訓(xùn)練,從而構(gòu)建一個(gè)情感分類器。這種分類器可以預(yù)測(cè)新句子的情感傾向。常見(jiàn)的機(jī)器學(xué)習(xí)算法有決策樹(shù)(decision tree,DT)、樸素貝葉斯(naive Bayes,NB)和支持向量機(jī)(support vector machine,SVM)等 相對(duì)于基于情感詞典的分析方法,基于機(jī)器學(xué)習(xí)的分析方法對(duì)情感分析更加準(zhǔn)確,并且展現(xiàn)出更強(qiáng)的擴(kuò)展性和復(fù)用性。然而,該方法的分類效果依賴于數(shù)據(jù)集的質(zhì)量,而構(gòu)建大規(guī)模的高質(zhì)量數(shù)據(jù)集需要較高的人工成本。此外,人工標(biāo)注的方式導(dǎo)致數(shù)據(jù)標(biāo)注的結(jié)果具有一定的主觀性,這種主觀性也會(huì)影響模型的分類效果。 1.2.3 基于深度學(xué)習(xí)的分析方法深度學(xué)習(xí)方法通過(guò)多層次的神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),有效解決了機(jī)器學(xué)習(xí)難以克服的眾多問(wèn)題,目前在圖像、語(yǔ)音處理以及文本分類等領(lǐng)域均取得了較好的效果。常用的深度學(xué)習(xí)模型包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)、長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)、Transformer和注意力機(jī)制等。馮興杰等 2018年10月,Google公司提出了BERT預(yù)訓(xùn)練模型 與前兩種方法相比,基于深度學(xué)習(xí)的分析方法具有顯著優(yōu)勢(shì)。首先,深度學(xué)習(xí)方法具有強(qiáng)大的表示學(xué)習(xí)能力。這種能力使深度學(xué)習(xí)模型能夠自動(dòng)學(xué)習(xí)輸入數(shù)據(jù)與輸出目標(biāo)之間的復(fù)雜映射關(guān)系,有效解決了傳統(tǒng)機(jī)器學(xué)習(xí)方法中需要手動(dòng)設(shè)計(jì)特征的問(wèn)題。其次,深度學(xué)習(xí)方法具有良好的抽象化和泛化能力。深度學(xué)習(xí)模型通過(guò)多層非線性變換,能夠提取更高層次、更加抽象的特征,使得模型能夠更好地理解和分析含有復(fù)雜情景和語(yǔ)義的文本信息,提高了文本情感分析的性能。最后,深度學(xué)習(xí)模型的預(yù)訓(xùn)練和微調(diào)策略為文本情感分析任務(wù)提供了強(qiáng)大的工具。例如,BERT、GPT(generative pre-trained transformer)等預(yù)訓(xùn)練模型在大規(guī)模文本數(shù)據(jù)上進(jìn)行無(wú)監(jiān)督學(xué)習(xí),獲取豐富的語(yǔ)言表示,然后針對(duì)特定任務(wù)進(jìn)行微調(diào),這種方法大幅提高了模型的效率和效果。 值得注意的是,深度學(xué)習(xí)也存在諸如“梯度消失”和“梯度爆炸”等問(wèn)題。這些問(wèn)題會(huì)破壞模型在學(xué)習(xí)過(guò)程中的穩(wěn)定性,進(jìn)而影響模型的收斂速度和效果。此外,深度學(xué)習(xí)模型由于其復(fù)雜性,往往難以解釋其決策邏輯,這在某些需要理解模型決策依據(jù)的場(chǎng)景中有待進(jìn)一步剖析。 2 模型構(gòu)建2.1 自注意力機(jī)制自注意力機(jī)制(self-attention mechanism)屬于宏觀的注意力機(jī)制(attention mechanism)概念中的一種。關(guān)于注意力機(jī)制的原理,可將其作用過(guò)程視為一個(gè)查詢操作Query和一系列鍵值對(duì)<Key,Value>進(jìn)行依次的交互作用從而使Query得到附加注意力值的過(guò)程,其計(jì)算過(guò)程如式(1)所示: 其中,Q代表查詢向量矩陣Query,K代表鍵向量矩陣Key,V代表值向量矩陣Value,dK代表鍵向量的維度。通過(guò)使用Q與K進(jìn)行點(diǎn)積運(yùn)算,然后對(duì)運(yùn)算結(jié)果進(jìn)行縮放,并通過(guò)應(yīng)用softmax函數(shù)進(jìn)行歸一化得到注意力權(quán)重Attention(Q,K,V)。所謂自注意力機(jī)制是指特征序列自身與自己進(jìn)行注意力處理,即Q=K=V。經(jīng)過(guò)自注意力機(jī)制處理后,特征序列的整體性會(huì)變得更強(qiáng),從而更能代表語(yǔ)句的含義。 2.2 BERT預(yù)訓(xùn)練模型BERT預(yù)訓(xùn)練模型是一種構(gòu)建在Transformer編碼器基礎(chǔ)之上的,繼承了其深層自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜結(jié)構(gòu)。但與傳統(tǒng)Transformer編碼器存在顯著差異的是,BERT模型的輸入信息由一種多元素的結(jié)構(gòu)組成,包括詞匯嵌入(token embeddings)、片段嵌入(segment embeddings)以及位置嵌入(position embeddings)。憑借這一結(jié)構(gòu)組成,BERT模型可有效解決傳統(tǒng)Transformer模型無(wú)法考慮文本時(shí)序信息的問(wèn)題。 此外,BERT模型通過(guò)在大量未標(biāo)注的文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,能夠得到包含深度語(yǔ)義信息的文本向量。在此基礎(chǔ)上,只需適當(dāng)“微調(diào)”模型參數(shù),即可將其廣泛應(yīng)用于序列標(biāo)注、文本分類等多種下游訓(xùn)練任務(wù)中。訓(xùn)練任務(wù)一般包括掩碼語(yǔ)言模型(masked language model,MLM)和上下句預(yù)測(cè)任務(wù)(next sentence prediction,NSP)兩種。在MLM任務(wù)中,BERT模型通過(guò)在輸入的文本序列中隨機(jī)掩蓋一些單詞,并要求模型預(yù)測(cè)這些被掩蓋的單詞。該項(xiàng)任務(wù)能夠促使模型學(xué)習(xí)到單詞的上下文信息,以便更好地理解語(yǔ)言的語(yǔ)義和句法結(jié)構(gòu)。在NSP任務(wù)中,BERT模型則將隨機(jī)兩個(gè)句子作為輸入,并預(yù)測(cè)這兩個(gè)句子是否具有連續(xù)關(guān)系,以此幫助模型理解句子之間的邏輯關(guān)系和語(yǔ)義連貫性。 BERT模型結(jié)構(gòu)如圖2所示。BERT模型的語(yǔ)義獲取部分由多個(gè)Transformer模型的編碼層(encoder)連接而成。經(jīng)過(guò)多重編碼層的處理,模型能夠深入挖掘句子中的語(yǔ)義特征,最后輸送到下游任務(wù)進(jìn)行目標(biāo)任務(wù)操作。為了獲取文本的深層語(yǔ)義信息,BERT模型一般由多個(gè)編碼層組成,例如,BERT-base模型中包含12個(gè)編碼層,BERT-large模型中包含24個(gè)編碼層。 2.3 基于BERT模型的多層特征融合策略在近年的深度學(xué)習(xí)研究中,編碼層的數(shù)量常被視為模型深度與復(fù)雜度的象征。但隨著編碼層的逐漸增多,模型可能會(huì)呈現(xiàn)超出其本質(zhì)的文本解讀,從而使得模型在未知數(shù)據(jù)上受到特定噪音或異常特征的影響。這種現(xiàn)象不僅會(huì)導(dǎo)致模型的泛化能力下降,而且容易引發(fā)過(guò)擬合現(xiàn)象,即模型在訓(xùn)練數(shù)據(jù)上展現(xiàn)出色,但在驗(yàn)證或測(cè)試集上性能不佳。 考慮到上述問(wèn)題,本文提出一種基于BERT預(yù)訓(xùn)練模型的多層次特征融合策略。選擇BERT作為基礎(chǔ),是基于其在各種自然語(yǔ)言處理任務(wù)上已經(jīng)證明的優(yōu)越性能及其深度的Transformer架構(gòu),能為文本編碼帶來(lái)豐富的上下文信息。其基本結(jié)構(gòu)如圖3所示。
圖3 基于BERT預(yù)訓(xùn)練模型的多層次特征融合策略 下載原圖 Fig.3 Multi-level feature fusion strategy based on BERT pre-trained model 具體步驟包括: (1)多層特征提取。傳統(tǒng)方法通常從BERT模型的最后一層提取特征,但這種方法可能會(huì)漏掉模型初級(jí)編碼層的關(guān)鍵信息。為了充分利用BERT模型的多層結(jié)構(gòu),本文采用從每個(gè)編碼層提取“[CLS]”向量的方法,該向量能夠代表輸入序列的語(yǔ)義特征。通過(guò)這種方法,不僅能夠捕捉到文本的高級(jí)語(yǔ)義信息,而且能夠獲得初級(jí)編碼層的語(yǔ)法和詞匯特征。 (2)特征融合。將各編碼層的“[CLS]”向量進(jìn)行拼接操作,從而構(gòu)建一個(gè)綜合特征向量。此步驟的目的在于整合BERT模型中各層的特征信息,以保證細(xì)節(jié)的完整性。經(jīng)此步驟得到的特征序列是融合多個(gè)語(yǔ)義層次的綜合文本表示。 (3)引入自注意力機(jī)制。經(jīng)上述步驟雖然得到融合多層次的特征序列,但并非所有特征都同等重要,需要利用自注意力機(jī)制對(duì)特征進(jìn)行篩選和加權(quán),從而強(qiáng)化其中的關(guān)鍵特征并抑制不相關(guān)或者冗余的信息。 2.4 TextCNN模型TextCNN(text convolutional neural network)模型是CNN模型的一種變體,是利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本分類的算法,其模型結(jié)構(gòu)如圖4所示。與普通的CNN模型相同,TextCNN模型也是由嵌入層、卷積層、池化層以及全連接層組成。但與傳統(tǒng)CNN模型不同的是,TextCNN模型的卷積核的寬度與詞向量的維度相等,且卷積核只會(huì)在句子矩陣的高度方向移動(dòng)。使用大小不同的卷積核進(jìn)行卷積操作能夠充分學(xué)習(xí)上下文之間的語(yǔ)義關(guān)系,捕捉句子中的局部相關(guān)性,從而得到更加全面的特征數(shù)據(jù)。 (1)嵌入層。嵌入層的作用是將輸入的句子進(jìn)行向量化處理,從而得到一個(gè)句子矩陣,矩陣的行是對(duì)應(yīng)的詞向量。例如,目標(biāo)語(yǔ)句X中包含n個(gè)詞語(yǔ),每個(gè)詞語(yǔ)用k維的向量表示,則該目標(biāo)語(yǔ)句對(duì)應(yīng)的矩陣維度為n×k,矩陣大小如式(2)所示: 其中,Xi為文本中第i個(gè)詞語(yǔ)的詞向量表示,⊕為向量的拼接操作。 (2)卷積層。卷積層是TextCNN模型的核心部分,卷積層通過(guò)利用不同大小的卷積核對(duì)嵌入層生成的句子矩陣進(jìn)行卷積操作得到特征矩陣C=[c1,c2,…,cn-1,cn]。例如,卷積核的大小為h×k,其中h是卷積核覆蓋的詞語(yǔ)的數(shù)量,k是詞向量的維度,則卷積操作可用式(3)表示: 其中,ci為卷積結(jié)果的第i個(gè)元素,W為卷積核的權(quán)重矩陣,·為矩陣點(diǎn)乘,Xi:i+h-1為輸入矩陣的一個(gè)片段,b為偏置項(xiàng),f為激活函數(shù),例如ReLU函數(shù)。 (3)池化層。由于不同大小的卷積核生成的特征映射的維度不同,需要通過(guò)池化層對(duì)卷積層輸出的特征圖進(jìn)行池化處理,以得到固定長(zhǎng)度的特征向量。常用的池化方法是1-max池化方法,即選擇每個(gè)特征映射中的最大值作為該特征映射的代表值,從而實(shí)現(xiàn)對(duì)每個(gè)特征映射的壓縮。具體計(jì)算過(guò)程如式(4)所示。在此基礎(chǔ)上,將所有卷積核的池化結(jié)果進(jìn)行拼接,得到由最大特征值組成的全局特征 (4)全連接層。全連接層在TextCNN模型中起到?jīng)Q斷的作用。在卷積層和池化層對(duì)特征進(jìn)行提取和合并之后,在全連接層中使用softmax激活函數(shù)得到最終的分類結(jié)果,具體計(jì)算公式如下: 2.5 BERT-MLFF-TextCNN模型本文在上述基礎(chǔ)上提出基于BERT多層次特征融合的TextCNN文本分類模型(BERT-MLFF-TextCNN),模型結(jié)構(gòu)如圖5所示,主要組成如下: (1)BERT編碼層。該模型首先借助BERT預(yù)訓(xùn)練模型對(duì)輸入的文本數(shù)據(jù)進(jìn)行編碼。BERT預(yù)訓(xùn)練模型作為一種深度雙向的Transformer模型,已被證明在各種自然語(yǔ)言處理任務(wù)中具有超越其他模型的性能。利用BERT對(duì)文本進(jìn)行編碼能夠?yàn)楹罄m(xù)的特征提取和分類提供豐富而準(zhǔn)確的文本表示。 (2)多層次特征融合層。在文本編碼的過(guò)程中,該模型特別強(qiáng)調(diào)了對(duì)BERT模型各編碼層中“[CLS]”向量的提取和利用。通過(guò)對(duì)多個(gè)層次的“[CLS]”向量進(jìn)行拼接,能夠融合文本的淺層語(yǔ)義和深層語(yǔ)義特征,從而有效提高模型的特征表示能力。 (3)自注意力層。為了進(jìn)一步強(qiáng)化文本中的關(guān)鍵語(yǔ)音信息,BERT-MLFF-TextCNN模型引入了自注意力機(jī)制對(duì)特征序列進(jìn)行動(dòng)態(tài)賦權(quán)。這意味著不同特征在模型的決策中將有不同的權(quán)重,有助于模型更為準(zhǔn)確地捕捉文本中的關(guān)鍵部分。 (4)TextCNN分類層。經(jīng)過(guò)上述的特征提取和增強(qiáng)后,特征序列被輸入TextCNN模型中進(jìn)行分類。TextCNN模型擅長(zhǎng)捕捉局部關(guān)聯(lián)特征,通過(guò)這種方式,可以確保模型充分挖掘文本中的局部信息。 綜合來(lái)看,BERT-MLFF-TextCNN模型實(shí)現(xiàn)了深層與淺層、全局與局部特征的有機(jī)融合。這種設(shè)計(jì)理念為文本數(shù)據(jù)提供了一個(gè)更為全面的特征表示,從而使模型在文本分類任務(wù)中展現(xiàn)出更強(qiáng)的魯棒性和準(zhǔn)確性。 3 實(shí)驗(yàn)應(yīng)用研究3.1 實(shí)驗(yàn)數(shù)據(jù)集獲取與預(yù)處理3.1.1 數(shù)據(jù)集獲取抖音作為網(wǎng)絡(luò)輿情傳播載體,自上線以來(lái)便受到廣大網(wǎng)民的追捧,并迅速發(fā)展成為互聯(lián)網(wǎng)的流量高地。根據(jù)抖音平臺(tái)公布的數(shù)據(jù),截至2021年6月,抖音的日活躍用戶數(shù)已經(jīng)超過(guò)了1.5億,月活躍用戶數(shù)更是超過(guò)了3億。此外,已有超500家政府和媒體機(jī)構(gòu)落戶抖音平臺(tái),由此可見(jiàn)抖音在短視頻平臺(tái)領(lǐng)域的影響力和代表性 3.1.2 數(shù)據(jù)預(yù)處理為了提高模型的準(zhǔn)確性,需要先對(duì)收集到的數(shù)據(jù)集進(jìn)行預(yù)處理操作。具體包括以下步驟: 首先,刪除無(wú)效文本。由于數(shù)據(jù)采集均來(lái)自于抖音平臺(tái)的評(píng)論區(qū),采集到的文本數(shù)據(jù)經(jīng)常存在“@+用戶名”形式的內(nèi)容。鑒于“用戶名”中包含的字符會(huì)對(duì)情感分析產(chǎn)生影響,對(duì)于此類文本數(shù)據(jù)不能簡(jiǎn)單地刪除“@”特殊符號(hào),而應(yīng)當(dāng)刪除整條數(shù)據(jù)。此外,在數(shù)據(jù)采集的過(guò)程發(fā)現(xiàn)存在借用評(píng)論區(qū)為其他熱點(diǎn)事件引流的情況,例如,“毒教材事件怎么沒(méi)有人關(guān)注”“麻煩大家關(guān)注一下上海金山案件”等評(píng)論。類似評(píng)論與視頻主題無(wú)關(guān),同樣應(yīng)當(dāng)刪除。 其次,分詞與停用詞過(guò)濾。借助Jieba工具完成中文分詞,并在此基礎(chǔ)上通過(guò)自定義詞典和正則表達(dá)式完成停用詞過(guò)濾。 最后,分類標(biāo)注。對(duì)經(jīng)過(guò)上述處理的評(píng)論信息進(jìn)行標(biāo)注,用“0”表示“消極情感”,用“1”表示“積極情感”,最終得到包含消極情感的評(píng)論8 957條,包含積極情感的評(píng)論9 631條,具體數(shù)據(jù)分布情況如表3所示。本研究使用的評(píng)論數(shù)據(jù)共18 588條,屬于小規(guī)模樣本集(幾萬(wàn)量級(jí))。因此,按照6∶2∶2的比例將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集以及測(cè)試集。 3.2 實(shí)驗(yàn)環(huán)境與超參數(shù)取值本文使用的實(shí)驗(yàn)平臺(tái)為Anaconda,硬件為Intel i7-12700H處理器,16 GB內(nèi)存,RTX 3060處理器。編碼采用Python 3.7.16版本,深度學(xué)習(xí)庫(kù)為Pytorch1.13.1,機(jī)器學(xué)習(xí)庫(kù)為Sklearn 1.0.2。為了確保模型取得更好效果,在保持其他參數(shù)不變的情況下,通過(guò)多次實(shí)驗(yàn)調(diào)整模型的可調(diào)參數(shù),最后確定最佳參數(shù)值,如表4所示。 3.3 評(píng)估指標(biāo)本文實(shí)驗(yàn)使用的評(píng)價(jià)指標(biāo)包括四個(gè):精確率(Precision)、召回率(Recall)、F1值和準(zhǔn)確率(Accuracy)。其中,精確率記作“P”,召回率記作“R”。由于本文實(shí)驗(yàn)在本質(zhì)上屬于文本情感分析中的二分類任務(wù),可以參考二分類的混淆矩陣定義計(jì)算符號(hào):TP表示真實(shí)值和預(yù)測(cè)值均為正類的樣本數(shù)量;FN表示真實(shí)值為正類,預(yù)測(cè)值為負(fù)類的樣本數(shù)量;FP表示真實(shí)值為負(fù)類,預(yù)測(cè)值為正類的樣本數(shù)量;TN表示真實(shí)值和預(yù)測(cè)值均為負(fù)類的樣本數(shù)量。本文實(shí)驗(yàn)使用的評(píng)價(jià)指標(biāo)的計(jì)算方式如式(7)~(10)所示 4 研究結(jié)果4.1 性能評(píng)價(jià)為驗(yàn)證BERT-MLFF-TextCNN模型的有效性,本文分別計(jì)算了BERT-MLFF-TextCNN、BERT-TextCNN、Word2vec-TextCNN及GloVe-TextCNN四種模型在數(shù)據(jù)集上的精確率、召回率、準(zhǔn)確率和F1值,結(jié)果如表5所示。 可以看出:在上述四類文本情感分析模型中,BERT-MLFF-TextCNN模型表現(xiàn)最佳。F1值方面,BERT-MLFF-TextCNN模型達(dá)到了0.977,與BERT-TextCNN模型、GloVe-TextCNN模型和Word2vecTextCNN模型相比,均有所提升。 4.2 主題可視化與對(duì)策建議主題詞的提取過(guò)程通常需要借助無(wú)監(jiān)督學(xué)習(xí)的方法,比如TF-IDF(term frequency inverse document frequency)、隱含狄利克雷分布(latent Dirichlet allocation,LDA)以及TextRank算法等。與其他方法相比,TextRank的優(yōu)勢(shì)在于它能夠直接進(jìn)行主題詞的提取,無(wú)需進(jìn)行預(yù)先訓(xùn)練?;驹硎牵菏紫?,利用詞匯間的共現(xiàn)關(guān)系構(gòu)建詞匯連接圖,將每個(gè)詞與其相鄰詞的連接視作一種投票機(jī)制,連接的數(shù)量反映邊的權(quán)重。然后,通過(guò)迭代計(jì)算獲得詞語(yǔ)的重要性直至收斂。最后,根據(jù)重要性對(duì)詞匯進(jìn)行排序,選擇排名前列的一些詞作為關(guān)鍵詞 從圖6中可以看出,積極情感極性的評(píng)論的關(guān)鍵詞主要包括“報(bào)警”“勇敢”“老板娘”等。此類評(píng)論主要是網(wǎng)民對(duì)老板娘保存監(jiān)控視頻以及現(xiàn)場(chǎng)女生報(bào)警行為的稱贊。例如“面對(duì)惡人不顧自身安危,勇敢報(bào)警,是當(dāng)代見(jiàn)義勇為的女英雄,為你點(diǎn)贊”“感謝老板娘保存完整監(jiān)控”等。 與積極情緒相比,輿情事件中的消極情緒更應(yīng)得到政府相關(guān)部門(mén)的重視,這是因?yàn)橄麡O情緒的輿情影響力遠(yuǎn)大于積極情緒,若政府相關(guān)部門(mén)不能及時(shí)采取行動(dòng),這些負(fù)面信息會(huì)迅速產(chǎn)生嚴(yán)重的社會(huì)影響,甚至由線上引發(fā)線下沖突 基于上述分析,未來(lái)應(yīng)加強(qiáng)以下幾方面的工作: 第一,及時(shí)發(fā)布權(quán)威有效信息。在網(wǎng)絡(luò)輿情事件爆發(fā)初期,網(wǎng)民所掌握的信息量有限,對(duì)輿情事件的認(rèn)知判斷主要受自身情緒的影響。在此情況下,當(dāng)網(wǎng)民接觸到不實(shí)言論和偏執(zhí)評(píng)價(jià)時(shí),極易產(chǎn)生負(fù)面情緒,并在心理上形成難以修正的“第一印象”。因此,政府部門(mén)必須及時(shí)發(fā)布權(quán)威且有效的信息。為了有效控制網(wǎng)絡(luò)輿論,政府應(yīng)采取兩項(xiàng)關(guān)鍵措施:首先,應(yīng)遵循“輿情黃金4小時(shí)法則”,在網(wǎng)絡(luò)輿情發(fā)生后的最初4小時(shí)內(nèi)迅速發(fā)布權(quán)威信息,并積極回應(yīng)公眾疑慮,以贏得輿論引導(dǎo)的優(yōu)勢(shì)。其次,應(yīng)持續(xù)更新并發(fā)布后續(xù)權(quán)威信息,遵循“快速報(bào)道事實(shí)、謹(jǐn)慎分析原因、重視表明態(tài)度、持續(xù)更新進(jìn)展”的原則,確保在法律允許的范圍內(nèi)盡可能多地公開(kāi)信息,讓公眾了解更多真實(shí)情況。 第二,充分發(fā)揮政務(wù)新媒體的作用。媒體作為“輿論緩沖”的平臺(tái),能夠在滿足自身價(jià)值觀實(shí)現(xiàn)的同時(shí)確保公眾對(duì)于某一時(shí)間的不滿情緒得到法律允許前提下的發(fā)泄,從而達(dá)到穩(wěn)定社會(huì)情緒的作用 第三,疏導(dǎo)公眾負(fù)面情緒。情緒宜“疏”不宜“堵”,網(wǎng)絡(luò)輿情中產(chǎn)生的負(fù)面情緒不宜用壓抑的方式去解決,壓抑和抵制反而會(huì)引發(fā)更激烈的憤怒和不滿情緒,導(dǎo)致輿論爆發(fā)和群體情緒化 5 結(jié)束語(yǔ)本文提出了一種基于BERT多層次特征融合的文本分類模型BERT-MLFF-TextCNN,以抖音短視頻平臺(tái)為例,對(duì)“唐山打人事件”中的熱門(mén)輿情評(píng)論進(jìn)行情感分析。實(shí)驗(yàn)結(jié)果表明,與BERT-TextCNN、GloVe-TextCNN和Word2vec-TextCNN模型相比,BERT-MLFF-TextCNN模型展示出了更為優(yōu)秀的性能。在此基礎(chǔ)上,利用TextRank算法提取評(píng)論信息中的熱門(mén)主題詞,并進(jìn)一步分析深層次的原因,從而為政府相關(guān)部門(mén)的輿情管控工作提供決策參考。在本研究中,數(shù)據(jù)采集主要集中在抖音短視頻平臺(tái)。為進(jìn)一步拓展研究的廣度和深度,未來(lái)研究應(yīng)考慮將快手、微信視頻號(hào)等其他短視頻平臺(tái)作為補(bǔ)充數(shù)據(jù)來(lái)源。此外,在數(shù)據(jù)處理部分,本文僅將評(píng)論的情感傾向分為積極和消極兩類,這種做法雖然為后續(xù)研究提供了便利,但是也丟失了一些有價(jià)值的信息?;诖?,在下一步研究中,可通過(guò)增加情感類別,將評(píng)論情感傾向劃分到更細(xì)粒度,為輿情管控工作提供更具針對(duì)性的決策依據(jù)。 作者圖片
![]() ![]() ![]() 參考文獻(xiàn) |
|
|