全文閱讀

戴維斯王朝 2024-05-17 發(fā)布于廣東

展開(kāi)全文

計(jì)算機(jī)科學(xué)與探索 2024,18(04),1010-1020

融合BERT多層次特征的短視頻網(wǎng)絡(luò)輿情情感分析研究

自媒體時(shí)代與網(wǎng)絡(luò)社交軟件的廣泛普及，導(dǎo)致短視頻平臺(tái)極易成為輿情事件起源和發(fā)酵的“孵化器”。分析短視頻平臺(tái)中的輿情評(píng)論信息，對(duì)于輿情事件的預(yù)警、處置和引導(dǎo)具有重要意義。鑒于此，結(jié)合BERT與TextCNN模型，提出一種融合BERT多層次特征的文本分類模型（BERT-MLFF-TextCNN），并對(duì)抖音短視頻平臺(tái)中的相關(guān)評(píng)論文本數(shù)據(jù)進(jìn)行情感分析。首先，利用BERT預(yù)訓(xùn)練模型對(duì)輸入文本進(jìn)行編碼。其次，提取各編碼層中的語(yǔ)義特征向量進(jìn)行融合。然后，融入自注意力機(jī)制突出其關(guān)鍵特征，從而實(shí)現(xiàn)特征的有效利用。最后，將所得特征序列輸入TextCNN模型中進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明，與BERT-TextCNN、GloVeTextCNN和Word2vec-TextCNN模型相比，BERT-MLFF-TextCNN模型表現(xiàn)更優(yōu)，F(xiàn)1值達(dá)到了0.977。通過(guò)該模型能夠有效識(shí)別短視頻平臺(tái)輿情的情感傾向，在此基礎(chǔ)上利用TextRank算法進(jìn)行主題挖掘，實(shí)現(xiàn)輿情評(píng)論情感極性的主題詞可視化，為相關(guān)部門(mén)的輿情管控工作提供決策參考。

關(guān)鍵詞：網(wǎng)絡(luò)輿情;情感分析;主題可視化;BERT;

作者簡(jiǎn)介：韓坤（1999—），男，河南商丘人，碩士研究生，主要研究方向?yàn)榫W(wǎng)絡(luò)輿情管理、大數(shù)據(jù)分析。;潘宏鵬（1996—），男，山東濰坊人，博士研究生，主要研究方向?yàn)榫W(wǎng)絡(luò)輿情管理、大數(shù)據(jù)分析。;*劉忠軼（1983—），男，河北滄州人，博士，教授，主要研究方向?yàn)橹腔酃芾砼c人工智能。E-mail:liuzhongyi@ppsuc.edu.cn;

收稿日期：2023-11-02

基金：中國(guó)人民公安大學(xué)公安學(xué)一流學(xué)科培優(yōu)行動(dòng)及公共安全行為科學(xué)實(shí)驗(yàn)室建設(shè)項(xiàng)目（2023ZB02）;北京社科基金重點(diǎn)項(xiàng)目（22GLA011）;

Research on Sentiment Analysis of Short Video Network Public Opinion by Integrating BERT Multi-level Features

HAN Kun PAN Hongpeng LIU Zhongyi

School of Public Security Management, People's Public Security University of China

Abstract：

The era of self-media and the widespread popularity of online social software have led to short video platforms becoming“incubators”easily for the origin and fermentation of public opinion events. Analyzing the public opinion comments on these platforms is crucial for the early warning, handling, and guidance of such incidents. In view of this, this paper proposes a text classification model combining BERT and TextCNN, named BERT-MLFFTextCNN, which integrates multi-level features from BERT for sentiment analysis of relevant comment data on the Douyin short video platform. Firstly, the BERT pre-trained model is used to encode the input text. Secondly, semantic feature vectors from each encoding layer are extracted and fused. Subsequently, a self-attention mechanism is integrated to highlight key features, thereby effectively utilizing them. Finally, the resulting feature sequence is input into the TextCNN model for classification. The results demonstrate that the BERT-MLFF-TextCNN model outperforms BERT-TextCNN, GloVe-TextCNN, and Word2vec-TextCNN models, achieving an F1 score of 0.977. This model effectively identifies the emotional tendencies in public opinions on short video platforms. Based on this, using the TextRank algorithm for topic mining allows for the visualization of thematic words related to the sentiment polarity of public opinion comments, providing a decision-making reference for relevant departments in the public opinion management work.

Keyword：

network public opinion; sentiment analysis; theme visualization; BERT;

Author： HAN Kun, born in 1999, M.S. candidate. His research interests include network public opinion management and big data analysis.; PAN Hongpeng, born in 1996, Ph.D. candidate. His research interests include network public opinion management and big data analysis.; LIU Zhongyi, born in 1983, Ph.D., professor. His research interests include smart management and artificial intelligence.;

Received： 2023-11-02

Fund：supported by the Construction Project of the First Class Discipline Training Action and Public Safety Behavior Science Laboratory of Public Security at People’s Public Security University of China(2023ZB02);the Key Project of Beijing Social Science Foundation(22GLA011);

隨著移動(dòng)互聯(lián)網(wǎng)的飛速發(fā)展，我國(guó)互聯(lián)網(wǎng)用戶數(shù)量持續(xù)增長(zhǎng)。根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心（China Internet Network Information Center,CNNIC）發(fā)布的第52次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示：截至2023年6月，我國(guó)網(wǎng)民規(guī)模已達(dá)10.79億，較2022年12月增長(zhǎng)1 109萬(wàn)，互聯(lián)網(wǎng)普及率達(dá)76.4%^[1]。各種基于互聯(lián)網(wǎng)的短視頻平臺(tái)已成為網(wǎng)民發(fā)布和獲取信息的重要渠道。其中，抖音憑借其受眾兼容性強(qiáng)、內(nèi)容普及性高、門(mén)檻準(zhǔn)入性低等優(yōu)勢(shì)，目前已成為主流平臺(tái)之一。截至2023年1月，抖音用戶數(shù)量已達(dá)8.09億，其知名度和影響力均領(lǐng)先于其他短視頻平臺(tái)。

隨著抖音等短視頻平臺(tái)迅速發(fā)展，海量的富含情緒化的網(wǎng)絡(luò)輿情評(píng)論信息隨之產(chǎn)生。網(wǎng)民在瀏覽短視頻的過(guò)程中，極易受到評(píng)論區(qū)中情緒化信息的影響，甚至改變其對(duì)有關(guān)事件的判斷以及自身的立場(chǎng)。短視頻平臺(tái)的個(gè)性化推送所導(dǎo)致的“信息繭房”效應(yīng)，也強(qiáng)化了情緒化信息的影響。這對(duì)政府部門(mén)的網(wǎng)絡(luò)輿情治理工作提出了新的挑戰(zhàn)，如果不能及時(shí)有效地把控短視頻平臺(tái)中輿情事件的情感趨勢(shì)，極易出現(xiàn)“以訛傳訛”的現(xiàn)象，從而引發(fā)社會(huì)輿論危機(jī)^[2]。在此背景下，情感分析方法能夠精準(zhǔn)識(shí)別短視頻平臺(tái)中輿情情感傾向，充分發(fā)揮網(wǎng)絡(luò)輿情預(yù)警工作的前瞻性，及時(shí)疏導(dǎo)網(wǎng)民負(fù)面情緒，支持政府部門(mén)及時(shí)、準(zhǔn)確、高效地引導(dǎo)網(wǎng)絡(luò)輿情合理、健康發(fā)展^[3]。

鑒于此，本文將文本情感分析技術(shù)引入短視頻網(wǎng)絡(luò)輿情分析領(lǐng)域，設(shè)計(jì)了一種基于BERT(bidirectional encoder representations from transformers）多層次特征融合（multi-level feature fusion,MLFF）的文本分類模型（BERT-MLFF-TextCNN）。在此基礎(chǔ)上，構(gòu)建基于該模型的短視頻網(wǎng)絡(luò)輿情情感分析框架（如圖1所示），以抖音短視頻平臺(tái)作為數(shù)據(jù)源，選取2022年“唐山打人事件”為樣本案例，采集點(diǎn)贊量大于200萬(wàn)的視頻評(píng)論區(qū)文本數(shù)據(jù)進(jìn)行情感分析，并篩選出其中的熱門(mén)主題。通過(guò)結(jié)合不同情感對(duì)應(yīng)的文本信息，研判情感產(chǎn)生的原因，及時(shí)發(fā)現(xiàn)潛在的輿情焦點(diǎn)和隱患，為政府部門(mén)完善輿情分析機(jī)制、防范化解輿情風(fēng)險(xiǎn)提供決策支持。

圖1 短視頻網(wǎng)絡(luò)輿情分析框架下載原圖

Fig.1 Framework of short video public opinion analysis

本文的主要貢獻(xiàn)如下：

(1）提出一種基于BERT多層次特征融合的文本分類模型，該模型不僅能夠深入挖掘文本的高級(jí)語(yǔ)義信息，還能捕捉到語(yǔ)法和詞匯層面的基礎(chǔ)特征，從而實(shí)現(xiàn)更全面的文本分析。

(2）通過(guò)在本研究構(gòu)建的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，有效驗(yàn)證了本文模型的性能。

(3）采用TextRank算法提取主題詞，并通過(guò)可視化手段加以展現(xiàn)。依據(jù)分析結(jié)果，進(jìn)一步提出了具體輿情管理建議。

1 國(guó)內(nèi)外相關(guān)工作

1.1 國(guó)內(nèi)外研究總體分析

1.1.1 國(guó)內(nèi)研究現(xiàn)狀

在知網(wǎng)中以“短視頻”和“輿情”為關(guān)鍵詞進(jìn)行搜索，結(jié)果顯示，自2018年以來(lái)相關(guān)的學(xué)術(shù)期刊共計(jì)388篇。其中，關(guān)于短視頻輿情的研究主要涉及“新聞與媒體”“社會(huì)學(xué)及統(tǒng)計(jì)學(xué)”“行政學(xué)及國(guó)家行政管理”等學(xué)科，而涉及“計(jì)算機(jī)軟件及計(jì)算機(jī)應(yīng)用”學(xué)科的相關(guān)研究文獻(xiàn)僅有4篇。進(jìn)一步將篩選好的文獻(xiàn)以Refworks文件格式導(dǎo)出，并運(yùn)用Citespace軟件對(duì)文獻(xiàn)信息進(jìn)行分析，得出相關(guān)文獻(xiàn)中前10的關(guān)鍵詞與關(guān)鍵詞“情感分析”的頻次和中心性，如表1所示。其中，頻次是指某關(guān)鍵詞在文獻(xiàn)數(shù)據(jù)集中出現(xiàn)的次數(shù)，頻次較高的關(guān)鍵詞通常代表著該研究領(lǐng)域的主要研究主題和熱點(diǎn)。中心性則反映了某個(gè)關(guān)鍵詞在該研究領(lǐng)域中的重要性，也是衡量研究熱度的重要指標(biāo)。

表1 國(guó)內(nèi)研究文獻(xiàn)關(guān)鍵詞頻次下載原圖

Table 1 Keyword frequency in domestic research literature

從表1中可以看出，關(guān)鍵詞“情感分析”僅出現(xiàn)過(guò)1次，對(duì)應(yīng)研究提出了一種融合母評(píng)論文本信息的短文本評(píng)論情感分類模型^[4]。該模型運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network,CNN）提取原評(píng)論文本特征，同時(shí)利用門(mén)控循環(huán)單元（gated recurrent unit,GRU）提取母評(píng)論文本特征，然后將兩種文本特征融合并進(jìn)行情感分類。在此基礎(chǔ)上，利用短視頻平臺(tái)的文本評(píng)論數(shù)據(jù)來(lái)驗(yàn)證該模型的有效性。

1.1.2 國(guó)外研究現(xiàn)狀

國(guó)外研究文獻(xiàn)的搜集以“Web of Science核心合集”為基礎(chǔ)，以“short-form video public opinion”和“short video public opinion”為關(guān)鍵詞，結(jié)果顯示，自2004年以來(lái)相關(guān)的學(xué)術(shù)期刊共計(jì)45篇。其中，關(guān)于短視頻輿情的研究方向主要包括“知識(shí)工程與表達(dá)”“通信技術(shù)”及“法律”等。在此基礎(chǔ)上，將篩選后的文獻(xiàn)以純文本格式導(dǎo)出，并運(yùn)用Citespace軟件對(duì)文獻(xiàn)信息進(jìn)行分析，得出相關(guān)文獻(xiàn)中前10的關(guān)鍵詞與關(guān)鍵詞“情感分析”的頻次和中心性，如表2所示。

如表2所示，與國(guó)內(nèi)研究現(xiàn)狀相似，關(guān)鍵詞“情感分析（sentiment analysis）”僅被提及1次，對(duì)應(yīng)研究提出了一種采用多尺度卷積神經(jīng)網(wǎng)絡(luò)與交叉注意力融合機(jī)制的情感分析模型^[5]，并利用該模型對(duì)短視頻平臺(tái)的視頻、音頻與文本數(shù)據(jù)進(jìn)行情感分析。實(shí)驗(yàn)結(jié)果表明，該模型在準(zhǔn)確率和計(jì)算速度方面均超越了基準(zhǔn)方法。

表2 國(guó)外研究文獻(xiàn)關(guān)鍵詞頻次下載原圖

Table 2 Keyword frequency in foreign research literature

綜合國(guó)內(nèi)外文獻(xiàn)的研究主題可以看出，有關(guān)短視頻網(wǎng)絡(luò)輿情的研究主要聚焦于新媒體動(dòng)態(tài)、用戶行為模式以及輿情引導(dǎo)策略等方面，而針對(duì)文本情感分析技術(shù)在短視頻網(wǎng)絡(luò)輿情管理中的應(yīng)用研究相對(duì)較少。與前人研究相比，本文將情感分析聚焦于短視頻平臺(tái)的評(píng)論文本并對(duì)文本特征提取方式進(jìn)行創(chuàng)新，提出一種基于BERT多層次特征融合的情感分類模型，以提高文本情感分析的準(zhǔn)確率。此外，本研究通過(guò)運(yùn)用TextRank算法提取主題詞并進(jìn)行可視化處理，能夠有效識(shí)別不同情感輿論的焦點(diǎn)，并據(jù)此提出輿情管理建議，增加了本研究在輿情監(jiān)控與決策支持方面的實(shí)際應(yīng)用價(jià)值。

1.2 文本情感分析文獻(xiàn)綜述

文本情感分析也稱為意見(jiàn)挖掘，是指對(duì)帶有情感色彩的主觀性文本進(jìn)行分析，挖掘其中蘊(yùn)含的情感傾向，對(duì)情感極性進(jìn)行劃分^[6]。目前常用的文本情感分析方法主要是基于情感詞典、機(jī)器學(xué)習(xí)以及深度學(xué)習(xí)的方法。

1.2.1 基于情感詞典的分析方法

基于情感詞典的情感分析方法依賴于情感詞典中情感詞語(yǔ)的預(yù)設(shè)情感值，并通過(guò)加權(quán)運(yùn)算得出文本的情感傾向。此類方法在具體實(shí)施過(guò)程中沒(méi)有考慮詞語(yǔ)間的聯(lián)系，即每個(gè)詞語(yǔ)的情感傾向是預(yù)先設(shè)定的，不會(huì)因應(yīng)用領(lǐng)域或上下文語(yǔ)境的不同而有所改變，因此需要針對(duì)特定領(lǐng)域建立相關(guān)的情感詞典來(lái)提高分類的準(zhǔn)確率。周知等^[7]將信息熵與領(lǐng)域情感詞典相結(jié)合，提出了一種新型的評(píng)價(jià)方法，拓寬了領(lǐng)域情感詞典的應(yīng)用場(chǎng)景。柳位平等^[8]利用中文情感詞建立一個(gè)基礎(chǔ)情感詞典用于專一領(lǐng)域情感詞識(shí)別，并且在中文詞語(yǔ)相似度計(jì)算方法的基礎(chǔ)上提出了一種中文情感詞語(yǔ)的情感權(quán)值的計(jì)算方法。該方法能夠有效地在語(yǔ)料庫(kù)中識(shí)別及擴(kuò)展情感詞集并提高情感分類效果。Wu等^[9]利用網(wǎng)絡(luò)資源成功建立首個(gè)針對(duì)俚語(yǔ)的情感詞典，便于準(zhǔn)確分析含有俚語(yǔ)的社交媒體內(nèi)容的情感傾向。Zhang等^[10]將擴(kuò)展后的情感詞典用于計(jì)算微博文本情感分類的權(quán)重，與基本情感詞典相比，擴(kuò)展后的情感詞典在性能方面提高了10%左右。

雖然基于情感詞典的方法具有較強(qiáng)的普適性，并且易于實(shí)現(xiàn)，但該方法對(duì)于情感詞典的構(gòu)建有著較高的要求，這往往需要相關(guān)領(lǐng)域的研究人員投入大量的時(shí)間和精力來(lái)構(gòu)建高質(zhì)量的情感詞典。此外，在互聯(lián)網(wǎng)語(yǔ)境中，新的表達(dá)方式和詞匯不斷涌現(xiàn)，而該方法依賴于預(yù)設(shè)的情感詞典，很容易出現(xiàn)現(xiàn)有情感詞典不能滿足當(dāng)下需求的情況。

1.2.2 基于機(jī)器學(xué)習(xí)的分析方法

基于機(jī)器學(xué)習(xí)的情感分析方法是利用大量有情感標(biāo)記或無(wú)標(biāo)記的文本數(shù)據(jù)進(jìn)行訓(xùn)練，從而構(gòu)建一個(gè)情感分類器。這種分類器可以預(yù)測(cè)新句子的情感傾向。常見(jiàn)的機(jī)器學(xué)習(xí)算法有決策樹(shù)（decision tree,DT）、樸素貝葉斯（naive Bayes,NB）和支持向量機(jī)（support vector machine,SVM）等^[11]。Pang等^[12]利用三種常見(jiàn)的機(jī)器學(xué)習(xí)算法進(jìn)行文本情感分析的對(duì)比研究，結(jié)果表明支持向量機(jī)的效果最優(yōu)。Jadav等^[13]運(yùn)用數(shù)據(jù)增強(qiáng)技術(shù)對(duì)實(shí)驗(yàn)所用的訓(xùn)練集進(jìn)行擴(kuò)充，有效提升了支持向量機(jī)模型的情感分類效果。Dey等^[14]利用樸素貝葉斯算法和K近鄰算法（K-nearest neighbor,KNN）對(duì)電影評(píng)論和酒店評(píng)論進(jìn)行情感分析，發(fā)現(xiàn)樸素貝葉斯算法在電影評(píng)論中表現(xiàn)較好，而在酒店評(píng)論方面，樸素貝葉斯算法的準(zhǔn)確性與KNN算法相差不大。這一研究結(jié)果也突顯了機(jī)器學(xué)習(xí)算法在不同情境和數(shù)據(jù)類型下可能會(huì)有不同的表現(xiàn)。

相對(duì)于基于情感詞典的分析方法，基于機(jī)器學(xué)習(xí)的分析方法對(duì)情感分析更加準(zhǔn)確，并且展現(xiàn)出更強(qiáng)的擴(kuò)展性和復(fù)用性。然而，該方法的分類效果依賴于數(shù)據(jù)集的質(zhì)量，而構(gòu)建大規(guī)模的高質(zhì)量數(shù)據(jù)集需要較高的人工成本。此外，人工標(biāo)注的方式導(dǎo)致數(shù)據(jù)標(biāo)注的結(jié)果具有一定的主觀性，這種主觀性也會(huì)影響模型的分類效果。

1.2.3 基于深度學(xué)習(xí)的分析方法

深度學(xué)習(xí)方法通過(guò)多層次的神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)，有效解決了機(jī)器學(xué)習(xí)難以克服的眾多問(wèn)題，目前在圖像、語(yǔ)音處理以及文本分類等領(lǐng)域均取得了較好的效果。常用的深度學(xué)習(xí)模型包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)（recurrent neural network,RNN）、長(zhǎng)短期記憶網(wǎng)絡(luò)（long short-term memory,LSTM）、Transformer和注意力機(jī)制等。馮興杰等^[15]在CNN模型中引入注意力機(jī)制，并在酒店評(píng)論數(shù)據(jù)集的分析中取得了優(yōu)異效果。Tang等^[16]利用微博評(píng)論文本對(duì)LSTM模型進(jìn)行訓(xùn)練，得到短文本情感分類模型，并借助該模型判別短文本語(yǔ)料的情感傾向。

2018年10月，Google公司提出了BERT預(yù)訓(xùn)練模型^[17]，該模型在11項(xiàng)自然語(yǔ)言處理任務(wù)中均刷新了以往的記錄，成為自然語(yǔ)言處理領(lǐng)域的一項(xiàng)重大突破?；诖耍嘘P(guān)學(xué)者利用大規(guī)模的語(yǔ)料庫(kù)進(jìn)行預(yù)訓(xùn)練，學(xué)習(xí)其中蘊(yùn)含的語(yǔ)義關(guān)系后進(jìn)行下游任務(wù)詞向量的輸入。例如劉思琴等^[18]和方英蘭等^[19]分別利用BERT預(yù)訓(xùn)練模型代替Word2vec和GloVe提取詞向量作為其他模型的輸入，從而取得了更加出色的分類效果。

與前兩種方法相比，基于深度學(xué)習(xí)的分析方法具有顯著優(yōu)勢(shì)。首先，深度學(xué)習(xí)方法具有強(qiáng)大的表示學(xué)習(xí)能力。這種能力使深度學(xué)習(xí)模型能夠自動(dòng)學(xué)習(xí)輸入數(shù)據(jù)與輸出目標(biāo)之間的復(fù)雜映射關(guān)系，有效解決了傳統(tǒng)機(jī)器學(xué)習(xí)方法中需要手動(dòng)設(shè)計(jì)特征的問(wèn)題。其次，深度學(xué)習(xí)方法具有良好的抽象化和泛化能力。深度學(xué)習(xí)模型通過(guò)多層非線性變換，能夠提取更高層次、更加抽象的特征，使得模型能夠更好地理解和分析含有復(fù)雜情景和語(yǔ)義的文本信息，提高了文本情感分析的性能。最后，深度學(xué)習(xí)模型的預(yù)訓(xùn)練和微調(diào)策略為文本情感分析任務(wù)提供了強(qiáng)大的工具。例如，BERT、GPT(generative pre-trained transformer）等預(yù)訓(xùn)練模型在大規(guī)模文本數(shù)據(jù)上進(jìn)行無(wú)監(jiān)督學(xué)習(xí)，獲取豐富的語(yǔ)言表示，然后針對(duì)特定任務(wù)進(jìn)行微調(diào)，這種方法大幅提高了模型的效率和效果。

值得注意的是，深度學(xué)習(xí)也存在諸如“梯度消失”和“梯度爆炸”等問(wèn)題。這些問(wèn)題會(huì)破壞模型在學(xué)習(xí)過(guò)程中的穩(wěn)定性，進(jìn)而影響模型的收斂速度和效果。此外，深度學(xué)習(xí)模型由于其復(fù)雜性，往往難以解釋其決策邏輯，這在某些需要理解模型決策依據(jù)的場(chǎng)景中有待進(jìn)一步剖析。

2 模型構(gòu)建

2.1 自注意力機(jī)制

自注意力機(jī)制（self-attention mechanism）屬于宏觀的注意力機(jī)制（attention mechanism）概念中的一種。關(guān)于注意力機(jī)制的原理，可將其作用過(guò)程視為一個(gè)查詢操作Query和一系列鍵值對(duì)<Key,Value>進(jìn)行依次的交互作用從而使Query得到附加注意力值的過(guò)程，其計(jì)算過(guò)程如式（1）所示：

其中，Q代表查詢向量矩陣Query,K代表鍵向量矩陣Key,V代表值向量矩陣Value,d_K代表鍵向量的維度。通過(guò)使用Q與K進(jìn)行點(diǎn)積運(yùn)算，然后對(duì)運(yùn)算結(jié)果進(jìn)行縮放，并通過(guò)應(yīng)用softmax函數(shù)進(jìn)行歸一化得到注意力權(quán)重Attention(Q,K,V)。所謂自注意力機(jī)制是指特征序列自身與自己進(jìn)行注意力處理，即Q=K=V。經(jīng)過(guò)自注意力機(jī)制處理后，特征序列的整體性會(huì)變得更強(qiáng)，從而更能代表語(yǔ)句的含義。

2.2 BERT預(yù)訓(xùn)練模型

BERT預(yù)訓(xùn)練模型是一種構(gòu)建在Transformer編碼器基礎(chǔ)之上的，繼承了其深層自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜結(jié)構(gòu)。但與傳統(tǒng)Transformer編碼器存在顯著差異的是，BERT模型的輸入信息由一種多元素的結(jié)構(gòu)組成，包括詞匯嵌入（token embeddings）、片段嵌入（segment embeddings）以及位置嵌入（position embeddings）。憑借這一結(jié)構(gòu)組成，BERT模型可有效解決傳統(tǒng)Transformer模型無(wú)法考慮文本時(shí)序信息的問(wèn)題。

此外，BERT模型通過(guò)在大量未標(biāo)注的文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，能夠得到包含深度語(yǔ)義信息的文本向量。在此基礎(chǔ)上，只需適當(dāng)“微調(diào)”模型參數(shù)，即可將其廣泛應(yīng)用于序列標(biāo)注、文本分類等多種下游訓(xùn)練任務(wù)中。訓(xùn)練任務(wù)一般包括掩碼語(yǔ)言模型（masked language model,MLM）和上下句預(yù)測(cè)任務(wù)（next sentence prediction,NSP）兩種。在MLM任務(wù)中，BERT模型通過(guò)在輸入的文本序列中隨機(jī)掩蓋一些單詞，并要求模型預(yù)測(cè)這些被掩蓋的單詞。該項(xiàng)任務(wù)能夠促使模型學(xué)習(xí)到單詞的上下文信息，以便更好地理解語(yǔ)言的語(yǔ)義和句法結(jié)構(gòu)。在NSP任務(wù)中，BERT模型則將隨機(jī)兩個(gè)句子作為輸入，并預(yù)測(cè)這兩個(gè)句子是否具有連續(xù)關(guān)系，以此幫助模型理解句子之間的邏輯關(guān)系和語(yǔ)義連貫性。

BERT模型結(jié)構(gòu)如圖2所示。BERT模型的語(yǔ)義獲取部分由多個(gè)Transformer模型的編碼層（encoder）連接而成。經(jīng)過(guò)多重編碼層的處理，模型能夠深入挖掘句子中的語(yǔ)義特征，最后輸送到下游任務(wù)進(jìn)行目標(biāo)任務(wù)操作。為了獲取文本的深層語(yǔ)義信息，BERT模型一般由多個(gè)編碼層組成，例如，BERT-base模型中包含12個(gè)編碼層，BERT-large模型中包含24個(gè)編碼層。

圖2 BERT模型結(jié)構(gòu) 下載原圖

Fig.2 BERT model structure

2.3 基于BERT模型的多層特征融合策略

在近年的深度學(xué)習(xí)研究中，編碼層的數(shù)量常被視為模型深度與復(fù)雜度的象征。但隨著編碼層的逐漸增多，模型可能會(huì)呈現(xiàn)超出其本質(zhì)的文本解讀，從而使得模型在未知數(shù)據(jù)上受到特定噪音或異常特征的影響。這種現(xiàn)象不僅會(huì)導(dǎo)致模型的泛化能力下降，而且容易引發(fā)過(guò)擬合現(xiàn)象，即模型在訓(xùn)練數(shù)據(jù)上展現(xiàn)出色，但在驗(yàn)證或測(cè)試集上性能不佳。

考慮到上述問(wèn)題，本文提出一種基于BERT預(yù)訓(xùn)練模型的多層次特征融合策略。選擇BERT作為基礎(chǔ)，是基于其在各種自然語(yǔ)言處理任務(wù)上已經(jīng)證明的優(yōu)越性能及其深度的Transformer架構(gòu)，能為文本編碼帶來(lái)豐富的上下文信息。其基本結(jié)構(gòu)如圖3所示。

圖3 基于BERT預(yù)訓(xùn)練模型的多層次特征融合策略下載原圖

Fig.3 Multi-level feature fusion strategy based on BERT pre-trained model

具體步驟包括：

(1）多層特征提取。傳統(tǒng)方法通常從BERT模型的最后一層提取特征，但這種方法可能會(huì)漏掉模型初級(jí)編碼層的關(guān)鍵信息。為了充分利用BERT模型的多層結(jié)構(gòu)，本文采用從每個(gè)編碼層提取“[CLS]”向量的方法，該向量能夠代表輸入序列的語(yǔ)義特征。通過(guò)這種方法，不僅能夠捕捉到文本的高級(jí)語(yǔ)義信息，而且能夠獲得初級(jí)編碼層的語(yǔ)法和詞匯特征。

(2）特征融合。將各編碼層的“[CLS]”向量進(jìn)行拼接操作，從而構(gòu)建一個(gè)綜合特征向量。此步驟的目的在于整合BERT模型中各層的特征信息，以保證細(xì)節(jié)的完整性。經(jīng)此步驟得到的特征序列是融合多個(gè)語(yǔ)義層次的綜合文本表示。

(3）引入自注意力機(jī)制。經(jīng)上述步驟雖然得到融合多層次的特征序列，但并非所有特征都同等重要，需要利用自注意力機(jī)制對(duì)特征進(jìn)行篩選和加權(quán)，從而強(qiáng)化其中的關(guān)鍵特征并抑制不相關(guān)或者冗余的信息。

2.4 TextCNN模型

TextCNN(text convolutional neural network）模型是CNN模型的一種變體，是利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本分類的算法，其模型結(jié)構(gòu)如圖4所示。與普通的CNN模型相同，TextCNN模型也是由嵌入層、卷積層、池化層以及全連接層組成。但與傳統(tǒng)CNN模型不同的是，TextCNN模型的卷積核的寬度與詞向量的維度相等，且卷積核只會(huì)在句子矩陣的高度方向移動(dòng)。使用大小不同的卷積核進(jìn)行卷積操作能夠充分學(xué)習(xí)上下文之間的語(yǔ)義關(guān)系，捕捉句子中的局部相關(guān)性，從而得到更加全面的特征數(shù)據(jù)。

圖4 TextCNN模型結(jié)構(gòu) 下載原圖

Fig.4 TextCNN model structure

(1）嵌入層。嵌入層的作用是將輸入的句子進(jìn)行向量化處理，從而得到一個(gè)句子矩陣，矩陣的行是對(duì)應(yīng)的詞向量。例如，目標(biāo)語(yǔ)句X中包含n個(gè)詞語(yǔ)，每個(gè)詞語(yǔ)用k維的向量表示，則該目標(biāo)語(yǔ)句對(duì)應(yīng)的矩陣維度為n×k，矩陣大小如式（2）所示：

其中，X_i為文本中第i個(gè)詞語(yǔ)的詞向量表示，⊕為向量的拼接操作。

(2）卷積層。卷積層是TextCNN模型的核心部分，卷積層通過(guò)利用不同大小的卷積核對(duì)嵌入層生成的句子矩陣進(jìn)行卷積操作得到特征矩陣C=[c₁,c₂,…,c_n-1,c_n]。例如，卷積核的大小為h×k，其中h是卷積核覆蓋的詞語(yǔ)的數(shù)量，k是詞向量的維度，則卷積操作可用式（3）表示：

其中，c_i為卷積結(jié)果的第i個(gè)元素，W為卷積核的權(quán)重矩陣，·為矩陣點(diǎn)乘，X_i:i+h-1為輸入矩陣的一個(gè)片段，b為偏置項(xiàng)，f為激活函數(shù)，例如ReLU函數(shù)。

(3）池化層。由于不同大小的卷積核生成的特征映射的維度不同，需要通過(guò)池化層對(duì)卷積層輸出的特征圖進(jìn)行池化處理，以得到固定長(zhǎng)度的特征向量。常用的池化方法是1-max池化方法，即選擇每個(gè)特征映射中的最大值作為該特征映射的代表值，從而實(shí)現(xiàn)對(duì)每個(gè)特征映射的壓縮。具體計(jì)算過(guò)程如式（4）所示。在此基礎(chǔ)上，將所有卷積核的池化結(jié)果進(jìn)行拼接，得到由最大特征值組成的全局特征，如式(5）所示。

(4）全連接層。全連接層在TextCNN模型中起到?jīng)Q斷的作用。在卷積層和池化層對(duì)特征進(jìn)行提取和合并之后，在全連接層中使用softmax激活函數(shù)得到最終的分類結(jié)果，具體計(jì)算公式如下：

2.5 BERT-MLFF-TextCNN模型

本文在上述基礎(chǔ)上提出基于BERT多層次特征融合的TextCNN文本分類模型（BERT-MLFF-TextCNN），模型結(jié)構(gòu)如圖5所示，主要組成如下：

(1)BERT編碼層。該模型首先借助BERT預(yù)訓(xùn)練模型對(duì)輸入的文本數(shù)據(jù)進(jìn)行編碼。BERT預(yù)訓(xùn)練模型作為一種深度雙向的Transformer模型，已被證明在各種自然語(yǔ)言處理任務(wù)中具有超越其他模型的性能。利用BERT對(duì)文本進(jìn)行編碼能夠?yàn)楹罄m(xù)的特征提取和分類提供豐富而準(zhǔn)確的文本表示。

(2）多層次特征融合層。在文本編碼的過(guò)程中，該模型特別強(qiáng)調(diào)了對(duì)BERT模型各編碼層中“[CLS]”向量的提取和利用。通過(guò)對(duì)多個(gè)層次的“[CLS]”向量進(jìn)行拼接，能夠融合文本的淺層語(yǔ)義和深層語(yǔ)義特征，從而有效提高模型的特征表示能力。

(3）自注意力層。為了進(jìn)一步強(qiáng)化文本中的關(guān)鍵語(yǔ)音信息，BERT-MLFF-TextCNN模型引入了自注意力機(jī)制對(duì)特征序列進(jìn)行動(dòng)態(tài)賦權(quán)。這意味著不同特征在模型的決策中將有不同的權(quán)重，有助于模型更為準(zhǔn)確地捕捉文本中的關(guān)鍵部分。

(4)TextCNN分類層。經(jīng)過(guò)上述的特征提取和增強(qiáng)后，特征序列被輸入TextCNN模型中進(jìn)行分類。TextCNN模型擅長(zhǎng)捕捉局部關(guān)聯(lián)特征，通過(guò)這種方式，可以確保模型充分挖掘文本中的局部信息。

圖5 BERT-MLFF-TextCNN文本分類模型下載原圖

Fig.5 BERT-MLFF-TextCNN text classification model

綜合來(lái)看，BERT-MLFF-TextCNN模型實(shí)現(xiàn)了深層與淺層、全局與局部特征的有機(jī)融合。這種設(shè)計(jì)理念為文本數(shù)據(jù)提供了一個(gè)更為全面的特征表示，從而使模型在文本分類任務(wù)中展現(xiàn)出更強(qiáng)的魯棒性和準(zhǔn)確性。

3 實(shí)驗(yàn)應(yīng)用研究

3.1 實(shí)驗(yàn)數(shù)據(jù)集獲取與預(yù)處理

3.1.1 數(shù)據(jù)集獲取

抖音作為網(wǎng)絡(luò)輿情傳播載體，自上線以來(lái)便受到廣大網(wǎng)民的追捧，并迅速發(fā)展成為互聯(lián)網(wǎng)的流量高地。根據(jù)抖音平臺(tái)公布的數(shù)據(jù)，截至2021年6月，抖音的日活躍用戶數(shù)已經(jīng)超過(guò)了1.5億，月活躍用戶數(shù)更是超過(guò)了3億。此外，已有超500家政府和媒體機(jī)構(gòu)落戶抖音平臺(tái)，由此可見(jiàn)抖音在短視頻平臺(tái)領(lǐng)域的影響力和代表性^[20]。鑒于此，本實(shí)驗(yàn)選取2022年“唐山打人事件”為樣本案例，以抖音短視頻平臺(tái)作為數(shù)據(jù)源，利用基于Pycharm開(kāi)發(fā)環(huán)境構(gòu)建的爬蟲(chóng)工具進(jìn)行數(shù)據(jù)采集，從中爬取2022年6月1日至2022年8月1日間有關(guān)“唐山打人事件”的評(píng)論信息共計(jì)21 045條，組成實(shí)驗(yàn)數(shù)據(jù)集。

3.1.2 數(shù)據(jù)預(yù)處理

為了提高模型的準(zhǔn)確性，需要先對(duì)收集到的數(shù)據(jù)集進(jìn)行預(yù)處理操作。具體包括以下步驟：

首先，刪除無(wú)效文本。由于數(shù)據(jù)采集均來(lái)自于抖音平臺(tái)的評(píng)論區(qū)，采集到的文本數(shù)據(jù)經(jīng)常存在“@+用戶名”形式的內(nèi)容。鑒于“用戶名”中包含的字符會(huì)對(duì)情感分析產(chǎn)生影響，對(duì)于此類文本數(shù)據(jù)不能簡(jiǎn)單地刪除“@”特殊符號(hào)，而應(yīng)當(dāng)刪除整條數(shù)據(jù)。此外，在數(shù)據(jù)采集的過(guò)程發(fā)現(xiàn)存在借用評(píng)論區(qū)為其他熱點(diǎn)事件引流的情況，例如，“毒教材事件怎么沒(méi)有人關(guān)注”“麻煩大家關(guān)注一下上海金山案件”等評(píng)論。類似評(píng)論與視頻主題無(wú)關(guān)，同樣應(yīng)當(dāng)刪除。

其次，分詞與停用詞過(guò)濾。借助Jieba工具完成中文分詞，并在此基礎(chǔ)上通過(guò)自定義詞典和正則表達(dá)式完成停用詞過(guò)濾。

最后，分類標(biāo)注。對(duì)經(jīng)過(guò)上述處理的評(píng)論信息進(jìn)行標(biāo)注，用“0”表示“消極情感”，用“1”表示“積極情感”，最終得到包含消極情感的評(píng)論8 957條，包含積極情感的評(píng)論9 631條，具體數(shù)據(jù)分布情況如表3所示。本研究使用的評(píng)論數(shù)據(jù)共18 588條，屬于小規(guī)模樣本集（幾萬(wàn)量級(jí)）。因此，按照6∶2∶2的比例將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集以及測(cè)試集。

表3 數(shù)據(jù)集分布下載原圖

Table 3 Dataset distribution

3.2 實(shí)驗(yàn)環(huán)境與超參數(shù)取值

本文使用的實(shí)驗(yàn)平臺(tái)為Anaconda，硬件為Intel i7-12700H處理器，16 GB內(nèi)存，RTX 3060處理器。編碼采用Python 3.7.16版本，深度學(xué)習(xí)庫(kù)為Pytorch1.13.1，機(jī)器學(xué)習(xí)庫(kù)為Sklearn 1.0.2。為了確保模型取得更好效果，在保持其他參數(shù)不變的情況下，通過(guò)多次實(shí)驗(yàn)調(diào)整模型的可調(diào)參數(shù)，最后確定最佳參數(shù)值，如表4所示。

表4 超參數(shù)設(shè)置下載原圖

Table 4 Setting of hyperparameters

3.3 評(píng)估指標(biāo)

本文實(shí)驗(yàn)使用的評(píng)價(jià)指標(biāo)包括四個(gè)：精確率（Precision）、召回率（Recall）、F1值和準(zhǔn)確率（Accuracy）。其中，精確率記作“P”，召回率記作“R”。由于本文實(shí)驗(yàn)在本質(zhì)上屬于文本情感分析中的二分類任務(wù)，可以參考二分類的混淆矩陣定義計(jì)算符號(hào)：TP表示真實(shí)值和預(yù)測(cè)值均為正類的樣本數(shù)量；FN表示真實(shí)值為正類，預(yù)測(cè)值為負(fù)類的樣本數(shù)量；FP表示真實(shí)值為負(fù)類，預(yù)測(cè)值為正類的樣本數(shù)量；TN表示真實(shí)值和預(yù)測(cè)值均為負(fù)類的樣本數(shù)量。本文實(shí)驗(yàn)使用的評(píng)價(jià)指標(biāo)的計(jì)算方式如式（7)～(10）所示^[21]:

4 研究結(jié)果

4.1 性能評(píng)價(jià)

為驗(yàn)證BERT-MLFF-TextCNN模型的有效性，本文分別計(jì)算了BERT-MLFF-TextCNN、BERT-TextCNN、Word2vec-TextCNN及GloVe-TextCNN四種模型在數(shù)據(jù)集上的精確率、召回率、準(zhǔn)確率和F1值，結(jié)果如表5所示。

表5 各模型實(shí)驗(yàn)結(jié)果下載原圖

Table 5 Experimental results of each model

可以看出：在上述四類文本情感分析模型中，BERT-MLFF-TextCNN模型表現(xiàn)最佳。F1值方面，BERT-MLFF-TextCNN模型達(dá)到了0.977，與BERT-TextCNN模型、GloVe-TextCNN模型和Word2vecTextCNN模型相比，均有所提升。

4.2 主題可視化與對(duì)策建議

主題詞的提取過(guò)程通常需要借助無(wú)監(jiān)督學(xué)習(xí)的方法，比如TF-IDF(term frequency inverse document frequency）、隱含狄利克雷分布（latent Dirichlet allocation,LDA）以及TextRank算法等。與其他方法相比，TextRank的優(yōu)勢(shì)在于它能夠直接進(jìn)行主題詞的提取，無(wú)需進(jìn)行預(yù)先訓(xùn)練?；驹硎牵菏紫?，利用詞匯間的共現(xiàn)關(guān)系構(gòu)建詞匯連接圖，將每個(gè)詞與其相鄰詞的連接視作一種投票機(jī)制，連接的數(shù)量反映邊的權(quán)重。然后，通過(guò)迭代計(jì)算獲得詞語(yǔ)的重要性直至收斂。最后，根據(jù)重要性對(duì)詞匯進(jìn)行排序，選擇排名前列的一些詞作為關(guān)鍵詞^[22]。在4.1節(jié)的基礎(chǔ)上，采用TextRank算法對(duì)評(píng)論文本進(jìn)行主題詞的抽取，并根據(jù)每個(gè)主題詞的權(quán)重形成詞云圖，結(jié)果如圖6所示。

圖6 詞云圖下載原圖

Fig.6 Word cloud chart

從圖6中可以看出，積極情感極性的評(píng)論的關(guān)鍵詞主要包括“報(bào)警”“勇敢”“老板娘”等。此類評(píng)論主要是網(wǎng)民對(duì)老板娘保存監(jiān)控視頻以及現(xiàn)場(chǎng)女生報(bào)警行為的稱贊。例如“面對(duì)惡人不顧自身安危，勇敢報(bào)警，是當(dāng)代見(jiàn)義勇為的女英雄，為你點(diǎn)贊”“感謝老板娘保存完整監(jiān)控”等。

與積極情緒相比，輿情事件中的消極情緒更應(yīng)得到政府相關(guān)部門(mén)的重視，這是因?yàn)橄麡O情緒的輿情影響力遠(yuǎn)大于積極情緒，若政府相關(guān)部門(mén)不能及時(shí)采取行動(dòng)，這些負(fù)面信息會(huì)迅速產(chǎn)生嚴(yán)重的社會(huì)影響，甚至由線上引發(fā)線下沖突^[23]。通過(guò)詞云圖可以看出，消極情感極性的評(píng)論中關(guān)鍵詞主要包括“嚴(yán)懲”“老板娘”“視頻”“男”等。產(chǎn)生這些負(fù)面情緒的原因主要在于：第一，犯罪分子的殘暴行為引起了網(wǎng)民的強(qiáng)烈憤怒，紛紛要求執(zhí)法機(jī)關(guān)從嚴(yán)懲處犯罪分子；第二，部分評(píng)論指出老板娘系某犯罪分子親屬，導(dǎo)致網(wǎng)民將矛頭指向老板娘；第三，監(jiān)控視頻顯示，事件發(fā)生時(shí)周圍的男性無(wú)人上前勸阻，因此部分網(wǎng)民對(duì)在場(chǎng)男性的“不作為”行為表示譴責(zé)。

基于上述分析，未來(lái)應(yīng)加強(qiáng)以下幾方面的工作：

第一，及時(shí)發(fā)布權(quán)威有效信息。在網(wǎng)絡(luò)輿情事件爆發(fā)初期，網(wǎng)民所掌握的信息量有限，對(duì)輿情事件的認(rèn)知判斷主要受自身情緒的影響。在此情況下，當(dāng)網(wǎng)民接觸到不實(shí)言論和偏執(zhí)評(píng)價(jià)時(shí)，極易產(chǎn)生負(fù)面情緒，并在心理上形成難以修正的“第一印象”。因此，政府部門(mén)必須及時(shí)發(fā)布權(quán)威且有效的信息。為了有效控制網(wǎng)絡(luò)輿論，政府應(yīng)采取兩項(xiàng)關(guān)鍵措施：首先，應(yīng)遵循“輿情黃金4小時(shí)法則”，在網(wǎng)絡(luò)輿情發(fā)生后的最初4小時(shí)內(nèi)迅速發(fā)布權(quán)威信息，并積極回應(yīng)公眾疑慮，以贏得輿論引導(dǎo)的優(yōu)勢(shì)。其次，應(yīng)持續(xù)更新并發(fā)布后續(xù)權(quán)威信息，遵循“快速報(bào)道事實(shí)、謹(jǐn)慎分析原因、重視表明態(tài)度、持續(xù)更新進(jìn)展”的原則，確保在法律允許的范圍內(nèi)盡可能多地公開(kāi)信息，讓公眾了解更多真實(shí)情況。

第二，充分發(fā)揮政務(wù)新媒體的作用。媒體作為“輿論緩沖”的平臺(tái)，能夠在滿足自身價(jià)值觀實(shí)現(xiàn)的同時(shí)確保公眾對(duì)于某一時(shí)間的不滿情緒得到法律允許前提下的發(fā)泄，從而達(dá)到穩(wěn)定社會(huì)情緒的作用^[24]。面對(duì)網(wǎng)絡(luò)輿情事件，政府部門(mén)需有效利用政務(wù)新媒體，及時(shí)發(fā)布官方信息，以緩解社會(huì)矛盾并消除謠言。在這個(gè)過(guò)程中，政府必須確保所提供信息的真實(shí)性，以增強(qiáng)媒體的引導(dǎo)作用。同時(shí)，政務(wù)新媒體應(yīng)從“單向傳播”轉(zhuǎn)向“雙向互動(dòng)”，拋棄官僚思維，采用網(wǎng)民喜聞樂(lè)見(jiàn)的風(fēng)格，以靈活的溝通方式和豐富的語(yǔ)言內(nèi)容與網(wǎng)民進(jìn)行溝通，力求達(dá)成輿論共識(shí)。

第三，疏導(dǎo)公眾負(fù)面情緒。情緒宜“疏”不宜“堵”，網(wǎng)絡(luò)輿情中產(chǎn)生的負(fù)面情緒不宜用壓抑的方式去解決，壓抑和抵制反而會(huì)引發(fā)更激烈的憤怒和不滿情緒，導(dǎo)致輿論爆發(fā)和群體情緒化^[25]。因此，輿情事件發(fā)生后，應(yīng)為網(wǎng)民提供疏導(dǎo)情緒的合理途徑，例如推廣在線咨詢服務(wù)、構(gòu)建政府在線論壇等。此外，還應(yīng)從當(dāng)事人、受害人等多方面，結(jié)合現(xiàn)實(shí)、法律和道德等多維度深入分析輿情事件，引導(dǎo)網(wǎng)民做出客觀判斷，從而避免情緒極化產(chǎn)生。

5 結(jié)束語(yǔ)

本文提出了一種基于BERT多層次特征融合的文本分類模型BERT-MLFF-TextCNN，以抖音短視頻平臺(tái)為例，對(duì)“唐山打人事件”中的熱門(mén)輿情評(píng)論進(jìn)行情感分析。實(shí)驗(yàn)結(jié)果表明，與BERT-TextCNN、GloVe-TextCNN和Word2vec-TextCNN模型相比，BERT-MLFF-TextCNN模型展示出了更為優(yōu)秀的性能。在此基礎(chǔ)上，利用TextRank算法提取評(píng)論信息中的熱門(mén)主題詞，并進(jìn)一步分析深層次的原因，從而為政府相關(guān)部門(mén)的輿情管控工作提供決策參考。在本研究中，數(shù)據(jù)采集主要集中在抖音短視頻平臺(tái)。為進(jìn)一步拓展研究的廣度和深度，未來(lái)研究應(yīng)考慮將快手、微信視頻號(hào)等其他短視頻平臺(tái)作為補(bǔ)充數(shù)據(jù)來(lái)源。此外，在數(shù)據(jù)處理部分，本文僅將評(píng)論的情感傾向分為積極和消極兩類，這種做法雖然為后續(xù)研究提供了便利，但是也丟失了一些有價(jià)值的信息?；诖?，在下一步研究中，可通過(guò)增加情感類別，將評(píng)論情感傾向劃分到更細(xì)粒度，為輿情管控工作提供更具針對(duì)性的決策依據(jù)。

作者圖片

韓坤

潘宏鵬

劉忠軼

參考文獻(xiàn)

[1] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.第52次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[EB/OL].[2023-08-28]. https://www./n4/2023/0828/c88-10829.html.China Internet Network Information Center. The 52nd statistical report on China’s Internet development[EB/OL].[2023-08-28]. https://www./n4/2023/0828/c88-10829.html.

[2] 祁凱,李昕.基于S3EIR模型的政務(wù)短視頻網(wǎng)民情緒感染路徑研究[J].情報(bào)理論與實(shí)踐, 2022, 45(10):164-168.QI K, LI X. Research on propagation path about netizens’emotions of government affairs short video based on S3EIR model[J]. Information Studies:Theory&Application, 2022,45(10):164-168.

[3] 孫靖超.基于優(yōu)化深度雙向自編碼網(wǎng)絡(luò)的輿情情感識(shí)別研究[J].情報(bào)雜志, 2020, 39(6):159-163.SUN J C. Sentiment analysis of network public opinion based on optimized bidirectional encoder representations from transformers[J]. Journal of Intelligence, 2020, 39(6):159-163.

[4] 潘蘇楠,鄧三鴻,王蔚萍.融合母評(píng)論文本信息的評(píng)論短文本情感分析研究——以短視頻評(píng)論文本為例[J].情報(bào)探索, 2023(4):1-7.PAN S N, DENG S H, WANG W P. Research on the short text sentiment analysis with the text of parent-comment:a case study of short video comments[J]. Information Research, 2023(4):1-7.

[5] SHI W, ZHANG J, HE S Y. Understanding public opinions on Chinese short video platform by multimodal sentiment analysis using deep learning based techniques[J/OL]. Kybernetes[2023-09-12]. https://www./insight/content/doi/10.1108/K-04-2023-0723/full/html.

[6] 王婷,楊文忠.文本情感分析方法研究綜述[J].計(jì)算機(jī)工程與應(yīng)用, 2021, 57(12):11-24.WANG T, YANG W Z. Review of text sentiment analysis methods[J]. Computer Engineering and Applications, 2021,57(12):11-24.

[7] 周知,李名子,崔旭.基于領(lǐng)域情感詞典的用戶生成內(nèi)容有用性評(píng)價(jià)研究——以豆瓣讀書(shū)為例[J].情報(bào)理論與實(shí)踐, 2022, 45(1):86-92.ZHOU Z, LI M Z, CUI X. Research on helpfulness evaluation of user generate content based on domain sentiment lexicon:taking Douban reading as an example[J]. Information Studies:Theory&Application, 2022, 45(1):86-92.

[8] 柳位平,朱艷輝,栗春亮,等.中文基礎(chǔ)情感詞詞典構(gòu)建方法研究[J].計(jì)算機(jī)應(yīng)用, 2009, 29(10):2875-2877.LIU W P, ZHU Y H, LI C L, et al. Research on building Chinese basic semantic lexicon[J]. Journal of Computer Applications, 2009, 29(10):2875-2877.

[9] WU L, MORSTATTER F, LIU H. SlangSD:building, expanding and using a sentiment dictionary of slang words for short-text sentiment classification[J]. Language Resources and Evaluation, 2018, 45(2):196-211.

[10] ZHANG S, WEI Z, WANG Y, et al. Sentiment analysis of Chinese micro-blog text based on extended sentiment dictionary[J]. Future Generation Computer Systems, 2018, 81:395-403.

[11] NEETHU M S, RAJASREE R. Sentiment analysis in Twitter using machine learning techniques[C]//Proceedings of the 4th International Conference on Computing, Jul 4-6,2013. Piscataway:IEEE, 2013:450-454.

[12] PANG B, LEE L, VAITHYANATHAN S. Thumbs up? Sentiment classification using machine learning techniques[C]//Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing, Philadelphia, Jul 6-7, 2002.New York:ACM, 2002:79-86.

[13] JADAV B M, VAGHELA V B. Sentiment analysis using support vector machine based on feature selection and semantic analysis[J]. International Journal of Computer Applications, 2016, 146(13):26-30.

[14] DEY L, CHAKRABORTY S, BISWAS A, et al. Sentiment analysis of review datasets using naive Bayes and K-NN classifier[J]. International Journal of Information Engineering and Electronic Business, 2016, 8(4):54-62.

[15] 馮興杰,張志偉,史金釧.基于卷積神經(jīng)網(wǎng)絡(luò)和注意力模型的文本情感分析[J].計(jì)算機(jī)應(yīng)用研究, 2018, 35(5):1434-1436.FENG X J, ZHANG Z W, SHI J C. Text sentiment analysis based on convolutional neural networks and attention model[J]. Application Research of Computers, 2018, 35(5):1434-1436.

[16] TANG D, QIN B, LIU T. Document modeling with gated recurrent neural network for sentiment classification[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg:ACL, 2015:1422-1432.

[17] DEVLIN J, CHANG M W, LEE K, et al. BERT:pre-training of deep bidirectional transformers for language understanding[J]. arXiv:1810.04805, 2018.

[18] 劉思琴,馮胥睿瑞.基于BERT的文本情感分析[J].信息安全研究, 2020, 6(3):220-227.LIU S Q, FENG X R R. Text sentiment analysis based on BERT[J]. Journal of Information Security Research, 2020, 6(3):220-227.

[19] 方英蘭,孫吉祥,韓兵.基于BERT的文本情感分析方法的研究[J].信息技術(shù)與信息化, 2020(2):108-111.FANG Y L, SUN J X, HAN B. Research on text emotion analysis method based on BERT[J]. Information Technology and Informatization, 2020(2):108-111.

[20] 科貓網(wǎng).抖音用戶有多少（抖音2021年數(shù)據(jù)分析）[EB/OL].[2023-09-12]. http://news./n/315774.html.Kemao Net. How many Douyin users are there(data analysis of Douyin in 2021)[EB/OL].[2023-09-12]. http://news./n/315774.html.

[21] 李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社, 2012.LI H. Statistical learning methods[M]. Beijing:Tsinghua University Press, 2012.

[22] 羅婉麗,張磊.結(jié)合拓?fù)鋭?shì)與TextRank算法的關(guān)鍵詞提取方法[J].計(jì)算機(jī)應(yīng)用與軟件, 2022, 39(1):334-338.LUO W L, ZHANG L. Keywords extraction method combining topological potential and TextRank algorithm[J].Computer Applications and Software, 2022, 39(1):334-338.

[23] 龍玥,劉譯陽(yáng).新媒體環(huán)境下高校負(fù)面網(wǎng)絡(luò)輿情傳播特征和路徑研究[J].情報(bào)科學(xué), 2019, 37(12):134-139.LONG Y, LIU Y Y. Propagation characteristics and paths of negative network public opinions in colleges under the new media environment[J]. Information Science, 2019, 37(12):134-139.

[24] 王國(guó)華,曾潤(rùn)喜.解碼網(wǎng)絡(luò)輿情[M].武漢:華中科技大學(xué)出版社, 2006.WANG G H, ZENG R X. Explore Internet public opinion[M]. Wuhan:Huazhong University of Science&Techonlogy Press, 2006.

[25] 李淑娜,郭洪波.網(wǎng)絡(luò)輿情演變的情緒機(jī)制及干預(yù)策略研究[J].山東社會(huì)科學(xué), 2022(8):162-168.LI S N, GUO H B. Research on the emotional mechanism and intervention strategies of the evolution of online public opinion[J]. Shandong Social Sciences, 2022(8):162-168.

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

全文閱讀

融合BERT多層次特征的短視頻網(wǎng)絡(luò)輿情情感分析研究

韓坤 潘宏鵬 劉忠軼

中國(guó)人民公安大學(xué)公安管理學(xué)院

Research on Sentiment Analysis of Short Video Network Public Opinion by Integrating BERT Multi-level Features

HAN Kun PAN Hongpeng LIU Zhongyi