黃萍 朱惠娟 陳琳琳
摘? 要:傳統(tǒng)機(jī)器學(xué)習(xí)的自然語(yǔ)言處理系統(tǒng)特別依賴人工手動(dòng)標(biāo)記的特征,極其耗時(shí)且容易出現(xiàn)維度爆炸等難以解決的問題。本文采用基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的深度學(xué)習(xí)技術(shù)來(lái)解決這一問題。通過(guò)收集校園熱點(diǎn)話題進(jìn)行預(yù)處理以及運(yùn)用Word2vec模型生成詞向量后,運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)提取其中的特征并進(jìn)行情感傾向分類。通過(guò)實(shí)驗(yàn)數(shù)據(jù)的比較,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的情感傾向分類獲得了89.76%的準(zhǔn)確率,較傳統(tǒng)的支持向量機(jī)(SVM)提高了7.3%,獲得更好的分類性能。本文的研究對(duì)高校治理能力和治理體系現(xiàn)代化建設(shè)具有積極作用。
關(guān)鍵詞:自然語(yǔ)言處理;卷積神經(jīng)網(wǎng)絡(luò);情感傾向分析;輿情分析
中圖分類號(hào):TP39? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
Application of Emotion Classification Technology based on Deep
Learning in University Public Opinion Analysis
HUANG Ping, ZHU Huijuan, CHEN Linlin
(Zijin College, Nanjing University of Science and Technology, Nanjing 210000, China)
huangping984@njust.edu.cn; elainezhj@qq.com; chenlinlin606@njust.edu.cn
Abstract: Traditional natural language processing systems for machine learning rely heavily on manually marked features, which are extremely time-consuming and prone to difficult problems like dimensional explosions. This paper proposes to use CNN-based (Convolutional Neural Network) deep learning technology to solve this problem. After hot topics on campus are collected for preprocessing and generating word vectors using word2vec model, CNN is used to extract features and classify emotional tendencies. Through experimental comparison, the emotion tendency classification based on CNN has an accuracy of 89.76%, which is 7.3% higher than that of traditional Support Vector Machine (SVM) and has better classification performance. This research plays a positive role in the modernization of university governance ability and governance system.
Keywords: natural language processing; convolutional neural network; emotion tendency analysis; public opinion
analysis
1? ?引言(Introduction)
隨著信息技術(shù)的迅速發(fā)展和自媒體的普及,網(wǎng)絡(luò)對(duì)大學(xué)生的思維方式、思想觀念、人際交往和學(xué)習(xí)生活產(chǎn)生了深刻影響,各個(gè)高校校園文化的展示不再局限于校園內(nèi)部,各種虛擬網(wǎng)絡(luò)平臺(tái)也成為校園文化交流和展示的平臺(tái)。借助自媒體平臺(tái),學(xué)生們可以隨時(shí)隨地在社交網(wǎng)絡(luò)上發(fā)表自己的觀點(diǎn)和見解,而且這些觀點(diǎn)和見解往往是帶有明顯的情感傾向的,在一定程度上,這些正面或負(fù)面的高校網(wǎng)絡(luò)輿情也客觀地反映出校園文化的健康程度。如何在海量的數(shù)據(jù)中捕獲到用戶的情感傾向信息,挖掘出帶有情緒和喜惡的主觀信息,是情感傾向分類要做的主要工作。情感傾向分類可以對(duì)文本所表達(dá)的帶有主觀情感色彩的信息進(jìn)行處理、挖掘,并分析其中包含的積極或消極信息,通過(guò)判斷信息的情緒極性進(jìn)行輿情態(tài)勢(shì)感知和預(yù)警,有助于對(duì)極端情緒的檢測(cè)與控制??傊?,在現(xiàn)代高校管理中,充分挖掘師生對(duì)熱點(diǎn)輿情事件的情感傾向,分析其所表達(dá)價(jià)值取向或者事件產(chǎn)生的深層次原因,對(duì)開展校園網(wǎng)絡(luò)輿情研究和進(jìn)行有針對(duì)性的學(xué)生思想引導(dǎo)工作是至關(guān)重要的,對(duì)推動(dòng)網(wǎng)絡(luò)空間的科學(xué)治理也起到促進(jìn)作用。
2 基于深度學(xué)習(xí)的高校網(wǎng)絡(luò)輿情分析系統(tǒng)(University network public opinion analysis system based on deep learning)
情感分類算法研究是網(wǎng)絡(luò)輿情分析的一個(gè)重要研究領(lǐng)域,對(duì)于輿情分析有著重要的意義。近年來(lái),國(guó)內(nèi)高校網(wǎng)絡(luò)輿情突發(fā)事件頻繁發(fā)生,比如2020 年的“山西作弊大學(xué)生墜亡”“疫情期間高校施行‘相對(duì)封閉式管理”等。這些事件所爆發(fā)出的網(wǎng)絡(luò)輿論給相關(guān)高校造成了極大的困擾。因此,在網(wǎng)絡(luò)空間科學(xué)治理工程的背景下,分析和研究高校網(wǎng)絡(luò)輿情發(fā)展和傳播規(guī)律,探索如何在高校師生中開展有效的網(wǎng)絡(luò)輿情管理和引導(dǎo)已成為需要深入研究思考的問題。作為高校,面對(duì)現(xiàn)下日益復(fù)雜以及多元化的網(wǎng)絡(luò)環(huán)境,要做好網(wǎng)絡(luò)輿情的預(yù)警工作,運(yùn)用計(jì)算機(jī)輔助技術(shù)實(shí)時(shí)收集網(wǎng)絡(luò)輿情數(shù)據(jù),對(duì)其中的熱點(diǎn)話題數(shù)據(jù)進(jìn)行分析研判,精確地發(fā)現(xiàn)引發(fā)輿情危機(jī)的節(jié)點(diǎn),在短時(shí)間內(nèi)制定有針對(duì)性的處置策略,不給輿情危機(jī)發(fā)酵的時(shí)間和空間[1]。因此,若能對(duì)網(wǎng)絡(luò)熱點(diǎn)話題或事件進(jìn)行搜索和分析,并總結(jié)出其中正面信息和負(fù)面信息的比例,進(jìn)而對(duì)一些學(xué)生關(guān)注度高的問題及時(shí)進(jìn)行解決以及疏導(dǎo),這對(duì)于完善高校治理無(wú)疑是非常有用的。
在國(guó)內(nèi),基于深度學(xué)習(xí)的文本情感分類研究起步較晚,但發(fā)展迅猛,目前已經(jīng)有很多研究成果涌現(xiàn)出來(lái)。劉龍飛等人[2]使用CNN方法對(duì)微博文本的情感進(jìn)行研究,其中原始特征由字向量與詞向量同時(shí)構(gòu)成,在COAE2014上取得不錯(cuò)的效果。劉智鵬等人[3]構(gòu)造與設(shè)計(jì)了CNN與RNN模型,并進(jìn)行了有效的融合,利用各自對(duì)短文本的處理優(yōu)勢(shì)進(jìn)行商品的評(píng)價(jià)分類,獲得了較好的文本情感識(shí)別性能。周錦峰等人[4]通過(guò)堆疊多個(gè)卷積層,提取不同窗口的局部語(yǔ)義特征以及基于全局最大池化層構(gòu)建分類模塊,獲得了較快的文本情感分類速度。蔡慶平等人[5]設(shè)計(jì)了基于Word2vec和CNN的產(chǎn)品評(píng)論細(xì)粒度情感分析模型,有效地發(fā)現(xiàn)用戶對(duì)產(chǎn)品特征的關(guān)注度和滿意度。
本文運(yùn)用基于深度學(xué)習(xí)的情感分析技術(shù)手段,分析和研判網(wǎng)絡(luò)中高校熱點(diǎn)話題評(píng)論中所蘊(yùn)含的情感傾向信息,并進(jìn)行網(wǎng)絡(luò)輿情監(jiān)測(cè)。網(wǎng)絡(luò)輿情分析分為輿情信息采集、文本數(shù)據(jù)預(yù)處理、詞向量化、輿情數(shù)據(jù)學(xué)習(xí)及分析、輿情預(yù)警(結(jié)果可視化)五個(gè)步驟。首先利用網(wǎng)絡(luò)爬蟲技術(shù)完成數(shù)據(jù)的收集;接著對(duì)數(shù)據(jù)進(jìn)行中文分詞、去停用詞操作,保留語(yǔ)句中的關(guān)鍵信息;再運(yùn)用詞向量工具將詞轉(zhuǎn)換成詞向量,以便可以被卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),通過(guò)網(wǎng)絡(luò)的學(xué)習(xí),提取其中的特征,最終可被用于情感極向的分類,如圖1所示??梢暬K則用于顯示分類結(jié)果,負(fù)面評(píng)論達(dá)到一定比例時(shí),需要對(duì)相關(guān)問題進(jìn)行疏導(dǎo)。
2.1? ?數(shù)據(jù)采集模塊
為了能夠快速地獲取最新的網(wǎng)絡(luò)輿情數(shù)據(jù),本文利用分布式網(wǎng)絡(luò)爬蟲對(duì)指定網(wǎng)站進(jìn)行數(shù)據(jù)爬取,簡(jiǎn)單清洗之后,作為系統(tǒng)實(shí)驗(yàn)數(shù)據(jù)來(lái)源。首先將數(shù)據(jù)收集任務(wù)分解成多個(gè)子任務(wù),分配給多個(gè)爬蟲線程來(lái)共同完成;接著通過(guò)向網(wǎng)站的服務(wù)器發(fā)送請(qǐng)求,獲取網(wǎng)頁(yè)源代碼并進(jìn)行數(shù)據(jù)清洗、去重去噪,將一些標(biāo)簽、CSS代碼內(nèi)容、空格字符、腳本標(biāo)簽等內(nèi)容處理掉,使冗余的網(wǎng)頁(yè)數(shù)據(jù)變得結(jié)構(gòu)清晰[6];最終將這些信息存儲(chǔ)為純文本數(shù)據(jù),為接下來(lái)的數(shù)據(jù)處理和分析提供基礎(chǔ)。
2.2? ?數(shù)據(jù)預(yù)處理
通過(guò)網(wǎng)絡(luò)爬蟲獲取的純文本數(shù)據(jù)需要轉(zhuǎn)化為適合于表示和分類的干凈的詞序列。由于中文句子中的詞語(yǔ)之間沒有明確的分隔符且存在一定的噪音信息,因此在預(yù)處理階段要對(duì)句子進(jìn)行分詞、去除停用詞等操作。
(1)分詞。中文分詞是文本處理的一個(gè)基礎(chǔ)步驟,由于中文句子不像英文句子那樣詞與詞之間有明顯的分隔符,因此需要利用中文分詞技術(shù)將詞語(yǔ)切分開。成熟的中文分詞算法能夠達(dá)到更好的自然語(yǔ)言處理效果,幫助計(jì)算機(jī)理解復(fù)雜的中文句子。本文采用基于詞典分詞的jieba分詞器,它運(yùn)用有向無(wú)環(huán)圖的查找算法,通過(guò)動(dòng)態(tài)規(guī)劃,從后至前使得詞的切割組合聯(lián)合概率最大。對(duì)于不在詞典里的詞再使用HMM算法來(lái)進(jìn)行二次分詞,采用分詞中的序列標(biāo)注方法,使用模型識(shí)別詞每個(gè)位置的狀態(tài)值[7]。
(2)去停用詞。通過(guò)分詞可以把句子分出很多詞語(yǔ),但是其中有些詞未包含實(shí)際含義,如“的”“了”“著”等,還有一些英文字符、數(shù)字、標(biāo)點(diǎn)符號(hào)等。這些詞普遍存在,又未包含具體含義,同時(shí)記錄它們需要較大的空間。本文根據(jù)網(wǎng)上現(xiàn)有資源,對(duì)“哈工大停用詞詞庫(kù)”“百度停用詞表”等多種停用詞表合并整理后,生成了一個(gè)共有1,598 個(gè)停用詞的停用詞表。在分詞過(guò)程中,判斷得到的每個(gè)中文詞是否是停用詞,如果是停用詞則直接刪除,以便降低特征的維度,提高關(guān)鍵詞密度。
2.3? ?文本的分布式表示
預(yù)處理后的文本是一種計(jì)算機(jī)無(wú)法直接處理的非結(jié)構(gòu)化數(shù)據(jù),需要轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)——向量。本文采用Word2vec詞向量工具將文本轉(zhuǎn)換成詞向量,以便于網(wǎng)絡(luò)學(xué)習(xí)。Word2vec是MIKOLOV等人[8]提出來(lái)的一種文本分布式表示方法,由此詞嵌入的思想開始應(yīng)用到自然處理的領(lǐng)域。它是一款將詞表征為實(shí)數(shù)值向量的高效工具,背后的模型是CBOW或者Skip-gram,使用了Hierarchical Softmax或者Negative Sampling的優(yōu)化方法[9]。Word2vec能夠?qū)⒚總€(gè)詞映射成一個(gè)K維的實(shí)數(shù)向量,精確地度量詞與詞之間的關(guān)系,挖掘詞與詞之間的聯(lián)系。
本次實(shí)驗(yàn)采用CBOW模型進(jìn)行詞向量表示,通過(guò)輸入特征詞的上下文相關(guān)詞對(duì)應(yīng)的詞向量來(lái)預(yù)測(cè)輸出特征詞的詞向量。用CBOW模型訓(xùn)練詞向量,首先需要根據(jù)語(yǔ)料建立一張?jiān)~匯表,并給表中的每個(gè)詞語(yǔ)生成隨機(jī)的詞向量;然后將特定詞的上下文詞向量輸入CBOW,再由隱含層進(jìn)行累加,到第三層中的哈夫曼樹,沿著特定的路徑到達(dá)葉子節(jié)點(diǎn),從而完成對(duì)特定詞語(yǔ)的預(yù)測(cè),訓(xùn)練結(jié)束后就可以從詞匯表中得到每一個(gè)詞語(yǔ)所對(duì)應(yīng)的詞向量。
2.4? ?深度學(xué)習(xí)情感分類模型
本文采用卷積神經(jīng)網(wǎng)絡(luò)模型來(lái)解決中文情感傾向分析問題,將由Word2vec轉(zhuǎn)化后的詞向量矩陣作為卷積神經(jīng)網(wǎng)絡(luò)的輸入;然后通過(guò)卷積層進(jìn)行特征提取,再用最大池化法降低每條評(píng)論特征向量的維度;最后在全連接層由ReLU函數(shù)做出分類輸出,將評(píng)論信息分成積極和消極兩種。卷積神經(jīng)網(wǎng)絡(luò)是一種多層的監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),由輸入層(Input Layer)、卷積層(Convolution Layer)、池化層(Pooling Layer)、全連接層(Fully Connected Layer)和輸出層(Output Layer)組成,其中卷積層和池化層是實(shí)現(xiàn)特征提取功能的核心模塊,結(jié)構(gòu)如圖2所示。
卷積層:在第一層卷積層中對(duì)輸入的詞向量矩陣進(jìn)行卷積運(yùn)算后,可以得到對(duì)應(yīng)的特征圖。卷積運(yùn)算使原信號(hào)特征增強(qiáng)的同時(shí),還可以降低噪音,提取輸入樣本中的不同特征。同時(shí),一個(gè)卷積層中可以有多個(gè)不同的卷積核,每一個(gè)卷積核都對(duì)應(yīng)一個(gè)特征圖,如圖3所示。
池化層:經(jīng)過(guò)卷積運(yùn)算后的特征矩陣尺寸往往比較大,運(yùn)用池化(Pooling)操作可以減小卷積層產(chǎn)生的詞向量矩陣的維度,使得參數(shù)的數(shù)量和計(jì)算量下降。本實(shí)驗(yàn)采用最大池化法來(lái)降維,將卷積運(yùn)算后的特征矩陣劃分為若干個(gè)矩形區(qū)域,輸出每個(gè)子區(qū)域最大值,減小數(shù)據(jù)的空間大小,如圖4所示。通過(guò)降低特征矩陣的維度,使得特征表示對(duì)輸入詞向量的位置變化具有更好的穩(wěn)健性,還在一定程度上預(yù)防過(guò)擬合。
全連接層:它是整個(gè)卷積神經(jīng)網(wǎng)絡(luò)中的“分類器”。全連接層起到將學(xué)到的“分布式特征表示”映射到樣本標(biāo)記空間的作用,灰色的神經(jīng)元表示這個(gè)特征被找到了(激活了),得到的激活值即卷積神經(jīng)網(wǎng)絡(luò)提取到的特征,如圖5所示。
3? ?實(shí)驗(yàn)與結(jié)果分析(Experiment and result analysis)
3.1? ?實(shí)驗(yàn)數(shù)據(jù)來(lái)源
高校網(wǎng)絡(luò)輿情是建立在大眾網(wǎng)絡(luò)輿情基礎(chǔ)之上的,其主要內(nèi)容基本都是反映高校學(xué)習(xí)生活中的師生關(guān)系或者學(xué)習(xí)生活的一些典型事件。本文實(shí)驗(yàn)所用到的數(shù)據(jù)均為使用爬蟲軟件,以“封閉式校園管理”“考研擴(kuò)招”“直播授課”“曠課”“退學(xué)”“學(xué)術(shù)不端”“就業(yè)”等關(guān)鍵字在微博網(wǎng)站中爬取到的2020 年1—12 月的15,000 條相關(guān)評(píng)論文本數(shù)據(jù),其中90%的數(shù)據(jù)作為訓(xùn)練集(train),10%的數(shù)據(jù)作為評(píng)估集(val)。
3.2? ?實(shí)驗(yàn)結(jié)果分析
本文基于Keras構(gòu)建了用于進(jìn)行文本的情感傾向分析的CNN網(wǎng)絡(luò)。網(wǎng)絡(luò)參數(shù)設(shè)置如表1所示。
使用CNN模型處理數(shù)據(jù)過(guò)程中,迭代10 次之后基本可以達(dá)到較好的效果,其收斂情況如圖6所示。通過(guò)模型在train/val
集上的準(zhǔn)確率(acc)、損失函數(shù)(loss)的計(jì)算,從而更新模型參數(shù),減小優(yōu)化誤差(Optimization Error),即在損失函數(shù)與優(yōu)化算法的共同作用下,減小模型的經(jīng)驗(yàn)風(fēng)險(xiǎn),同時(shí)對(duì)模型的效果進(jìn)行度量。一般來(lái)說(shuō)loss越小,表示網(wǎng)絡(luò)優(yōu)化程度越高,acc就會(huì)越高。
本文運(yùn)用Word2vec+SVM和Word2vec+CNN這兩種分類方法對(duì)爬取到的高校相關(guān)輿情信息進(jìn)行積極和消極類別的情感傾向分類。兩種算法均采取100 維詞向量,對(duì)它們的準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值(F1 Score)進(jìn)行比較分析,找出比較優(yōu)異的分類方法,如表2所示。
通過(guò)使用同樣的輿情數(shù)據(jù)進(jìn)行實(shí)驗(yàn),Word2vec+CNN模型與Word2vec+SVM模型相比,SVM在挖掘詞向量中隱藏的分類特征過(guò)程中,會(huì)損失詞與詞之間的語(yǔ)義信息;而CNN卻可以提取不同維度的特征,進(jìn)而更好地挖掘出輿情語(yǔ)料詞向量中隱藏的特征信息。因此,Word2vec+CNN模型在準(zhǔn)確率、召回率和F1值上都比Word2vec+SVM方法具有更加良好的分類效果。
4? ?結(jié)論(Conclusion)
本文描述了基于Word2vec+CNN的情感傾向分類模型在校園輿情分析與監(jiān)測(cè)方面的應(yīng)用研究。在收集了2020 年校園熱點(diǎn)輿情數(shù)據(jù),并進(jìn)行良好的數(shù)據(jù)預(yù)處理的基礎(chǔ)上,運(yùn)用Word2vec工具將網(wǎng)絡(luò)輿情文本數(shù)據(jù)轉(zhuǎn)化為詞向量,再分別使用CNN模型和SVM模型對(duì)詞向量進(jìn)行情感傾向分類??傮w來(lái)說(shuō),在本次分類任務(wù)中CNN模型獲得了比SVM模型更好的性能表現(xiàn)。
另外,在分類過(guò)程中還發(fā)現(xiàn),文本特征的數(shù)量、數(shù)據(jù)標(biāo)注精確度對(duì)實(shí)驗(yàn)的精度和時(shí)間也有一定的影響。然而,網(wǎng)絡(luò)輿情數(shù)據(jù)由于數(shù)據(jù)量大、雜亂無(wú)章且無(wú)標(biāo)簽,存在依賴人工標(biāo)注的成本高,效率低的問題。因此在未來(lái)工作中,應(yīng)在特征選擇上增加研究投入,同時(shí)結(jié)合無(wú)監(jiān)督數(shù)據(jù)的特征學(xué)習(xí)和半監(jiān)督學(xué)習(xí)自動(dòng)標(biāo)注方法進(jìn)行情感分類研究,以期能夠顯著提升分類研究的最終結(jié)果精度,精確挖掘網(wǎng)絡(luò)中的學(xué)生情緒動(dòng)向,完善高校治理,對(duì)治理能力和治理體系現(xiàn)代化建設(shè)起到積極作用。
參考文獻(xiàn)(References)
[1] 孔曉虹.新媒體環(huán)境下高校應(yīng)對(duì)網(wǎng)絡(luò)輿情的探索[J].中國(guó)高等教育,2020(Z1):67-68.
[2] 劉龍飛,楊亮,張紹武,等.基于卷積神經(jīng)網(wǎng)絡(luò)的微博情感傾向性分析[J].中文信息學(xué)報(bào),2015,29(6):159-165.
[3] 劉智鵬,何中市,何偉東,等.基于深度學(xué)習(xí)的商品評(píng)價(jià)情感分析與研究[J].計(jì)算機(jī)與數(shù)字工程,2018,46(5):921-927.
[4] 周錦峰,葉施仁,王暉.基于深度卷積神經(jīng)網(wǎng)絡(luò)模型的文本情感分類[J].計(jì)算機(jī)工程,2019,45(3):300-308.
[5] 蔡慶平,馬海群.基于Word2Vec和CNN的產(chǎn)品評(píng)論細(xì)粒度情感分析模型[J].圖書情報(bào)工作,2020,64(6):49-58.
[6] 朱琪.基于網(wǎng)絡(luò)爬蟲的輿情分析預(yù)警系統(tǒng)設(shè)計(jì)[J].電子設(shè)計(jì)工程,2020,28(22):56-60.
[7] 祝永志,荊靜.基于Python語(yǔ)言的中文分詞技術(shù)的研究[J].通信技術(shù),2019,52(7):1612-1619.
[8] MIKOLOV T, SUTSKEVER I, KAI C, et al. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems, 2013(26):3111-3119.
[9] 梁翼園.基于改進(jìn)的Word2vec的評(píng)論情感傾向性分析[D].長(zhǎng)沙:湖南大學(xué),2019.
作者簡(jiǎn)介:
黃? ?萍(1982-),女,碩士,講師.研究領(lǐng)域:人工智能,圖像處理,自然語(yǔ)言分析,計(jì)算機(jī)教育.
朱惠娟(1985-),女,碩士,副教授.研究領(lǐng)域:圖像處理,人工智能,虛擬現(xiàn)實(shí).
陳琳琳(1981-),女,碩士,副教授.研究領(lǐng)域:人工智能,圖像處理,計(jì)算機(jī)教育.