基于文本挖掘的大學(xué)生網(wǎng)絡(luò)輿情檢測(cè)和預(yù)警模型*

2019-03-11 11:12:28金慧峰程振設(shè)

浙江工貿(mào)職業(yè)技術(shù)學(xué)院學(xué)報(bào) 2019年4期

金慧峰，程振設(shè)

（浙江工貿(mào)職業(yè)技術(shù)學(xué)院，浙江溫州 325003）

0 引言

互聯(lián)網(wǎng)運(yùn)營(yíng)模式的不斷創(chuàng)新、線上線下服務(wù)融合的加速、公共服務(wù)線上化步伐的加快，使得幾乎所有大學(xué)生成為網(wǎng)民。微博、微信、論壇、貼吧等社交網(wǎng)絡(luò)的繁榮發(fā)展，使得大學(xué)生在這些社交網(wǎng)絡(luò)上發(fā)帖、轉(zhuǎn)發(fā)、評(píng)論等行為已經(jīng)成為常態(tài)。在傳統(tǒng)數(shù)據(jù)時(shí)代，研究者主要通過抽樣調(diào)查、內(nèi)容分析等方法獲取有限的、有代表性的輿情樣本信息，并運(yùn)用統(tǒng)計(jì)學(xué)方法進(jìn)行分析。在大數(shù)據(jù)時(shí)代，隨著海量輿情信息的涌現(xiàn)和數(shù)據(jù)采集技術(shù)的進(jìn)步，樣本分析被總體分析所取代，傳統(tǒng)的抽樣分析和檢測(cè)預(yù)警手段已無法適應(yīng)大數(shù)據(jù)時(shí)代的發(fā)展趨勢(shì)，網(wǎng)絡(luò)輿情大數(shù)據(jù)的分析、檢測(cè)和預(yù)警成為社會(huì)管理的客觀需求。

目前關(guān)于大數(shù)據(jù)時(shí)代高校學(xué)生網(wǎng)絡(luò)輿情監(jiān)測(cè)和預(yù)警機(jī)制的研究成果較少，主要分為兩個(gè)層面。其一是理論層面，根據(jù)大學(xué)生網(wǎng)絡(luò)輿情傳播的特點(diǎn)和現(xiàn)狀，提出了高校網(wǎng)絡(luò)輿情管理的思路、策略和路徑[1-4]；其二是技術(shù)層面，主要集中于網(wǎng)絡(luò)檢測(cè)系統(tǒng)的設(shè)計(jì)[5-8]、網(wǎng)絡(luò)輿情挖掘技術(shù)[9-10]等。不論理論層面還是技術(shù)層面，均沒有針對(duì)大學(xué)生網(wǎng)絡(luò)輿情的定量化監(jiān)測(cè)的成果，主要原因可能在于海量文本信息不但對(duì)當(dāng)前計(jì)算機(jī)性能提出了較大挑戰(zhàn)，而且對(duì)文本挖掘技術(shù)也提出了較高的要求。

1 相關(guān)理論簡(jiǎn)介

1.1 文本表示方法

目前，基于統(tǒng)計(jì)的文本挖掘方法[11-12]中，文本是以向量形式表示的，向量的分量是特征詞的頻數(shù)，特征詞是根據(jù)文本挖掘的任務(wù)或目標(biāo)來確定的，可以是名詞、動(dòng)名詞或形容詞，等等。因此，要將文本表示為向量，首先就要將文本分詞。

1.2 文本分詞

目前國(guó)內(nèi)常用的分詞方法[11-12]有：機(jī)械分詞法、詞庫(kù)匹配法、詞頻統(tǒng)計(jì)法、語(yǔ)義分析法、神經(jīng)網(wǎng)絡(luò)分詞法、聯(lián)想-回朔法、聯(lián)想詞群法、知識(shí)與規(guī)則法等。這些分詞算法可以歸為三大類：基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。本文采用中科院計(jì)算所的漢語(yǔ)詞法分析系統(tǒng)ICTCLAS進(jìn)行分詞，該系統(tǒng)的功能有中文分詞、詞性標(biāo)注、未登錄詞識(shí)別，分詞正確率高達(dá)97%以上，未登錄詞識(shí)別召回率均高于90%，其中中國(guó)人名的識(shí)別召回率接近98%，處理速度為31.5Kb/s。

1.3 特征詞選擇

所有文本分詞之后，形成詞語(yǔ)集，詞的總數(shù)通常都很大，這會(huì)使得表示文本的向量空間的維數(shù)也相當(dāng)大，因此需要降維。降維技術(shù)有兩類：特征選擇和特征重構(gòu)。

特征選擇是指去除冗余的和不能表達(dá)文本挖掘任務(wù)信息的詞，或者選擇那些能夠表達(dá)文本挖掘任務(wù)信息的詞（稱之為特征詞），從而減少詞語(yǔ)總量，達(dá)到降維目的。特征選擇的結(jié)果為原始詞語(yǔ)集的子集。特征選擇方法：根據(jù)詞頻來判斷，當(dāng)詞頻小于或大于給定的閾值時(shí)就去掉。

特征重構(gòu)是指將原始詞語(yǔ)集經(jīng)過數(shù)學(xué)變換構(gòu)造出新的詞語(yǔ)集，以此達(dá)到降維的目的。新的詞語(yǔ)集不是原始詞語(yǔ)集的子集。比較常用的特征重構(gòu)方法是潛在語(yǔ)義分析。

2 實(shí)證研究

2.1 研究設(shè)計(jì)

本文以百度貼吧里近幾年浙江工貿(mào)職業(yè)技術(shù)學(xué)院（下稱學(xué)院）大學(xué)生網(wǎng)絡(luò)聊天的文本信息為研究對(duì)象，開展大學(xué)生網(wǎng)絡(luò)輿情的監(jiān)測(cè)和預(yù)警。相關(guān)工作主要有五步：第一，使用python爬蟲軟件從百度貼吧抓取近幾年的聊天帖子，數(shù)量將超過萬條。每個(gè)帖子的信息包括帖子ID、主題、作者、跟帖數(shù)量、跟帖內(nèi)容、跟帖作者、跟帖日期和時(shí)間。第二，對(duì)抓取到的文本信息作總體特征分析、熱門主題及其作者搜尋、熱門主題的內(nèi)容分析等。第三，建立輿情指數(shù)，度量網(wǎng)絡(luò)輿情的大小，形成動(dòng)態(tài)直觀的網(wǎng)絡(luò)輿情走勢(shì)圖。第四，設(shè)置“黃色、橙色和紅色”三個(gè)預(yù)警級(jí)別，對(duì)網(wǎng)絡(luò)輿情進(jìn)行預(yù)警。第五，建立特征詞指數(shù)，實(shí)現(xiàn)對(duì)熱門主題的熱點(diǎn)關(guān)鍵詞的捕捉。

2.2 數(shù)據(jù)采集與初步分析

編寫python 爬蟲軟件，從浙江工貿(mào)百度貼吧（http://tieba.baidu.com/f?kw=浙江工貿(mào)）抓取到2007年5 月4 日到2018 年2 月28 日大學(xué)生的“精品”帖子，一共6551條文本評(píng)論。每個(gè)帖子的信息包括帖子ID、主題、作者、跟帖數(shù)量、跟帖內(nèi)容、跟帖作者、跟帖日期和時(shí)間。

2.3 大學(xué)生網(wǎng)絡(luò)輿情檢測(cè)模型

以天為計(jì)時(shí)單位。設(shè)ai表示第i天的衍生貼數(shù)量（個(gè)），表示第i天的歷史平均衍生貼數(shù)量（個(gè)），則第i天的輿情指數(shù)為

統(tǒng)計(jì)出每天的輿情指數(shù)u1,u2,...，就形成了動(dòng)態(tài)指數(shù)，如表1所示。

如果以時(shí)刻i為橫軸，以輿情指數(shù)為縱軸，可以畫出動(dòng)態(tài)指數(shù)圖。

從2007年5月4日至2018年3月17日的動(dòng)態(tài)指數(shù)，如圖1所示（剔除了指數(shù)為0）。

另外，從2007年5月4日至2018年3月17日的最大指數(shù)是53.9，具體日期是2013年8月19日，意味著這一天的帖子數(shù)量是歷史平均值的53.9倍，其主題是“親，你遇到了么？”，進(jìn)一步查看帖子內(nèi)容（略），大部分是關(guān)于尋找在溫州的老鄉(xiāng)的帖子。中國(guó)人普遍具有濃重的老鄉(xiāng)情節(jié)，當(dāng)大學(xué)生收到錄取通知書之后，即將從全國(guó)各地來到陌生的溫州，此時(shí)如果能夠遇到老鄉(xiāng)，那么就有了類似于親人一樣的、可以互相依賴和幫助的朋友，于是通過網(wǎng)絡(luò)查找老鄉(xiāng)就成為一條便捷的途徑。

2.4 大學(xué)生網(wǎng)絡(luò)輿情預(yù)警

為了預(yù)警，需要確定輿情指數(shù)的合理界限。如果輿情指數(shù)超過了這個(gè)界限，就發(fā)出預(yù)警信號(hào)。從表1和圖1可知，一方面，輿情指數(shù)為0的指數(shù)占比很大，是32.8%；另一方面，輿情指數(shù)的極差也很大，是53.9。于是將原指數(shù)中的0 指數(shù)剔除，并針對(duì)非0 指數(shù)實(shí)施以7 天為窗口的移動(dòng)平均，再畫出輿情指數(shù)的直方圖，如圖2所示。

表1 部分輿情指數(shù)

圖1 2007/5/4—2018/3/17的輿情指數(shù)

從圖2 可知，非0 指數(shù)呈現(xiàn)負(fù)指數(shù)分布。給定顯著性水平α=0.01，估計(jì)其均值得μ=3.0475，指數(shù)分布的參數(shù)λ=1/μ≈0.328，指數(shù)分布的概率密度函數(shù)為

圖2 輿情指數(shù)直方圖

2.4.1 大學(xué)生網(wǎng)絡(luò)輿情預(yù)警級(jí)別的設(shè)置

本文將預(yù)警級(jí)別設(shè)定為“黃色、橙色和紅色”三個(gè)級(jí)別。

給定顯著性水平α，置信度1-α對(duì)應(yīng)的分位數(shù)記作μα。如果輿情指數(shù)超過分位數(shù)μα，則發(fā)出預(yù)警信號(hào)。于是給定三個(gè)不同的顯著性水平α=0.1、0.05、0.01，預(yù)警級(jí)別的臨界值即可確定，如表2所示。

表2 預(yù)警級(jí)別臨界值

2.4.2 大學(xué)生網(wǎng)絡(luò)輿情預(yù)警級(jí)別的設(shè)置結(jié)果

不同顯著性水平下的指數(shù)分布檢驗(yàn)、分位數(shù)和均值估計(jì)結(jié)果如表3所示。

表3 指數(shù)分布檢驗(yàn)、分位數(shù)和均值估計(jì)

從表3 可知，在0.01 的顯著性水平下，非0 指數(shù)服從指數(shù)分布。于是，輿情指數(shù)預(yù)警的臨界值如表4所示。

表4 預(yù)警臨界值

從2017 年7 月1 日至2018 年3 月17 日的非0 輿情指數(shù)預(yù)警圖，如圖3所示。

圖3 2017/7/1—2018/3/17的輿情指數(shù)及預(yù)警線

從圖3和表1可知，在2017年8月15日和25日分別發(fā)出了橙色預(yù)警信號(hào)，需要引起關(guān)注。

查看2017年8月15日的發(fā)帖主題，分別是“畢業(yè)老學(xué)姐解答專升本疑惑”和“在浙工貿(mào)的70 件事”。查看2017 年8 月25 日的發(fā)帖主題，分別是“畢業(yè)老學(xué)姐解答專升本疑惑”、“開學(xué)騙術(shù)多——揭秘那些常見騙術(shù)”、“掉進(jìn)染色桶里的工貿(mào)”和“在浙工貿(mào)的70件事”。

可見，跟帖增多的原因是學(xué)生對(duì)“專升本”話題很感興趣，對(duì)“開學(xué)騙術(shù)”和工貿(mào)學(xué)院話題很關(guān)注。究其原因，首先，大二學(xué)生即將升入大三，一部分學(xué)生開始考慮專升本的諸多問題了；其次，新生即將報(bào)到，為了防止被騙對(duì)開學(xué)騙術(shù)自然就很關(guān)注；第三，畢業(yè)生可以回顧在大學(xué)的三年期間發(fā)生的歷歷往事，記錄美好瞬間、回味幸福時(shí)刻、抒發(fā)離愁別緒，每一件事都成為工貿(mào)學(xué)院的特寫，也成為即將來到工貿(mào)學(xué)院的準(zhǔn)大學(xué)生們感興趣的事件，引起他們的關(guān)注就不足為奇。

2.5 熱門主題的關(guān)鍵詞搜尋

將觸發(fā)預(yù)警的主題稱為熱門主題。對(duì)于熱門主題，我們需要進(jìn)一步確定吧友們討論的關(guān)鍵詞是什么，例如對(duì)于專升本這個(gè)熱門主題，關(guān)鍵詞是“輔導(dǎo)、考試、報(bào)志愿、高等數(shù)學(xué)”里的哪一個(gè)？因此需要建立關(guān)鍵詞搜尋模型。

2.5.1 文本預(yù)處理

采用中科院計(jì)算所的漢語(yǔ)詞法分析系統(tǒng)ICT?CLAS 對(duì)文本進(jìn)行分詞，形成詞語(yǔ)集，然后選擇名詞、動(dòng)詞和形容詞作為特征詞，一共340 6 個(gè)。以向量表示文本，設(shè)X表示一條文本，則

其中，wi表示第i個(gè)特征詞的頻數(shù)，m是特征詞的個(gè)數(shù)。

2.5.2 特征詞指數(shù)

由于輿情指數(shù)反映了衍生貼的相對(duì)數(shù)量，而每一個(gè)衍生貼是由特征詞表示的，在熱點(diǎn)帖子已經(jīng)確定的情況下，如何測(cè)量特征詞的熱度呢？本文使用特征詞指數(shù)來度量特征詞的熱度。

設(shè)有m個(gè)特征詞，有n個(gè)文本，第i個(gè)特征詞在第j個(gè)文本中的頻數(shù)記作aij，aij≥0，i=1,2,...,m，j=1,2,...,n。

對(duì)于第i個(gè)特征詞，在第j個(gè)文本中出現(xiàn)的次數(shù)越多，說明其反映大學(xué)生的心理愿望越強(qiáng)烈，則熱度越大，于是第i個(gè)特征詞在第j個(gè)文本中的熱度使用頻率來度量，即

第i個(gè)特征詞的平均熱度為

對(duì)于第i個(gè)特征詞，在各個(gè)文本中出現(xiàn)的次數(shù)越多，說明討論它的大學(xué)生越多，則熱度越大，于是第i個(gè)特征詞的權(quán)系數(shù)為

其中，

第i個(gè)特征詞的加權(quán)熱度為

第i個(gè)特征詞的歸一化加權(quán)熱度為

歸一化加權(quán)熱度gi∈[0,1]。

稱歸一化加權(quán)熱度超過某閾值的特征詞為關(guān)鍵詞。于是，通過設(shè)置一個(gè)合適的閾值ε，可將關(guān)鍵詞篩選出來。

2.5.3 關(guān)鍵詞搜尋結(jié)果

以2017年8月15日引起橙色預(yù)警為例，針對(duì)主題“畢業(yè)老學(xué)姐解答專升本疑惑”，設(shè)置閾值ε=0，并刪除無意義的詞，關(guān)鍵詞搜尋結(jié)果如表5所示。

將表5 中這些關(guān)鍵詞聯(lián)系起來分析，可以推測(cè)吧友們討論的主要話題，比如：“專升本報(bào)考的學(xué)校和專業(yè)”“考試要求”“會(huì)計(jì)”“數(shù)學(xué)”“找到女朋友”“難易”，等等。作為即將專升本的學(xué)生，他們關(guān)心的話題自然是考試要求、考試內(nèi)容、難易程度、報(bào)考學(xué)校以及專業(yè)；由于工貿(mào)學(xué)院的會(huì)計(jì)專業(yè)學(xué)生的入門錄取分?jǐn)?shù)高，學(xué)生基礎(chǔ)扎實(shí)，所以專升本的學(xué)生自然就多；在專升本的考試科目中，數(shù)學(xué)是關(guān)鍵，既容易得分又容易失分，區(qū)分度大，數(shù)學(xué)自然成為學(xué)生討論的話題；至于“找到女朋友”，可能是某些男生希望專升本之后快速的找到女朋友吧。

表5 關(guān)鍵詞搜尋結(jié)果

3 研究結(jié)論

本文以百度貼吧里從2007年5月4日至2018年3月17日的學(xué)院大學(xué)生網(wǎng)絡(luò)聊天文本信息為研究對(duì)象，建立了網(wǎng)絡(luò)輿情檢測(cè)模型，實(shí)現(xiàn)了大學(xué)生網(wǎng)絡(luò)輿情的定量檢測(cè)。然后設(shè)置了三級(jí)預(yù)警反應(yīng)機(jī)制，實(shí)現(xiàn)了網(wǎng)絡(luò)輿情異常狀況的預(yù)警和熱門主題的捕捉。最后，建立了特征詞指數(shù)，實(shí)現(xiàn)了對(duì)熱門主題里的關(guān)鍵詞捕捉。獲得的結(jié)論如下：

（1）最大指數(shù)發(fā)生的日期是2013 年8 月19 日，其主題是“親，你遇到了么？”，帖子內(nèi)容是尋找在溫州的老鄉(xiāng)。

（2）在2017 年8 月15 日和25 日分別發(fā)出了橙色預(yù)警信號(hào)，其中，2017年8月15日的發(fā)帖主題分別是“畢業(yè)老學(xué)姐解答專升本疑惑”和“在浙工貿(mào)的70 件事”；2017 年8 月25 日的發(fā)帖主題分別是“畢業(yè)老學(xué)姐解答專升本疑惑”、“開學(xué)騙術(shù)多——揭秘那些常見騙術(shù)”、“掉進(jìn)染色桶里的工貿(mào)”和“在浙工貿(mào)的70件事”。

（3）搜尋熱門主題“畢業(yè)老學(xué)姐解答專升本疑惑”的關(guān)鍵詞，分別是“專升本報(bào)考的學(xué)校和專業(yè)”“考試要求”“會(huì)計(jì)”“數(shù)學(xué)”“找到女朋友”“難易”，等等。

綜上所述，通過研究高校網(wǎng)絡(luò)輿情，建立和健全輿情監(jiān)測(cè)和預(yù)警機(jī)制，可以實(shí)時(shí)掌握大學(xué)生的思想動(dòng)態(tài)，及早發(fā)現(xiàn)突發(fā)事件的苗頭，主動(dòng)解決學(xué)生的思想問題，優(yōu)化高校思想政治教育方法，對(duì)于維護(hù)校園和諧發(fā)展，促進(jìn)社會(huì)穩(wěn)定具有重要意義。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看