金慧峰,程振設(shè)
(浙江工貿(mào)職業(yè)技術(shù)學(xué)院,浙江溫州 325003)
互聯(lián)網(wǎng)運(yùn)營(yíng)模式的不斷創(chuàng)新、線上線下服務(wù)融合的加速、公共服務(wù)線上化步伐的加快,使得幾乎所有大學(xué)生成為網(wǎng)民。微博、微信、論壇、貼吧等社交網(wǎng)絡(luò)的繁榮發(fā)展,使得大學(xué)生在這些社交網(wǎng)絡(luò)上發(fā)帖、轉(zhuǎn)發(fā)、評(píng)論等行為已經(jīng)成為常態(tài)。在傳統(tǒng)數(shù)據(jù)時(shí)代,研究者主要通過抽樣調(diào)查、內(nèi)容分析等方法獲取有限的、有代表性的輿情樣本信息,并運(yùn)用統(tǒng)計(jì)學(xué)方法進(jìn)行分析。在大數(shù)據(jù)時(shí)代,隨著海量輿情信息的涌現(xiàn)和數(shù)據(jù)采集技術(shù)的進(jìn)步,樣本分析被總體分析所取代,傳統(tǒng)的抽樣分析和檢測(cè)預(yù)警手段已無法適應(yīng)大數(shù)據(jù)時(shí)代的發(fā)展趨勢(shì),網(wǎng)絡(luò)輿情大數(shù)據(jù)的分析、檢測(cè)和預(yù)警成為社會(huì)管理的客觀需求。
目前關(guān)于大數(shù)據(jù)時(shí)代高校學(xué)生網(wǎng)絡(luò)輿情監(jiān)測(cè)和預(yù)警機(jī)制的研究成果較少,主要分為兩個(gè)層面。其一是理論層面,根據(jù)大學(xué)生網(wǎng)絡(luò)輿情傳播的特點(diǎn)和現(xiàn)狀,提出了高校網(wǎng)絡(luò)輿情管理的思路、策略和路徑[1-4];其二是技術(shù)層面,主要集中于網(wǎng)絡(luò)檢測(cè)系統(tǒng)的設(shè)計(jì)[5-8]、網(wǎng)絡(luò)輿情挖掘技術(shù)[9-10]等。不論理論層面還是技術(shù)層面,均沒有針對(duì)大學(xué)生網(wǎng)絡(luò)輿情的定量化監(jiān)測(cè)的成果,主要原因可能在于海量文本信息不但對(duì)當(dāng)前計(jì)算機(jī)性能提出了較大挑戰(zhàn),而且對(duì)文本挖掘技術(shù)也提出了較高的要求。
目前,基于統(tǒng)計(jì)的文本挖掘方法[11-12]中,文本是以向量形式表示的,向量的分量是特征詞的頻數(shù),特征詞是根據(jù)文本挖掘的任務(wù)或目標(biāo)來確定的,可以是名詞、動(dòng)名詞或形容詞,等等。因此,要將文本表示為向量,首先就要將文本分詞。
目前國(guó)內(nèi)常用的分詞方法[11-12]有:機(jī)械分詞法、詞庫(kù)匹配法、詞頻統(tǒng)計(jì)法、語(yǔ)義分析法、神經(jīng)網(wǎng)絡(luò)分詞法、聯(lián)想-回朔法、聯(lián)想詞群法、知識(shí)與規(guī)則法等。這些分詞算法可以歸為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。本文采用中科院計(jì)算所的漢語(yǔ)詞法分析系統(tǒng)ICTCLAS進(jìn)行分詞,該系統(tǒng)的功能有中文分詞、詞性標(biāo)注、未登錄詞識(shí)別,分詞正確率高達(dá)97%以上,未登錄詞識(shí)別召回率均高于90%,其中中國(guó)人名的識(shí)別召回率接近98%,處理速度為31.5Kb/s。
所有文本分詞之后,形成詞語(yǔ)集,詞的總數(shù)通常都很大,這會(huì)使得表示文本的向量空間的維數(shù)也相當(dāng)大,因此需要降維。降維技術(shù)有兩類:特征選擇和特征重構(gòu)。
特征選擇是指去除冗余的和不能表達(dá)文本挖掘任務(wù)信息的詞,或者選擇那些能夠表達(dá)文本挖掘任務(wù)信息的詞(稱之為特征詞),從而減少詞語(yǔ)總量,達(dá)到降維目的。特征選擇的結(jié)果為原始詞語(yǔ)集的子集。特征選擇方法:根據(jù)詞頻來判斷,當(dāng)詞頻小于或大于給定的閾值時(shí)就去掉。
特征重構(gòu)是指將原始詞語(yǔ)集經(jīng)過數(shù)學(xué)變換構(gòu)造出新的詞語(yǔ)集,以此達(dá)到降維的目的。新的詞語(yǔ)集不是原始詞語(yǔ)集的子集。比較常用的特征重構(gòu)方法是潛在語(yǔ)義分析。
本文以百度貼吧里近幾年浙江工貿(mào)職業(yè)技術(shù)學(xué)院(下稱學(xué)院)大學(xué)生網(wǎng)絡(luò)聊天的文本信息為研究對(duì)象,開展大學(xué)生網(wǎng)絡(luò)輿情的監(jiān)測(cè)和預(yù)警。相關(guān)工作主要有五步:第一,使用python爬蟲軟件從百度貼吧抓取近幾年的聊天帖子,數(shù)量將超過萬條。每個(gè)帖子的信息包括帖子ID、主題、作者、跟帖數(shù)量、跟帖內(nèi)容、跟帖作者、跟帖日期和時(shí)間。第二,對(duì)抓取到的文本信息作總體特征分析、熱門主題及其作者搜尋、熱門主題的內(nèi)容分析等。第三,建立輿情指數(shù),度量網(wǎng)絡(luò)輿情的大小,形成動(dòng)態(tài)直觀的網(wǎng)絡(luò)輿情走勢(shì)圖。第四,設(shè)置“黃色、橙色和紅色”三個(gè)預(yù)警級(jí)別,對(duì)網(wǎng)絡(luò)輿情進(jìn)行預(yù)警。第五,建立特征詞指數(shù),實(shí)現(xiàn)對(duì)熱門主題的熱點(diǎn)關(guān)鍵詞的捕捉。
編寫python 爬蟲軟件,從浙江工貿(mào)百度貼吧(http://tieba.baidu.com/f?kw=浙江工貿(mào))抓取到2007年5 月4 日到2018 年2 月28 日大學(xué)生的“精品”帖子,一共6551條文本評(píng)論。每個(gè)帖子的信息包括帖子ID、主題、作者、跟帖數(shù)量、跟帖內(nèi)容、跟帖作者、跟帖日期和時(shí)間。
以天為計(jì)時(shí)單位。設(shè)ai表示第i天的衍生貼數(shù)量(個(gè)),表示第i天的歷史平均衍生貼數(shù)量(個(gè)),則第i天的輿情指數(shù)為
統(tǒng)計(jì)出每天的輿情指數(shù)u1,u2,...,就形成了動(dòng)態(tài)指數(shù),如表1所示。
如果以時(shí)刻i為橫軸,以輿情指數(shù)為縱軸,可以畫出動(dòng)態(tài)指數(shù)圖。
從2007年5月4日至2018年3月17日的動(dòng)態(tài)指數(shù),如圖1所示(剔除了指數(shù)為0)。
另外,從2007年5月4日至2018年3月17日的最大指數(shù)是53.9,具體日期是2013年8月19日,意味著這一天的帖子數(shù)量是歷史平均值的53.9倍,其主題是“親,你遇到了么?”,進(jìn)一步查看帖子內(nèi)容(略),大部分是關(guān)于尋找在溫州的老鄉(xiāng)的帖子。中國(guó)人普遍具有濃重的老鄉(xiāng)情節(jié),當(dāng)大學(xué)生收到錄取通知書之后,即將從全國(guó)各地來到陌生的溫州,此時(shí)如果能夠遇到老鄉(xiāng),那么就有了類似于親人一樣的、可以互相依賴和幫助的朋友,于是通過網(wǎng)絡(luò)查找老鄉(xiāng)就成為一條便捷的途徑。
為了預(yù)警,需要確定輿情指數(shù)的合理界限。如果輿情指數(shù)超過了這個(gè)界限,就發(fā)出預(yù)警信號(hào)。從表1和圖1可知,一方面,輿情指數(shù)為0的指數(shù)占比很大,是32.8%;另一方面,輿情指數(shù)的極差也很大,是53.9。于是將原指數(shù)中的0 指數(shù)剔除,并針對(duì)非0 指數(shù)實(shí)施以7 天為窗口的移動(dòng)平均,再畫出輿情指數(shù)的直方圖,如圖2所示。
表1 部分輿情指數(shù)
圖1 2007/5/4—2018/3/17的輿情指數(shù)
從圖2 可知,非0 指數(shù)呈現(xiàn)負(fù)指數(shù)分布。給定顯著性水平α=0.01,估計(jì)其均值得μ=3.0475,指數(shù)分布的參數(shù)λ=1/μ≈0.328,指數(shù)分布的概率密度函數(shù)為
圖2 輿情指數(shù)直方圖
2.4.1 大學(xué)生網(wǎng)絡(luò)輿情預(yù)警級(jí)別的設(shè)置
本文將預(yù)警級(jí)別設(shè)定為“黃色、橙色和紅色”三個(gè)級(jí)別。
給定顯著性水平α,置信度1-α對(duì)應(yīng)的分位數(shù)記作μα。如果輿情指數(shù)超過分位數(shù)μα,則發(fā)出預(yù)警信號(hào)。于是給定三個(gè)不同的顯著性水平α=0.1、0.05、0.01,預(yù)警級(jí)別的臨界值即可確定,如表2所示。
表2 預(yù)警級(jí)別臨界值
2.4.2 大學(xué)生網(wǎng)絡(luò)輿情預(yù)警級(jí)別的設(shè)置結(jié)果
不同顯著性水平下的指數(shù)分布檢驗(yàn)、分位數(shù)和均值估計(jì)結(jié)果如表3所示。
表3 指數(shù)分布檢驗(yàn)、分位數(shù)和均值估計(jì)
從表3 可知,在0.01 的顯著性水平下,非0 指數(shù)服從指數(shù)分布。于是,輿情指數(shù)預(yù)警的臨界值如表4所示。
表4 預(yù)警臨界值
從2017 年7 月1 日至2018 年3 月17 日的非0 輿情指數(shù)預(yù)警圖,如圖3所示。
圖3 2017/7/1—2018/3/17的輿情指數(shù)及預(yù)警線
從圖3和表1可知,在2017年8月15日和25日分別發(fā)出了橙色預(yù)警信號(hào),需要引起關(guān)注。
查看2017年8月15日的發(fā)帖主題,分別是“畢業(yè)老學(xué)姐解答專升本疑惑”和“在浙工貿(mào)的70 件事”。查看2017 年8 月25 日的發(fā)帖主題,分別是“畢業(yè)老學(xué)姐解答專升本疑惑”、“開學(xué)騙術(shù)多——揭秘那些常見騙術(shù)”、“掉進(jìn)染色桶里的工貿(mào)”和“在浙工貿(mào)的70件事”。
可見,跟帖增多的原因是學(xué)生對(duì)“專升本”話題很感興趣,對(duì)“開學(xué)騙術(shù)”和工貿(mào)學(xué)院話題很關(guān)注。究其原因,首先,大二學(xué)生即將升入大三,一部分學(xué)生開始考慮專升本的諸多問題了;其次,新生即將報(bào)到,為了防止被騙對(duì)開學(xué)騙術(shù)自然就很關(guān)注;第三,畢業(yè)生可以回顧在大學(xué)的三年期間發(fā)生的歷歷往事,記錄美好瞬間、回味幸福時(shí)刻、抒發(fā)離愁別緒,每一件事都成為工貿(mào)學(xué)院的特寫,也成為即將來到工貿(mào)學(xué)院的準(zhǔn)大學(xué)生們感興趣的事件,引起他們的關(guān)注就不足為奇。
將觸發(fā)預(yù)警的主題稱為熱門主題。對(duì)于熱門主題,我們需要進(jìn)一步確定吧友們討論的關(guān)鍵詞是什么,例如對(duì)于專升本這個(gè)熱門主題,關(guān)鍵詞是“輔導(dǎo)、考試、報(bào)志愿、高等數(shù)學(xué)”里的哪一個(gè)?因此需要建立關(guān)鍵詞搜尋模型。
2.5.1 文本預(yù)處理
采用中科院計(jì)算所的漢語(yǔ)詞法分析系統(tǒng)ICT?CLAS 對(duì)文本進(jìn)行分詞,形成詞語(yǔ)集,然后選擇名詞、動(dòng)詞和形容詞作為特征詞,一共340 6 個(gè)。以向量表示文本,設(shè)X表示一條文本,則
其中,wi表示第i個(gè)特征詞的頻數(shù),m是特征詞的個(gè)數(shù)。
2.5.2 特征詞指數(shù)
由于輿情指數(shù)反映了衍生貼的相對(duì)數(shù)量,而每一個(gè)衍生貼是由特征詞表示的,在熱點(diǎn)帖子已經(jīng)確定的情況下,如何測(cè)量特征詞的熱度呢?本文使用特征詞指數(shù)來度量特征詞的熱度。
設(shè)有m個(gè)特征詞,有n個(gè)文本,第i個(gè)特征詞在 第j個(gè)文本中的頻數(shù)記作aij,aij≥0,i=1,2,...,m,j=1,2,...,n。
對(duì)于第i個(gè)特征詞,在第j個(gè)文本中出現(xiàn)的次數(shù)越多,說明其反映大學(xué)生的心理愿望越強(qiáng)烈,則熱度越大,于是第i個(gè)特征詞在第j個(gè)文本中的熱度使用頻率來度量,即
第i個(gè)特征詞的平均熱度為
對(duì)于第i個(gè)特征詞,在各個(gè)文本中出現(xiàn)的次數(shù)越多,說明討論它的大學(xué)生越多,則熱度越大,于是第i個(gè)特征詞的權(quán)系數(shù)為
其中,
第i個(gè)特征詞的加權(quán)熱度為
第i個(gè)特征詞的歸一化加權(quán)熱度為
歸一化加權(quán)熱度gi∈[0,1]。
稱歸一化加權(quán)熱度超過某閾值的特征詞為關(guān)鍵詞。于是,通過設(shè)置一個(gè)合適的閾值ε,可將關(guān)鍵詞篩選出來。
2.5.3 關(guān)鍵詞搜尋結(jié)果
以2017年8月15日引起橙色預(yù)警為例,針對(duì)主題“畢業(yè)老學(xué)姐解答專升本疑惑”,設(shè)置閾值ε=0,并刪除無意義的詞,關(guān)鍵詞搜尋結(jié)果如表5所示。
將表5 中這些關(guān)鍵詞聯(lián)系起來分析,可以推測(cè)吧友們討論的主要話題,比如:“專升本報(bào)考的學(xué)校和專業(yè)”“考試要求”“會(huì)計(jì)”“數(shù)學(xué)”“找到女朋友”“難易”,等等。作為即將專升本的學(xué)生,他們關(guān)心的話題自然是考試要求、考試內(nèi)容、難易程度、報(bào)考學(xué)校以及專業(yè);由于工貿(mào)學(xué)院的會(huì)計(jì)專業(yè)學(xué)生的入門錄取分?jǐn)?shù)高,學(xué)生基礎(chǔ)扎實(shí),所以專升本的學(xué)生自然就多;在專升本的考試科目中,數(shù)學(xué)是關(guān)鍵,既容易得分又容易失分,區(qū)分度大,數(shù)學(xué)自然成為學(xué)生討論的話題;至于“找到女朋友”,可能是某些男生希望專升本之后快速的找到女朋友吧。
表5 關(guān)鍵詞搜尋結(jié)果
本文以百度貼吧里從2007年5月4日至2018年3月17日的學(xué)院大學(xué)生網(wǎng)絡(luò)聊天文本信息為研究對(duì)象,建立了網(wǎng)絡(luò)輿情檢測(cè)模型,實(shí)現(xiàn)了大學(xué)生網(wǎng)絡(luò)輿情的定量檢測(cè)。然后設(shè)置了三級(jí)預(yù)警反應(yīng)機(jī)制,實(shí)現(xiàn)了網(wǎng)絡(luò)輿情異常狀況的預(yù)警和熱門主題的捕捉。最后,建立了特征詞指數(shù),實(shí)現(xiàn)了對(duì)熱門主題里的關(guān)鍵詞捕捉。獲得的結(jié)論如下:
(1)最大指數(shù)發(fā)生的日期是2013 年8 月19 日,其主題是“親,你遇到了么?”,帖子內(nèi)容是尋找在溫州的老鄉(xiāng)。
(2)在2017 年8 月15 日和25 日分別發(fā)出了橙色預(yù)警信號(hào),其中,2017年8月15日的發(fā)帖主題分別是“畢業(yè)老學(xué)姐解答專升本疑惑”和“在浙工貿(mào)的70 件事”;2017 年8 月25 日的發(fā)帖主題分別是“畢業(yè)老學(xué)姐解答專升本疑惑”、“開學(xué)騙術(shù)多——揭秘那些常見騙術(shù)”、“掉進(jìn)染色桶里的工貿(mào)”和“在浙工貿(mào)的70件事”。
(3)搜尋熱門主題“畢業(yè)老學(xué)姐解答專升本疑惑”的關(guān)鍵詞,分別是“專升本報(bào)考的學(xué)校和專業(yè)”“考試要求”“會(huì)計(jì)”“數(shù)學(xué)”“找到女朋友”“難易”,等等。
綜上所述,通過研究高校網(wǎng)絡(luò)輿情,建立和健全輿情監(jiān)測(cè)和預(yù)警機(jī)制,可以實(shí)時(shí)掌握大學(xué)生的思想動(dòng)態(tài),及早發(fā)現(xiàn)突發(fā)事件的苗頭,主動(dòng)解決學(xué)生的思想問題,優(yōu)化高校思想政治教育方法,對(duì)于維護(hù)校園和諧發(fā)展,促進(jìn)社會(huì)穩(wěn)定具有重要意義。