• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于文本挖掘的大學(xué)生網(wǎng)絡(luò)輿情檢測(cè)和預(yù)警模型*

      2019-03-11 11:12:28金慧峰程振設(shè)
      關(guān)鍵詞:特征詞專升本分詞

      金慧峰,程振設(shè)

      (浙江工貿(mào)職業(yè)技術(shù)學(xué)院,浙江溫州 325003)

      0 引言

      互聯(lián)網(wǎng)運(yùn)營(yíng)模式的不斷創(chuàng)新、線上線下服務(wù)融合的加速、公共服務(wù)線上化步伐的加快,使得幾乎所有大學(xué)生成為網(wǎng)民。微博、微信、論壇、貼吧等社交網(wǎng)絡(luò)的繁榮發(fā)展,使得大學(xué)生在這些社交網(wǎng)絡(luò)上發(fā)帖、轉(zhuǎn)發(fā)、評(píng)論等行為已經(jīng)成為常態(tài)。在傳統(tǒng)數(shù)據(jù)時(shí)代,研究者主要通過抽樣調(diào)查、內(nèi)容分析等方法獲取有限的、有代表性的輿情樣本信息,并運(yùn)用統(tǒng)計(jì)學(xué)方法進(jìn)行分析。在大數(shù)據(jù)時(shí)代,隨著海量輿情信息的涌現(xiàn)和數(shù)據(jù)采集技術(shù)的進(jìn)步,樣本分析被總體分析所取代,傳統(tǒng)的抽樣分析和檢測(cè)預(yù)警手段已無法適應(yīng)大數(shù)據(jù)時(shí)代的發(fā)展趨勢(shì),網(wǎng)絡(luò)輿情大數(shù)據(jù)的分析、檢測(cè)和預(yù)警成為社會(huì)管理的客觀需求。

      目前關(guān)于大數(shù)據(jù)時(shí)代高校學(xué)生網(wǎng)絡(luò)輿情監(jiān)測(cè)和預(yù)警機(jī)制的研究成果較少,主要分為兩個(gè)層面。其一是理論層面,根據(jù)大學(xué)生網(wǎng)絡(luò)輿情傳播的特點(diǎn)和現(xiàn)狀,提出了高校網(wǎng)絡(luò)輿情管理的思路、策略和路徑[1-4];其二是技術(shù)層面,主要集中于網(wǎng)絡(luò)檢測(cè)系統(tǒng)的設(shè)計(jì)[5-8]、網(wǎng)絡(luò)輿情挖掘技術(shù)[9-10]等。不論理論層面還是技術(shù)層面,均沒有針對(duì)大學(xué)生網(wǎng)絡(luò)輿情的定量化監(jiān)測(cè)的成果,主要原因可能在于海量文本信息不但對(duì)當(dāng)前計(jì)算機(jī)性能提出了較大挑戰(zhàn),而且對(duì)文本挖掘技術(shù)也提出了較高的要求。

      1 相關(guān)理論簡(jiǎn)介

      1.1 文本表示方法

      目前,基于統(tǒng)計(jì)的文本挖掘方法[11-12]中,文本是以向量形式表示的,向量的分量是特征詞的頻數(shù),特征詞是根據(jù)文本挖掘的任務(wù)或目標(biāo)來確定的,可以是名詞、動(dòng)名詞或形容詞,等等。因此,要將文本表示為向量,首先就要將文本分詞。

      1.2 文本分詞

      目前國(guó)內(nèi)常用的分詞方法[11-12]有:機(jī)械分詞法、詞庫(kù)匹配法、詞頻統(tǒng)計(jì)法、語(yǔ)義分析法、神經(jīng)網(wǎng)絡(luò)分詞法、聯(lián)想-回朔法、聯(lián)想詞群法、知識(shí)與規(guī)則法等。這些分詞算法可以歸為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。本文采用中科院計(jì)算所的漢語(yǔ)詞法分析系統(tǒng)ICTCLAS進(jìn)行分詞,該系統(tǒng)的功能有中文分詞、詞性標(biāo)注、未登錄詞識(shí)別,分詞正確率高達(dá)97%以上,未登錄詞識(shí)別召回率均高于90%,其中中國(guó)人名的識(shí)別召回率接近98%,處理速度為31.5Kb/s。

      1.3 特征詞選擇

      所有文本分詞之后,形成詞語(yǔ)集,詞的總數(shù)通常都很大,這會(huì)使得表示文本的向量空間的維數(shù)也相當(dāng)大,因此需要降維。降維技術(shù)有兩類:特征選擇和特征重構(gòu)。

      特征選擇是指去除冗余的和不能表達(dá)文本挖掘任務(wù)信息的詞,或者選擇那些能夠表達(dá)文本挖掘任務(wù)信息的詞(稱之為特征詞),從而減少詞語(yǔ)總量,達(dá)到降維目的。特征選擇的結(jié)果為原始詞語(yǔ)集的子集。特征選擇方法:根據(jù)詞頻來判斷,當(dāng)詞頻小于或大于給定的閾值時(shí)就去掉。

      特征重構(gòu)是指將原始詞語(yǔ)集經(jīng)過數(shù)學(xué)變換構(gòu)造出新的詞語(yǔ)集,以此達(dá)到降維的目的。新的詞語(yǔ)集不是原始詞語(yǔ)集的子集。比較常用的特征重構(gòu)方法是潛在語(yǔ)義分析。

      2 實(shí)證研究

      2.1 研究設(shè)計(jì)

      本文以百度貼吧里近幾年浙江工貿(mào)職業(yè)技術(shù)學(xué)院(下稱學(xué)院)大學(xué)生網(wǎng)絡(luò)聊天的文本信息為研究對(duì)象,開展大學(xué)生網(wǎng)絡(luò)輿情的監(jiān)測(cè)和預(yù)警。相關(guān)工作主要有五步:第一,使用python爬蟲軟件從百度貼吧抓取近幾年的聊天帖子,數(shù)量將超過萬條。每個(gè)帖子的信息包括帖子ID、主題、作者、跟帖數(shù)量、跟帖內(nèi)容、跟帖作者、跟帖日期和時(shí)間。第二,對(duì)抓取到的文本信息作總體特征分析、熱門主題及其作者搜尋、熱門主題的內(nèi)容分析等。第三,建立輿情指數(shù),度量網(wǎng)絡(luò)輿情的大小,形成動(dòng)態(tài)直觀的網(wǎng)絡(luò)輿情走勢(shì)圖。第四,設(shè)置“黃色、橙色和紅色”三個(gè)預(yù)警級(jí)別,對(duì)網(wǎng)絡(luò)輿情進(jìn)行預(yù)警。第五,建立特征詞指數(shù),實(shí)現(xiàn)對(duì)熱門主題的熱點(diǎn)關(guān)鍵詞的捕捉。

      2.2 數(shù)據(jù)采集與初步分析

      編寫python 爬蟲軟件,從浙江工貿(mào)百度貼吧(http://tieba.baidu.com/f?kw=浙江工貿(mào))抓取到2007年5 月4 日到2018 年2 月28 日大學(xué)生的“精品”帖子,一共6551條文本評(píng)論。每個(gè)帖子的信息包括帖子ID、主題、作者、跟帖數(shù)量、跟帖內(nèi)容、跟帖作者、跟帖日期和時(shí)間。

      2.3 大學(xué)生網(wǎng)絡(luò)輿情檢測(cè)模型

      以天為計(jì)時(shí)單位。設(shè)ai表示第i天的衍生貼數(shù)量(個(gè)),表示第i天的歷史平均衍生貼數(shù)量(個(gè)),則第i天的輿情指數(shù)為

      統(tǒng)計(jì)出每天的輿情指數(shù)u1,u2,...,就形成了動(dòng)態(tài)指數(shù),如表1所示。

      如果以時(shí)刻i為橫軸,以輿情指數(shù)為縱軸,可以畫出動(dòng)態(tài)指數(shù)圖。

      從2007年5月4日至2018年3月17日的動(dòng)態(tài)指數(shù),如圖1所示(剔除了指數(shù)為0)。

      另外,從2007年5月4日至2018年3月17日的最大指數(shù)是53.9,具體日期是2013年8月19日,意味著這一天的帖子數(shù)量是歷史平均值的53.9倍,其主題是“親,你遇到了么?”,進(jìn)一步查看帖子內(nèi)容(略),大部分是關(guān)于尋找在溫州的老鄉(xiāng)的帖子。中國(guó)人普遍具有濃重的老鄉(xiāng)情節(jié),當(dāng)大學(xué)生收到錄取通知書之后,即將從全國(guó)各地來到陌生的溫州,此時(shí)如果能夠遇到老鄉(xiāng),那么就有了類似于親人一樣的、可以互相依賴和幫助的朋友,于是通過網(wǎng)絡(luò)查找老鄉(xiāng)就成為一條便捷的途徑。

      2.4 大學(xué)生網(wǎng)絡(luò)輿情預(yù)警

      為了預(yù)警,需要確定輿情指數(shù)的合理界限。如果輿情指數(shù)超過了這個(gè)界限,就發(fā)出預(yù)警信號(hào)。從表1和圖1可知,一方面,輿情指數(shù)為0的指數(shù)占比很大,是32.8%;另一方面,輿情指數(shù)的極差也很大,是53.9。于是將原指數(shù)中的0 指數(shù)剔除,并針對(duì)非0 指數(shù)實(shí)施以7 天為窗口的移動(dòng)平均,再畫出輿情指數(shù)的直方圖,如圖2所示。

      表1 部分輿情指數(shù)

      圖1 2007/5/4—2018/3/17的輿情指數(shù)

      從圖2 可知,非0 指數(shù)呈現(xiàn)負(fù)指數(shù)分布。給定顯著性水平α=0.01,估計(jì)其均值得μ=3.0475,指數(shù)分布的參數(shù)λ=1/μ≈0.328,指數(shù)分布的概率密度函數(shù)為

      圖2 輿情指數(shù)直方圖

      2.4.1 大學(xué)生網(wǎng)絡(luò)輿情預(yù)警級(jí)別的設(shè)置

      本文將預(yù)警級(jí)別設(shè)定為“黃色、橙色和紅色”三個(gè)級(jí)別。

      給定顯著性水平α,置信度1-α對(duì)應(yīng)的分位數(shù)記作μα。如果輿情指數(shù)超過分位數(shù)μα,則發(fā)出預(yù)警信號(hào)。于是給定三個(gè)不同的顯著性水平α=0.1、0.05、0.01,預(yù)警級(jí)別的臨界值即可確定,如表2所示。

      表2 預(yù)警級(jí)別臨界值

      2.4.2 大學(xué)生網(wǎng)絡(luò)輿情預(yù)警級(jí)別的設(shè)置結(jié)果

      不同顯著性水平下的指數(shù)分布檢驗(yàn)、分位數(shù)和均值估計(jì)結(jié)果如表3所示。

      表3 指數(shù)分布檢驗(yàn)、分位數(shù)和均值估計(jì)

      從表3 可知,在0.01 的顯著性水平下,非0 指數(shù)服從指數(shù)分布。于是,輿情指數(shù)預(yù)警的臨界值如表4所示。

      表4 預(yù)警臨界值

      從2017 年7 月1 日至2018 年3 月17 日的非0 輿情指數(shù)預(yù)警圖,如圖3所示。

      圖3 2017/7/1—2018/3/17的輿情指數(shù)及預(yù)警線

      從圖3和表1可知,在2017年8月15日和25日分別發(fā)出了橙色預(yù)警信號(hào),需要引起關(guān)注。

      查看2017年8月15日的發(fā)帖主題,分別是“畢業(yè)老學(xué)姐解答專升本疑惑”和“在浙工貿(mào)的70 件事”。查看2017 年8 月25 日的發(fā)帖主題,分別是“畢業(yè)老學(xué)姐解答專升本疑惑”、“開學(xué)騙術(shù)多——揭秘那些常見騙術(shù)”、“掉進(jìn)染色桶里的工貿(mào)”和“在浙工貿(mào)的70件事”。

      可見,跟帖增多的原因是學(xué)生對(duì)“專升本”話題很感興趣,對(duì)“開學(xué)騙術(shù)”和工貿(mào)學(xué)院話題很關(guān)注。究其原因,首先,大二學(xué)生即將升入大三,一部分學(xué)生開始考慮專升本的諸多問題了;其次,新生即將報(bào)到,為了防止被騙對(duì)開學(xué)騙術(shù)自然就很關(guān)注;第三,畢業(yè)生可以回顧在大學(xué)的三年期間發(fā)生的歷歷往事,記錄美好瞬間、回味幸福時(shí)刻、抒發(fā)離愁別緒,每一件事都成為工貿(mào)學(xué)院的特寫,也成為即將來到工貿(mào)學(xué)院的準(zhǔn)大學(xué)生們感興趣的事件,引起他們的關(guān)注就不足為奇。

      2.5 熱門主題的關(guān)鍵詞搜尋

      將觸發(fā)預(yù)警的主題稱為熱門主題。對(duì)于熱門主題,我們需要進(jìn)一步確定吧友們討論的關(guān)鍵詞是什么,例如對(duì)于專升本這個(gè)熱門主題,關(guān)鍵詞是“輔導(dǎo)、考試、報(bào)志愿、高等數(shù)學(xué)”里的哪一個(gè)?因此需要建立關(guān)鍵詞搜尋模型。

      2.5.1 文本預(yù)處理

      采用中科院計(jì)算所的漢語(yǔ)詞法分析系統(tǒng)ICT?CLAS 對(duì)文本進(jìn)行分詞,形成詞語(yǔ)集,然后選擇名詞、動(dòng)詞和形容詞作為特征詞,一共340 6 個(gè)。以向量表示文本,設(shè)X表示一條文本,則

      其中,wi表示第i個(gè)特征詞的頻數(shù),m是特征詞的個(gè)數(shù)。

      2.5.2 特征詞指數(shù)

      由于輿情指數(shù)反映了衍生貼的相對(duì)數(shù)量,而每一個(gè)衍生貼是由特征詞表示的,在熱點(diǎn)帖子已經(jīng)確定的情況下,如何測(cè)量特征詞的熱度呢?本文使用特征詞指數(shù)來度量特征詞的熱度。

      設(shè)有m個(gè)特征詞,有n個(gè)文本,第i個(gè)特征詞在 第j個(gè)文本中的頻數(shù)記作aij,aij≥0,i=1,2,...,m,j=1,2,...,n。

      對(duì)于第i個(gè)特征詞,在第j個(gè)文本中出現(xiàn)的次數(shù)越多,說明其反映大學(xué)生的心理愿望越強(qiáng)烈,則熱度越大,于是第i個(gè)特征詞在第j個(gè)文本中的熱度使用頻率來度量,即

      第i個(gè)特征詞的平均熱度為

      對(duì)于第i個(gè)特征詞,在各個(gè)文本中出現(xiàn)的次數(shù)越多,說明討論它的大學(xué)生越多,則熱度越大,于是第i個(gè)特征詞的權(quán)系數(shù)為

      其中,

      第i個(gè)特征詞的加權(quán)熱度為

      第i個(gè)特征詞的歸一化加權(quán)熱度為

      歸一化加權(quán)熱度gi∈[0,1]。

      稱歸一化加權(quán)熱度超過某閾值的特征詞為關(guān)鍵詞。于是,通過設(shè)置一個(gè)合適的閾值ε,可將關(guān)鍵詞篩選出來。

      2.5.3 關(guān)鍵詞搜尋結(jié)果

      以2017年8月15日引起橙色預(yù)警為例,針對(duì)主題“畢業(yè)老學(xué)姐解答專升本疑惑”,設(shè)置閾值ε=0,并刪除無意義的詞,關(guān)鍵詞搜尋結(jié)果如表5所示。

      將表5 中這些關(guān)鍵詞聯(lián)系起來分析,可以推測(cè)吧友們討論的主要話題,比如:“專升本報(bào)考的學(xué)校和專業(yè)”“考試要求”“會(huì)計(jì)”“數(shù)學(xué)”“找到女朋友”“難易”,等等。作為即將專升本的學(xué)生,他們關(guān)心的話題自然是考試要求、考試內(nèi)容、難易程度、報(bào)考學(xué)校以及專業(yè);由于工貿(mào)學(xué)院的會(huì)計(jì)專業(yè)學(xué)生的入門錄取分?jǐn)?shù)高,學(xué)生基礎(chǔ)扎實(shí),所以專升本的學(xué)生自然就多;在專升本的考試科目中,數(shù)學(xué)是關(guān)鍵,既容易得分又容易失分,區(qū)分度大,數(shù)學(xué)自然成為學(xué)生討論的話題;至于“找到女朋友”,可能是某些男生希望專升本之后快速的找到女朋友吧。

      表5 關(guān)鍵詞搜尋結(jié)果

      3 研究結(jié)論

      本文以百度貼吧里從2007年5月4日至2018年3月17日的學(xué)院大學(xué)生網(wǎng)絡(luò)聊天文本信息為研究對(duì)象,建立了網(wǎng)絡(luò)輿情檢測(cè)模型,實(shí)現(xiàn)了大學(xué)生網(wǎng)絡(luò)輿情的定量檢測(cè)。然后設(shè)置了三級(jí)預(yù)警反應(yīng)機(jī)制,實(shí)現(xiàn)了網(wǎng)絡(luò)輿情異常狀況的預(yù)警和熱門主題的捕捉。最后,建立了特征詞指數(shù),實(shí)現(xiàn)了對(duì)熱門主題里的關(guān)鍵詞捕捉。獲得的結(jié)論如下:

      (1)最大指數(shù)發(fā)生的日期是2013 年8 月19 日,其主題是“親,你遇到了么?”,帖子內(nèi)容是尋找在溫州的老鄉(xiāng)。

      (2)在2017 年8 月15 日和25 日分別發(fā)出了橙色預(yù)警信號(hào),其中,2017年8月15日的發(fā)帖主題分別是“畢業(yè)老學(xué)姐解答專升本疑惑”和“在浙工貿(mào)的70 件事”;2017 年8 月25 日的發(fā)帖主題分別是“畢業(yè)老學(xué)姐解答專升本疑惑”、“開學(xué)騙術(shù)多——揭秘那些常見騙術(shù)”、“掉進(jìn)染色桶里的工貿(mào)”和“在浙工貿(mào)的70件事”。

      (3)搜尋熱門主題“畢業(yè)老學(xué)姐解答專升本疑惑”的關(guān)鍵詞,分別是“專升本報(bào)考的學(xué)校和專業(yè)”“考試要求”“會(huì)計(jì)”“數(shù)學(xué)”“找到女朋友”“難易”,等等。

      綜上所述,通過研究高校網(wǎng)絡(luò)輿情,建立和健全輿情監(jiān)測(cè)和預(yù)警機(jī)制,可以實(shí)時(shí)掌握大學(xué)生的思想動(dòng)態(tài),及早發(fā)現(xiàn)突發(fā)事件的苗頭,主動(dòng)解決學(xué)生的思想問題,優(yōu)化高校思想政治教育方法,對(duì)于維護(hù)校園和諧發(fā)展,促進(jìn)社會(huì)穩(wěn)定具有重要意義。

      猜你喜歡
      特征詞專升本分詞
      山西省2019年專升本選拔考試 現(xiàn)代漢語(yǔ)
      2017年-2018年專升本院校錄取分?jǐn)?shù)線
      山西省2018年專升本選拔考試 大學(xué)語(yǔ)文
      2019年山西省普通高校專升本考生體格檢查表
      結(jié)巴分詞在詞云中的應(yīng)用
      基于改進(jìn)TFIDF算法的郵件分類技術(shù)
      產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
      值得重視的分詞的特殊用法
      面向文本分類的特征詞選取方法研究與改進(jìn)
      高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
      射洪县| 惠来县| 新绛县| 汨罗市| 淄博市| 中西区| 武威市| 巴马| 竹溪县| 富民县| 瓮安县| 富平县| 朔州市| 崇礼县| 乐昌市| 高陵县| 松阳县| 金溪县| 抚宁县| 闻喜县| 永川市| 革吉县| 龙陵县| 九江市| 宁远县| 绥宁县| 儋州市| 通道| 乌鲁木齐市| 宁强县| 定结县| 兴和县| 柳江县| 赤峰市| 昭通市| 双峰县| 门源| 成都市| 兴化市| 香港| 丹棱县|