• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于本體和加權(quán)樸素貝葉斯的網(wǎng)絡(luò)輿情主題分類(lèi)

      2018-10-30 10:10:10丁晟春王小英劉夢(mèng)露
      現(xiàn)代情報(bào) 2018年8期
      關(guān)鍵詞:網(wǎng)絡(luò)輿情本體

      丁晟春 王小英 劉夢(mèng)露

      〔摘 要〕及時(shí)準(zhǔn)確地對(duì)輿情信息進(jìn)行主題分類(lèi),不僅能實(shí)時(shí)了解輿情動(dòng)態(tài)變化,還能為預(yù)判輿情發(fā)展趨勢(shì)、輿論引導(dǎo)建立基礎(chǔ)。本文提出一種基于本體和加權(quán)樸素貝葉斯的網(wǎng)絡(luò)輿情主題分類(lèi)方法,通過(guò)使用本體將領(lǐng)域知識(shí)和領(lǐng)域文本特征融入分類(lèi)過(guò)程中。將該方法應(yīng)用到動(dòng)物衛(wèi)生領(lǐng)域輿情主題分類(lèi)中,分類(lèi)結(jié)果精確度為0.9402,Marco_F1達(dá)到0.9339。通過(guò)與樸素貝葉斯(NB)和THUCTC兩種方法的對(duì)比實(shí)驗(yàn),證明本文提出的基于本體和加權(quán)樸素貝葉斯的分類(lèi)方法有效且具有可行性,但是領(lǐng)域本體的概念、關(guān)系的完備程度會(huì)影響分類(lèi)的效率。

      〔關(guān)鍵詞〕網(wǎng)絡(luò)輿情;主題分類(lèi);本體;加權(quán)樸素貝葉斯

      DOI:10.3969/j.issn.1008-0821.2018.08.002

      〔中圖分類(lèi)號(hào)〕G254.1 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2018)08-0012-06

      〔Abstract〕Timely and accurate classification of public opinions can not only understand the dynamic changes of public opinions in real time,but also can establish the foundation for the development trend of public opinions and the guidance of public opinions.In this paper,a topic classification method based on ontology and Weighted Naive Bayes was proposed,which integrated domain knowledge and domain text features into the classification process by using ontology.Applying this method to the topic classification for animal health-related public opinions,and the accuracy and Marco_F1 of experiment were respectively 0.9402 and 0.9339.Compared with the two methods of Naive Bayes and THUCTC,it was proved that the proposed classification method based on ontology and weighted naive Bayes was effective and feasible.The completeness of concepts and relationships in domain ontology could affect the efficiency of classification.

      〔Key words〕network public opinion;topic classification;ontology;Weighted Naive Bayes

      隨著信息技術(shù)的發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人們交流和獲取信息的主要途徑,越來(lái)越多的人習(xí)慣于在網(wǎng)絡(luò)上發(fā)表自己的觀點(diǎn)和看法。從“表哥”到“柴靜蒼穹之下”,從“天津大爆炸”到“青島大蝦”,從“山東疫苗事件”到“魏則西事件”,一起起網(wǎng)絡(luò)輿情事件,掀起了網(wǎng)絡(luò)議論高潮。輿論的此起彼伏,引導(dǎo)著網(wǎng)民的左右搖擺,在一定程度促進(jìn)“相關(guān)部門(mén)”迅速解決問(wèn)題的同時(shí),也消耗著了大量的社會(huì)資源和管理成本。為了使相關(guān)部門(mén)能夠在海量網(wǎng)絡(luò)輿情信息中更好地引導(dǎo)輿情發(fā)展方向和及時(shí)作出有效預(yù)警,需要對(duì)網(wǎng)絡(luò)輿情主題進(jìn)行分類(lèi)。

      現(xiàn)有研究大都以文本分類(lèi)方法進(jìn)行全領(lǐng)域輿情信息的分類(lèi),而針對(duì)某個(gè)具體領(lǐng)域內(nèi)的輿情信息細(xì)分類(lèi)研究很少。領(lǐng)域內(nèi)輿情信息分類(lèi)是一個(gè)二次分類(lèi)問(wèn)題,文本的類(lèi)間內(nèi)容相似度極高,而且訓(xùn)練集數(shù)據(jù)分布和媒體關(guān)注度都可能造成類(lèi)共用特征詞的分布不均。傳統(tǒng)的文本分類(lèi)方法通常是基于特征詞的詞頻進(jìn)行分類(lèi),沒(méi)有考慮到?jīng)]有考慮到詞語(yǔ)間的語(yǔ)義關(guān)系和待分類(lèi)文本所在的具體領(lǐng)域。所以在特定領(lǐng)域中,僅使用傳統(tǒng)的文本分類(lèi)算法不能取得較好的分類(lèi)結(jié)果。因此,本文針對(duì)領(lǐng)域內(nèi)輿情提出一種基于本體和加權(quán)樸素貝葉斯的分類(lèi)方法,將領(lǐng)域內(nèi)知識(shí)和領(lǐng)域文本特征加入到分類(lèi)過(guò)程中,以提高領(lǐng)域內(nèi)輿情信息的分類(lèi)效果。

      1 相關(guān)工作

      1.1 輿情主題分類(lèi)研究現(xiàn)狀

      當(dāng)前輿情主題分類(lèi)研究主要是使用文本分類(lèi)算法對(duì)輿情信息內(nèi)容進(jìn)行分類(lèi)。常用的文本分類(lèi)算法有:支持向量機(jī)(Support Vector Machine,SVM)、k最近鄰(k-Nearest Neighbor,KNN)、樸素貝葉斯(Native Bayes,NB)、決策樹(shù)(Decision Tree)和Rocchio等。Jian Xu等研究了一種在Hadoop平臺(tái)中基于樸素貝葉斯算法的網(wǎng)絡(luò)輿情分類(lèi)方法[1]。張宸等利用Hadoop平臺(tái)可并行處理分布式數(shù)據(jù)存儲(chǔ)的優(yōu)良特性,提出了HSVM_WNB分類(lèi)算法,通過(guò)MapReduce進(jìn)程完成并行網(wǎng)絡(luò)輿情信息的分類(lèi)處理[2]。馬海兵等利用KNN和SVM兩種方法對(duì)網(wǎng)絡(luò)輿情安全應(yīng)用中主題分類(lèi)問(wèn)題展開(kāi)研究[3]。吳堅(jiān)等利用隨機(jī)森林分類(lèi)算法構(gòu)建文檔決策樹(shù)對(duì)網(wǎng)絡(luò)輿情信息進(jìn)行了分類(lèi)研究[4]。馬海群等使用神經(jīng)網(wǎng)絡(luò)方法建立微博數(shù)據(jù)安全相關(guān)話(huà)題的分類(lèi)系統(tǒng),以及時(shí)有效地掌握公眾對(duì)于數(shù)據(jù)安全話(huà)題的動(dòng)態(tài)[5]。

      還有部分研究將文本分類(lèi)算法和其他方法相結(jié)合,以此加入特定領(lǐng)域輿情特征和彌補(bǔ)傳統(tǒng)文本分類(lèi)方法缺乏語(yǔ)義信息的缺點(diǎn)。林偉結(jié)合微博書(shū)寫(xiě)時(shí)口語(yǔ)化、時(shí)代化、含表情等特點(diǎn),提出基于改進(jìn)N-Gram的微博的多特征項(xiàng)提取算法,并提出基于聚類(lèi)的KNN分類(lèi)模型實(shí)現(xiàn)微博信息的分類(lèi)[6]。B Sriram等通過(guò)對(duì)用戶(hù)的個(gè)人資料和帖子中特定領(lǐng)域特征的提取,有效地將文本預(yù)定義為一組泛型類(lèi),實(shí)現(xiàn)了Twitter上的信息分類(lèi)[7]。夏華林等提出一種基于規(guī)則與統(tǒng)計(jì)相結(jié)合的Web突發(fā)事件新聞多層次自動(dòng)分類(lèi)方法,首先提取類(lèi)別關(guān)鍵詞形成規(guī)則庫(kù),然后利用分類(lèi)規(guī)則將突發(fā)事件分成4大類(lèi),再使用樸素貝葉斯分類(lèi)方法將各大類(lèi)突發(fā)事件新聞進(jìn)行細(xì)分,形成了基于規(guī)則與統(tǒng)計(jì)的兩層分類(lèi)模型[8]。崔爭(zhēng)艷結(jié)合《知網(wǎng)》本體庫(kù),將關(guān)鍵詞映射到語(yǔ)義概念,并用語(yǔ)義KNN分類(lèi)算法實(shí)現(xiàn)對(duì)微博信息的分類(lèi)[9]。朱平等針對(duì)SVM分類(lèi)方法缺乏對(duì)概念語(yǔ)義的處理這一缺點(diǎn),提出一種集成本體和SVM的文本分類(lèi)方法[10]。

      1.2 加權(quán)樸素貝葉斯分類(lèi)器

      樸素貝葉斯算法是已知先驗(yàn)概率,計(jì)算待分類(lèi)文本X屬于各個(gè)類(lèi)別Ci的條件概率,根據(jù)先驗(yàn)概率P(Ci)和條件概率P(X|Ci)計(jì)算后驗(yàn)概率P(Ci|X),選擇后驗(yàn)概率最大的類(lèi)別作為X的最終所屬類(lèi)別。樸素貝葉斯算法由于運(yùn)算時(shí)間快、簡(jiǎn)單易行而廣泛運(yùn)用在文本分類(lèi)中,但其所依賴(lài)的特征獨(dú)立假設(shè)往往不成立。為了降低特征獨(dú)立假設(shè)對(duì)份分類(lèi)器性能的影響,學(xué)者們提出將各種特征加權(quán)算法與樸素貝葉斯分類(lèi)器相結(jié)合,對(duì)不同的特征根據(jù)其分類(lèi)重要性賦予不同的權(quán)值,將樸素貝葉斯擴(kuò)展為加權(quán)樸素貝葉斯(Weighted Naive Bayes,WNB)[11-13]。加權(quán)樸素貝葉斯計(jì)算公式如下:

      樸素貝葉斯分類(lèi)算法是一種統(tǒng)計(jì)學(xué)的分類(lèi)方法,沒(méi)有考慮到?jīng)]有考慮到詞語(yǔ)間的語(yǔ)義關(guān)系和待分類(lèi)文本所在的具體領(lǐng)域。而本體是對(duì)于“概念化”的明確表達(dá),可以描述或表達(dá)某一領(lǐng)域知識(shí)的一組概念或術(shù)語(yǔ)。本體在文本分類(lèi)中可以作為背景知識(shí)提供語(yǔ)義信息,也可以用來(lái)添加主題詞擴(kuò)充特征向量,提高分類(lèi)效率。目前,已有很多學(xué)者使用本體進(jìn)行了文本分類(lèi)研究[14-16]。因此,本文通過(guò)本體為加權(quán)樸素貝葉斯分類(lèi)算法提供領(lǐng)域知識(shí),同時(shí)降低類(lèi)共用特征詞的分布不均造成的影響,實(shí)現(xiàn)領(lǐng)域內(nèi)輿情的高效分類(lèi)。

      2 方 法

      2.1 方法框架

      基于本體和加權(quán)樸素貝葉斯的分類(lèi)方法主要分為本體構(gòu)建、文本預(yù)處理、特征提取和文本分類(lèi)幾個(gè)部分,方法框架如圖1所示。

      1)本體構(gòu)建:依據(jù)領(lǐng)域輿情信息形成領(lǐng)域本體的基本框架,提取出框架內(nèi)所有的概念,并定義概念與概念間的關(guān)系,選擇合適的本體構(gòu)建方法對(duì)領(lǐng)域本體進(jìn)行編碼和形式化。目前大部分的本體構(gòu)建都需要領(lǐng)域?qū)<业膮⑴c,本體在使用過(guò)程中也需要不斷完善和優(yōu)化。

      2)文本預(yù)處理:包括分詞、詞性標(biāo)注和去除停用詞,以去除對(duì)分類(lèi)不起作用的噪音詞語(yǔ)。對(duì)于特定領(lǐng)域文本,使用通用的分詞系統(tǒng)進(jìn)行分詞,其準(zhǔn)確率較低。因此,將領(lǐng)域本體實(shí)例加入到分詞工具中以提高分詞的準(zhǔn)確率。

      3)特征提?。何谋绢A(yù)處理后得到的是高維稀疏的特征向量,選擇合適的特征提取算法來(lái)降低向量空間維數(shù),從而簡(jiǎn)化計(jì)算提高文本處理的速度和效率。

      4)文本分類(lèi):使用樸素貝葉斯對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行訓(xùn)練,得出類(lèi)先驗(yàn)概率P(Ci)和特征項(xiàng)的類(lèi)條件概率P(X|Ci),將領(lǐng)域本體加入到分類(lèi)器分類(lèi)過(guò)程中對(duì)測(cè)試集進(jìn)行分類(lèi),最后對(duì)分類(lèi)結(jié)果進(jìn)行評(píng)測(cè)和分析。

      2.2 特征提取

      特征抽取是在不破壞文本內(nèi)容的情況下盡量減少所需處理的單詞,以此來(lái)降低向量空間維數(shù),從而簡(jiǎn)化計(jì)算提高文本處理的速度和效率,特征選擇準(zhǔn)確與否對(duì)文本分類(lèi)至關(guān)重要。常用的文本特征選擇方法有:文檔頻率(Document Frequency,DF)、互信息(Mutual Informal,MI)、信息增益(Information Gain,IG)和卡方檢驗(yàn)(Chi-square Test)。這些方法的基本思想都是對(duì)每一個(gè)特征計(jì)算某種統(tǒng)計(jì)度量值,然后設(shè)定一個(gè)閾值y,把度量值小于y的特征過(guò)濾掉,剩下的即認(rèn)為是有效特征[16]。

      本文使用卡方檢驗(yàn)方法進(jìn)行文本特征提取,卡方檢驗(yàn)是用來(lái)度量特征項(xiàng)wk與類(lèi)Ci之間的相關(guān)程度,若wk對(duì)于Ci類(lèi)的CHI值越高,則表示wk與Ci類(lèi)的相關(guān)性越大,攜帶的類(lèi)別信息更多,計(jì)算公式如下:

      2.3 方法流程描述

      輸入:訓(xùn)練集、測(cè)試集

      輸出:文本類(lèi)別

      Step 1:將領(lǐng)域本體實(shí)例信息加入到分詞工具中對(duì)訓(xùn)練集和測(cè)試集文本進(jìn)行分詞,并為領(lǐng)域內(nèi)不同頂層概念下的專(zhuān)用詞語(yǔ)自定義詞性對(duì)分詞后的文本進(jìn)行詞性標(biāo)注,根據(jù)具體領(lǐng)域信息使用停用詞表、正則表達(dá)式和詞性標(biāo)注去除噪音數(shù)據(jù);

      Step 2:使用特征提取方法對(duì)經(jīng)過(guò)文本預(yù)處理的訓(xùn)練集文本進(jìn)行特征降維,對(duì)測(cè)試集文本使用特征提取后的特征詞進(jìn)行表示,并篩選出特征詞中類(lèi)相關(guān)性大且在各類(lèi)中均有出現(xiàn)的詞語(yǔ);

      Step 3:依據(jù)待分類(lèi)文本特性選擇多變量伯努利模型或多項(xiàng)式模型對(duì)訓(xùn)練集文本進(jìn)行訓(xùn)練,得出類(lèi)先驗(yàn)概率P(Ci)和特征項(xiàng)的類(lèi)條件概率P(X|Ci);

      Step 4:通過(guò)詞性標(biāo)注判斷測(cè)試集文本中是否包含類(lèi)特有概念的詞語(yǔ),如果包含則輸出該類(lèi)的類(lèi)別,進(jìn)入Step 9,否則進(jìn)入Step 5;

      Step 5:判斷測(cè)試集文本中包含多類(lèi)共用概念的詞性標(biāo)注,包含進(jìn)入Step 7,不包含進(jìn)入Step 6;

      Step 6:對(duì)測(cè)試數(shù)據(jù)執(zhí)行加權(quán)樸素貝葉斯分類(lèi),以輸出結(jié)果作為該文本類(lèi)別,進(jìn)入Step 9;

      Step 7:通過(guò)概念的屬性值判斷測(cè)試集數(shù)據(jù)的所屬類(lèi)別,進(jìn)入Step 9,不能使用概念屬性判斷類(lèi)別的文本進(jìn)入Step 8;

      Step 8:對(duì)測(cè)試數(shù)據(jù)執(zhí)行加權(quán)樸素貝葉斯分類(lèi),以輸出結(jié)果作為該文本類(lèi)別,進(jìn)入Step 9;

      Step 9:輸出文本類(lèi)別。

      方法的Step 6和Step 8都進(jìn)行了加權(quán)樸素貝葉斯計(jì)算,權(quán)重的計(jì)算公式(4)所示。但是兩個(gè)加權(quán)樸素貝葉斯分類(lèi)面向的詞語(yǔ)是不同的。Step 6是對(duì)文本中所有詞語(yǔ)進(jìn)行加權(quán)樸素貝葉斯計(jì)算,而Step 8使用排除Step 2中篩選出的特征詞后的詞語(yǔ)進(jìn)行計(jì)算。這是因?yàn)檫M(jìn)入Step 8的文本在內(nèi)容上具有極高的相似度,使用類(lèi)相關(guān)性大且在各類(lèi)中均有出現(xiàn)的詞語(yǔ)進(jìn)行加權(quán)計(jì)算會(huì)因訓(xùn)練集文本和媒體關(guān)注度導(dǎo)致的特征詞分布不均對(duì)分類(lèi)結(jié)果產(chǎn)生影響。

      TF(wk|Ci)+1∑ni=1TF(wk|Ci)+2(4)

      其中,TF(wk|Ci)表示特征詞wk在類(lèi)Ci中出現(xiàn)的次數(shù),∑ni=1TF(wk|Ci)表示在所有類(lèi)中特征詞wk出現(xiàn)的總數(shù),為了避免TF(wk|Ci)的值為0對(duì)該值進(jìn)行估計(jì)。

      3 實(shí)驗(yàn)與結(jié)果分析

      目前,動(dòng)物衛(wèi)生領(lǐng)域輿情信息多集中在新聞和論壇中,林綱指出新聞標(biāo)題擔(dān)負(fù)引導(dǎo)讀者進(jìn)一步閱讀的責(zé)任,是對(duì)新聞事件的高度概括,是新聞文本主題的精華體現(xiàn)[18]。因此,本部分選取新聞標(biāo)題數(shù)據(jù)進(jìn)行動(dòng)物衛(wèi)生領(lǐng)域輿情主題分類(lèi)實(shí)驗(yàn)。

      3.1 動(dòng)物衛(wèi)生領(lǐng)域輿情信息分析

      3.1.1 動(dòng)物衛(wèi)生領(lǐng)域輿情信息類(lèi)別定義

      本課題組多次參與動(dòng)物衛(wèi)生和流行病學(xué)的調(diào)研,在充分了解中國(guó)動(dòng)物衛(wèi)生與流行病學(xué)中心對(duì)動(dòng)物衛(wèi)生領(lǐng)域輿情監(jiān)測(cè)的實(shí)際需求及防控關(guān)注點(diǎn)的基礎(chǔ)上,將動(dòng)物衛(wèi)生領(lǐng)域輿情信息分為動(dòng)物衛(wèi)生安全、公共衛(wèi)生安全和動(dòng)物源性食品安全3個(gè)類(lèi)別。

      1)動(dòng)物衛(wèi)生安全指只涉及動(dòng)物自身的衛(wèi)生事件,如:“臺(tái)灣云林再傳禽流感,近3萬(wàn)只肉雞被撲殺”,“新疆巴州輪臺(tái)縣發(fā)生一起小反芻獸疫疫情”,“死亡畜禽處理刻不容緩:寧波動(dòng)物無(wú)害化處理廠已收運(yùn)處理死亡畜禽近90噸”;

      2)公共衛(wèi)生安全則是指由動(dòng)物源性病原體導(dǎo)致的人感染病例、非正常死亡和環(huán)境污染的衛(wèi)生事件,如:“江西今年以來(lái)報(bào)告H7N9病例37例,死亡13人”、“湖北宜昌約百頭死豬拋尸長(zhǎng)江岸邊,惡臭熏天”;

      3)動(dòng)物源性食品安全是指以動(dòng)物為原料的食品安全事件,如肉品非法加工、凍品走私和瘦肉精使用等,“黑心攤販牛血中添加福爾馬林保鮮,兩年售出60噸”。

      3.1.2 動(dòng)物衛(wèi)生領(lǐng)域新聞?shì)浨樾畔⑻卣鞣治?/p>

      本文對(duì)動(dòng)物衛(wèi)生領(lǐng)域新聞標(biāo)題進(jìn)行文本特征分析發(fā)現(xiàn):①不同新聞網(wǎng)站對(duì)該領(lǐng)域新聞的描述方式相對(duì)統(tǒng)一;②動(dòng)物衛(wèi)生安全和公共衛(wèi)生安全兩類(lèi)新聞標(biāo)題的描述方式基本相同,標(biāo)題中都會(huì)指出發(fā)生安全事件的地點(diǎn)和疫病名稱(chēng),例如:“深圳龍崗兩活禽市場(chǎng)檢出H7N9禽流感病毒”、“上海確診1例人感染H7N9”,由此也可以看出這兩類(lèi)的新聞內(nèi)容相似度極高;③動(dòng)物源性食品安全類(lèi)新聞標(biāo)題則會(huì)描述食品安全事件發(fā)生的地點(diǎn)和事件內(nèi)容,如:“東莞市動(dòng)監(jiān)所查處一批偽造檢疫證明凍肉”、“北京:四季風(fēng)味豬頭肉,檢出瘦肉精”,動(dòng)物源性食品安全類(lèi)新聞標(biāo)題的描述統(tǒng)一性不高,但是與前兩類(lèi)內(nèi)容差異較大。

      3.1.3 動(dòng)物衛(wèi)生領(lǐng)域新聞?shì)浨樽詣?dòng)分類(lèi)的難點(diǎn)分析

      由上述分析可以看出動(dòng)物衛(wèi)生領(lǐng)域新聞自動(dòng)分類(lèi)存在3個(gè)難點(diǎn):1)本文研究的是動(dòng)物衛(wèi)生領(lǐng)域新聞文本的二次分類(lèi)問(wèn)題,也就是待分類(lèi)文本都屬于動(dòng)物衛(wèi)生領(lǐng)域,文本內(nèi)容的相似度高;2)動(dòng)物衛(wèi)生安全類(lèi)和公共衛(wèi)生安全類(lèi)的描述方式基本相同,差異僅在于患病群體,內(nèi)容區(qū)分度??;3)同時(shí)由于訓(xùn)練集數(shù)據(jù)內(nèi)容分布不均和媒體對(duì)部分動(dòng)物疫病的高度關(guān)注導(dǎo)致某些詞語(yǔ)在某個(gè)類(lèi)別特別集中,例如在前兩類(lèi)作為類(lèi)別關(guān)鍵詞的“禽流感”、“H7N9”等。

      3.2 數(shù)據(jù)集

      動(dòng)物衛(wèi)生領(lǐng)域的新聞報(bào)道多出現(xiàn)在我國(guó)農(nóng)業(yè)部、獸醫(yī)局和各地畜牧獸醫(yī)局等政府官方網(wǎng)站,或是人民網(wǎng)、新華網(wǎng)、中新網(wǎng)等影響力大受眾多的新聞網(wǎng)站,還有像國(guó)際畜牧網(wǎng)、食品伙伴網(wǎng)(論壇)、食品論壇、食品科技網(wǎng)等動(dòng)物衛(wèi)生領(lǐng)域從業(yè)人員比較關(guān)注的網(wǎng)站。

      本文從新華網(wǎng)、環(huán)球網(wǎng)、中國(guó)新聞網(wǎng)等網(wǎng)站抓取了2017年1月至2017年6月期間國(guó)內(nèi)外動(dòng)物衛(wèi)生領(lǐng)域新聞,共計(jì)5 578條。將抓取的新聞標(biāo)題數(shù)據(jù)進(jìn)行人工分類(lèi)標(biāo)注,訓(xùn)練集和測(cè)試集數(shù)據(jù)分布如表1所示。

      3.3 動(dòng)物衛(wèi)生領(lǐng)域本體構(gòu)建

      根據(jù)動(dòng)物衛(wèi)生領(lǐng)域輿情信息的分類(lèi)類(lèi)別,本文所構(gòu)建的領(lǐng)域本體主要涉及動(dòng)物疫病、食品添加劑、獸藥(飼料)3部分,下面以動(dòng)物疫病本體為例進(jìn)行描述。

      首先通過(guò)對(duì)《一二三類(lèi)動(dòng)物疫病釋義》、百度百科、新聞報(bào)道對(duì)動(dòng)物疫病的信息描述,總結(jié)歸納出動(dòng)物疫病本體的頂層概念:病原學(xué)、流行病學(xué)、臨床表現(xiàn)、防治。但僅依靠頂層概念不能提供足夠的信息來(lái)描述動(dòng)物疫病知識(shí),所以在動(dòng)物衛(wèi)生領(lǐng)域?qū)I(yè)人員的指導(dǎo)下描述頂層概念的內(nèi)部結(jié)構(gòu),抽象出相關(guān)的擴(kuò)展概念。經(jīng)過(guò)以上兩個(gè)步驟所得動(dòng)物疫病本體中的部分等級(jí)、非等級(jí)關(guān)系及部分屬性如下:

      1)病原:包含病毒、原蟲(chóng)、真菌、細(xì)菌……;

      2)流行病學(xué):包含地理分布、多發(fā)時(shí)間、傳播途徑、感染群體……;

      3)臨床表現(xiàn):包含潛伏期、體溫、病程、發(fā)病率、死亡率、患病癥狀、并發(fā)癥……;

      4)防治:防疫級(jí)別、切斷傳播途徑、控制傳染源、保護(hù)易感群體……。

      本文根據(jù)2016年世界動(dòng)物衛(wèi)生組織(Office International Des Epizooties,OIE)公布的動(dòng)物疫病名錄、我國(guó)農(nóng)業(yè)部2008年修訂的《一、二、三類(lèi)動(dòng)物疫病病種名錄》和中國(guó)動(dòng)物衛(wèi)生與流行病學(xué)中心較為關(guān)注的疫病,以及常用食品添加劑和獸藥(飼料)創(chuàng)建了317個(gè)動(dòng)物衛(wèi)生領(lǐng)域本體實(shí)例。

      與全領(lǐng)域的新聞文本不同,動(dòng)物衛(wèi)生領(lǐng)域新聞?shì)浨樽鳛樘囟I(lǐng)域,使用通用的分詞系統(tǒng)進(jìn)行分詞,其準(zhǔn)確率較低。因此,本文將動(dòng)物衛(wèi)生領(lǐng)域本體實(shí)例和動(dòng)物衛(wèi)生領(lǐng)域常用固定詞語(yǔ)加入到中科院ICTCLAS分詞工具中以提高分詞的準(zhǔn)確率。對(duì)動(dòng)物衛(wèi)生領(lǐng)域本體實(shí)例,如動(dòng)物疫病名稱(chēng)、疫病病毒名稱(chēng)、食品添加劑名稱(chēng)等建立兩種自定義詞性,如表2所示。

      3.4 實(shí)驗(yàn)結(jié)果及分析

      本文使用樸素貝葉斯(NB)、清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室推出的基于支持向量機(jī)的中文文本分類(lèi)工具包THUCTC[19]和基于本體和加權(quán)樸素貝葉斯(OWNB)3種方法進(jìn)行分類(lèi)實(shí)驗(yàn),并使用精確度(Accuracy)和宏平均(Macro-Averaging)來(lái)衡量其的性能,總體實(shí)驗(yàn)結(jié)果、分類(lèi)實(shí)驗(yàn)結(jié)果如表3、表4、圖3和圖4所示。

      由表3可以看出,本文提出的基于本體加權(quán)樸素貝葉斯分類(lèi)算法在動(dòng)物衛(wèi)生領(lǐng)域輿情分類(lèi)實(shí)驗(yàn)中取得了不錯(cuò)的分類(lèi)效果,精確率達(dá)到0.9402,Marco_F1達(dá)到了0.9339,較NB和THUCTC分類(lèi)結(jié)果有較大的提升,由此可以說(shuō)本文提出的分類(lèi)方法是有效的。

      之所以能取得較好的實(shí)驗(yàn)結(jié)果,主要包含以下原因:

      1)3類(lèi)文本中都可能出現(xiàn)標(biāo)注為“/disease”的詞語(yǔ),而且“禽流感”、“H7N9”等動(dòng)物疫病名稱(chēng)的分布不均導(dǎo)致前兩類(lèi)很多文本被錯(cuò)分。使用所有詞語(yǔ)進(jìn)行加權(quán)計(jì)算不能很好地的區(qū)分動(dòng)物衛(wèi)生安全和公共衛(wèi)生安全類(lèi),僅使用名詞進(jìn)行分類(lèi)計(jì)算可以更好地判斷衛(wèi)生事件的受眾是人還是動(dòng)物,也排除共用動(dòng)詞(例如:“感染”、“擴(kuò)散”、“出現(xiàn)”等)的干擾,以此提高了動(dòng)物衛(wèi)生安全類(lèi)的準(zhǔn)確率和公共衛(wèi)生安全類(lèi)的召回率。在動(dòng)物衛(wèi)生領(lǐng)域分類(lèi)流程的基礎(chǔ)上加入權(quán)重,突出了各類(lèi)特征詞在每一類(lèi)的重要程度,使分類(lèi)效果得到進(jìn)一步提升。

      2)由于動(dòng)物源性食品安全分類(lèi)新聞內(nèi)容與前兩類(lèi)差距較大,通過(guò)使用該類(lèi)特有概念的詞語(yǔ),將該類(lèi)文本與其他兩類(lèi)區(qū)分開(kāi),同時(shí)OWNB方法減少了前兩類(lèi)錯(cuò)分到該類(lèi)的數(shù)據(jù),提高了其準(zhǔn)確率。

      對(duì)未分類(lèi)正確的文本進(jìn)行分析后發(fā)現(xiàn):本文提出的方法對(duì)動(dòng)物衛(wèi)生領(lǐng)域本體及其屬性值的完備性有較大的依賴(lài)。本文引入的動(dòng)物衛(wèi)生知識(shí)本體中僅包含OIE公布的動(dòng)物疫病名錄和《一、二、三類(lèi)動(dòng)物疫病病種名錄》中的疫病,在未分類(lèi)正確的文本中就出現(xiàn)了不包含在上述兩個(gè)名錄中的疫病。這不僅對(duì)文本分詞造成影響,也弱化了本文分類(lèi)方法的作用。

      4 總 結(jié)

      本文利用領(lǐng)域本體將領(lǐng)域知識(shí)和領(lǐng)域文本特征加入到分類(lèi)過(guò)程中,結(jié)合加權(quán)樸素貝葉斯分類(lèi)算法提出了適合于領(lǐng)域輿情信息的分類(lèi)方法。通過(guò)與樸素貝葉斯和THUCTC的對(duì)比實(shí)驗(yàn)可以看出本文提出的分類(lèi)算法較其他算法有了明顯提升。但是,本研究?jī)H將領(lǐng)域本體的概念加入到分類(lèi)中,沒(méi)有對(duì)本體概念間的關(guān)系進(jìn)行使用。后續(xù)筆者還將就還將就上述不足對(duì)對(duì)分類(lèi)方法進(jìn)行不斷的完善,并選擇其他領(lǐng)域輿情信息進(jìn)行實(shí)證分析,提高分類(lèi)的準(zhǔn)確性,為更好地引導(dǎo)網(wǎng)絡(luò)輿情發(fā)展方向和及時(shí)做出有效預(yù)警奠定基礎(chǔ)。

      參考文獻(xiàn)

      [1]Jian Xu,Bin Ma.Study of Network Public Opinion Classification Method Based on Naive Bayesian Algorithm in Hadoop Environment[J].Applied Mechanics and Materials,2014,3009(519).

      [2]張宸,韓夏.大數(shù)據(jù)環(huán)境下基于SVM-WNB的網(wǎng)絡(luò)輿情分類(lèi)研究[J].統(tǒng)計(jì)與決策,2017,(14):45-48.

      [3]馬海兵,畢久陽(yáng),邱君瑞.網(wǎng)絡(luò)輿情安全應(yīng)用中主題分類(lèi)方法的研究與實(shí)現(xiàn)[J].現(xiàn)代情報(bào),2012,32(4):8-13.

      [4]吳堅(jiān),沙晶.基于隨機(jī)森林算法的網(wǎng)絡(luò)輿情文本信息分類(lèi)方法研究[J].信息網(wǎng)絡(luò)安全,2014,(11):36-40.

      [5]馬海群,王今.基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)安全話(huà)題文本分類(lèi)研究——以新浪微博為例[J].圖書(shū)館,2017,(5):36-39.

      [6]林偉.基于多特征提取的中文微博輿情分類(lèi)研究[J].中國(guó)人民公安大學(xué)學(xué)報(bào):自然科學(xué)版,2016,22(4):53-56.

      [7]Sriram B,F(xiàn)uhry D,Demir E,et al.Short Text Classification in Twitter to Improve Information Filtering[C]// International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2010:841-842.

      [8]崔爭(zhēng)艷.基于語(yǔ)義的微博短信息分類(lèi)[J].現(xiàn)代計(jì)算機(jī):專(zhuān)業(yè)版,2010,(8):18-20.

      [9]夏華林,張仰森.基于規(guī)則與統(tǒng)計(jì)的Web突發(fā)事件新聞多層次分類(lèi)[J].計(jì)算機(jī)應(yīng)用,2012,32(2):392-394.

      [10]朱平,范少輝,岳永德.一種集成本體和SVM的文本分類(lèi)方法[J].江西理工大學(xué)學(xué)報(bào),2012,33(1):68-72.

      [11]Webb G I,Pazzan MJ.Adjusted Probability Naive Bayesian Induction[C]//Proceedings of the 11th Australian Joint Conference on Artificial Intelligence.1998:285-295.

      [12]Kim S B,Rim H C,Yook D,et al.Effective Methods for Improving Naive Bayes Text Classifiers[C]// PRICAI 2002:Trends in Artificial Intelligence,Pacific Rim International Conference on Artificial Intelligence,Tokyo,Japan,August 18-22,2002,Proceedings.DBLP,2002:414-423.

      [13]Zhang H,Sheng S.Learning Weighted Naive Bayes with Accurate Ranking[C]//Proceedings of the 4th IEEE International Conference on Data Mining,2004:567-570.

      [14]Song M H,Lim S Y,Kang D J,et al.Automatic Classification of Web Pages based on the Concept of Domain Ontology[C]// Asia-Pacific Software Engineering Conference.IEEE Computer Society,2005:645-651.

      [15]張穎,王文杰,史忠植.基于本體的文本分類(lèi)方法[J].計(jì)算機(jī)仿真,2009,26(5):103-106,178.

      [16]韋婷婷,聶登國(guó),王駒,等.基于領(lǐng)域本體的文本分類(lèi)方法[J].計(jì)算機(jī)工程,2012,38(15):62-65.

      [17]代六玲,黃河燕,陳肇雄.中文文本分類(lèi)中特征抽取方法的比較研究[J].中文信息學(xué)報(bào),2004,(1):26-32.

      [18]林綱.網(wǎng)絡(luò)新聞文本結(jié)構(gòu)的語(yǔ)法特征[J].社會(huì)科學(xué)家,2010,(7):155-157.

      [19]孫茂松,李景陽(yáng),郭志芃,等.THUCTC:一個(gè)高效的中文文本分類(lèi)工具包.2016.

      (責(zé)任編輯:馬 卓)

      猜你喜歡
      網(wǎng)絡(luò)輿情本體
      Abstracts and Key Words
      對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
      網(wǎng)絡(luò)輿情事件的引導(dǎo)策略分析
      數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)輿情管理中的研究
      “互聯(lián)網(wǎng)+”背景下高校平安校園建設(shè)研究
      淺析網(wǎng)絡(luò)輿情治理
      基于社會(huì)穩(wěn)定視角的網(wǎng)絡(luò)輿情預(yù)警機(jī)制構(gòu)建的思考
      今傳媒(2016年9期)2016-10-15 22:02:52
      突發(fā)事件網(wǎng)絡(luò)輿情的演化規(guī)律與監(jiān)控
      《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
      專(zhuān)題
      中牟县| 华池县| 米脂县| 乐昌市| 新宾| 凤阳县| 水城县| 内江市| 岢岚县| 平凉市| 天峨县| 延安市| 游戏| 光泽县| 永登县| 双江| 台山市| 大宁县| 洪雅县| 临沧市| 蒲江县| 彭阳县| 敖汉旗| 双城市| 吴桥县| 宜兴市| 靖西县| 来安县| 许昌市| 樟树市| 鸡东县| 象州县| 故城县| 新民市| 常熟市| 什邡市| 名山县| 阿拉善盟| 汝州市| 大荔县| 奉化市|