• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多分類器融合的防震減災(zāi)知識(shí)文本分類研究

      2021-01-22 04:58:48李曉麗馬龍龍
      高原地震 2020年3期
      關(guān)鍵詞:科普知識(shí)防震減災(zāi)

      李曉麗,馬龍龍

      (1.防災(zāi)科技學(xué)院應(yīng)急管理學(xué)院,河北三河 065201;2.中科院軟件研究所,北京 100190)

      1 引 言

      本文提出一種基于多分類融合的文本分類方法引入到防震減災(zāi)領(lǐng)域,從現(xiàn)有的科普宣傳材料入手,圍繞地震監(jiān)測(cè)預(yù)報(bào) 、震害防御和緊急救援幾個(gè)方面進(jìn)行篩選甄別,充分保證電子宣傳材料內(nèi)容的科學(xué)性和規(guī)范性。

      2 文本分類技術(shù)現(xiàn)狀

      文本分類是指通過一定的規(guī)則,將一篇或多篇文本劃分為不同的類別,并根據(jù)這些類別進(jìn)一步地使用或處理文本,比如發(fā)現(xiàn)用戶潛在興趣、信息推送、信息過濾、搜索引擎、信息整合、網(wǎng)站導(dǎo)航及數(shù)字圖書館等。文本分類方法主要包括詞匹配法、基于規(guī)則的方法和基于統(tǒng)計(jì)學(xué)習(xí)的方法。

      詞匹配法是根據(jù)某些關(guān)鍵詞是否在文本中來判斷該文本是否屬于特定的一類,而這個(gè)檢索與匹配的過程可以使用一些常見的字符串匹配算法來進(jìn)行,例如 Knuth-Moris-Pratt 算法[1]。對(duì)于字或者字符組成的模式的嚴(yán)格匹配,這種分類法相對(duì)比較簡(jiǎn)單且易于實(shí)現(xiàn),在垃圾郵件過濾領(lǐng)域[2-3]比較常見,但是對(duì)于關(guān)鍵詞及其變體的識(shí)別需要實(shí)行額外的策略進(jìn)行判斷,影響了其效率。

      基于規(guī)則的方法是由專業(yè)人員為每個(gè)類別根據(jù)通用的原則和自身的經(jīng)驗(yàn),定義大量的規(guī)則,如果待分類的文本滿足某個(gè)類別的部分或者全部規(guī)則,則可以判斷它屬于這一類別[4]。然而,基于規(guī)則的方法有著自身的弊端——過于依賴專家對(duì)于規(guī)則的定義。首先,聘用專家來編寫分類規(guī)則意味著高昂的人力成本;其次,規(guī)則的編寫依賴于專家個(gè)人的經(jīng)驗(yàn),有可能會(huì)摻入個(gè)人的好惡成分而影響精確性;第三,文本分類的知識(shí)工程法可能需要語法分析和詞法分析,并且有的句子語句會(huì)根據(jù)上下文的內(nèi)容有所差別,這反過來要求知識(shí)工程中規(guī)則必須準(zhǔn)確且充分,導(dǎo)致了規(guī)則數(shù)目的龐大,無可避免地增加了開發(fā)和使用時(shí)的開銷,提高了對(duì)計(jì)算機(jī)性能的要求;第四,根據(jù)特定規(guī)則搭建的文本分類器只能解決預(yù)設(shè)領(lǐng)域的分類問題,移植性較差,變相增加了開發(fā)成本。

      基于統(tǒng)計(jì)學(xué)習(xí)的方法是計(jì)算機(jī)系統(tǒng)使用統(tǒng)計(jì)方法對(duì)數(shù)據(jù)進(jìn)行處理并適當(dāng)?shù)刈鞒稣{(diào)整,從而改善系統(tǒng)表現(xiàn)的機(jī)器學(xué)習(xí)?,F(xiàn)在提及機(jī)器學(xué)習(xí)時(shí),往往是指統(tǒng)計(jì)機(jī)器學(xué)習(xí)[5]。常見的可以用于文本分類的統(tǒng)計(jì)學(xué)習(xí)方法有支持向量機(jī)、貝葉斯、神經(jīng)網(wǎng)路、決策樹以及隱馬爾科夫模型等。運(yùn)用統(tǒng)計(jì)學(xué)習(xí)中的分類方法,處理待分類的文本,就可以解決文本分類問題。

      本文根據(jù)防震減災(zāi)科普知識(shí)的文本特點(diǎn)和應(yīng)用,利用基于統(tǒng)計(jì)學(xué)習(xí)中的不同方法對(duì)文本內(nèi)容進(jìn)行分類,并融合不同的分類結(jié)果來提高科普知識(shí)文本分類的精度,從而有助于科普知識(shí)的高效宣傳。

      3 面向防震減災(zāi)科普知識(shí)的文本分類方法

      3.1 文本分類框架

      面向防震減災(zāi)科普知識(shí)的文本分類框架如圖1所示,包括四個(gè)主要過程。首先對(duì)輸入的科普知識(shí)相關(guān)文本進(jìn)行預(yù)處理。文本預(yù)處理主要是進(jìn)行文本分詞,科普文檔中的文本語言為中文,中文文本的詞與詞之間沒有明顯的切分標(biāo)志。若想對(duì)科普知識(shí)文本進(jìn)行研究,就必須先對(duì)科普知識(shí)文本進(jìn)行分詞預(yù)處理,我們采用基于規(guī)則的分詞方法[6]。文本表示將預(yù)處理后得到的中文詞語以特征向量的形式表示,采用最常用的向量空間模型(VSM)表示文本詞語。文本特征提取采用主成分分析PCA方法將表示的高維特征向量進(jìn)行降維,去除冗余特征信息。基于多分類融合的文本分類模型是本文的重點(diǎn),把不同分類器的處理結(jié)果進(jìn)行有效融合,從而提高文本分類的性能。

      經(jīng)研究發(fā)現(xiàn),實(shí)驗(yàn)組腦卒中偏癱患者的治療效果和患者的生活質(zhì)量明顯好于對(duì)照組患者。根據(jù)統(tǒng)計(jì)學(xué)分析,差異具有統(tǒng)計(jì)學(xué)意義,P<0.05。詳情見表1。

      圖1 面向防震減災(zāi)科普知識(shí)的文本分類框架

      3.2 基于多分類器融合的文本分類模型

      通常采用單個(gè)分類器的方法往往只是從單一的角度對(duì)科普知識(shí)的文本進(jìn)行分類,如果能夠?qū)⒉煌匦缘姆诸惼鬟M(jìn)行有效的融合,則能夠從更全面的角度認(rèn)識(shí)待分類的科普知識(shí)的文本,從而得到更好的分類效果。我們采用基于多個(gè)分類器融合的方法對(duì)科普知識(shí)的文本進(jìn)行分類。

      3.3 不同分類器介紹

      不同分類器選擇的目的就是使每個(gè)分類器能互補(bǔ)優(yōu)勢(shì),從而構(gòu)造出最佳分類器。本文選擇支持向量機(jī)SVM、貝葉斯網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)作為待融合的分類器。

      3.3.1 支持向量機(jī)

      支持向量機(jī)是 Vapnik等[7]提出的一種新型機(jī)器學(xué)習(xí)算法,其理論基礎(chǔ)是統(tǒng)計(jì)學(xué)習(xí)理論。與傳統(tǒng)學(xué)習(xí)算法相比,SVM為解決有限樣本學(xué)習(xí)提供了較好的方法,其基本思想是:通過某種非線性映射,將輸入向量x映射到一個(gè)高維的特征空間,在這個(gè)高維的特征空間Z中,構(gòu)造最優(yōu)分離超平面。與傳統(tǒng)基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則方法不同,SVM運(yùn)用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則來實(shí)現(xiàn)分類,將分類問題簡(jiǎn)化成為一個(gè)風(fēng)險(xiǎn)最小化問題。

      3.3.2 徑向基RBF神經(jīng)網(wǎng)絡(luò)

      徑向基RBF神經(jīng)網(wǎng)絡(luò)是一種局部逼近的多層前向神經(jīng)網(wǎng)絡(luò),具有算法簡(jiǎn)單、收斂快、逼近效果好以及泛化能力強(qiáng)的特點(diǎn)。RBF是通過非線性基函數(shù)的線性組合實(shí)現(xiàn)從輸入空間到輸出空間的非線性轉(zhuǎn)換。RBF神經(jīng)網(wǎng)絡(luò)是一個(gè)3層網(wǎng)絡(luò),其中輸入輸出由線性神經(jīng)元組成,隱層節(jié)點(diǎn)是高斯核函數(shù)。該函數(shù)能對(duì)輸入產(chǎn)生局部響應(yīng),從而將輸入空間劃分為若干小的局部區(qū)間,以達(dá)到分類的目的。

      3.3.3 貝葉斯網(wǎng)絡(luò)

      基于概率推理的貝葉斯網(wǎng)絡(luò)是為了解決不定性和不完整性問題而提出的,它是一種概率網(wǎng)絡(luò),而貝葉斯公式是這個(gè)概率網(wǎng)絡(luò)的基礎(chǔ)。一個(gè)貝葉斯網(wǎng)絡(luò)是一個(gè)有向無環(huán)圖,由代表變量節(jié)點(diǎn)及連接這些節(jié)點(diǎn)的有向邊構(gòu)成。通過對(duì)節(jié)點(diǎn)的抽象便可以應(yīng)用于各種問題,廣泛用于不確定性決策、數(shù)據(jù)分析以及智能推理等領(lǐng)域。

      3.4 基于D-S證據(jù)理論的融合方法

      3.4.1 D-S證據(jù)理論

      D-S證據(jù)理論是由Dempster[8]首先提出,并由Shafer[9]進(jìn)一步發(fā)展起來的一種不確定性推理理論,它為不確定信息的表達(dá)和合成提供了自然而強(qiáng)有力的方法,因而在不確定推理和數(shù)據(jù)融合中獲得了廣泛的應(yīng)用。

      在證據(jù)理論中,稱一個(gè)樣本空間為辨識(shí)框架,并用Θ表示。Θ由一系列兩兩互斥的對(duì)象θi構(gòu)成。Θ包含當(dāng)前要識(shí)別的全體對(duì)象,即:Θ=θ1,θ2,…,θn,其中θi稱為Θ的一個(gè)單子(singleton),只含一個(gè)單子的集合稱為單子集合。在數(shù)據(jù)融合系統(tǒng)中,這種單子就是系統(tǒng)要做出決策或判斷的結(jié)論。證據(jù)理論的基本問題是:在已知辨識(shí)框架Θ的條件下,判明Θ中一個(gè)先驗(yàn)的未知元素屬于Θ中某一個(gè)子集A的程度。定義2θ為Θ中所有子集構(gòu)成的集合,對(duì)于Θ的每個(gè)子集,可以指派一個(gè)概率,我們稱之為基本概率分配(basic probability assignment,BPA)?;靖怕史峙涠x為:m:2θ→0,1,它滿足如下公理:

      (1)

      其中,mA表示支持命題A發(fā)生的程度,且滿足0mA1。若有mA>0,則稱A為焦元。證據(jù)是由證據(jù)體A,mA組成的,利用證據(jù)體可以定義2θ上的信任函數(shù)Bel(Belief function)和似真函數(shù)Pl(Plausibility function),它們與BPA存在如下關(guān)系:

      (2)

      (3)

      BelA表示全部給予命題A的支持程度,似真函數(shù)PlA表示不反對(duì)命題A的程度。

      設(shè)Bel1和Bel2為同一辨識(shí)框架下的兩個(gè)信任函數(shù),m1和m2為相應(yīng)的BPA函數(shù),其焦元分別為A1,A2,…,Ap和B1,B2,…,Bq,那么對(duì)于給定的命題A?Θ,這兩個(gè)證據(jù)可以通過D-S證據(jù)理論組合如下:

      (4)

      其中K反映了證據(jù)之間的沖突程度,系數(shù)1/1-K稱為歸一化因子,它的作用就是避免在合成時(shí)將非0的概率賦給空集?。

      基于證據(jù)理論的合成公式滿足交換率和結(jié)合率。在同一辨識(shí)框架下的M個(gè)信任函數(shù)組合規(guī)則如下:

      (5)

      3.4.2 基于權(quán)重的融合方法

      (6)

      (7)

      其中mΦall表示其中一個(gè)分類器給出的前n個(gè)候選類別之外的概率估計(jì),mΦsub表示另一個(gè)分類器給出的前m個(gè)候選類別之外的類別估計(jì)。根據(jù)D-S證據(jù)理論我們就可以得到融合后各類的概率。

      4 實(shí)驗(yàn)結(jié)果

      4.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)來源

      實(shí)驗(yàn)數(shù)據(jù)來源于20組防震減災(zāi)科普知識(shí)數(shù)據(jù)(經(jīng)典的文本分類數(shù)據(jù)集)。樣本數(shù)據(jù)為10 000,其中8 000為訓(xùn)練集,2 000為測(cè)試集,數(shù)據(jù)分為地震監(jiān)測(cè)預(yù)報(bào)、震害防御和緊急救援三類。實(shí)驗(yàn)中采用向量空間模型將文本表示為200維特征向量,然后通過PCA方法降維到60維。單一分類器和融合分類器的訓(xùn)練集和測(cè)試集完全一樣。

      4.2 結(jié)果分析

      實(shí)驗(yàn)中影響分類器性能的因素很多,但在測(cè)試過程中本文以準(zhǔn)確率作為評(píng)估文本分類器性能的方法。表1給出了不同分類器的分類準(zhǔn)確率,從表中可看出本文融合方法的準(zhǔn)確率對(duì)于每個(gè)單一分類器的準(zhǔn)確率都有著顯著的提高,說明本方法能夠達(dá)到綜合各個(gè)分類器特點(diǎn)的作用,從而彌補(bǔ)了單一分類器可能存在的片面性問題。

      表1 不同分類器的分類準(zhǔn)確率

      5 結(jié)束語

      本文采用基于多分類器融合的方法對(duì)防震減災(zāi)科普知識(shí)文本進(jìn)行自動(dòng)分類。SVM、徑向基RBF神經(jīng)網(wǎng)絡(luò)以及貝葉斯網(wǎng)絡(luò)作為文本分類器有著自身不同的特點(diǎn),通過D-S證據(jù)理論將這3種分類器進(jìn)行了有效的融合,得到了單一分類器之間的性能互補(bǔ),從而使文本分類結(jié)果有了顯著提升。結(jié)果表明,基于多分類器融合的文本分類方法用于防震減災(zāi)科普知識(shí)文本分類是有效的。

      猜你喜歡
      科普知識(shí)防震減災(zāi)
      防震演練
      幼兒100(2022年23期)2022-06-10 03:33:30
      防災(zāi)減災(zāi) 共迎豐收之季
      單導(dǎo)線防震錘復(fù)位裝置方案設(shè)計(jì)
      云南化工(2020年11期)2021-01-14 00:51:02
      家庭防震
      首爾七成房子不防震
      科普知識(shí)
      科普知識(shí)
      國(guó)務(wù)委員、國(guó)家減災(zāi)委主任王勇在北京出席“防災(zāi)減災(zāi)日”活動(dòng)
      農(nóng)業(yè)減災(zāi)自救 刻不容緩
      減災(zāi)就是效益
      呼伦贝尔市| 桃源县| 鲜城| 开阳县| 瑞金市| 行唐县| 建始县| 大港区| 松溪县| 阳春市| 晋城| 亳州市| 广东省| 阿拉尔市| 布尔津县| 固阳县| 黔江区| 凤冈县| 曲麻莱县| 乌鲁木齐县| 敖汉旗| 伊吾县| 望都县| 邯郸市| 南开区| 浦县| 阳山县| 南岸区| 浪卡子县| 韩城市| 西和县| 米泉市| 南郑县| 腾冲县| 营山县| 台前县| 开封县| 安徽省| 介休市| 马龙县| 长泰县|