• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Adaboost 算法的主客觀句分類

      2015-03-25 13:22:52黃瑾娉
      關(guān)鍵詞:主客觀特征選擇分類器

      黃瑾娉,陶 杰

      (安徽工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 馬鞍山243002)

      0 引言

      近年來(lái),文本主客觀分類的研究工作逐漸成為熱門,研究方向從篇章級(jí)、段落級(jí)、語(yǔ)句級(jí)逐級(jí)微觀化。判斷句子是否為觀點(diǎn)句是區(qū)分句子主客觀的基本方法。但由于漢語(yǔ)以表意為主,不拘泥于語(yǔ)法規(guī)范的特性,往往在句子中省略了部分元素。例如“特別敬重你”,在句中省略了主語(yǔ)“我”,是主觀句。這使得語(yǔ)句不能使用固定的語(yǔ)法結(jié)構(gòu)來(lái)判斷其主客觀性。另一方面,上例的句子若不省略觀點(diǎn)主體且主體詞是“他”時(shí),又是客觀句。由此看出,主客觀的判定需要結(jié)合詞性、詞匯等特性綜合判定。

      主客觀句分類的常見(jiàn)方法有基于詞典規(guī)則和基于統(tǒng)計(jì)的兩大類,前者通過(guò)構(gòu)建特定的情感詞典等判定句子的主客觀性,后者則通過(guò)機(jī)器學(xué)習(xí)模型構(gòu)建主客觀分類器。其中后者是應(yīng)用的主流。以往的研究重心集中于語(yǔ)句的特征選擇,訓(xùn)練階段則多數(shù)選用單一分類器??紤]到分類器在主客觀分類中的重要性,其優(yōu)化相關(guān)的研究也越來(lái)越得到重視。

      該文提出了一種使用Adaboost 算法進(jìn)行主客觀分類的方案,使用詞匯、詞性特征進(jìn)行實(shí)驗(yàn),驗(yàn)證方案的可行性。Adaboost 是集成學(xué)習(xí)算法[1],是一種迭代算法,有利于綜合各分類器優(yōu)勢(shì),達(dá)到更佳的分類效果。

      1 相關(guān)知識(shí)

      1.1 分類流程描述

      使用機(jī)器學(xué)習(xí)機(jī)進(jìn)行主客觀句分類包括了分類模型建立和分類的實(shí)施兩個(gè)階段,主要流程如圖1 所示。與一般分類問(wèn)題相似,包括了語(yǔ)料集的獲取、文本預(yù)處理工作、特征表示、機(jī)器學(xué)習(xí)模型的生成和分類等幾個(gè)步驟。在主客觀分類領(lǐng)域中,特征選擇和數(shù)據(jù)模型的生成有其特殊性,是研究的重點(diǎn)內(nèi)容。

      除了一般分類的預(yù)處理過(guò)程,主客觀分類的文本預(yù)處理還包含了人工標(biāo)注句子主客觀性的過(guò)程,一部分用于分類模型的訓(xùn)練,另一部分用作測(cè)試。特征表示包括特征選擇和向量化表示。首先結(jié)合語(yǔ)句特點(diǎn)選取適當(dāng)?shù)脑~匯、詞性特征,然后使之向量化。

      1.2 主客觀特征表示

      特征選擇在語(yǔ)句集預(yù)處理完成后進(jìn)行,其目的是通過(guò)選擇適當(dāng)?shù)奶卣?,舍去不重要特征,將語(yǔ)句看作是多個(gè)特征合成的一個(gè)合體。特征選擇的優(yōu)劣將很大程度上影響到最后機(jī)器學(xué)習(xí)的數(shù)據(jù)模型生成質(zhì)量。

      圖1 主客觀句分類流程

      主觀句、客觀句在語(yǔ)義和語(yǔ)法上都存在著一些隱含的特征。語(yǔ)義層面上主要通過(guò)詞匯特征體現(xiàn),語(yǔ)法特征主要通過(guò)詞性表達(dá)。由于詞匯、詞性特征非常多,這將導(dǎo)致向量化后的維度很高,在主客觀分類應(yīng)用中使用超高維度將使得訓(xùn)練時(shí)間很長(zhǎng),同時(shí)也可能導(dǎo)致訓(xùn)練結(jié)果精確度的降低。課題緊抓語(yǔ)句的詞匯、詞性特征,通過(guò)查閱相關(guān)文獻(xiàn)[2-3]總結(jié)了常見(jiàn)的主客觀特征并進(jìn)行篩選。

      詞匯特征以Hownet 情感分析詞典為準(zhǔn),包括了正負(fù)面情感詞2090 個(gè)、正負(fù)面評(píng)價(jià)詞6846 個(gè)、主張?jiān)~38個(gè)、程度級(jí)別詞219 個(gè)。另外還加入了人稱代詞作為特征。由上述可知,直接進(jìn)行詞匯特征向量化導(dǎo)致了向量維度較大,在集成學(xué)習(xí)中運(yùn)算量過(guò)于龐大的問(wèn)題,因此結(jié)合哈工大同義詞詞林?jǐn)U展版,在將語(yǔ)料向量化表示后進(jìn)行維度的壓縮,按照近義詞詞典的第四級(jí)別進(jìn)行詞合并操作,降低一定的維度,最終獲得的詞匯特征樣例如表1 所示。

      表1 特征詞匯統(tǒng)計(jì)

      N-POS(多元詞性特征)[4]指句子中N 個(gè)連續(xù)詞的詞性連續(xù)組合,各句子的長(zhǎng)度不同可得到的N 值也不同,而現(xiàn)實(shí)應(yīng)用中取N 為較小整數(shù)時(shí)就可以較好的體現(xiàn)句子特征,例如N=2 或N=3,相反當(dāng)N 較大時(shí)并不一定會(huì)提升分類效果反而導(dǎo)致了維度災(zāi)難。詞性在主客觀句分類中是重要的區(qū)分特征,例如在2-POS中,“副詞+動(dòng)詞”的組合具有主觀色彩,而“名詞+數(shù)詞”的組合在客觀句中比較常見(jiàn)。

      上述方法獲取到的特征使用統(tǒng)計(jì)CHI(統(tǒng)計(jì))篩選,CHI 統(tǒng)計(jì)結(jié)果反應(yīng)了主客觀特征在的重要程度。計(jì)算方法如公式(1):

      結(jié)合主客觀分類,公式中p 表示一種模式,例如在N-POS 中是一種詞性的組合形式;c 表示主客觀兩個(gè)類別,j 取0 或1;N 表示訓(xùn)練集句子總數(shù);A 表示類中p 模式的頻度;B 表示中p 模式出現(xiàn)頻度;C 表示類中未出現(xiàn)p 模式句子數(shù);D 表示類中未出現(xiàn)p 模式的句子數(shù)。

      2 Adaboost 及其改進(jìn)

      2.1 算法描述

      Adaboost 是一種Boosting[5-6]集成學(xué)習(xí)算法,用于解決二分類問(wèn)題。Adaboost 使用迭代思想,意圖在于將若干個(gè)弱分類器組合成一個(gè)強(qiáng)分類器,使得分類效果得到提升。Adaboost 算法在1995 年由Freund 和Schapire 提出。隨后,該算法在機(jī)器學(xué)習(xí)領(lǐng)域得到了廣泛應(yīng)用,應(yīng)用效果得到了認(rèn)可。

      Adaboost 算法的核心思想是對(duì)于給定大小為n 的訓(xùn)練集合,其中,,…,。是訓(xùn)練文本的向量化表示形式,是其對(duì)應(yīng)的類別標(biāo)記。首先給予每個(gè)訓(xùn)練樣本以相同權(quán)重1/n。然后進(jìn)入了弱分類迭代學(xué)習(xí)過(guò)程,各個(gè)弱分類器產(chǎn)生自身預(yù)測(cè)函數(shù)和函數(shù)權(quán)重,最后更新樣本權(quán)重并指導(dǎo)下一輪弱分類器的學(xué)習(xí)。Adaboost 訓(xùn)練完成后使用各弱分類器的預(yù)測(cè)函數(shù)以投票方式對(duì)新文本進(jìn)行分類。

      2.2 權(quán)值更新的改進(jìn)

      在分類過(guò)程中,分類錯(cuò)誤的樣本將得到權(quán)重的加成。但當(dāng)遇到某樣本在弱分類器迭代訓(xùn)練中不斷分類錯(cuò)誤時(shí),就可能其導(dǎo)致權(quán)重過(guò)度擴(kuò)張,而已分類正確的樣本將出現(xiàn)權(quán)重過(guò)低現(xiàn)象。最終導(dǎo)致整個(gè)分類正確率的降低,產(chǎn)生退化現(xiàn)象。在主客觀分類中,由于維度較高且訓(xùn)練過(guò)程中確實(shí)可能遇到某些句子比較中性(主客觀特性均衡)的情況,為避免上述的現(xiàn)象,課題采用了改進(jìn)方法。

      以主客觀分類為例,為避免樣本的權(quán)重過(guò)度擴(kuò)張,給持續(xù)分類錯(cuò)誤的樣本以權(quán)重的調(diào)整,分類錯(cuò)誤z 次的樣本在權(quán)重調(diào)整后乘以系數(shù)。訓(xùn)練語(yǔ)料中的主客觀句數(shù)量成一定比例o:s,其中o+s=1。在訓(xùn)練過(guò)程中,學(xué)習(xí)機(jī)產(chǎn)生的錯(cuò)誤分類將導(dǎo)致主客兩類的總權(quán)重不再是o:s,甚至嚴(yán)重偏離此比例,將導(dǎo)致繼續(xù)迭代學(xué)習(xí)時(shí)某一類的權(quán)重過(guò)大的問(wèn)題。為此在權(quán)重更新過(guò)程中對(duì)各樣本再次進(jìn)行權(quán)重平衡,使之保持o:s 比例。通過(guò)以上修改,得到了改進(jìn)的算法如圖2 所示。

      圖2 Adaboost 改進(jìn)算法

      改進(jìn)算法中,訓(xùn)練語(yǔ)料D 增加錯(cuò)誤次數(shù)z 標(biāo)識(shí)并在迭代過(guò)程中動(dòng)態(tài)變化,在步驟⑤中對(duì)權(quán)重更新進(jìn)行調(diào)整;增加了步驟⑥調(diào)整了類別間的權(quán)重。這樣有效的防止了類別間和類別中各自的權(quán)重?cái)U(kuò)張過(guò)度現(xiàn)象。

      3 實(shí)驗(yàn)及結(jié)果分析

      實(shí)驗(yàn)中的樣本取自COAE2014-任務(wù)4&任務(wù)5 的語(yǔ)料庫(kù),提取的4000 條評(píng)論句并進(jìn)行人工主客觀的標(biāo)注,使用哈工大LTP 平臺(tái)進(jìn)行分詞和詞性標(biāo)注等一些預(yù)處理工作。詞匯特征使用表1 中列舉的特征,詞性特征選用了前50 維作為訓(xùn)練特征,

      使用Weka 作為試驗(yàn)環(huán)境,弱分類器使用SVM、Native Bayes、C4.5 三種。隨機(jī)抽取3000 條作為訓(xùn)練語(yǔ)料,1000 條作為測(cè)試語(yǔ)句。訓(xùn)練并測(cè)試Adaboost 算法在主客觀分類中的有效性。

      實(shí)驗(yàn)結(jié)果使用計(jì)算精確率(P)、召回率(R)、平均值(F)最為評(píng)價(jià)標(biāo)準(zhǔn)。其中,語(yǔ)料初始分布情況如表2 所示:

      表2 樣本初始分布情況

      通過(guò)訓(xùn)練,將SVM 訓(xùn)練算法作為基線與Adaboost 算法的測(cè)試結(jié)果進(jìn)行了對(duì)比,表3 中展示了Adaboost算法及其改進(jìn)算法的訓(xùn)練精確率P 的結(jié)果,改進(jìn)算法中使用a=1.5。

      表3 Adaboost 結(jié)果對(duì)比

      表3 的實(shí)驗(yàn)結(jié)果反映了Adaboost 在迭代15 次時(shí)達(dá)到頂峰,改進(jìn)后的算法在迭代初期就有較好性能,達(dá)到頂峰后也比經(jīng)典算法穩(wěn)定性強(qiáng)。表4 是將SVM 作為基線與Adaboost 進(jìn)行對(duì)比,結(jié)果表明Adaboost 作為主客觀分類的強(qiáng)分類器是有效的。使用了Adaboost 訓(xùn)練算法后,分類結(jié)果分別在P 值、R 值、F 值上均有提高。

      表4 Adaboost 與SVM 結(jié)果對(duì)比

      4 結(jié)語(yǔ)

      該課題探索了Adaboost 集成學(xué)習(xí)算法在主客觀文本分類中的應(yīng)用。在運(yùn)用Adaboost 方法時(shí)考慮到了權(quán)重過(guò)度擴(kuò)張對(duì)分類性能的影響并作出了相應(yīng)的優(yōu)化。最后通過(guò)實(shí)驗(yàn),表明運(yùn)用Adaboost 方法能夠有效地提高主客觀分類效果。中文語(yǔ)法、語(yǔ)義是相當(dāng)復(fù)雜的,目前的研究成果中短文本主客觀分類成功率不高,還有許多努力方向,選擇性集成和半監(jiān)督集成學(xué)習(xí)在主客觀分類中的效率也是值得研究的方向。

      [1] 李凱,崔麗娟.集成學(xué)習(xí)算法的差異性及性能比較[J].計(jì)算機(jī)工程,2008(6):35-37.

      [2] 李光敏,許新山,張磊.微博中產(chǎn)品意見(jiàn)挖掘研究[J].情報(bào)雜志,2014(4):135-138.

      [3] 姚旭,王曉丹,張玉璽,等.特征選擇方法綜述[J].控制與決策,2012(2):161-166,192.

      [4] 張博,周延泉,毛昱,等.對(duì)中文主客觀分類特征選擇的研究[C]//中國(guó)人工智能學(xué)會(huì)第十三屆學(xué)術(shù)年會(huì)論文集,2009:601-608.

      [5] 曹瑩,苗啟廣,劉家辰,等.AdaBoost 算法研究進(jìn)展與展望[J].自動(dòng)化學(xué)報(bào),2013(6):745-758.

      [6] 雷蕾,王曉丹.基于損失函數(shù)的AdaBoost 改進(jìn)算法[J].計(jì)算機(jī)應(yīng)用,2012(10):2916-2919.

      猜你喜歡
      主客觀特征選擇分類器
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      Outdoor air pollution as a possible modifiable risk factor to reduce mortality in post-stroke population
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      特大型高鐵車站高架候車廳聲環(huán)境主客觀評(píng)價(jià)研究
      雙重階層意識(shí)與主客觀記憶(1)——以黃龜淵故事為例
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
      昌吉州主客觀溫度預(yù)報(bào)檢驗(yàn)及業(yè)務(wù)應(yīng)用
      闽清县| 彰化县| 九龙城区| 碌曲县| 伊通| 开江县| 元阳县| 甘泉县| 长泰县| 元氏县| 应城市| 南靖县| 祁门县| 新营市| 宝兴县| 格尔木市| 岚皋县| 通辽市| 通榆县| 玛沁县| 恩施市| 铜陵市| 准格尔旗| 若羌县| 仁寿县| 平昌县| 沅江市| 西丰县| 迁西县| 荥经县| 车致| 长葛市| 灌云县| 连山| 邹城市| 阜平县| 永定县| 方正县| 武胜县| 天全县| 茌平县|