• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于SVM的以詞性和依存關系為特征的句子傾向性判斷分析

      2012-10-23 10:00:40吳明芬陳濤
      關鍵詞:傾向性語料分類器

      吳明芬 ,陳濤

      (1. 中國科學院 計算技術研究所,北京 100190;2. 五邑大學 計算機學院,廣東 江門 529020)

      基于SVM的以詞性和依存關系為特征的句子傾向性判斷分析

      吳明芬1,2,陳濤1,2

      (1. 中國科學院 計算技術研究所,北京 100190;2. 五邑大學 計算機學院,廣東 江門 529020)

      將句法平面詞的詞性特征、依存關系、依存關系中的詞性特征、鄰接依存關系、鄰接依存關系中的詞性特征與傾向性詞匯和傾向性搭配作為支持向量機(SVM)分類器的特征集,以句子為單位對多個領域的文本進行傾向性判斷. 通過交叉驗證的方式,估計出分類器的精度為95.6%,據(jù)此提出句子傾向性分析可不以句子傾向性判斷為前提.

      傾向性判斷;依存關系;詞性特征;支持向量機

      支持向量機(Support Vector Machine,簡稱SVM)是一種得到廣泛應用的有監(jiān)督的二元分類方法,由Cortes和Vapnik于1995年首先提出[1],對解決小樣本、非線性及高維模式識別具有獨特的優(yōu)勢.

      句子傾向性判斷是將文本以句子為單位對其是否包含主觀意見和情感進行判斷,它可以作為按傾向性對文本分類系統(tǒng)的預處理模塊,用來過濾無傾向性的文本;也可以與搜索引擎結合,用以搜索客戶對某件商品的評論等傾向性文本.

      基于SVM對文本進行句子傾向性判斷,首先需要選取特征集. 目前特征集選取主要采用詞級特征,有以下 2種方法:1)利用情感/傾向性詞典、語料庫等識別文本中具有明顯傾向性的詞(即評價詞語)來判斷文本傾向性[2-5]. 這種方法對分析顯式的傾向性(即含有情感詞的文本的傾向性)比較有效. 2)利用詞語搭配來判斷文本傾向性[6-9]. 這種方法具有一定的分析隱含傾向性和領域相關傾向性的能力. 本文將對語料庫中文本的傾向性與句法平面詞的詞性特征(POS)、依存關系(DEP),依存關系中詞的詞性特征、鄰接依存關系,鄰接依存關系中詞的詞性特征進行分析和統(tǒng)計,并將統(tǒng)計結果結合傾向性詞匯與傾向性搭配一起作為SVM分類器的特征集進行訓練和測試.

      1 準備知識

      詞性是指劃分詞類根據(jù)的詞的特點,如名詞(N)、動詞(V)、形容詞(ADJ)等. 依存關系的概念由依存語法衍生而來,法國語言學家Tesnière[10]提出“兩個平面”理論,即用“結構平面”和“語義平面”來區(qū)分句法和語義. 魯川[11]將句子剖析成跟顯性、有序、省略、一維表層結構一致的“句法平面”,和跟隱性、無序、完整、多維里層結構一致的“語義平面”. 詞性屬于句法平面而依存關系屬于語義平面. 周國光[12]將依存(配價)語法定義為一種結構語法,主要研究以謂詞為中心、而構句時由深層語義結構映現(xiàn)為表層句法結構的狀況及條件、謂詞與體詞之間的同現(xiàn)關系,并據(jù)此劃分謂詞的詞類. 常見的依存關系有:句子核心動詞(HED)、主謂關系(SBV)、動賓關系(VOB)、狀中結構(ADV)、定中關系(ATT)等.

      依存關系中詞的詞性特征、鄰接依存關系以及鄰接依存關系詞的詞性特征是將依存關系與詞性結合在一起考慮. 鄰接依存關系是指兩個存在共用的詞且跨度沒有包含關系的依存關系. 特殊的核心結構不與任何依存關系包含. 如圖1所示,存在4個鄰接依存關系組合:HED_SBV,HED_VOB,SBV_VOB、ATT_ATT. 不包括VOB_ATT,因為動賓關系VOB(喜歡、處理)的跨度包含了定中關系ATT(處理、語言).

      鄰接依存關系中詞的詞性特征是兩個鄰接依存關系句法平面對應的詞的詞性組合,如圖1中的鄰接依存關系HED_SDV,HED_VOB,SDV_VOB,ATT_ATT對應的鄰接依存關系中詞的詞性特征分別為:h_v_r,h_v_v,r_v_v和n_n_v.

      圖1 依存關系可視化示例

      2 實驗過程

      實驗使用的語料庫包括譚松波提供的中文情感挖掘語料—ChnSentiCorp[13]、搜狗分類語料庫(精簡版)[14]、哈爾濱工業(yè)大學 LTP源代碼中提供的測試語料(test_gb.txt)[15]. SVM 工具采用Weka[16]平臺提供的 LibSVM軟件包[17],用哈工大 LTP[18]處理生成對應的 xml文件,使用 Python語言編寫程序.

      2.1 特征集選取

      分別統(tǒng)計傾向性語料和普通語料中的詞性特征(POS)、依存關系特征(DEP)、依存關系中的詞性特征(2-POS)、鄰接依存關系特征(2-DEP)、鄰接依存關系中詞性特征(3-POS),得出了以下結論. 由于篇幅所限,統(tǒng)計分析得到的統(tǒng)計圖表見http://www.yourscom.com/v/.

      1)詞性中,名詞、副詞、地理名、擬聲詞、嘆詞、專有名詞、縮寫和機構名在有傾向性文本與普通文本中占有率差異明顯. 其中名詞、副詞、擬聲詞在有傾向性文本中占有率明顯高于普通文本,地理名、專有名詞、縮寫和機構名則明顯低于普通文本.

      2)依存關系中,狀中結構、語態(tài)結構、定中關系、并列關系、前附加關系在有傾向性文本與普通文本中占有率差異明顯. 其中狀中結構、語態(tài)結構在有傾向性文本中占有率明顯高于普通文本,定中關系、并列關系、前附加關系則明顯低于普通文本.

      3)2-POS中,副詞動詞序列、助詞動詞序列、名詞形容詞序列、形容詞動詞序列、副詞形容詞序列在有傾向性文本中比例較高,名詞名詞序列、地理名名詞序列在有傾向性文本中比例較低.

      4)2-DEP中,VOB_MT、SBV_MT、H_IC、ADV_CMP、SBV_IC、ADV_IC、IC_VOB、ADV_ADV、ADV_MT在傾向性文本中比例高于普通文本,ATT_ATT、ATT_DE、VOB_COO、QUN_ATT、ATT_COO、IC_IC在傾向性文本中比例低于普通文本.

      5)3-POS中,d_v_v、d_v_u、v_v_u、v_v_a在傾向性文本中比例高于普通文本,p_v_n、v_n_n、h_v_a、h_v_p、p_v_v、n_v_n、n_n_n、n_n_v在傾向性文本中比例低于普通文本.

      以上結論中及文中其他地方出現(xiàn)的關于依存關系和詞性的縮寫含義請參考文獻[19].

      傾向性詞匯通過統(tǒng)計傾向性語料和普通文本語料中使用頻率最高的 3 000個詞匯并去除二者的交集再手工整理添加常用的形容詞得到.

      傾向性搭配嚴格地講只是使用頻率較高的兩個詞的組合,通過2種方法獲得:1)二次遍歷傾向性語料中所有句子,找出使用頻率最高的10 000個兩個詞的組合. 2)統(tǒng)計依存關系箭頭兩端詞的組合,找出使用頻率最高的10 000個兩個詞的組合.

      2.2 SVM分類

      使用LibSVM的SVM分類器,根據(jù)2.1節(jié)的結論總結出特征列表見表1. 按照表1編寫程序分別統(tǒng)計傾向性語料和非傾向性語料中每個句子的值,輸出為Weka平臺數(shù)據(jù)文件格式.

      表1 特征列表

      例如:句子“我愛自然語言處理”通過哈工大LTP平臺處理生成xml文件的主要內容如下:

      采用表1的特征集生成Weka平臺數(shù)據(jù)文件如下:

      2.3 實證結果

      將數(shù)據(jù)文件導入Weka平臺,選擇LibSVM分類器,參數(shù)選擇-S 0-K 2-D 3-G 0.0-R 0.0-N 0.5-M 40.0-C 18.0-E 0.0010-P 0.1,通過10次交叉驗證的方式得到實驗結果. 表2是傾向性句子和非傾向性句子的混淆矩陣,表3是精度、召回率和F-值的實驗結果數(shù)據(jù).

      表2 傾向和非傾向性句子混淆矩陣

      表3 精度、召回率和F-值數(shù)據(jù)

      實驗結果表明:本文設計的傾向性句子分類器的精度在 95.6%以上,召回率在 96%以上,F(xiàn)度量值在 95.8%以上. 也就是說,此分類器用于判斷傾向性句子效果比較好,同時也表明詞性特征和依存關系特征可以作為句子傾向性判斷的特征集使用.

      3 結論與展望

      本文設計了一個采用 SVM分類器進行句子傾向性判斷的系統(tǒng),該系統(tǒng)除了采用傾向性詞匯和傾向性搭配為特征外,還采用詞性特征、依存關系特征,依存關系中的詞性特征(2-POS)、鄰接依存關系特征(2-DEP),鄰接依存關系中詞性特征(3-POS)等作為依據(jù),實驗結果表明該系統(tǒng)對句子傾向性的判斷效果良好.

      在手工從普通語料中抽取非傾向性語料的過程中,完全沒有陳述人觀點、也沒有上下文主體的觀點的句子數(shù)量非常少,比例在5%以下. 因此認為:在進行句子傾向性分析即對句子的傾向性進行分類之前,沒有必要對句子的傾向性進行判斷. 也就是說:句子傾向性判斷可以不是句子傾向性分析的前提. 下一步的工作是通過實驗及相關語料從多方面來驗證此構想.

      [1] CORTES C, VAPNIK V. Support Vector Networks[J]. Machime learning, 1995, 20: 273–297.

      [2] 趙妍妍,秦兵,劉挺. 文本情感分析[J]. 軟件學報,2010, 21: 3-10.

      [3] TUMEY P. Thumbs up or thumbs down? semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of the 40th Annual Meeting I ACL, [S. I.]: Philadelphia, 2002: 417-424.

      [4] TUMEY P, LITTMAN M. Measuring praise and criticism: Inference of semantic orientation from association[J]. ACM Transactions on Information Systems, 2003, 21(4): 315-346.

      [5] KAMPS J, MARX M, MOKKEN R J, et al. Using WordNet to measure semantic orientation of adjectives [C]//Proceedings of LREC-04, 4th International Conference on Language Resources and Evaluation, Lisbon, LREC, 2004: 1115-1118.

      [6] CHOI Yoonjung, KIM Youngho, MYAENG Sunghyon. Domain-specific sentiment analysis using contextual feature generation[C]//Proceedings of the 1st international CIKM workshop on Topic-sentiment analysis for mass opinion, New york: ACM, 2009: 37-44.

      [7] 朱嫣嵐,閔錦,周雅倩,等. 基于HowNet的詞匯語義傾向計算[J]. 中文信息學報,2005, 20(1): 14-20.

      [8] 熊德蘭,程菊明,田勝利. 基于 HowNet的句子褒貶傾向性研究[J]. 計算機工程與應用. 2008, 44(22): 143-145.

      [9] 潘寧,林鴻飛. 基于語義極性分析的餐館評論挖掘[J]. 計算機工程,2008, 34(17): 208-210.

      [10] TESNIERE L. éléments de syntaxe structurale[M]. Paris: Klincksieck, 1959.

      [11] 魯川. 知識工程語言學[M]. 北京:清華大學出版社,2010: 8.

      [12] 周國光. 現(xiàn)代漢語配價語法研究[M]. 北京:高等教育出版社,2011.

      [13] 譚松波. 中文情感挖掘語料:ChnSentiCorp[EB/OL]. 北京:譚松波,2010-06-29[2012-03-21]. http://www.searchforum.org.cn/tansongbo/corpus-senti.htm

      [14] 搜狐研發(fā)中心. 文本分類語料庫[EB/OL]. 北京:搜狐研發(fā)中心,2008-09[2012-03-23]. http://www.sogou. com/labs/dl/c.html

      [15] CHE Wanxiang, LI Zhenghua, LIU Ting. LTP: A chinese language technology platform[C]//Proceedings of the Coling 2010 Demonstrations, Beijing: [s.n.]. 2010: 13-16.

      [16] HALL M, FRANK E, HOLMES G, et al. The weka data mining software: an update[J]. SIGKDD Explorations, 2009, 11(1): 10-18.

      [17] CHANG Chihchung, LIN Chihjen, LIBSVM: a library for support vector machines[EB/OL]. [s.l.]: ACM Transactions on Intelligent Systems and Technology, 2011[2012-04-05]. http://www.csie.ntu.edu.tw/~cjlin/ libsvm.

      [18] 哈工大社會計算與信息檢索研究中心. 語言技術平臺[EB/OL]. 哈爾濱:哈工大社會計算與信息檢索研究中心,2011[2012-04-08]. http://ir.hit.edu.cn/demo/ltp/.

      [19] 李正華. LTP使用文檔V2.1[EB/OL]. 哈爾濱:哈爾濱工業(yè)大學信息檢索研究室,2009[2012-04-11]:13-14. http://ir.hit.edu.cn/ demo/ltp/LTP-manual-v2.0.1.pdf.

      Sentences Tendency Judgement by POS and Dependency Based on SVM

      WU Ming-fen1,2, CHEN Tao1,2
      (1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China; 2. School of Information Science, Wuyi University, Jiangmen 529020, China)

      The objective sentences of multi-domain from views is distinguished by using part of speech, dependency relationship, the part of speech combinations of the two words under one dependency, two adjacent dependencies, the part of speech combinations of the three words under two adjacent dependencies, sentiment words and sentiment collocations as features of SVM classifier. The precision is about 95.6% with 10-fold cross-validation. It is assumed that the sentence tendency judgement is not the premise of the document sentiment analysis.

      tendency judgement; dependency; part-of-speech characteristics; support vector machine

      1006-7302(2012)04-0066-06

      TP391.1

      A

      2012-06-27

      中國科學院計算技術研究所智能信息處理重點實驗室開放課題基金資助項目(LIP2010-5);廣東省科技計劃資助項目(2010B010600039);廣東省自然科學基金資助項目(S2011010003681);江門市科技計劃資助項目(2012003009398)

      吳明芬(1964—),女,江蘇常熟人,教授,碩士,碩士生導師,CCF高級會員,研究方向為模糊集、粗糙集理論及其在智能信息處理中的應用.

      韋 韜]

      猜你喜歡
      傾向性語料分類器
      基于模糊數(shù)學法的阿舍勒銅礦深部巖體巖爆傾向性預測
      BP-GA光照分類器在車道線識別中的應用
      電子測試(2018年1期)2018-04-18 11:52:35
      基于語料調查的“連……都(也)……”出現(xiàn)的語義背景分析
      加權空-譜與最近鄰分類器相結合的高光譜圖像分類
      結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      關于醫(yī)患沖突報道的傾向性分析——以“湘潭產婦死亡案”為例
      華語電影作為真實語料在翻譯教學中的應用
      “沒準兒”“不一定”“不見得”和“說不定”的語義傾向性和主觀性差異
      語言與翻譯(2015年4期)2015-07-18 11:07:43
      《苗防備覽》中的湘西語料
      國內外語用學實證研究比較:語料類型與收集方法
      辛集市| 彭山县| 金平| 望城县| 琼海市| 信宜市| 剑川县| 普陀区| 邵东县| 靖宇县| 绥芬河市| 股票| 巴南区| 上饶县| 绥滨县| 桐柏县| 平陆县| 醴陵市| 绍兴市| 日喀则市| 安庆市| 普格县| 长乐市| 宜兰县| 舒城县| 沙雅县| 海口市| 亳州市| 奇台县| 嫩江县| 株洲县| 正蓝旗| 黄浦区| 延安市| 武强县| 开鲁县| 麦盖提县| 库车县| 张掖市| 洛浦县| 简阳市|