• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種基于聚類與分類結(jié)合的漢語隱喻短語識別方法

      2018-04-16 07:53:32符建輝曹存根
      中文信息學(xué)報(bào) 2018年2期
      關(guān)鍵詞:源域語料分類器

      符建輝,王 石,曹存根

      (1.中國科學(xué)院 計(jì)算技術(shù)研究所 智能信息處理實(shí)驗(yàn)室,北京 100190; 2.中國科學(xué)院大學(xué),北京 100190)

      0 引言

      隱喻處理研究是自然語言處理的一個(gè)重要分支。人們越來越清楚地認(rèn)識到隱喻在思維及語言中所處的重要地位。俞士汶甚至認(rèn)為隱喻是自然語言理解必須攻克的難關(guān)[1]。隱喻識別的提升將有助于自然語言處理其他問題識別的提升。例如,在知識獲取領(lǐng)域,如果知道“知識海洋”不是一個(gè)“海洋”而是一個(gè)隱喻名詞,那么就不會錯(cuò)誤地判斷“海洋”是“知識海洋”的下位。又例如,在機(jī)器翻譯中,隱喻名詞“草木皆兵”,在缺少語料情況下很可能會翻譯成“Every bush and tree is an enemy”。如果能夠識別“草木皆兵”是一個(gè)隱喻名詞,將有助于得到正確結(jié)果“Every bush and tree looks like an enemy”。

      認(rèn)知語言學(xué)認(rèn)為:一個(gè)概念隱喻包含兩個(gè)部分,一個(gè)“源域”(source domain)和一個(gè)“目標(biāo)域”(target domain)?!霸从颉蓖ǔJ鞘熘谋容^具體直觀、容易理解的一些概念范疇,而“目標(biāo)域”通常是后來才認(rèn)識的抽象的、不太容易理解的概念范疇[2]。這里沿用“源域”和“目標(biāo)域”的說法,將能夠在句子中作為“源域”出現(xiàn)的詞稱為源域詞,例如“殺手”“大軍”“海洋”等都可以稱為源域詞。

      漢語短語中存在大量的隱喻現(xiàn)象,我們將帶隱喻義的短語稱為隱喻短語。例如表1中有兩種模式的隱喻短語。本文的工作是識別句子中的短語是否是隱喻短語。

      表1 隱喻短語舉例

      我們將隱喻短語的識別看作一個(gè)分類問題,即一個(gè)短語要么是隱喻要么是非隱喻。由于源域詞是一個(gè)不斷發(fā)展的詞匯集,訓(xùn)練語料中很難覆蓋所有源域詞數(shù)據(jù),我們將這種訓(xùn)練集中缺少源域詞數(shù)據(jù)的情況稱為源域詞的數(shù)據(jù)稀疏問題。

      本研究在已有工作的實(shí)驗(yàn)和考察基礎(chǔ)上,應(yīng)對源域詞的數(shù)據(jù)稀疏問題,提出了一種新的隱喻短語識別方法,該方法能夠?qū)⒕垲愃惴ê头诸愃惴ǖ膬?yōu)點(diǎn)相結(jié)合。該方法首先將包含源域詞S的短語進(jìn)行聚類,將聚類的結(jié)果作為分類的一類特征。在分類時(shí),我們同時(shí)也考慮S所處的上下文特征和包含S短語的屬性特征。實(shí)驗(yàn)表明,使用了聚類產(chǎn)生的特征訓(xùn)練出來的分類器,不僅能很好地識別訓(xùn)練語料中存在源域詞數(shù)據(jù)的情況,也能很好地識別訓(xùn)練語料中缺少源域詞數(shù)據(jù)的情況,具有很高的召回率。

      1 相關(guān)工作

      自20世紀(jì)70年代以來,各種隱喻計(jì)算模型陸續(xù)出現(xiàn)。Fass[3]提出了可以處理隱喻、轉(zhuǎn)喻、字面義和反常表達(dá)的隱喻理解模型MET5系統(tǒng)。Martin[4]提出了識別和解釋常規(guī)隱喻的MIDAS系統(tǒng)。Mason[5]利用大規(guī)模語料動態(tài)提取優(yōu)先參數(shù)來識別特定領(lǐng)域的隱喻表達(dá)。Birke和Sarker[6]給出了一個(gè)識別字面義表達(dá)和非字面義表達(dá)的計(jì)算模型——TroFi(Trope Finder)系統(tǒng),解決了動詞的字面義和非字面義用法的識別與分類問題。Gedigian等[7]在WSJ等語料庫和PropBank命題庫以及FrameNet映射標(biāo)注方法的基礎(chǔ)上,利用最大熵模型給出了動詞隱喻的分類器。Shutova[8]提出了一種通過對動詞和名詞的聚類來進(jìn)行隱喻識別的方法。Yosef Ben Shlomo和Mark Last[9]提出了一種基于分類算法的隱喻識別模型。

      在漢語隱喻研究中,王治敏[2,10]采用最大熵模型對形如“N+N”的名詞隱喻進(jìn)行了識別。趙紅艷[11]利用條件隨機(jī)場和最大熵模型并結(jié)合一定的語義信息對隱喻現(xiàn)象進(jìn)行識別。李斌、于麗麗等人[12]將最大熵模型和條件隨機(jī)場模型相結(jié)合解決了“像”的明喻計(jì)算問題。黃孝喜[13]提出了一種基于樹模式匹配的隱喻識別算法。

      目前隱喻知識識別的研究多采用分類器的方法,并取得了許多進(jìn)展。但基于分類的方法存在源域詞的數(shù)據(jù)稀疏問題,即:當(dāng)訓(xùn)練語料中缺少源域詞數(shù)據(jù)時(shí),基于分類的方法便會失敗。例如,很難利用源域詞“殺手”的上下文特征來識別包含源域詞“大軍”的短語是否是隱喻。而隱喻是一個(gè)不斷發(fā)展并時(shí)刻新增的現(xiàn)象,源域詞也會層出不窮,我們很難構(gòu)建一個(gè)包含所有源域詞的訓(xùn)練集來保證訓(xùn)練的效果。

      針對源域詞的數(shù)據(jù)稀疏問題,我們試圖讓包含同一個(gè)源域詞的短語集合進(jìn)行聚類。希望通過短語自身的相似度比較,隱喻短語和非隱喻短語能夠相互聚成不同的簇。但我們很難判斷聚類后的簇的歸屬(是隱喻短語簇還是非隱喻短語簇)。另外,聚類方法因?yàn)闆]有使用訓(xùn)練集,也很難充分考慮隱喻短語的許多其他的特征。

      本工作的創(chuàng)新之處在于,結(jié)合了基于聚類和分類的兩種識別方法的優(yōu)點(diǎn),設(shè)計(jì)了一套隱喻短語識別方法。我們將包含源域詞S的短語進(jìn)行聚類。通過對聚類后的簇的分析,抽取出聚類特征,并將這些特征作為分類的一類特征。在分類時(shí),我們同時(shí)也考慮S所處的上下文特征和包含S短語的屬性特征。實(shí)驗(yàn)發(fā)現(xiàn),在存在數(shù)據(jù)稀疏的情況下,使用聚類特征的分類結(jié)果無論在正確率上還是在召回率上都得到很大的提高,并得到較好的結(jié)果。因此,利用聚類的方法能夠有效解決隱喻分類識別方法中的數(shù)據(jù)稀疏問題。

      2 漢語隱喻短語的識別

      前期工作中我們已積累1 021個(gè)源域詞,部分示例如表2所示。

      表2 部分源域詞示例

      本文工作是從句子中識別隱喻短語。針對源域詞S,我們從語料中抽取包含S的N+N和A+N形式的短語。要判斷包含S的短語的句子是否是隱喻,只需判斷包含S的短語是否是隱喻短語。我們將隱喻短語的識別看作一個(gè)分類問題。即一個(gè)短語要么是隱喻,要么是非隱喻。我們利用搜索引擎對每個(gè)源域詞進(jìn)行檢索,從包含源域詞的句子中抽取出包含源域詞且形式是N+N或A+N的短語,這些短語以及短語所處的句子構(gòu)成本文工作的實(shí)驗(yàn)語料。

      本文方法分以下兩個(gè)步驟:

      步驟1隱喻短語的聚類識別

      如圖1所示,對于語料中的每一個(gè)源域詞i,將包含源域詞i的短語Pi1,……,Pin進(jìn)行聚類。聚類后得到簇Ci1,……,Cim。再從這些簇中抽取每一個(gè)短語P的聚類特征。

      圖1 漢語短語特征的生成流程圖

      步驟2隱喻短語的分類識別

      將步驟1生成的聚類特征結(jié)合其他特征組成Pij最終的特征向量Fi1……Fin。再將所有漢語短語生成的特征向量利用分類器進(jìn)行訓(xùn)練和分類。

      2.1 隱喻短語的聚類識別

      通過對漢語隱喻短語的分析發(fā)現(xiàn),一個(gè)隱喻短語的最后一個(gè)詞通常為該短語的源域詞。例如,“心靈<沙漠>”“知識<海洋>”“就業(yè)<大軍>”等。當(dāng)然也有出現(xiàn)在短語首部的情況,例如,“<花>樣年華”。我們從語料中抽出了300個(gè)隱喻短語,其中僅有10個(gè)隱喻短語的源域詞是出現(xiàn)在前面。本文重點(diǎn)考查源域詞出現(xiàn)在隱喻短語的末尾的情況。下面我們用源域詞“大軍”為例來說明本方法的思想?!皠⑧嚧筌姟辈皇请[喻,因?yàn)椤皠⑧嚧筌姟钡纳衔皇恰按筌姟保M(jìn)行軍事戰(zhàn)斗的部隊(duì)。而“就業(yè)大軍”并不是真正意義上的 “大軍”,它實(shí)際指就業(yè)人員像大軍一樣擁擠。在語料中考查“劉鄧大軍”和“蒙古大軍”發(fā)現(xiàn),如果源域詞以字面義出現(xiàn)在短語中,其上下文經(jīng)常和“戰(zhàn)爭”“敵人”“廝殺”等字面義相關(guān)詞出現(xiàn)。而作為隱喻義時(shí),往往不會出現(xiàn)這些相關(guān)上下文或只出現(xiàn)少量字面義相關(guān)詞,例如,

      “36萬‘就業(yè)大軍’今年步入職場,你如何能脫穎而出……?!?/p>

      在上文中更多出現(xiàn)的是和“就業(yè)”相關(guān)的詞匯。也就是說,源域詞在漢語短語中不表現(xiàn)出隱喻義時(shí),該漢語短語常與其字面義相關(guān)詞集共現(xiàn)頻率較高,其上下文存在一定的共性。我們利用搜索引擎抽取擴(kuò)展?jié)h語短語P的上下文信息。將包含源域詞S的短語P利用搜索引擎檢索,抽取搜索引擎前100項(xiàng)檢索到的網(wǎng)頁片斷,這些片斷都是包含檢索項(xiàng)的一兩句話。同時(shí),利用一個(gè)停用詞表將一些詞(如“網(wǎng)頁快照”“圖片”“網(wǎng)頁”等)過濾掉。我們將這100項(xiàng)網(wǎng)頁片斷合成,構(gòu)成一篇文檔D。短語Pi和Pj的相似度用Di和Dj的相似度來表示。在計(jì)算Di和Dj的相似度時(shí),我們采用常用的consine余弦距離來計(jì)算。具體計(jì)算方法如式(1)所示。

      (1)

      基于上面的兩個(gè)漢語短語的相似度計(jì)算,我們采用層次聚類對所有包含源域詞S的短語P進(jìn)行聚類。具體聚類算法如算法1所示。

      算法1:短語的層次聚類算法輸入:D1,D2,…,Di,…,Dj,…Dn;閾值λ輸出:m個(gè)簇C1,…,Cm(1)DoBegin(2) 設(shè)置每個(gè)Di為一個(gè)簇Ci;(3)repeat(4) 計(jì)算每兩個(gè)簇Ci和Cj的距離;DistCi,Cj()=minDi∈Ci,Dj∈CiSimDisDi,Dj(){}(5)找到Dist值最小的Distmin, 假設(shè)Distmin=Dist(Cx,Cy)。 ifDistmin>λ,Cnew=merge(Cx,Cy)。(6) UntilDistmin<λ(7) End

      聚類后,根據(jù)Pi所在簇的信息,我們生成以下關(guān)于Pi的聚類特征:

      (1)Pi所在簇的大??;

      (2)Pi所在簇是否包含源域詞S(在聚類過程中,我們將源域詞S本身也參與聚類);

      (3)Pi所在簇中低頻率短語的比例F1;

      F1=簇中低頻詞數(shù)量/簇大??;

      (4)Pi所在簇中“A+N”短語所占比例F2;F2=“A+N”短語數(shù)量/簇的大小。

      2.2 隱喻短語的分類識別

      在構(gòu)建分類器時(shí),除上面短語聚類后生成的特征外,還考慮兩類特征:短語上下文特征、短語的屬性特征。

      2.2.1短語上下文特征

      源域詞Si的上下文定義為:

      其中,Sent代表源域詞Wi所處的句子。句子Sent是從搜索引擎檢索Si獲得的網(wǎng)頁摘要中抽取,Sent包含Si且Si處在N+N或A+N形式的短語中,同時(shí)還要過濾掉停用詞,本文考慮上下文特征,短語自身特征及說明如表3所示。

      表3 短語自身特征及說明

      2.2.2短語的屬性特征

      屬性規(guī)則是利用源域詞本身的屬性來判斷一個(gè)詞歸屬的一種方法。一般認(rèn)為,在上下位關(guān)系中,下位共享著上位的大部分的屬性。隱喻詞匯因?yàn)椴皇窃从蛟~的下位,所以其并不具有或者很少具有源域詞本身的屬性。例如,“沙漠”的屬性有“面積”“溫度”等?!叭龉笊衬笔恰吧衬钡南挛?,將“撒哈拉大沙漠”和沙漠的屬性詞綁在一起,并利用搜索引擎檢索。我們的搜索串是:“撒哈拉大沙漠的面積”“撒哈拉大沙漠的溫度”,檢索出來的詞頻分別是1 030條和647條?!皭矍樯衬笔顷P(guān)于“沙漠”的一個(gè)隱喻詞,并不具備“面積”“溫度”這些屬性。我們用查詢串“愛情沙漠的面積”“愛情沙漠的溫度”來進(jìn)行查詢,所得結(jié)果都為0。

      通過已有的工作,我們積累了大量的屬性詞和屬性值詞[14-15],對于包含源域詞S的短語p,利用已有的源域詞S的屬性詞或?qū)傩灾翟~c構(gòu)造兩種查詢串:“p的c”和“p的*c”,再利用搜索引擎檢索,并設(shè)定閾值T,如果檢索到的記錄條數(shù)高于該閾值,就認(rèn)為p具備屬性c。表4給出了源域詞及其屬性相關(guān)詞集示例。

      表4 源域詞及其屬性相關(guān)詞集示例

      續(xù)表

      實(shí)驗(yàn)證明,當(dāng)T取75時(shí),結(jié)果最好,如式(2)所示。

      (2)

      當(dāng)f(ci,p)=1時(shí),表示短語p具備屬性ci。我們的屬性特征表示如下:

      f表示短語p具備源域詞S屬性的程度,num(c)表示源域詞S的屬性及屬性值詞的大小。num(c)=0時(shí)表示無法獲取源域詞S的屬性詞或?qū)傩灾翟~,此時(shí)無法獲知p具備S屬性的程度,所以用f=-1來代替。

      從表4可看出,有些源域詞本身很難從語料中自動獲取屬性詞或?qū)傩灾翟~。這些詞一般是一些帶在強(qiáng)烈隱喻義的詞匯,它們在句子中更多地以隱喻出現(xiàn),而其字面義出現(xiàn)的情況反而很少。我們將無法獲取屬性或?qū)傩灾翟~也作為分類特征的一種。即,如果一個(gè)源域詞S,無法抽取其屬性詞或?qū)傩灾翟~,很有可能這個(gè)詞在語料中傾向于作為隱喻出現(xiàn)。

      2.2.3分類器選擇及分類分法

      2.2.3.1分類器的選擇

      在分類器的選擇上,我們采用以下分類器:Na?ve Bayes、CRF、最大熵和SVM(高斯核函數(shù))。同時(shí)我們對每種分類器都使用AdaBoost算法進(jìn)行迭代提升。

      2.2.3.2分類預(yù)處理

      在分類之前,需要遍歷每個(gè)源域詞S,將包含S的短語進(jìn)行聚類,并抽取聚類特征。此時(shí)我們還需要判斷包含S的短語數(shù)量是否足夠多。當(dāng)短語數(shù)量超過10時(shí)才考慮使用聚類來得到短語的上下文共性特征。因?yàn)閷?shí)驗(yàn)發(fā)現(xiàn),當(dāng)數(shù)量小于10個(gè)時(shí),聚類的結(jié)果并不理想。

      2.2.3.3分類后處理

      為充分利用聚類出來的簇的信息,針對源域詞S的短語集合,我們循環(huán)對每一個(gè)短語i進(jìn)行分類判斷是否是隱喻之后,再利用簇的信息再次進(jìn)行結(jié)果的校正,具體校正規(guī)則如下:當(dāng)短語i所在簇的元素?cái)?shù)量大于1,并且簇中非短語個(gè)數(shù)大于短語個(gè)數(shù)時(shí),認(rèn)為短語i的歸屬為非隱喻。即,默認(rèn)為聚類后的簇中元素,或者都為隱喻,或者都為非隱喻。

      3 實(shí)驗(yàn)與結(jié)果

      3.1 短語聚類結(jié)果及分析

      通過以前的工作,我們已積累源域詞1 021個(gè),從句子中抽取隱喻短語10 023個(gè),非隱喻短語40 097個(gè)。具體源域詞的積累工作如下:

      (1) 從三千萬名詞短語中將最后一個(gè)詞抽取出來,得到30 056個(gè)尾詞;

      (2) 人工從30 056個(gè)尾詞中抽取可能的源域詞,具體利用百度搜索引擎檢索候選源域詞,查看是否能發(fā)現(xiàn)隱喻短語,如果存在隱喻短語,則說明候選源域詞是源域詞。

      首先針對1 021個(gè)源域詞,對每個(gè)源域詞S,抽取包含S的短語作為實(shí)驗(yàn)語料,然后對包含源域詞S的短語進(jìn)行聚類。源域詞“大軍”的聚類結(jié)果如圖2所示。

      圖2 源域詞“大軍”對應(yīng)語料聚類結(jié)果

      從圖2可看出,當(dāng)源域詞作為本義出現(xiàn)時(shí),其對應(yīng)短語傾向于聚合在一起;當(dāng)源域詞作為隱喻出現(xiàn)時(shí),部分短語也會被聚在一起,這是因?yàn)檫@些隱喻詞在一定程度上共用源域詞的某些屬性導(dǎo)致上下文有一定的相似性。另外,有許多隱喻或非隱喻詞匯被聚散,其中大部分被聚散的是隱喻詞匯。

      我們采用聚類結(jié)果的純度[16]來評價(jià)聚類的效果。其定義如下:給定一個(gè)聚類C和一個(gè)類別A,對于每個(gè)在C中的簇c,我們計(jì)算類分布如式(5)所示。

      (5)

      其中a是A中的一個(gè)類,f(c,a)是簇c中元素在類a中的個(gè)數(shù)。*為通配符。

      簇c的熵的計(jì)算如式(6)所示。

      (6)

      純度計(jì)算如式(7)所示。

      另外,有些簇中短語個(gè)數(shù)非常少,常有出現(xiàn)個(gè)數(shù)為1的情況,這種簇?zé)o實(shí)際意義,故不加入純度計(jì)算。本實(shí)驗(yàn)只考慮簇中元素個(gè)數(shù)大于5的情況,簡稱這種元素個(gè)數(shù)大于5的簇為大簇。否則就為小簇。部分源域詞聚類結(jié)果如表5所示。

      表5 部分源域詞聚類結(jié)果

      表5統(tǒng)計(jì)所有參與聚類的源域詞,其平均E(C)=0.87。從這個(gè)值來看,聚類出來的簇的純度是非常高的。也即,聚類的簇中的元素一般是隱喻短語,或者是非隱喻短語。另外,也有許多非隱喻短語沒有被聚成簇,分析影響聚類效果的原因如下:

      (1) 有時(shí)短語本身就含有多個(gè)義項(xiàng),比如“馬路殺手”,既可以指某一種對馬路破壞很大的東西,也可以指某一類專門在馬路上殺人的罪犯。這兩種意思都可能在語料中出現(xiàn)。

      (2) 有些短語在語料中并不表現(xiàn)出詞本身的意思,而常為一些公司的名稱。即使是非隱喻術(shù)語也如此。比如,“東方海洋”,搜索前60個(gè)網(wǎng)頁中,全部都嵌在一個(gè)公司名中。

      (3) 聚類的效果與算法本身有關(guān),因?yàn)閷哟尉垲惐旧淼牟豢赡嫘詫?dǎo)致獲得結(jié)果并非一定是最優(yōu)的。

      3.2 短語分類結(jié)果及分析

      (1) 訓(xùn)練集和測試集的構(gòu)造

      為了測試訓(xùn)練出來的分類器對未在訓(xùn)練集中的源域詞也有效果,我們將已有源域詞分為兩部分,一部分源域詞及其短語作為訓(xùn)練集;另一部分源域詞及其短語作為測試集。這樣就保證了測試集中的源域詞沒有在訓(xùn)練集中出現(xiàn)。

      同樣,我們也測試源域詞在訓(xùn)練集中出現(xiàn)的情況。我們將在訓(xùn)練集中的源域詞的部分短語抽取出來作為測試集。在訓(xùn)練時(shí),我們都采用十折交叉驗(yàn)證。

      (2) 分類器選擇

      采用精度P(precision)、召回率R(recall)以及F值(F-measure)來評價(jià)我們的最終結(jié)果。在考慮上下文特征、聚類特征、屬性特征的情況下,使用不同分類算法所得結(jié)果如表6所示。

      表6 不同分類算法結(jié)果

      通過表6中數(shù)據(jù)發(fā)現(xiàn)SVM在這些特征下效果表現(xiàn)最好。

      (3) 不同特征組合下的實(shí)驗(yàn)結(jié)果比較

      下面我們將使用SVM繼續(xù)考察各分類特征在分類中的作用。我們設(shè)計(jì)以下分類器。

      SVM分類器a:訓(xùn)練和分類時(shí)只考慮上下文的特征;(不加入聚類過程)

      SVM分類器b:訓(xùn)練和分類時(shí)考慮短語上下文特征和屬性特征;(不加入聚類過程)

      SVM分類器c:訓(xùn)練和分類時(shí)考慮短語上下文特征、屬性特征、聚類特征;(加入聚類過程和屬性特征)

      SVM分類器d:訓(xùn)練和分類時(shí)考慮短語上下文特征、聚類特征;(加入聚類過程)

      各分類器的分類結(jié)果如表7所示。

      表7 源域詞S已出現(xiàn)在訓(xùn)練集中的分類結(jié)果

      通過表7可看出,因?yàn)樵从蛟~S已在訓(xùn)練集中出現(xiàn),在訓(xùn)練集中存在源域詞數(shù)據(jù)的情況下分類器a的效果是不錯(cuò)的。在加入屬性特征之后,分類器b的結(jié)果比分類器a的結(jié)果明顯提高。從分類器a和b可看出:如果能保證源域詞的訓(xùn)練集大小,是可以通過分類器很好的識別隱喻現(xiàn)象。加入聚類特征和屬性特征的分類器c的結(jié)果明顯有所提升。說明聚類特征即使在源域詞充分的情況下也有提升作用。

      表8中考查了源域詞S沒有在訓(xùn)練集出現(xiàn)的情況。分類器a和分類器b因?yàn)槿鄙僭从蛟~信息,導(dǎo)致識別結(jié)果較差。通過加入聚類特征,分類器c的效果明顯提升。因?yàn)榉诸惼鱠沒有考慮屬性特征,所以其結(jié)果比分類器c差。

      表8 源域詞S未出現(xiàn)在訓(xùn)練集中的分類結(jié)果

      4 結(jié)論和下一步工作

      漢語隱喻處理在中文信息處理領(lǐng)域是一個(gè)新的研究方向。本文在對前人的實(shí)驗(yàn)進(jìn)行考察的基礎(chǔ)上,發(fā)現(xiàn)通過分類器來識別隱喻的方法存在嚴(yán)重的數(shù)據(jù)稀疏問題。為應(yīng)對數(shù)據(jù)稀疏問題,本文提出了一種聚類和分類結(jié)合的隱喻短語識別方法。該方法將包含源域詞S的短語進(jìn)行聚類,產(chǎn)生基于源域詞自身的聚類特征。在利用分類器訓(xùn)練時(shí),將聚類特征加入。同時(shí)我們也考慮了上下文特征和屬性特征。在最后的實(shí)驗(yàn)結(jié)果分析部分,我們重點(diǎn)分析了聚類特征所起的作用。實(shí)驗(yàn)表明,使用聚類產(chǎn)生的特征訓(xùn)練出來的分類器,不僅能很好地識別訓(xùn)練語料中存在源域詞數(shù)據(jù)的情況,也能很好的識別訓(xùn)練語料中缺少源域詞數(shù)據(jù)的情況,具有很高的召回率。

      另外,我們分析了目前該方法中仍存在的問題,并認(rèn)為本方法還有很大的提升空間。

      (1) 本方法第一步需要獲取源域詞,源域詞的多少直接關(guān)系到本方法的結(jié)果,而源域詞集合是通過人工進(jìn)行抽取的。該抽取過程耗時(shí)耗力,并且新的源域詞也會隨著語言的發(fā)展不斷增多。所以有必要增加自動獲取源域詞方法。后續(xù)我們將重點(diǎn)在這方面進(jìn)行考察。

      (2) 有些詞本身就有二義性。比如“少女殺手”,該詞既可以表示專殺少女的殺手,也可以表示獲得少女芳心的情場高手。這種詞的存在造成區(qū)分界線不明顯,對結(jié)果帶來一定的影響。另外,在測試集中存在著一些姓名和商標(biāo)名,比如李海洋、趙大軍等這種詞。因?yàn)檫@些詞本身不是隱喻短語,但源域詞在其中又不作為本義出現(xiàn)。所以,用本方法對它們進(jìn)行識別,常得出錯(cuò)誤的結(jié)果。

      (3) 屬性詞作用有限,有些詞匯雖然有某種屬性,但并不一定在語料中和該屬性詞同時(shí)出現(xiàn)。例如,“中國沙漠”雖然具備沙漠的屬性,但“中國沙漠的面積”“中國沙漠的溫度”的檢索結(jié)果都為0。類似這樣的詞匯有很多,例如,“西方大軍”“東方海洋”等。

      以上問題都是我們今后所要研究和解決的重點(diǎn)。

      [1]徐波,孫茂松,靳光瑾.中文信息處理若干重要問題[M],北京:科學(xué)出版社,2003:55-56.

      [2]王治敏.名詞隱喻相似度及推理識別研究[J].中文信息學(xué)報(bào),2008,22(3):37-43.

      [3]Fass D.met*:A method for discriminating metonymy and metaphor by computer[J].Computational Linguistics,1991,17(1):49-90.

      [4]Martin J H.A computational model of metaphor interpretation[M].San Diego,CA,USA:Academic Press Professional Inc,1990.

      [5]Mason Z J.CorMet:A computational,corpus-based conventional metaphor extraction system[J].Computational Linguistics,2004,30(1):23-44.

      [6]Birke J,Sarkar A.A clustering approach for nearly unsupervised recognition of nonliteral language[C]//Proceedings of the European Chapter of the Association for Computational Linguistics.Trento,Italy,2006:329-336.

      [7]Gedigian M,Bryant J,Narayanan S,et al.Catching metaphors[C]//Proceedings of the Third Workshop on Scalable Natural Language Understanding,New York,2006:41-48.

      [8]Shutova E,Korhonen A.Metaphor identification using verb and noun clustering[C]//Proceedings of the 23rd International Conference on Computational Linguistics,Beijing,China,2010:1002-1010.

      [9]Yosef B S,Mark L.MIL:Automatic metaphor identification by statistical learning[C]//Proceedings of the Workshop on Interactions Between Data Mining and Natural Language Processing,Porto,Portugal,2015:19-29.

      [10]王治敏.漢語名詞短語隱喻識別研究[M].北京:北京語言大學(xué)出版社,2010:1-19.

      [11]趙紅艷,曲維光,張芬,等.基于機(jī)器學(xué)習(xí)與語義知識的動詞隱喻識別[J].南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版),2011,11(3):59-64.

      [12]李斌,于麗麗,石民,等.“像”的明喻計(jì)算[J].中文信息學(xué)報(bào),2008,22(6):27-32.

      [13]黃孝喜.隱喻機(jī)器理解的若干關(guān)鍵問題研究[D].杭州:浙江大學(xué)博士學(xué)位論文,2009.

      [14]汪平仄.面向Web語料的概念屬性和屬性值獲取方法研究[D].北京:中國科學(xué)院大學(xué)博士學(xué)位論文,2014.

      [15]汪平仄,曹存根,王石.一種迭代式的概念屬性名稱自動獲取方法[J].中文信息學(xué)報(bào),2014,28(4):58-67.

      [16]Steinbach,M.,G.Karypis,V.Kumar.A Comparison of Document Clustering Techniques[C]//proceedings of KDD Workshop Text Mining,Boston,MA,USA,2000:1-20.

      符建輝(1985—),碩士,工程師,主要研究領(lǐng)域?yàn)橹R獲取、數(shù)據(jù)挖掘。E-mail:fujianhui@ict.ac.cn

      王石(1981—),博士,副研究員,主要研究領(lǐng)域?yàn)橹R的獲取、表示與推理,機(jī)器學(xué)習(xí)。E-mail:wangshi@ict.ac.cn

      曹存根(1964—),博士,研究員,主要研究領(lǐng)域?yàn)榇笠?guī)模知識獲取與管理。E-mail:cgcao@ict.ac.cn

      猜你喜歡
      源域語料分類器
      多源域適應(yīng)方法綜述
      基于參數(shù)字典的多源域自適應(yīng)學(xué)習(xí)算法
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      可遷移測度準(zhǔn)則下的協(xié)變量偏移修正多源集成方法
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
      宁化县| 宁海县| 麻城市| 大连市| 驻马店市| 宁海县| 上思县| 靖江市| 板桥市| 阿瓦提县| 宿迁市| 海林市| 宣恩县| 金川县| 廊坊市| 景德镇市| 内江市| 策勒县| 河北省| 嘉祥县| 许昌市| 安塞县| 阿尔山市| 军事| 镇巴县| 泗洪县| 新巴尔虎右旗| 安义县| 龙南县| 古田县| 桐城市| 鄂托克旗| 社会| 南丰县| 慈溪市| 宜宾市| 泰宁县| 铜梁县| 枣庄市| 邮箱| 松潘县|