• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      語義詞典歸類不當(dāng)現(xiàn)象自動(dòng)發(fā)現(xiàn)

      2011-06-14 02:42:20邱立坤邵艷秋
      中文信息學(xué)報(bào) 2011年1期
      關(guān)鍵詞:正例反例義項(xiàng)

      邱立坤,邵艷秋

      (1. 北京大學(xué) 計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871; 2.北京城市學(xué)院 人工智能研究所,北京 100083)

      1 引言

      現(xiàn)有的語義詞典多數(shù)都是語言學(xué)工作者人工編制而成的,耗費(fèi)了大量的人力和物力,但由于時(shí)間和精力的限制,不可避免的會(huì)存在義項(xiàng)缺失或義項(xiàng)不當(dāng)?shù)膯栴}?!锻x詞詞林》[1](以下簡稱《詞林》)最開始是為了寫作而編撰的,而且由于編制時(shí)間較早,義項(xiàng)設(shè)置的問題就更加嚴(yán)重。即使是像HowNet[2]這樣經(jīng)過十余年時(shí)間編撰而成的詞典,也存在一定義項(xiàng)不當(dāng)?shù)膯栴}。用人工的方式來改進(jìn)現(xiàn)有的語義詞典是一件相當(dāng)困難的工作,從數(shù)萬個(gè)詞語中尋找可能存在的義項(xiàng)缺失或義項(xiàng)不當(dāng)問題就如大海撈針一般困難。一個(gè)比較現(xiàn)實(shí)的方法是使用自動(dòng)計(jì)算方法來輔助發(fā)現(xiàn)缺失義項(xiàng)以及設(shè)置不當(dāng)?shù)牧x項(xiàng)。

      本文工作的基礎(chǔ)是平行周遍原則。陳保亞[3]首次提出用平行周遍原則來區(qū)分詞和短語,之后又在文獻(xiàn)[4-5]中對(duì)此理論作了進(jìn)一步的發(fā)展,認(rèn)為所謂的“平行”指的是被替換的成分具有相同的特征,所謂的“周遍”指的是具有相同特征的成分在同樣的條件下都可以替換。比如,“老李、老張、老劉”符合“老+單音節(jié)姓氏”的規(guī)則,即平行又周遍,所有單音節(jié)姓氏都可以替換;“老虎、老鷹、老鼠”符合“老+單音節(jié)動(dòng)物名”的規(guī)則,平行但不周遍,有許多反例,如“老羊”就不是一個(gè)合法的動(dòng)物名。陳[3]認(rèn)為符合平行周遍規(guī)則的詞語才應(yīng)該收入詞典。本文將平行周遍規(guī)則與平行不周遍規(guī)則統(tǒng)稱為平行規(guī)則,這些規(guī)則在一定程度上反映了漢語詞語構(gòu)詞模式上的規(guī)律性: 平行周遍規(guī)則比較嚴(yán)格,反例少,這一類規(guī)則的數(shù)量也比較少;平行不周遍規(guī)則比較寬松,反例多,這一類規(guī)則的數(shù)量比較多。

      雖然陳保亞[3-5]所提出的平行周遍原則初衷在于區(qū)分詞和短語,但由于種種原因,現(xiàn)有的詞典在收詞時(shí)并沒有遵循這一原則,因此正如董秀芳[6]所述,現(xiàn)有詞典中的詞語既有不符合平行周遍原則的詞語(詞匯詞),也有符合平行周遍原則的詞語(詞法詞)。因此,我們可以通過歸納的方法從詞典中自動(dòng)地發(fā)現(xiàn)大量的平行規(guī)則。

      平行規(guī)則的反例中有許多都是因?yàn)闅w類不當(dāng)所造成的,但也有許多歸類是正確的。如果單純依據(jù)平行規(guī)則的反例來發(fā)現(xiàn)歸類不當(dāng)?shù)默F(xiàn)象,正確率太低;引入兩部詞典進(jìn)行交叉驗(yàn)證,可以明顯地提高正確率。因此本文的基本思路為:

      給定兩部語義詞典,則可以歸納出兩套平行規(guī)則,每一套規(guī)則都有各自的正例和反例;如果一個(gè)詞典中某一規(guī)則的反例同時(shí)是另一個(gè)詞典中的正例,就意味著前一部詞典中的詞語可能屬于歸類不當(dāng)。

      本文剩余部分組織如下: 第2節(jié)簡要敘述相關(guān)工作;第3節(jié)對(duì)平行周遍原則進(jìn)行具體化,分為雙向平行類推和成對(duì)替換類推兩類規(guī)則;第4節(jié)介紹兩類規(guī)則的自動(dòng)獲取方法;第5節(jié)介紹基于兩類平行規(guī)則自動(dòng)發(fā)現(xiàn)語義詞典歸類不當(dāng)現(xiàn)象的算法;第6節(jié)給出本文的實(shí)驗(yàn)結(jié)果;最后是結(jié)論。

      2 相關(guān)工作

      目前專門討論自動(dòng)發(fā)現(xiàn)語義詞典歸類不當(dāng)現(xiàn)象的文章很少,相關(guān)的工作主要集中于漢語未登錄詞語義類標(biāo)注上。

      K.Chen和C.Chen[7]提出了基于原型的模型。對(duì)于兩個(gè)具有相同核心字的詞語,該模型計(jì)算兩個(gè)詞語修飾成分的相似度作為兩個(gè)詞語的語義相似度。他們?cè)谝粋€(gè)包含200個(gè)名詞的集合上進(jìn)行測試,所報(bào)告的精度達(dá)到了81%。

      除了使用形態(tài)分析,Tseng[8]嘗試識(shí)別構(gòu)成詞語的成分之間的形態(tài)句法關(guān)系。在為未登錄詞尋找一個(gè)最相似的詞語時(shí),該方法首先要將形態(tài)句法關(guān)系不同的詞語過濾掉。這一方法的問題在于形態(tài)句法分類本身的難度尚在語義類猜測之上,因此不可避免地在一開始就產(chǎn)生許多的錯(cuò)誤,從而導(dǎo)致最終的結(jié)果過低。這篇文章進(jìn)行語義類猜測的目標(biāo)集合僅包含《詞林》中最上層的12個(gè)大類。此粒度過粗,實(shí)用性不足,其所報(bào)告的精度與Lu[9]相比,也相差甚遠(yuǎn)。

      Lu[9]是目前漢語未登錄詞語義類判斷領(lǐng)域最有代表性的工作。其未登錄詞語義類判斷的方法與其詞類判斷的方法[10]比較類似,包括一個(gè)基于字類關(guān)聯(lián)的統(tǒng)計(jì)模型和一個(gè)基于規(guī)則的模型。其中,基于字類關(guān)聯(lián)的模型主要考慮出現(xiàn)于不同位置上的字與不同語義類之間的關(guān)聯(lián)強(qiáng)度,通過不同的算法來進(jìn)行加權(quán),最終得到一個(gè)較好的語義類判斷模型?;谝?guī)則的模型用于處理在詞典中可以找到結(jié)構(gòu)類似詞語的未登錄詞,這些規(guī)則雖然只能處理少量的未登錄詞,但其正確率較高。兩者結(jié)合可以得到較好的效果(《詞林》第三級(jí)類上F值為61.6%,第二級(jí)類上為69.9%)。

      上述相關(guān)研究表明,在進(jìn)行漢語未登錄詞語義類標(biāo)注時(shí)研究者主要使用成分結(jié)構(gòu)特征,而上下文特征的有效性則有待于進(jìn)一步的討論和驗(yàn)證。本文所使用的平行原則本質(zhì)上也屬于基于成分結(jié)構(gòu)特征來判斷詞語的語義類。

      3 平行周遍原則的具體化

      將平行周遍原則運(yùn)用到未登錄詞語義類標(biāo)注中,首先要對(duì)之進(jìn)行具體化,使之具備可操作性。本文將平行周遍原則具體化為兩種,分別是雙向平行類推規(guī)則與成對(duì)替換類推規(guī)則。

      雙向平行類推的基本思想是: 一批語義類相同的成分{D1,D2…Dn}具有相同的構(gòu)詞能力,它們分別與另一個(gè)成分A構(gòu)成詞語{D1A,D2A…DnA},且C(D1A)=C(D2A)…=C(DnA)。這里,C(DA)表示詞DA的語義類。例如,“保長、盟長、區(qū)長、省長、市長、縣長、鄉(xiāng)長、鄉(xiāng)鎮(zhèn)長、鎮(zhèn)長、州長”這一組詞具有一個(gè)共同字“長”,詞的整體義都屬于官員類,其中的替換成分則都屬于行政區(qū)劃類。

      成對(duì)替換類推的基本思想是: 一對(duì)語義類相同的成分A、B具有相同的構(gòu)詞能力,它們分別與另外一批成分{D1,D2,…,Dn}構(gòu)成一批詞對(duì){(D1A,D1B), (D2A,D2B),…,(DnA,DnB)},且C(D1A)=C(D1B), C(D2A)=C(D2B),…,C(DnA)=C(DnB)。例如,“分店、支店,分隊(duì)、支隊(duì),分隊(duì)長、支隊(duì)長,分行、支行”這四對(duì)詞都有一對(duì)語義類相同的替換成分 “分、支”,每一對(duì)中的兩個(gè)詞語義類也相同。

      4 雙向平行類推規(guī)則和成對(duì)替換類推規(guī)則自動(dòng)抽取

      4.1 雙向平行類推規(guī)則抽取

      設(shè)詞典中存在一個(gè)詞語集合WS={D1A, D2A, …, DnA},WS包含n個(gè)詞語,每個(gè)詞語DiA包含兩個(gè)成分“Di”和“A”,“Di”和“A”都包含一個(gè)或多個(gè)字。如果這n個(gè)詞語的語義類屬于同一個(gè)語義類,即C(D1A)=C(D2A) =… =C(DnA),那么我們稱WS中的詞語整體語義類平行。根據(jù)這個(gè)集合,我們可以推導(dǎo)出一條規(guī)則: 給定一個(gè)未登錄詞Dn+1A,其語義類應(yīng)為C(D1A)。我們稱這種規(guī)則為單向平行規(guī)則,稱Di為替換成分,A為共同成分。單向平行規(guī)則限制較小,因此會(huì)碰到過多的反例。

      通過進(jìn)一步加強(qiáng)限制,可以形成雙向平行類推規(guī)則。設(shè)詞典中存在一個(gè)詞語集合WS={D1A, D2A, …, DnA},WS包含n個(gè)詞語,每個(gè)詞語DiA包含兩個(gè)成分“Di”和“A”,“Di”和“A”都包含一個(gè)或多個(gè)字。如果這n個(gè)詞語的語義類屬于同一個(gè)語義類,即C(D1A)=C(D2A) =… =C(DnA),并且這n個(gè)詞語替換成分的語義類也屬于同一個(gè)語義類,即C(D1)=C(D2) =… =C(Dn),那么我們稱WS中的詞語雙向平行。根據(jù)這個(gè)集合,可以推出一條規(guī)則: 給定一個(gè)未登錄詞Dn+1A,如果C(Dn+1)= C(D1),則其語義類應(yīng)為C(D1A)。此類規(guī)則可稱之為雙向平行類推規(guī)則,雙向平行分別指詞語語義類平行(相同)和替換成分語義類平行(相同)。一個(gè)雙向平行類推規(guī)則的條件可以表示為(A,C(w),C(c))的三元組,其中A為共同成分,C(w)為詞語語義類,C(c)為替換成分語義類。

      對(duì)于一個(gè)限制條件為(A,C(w),C(c))的雙向平行類推規(guī)則Rj,Rj的正例應(yīng)同時(shí)滿足詞語語義類平行條件和成分語義類平行條件;僅滿足成分語義類平行條件而不滿足詞語語義類平行條件的為反例,例如詞語BA滿足成分語義類平行條件,即C(B)=C(c),但C(BA)≠C(w),即不滿足詞語語義類平行條件,因此該詞語為Rj的反例;正例和反例詞語共同構(gòu)成Rj的相關(guān)詞語集合Sj。

      為了評(píng)估規(guī)則的可靠性,應(yīng)設(shè)定兩個(gè)閾值: (1)正例的數(shù)量必須高于一定的閾值,設(shè)為λp;(2)正例在Sj中的比例必須高于一定閾值,設(shè)為λn。

      考慮上述兩個(gè)因素,推導(dǎo)雙向平行類推規(guī)則的算法如下*要推導(dǎo)出所有雙向平行類推規(guī)則,需要遍歷所有可能的共同成分;對(duì)于每個(gè)共同成分對(duì)應(yīng)的詞語集合,需要遍歷所有可能的詞語整體語義類和成分語義類。(以下稱算法1):

      (1) 給定一個(gè)語義詞典T和兩個(gè)閾值λp、λn;

      (2) 獲得所有的構(gòu)詞成分(構(gòu)詞成分應(yīng)該是T中的單字詞);

      (3) 初始化一個(gè)規(guī)則集合RS,置為空;

      (4) 遍歷所有構(gòu)詞成分:

      a) 對(duì)于一個(gè)成分A,以A為共同成分,從T中抽取一個(gè)詞語集合WS={DiA| DiA∈T};

      b) 獲取WS中的替換成分語義類集合和詞語語義類集合,以枚舉的方式遍歷兩個(gè)語義類集合;

      i. 設(shè)當(dāng)前詞語語義類為CM1,替換成分Di語義類為CM2,以(A,CM1,CM2)為限制條件的規(guī)則記為Rj;

      ii. 對(duì)于詞語DiA,如果C(Di)=CM2且C(DiA)=CM1,則DiA為Rj的正例,Rj的正例數(shù)(記為CountPj)加一;如果C(Di)=CM2且C(DiA)≠CM1,則DiA為相應(yīng)規(guī)則的反例,將Rj的反例數(shù)(記為CountNj)加一;

      (5) 遍歷規(guī)則集合RS

      a) 給定規(guī)則Rj∈RS,限制條件為(A,CM1,CM2);

      b) 如果CountPj大于λp并且CountPj/(CountPj+CountNj)大于閾值λn,則可以產(chǎn)生一條雙向平行類推規(guī)則: 給定一個(gè)未登錄詞EA,如果C(E)=CM2,則C(EA)=CM1;否則不產(chǎn)生規(guī)則。

      例如,給定共同成分 “市”和詞典《詞林》,詞語語義類為CM1=Di02,成分語義類為CM2=Cb25,則可找到正例121個(gè),反例30個(gè),正例比例為(121/(121+30))≈0.8。如果閾值λp、λn分別為3、0.5,則可以產(chǎn)生一條規(guī)則: 給定一個(gè)未登錄詞 “B市”,如果C(B)=Cb25,則C(B市)=Di02。

      上面僅僅敘述了共同成分在后的情況,事實(shí)上,共同成分也可在前。兩種情況下推導(dǎo)雙向平行類推規(guī)則的過程是一致的,在此不再贅述。

      4.2 成對(duì)替換類推規(guī)則抽取

      一對(duì)語義類相同的成分A、B具有相同的構(gòu)詞能力,它們分別與另外一批成分CS={D1,D2,…,Dn}構(gòu)成一批詞對(duì)WPS={(D1A, D1B),(D2A,D2B),…,(DnA, DnB)},且C(D1A)=C(D1B), C(D2A) =C(D2B),…,C(DnA)=C(DnB)。根據(jù)這條規(guī)則可以產(chǎn)生更多的新詞語,我們稱這種規(guī)則為成對(duì)替換類推規(guī)則,其中成對(duì)的成分A和B稱為共同成分對(duì),與A和B構(gòu)成詞的成分為替換成分。一個(gè)成對(duì)替換類推規(guī)則的條件可以表示為(A,B,C(A)=C(B),C(DiA)=C(DiB))的三元組,其中A、B為共同成分對(duì),A、B語義類相同(即成分語義類條件),Di為替換成分,詞DiA和DiB語義類相同(即詞語語義類條件)。

      對(duì)于一個(gè)限制條件為(A,B,C(A)=C(B),C(DiA)=C(DiB))的規(guī)則Rj,Rj的正例應(yīng)同時(shí)滿足詞語語義類條件和成分語義類條件;僅滿足成分語義類條件而不滿足詞語語義類條件的為反例,例如詞對(duì)(DiA,DiB)滿足成分語義類條件,即C(A)=C(B),但C(DiA)≠C(DiB),即不滿足詞語語義類條件,因此該詞語為Rj的反例;正例和反例詞語共同構(gòu)成Rj的相關(guān)詞語集合Sj。

      為了評(píng)估規(guī)則的可靠性,同樣應(yīng)設(shè)定兩個(gè)閾值: (1)正例的數(shù)量必須高于一定的閾值,設(shè)為λp;(2)正例Sj中的比例必須高于一定閾值,設(shè)為λn。

      推導(dǎo)成對(duì)替換類推規(guī)則的算法如下*要推導(dǎo)出所有雙向平行類推規(guī)則,需要遍歷所有可能的共同成分;對(duì)于每個(gè)共同成分對(duì)應(yīng)的詞語集合,需要遍歷所有可能的詞語整體語義類和成分語義類。(以下稱算法2):

      給定一個(gè)語義詞典T和兩個(gè)閾值λp、λn;

      (1) 找到所有的語義類相同的構(gòu)詞成分對(duì)(構(gòu)詞成分應(yīng)該是T中的單字詞);

      (2) 初始化一個(gè)規(guī)則集合RS,置為空;

      (3) 遍歷所有成分對(duì):

      a) 選擇一個(gè)語義類相同的成分對(duì)A、B(A和B通常是兩個(gè)字),設(shè)兩個(gè)成分分別與另一個(gè)成分構(gòu)成的詞對(duì)的集合為WPS={(D1A, D1B),(D2A,D2B),…,(DnA, DnB)}, 設(shè)以(A,B,C(A)=C(B),C(DiA)=C(DiB))為限制條件的規(guī)則Rj;

      i. 遍歷WPS的詞對(duì)WPi=(DiA,DiB);

      ii. 如果C(DiA)=C(DiB),則WPi屬于Rj的一個(gè)正例,如果C(DiA)(C(DiB),則WPi屬于Rj的一個(gè)反例,據(jù)此更新Rj的正例數(shù)CountPj和反例數(shù)CountNj;

      b) 如果Rj的CountPj大于λp,且CountPj/(CountPj+CountNj)大于閾值λn,則可以推導(dǎo)出一條以(A,B,C(A)=C(B),C(DiA)=C(DiB))為限制條件的成對(duì)替換類推規(guī)則: 對(duì)于未登錄詞w=DiA,如果T中存在詞語DiB,則C(DiA)=C(DiB);對(duì)于未登錄詞w=DiB,如果T中存在詞語DiA,則C(DiB)=C(DiA)。

      例如,給定具有相同語義類的替換成分對(duì)“部—局”和詞典《詞林》,閾值λn為0.5,在詞林中找到31對(duì)正例,14對(duì)反例,正例比例為31/(31+14)≈0.7,大于λn,因此可以產(chǎn)生一條成對(duì)替換規(guī)則: 對(duì)于未登錄詞w=E部,如果詞林中存在詞語E局,則C(E部)=C(E局);對(duì)于未登錄詞w=E局,如果詞林中存在詞語E部,則C(E局)=C(E部)。

      上面僅僅敘述了替換成分對(duì)在后的情況,事實(shí)上,替換成分對(duì)也可在前。兩種情況下推導(dǎo)成對(duì)替換類推規(guī)則的過程是一致的,在此不再贅述。

      5 語義詞典歸類不當(dāng)現(xiàn)象自動(dòng)發(fā)現(xiàn)

      5.1 詞典歸類結(jié)果類別劃分

      在以人工方式對(duì)詞典歸類結(jié)果進(jìn)行分類時(shí),我們將之分為四類,分別是: 義項(xiàng)缺失,義項(xiàng)不當(dāng),其他不當(dāng),正確。六種類別中,義項(xiàng)缺失、義項(xiàng)不當(dāng)、其他不當(dāng)統(tǒng)稱為歸類不當(dāng)。

      所謂義項(xiàng)缺失指的是: 對(duì)于詞語w,詞典中已經(jīng)為之標(biāo)注了一個(gè)正確的義項(xiàng)S1,自動(dòng)計(jì)算出的義項(xiàng)S2與S1不同,但也是一個(gè)正確的義項(xiàng),因此,我們可以認(rèn)為詞典缺少了義項(xiàng)S2。例如,在《詞林》中,“本鄉(xiāng)”應(yīng)該有一個(gè)義項(xiàng)與“本村、本市”同類,但在《詞林》中沒有這個(gè)義項(xiàng),這就屬于義項(xiàng)缺失。

      所謂義項(xiàng)不當(dāng)指的是: 對(duì)于詞語w,詞典中已經(jīng)為之標(biāo)注了一個(gè)義項(xiàng)S1,自動(dòng)計(jì)算出的義項(xiàng)S2與S1不同,兩個(gè)義項(xiàng)相比,S2更恰當(dāng),因此,將詞語w標(biāo)注義項(xiàng)S1屬于義項(xiàng)不當(dāng)。例如,在《詞林》中,“專注”與“注意、留意、經(jīng)意、在意、小心、留心”同類,但實(shí)際上 “專注”與“專心、專心致志、全神貫注”同類要更恰當(dāng)一些,因此,《詞林》對(duì)“專注”的標(biāo)注就屬于義項(xiàng)不當(dāng)。

      給定詞語w,如果自動(dòng)標(biāo)注結(jié)果錯(cuò)誤,而這個(gè)錯(cuò)誤原因是因?yàn)樵~典對(duì)w的一個(gè)同義詞或近義詞w1標(biāo)注錯(cuò)誤造成的,我們稱之為其他不當(dāng)。例如,在《詞林》中“跳水”被歸入體育運(yùn)動(dòng)類,但是類似的“跳高、跳遠(yuǎn)”卻沒有體育運(yùn)動(dòng)類的義項(xiàng)。這一類數(shù)量較少。

      所謂正確指的是: 詞典標(biāo)注結(jié)果正確,自動(dòng)標(biāo)注結(jié)果錯(cuò)誤。這一類體現(xiàn)了不同語義詞典在分類標(biāo)準(zhǔn)上的差異性,在一部詞典中歸入同一類的詞語,在另一部詞典中卻屬于不同的類別。比如HowNet中的human類,在《詞林》中則被分為許多類。又如,在HowNet中有CatchUp這一類,“補(bǔ)課、補(bǔ)交”都屬于這一類,但是在《詞林》中“補(bǔ)課”與“聽課、講課”在一類,與“補(bǔ)交”相隔甚遠(yuǎn)。

      5.2 語義詞典歸類不當(dāng)現(xiàn)象自動(dòng)發(fā)現(xiàn)

      每一條雙向平行類推規(guī)則和成對(duì)替換類推規(guī)則都會(huì)有一些正例和一些反例。在這些規(guī)則及對(duì)應(yīng)的正例和反例基礎(chǔ)上,我們給出用于發(fā)現(xiàn)詞典中可能的缺失義項(xiàng)和不當(dāng)義項(xiàng)的算法。

      基于雙向平行類推規(guī)則的算法如下:

      給定兩個(gè)語義詞典T1和T2,分別為待處理詞典(比如《詞林》)與參照詞典(比如HowNet)

      (1) 從T1中根據(jù)算法1抽取雙向平行類推規(guī)則,分別給出相應(yīng)的正例和反例;

      (2) 逐一處理每一條雙向平行類推規(guī)則,設(shè)為Rulei,設(shè)其正例集合為{PE1,…,PEn},反例集合為{NE1,…,NEm};

      a) 逐一處理反例集合中的每一個(gè)詞語NEj,判斷在T2中NEj與正例集合中的任一詞語是否具有相同的語義類

      i. 如果是,則標(biāo)記為“歸類不當(dāng)”;

      ii. 如果否,則標(biāo)記為“正確”。

      基于成對(duì)替換類推規(guī)則的算法如下:

      給定兩個(gè)語義詞典T1和T2,分別為待處理詞典(比如《詞林》)與參照詞典(比如HowNet)

      (1) 從T1中根據(jù)算法2抽取成對(duì)替換類推規(guī)則,分別給出相應(yīng)的正例和反例;

      (2) 逐一處理每一條成對(duì)替換類推規(guī)則,設(shè)為Rulei,設(shè)其正例集合為{PE11、PE12,…,PEn1、PEn2},反例集合為{NE11、NE12,…,NEm1、NEm2}

      a) 逐一處理反例集合中的每一對(duì)詞語NEj1、NEj2,判斷在參照詞典中NEj1、NEj2是否具有相同的語義類

      i. 如果是,則標(biāo)記為“歸類不當(dāng)”;

      ii. 如果否,則標(biāo)記為“正確”。

      6 實(shí)驗(yàn)及其分析

      本文的實(shí)驗(yàn)以哈爾濱工業(yè)大學(xué)《同義詞詞林?jǐn)U展版》為測試詞典,以董振東先生HowNet為參照詞典,從成對(duì)替換類推規(guī)則的反例中總共找到1 677對(duì)可能存在缺失義項(xiàng)或不當(dāng)義項(xiàng)的情況。本文分析了其中的100對(duì)反例(取按拼音升序排列最前面的100對(duì)),其中屬于義項(xiàng)缺失的10對(duì),屬于義項(xiàng)不當(dāng)?shù)?2對(duì),總計(jì)存在義項(xiàng)缺失和義項(xiàng)不當(dāng)?shù)恼?2%(如表1所示)。示例詳見表2。其中,“前詞”和“后詞”分別指成對(duì)詞語中的前一個(gè)詞和后一個(gè)詞,“人工判斷錯(cuò)誤類型”指人工對(duì)錯(cuò)誤進(jìn)行判斷后所給出的分類結(jié)果,“位置”指成對(duì)詞語中存在問題的具體詞語。例如“挨打、挨斗”這一對(duì)詞語是成對(duì)替換類推規(guī)則的一個(gè)反例,即在測試詞典中兩個(gè)詞不同類,但在參照詞典中兩個(gè)詞語同類,通過分析發(fā)現(xiàn),這一問題是由于《詞林》中對(duì)后詞“挨斗”歸類不當(dāng)造成的,因此“人工判斷錯(cuò)誤類型”為“不當(dāng)”。

      表1 兩種歸類不當(dāng)現(xiàn)象自動(dòng)發(fā)現(xiàn)算法結(jié)果

      表2 基于成對(duì)替換類推規(guī)則的歸類不當(dāng)現(xiàn)象自動(dòng)發(fā)現(xiàn)算法結(jié)果分析示例

      以《詞林》為測試詞典,HowNet為參照詞典,從雙向平行類推規(guī)則的反例中總共找到570個(gè)詞語可能存在缺失義項(xiàng)或不當(dāng)義項(xiàng)的情況。本文分析了其中的100個(gè)反例(取按拼音升序排列最前面的100個(gè)),其中屬于義項(xiàng)缺失的8個(gè),屬于義項(xiàng)不當(dāng)?shù)?7個(gè),屬于其他不當(dāng)?shù)?個(gè),總計(jì)存在義項(xiàng)缺失或不當(dāng)?shù)恼?0%(如表1所示)。示例詳見表3。其中“反例詞語”指待分析的反例中的詞語,“人工判斷錯(cuò)誤類型”指人工對(duì)錯(cuò)誤進(jìn)行判斷后所給出的分類結(jié)果,“HowNet中的同類詞語”指依據(jù)參照詞典判斷正例中應(yīng)當(dāng)與當(dāng)前反例詞語同類的詞語。例如在《詞林》中“白白”這個(gè)詞語是雙向平行類推規(guī)則的反例,該規(guī)則的正例中包括詞語“白皚皚”;在HowNet中“白白”與“白皚皚”屬于同一類。分析之后發(fā)現(xiàn)在《詞林》中“白白”缺少了表示顏色的義項(xiàng),因此“人工判斷錯(cuò)誤類型”為“缺失”。

      表3 基于雙向平行類推規(guī)則的歸類不當(dāng)現(xiàn)象自動(dòng)發(fā)現(xiàn)算法結(jié)果分析示例

      7 結(jié)論

      本文的實(shí)驗(yàn)初步證明了本文提出的方法在語義詞典歸類不當(dāng)現(xiàn)象自動(dòng)發(fā)現(xiàn)上的有效性。將歸類不當(dāng)現(xiàn)象自動(dòng)發(fā)現(xiàn)算法同人工校對(duì)結(jié)合起來,可以將人工檢查的目標(biāo)從8萬量級(jí)降低到千量級(jí),從而可以節(jié)省大量人工。

      此外,根據(jù)目前初步的試驗(yàn),基于上下文計(jì)算詞語相似度的方法應(yīng)該也可以應(yīng)用于歸類不當(dāng)現(xiàn)象的錯(cuò)誤發(fā)現(xiàn)之中,我們將在另外一篇文章中來討論相關(guān)的問題。

      致謝

      本文在實(shí)驗(yàn)中使用了哈爾濱工業(yè)大學(xué)信息檢索研究中心的《同義詞詞林?jǐn)U展版》和董振東先生的HowNet,特此致謝。

      [1] 梅家駒,竺一鳴,高蘊(yùn)琦,等.同義詞詞林[M].上海: 上海辭書出版社, 1983.

      [2] D. Dong and Q. Dong. HowNet And the Computation of Meaning [M]. River Edge, NJ, USA: World Scientific Publishing Co., 2006.

      [3] 陳保亞.20世紀(jì)中國語言學(xué)方法論[M].濟(jì)南: 山東教育出版社,1999.

      [4] 陳保亞.再論平行周遍原則和不規(guī)則字組的判定[J].漢語學(xué)習(xí), 2005,(1):9-13.

      [5] 陳保亞.論平行周遍原則與規(guī)則語素組的判定[J].中國語文,2006,(2): 99-108.

      [6] 董秀芳.漢語的詞庫與詞法[M].北京: 北京大學(xué)出版社,2004.

      [7] K. Chen and C. Chen. 2000. Automatic semantic classification for Chinese unknown compound nouns [C]//Proceedings of the 18th International Conference on Computational Linguistics. Morristown, NJ, USA: Association for Computational Linguistics, 2000: 173-179.

      [8] H. Tseng. Semantic classification of Chinese unknown words [C]//Proceedings of ACL-2003 Student Research Workshop. Morristown, NJ, USA: Association for Computational Linguistics, 2003: 72-79.

      [9] X. Lu. Hybrid Models for Semantic Classification of Chinese Unknown Words [C]//Proceedings of North American Chapter of the Association for Computational Linguistics - Human Language Technologies 2007 Conference. Rochester, NY, USA: Association for Computational Linguistics, 2007: 188-195.

      [10] X. Lu. Hybrid Methods for POS Guessing of Chinese Unknown Words [C]//Proceedings of the 43th Annual Meeting of Association for Computational Linguistics Student Research Workshop. Morristown, NJ, USA: Association for Computational Linguistics, 2005: 1-6.

      猜你喜歡
      正例反例義項(xiàng)
      小學(xué)生舉例表現(xiàn)與概念理解的相關(guān)性研究
      幾個(gè)存在反例的數(shù)學(xué)猜想
      基于概念形成的教學(xué)研究
      小心兩用成語中的冷義項(xiàng)
      活用反例擴(kuò)大教學(xué)成果
      利用學(xué)具構(gòu)造一道幾何反例圖形
      高中數(shù)學(xué)概率教學(xué)中的誤區(qū)與應(yīng)對(duì)策略分析
      兩用成語中的冷義項(xiàng)
      知識(shí)窗(2015年1期)2015-05-14 09:08:17
      “絕不”與“決不”的區(qū)別
      對(duì)稱不等式的不對(duì)稱
      闻喜县| 石阡县| 渭源县| 买车| 丁青县| 遂昌县| 长顺县| 洛阳市| 石狮市| 潜江市| 洪雅县| 隆德县| 昌邑市| 龙海市| 建宁县| 当雄县| 昭平县| 汤阴县| 三河市| 东山县| 二连浩特市| 松江区| 本溪| 浠水县| 惠来县| 句容市| 桂平市| 阿拉善右旗| 刚察县| 临夏市| 昂仁县| 东乌珠穆沁旗| 根河市| 德化县| 兴国县| 巧家县| 尼玛县| 鸡西市| 东阿县| 乌拉特前旗| 台中市|