摘要多義詞詞典義項的可區(qū)分度是指,人們根據(jù)詞典提供的信息在語料中對多義詞義項進行辨析的難度。文章探討如何度量多義詞可區(qū)分度。以往對這個問題的研究主要使用兩種方法: 基于義類體系的方法和基于機器學(xué)習(xí)的詞義消歧方法。文章提出利用人工標(biāo)注詞典義項,然后對標(biāo)注結(jié)果計算標(biāo)注者一致性(interannotators agreement)的方法,從而計算多義詞義項可區(qū)分度?;趯追N方法的討論和對比,文章發(fā)現(xiàn),通過計算人工標(biāo)注結(jié)果一致性的方法較為有效、直觀和省力。文章認(rèn)為,“多義詞詞典義項可分區(qū)度”是利用人對多義詞辨析的結(jié)果,對詞典義項的評價,并不必然反映詞典釋義的好壞,它應(yīng)該被視為一類參考數(shù)據(jù),為詞典編纂提供指示。
關(guān)鍵詞多義詞義項可區(qū)分度標(biāo)注一致性詞義消歧
一、 多義詞詞典義項的可區(qū)分度
在使用詞典釋義進行多義詞辨析的過程中,多義詞義項區(qū)別的難易程度是不同的,而這種難易程度不一定與詞典釋義有關(guān)。有的多義詞義項比較難區(qū)分。如“包圍”有兩個義項[1]:
(1) 包圍1四面圍住: 亭子被茂密的松林包圍著。
包圍2正面進攻的同時,向敵人的翼側(cè)和后方進攻。
就詞典釋義來看,“包圍”的兩個義項不難區(qū)分。但在我們的實驗中(將于下文第四節(jié)討論),“包圍”的詞典義項可區(qū)分度僅為0.38。
又如,“暴雨”有兩個義項:
(2) 暴雨1大而急的雨。
暴雨2氣象學(xué)上指1小時內(nèi)雨量在16毫米以上,或24小時內(nèi)雨量在50毫米以上的雨。
從詞典釋義上來看,“氣象學(xué)上指1小時內(nèi)雨量在16毫米以上,或24小時內(nèi)雨量在50毫米以上的雨”應(yīng)該是一種“大而急的雨”,難以區(qū)分。在我們的實驗中,“暴雨”的可區(qū)分度為0.86。
我們把這種區(qū)別多義詞詞典義項的難易程度稱為“可區(qū)分度”。從詞義關(guān)系的角度看,多義詞義項可區(qū)分度體現(xiàn)了義項在語義上的“重合”程度(肖航2010),它是一種對詞義關(guān)系的描寫。盡管各家詞典在多義詞義項分立的標(biāo)準(zhǔn)和釋義方法上多有不同,但是沒有一部詞典能夠做到所有多義詞都有等同的可區(qū)分度。這是因為,詞典釋義是“語言輸入”,而可區(qū)分度是對多義詞辨析結(jié)果——“語言輸出”——的評價。從學(xué)習(xí)多義詞詞典釋義到使用它在具體上下文中辨析詞義的過程來看,從詞典釋義到義項可區(qū)分度過程如下:
1) 詞典對多義詞定義;
2) 用戶學(xué)習(xí)詞典釋義,掌握多義詞義項區(qū)別;
3) 在語料中進行多義詞辨析;
4) 對辨析結(jié)果進行評價;
5) 得到義項可區(qū)分度。
根據(jù)上面的過程描述,可以發(fā)現(xiàn),一方面,義項可區(qū)分度不是對多義詞詞典釋義的直接評價,它從義項辨析結(jié)果中獲得,反映詞典釋義對多義詞辨析的有效性,即,人們學(xué)習(xí)了詞典釋義后,可以使用它有效地區(qū)分多義詞義項;另一方面,作為“輸出”的可區(qū)分度直接受到詞典釋義的影響,并反映詞典釋義可能存在的問題,為詞典編纂提供參考性指示。義項的可區(qū)分度小,意味著人們對義項的區(qū)分有困難,詞典編纂者可以對該多義詞的釋義進行檢視。在積累了一些多義詞義項可區(qū)分度數(shù)據(jù)后,詞典編纂者可進一步對義項分立的原則和依據(jù)進行探討。
我們認(rèn)為,義項可區(qū)分度的形式應(yīng)該是一個有限范圍內(nèi)的數(shù)值,所以無法通過理論探討獲得,必須在實證研究(empirical study)框架中,通過某種方法計算得到。
本文將討論計算多義詞詞典義項可區(qū)分度的方法?,F(xiàn)有的計算方法基本可以視為是對義項可區(qū)分度的簡介描寫。我們提出通過計算詞義標(biāo)注任務(wù)中的標(biāo)注者一致性來估計義項的可區(qū)分度。本文內(nèi)容安排如下: 第一節(jié),提出我們對義項可區(qū)分度的定義;第二節(jié),討論已有的計算義項可區(qū)分度的方法,指出這些方法的缺陷;第三節(jié),我們提出使用標(biāo)注一致性估計可區(qū)分度;第四節(jié),我們簡單對比機器學(xué)習(xí)方法和標(biāo)注者一致性方法的相關(guān)性;最后是結(jié)論和討論。
二、 計算義項可區(qū)分度的方法
計算義項可區(qū)分度,是要將可區(qū)分度以數(shù)值形式量化地表示,使得“可區(qū)分度”這一概念被直觀地表示出來。詞典義項是書面語構(gòu)成的句子,無法被直接計算,所以首先需要將義項轉(zhuǎn)換為可計算的表示方式。表示方式有兩種,一種是將義項映射到一個詞義分類體系中,然后通過計算義項在義類體系中的距離,以此代表可區(qū)分度;另一種是在大規(guī)模語料庫中抽取義項的語言學(xué)特征,使用機器學(xué)習(xí)算法進行詞義自動消歧(word sense disambiguation,以下簡稱WSD),用WSD的結(jié)果表示義項可區(qū)分度。這兩種方法都需要比較大規(guī)模的語言資源,且各有利弊。
(一) 基于義類體系的方法
詞的義類體系以詞義的上下位關(guān)系為主線,將詞義以義項為單位組織成樹狀結(jié)構(gòu)。義類體系由根節(jié)點、中間節(jié)點、葉子節(jié)點和詞義集合組成。根節(jié)點是義類體系的開頭,衍生出若干下位節(jié)點(子節(jié)點);中間節(jié)點位于根節(jié)點和葉子節(jié)點之間,每個中間節(jié)點衍生自一個上位節(jié)點(父節(jié)點),并衍生出若干個下位節(jié)點;葉子節(jié)點是處于最下方的節(jié)點,每一個葉子節(jié)點衍生自一個上位節(jié)點,且不再衍生出下位節(jié)點;每個節(jié)點代表一個義類,每個義類對應(yīng)一個詞義集合,一個詞義集合包含若干詞義。基于義類體系的方法首先將多義詞義項分配到義類樹上(一個義項對應(yīng)義類樹的一個節(jié)點),然后計算義項在義類樹上的距離,即,從一個節(jié)點到另一個節(jié)點需要經(jīng)過多少步。距離越小,意味著義項在義類樹上越接近,則越難區(qū)分——可區(qū)分度越低。最小的距離為0,這時義項對應(yīng)義類樹上的同一個義類節(jié)點。
該方法省時省力,不依賴詞義標(biāo)注語料庫和復(fù)雜的計算方法,可以快速實現(xiàn)義項可區(qū)分度計算。(李安2014)
然而,該方法的缺陷也很明顯。
第一,該方法假設(shè),在義類樹上,節(jié)點到節(jié)點的距離是相等的,即,任意兩個存在上下位關(guān)系的義類在語義上的差距是等同的(否則它就失去了通過計算義類節(jié)點相隔路徑長度得到義項可區(qū)分度的基礎(chǔ)),但實際上這個假設(shè)不成立。義類體系賴以建立的詞義上下位關(guān)系只規(guī)定了詞義的語義關(guān)系,并未對義類之間的這種語義關(guān)系的強弱做任何說明,義類體系也無法體現(xiàn)這一點。
第二,該方法依賴義類體系,而義類體系的建設(shè)存在隨機性和主觀性,且目前沒有評價義類體系優(yōu)劣的有效方法。構(gòu)成義類樹的基本詞義關(guān)系是上下位關(guān)系,現(xiàn)實的義類體系則往往由多種詞義關(guān)系和詞義特征共同決定。比如,“同義詞詞林”至少包含了詞義的相似關(guān)系和相關(guān)關(guān)系;“現(xiàn)代漢語詞義分類體系”則納入了詞義在句法上實現(xiàn)的特征。另外,現(xiàn)有理論認(rèn)為,義類劃分應(yīng)該盡可能避免跨類,認(rèn)為分類應(yīng)該是離散且互斥的,所以不同的學(xué)者對義類體系中義類的數(shù)量、定義以及具體詞義應(yīng)該納入哪個義類,其意見是不統(tǒng)一的。比如,“鍋”可以是“廚具類”,也可以是“容器類”。這樣一來,義項在義類樹上的距離會因為使用了不同的義類體系而不同。
第三,該方法要求先對多義詞義項進行義類標(biāo)注,即,將義項劃分到義類樹的一個義類上,這使得該方法在本質(zhì)上是對義項詞典釋義進行比較,而非本文所定義的“義項可區(qū)分度”。
(二) 基于機器學(xué)習(xí)的詞義消歧方法
詞義消歧是在語料庫中對多義詞進行義項自動判別的工作。Ide和Veronis(1998)、吳云芳和俞士汶(2006)認(rèn)為,傳統(tǒng)詞典在多義詞定義方面缺乏一致性,義項間語義距離(稱為“語義顆粒度”,semantic granuity)不等,使得對WSD結(jié)果難以準(zhǔn)確評價。不過,這恰好可以為計算義項可區(qū)分度服務(wù)。既然WSD結(jié)果受詞典定義影響,可以認(rèn)為,語義距離大的義項,其消歧結(jié)果可能會比較好,其可區(qū)分度就比較大,反之,可區(qū)分度比較小。
該方法首先需要在語料庫中標(biāo)注多義詞的詞典義項,然后在語料庫中抽取多義詞義項的各種語言學(xué)特征,用這些特征構(gòu)成向量來表示義項,通過計算義項向量的距離,來獲得可區(qū)分度數(shù)值。
詞義消歧的方法使用真實語料庫,在消歧算法一致的前提下能夠公正地評價義項可區(qū)分度,其優(yōu)勢在于盡可能地擺脫了主觀性因素,使得計算結(jié)果較為客觀。
當(dāng)然,該方法亦有其缺陷。
第一,該方法假設(shè),詞典對義項的定義會充分反映在語料庫中,所以從語料庫抽取特征表示義項。但是,并不是所有的詞義特征都會被顯性地實現(xiàn)在語言中,尤其是語用義、修辭義。
第二,詞義消歧依賴從語料庫中獲取的義項特征,而能夠獲取到什么樣的特征,取決于語料庫加工的深度和規(guī)模。如果語料庫中沒有語法標(biāo)注,那么義項的語法特征是無法獲得的。而制作大規(guī)模深加工語料庫的時間和人力成本都非常高昂,獲得難度比較大。所以,使用不同語料庫得到的結(jié)果往往是不同的。這也證明了第一點的觀點。
第三,該方法的結(jié)果需要在詞匯學(xué)上得到解釋。該方法是對義項可區(qū)分度的“間接估計”,本質(zhì)上是用機器學(xué)習(xí)算法模擬人在真實語境中辨析多義詞的行為。但算法與人在多義詞判斷的過程和方式上存在差異,所以通過詞義消歧得到的義項可區(qū)分度數(shù)值需要在詞匯學(xué)上得到解釋,簡單來說,就是要解決其在多大程度上可信的問題。
三、 使用標(biāo)注者一致性估計多義詞義項的可區(qū)分度
根據(jù)上一節(jié)的論述,基于義類體系的方法和詞義消歧的方法都不是對義項可區(qū)分度的直接度量,且在理論上有諸多缺點。本文提出使用標(biāo)注者一致性的方法來估計多義詞詞典義項的可區(qū)分度。肖航(2010)做了一些嘗試,利用標(biāo)注者一致性來說明詞典對多義詞義項定義中存在的“重合”問題,指出,意義“重合”多的義項,標(biāo)注者一致性更差。這說明,標(biāo)注者一致性反映了人對詞典釋義的使用情況。
假設(shè)語料庫中包含多義詞W的詞例數(shù)量為N,且W在詞典中義項數(shù)量為I,標(biāo)注者被要求對該多義詞的每個詞例標(biāo)注合適的義項i(顯然i屬于I)。那么,那些標(biāo)注者標(biāo)注了相同義項標(biāo)簽的詞例數(shù)量為A,標(biāo)注了不同義項標(biāo)簽的詞例數(shù)量為D(A與D之和為N)??梢杂肁除以N(A/N)獲得標(biāo)注者的簡單一致性(simple agreement),其值越大,說明標(biāo)注者一致性越高。不過,Veronis(1998)、Artstein和Poesio(2008)指出,簡單一致性(A/N)存在標(biāo)注者隨意標(biāo)注的問題,即,不排除標(biāo)注結(jié)果是標(biāo)注者隨意標(biāo)注的情況。比如,標(biāo)注者對某個多義詞標(biāo)注了10條詞例,且義項標(biāo)記都是i,然后他/她對余下所有的詞例義項都標(biāo)注上i。為了消除簡單一致性的這一缺陷,我們采用Cohens Kappa算法(Cohen1960)來計算標(biāo)注者一致性:
其中Ao是實際觀察到的一致性,Ae是任意標(biāo)注產(chǎn)生的一致性(也就是我們需要消除的那部分)。上式的大致意思是: 去除了由任意標(biāo)注產(chǎn)生的一致性,才是準(zhǔn)確的標(biāo)注者一致性。Kappa值越高的多義詞,其義項區(qū)分度越高。
標(biāo)注者一致性是對義項可區(qū)分度的直接度量,因為它是對多義詞辨析活動的直接觀察。相較之下,詞義消歧的結(jié)果是對可區(qū)分度的間接度量且需要語言學(xué)解釋。所以,Kappa值更加“可信”。
四、 義項可區(qū)分度結(jié)果分析
我們相信,多義詞義項的可區(qū)分度值可以為詞典編纂帶來有益的信息。如前述“包圍”的可區(qū)分度值提示了兩個義項的定義可能存在難以區(qū)分的問題。這部分我們詳述如何通過詞義標(biāo)注任務(wù)來獲取義項可區(qū)分度,分析可區(qū)分度低于一定閾值的多義詞,討論低可區(qū)分度多義詞詞典義項定義的問題,以展示義項可區(qū)分度如何對詞典編纂產(chǎn)生積極作用。
(一) 數(shù)據(jù)
我們從已標(biāo)注了詞典義項的“中小學(xué)教材語料庫”中選取了419個包含兩個義項的多義詞,作為實驗對象。在語料庫中抽取到35068條包含所有實驗對象的句子。
(二) 標(biāo)注者一致性實驗
標(biāo)注者一致性實驗及結(jié)果分析在(柏曉鵬2020)[2]中有詳細描述。我們選取了12位中文系語言學(xué)背景的本科生和研究生作為標(biāo)注者,每條多義詞例句由三位標(biāo)注者標(biāo)注,要求標(biāo)注者每天最多標(biāo)注1000條例句或最長連續(xù)工作60分鐘,一共使用10天完成全部標(biāo)注工作。這樣,每一條多義詞例句產(chǎn)生三個標(biāo)注結(jié)果,可以有三個一致性Kappa值,我們?nèi)∑骄底鳛榭蓞^(qū)分度數(shù)值: 平均Kappa值越高,則義項可區(qū)分度越大,反之義項可區(qū)分度越小。一般認(rèn)為(Veronis1998;Artstein & Poesio2008),一致性結(jié)果中0.6和0.8是兩個具有意義的值: 當(dāng)Kappa值低于0.6的時候,可以認(rèn)為一致性較差,在本文中表示義項可區(qū)分度較低;當(dāng)Kappa值大于等于0.8的時候,一致性較好,表示義項可區(qū)分度較高。
(三) 可區(qū)分度低的多義詞
在419個實驗對象中,有229個多義詞的義項可區(qū)分度低于0.6(54.7%)。這意味著在我們的實驗對象中,有超過一半的多義詞,其詞典義項無法被很好地區(qū)分。通過分析可區(qū)分度低于0.6的多義詞,我們發(fā)現(xiàn),義項間有多種關(guān)系導(dǎo)致可區(qū)分度低下。
1. 義項釋義存在重合關(guān)系。有的多義詞義項間存在一個義項可以被另一個義項包含的現(xiàn)象,如:
(3) 奔(0.315)
奔走1急走;跑: 奔走相告。
奔走2為一定目的而到處活動: 奔走衣食│四處奔走│奔走了幾天,事情仍然沒有結(jié)果。
(4) 失?。?.56)
失敗1在斗爭或競賽中被對方打?。ǜ皠倮毕鄬Γ?非正義的戰(zhàn)爭注定是要失敗的。
失敗2工作沒有達到預(yù)定的目的(跟“成功”相對): 試驗失敗│失敗是成功之母。
以上兩個多義詞,其義項內(nèi)涵有“包含”關(guān)系,也就是肖航(2010)指出的義項“重合”關(guān)系?!盀橐欢康亩教幓顒印保ū甲?)描述了人的活動,但可以包含“急走、跑”(奔走1)這樣的具體動作行為。如:
(5) ……一面要上書塾,一面要幫家務(wù),天天奔走于當(dāng)鋪和藥鋪之間。
例(5)中的“奔走”做兩種理解都可以,奔走1的詞義內(nèi)容被奔走2完全包含。
而“在斗爭或競賽中被對方打敗”(失敗1)也可視為“工作沒有達到預(yù)定的目的”(失敗2)的具體表現(xiàn)。
這種重合關(guān)系還體現(xiàn)在義項釋義內(nèi)容接近,有交疊,如:
(6) 學(xué)(0.594)
學(xué)1學(xué)習(xí): 學(xué)技術(shù)│勤工儉學(xué)│我跟著他學(xué)了許多知識。
學(xué)2模仿: 他學(xué)杜鵑叫,學(xué)得很像。
學(xué)1義為通過一種系統(tǒng)性的方式學(xué)習(xí)到一種有用技能,有“獲取”義。學(xué)2描述這個行為本身,而不關(guān)注學(xué)習(xí)的對象和對象本身的價值。但可以認(rèn)為在語義上,學(xué)2描述的是學(xué)1的一個階段,二者釋義內(nèi)容有交疊: 人們總是通過模仿開始習(xí)得新的本領(lǐng)。如例(7):
(7) 一只小鷹跟著老鷹學(xué)飛行。
例(7)中的“學(xué)”應(yīng)選擇哪個義項,與如何理解“小鷹”和“飛行”的關(guān)系有關(guān): 如果認(rèn)為“飛行”是一種技能,則應(yīng)選學(xué)1;如果認(rèn)為“小鷹學(xué)飛行”是一種來自于本能的行為,那選學(xué)2也不無道理。
2. 義項區(qū)別特征的實現(xiàn)問題。詞典釋義中用以區(qū)分義項的語言學(xué)特征在語料中不實現(xiàn),使得義項難以區(qū)分,如:
(8) 貢獻(0.594)
貢獻1拿出物資、力量、經(jīng)驗等獻給國家或公眾: 為祖國貢獻自己的一切。
貢獻2對國家或公眾所做的有益的事: 他們?yōu)閲易龀隽诵碌呢暙I。
“貢獻”的兩個義項,一個是名詞義項,一個是動詞義項,當(dāng)出現(xiàn)在賓語位置上時(此時,詞性得不到區(qū)分),義項的區(qū)分就發(fā)生問題了,如例(9):
(9) 本來是可以不斷再生,長期給人類做貢獻的。
例(9)中“貢獻”可以是貢獻2,也可以看作是貢獻1的動名詞用法。
同樣的例子還有:
(10) 青年(0.591)
青年1人十五六歲到三十歲左右的階段: 青年人│青年時代。
青年2指上述年齡的人: 新青年│好青年。
“青年”義項的釋義是比較清晰的,二者的區(qū)分條件是: 青年1大部分時候出現(xiàn)在定語位置上,青年2大部分時候出現(xiàn)在中心語位置上。但我們觀察到,在“青年男女”“青年農(nóng)民”“青年畫家”“青年朋友”“青年突擊隊員”等例子中產(chǎn)生了不一致,我們認(rèn)為,這可能是因為青年2也可以出現(xiàn)在定語位置上的緣故。如:
(11) 青年組織的隊伍走過主席臺……
例(11)中的“青年”即為青年2。此時,區(qū)別兩個義項的重要特征沒有實現(xiàn)。
3. 搭配詞有重合。有些多義詞義項依靠與之搭配詞的詞義得以區(qū)分,當(dāng)搭配詞有重合的時候,義項區(qū)分發(fā)生困難。
(12) 命運(0.333)
命運11. 指生死、貧富和一切遭遇(迷信的人認(rèn)為是生來注定的): 悲慘的命運│命運不濟。
命運2比喻事物發(fā)展變化的趨向及結(jié)局: 關(guān)心國家的前途和命運。
根據(jù)釋義,命運1是已經(jīng)發(fā)生的事件的總和,命運2指稱事物未來發(fā)展的可能性。而根據(jù)所舉的例子,命運1指的是人的經(jīng)歷,命運2指的是社會組織(國家、集體等)的發(fā)展?fàn)顟B(tài),“命運”的兩個義項的差異主要通過定語位置上名詞短語的語義來確定。命運2可以看作命運1的隱喻結(jié)果,除了指稱對象發(fā)生明顯變化外,兩個義項在其他方面相似度較高,而“命運”在指稱上的語義組合限制,即“生死、貧富和一切遭遇”或“發(fā)展變化趨勢”,并不能通過前后幾個詞的搭配,在一個句子范圍內(nèi)得以實現(xiàn),這使得兩個義項定語位置上的搭配詞有一定重合度,使得義項區(qū)分困難,如:
(13) 這是每一個人的命運: 如果他達到注定的某一級……
(14) 因為歐洲的命運全系在拿破侖這一個人的命運。
例(13)中的“命運”應(yīng)是命運1,但句子的后半部分“如果他達到注定的某一級”,又符合命運2的表述。例(14)中后一個“命運”應(yīng)是命運1,因為指稱“拿破侖”,但句子前半部分有“歐洲的命運”,而這兩處“命運”應(yīng)該是語義相同的。如此,導(dǎo)致“命運”的可區(qū)分度很低。
(四) 義項可區(qū)分度對詞典編纂的啟示
上文的工作顯示,義項的可區(qū)分度提供了關(guān)于多義詞的指向性信息,即,那些義項可區(qū)分度低于一定值的多義詞義項需要進一步檢視。通過上文第(三)部分中對一些義項可區(qū)分度小于0.6的詞的分析,我們發(fā)現(xiàn),造成多義詞義項可區(qū)分度低原因可能是詞典義項設(shè)置和釋義不佳造成的,如例(3)、例(4)、例(6);有些則與釋義無關(guān),而與義項在語言中的具體實現(xiàn)有關(guān),如例(8)、例(10)。所以,詞典在釋義方面可能需要注意義項在語義上的關(guān)系,并探討是否需要在釋義時考慮語法等表層實現(xiàn)的情況。
五、 結(jié)論
本文對“多義詞詞典義項可區(qū)分度”這一概念進行了界定。我們認(rèn)為,義項可區(qū)分度是通過對多義詞辨析結(jié)果的評價,以此來評價多義詞義項辨析難易程度的指標(biāo),其形式為有限范圍內(nèi)的數(shù)值。義項可區(qū)分度為詞典編纂提供了參考信息: 義項可區(qū)分度低于閾值的多義詞,編纂者可能需要對其定義進行檢視。有利于詞典編纂者有目的性地對詞典進行修訂。
我們討論了當(dāng)前計算義項可區(qū)分度的方法: 基于義類體系的方法和基于機器學(xué)習(xí)的詞義消歧方法。基于義類體系的方法在理論上存在缺陷。基于機器學(xué)習(xí)的詞義消歧方法是對義項可區(qū)分度的間接評價,其結(jié)果的準(zhǔn)確性需要語言學(xué)解釋的支撐。
我們進一步提出通過詞義標(biāo)注工作,計算標(biāo)注者一致性數(shù)據(jù)來表示義項可區(qū)分度。這個方法基于多義詞辨析活動的直接觀察,是對義項辨識難度較為直接的測量,故具有比較好的可信度。同時需要指出,用標(biāo)注者一致性來估計義項可區(qū)分度的方法依然會受到標(biāo)注者的影響。主要是標(biāo)注者人數(shù)、知識背景以及具體標(biāo)注環(huán)境這幾個方面。
我們今后的工作將集中在兩個方面: 一是擴大標(biāo)注者一致性實驗的規(guī)模,對本文實驗中可能存在的一些問題進行糾正;另一方面是嘗試用詞義消歧的方法來計算多義詞義項可區(qū)分度,使用標(biāo)注者一致性數(shù)據(jù)進行驗證,以期找到一個合適的自動化工具。
附注
[1]本文詞典釋義來自《現(xiàn)代漢語詞典》第7版。
[2]柏曉鵬.利用標(biāo)注者一致性數(shù)據(jù)估計多義詞義項的區(qū)分度.世界漢語教學(xué)(待刊)。
參考文獻
1. 李安.多義詞義項的語義關(guān)系及其對詞義消歧的影響.語言文字應(yīng)用,2014(1).
2. 肖航.詞典多義詞義項關(guān)系與詞義區(qū)分.云南師范大學(xué)學(xué)報,2010(1).
3. 吳云芳,俞士汶.信息處理用詞語義項區(qū)分的原則和方法.語言文字應(yīng)用,2006(2).
4. 中國社會科學(xué)院語言研究所詞典編輯室編.現(xiàn)代漢語詞典(第7版).北京: 商務(wù)印書館,2016.
5. Artstein R, Poesio M. Intercoder Agreement for Computational Linguistics. Computational Linguistics, 2008,34(4).
6. Jacob Cohen. A Coefficient of Agreement for Nominal Scales. Educational and Psychological Measurement, 1960,20(1).
7. Ide N, Veronis J. Word Sense Disambiguation: The State of the Art. Computational Linguistics, 1998,24(1).
8. Veronis J. A Study of Polysemy Judgements and Interannotator Agreement. Programme and Advanced Papers of the Senseval Workshop. Herstmonceux, 1998.
(華東師范大學(xué)中文系、華東師范大學(xué)語文教育研究中心上海200241)
(責(zé)任編輯郎晶晶)