王 敬,楊麗姣,蔣宏飛,蘇靖杰,付靜玲
(北京師范大學(xué) 中文信息處理研究所,北京 100875)
漢語二語教學(xué)領(lǐng)域詞義標(biāo)注語料庫的研究及構(gòu)建
王 敬,楊麗姣,蔣宏飛,蘇靖杰,付靜玲
(北京師范大學(xué) 中文信息處理研究所,北京 100875)
詞匯教學(xué)在漢語二語教學(xué)領(lǐng)域占有極為重要的地位,其中多義詞又是詞匯教學(xué)的重點(diǎn)和難點(diǎn)。該研究通過分析三部經(jīng)典領(lǐng)域詞表,選取了1 181個(gè)重點(diǎn)多義詞,以《現(xiàn)代漢語詞典(第6版)》為標(biāo)注體系,制定了適合實(shí)際標(biāo)注的多義詞標(biāo)注規(guī)范和形式,在197冊經(jīng)典漢語二語教材上進(jìn)行了多義詞詞義標(biāo)注,構(gòu)建了一個(gè)規(guī)模約350萬字的面向漢語二語教學(xué)領(lǐng)域的詞義標(biāo)注語料庫,并在此基礎(chǔ)上對1 811個(gè)多義詞、4 323個(gè)多義詞義項(xiàng)進(jìn)行了計(jì)量統(tǒng)計(jì),分析了多義詞不同詞義的出現(xiàn)情況及其分布規(guī)律。為了更好地服務(wù)于漢語二語教學(xué),開發(fā)了語料庫檢索系統(tǒng),設(shè)計(jì)并實(shí)現(xiàn)了多義詞義項(xiàng)的查詢功能。
漢語二語教學(xué);語料庫;多義詞標(biāo)注
對外漢語教學(xué)領(lǐng)域主要包括語音、詞匯、語法等方面的教學(xué),詞匯教學(xué)在其中占有極為重要的地位。李如龍,吳茗認(rèn)為學(xué)習(xí)語言,詞匯是基礎(chǔ),詞匯體現(xiàn)了語音的結(jié)構(gòu)和變化,組成語句又體現(xiàn)了種種語法關(guān)系,詞匯教學(xué)的效果直接影響著留學(xué)生漢語的整體水平。其中多義詞的教學(xué)又是詞匯教學(xué)的重點(diǎn)和難點(diǎn)。在自然語言處理領(lǐng)域,如何識(shí)別文本中多義詞的詞義也一直是一個(gè)重要課題,詞義消歧任務(wù)最早與1950年作為機(jī)器翻譯的一個(gè)任務(wù)被提出。隨著語料庫語言學(xué)的興起,語料庫開始在無論是漢語二語教學(xué)領(lǐng)域和自然語言處理領(lǐng)域起到了至關(guān)重要的作用,因此需要建立一個(gè)高質(zhì)量的多義詞詞義標(biāo)注語料庫。
詞義標(biāo)注語料庫是指根據(jù)某個(gè)詞典對多義詞各個(gè)義項(xiàng)的定義,在真實(shí)語料上標(biāo)注多義詞的正確義項(xiàng)。Leech指出詞義標(biāo)注是最實(shí)用的語義標(biāo)注。詞義標(biāo)注語料庫是機(jī)器翻譯、信息檢索等自然語言處理系統(tǒng)的基礎(chǔ)性資源,在語言研究、詞典編纂等方面也有重要應(yīng)用。例如,Sinclair等提出在COBUILD詞典編纂中利用詞義標(biāo)注語料庫統(tǒng)計(jì)得到詞義頻率信息編排義項(xiàng)。
詞義標(biāo)注語料庫已經(jīng)經(jīng)過了十幾年的建設(shè),無論是英語還是漢語都有了自己的詞義標(biāo)注語料庫。目前已經(jīng)建設(shè)的詞義標(biāo)注語料庫主要以采用詞義知識(shí)庫WordNet為主,著名的有SemCor語料庫、SenseVal語料庫和DSO語料庫等。采用傳統(tǒng)語言詞典進(jìn)行詞義標(biāo)注的語料庫數(shù)量很少,不成規(guī)模。
漢語的詞義標(biāo)注語料庫建設(shè)起步較晚,主要有北京大學(xué)漢語詞義標(biāo)注語料庫(Chinese Word Sense Tagging Corpus,STC ) 。該語料庫由北京大學(xué)計(jì)算語言學(xué)研究所建設(shè),所選語料是2000年1~3月和1998年1月的《人民日報(bào)》,共計(jì)642萬字,所用詞典是該所開發(fā)的《現(xiàn)代漢語語義詞典》。該語料庫標(biāo)注了966個(gè)多義名詞和動(dòng)詞的義項(xiàng)。其中名詞794個(gè)、動(dòng)詞168個(gè);肖航將新加坡國立大學(xué)“華文教材語料庫”中的中小學(xué)語文教材作為語料庫,選擇傳統(tǒng)語言詞典——《現(xiàn)代漢語詞典(第5版)》作為詞義體系,對該語料庫添加詞義標(biāo)記,該語料庫總字?jǐn)?shù)約為200萬字。
目前,國內(nèi)的面向漢語二語教學(xué)的語料庫主要集中在中介語語料上,例如,北京語言大學(xué)開發(fā)的“HSK動(dòng)態(tài)作文語料庫”,中山大學(xué)開發(fā)的“漢字偏誤標(biāo)注的漢語連續(xù)性中介語語料庫”、南京大學(xué)開發(fā)的“外國留學(xué)生漢語口語縱向語料庫”和“美國學(xué)生漢語作文縱向語料庫”,中介語語料庫主要是對語料進(jìn)行字、詞、句的偏誤標(biāo)注等。
但是國內(nèi)目前還沒有專門的面向漢語二語教學(xué)的詞義標(biāo)注語料庫,因此本文選取《現(xiàn)代漢語詞典》(第6版)為標(biāo)注詞典,《現(xiàn)代漢語規(guī)范詞典》作為補(bǔ)充,在漢語二語教材語料庫上進(jìn)行詞義標(biāo)注,在標(biāo)注實(shí)踐的基礎(chǔ)上,制定了一個(gè)比較完善的詞義標(biāo)注體系,規(guī)范了詞義標(biāo)注標(biāo)準(zhǔn),并對標(biāo)注結(jié)果進(jìn)行了數(shù)據(jù)分析和統(tǒng)計(jì),在此基礎(chǔ)上設(shè)計(jì)了一個(gè)多義詞詞義檢索系統(tǒng)。本研究彌補(bǔ)了漢語二語教學(xué)領(lǐng)域語料庫類型單一的缺陷,并填補(bǔ)了漢語二語教學(xué)領(lǐng)域的基于語料庫進(jìn)行詞義研究的空白。
2.1 標(biāo)注語料
本研究使用北京師范大學(xué)中文信息處理研究所開發(fā)的漢語國際教育動(dòng)態(tài)語料庫*漢語國際教育動(dòng)態(tài)語料庫由北京師范大學(xué)中文信息處理研究所和漢語文化學(xué)院共同建設(shè),主要收錄對外漢語教學(xué)領(lǐng)域經(jīng)典教材和新HSK樣卷文本語料,并提供多層次的語言信息標(biāo)注,目前規(guī)模約14萬句,240余萬詞次。中的外漢語教學(xué)領(lǐng)域經(jīng)典教材部分,包括經(jīng)典教材58套,共189冊,約350萬字(含字母、數(shù)字和漢字),12萬句。圖1是教材信息庫的部分截圖。
圖1 漢語二語教材語料庫教材信息庫
動(dòng)態(tài)語料庫在采集教材時(shí)充分考慮了教材類型、適用水平、出版年代、影響因子等屬性特征。所選教材分別從出版年份、學(xué)習(xí)者適用年齡、學(xué)習(xí)者漢語水平以及教材性質(zhì)、教材類型、適用課型等方面做了考慮。所有教材均是1989年到2012年共21年間的典型教材,學(xué)習(xí)者的使用年齡覆蓋到兒童、小學(xué)、中學(xué)和成人,學(xué)習(xí)者的漢語水平也從零基礎(chǔ)、初級、中級到高級水平,適用課型包括口語、聽力、閱讀、寫作和綜合課型,這些教材大部分是用來教授語言技能的,一小部分是醫(yī)學(xué)漢語和商務(wù)漢語。
2.1 多義詞的選取
本研究所說的多義詞是廣義概念下的多義詞,即同一詞形具有多種詞義可能的均視為多義詞。從詞義標(biāo)注和詞義消歧角度來說,機(jī)器無法只從詞形上判斷兩個(gè)詞形相同的詞是否為兩個(gè)不同的詞,這對留學(xué)生來說是一樣的,因此采用廣義多義詞概念更適用于詞義標(biāo)注和漢語二語教學(xué)。
語料庫詞義標(biāo)注根據(jù)標(biāo)注詞的不同,可分為部分詞詞義標(biāo)注和全詞(all-words)詞義標(biāo)注兩種類型。本文的研究是部分詞詞義標(biāo)注,選取了1 181個(gè)多義詞進(jìn)行標(biāo)注。這1 181個(gè)多義詞來自《新漢語水平考試大綱HSK詞匯》、《漢語國際教育用音節(jié)漢子詞匯等級劃分》、《1700對近義詞語用法對比》,我們將這1 181個(gè)多義詞成為多義詞詞義標(biāo)注詞表(以下簡稱詞表)。
詞表中雙音節(jié)詞占多數(shù),共812個(gè),單音節(jié)詞占少數(shù),共517個(gè),多音節(jié)詞最少,只有八個(gè)。詞表中多義詞音節(jié)數(shù)和多義詞的HSK等級分布如表1所示。
表1 詞表多義詞音節(jié)數(shù)和HSK詞匯等級分布情況
語料庫詞義標(biāo)注在語義體系和詞典資源的選擇上有多種不同做法,主要包括傳統(tǒng)語言詞典(例如《辭?!贰冬F(xiàn)代漢語詞典》)、語義詞典(例如《同義詞詞林》)、用于信息處理用的詞義知識(shí)庫(例如WordNet、HowNet)等。本文選擇在釋義方面具有代表性的、使用最為廣泛的《現(xiàn)代漢語詞典(第6版)》作為詞義體系?!冬F(xiàn)代漢語詞典》(以下簡稱《現(xiàn)漢》)是漢語語言研究、研究教學(xué)等使用最為廣泛的詞典。
《現(xiàn)代漢語詞典(第6版)》對詞義和語素義進(jìn)行了區(qū)分。圖2是《現(xiàn)漢》對多義詞“白”的釋義。圖2中“白”的義項(xiàng)(1)、(3)、(6)、(7)、(10)和(11)是詞義,而(2)、(4)、(5)、(8)和(9)是語素義。符淮青指出為了分析多義詞不同義項(xiàng)的意義,首先要區(qū)分詞義和語素義,詞義能作為詞獨(dú)立運(yùn)用,語素義只能存在于它所構(gòu)成的詞和固定結(jié)構(gòu)中。詞典對詞義和語素義的區(qū)分,便利了語料庫的詞義標(biāo)注和計(jì)算機(jī)的詞義消歧。因?yàn)橛?jì)算機(jī)詞義消歧的輸入(通常情形下)是經(jīng)過了詞語切分,因此真正成為消歧對象的是詞義,而語素義則可以在詞語或固定組合中自動(dòng)得到消解。因此我們在進(jìn)行多義詞詞義標(biāo)注時(shí),只標(biāo)注詞義,不標(biāo)注語素義。
圖2 《現(xiàn)代漢語詞典(第6版)》對多義詞“白”的釋義
4.1 標(biāo)注形式
對于一個(gè)包含n個(gè)義項(xiàng)S的詞WORD,它在一定的上下文中被標(biāo)注上詞義WS,其標(biāo)注形式為:
@DUOYI_WORD/POS#WS(WS=Si、MH、UN)
其中,WORD代表一個(gè)詞,@DUOYI表示這個(gè)詞需要進(jìn)行多義詞義項(xiàng)標(biāo)注,POS是這個(gè)詞的詞性,WS是這個(gè)詞在其所在句子中的詞義(WS的取值將在下文說明)詞性和詞義用#隔開。
肖航從為語料庫標(biāo)注多義詞詞義的實(shí)踐來看,詞典普遍存在詞義可區(qū)分性不足的情況,根據(jù)對《現(xiàn)代漢語詞典》的分析,他認(rèn)為詞典中多義詞的義項(xiàng)之間存在重疊、相離、包含等關(guān)系。本文根據(jù)該文獻(xiàn),以及在多義詞詞義試標(biāo)注過程中的實(shí)踐,對多義詞在詞典中的義項(xiàng)和語料中的義項(xiàng)進(jìn)行了形式化的表示,如下:
假設(shè)一個(gè)多義詞在詞典中一共有n個(gè)義項(xiàng),則其第i個(gè)義項(xiàng)就表示為Si(i=1,2,3,…,n)。其中,詞義WS和義項(xiàng)的關(guān)系有幾種形式:
1.義項(xiàng)i可以準(zhǔn)確表示詞義,則WS=Si;
2.義項(xiàng)i無法準(zhǔn)確表示詞義,則WS=MH,其中MH的取值有三種:
A義項(xiàng)i和義項(xiàng)j的交集表示詞義,則MH=Si+Sj;
B義項(xiàng)i和義項(xiàng)j共同表示詞義,但是義項(xiàng)i包含義項(xiàng)j,則MH=Si>>Sj;
C義項(xiàng)i或義項(xiàng)j表示詞義,則MH=Si|Sj;
3.無法為語料中的多義詞找到合適的義項(xiàng),則WS=QS,QS的取值為:
A義項(xiàng)i釋義過窄,則QS=Si-
B合適的沒有義項(xiàng),則QS=addS(n+i) (其中,QS參照《現(xiàn)代漢語規(guī)范詞典》進(jìn)行義項(xiàng)補(bǔ)充)
4.義項(xiàng)i是語素義,無需進(jìn)行標(biāo)注,則WS=UN(無需標(biāo)注)
4.2 標(biāo)注方式
多義詞標(biāo)注采用機(jī)器和人工結(jié)合的方式進(jìn)行。首先進(jìn)行機(jī)器標(biāo)注,再進(jìn)行人工標(biāo)注。機(jī)器標(biāo)注是對多義詞中可以通過詞性決定詞義的義項(xiàng)進(jìn)行標(biāo)注,例如,“安定”這個(gè)詞,凡是詞性是形容詞的都選擇義項(xiàng)①,凡是詞性是動(dòng)詞的都選擇義項(xiàng)②。
【安定】①_【形】(生活、形勢等)平靜正常;穩(wěn)定:生活~|情緒很~|~的社會(huì)秩序。②_【動(dòng)】使安定:~人心。
為了保證多義詞詞義的標(biāo)注質(zhì)量,我們組織了20名語言學(xué)及相關(guān)專業(yè)本科生、研究生參與人工標(biāo)注,標(biāo)注人員經(jīng)過培訓(xùn)和試標(biāo)注檢驗(yàn)合格后,進(jìn)入正式標(biāo)注。標(biāo)注結(jié)果需要經(jīng)過兩次人工校對,存疑處由專家討論確認(rèn)。如上文所述的詞典中存在的義項(xiàng)重疊、相離、包含等關(guān)系,也在標(biāo)注過程中不斷地進(jìn)行詞表修訂,以使結(jié)果更符合實(shí)際情況。具體工作可以分為以下幾個(gè)步驟:
步驟1 對語料進(jìn)行分詞和詞性標(biāo)注;
步驟2 對分詞和詞性標(biāo)注記性人工校對;
步驟3 對可以通過詞性決定詞義的義項(xiàng)進(jìn)行機(jī)器標(biāo)注;
步驟4 對剩余的多義詞進(jìn)行人工標(biāo)注;
步驟5 對標(biāo)注了MH和QS的義項(xiàng)進(jìn)行討論并修訂詞表;
步驟6 根據(jù)更新的詞表修訂標(biāo)注結(jié)果;
步驟7 初次校對多義詞詞義標(biāo)注結(jié)果;
步驟8 終校標(biāo)注結(jié)果,收集討論結(jié)果,確認(rèn)標(biāo)注詞表;
為了方便進(jìn)行人工標(biāo)注,我們開發(fā)了輔助詞義標(biāo)注的工具,該詞義標(biāo)注工具的界面如圖3所示。
圖3 多義詞詞義標(biāo)注工具
該軟件將多義詞詞義標(biāo)注詞表加載于其中,通過點(diǎn)選的方式對每個(gè)詞進(jìn)行詞義標(biāo)注。
4.3 標(biāo)注過程中特殊語言現(xiàn)象的處理
在多義詞詞義標(biāo)注過程中,會(huì)涉及很多特殊語言現(xiàn)象,需要有一定的規(guī)范對這些現(xiàn)象進(jìn)行統(tǒng)一處理,才能對多義詞進(jìn)行標(biāo)注(圖2)。
1.多義離合詞的處理:多義的離合詞在沒有分離時(shí)和普通的多義詞一樣進(jìn)行標(biāo)注,當(dāng)離合詞分離之后,只對分離出來可以單獨(dú)成詞的那一部分進(jìn)行標(biāo)注,不成詞的部分不進(jìn)行標(biāo)注,另外,可離合的趨向動(dòng)詞在分離后都不進(jìn)行標(biāo)注。
表2 多義離合詞的標(biāo)注規(guī)范及示例
例1中,多義離合詞“過去”沒有分離,因此按照詞典,將此句中的“過去”標(biāo)注上詞義。例5中,多義離合詞“過去”分離為“過”和“去”,那么此時(shí)就將它們的詞性標(biāo)注為“語素g”,并標(biāo)注上“UN”表示無需標(biāo)注。
2.多義重疊詞的處理:一個(gè)多義重疊詞是否要進(jìn)行標(biāo)注,要看這個(gè)詞的重疊形式是否能拆分成獨(dú)立的詞,能拆分出獨(dú)立的詞就進(jìn)行標(biāo)注,不能拆分或拆分后不能獨(dú)立成詞就不進(jìn)行標(biāo)注,是否拆分以《現(xiàn)漢》的收詞標(biāo)準(zhǔn)進(jìn)行判斷,拆分規(guī)則如表3所示。
表3 多義重疊詞的標(biāo)注規(guī)則及示例
按照上述步驟,我們將在340萬字語料上進(jìn)行1 181個(gè)多義詞的詞義標(biāo)注,并對這1 181個(gè)多義詞的義項(xiàng)標(biāo)注數(shù)據(jù)進(jìn)行了統(tǒng)計(jì)和分析,希望從中能夠挖掘出其中的規(guī)律,并解釋其中的原因,希望對漢語教學(xué)尤其是教材編寫提供一定的參考。
1.多義詞義項(xiàng)復(fù)現(xiàn)情況統(tǒng)計(jì)
詞表中共1 181個(gè)多義詞,根據(jù)《現(xiàn)代漢語詞典(第6版)》,共包括4 213個(gè)義項(xiàng),平均每個(gè)義項(xiàng)出現(xiàn)3.57次。在所有語料中,待標(biāo)注多義詞共538 159詞次,其中需要標(biāo)注的多義詞共537 493詞次,無需標(biāo)注的多義詞共666詞次。本文將每個(gè)義項(xiàng)出現(xiàn)的次數(shù)按照100的距離進(jìn)行了統(tǒng)計(jì),其結(jié)果如圖4a)所示。
圖4 多義詞義項(xiàng)在語料中的分布情況
從圖4中可以看出,出現(xiàn)次數(shù)在100以內(nèi)的義項(xiàng)是最多的,為2 831個(gè),共占總義項(xiàng)的78.70%。其中出現(xiàn)次數(shù)排在前10位的詞的義項(xiàng)分為別:在1 000次以上的詞分別為“在/p#⑦”(20 173次)、“你/r#①”(18 191次)、“有/v#①”(8 796次)、“和/c#[2]-③”(7 790次)、“看/v#[2]-①”(7 288次)、“有/v#②”(6 664次)、“能/vu#④”(6 180次)、“會(huì)/vu#[2]-⑤”(5 403次)、“把/p#[1]-”(5 124次)、“什么/r#①”(5 079次),其中,“在/p#⑦”出現(xiàn)次數(shù)最多,為20 173次。
再此基礎(chǔ)上,本文又統(tǒng)計(jì)了出現(xiàn)次數(shù)在1-100次之間的義項(xiàng),并以10為距離再次進(jìn)行了統(tǒng)計(jì),其結(jié)果見圖4b)。其結(jié)果表示,出現(xiàn)次數(shù)在1-10的義項(xiàng)最多,一共出現(xiàn)了1 466次,占總義項(xiàng)的51.78%,并且隨著出現(xiàn)次數(shù)的增加,義項(xiàng)逐漸減少。
隨后,本文繼續(xù)統(tǒng)計(jì)了出現(xiàn)次數(shù)在1~10次之間的義項(xiàng),其結(jié)果如圖5所示。
圖5 出現(xiàn)次數(shù)小于10的義項(xiàng)在語料中的的分布情況
這表明,所有義項(xiàng)中,出現(xiàn)一次的義項(xiàng)最多,為370個(gè),占總義項(xiàng)的25.44%。
2.高頻義項(xiàng)及低頻義項(xiàng)的分布統(tǒng)計(jì)及分析
根據(jù)對多義詞在真實(shí)語料下的詞義情況分析,絕大部份多義詞的義項(xiàng)頻率分布是不均衡的。具體表現(xiàn)為只有個(gè)別義項(xiàng)高頻,其他義項(xiàng)低頻,對義項(xiàng)進(jìn)行義頻的統(tǒng)計(jì)分析,可以反映出教材中選擇詞義的狀況,結(jié)合新漢語水平考試(HSK)詞匯等級大綱中的詞匯等級,可以為以后的編寫者提供客觀的數(shù)據(jù)基礎(chǔ)。以下的數(shù)據(jù),本文只統(tǒng)計(jì)了773個(gè)復(fù)現(xiàn)次數(shù)在100次以上的義項(xiàng)。高頻義項(xiàng)及低頻義項(xiàng)的統(tǒng)計(jì)如表4所示。
表4 語料中高頻及低頻義項(xiàng)分布情況
從表4可以看出,當(dāng)高頻閾值設(shè)置為70%時(shí),有45.02%的多義詞義項(xiàng)是高頻義項(xiàng),并且當(dāng)詞匯的等級是四級時(shí),高頻義項(xiàng)出現(xiàn)的最多。通過低頻義項(xiàng)的分布可以看出,無論低頻閾值設(shè)置為30%、20%還是10%,詞匯等級是一級的詞匯所包含的低頻義項(xiàng)最多。
多義詞義項(xiàng)頻率分布的兩個(gè)極端情況是:①一個(gè)多義詞有多個(gè)詞典義項(xiàng)但除一個(gè)高頻義項(xiàng)外其他義項(xiàng)不出現(xiàn); ②一個(gè)多義詞中個(gè)別義項(xiàng)不會(huì)出現(xiàn)在語料中。
對于第一種情況,通過調(diào)查發(fā)現(xiàn),共有35個(gè)多義詞只在語料中出現(xiàn)了一個(gè)義項(xiàng),其他義項(xiàng)沒有出現(xiàn),并且這35個(gè)多義詞只包括2—3個(gè)義項(xiàng),除了出現(xiàn)的那個(gè)義項(xiàng),剩下的1—2個(gè)義項(xiàng)基本都是不常見義項(xiàng)。
在所有的義項(xiàng)中,一共有1 367個(gè)義項(xiàng)沒用出現(xiàn)在語料中,涉及699個(gè)多義詞,這1 367個(gè)義項(xiàng)所屬詞匯的HSK等級分布如表5所示。
表5 詞表中多義詞的HSK等級分布
通過分析語料,發(fā)現(xiàn)造成這種現(xiàn)象主要有以下幾點(diǎn)原因:
1) 該義項(xiàng)為其所在詞的不常用義項(xiàng),比如“扒”的第[2]-④個(gè)義項(xiàng):烹調(diào)方法,現(xiàn)將原料煮到半熟,再用油炸,最后用文火煮爛:~羊肉|~白菜。這些義項(xiàng)主要是方言義、文言文義等,通過統(tǒng)計(jì),這1 381個(gè)義項(xiàng)中,共有方言義63個(gè),文言義24個(gè),口語義11個(gè),舊時(shí)義12個(gè),少數(shù)民族用語1個(gè),用作姓氏180個(gè),統(tǒng)計(jì)291個(gè);
2) 多義詞義項(xiàng)釋義太窄,導(dǎo)致該義項(xiàng)的適用范圍太小,比如:“編輯”的第二個(gè)和第三個(gè)義項(xiàng):“②_【名】做編輯工作的人”;“③_【名】新聞出版機(jī)構(gòu)中編輯人員的中級專業(yè)職稱。”第三個(gè)義項(xiàng)就是將義項(xiàng)限定的太窄,導(dǎo)致語料中出現(xiàn)“編輯/n”90%都都會(huì)選擇義項(xiàng)②,只有在上下文很明確的條件下,才會(huì)選擇義項(xiàng)③;
3) 語料的限制,因?yàn)檎Z料是來自漢語二語教學(xué)的教材,有一部分語料是面向初中級的留學(xué)生,一小部分是面向高級留學(xué)生,所以語料中出現(xiàn)的多義詞的義項(xiàng)總是會(huì)集中在一些基本義或詞的最常用義。例如, 義項(xiàng)“把/p#[1]-”就一共出現(xiàn)了5 000多次,而其他詞義基本上很少出現(xiàn)或不出現(xiàn)。這在一定程度上也顯示了教材選詞和詞義的局限性,以及程度不均的詞義復(fù)現(xiàn)率。
通過系統(tǒng)的、大規(guī)模的語料標(biāo)注實(shí)踐,我們構(gòu)建了一個(gè)面向漢語二語教學(xué)的詞義標(biāo)注語料庫。資源的開發(fā)需要面向?qū)嶋H的需求,為了更好地服務(wù)于漢語二語教學(xué)及相關(guān)的研究工作,我們對該領(lǐng)域的用戶需求進(jìn)行了分析,開發(fā)了語料庫檢索系統(tǒng)*語料庫檢索系統(tǒng)網(wǎng)址:www.aihanyu.org。,并依此設(shè)計(jì)并實(shí)現(xiàn)了了多義詞義項(xiàng)的查詢功能。圖6不完全顯示了多義詞詞表,通過詞表可以查詢某個(gè)多義詞的義項(xiàng)。如圖7所示,在檢索框中輸入“阿姨”,會(huì)顯示出“阿姨”這個(gè)詞所包含的義項(xiàng)。點(diǎn)擊“阿姨”的義項(xiàng)1,將會(huì)顯示出義項(xiàng)1所包含的所有語料,如圖8所示。
圖6 漢語國際教育動(dòng)態(tài)語料庫檢索系統(tǒng)——多義詞檢索功能
圖7 多義詞“阿姨”的檢索結(jié)果
圖8 標(biāo)注了“阿姨”義項(xiàng)1 的語料詳情
如圖8所示,“阿姨”的義項(xiàng)1共包含13條語料,在所有包含“阿姨”的中占比7.34%。當(dāng)點(diǎn)擊第一條語料時(shí),會(huì)顯示出這條語料的詳情,包括該語料的來源、詞性標(biāo)注信息、多義詞標(biāo)注信息,以及該語料所包含的語法點(diǎn)信息。
多義詞是漢語二語教學(xué)領(lǐng)域詞匯教學(xué)中的重點(diǎn)和難點(diǎn)。本文根據(jù)三張經(jīng)典領(lǐng)域詞表,篩選出1 181個(gè)重點(diǎn)多義詞,在197冊經(jīng)典漢語二語教材上,以《現(xiàn)代漢語詞典(第6版)》為標(biāo)注體系進(jìn)行了標(biāo)注,制定了一套多義詞標(biāo)注規(guī)范和形式,構(gòu)建了一個(gè)包含約350萬字的面向漢語二語教學(xué)的詞義標(biāo)注語料庫。在該語料庫上,本文對1 181個(gè)多義詞及其4 323個(gè)多義詞義項(xiàng)進(jìn)行了數(shù)量統(tǒng)計(jì),分析了多義詞義項(xiàng)復(fù)現(xiàn)情況、高頻及低頻義項(xiàng)分布情況及其規(guī)律。并在此基礎(chǔ)上研發(fā)了一個(gè)原料庫檢索系統(tǒng),實(shí)現(xiàn)了多義詞詞義查詢功能。
基于上述研究工作,我們希望從以下幾個(gè)方面做出嘗試,以改進(jìn)和提升現(xiàn)有的資源,并探索新的應(yīng)用空間:第一,擴(kuò)大語料庫規(guī)模,目前語料庫僅包含漢語二語教學(xué)領(lǐng)域的教材語料,并未包含真正的母語語料,希望以后的工作中能夠加入一些新聞?wù)Z料、網(wǎng)絡(luò)語料等,使語料覆蓋更廣;第二,加入更多的多義詞,實(shí)現(xiàn)全詞標(biāo)注。因?yàn)槿肆ξ锪τ邢?,目前僅在語料上實(shí)現(xiàn)了部分詞標(biāo)注,有很多多義詞并沒有被標(biāo)注上;第三,在第二部的基礎(chǔ)上,開展多義詞詞義消歧研究,以節(jié)省人力,豐富現(xiàn)有的資源庫建設(shè)維度和應(yīng)用空間。
[1] Ide N,Wilks Y.Making sense about sense[J].Word Sense Disambiguation.Dordrecht::Springer,2007,33:47-73.
[2] Leech G.Corpus annotation schemes[J].Literary and Linguistic Computing,1993,8(4):275 -281.
[3] Sinclair J.Corpus,concordance,collocation[M].Oxford:Oxford University Press,1991.
[4] 符淮青.現(xiàn)代漢語詞匯 (增訂本第二版)[J].北京:北京大學(xué),2004:63.
[5] 國家漢辦/孔子學(xué)院總部.新漢語水平考試大綱[M].北京:商務(wù)印書館,2009.
[6] 金澎,吳云芳,俞士汶.詞義標(biāo)注語料庫建設(shè)綜述[J].中文信息學(xué)報(bào),2008,22(03):16-23.
[7] 李如龍,吳茗.略論對外漢語詞匯教學(xué)的兩個(gè)原則[J].語言教學(xué)與研究,2005,2(41):21.
[8] 劉英林,馬箭飛.漢語國際教育用音節(jié)漢字詞匯等級劃分[M].北京:北京語言大學(xué)出版社, 2010.
[9] 吳云芳,俞士汶.信息處理用詞語義項(xiàng)區(qū)分的原則和方法[J].語言文字應(yīng)用,2006, 2:126-133.
[10] 肖航,楊麗姣.基于詞典的語料庫詞義標(biāo)注研究[J].語言文字應(yīng)用, 2010, 2:135-141.
[11] 肖航.基于詞典的語料庫詞義標(biāo)注[D].新加坡:新加坡國立大學(xué), 2009.
[12] 楊寄洲,賈永芬.1700 對近義詞語用法對比[M].北京:北京語言大學(xué)出版社,2005.
[13] 中國社會(huì)科學(xué)院語言研究所詞典編輯室.《現(xiàn)代漢語詞典》(第6版)[M].北京:商務(wù)印書館, 2012.
A Word Sense Annotated Corpus for Teaching Chinese as Second Language
WANG Jing,YANG Lijiao,JIANG Hongfei,SU Jingjie,FU Jingling
(Institute of Chinese Information Processing,Beijing Normal University,Beijing 100875,China)
In field of teaching Chinese as a second language,the teaching of word is very important,in which polysemous word is a challenging issue.After a survey of 3 classical vocabularies in this field,this paper selects 1 181 polysemous words.Then an annotation specification is designed,with a reference to Modern Chinese Dictionary (Edition 6).Tagging the 1 181 words appeared in 197 popular Chinese textbooks yields a corpus with word senense annotation over 3.5 million characters.A quantitative study on the 1 811 polysemous words is also made,with an analysis of the distribution of total 4 323 word senses.
teaching Chinese as a second language;corpus;polysemous words annotation
王敬(1988—),博士,主要研究領(lǐng)域?yàn)橹形男畔⑻幚?。E-mail:wangjing1204@foxmail.com楊麗姣(1973—),副教授,主要研究領(lǐng)域?yàn)闈h語國際教育、詞匯語義學(xué)、語料庫語言學(xué),對外漢語教學(xué)。E-mail:yanglijiao@bnu.edu.cn蔣宏飛(1982—),博士后,主要研究領(lǐng)域?yàn)樽匀徽Z言處理、智能問答、文本挖掘、機(jī)器翻譯。E-mail:jianghongfei@dinfo.cn
1003-0077(2011)00-0221-09
2016-09-15 定稿日期:2016-10-10
國家語委“十二五”科研規(guī)劃項(xiàng)目(YB125-124);國家高技術(shù)研究發(fā)展計(jì)劃(863)(NO.2012AA011104);中國博士后科學(xué)基金第53批面上資助(一等)(2013M530026)
TP391
A