• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      古漢語(yǔ)詞義標(biāo)注語(yǔ)料庫(kù)的構(gòu)建及應(yīng)用研究

      2022-06-21 08:30:28郭懿鸞王慧萍張學(xué)濤胡韌奮
      中文信息學(xué)報(bào) 2022年5期
      關(guān)鍵詞:消歧王力古漢語(yǔ)

      舒 蕾, 郭懿鸞, 王慧萍, 張學(xué)濤, 胡韌奮

      (1.北京師范大學(xué) 中文信息處理研究所,北京 100875;2.北京師范大學(xué) 人文宗教高等研究院,北京 100875;3. 北京師范大學(xué) 漢語(yǔ)文化學(xué)院,北京 100875)

      0 引言

      詞義標(biāo)注語(yǔ)料庫(kù)通常需要根據(jù)某個(gè)詞典對(duì)多義詞各個(gè)義項(xiàng)的定義,在真實(shí)的語(yǔ)料上標(biāo)注多義詞的準(zhǔn)確義項(xiàng)[1]。英語(yǔ)詞義標(biāo)注語(yǔ)料庫(kù)的研究起步較早,由英國(guó)Sussex大學(xué)主辦的SENSEVAL英語(yǔ)詞義消歧評(píng)測(cè)推動(dòng)了該領(lǐng)域的研究。英語(yǔ)詞義標(biāo)注語(yǔ)料庫(kù)有基于詞典義項(xiàng)的SENSEVAL-1語(yǔ)料庫(kù)和以WordNet為詞義系統(tǒng)的SemCor語(yǔ)料庫(kù)、DSO語(yǔ)料庫(kù)、SENSEVAL-2語(yǔ)料庫(kù),以及結(jié)合WordNet和Wordsmyth知識(shí)庫(kù)的SENSEVAL-3語(yǔ)料庫(kù)。在SENSEVAL評(píng)測(cè)中,研究者進(jìn)一步加入外部知識(shí)庫(kù),完善了競(jìng)賽提供的詞義標(biāo)注集,相關(guān)研究如Wu等[2]和Palmer等[3]。作為基礎(chǔ)語(yǔ)言資源,詞義標(biāo)注語(yǔ)料庫(kù)可以服務(wù)于有監(jiān)督的詞義消歧,進(jìn)而為語(yǔ)言理解、機(jī)器翻譯和詞匯學(xué)研究提供支持。例如,Chan等[4]利用詞義標(biāo)注語(yǔ)料庫(kù)建立消歧模型,并應(yīng)用于機(jī)器翻譯系統(tǒng),有效改善了翻譯效果。Hu等[5]利用牛津英語(yǔ)詞典的例句建立詞義標(biāo)注語(yǔ)料庫(kù),并借助BERT語(yǔ)言模型實(shí)現(xiàn)了細(xì)粒度的歷時(shí)詞義演變分析,從而揭示了義項(xiàng)競(jìng)爭(zhēng)和合作的規(guī)律。

      現(xiàn)有的漢語(yǔ)詞義標(biāo)注語(yǔ)料庫(kù)以現(xiàn)代漢語(yǔ)為主,如北京大學(xué)漢語(yǔ)詞義標(biāo)注語(yǔ)料庫(kù)(STC)、臺(tái)灣“中研院”中文詞義標(biāo)注語(yǔ)料庫(kù)SSMS、新加坡國(guó)立大學(xué)華文教材詞義標(biāo)注語(yǔ)料庫(kù)、漢語(yǔ)二語(yǔ)教學(xué)詞義標(biāo)注語(yǔ)料庫(kù)等。北京大學(xué)的STC語(yǔ)料庫(kù)基于《現(xiàn)代漢語(yǔ)語(yǔ)義詞典》的詞義體系,對(duì)1998年1月和2000年1-3 月的《人民日?qǐng)?bào)》(總計(jì)約642萬(wàn)字)進(jìn)行多義詞義項(xiàng)標(biāo)注,共標(biāo)注了966個(gè)多義名詞和動(dòng)詞的義項(xiàng)[6]。截至2005年底,臺(tái)灣“中研院”詞義標(biāo)注語(yǔ)料庫(kù)SSMS共包含約2 000個(gè)現(xiàn)代漢語(yǔ)中頻詞,共涉及約5 900個(gè)義項(xiàng)[7]。新加坡國(guó)立大學(xué)的中小學(xué)華文教材詞義標(biāo)注語(yǔ)料庫(kù)依據(jù)《現(xiàn)代漢語(yǔ)詞典(第五版)》的詞義體系,對(duì)新加坡國(guó)立大學(xué)的中小學(xué)華文教材語(yǔ)料庫(kù)(約200萬(wàn)字)進(jìn)行詞義標(biāo)記[8]。漢語(yǔ)二語(yǔ)教學(xué)詞義標(biāo)注語(yǔ)料庫(kù)以《現(xiàn)代漢語(yǔ)詞典(第六版)》為詞義區(qū)分體系,對(duì)197冊(cè)漢語(yǔ)二語(yǔ)教材文本中的1 181個(gè)多義詞進(jìn)行詞義標(biāo)注,構(gòu)建了約350萬(wàn)字的詞義標(biāo)注語(yǔ)料庫(kù)[9]。

      現(xiàn)代漢語(yǔ)詞義標(biāo)注語(yǔ)料庫(kù)以詞典為基礎(chǔ),對(duì)新聞、教材語(yǔ)料開(kāi)展加工,有了較為充分的積累。與之相比,古漢語(yǔ)語(yǔ)言資源的建設(shè)仍然較為薄弱。古漢語(yǔ)以單音節(jié)詞為主,其一詞多義現(xiàn)象十分突出,且在不同歷史時(shí)期的詞義分布狀況有較大差異。建設(shè)古漢語(yǔ)詞義標(biāo)注語(yǔ)料庫(kù)不僅有助于研究古代詞匯的使用狀況,也可作為基礎(chǔ)資源服務(wù)于詞義消歧算法的研究,為古漢語(yǔ)信息處理技術(shù)、詞匯學(xué)本體研究、詞典編撰等提供參考。

      因此,本文選取了古漢語(yǔ)常用詞匯,綜合經(jīng)典辭書(shū)和語(yǔ)料庫(kù)實(shí)際使用狀況對(duì)多義詞進(jìn)行義項(xiàng)區(qū)分和屬性整理,并據(jù)此開(kāi)展詞義標(biāo)注,建成了超過(guò)117萬(wàn)字規(guī)模的古漢語(yǔ)詞義標(biāo)注語(yǔ)料庫(kù)(1)本文所構(gòu)建的古漢語(yǔ)詞義標(biāo)注語(yǔ)料庫(kù)參見(jiàn): https://github.com/iris2hu/ancient_chinese_sense_annotation。以該庫(kù)為基礎(chǔ),本文基于BERT語(yǔ)言模型研究了小樣本情境下的詞義消歧技術(shù),準(zhǔn)確率達(dá)到80%左右。進(jìn)一步地,本文以詞義歷時(shí)演變分析和義族歸納為案例,初步探索了語(yǔ)料庫(kù)與詞義消歧技術(shù)在語(yǔ)言本體研究和詞典編撰領(lǐng)域的應(yīng)用,以期為自然語(yǔ)言處理技術(shù)在古漢語(yǔ)領(lǐng)域的應(yīng)用,如文白機(jī)器翻譯、文言文信息抽取、古漢語(yǔ)詞匯語(yǔ)法現(xiàn)象研究等提供參考和借鑒。

      1 基礎(chǔ)詞義知識(shí)庫(kù)構(gòu)建

      1.1 選詞的原則

      本研究的目標(biāo)詞為古漢語(yǔ)常用單音節(jié)多義詞。綜合考慮詞頻和學(xué)術(shù)研究需要,篩選出了200個(gè)古漢語(yǔ)單音節(jié)實(shí)詞,在后續(xù)研究中還將根據(jù)研究需要和用戶反饋持續(xù)補(bǔ)充,進(jìn)行版本迭代。根據(jù)國(guó)家語(yǔ)委古代漢語(yǔ)語(yǔ)料庫(kù)字頻表(2)古漢語(yǔ)字頻表: http://corpus.zhonghuayuwen.org/resources.aspx,第一階段選詞有較高的使用頻度,如表1所示。在頻率排序上,51.5%的所選詞在古漢語(yǔ)字頻表中排名前500,80.5%的所選詞在古漢語(yǔ)字頻表中排名前1 000。

      表1 選詞的字頻分布

      1.2 義項(xiàng)的設(shè)立

      詞義知識(shí)庫(kù)構(gòu)建的關(guān)鍵任務(wù)是多義詞義項(xiàng)的設(shè)立與區(qū)分。吳云芳和俞士汶[6]討論了面向人的辭書(shū)義項(xiàng)和面向漢語(yǔ)信息處理的詞語(yǔ)義項(xiàng)的區(qū)別,認(rèn)為后者需要充分比較面向人和面向機(jī)器的詞語(yǔ)義項(xiàng),抽取、概括而成一系列義項(xiàng)區(qū)分的原則。肖航和楊麗姣[8]提出,詞義標(biāo)注語(yǔ)料庫(kù)建設(shè)主要有兩個(gè)難點(diǎn): 一是詞典詞義區(qū)分不清晰,可能導(dǎo)致標(biāo)注時(shí)出現(xiàn)兩可的情況;二是詞典義項(xiàng)不全面,無(wú)法包括真實(shí)語(yǔ)料中目標(biāo)詞所有可能的含義。從前人研究可以看出,詞義標(biāo)注語(yǔ)料庫(kù)中的義項(xiàng)設(shè)立,既需要尊重辭書(shū)描寫(xiě),也需要考慮語(yǔ)言事實(shí)和后續(xù)信息處理加工的需要。同時(shí),值得注意的是,古漢語(yǔ)詞匯在數(shù)千年的使用中,產(chǎn)生了極為豐富的引申、活用、借用等現(xiàn)象。與現(xiàn)代漢語(yǔ)的詞義歸納側(cè)重共時(shí)用法有所不同,古漢語(yǔ)的詞義描寫(xiě)具有時(shí)間跨度大、復(fù)雜性高等特點(diǎn),這也就導(dǎo)致了不同的辭書(shū)對(duì)同一多義詞的義項(xiàng)設(shè)立存在較大差異。

      以“興(xīng)”為例,《王力古漢語(yǔ)字典》《漢語(yǔ)大字典》《辭源》及商務(wù)印書(shū)館《古代漢語(yǔ)詞典(第2版)》對(duì)其義項(xiàng)劃分差異較大。其中,《王力古漢語(yǔ)字典》分列4個(gè)義項(xiàng),《辭源》6個(gè),《古代漢語(yǔ)詞典》8個(gè),而《漢語(yǔ)大字典》則有14個(gè)義項(xiàng)。各辭書(shū)的義項(xiàng)區(qū)分如表2所示。

      表2 各辭書(shū)對(duì)“興(xīng)”的義項(xiàng)區(qū)分

      詞典對(duì)標(biāo)注質(zhì)量有著極為重大的影響。詞典的選擇必須具有專業(yè)性、被認(rèn)可度高、對(duì)詞語(yǔ)義項(xiàng)描述清晰等特點(diǎn)?!锻趿艥h語(yǔ)字典》兼具“概括性”和“時(shí)代性”,可以直觀地解釋義項(xiàng)的類聚與引申?!锻趿艥h語(yǔ)字典·序》中提出字典具有“擴(kuò)大詞義的概括性”和“注意詞義的時(shí)代性”的特點(diǎn)。就“概括性”而言,王力認(rèn)為: “一般字典辭書(shū)總嫌義項(xiàng)太多,使讀者不知所從,其實(shí)許多義項(xiàng)都可以合并為一個(gè)義項(xiàng),一個(gè)是本義,其余是引申義。本書(shū)以近引申義合并,遠(yuǎn)引申義另列,假借義也另列。這樣,義項(xiàng)就大大減少,反而容易懂了?!本汀皶r(shí)代性”而言,《王力古漢語(yǔ)字典》在《凡例》指出: 本字典的義項(xiàng)按照“本義在前,引申義在后;通用義在前,非通用義在后;實(shí)詞義在前,虛詞義在后;古義在前,后起義在后”的原則排列,體現(xiàn)出較強(qiáng)的時(shí)代性和系聯(lián)性,體現(xiàn)出了義項(xiàng)之間的關(guān)系。

      而《漢語(yǔ)大字典》具有“粒度細(xì)”“涵蓋廣”的特點(diǎn),恰好與《王力古漢語(yǔ)字典》在義項(xiàng)設(shè)立的寬嚴(yán)方面形成互補(bǔ)?!稘h語(yǔ)大字典·第二版修訂說(shuō)明》稱該字典力求“古今兼收、源流并重”,“不僅注重收列常用字的常用義,而且注意考釋常用字的生僻義和生僻字的義項(xiàng)……是新中國(guó)成立以來(lái)形音義收錄最完備、規(guī)模最大的一部漢語(yǔ)字典”。

      結(jié)合《王力古漢語(yǔ)字典》和《漢語(yǔ)大字典》構(gòu)建基礎(chǔ)詞義知識(shí)庫(kù),兼顧了“概括性”、“時(shí)代性”和“涵蓋性”,能有效應(yīng)對(duì)古漢語(yǔ)的詞義描寫(xiě)時(shí)間跨度大、復(fù)雜性高等特點(diǎn),滿足詞義標(biāo)注語(yǔ)料庫(kù)的需要。

      因此,本文擬以《王力古漢語(yǔ)字典》為基礎(chǔ)、《漢語(yǔ)大字典》為補(bǔ)充,對(duì)多義詞的義項(xiàng)設(shè)立進(jìn)行初步劃分。除了基于辭書(shū)信息進(jìn)行義項(xiàng)的設(shè)置之外,詞義標(biāo)注語(yǔ)料庫(kù)還需要從語(yǔ)言事實(shí)和信息處理的需求出發(fā),根據(jù)語(yǔ)料標(biāo)注情況對(duì)詞典義項(xiàng)進(jìn)行一定程度的增補(bǔ)、刪減與合并。

      確立上述原則后,本研究首先設(shè)計(jì)了詞義知識(shí)庫(kù)的框架,其各屬性字段如表3所示。除了詞語(yǔ)和義項(xiàng)的基礎(chǔ)屬性外,還引入了義族、義項(xiàng)屬性等信息,以呈現(xiàn)古漢語(yǔ)詞義的類聚、引申和假借等特殊現(xiàn)象。同時(shí),根據(jù)標(biāo)注語(yǔ)料庫(kù)中的義項(xiàng)出現(xiàn)情況設(shè)置了“義項(xiàng)頻次”字段,為進(jìn)一步的義項(xiàng)修訂提供參考。

      表3 詞義知識(shí)庫(kù)各屬性字段

      續(xù)表

      在義項(xiàng)整理的過(guò)程中,按照如下步驟進(jìn)行詞義知識(shí)庫(kù)屬性填充。第一步,根據(jù)《王力古漢語(yǔ)字典》確立基礎(chǔ)義項(xiàng),將詞語(yǔ)和義項(xiàng)的屬性填入表中。然后,根據(jù)詞典中的義族信息確立義族編號(hào)和義項(xiàng)屬性: 義族以a.b的形式編號(hào),a對(duì)應(yīng)王力劃分的義項(xiàng),b對(duì)應(yīng)同一義項(xiàng)內(nèi)的小類。義項(xiàng)屬性包括“本義”“近引申義”“遠(yuǎn)引申義”“假借義”“后起義”“晚起義”“偏僻義”,具體定義如下:

      (1) 本義: 《王力古漢語(yǔ)字典》中的第一個(gè)義項(xiàng);

      (2) 近引申義: 與本義合并在同一義項(xiàng)內(nèi)的為近引申義;

      (3) 遠(yuǎn)引申義: 由本義引申,但列為另一個(gè)義項(xiàng)的引申義;

      (4) 假借義: 《王力古漢語(yǔ)字典》另列的假借義;

      (5) 后起義: 魏晉至唐宋產(chǎn)生的詞義;

      (6) 晚起義: 元明以后產(chǎn)生的詞義;

      (7) 偏僻義: 《王力古漢語(yǔ)字典》收錄在“備考”欄中的少見(jiàn)的詞義。

      以“假(jiǎ)”為例,《王力古漢語(yǔ)字典》中義項(xiàng)為:

      ① 借。引申為憑借。②暫攝職務(wù)為假。引申為非真的,偽的(后起義)?!緜淇肌看?。

      詞義知識(shí)庫(kù)與《王力古漢語(yǔ)字典》義項(xiàng)的對(duì)應(yīng)如表4所示。

      表4 詞義知識(shí)庫(kù)與《王力古漢語(yǔ)字典》義項(xiàng)的對(duì)應(yīng)

      最后,詞義知識(shí)庫(kù)還需要根據(jù)語(yǔ)料的實(shí)際標(biāo)注情況填充義項(xiàng)頻次,并據(jù)此進(jìn)行增、刪、合并等操作,該步驟的操作方式可參見(jiàn)本文第2節(jié)。

      1.3 義項(xiàng)整理中特殊語(yǔ)言現(xiàn)象的處理

      1.3.1 同形詞問(wèn)題

      區(qū)分義項(xiàng)時(shí)該如何處理同形詞?吳云芳和俞士汶[6]認(rèn)為,在面向中文信息處理的現(xiàn)代漢語(yǔ)詞義區(qū)分體系中,可將同一個(gè)詞的不同義項(xiàng)與同形異義詞放在同一個(gè)平面上,而無(wú)須嚴(yán)格區(qū)分同形和多義。在中文信息處理實(shí)踐中,區(qū)分同形詞與區(qū)分多義詞的實(shí)際義項(xiàng)遵循相同的過(guò)程,即根據(jù)語(yǔ)境選擇該詞形下的某個(gè)含義。然而,在古代漢語(yǔ)中,同形詞事實(shí)上由不同的古代詞形表示,只是受到漢字簡(jiǎn)化的影響而變成了今天在簡(jiǎn)化字書(shū)寫(xiě)范疇下的古漢語(yǔ)同形詞,如“后”(皇后)和“後”(先后),這些同形詞不僅在傳統(tǒng)辭典中有分立的詞條,而且在各詞內(nèi)部也有相對(duì)獨(dú)立的詞義引申鏈條。因此,本文認(rèn)為,吳云芳和俞士汶所提出的應(yīng)用驅(qū)動(dòng)的觀點(diǎn)是切實(shí)合理的,而本研究針對(duì)古漢語(yǔ)語(yǔ)言現(xiàn)象進(jìn)行處理,也應(yīng)兼顧同形詞不同詞形的獨(dú)立性,在標(biāo)注形式上有所體現(xiàn)。

      具體來(lái)說(shuō),本文通過(guò)如下方式進(jìn)行同形詞的義項(xiàng)梳理。以“后”為例,根據(jù)辭書(shū)記載,“后”這個(gè)字形共對(duì)應(yīng)了兩個(gè)同形詞,在字形欄分別用“后1”“后2”標(biāo)注,“詞語(yǔ)id”欄則用詞語(yǔ)序號(hào)+字形序號(hào)標(biāo)注。每個(gè)不同的“后”各自有本義、引申義,被看作是兩個(gè)起點(diǎn)不同的引申鏈,互相之間沒(méi)有聯(lián)系,義項(xiàng)編號(hào)也各自從s1開(kāi)始。特別地,在同形詞各自的義項(xiàng)編號(hào)前,由一位數(shù)字來(lái)區(qū)分同形詞。這樣的標(biāo)識(shí)方法在基于大規(guī)模語(yǔ)料庫(kù)的信息處理實(shí)踐中也具有一定的靈活度。表5顯示了同形詞“后”的義項(xiàng)區(qū)分標(biāo)注方法。

      表5 同形詞“后”的義項(xiàng)區(qū)分標(biāo)注方法

      1.3.2 臨時(shí)用法或通假

      張永言在《詞匯學(xué)簡(jiǎn)論》中提出,詞的臨時(shí)用法是詞在個(gè)別的特殊的應(yīng)用場(chǎng)合臨時(shí)帶上的含義,比如“行將就木”中的“木”臨時(shí)具有了“棺材”的意義[10]。詞的意義和詞的用法存在一定差別,意義是穩(wěn)定和普遍的,而用法是不穩(wěn)定的、特殊的。所以我們?cè)诿鎸?duì)詞義活用、通假和其他臨時(shí)用法時(shí),應(yīng)根據(jù)它的出現(xiàn)頻次判斷是否需要設(shè)置義項(xiàng),以確保詞義的代表性和典型性。若詞的某種臨時(shí)用法較為常見(jiàn),則需要為它設(shè)立新的義項(xiàng),來(lái)保證詞義知識(shí)庫(kù)能涵蓋盡可能多的用例。

      例如,詞語(yǔ)“殆”在《王力古漢語(yǔ)字典》中的義項(xiàng)“通‘怠’,懶惰,疲憊”屬于假借義,例句如“學(xué)而不思則罔,思而不學(xué)則殆”。首先根據(jù)《王力古漢語(yǔ)字典》設(shè)立該義項(xiàng),在隨后的語(yǔ)料庫(kù)標(biāo)注過(guò)程中,有12句語(yǔ)料中的目標(biāo)詞“殆”屬于該義項(xiàng),因而確定設(shè)立該義項(xiàng)。又如“奇”的活用義“以……為奇,驚異”在《王力古漢語(yǔ)字典》中收錄,且在語(yǔ)料庫(kù)中有可觀的頻次,如例句“大將軍鄧騭奇其才,累召不應(yīng)”,因此設(shè)立為義項(xiàng)。另外,我們亦設(shè)立了一些辭書(shū)未收錄的臨時(shí)用法義項(xiàng),其考量標(biāo)準(zhǔn)是在語(yǔ)料中的頻次。如“城”的活用意義“守城”并未在辭書(shū)中列出,但在語(yǔ)料庫(kù)中的例句“(李)應(yīng)庚發(fā)兩路兵城南城”“丞相嘗使籍福請(qǐng)魏其城南田”等均應(yīng)屬于“守城”意義,共約10句語(yǔ)料,因此也設(shè)立該義項(xiàng)。

      一些特殊的、不常見(jiàn)的臨時(shí)用法則不收入知識(shí)庫(kù),例如,“及其為天子三公,而立為諸侯賢相,乃始信于異眾也”,高誘注“信,知也”,可知“信”在語(yǔ)境中是“知曉”的含義,屬隨文釋義,意義具有臨時(shí)性,因而不設(shè)立義項(xiàng)。又例如,“尚得推賢不失序”中的“得”應(yīng)為“德”的借字,屬名詞用法,含義為“德,道德,有德之人”??紤]到“得”“德”的借用在語(yǔ)料庫(kù)中較為罕見(jiàn),所以不設(shè)為新義項(xiàng)。同理,“右”的“通‘侑’,勸食”義,“方”的“通‘謗’,指責(zé)別人的過(guò)失”義出現(xiàn)在極少量語(yǔ)料中,皆屬此類,均不為臨時(shí)用法新增義項(xiàng)。

      1.3.3 專有名詞

      在實(shí)際語(yǔ)料標(biāo)注中,發(fā)現(xiàn)不少詞例為專有名詞,例如,“誦”在句子“冬十一月,遣使冊(cè)高麗國(guó)王誦”中應(yīng)當(dāng)被解釋為人名;“視”在句子“以真時(shí)南北差加減之,為食甚視緯”中屬于天文術(shù)語(yǔ);“孰”在句子“上詔王僧辯鎮(zhèn)姑孰以御之”中屬于地名“姑孰”。絕大部分作專名的用法并未被傳統(tǒng)辭書(shū)收錄,而使用頻次卻相當(dāng)可觀。為了服務(wù)于后續(xù)的語(yǔ)言學(xué)及信息處理研究,本研究對(duì)專有名詞單獨(dú)設(shè)立義項(xiàng)編號(hào): s0,并按照表6所示規(guī)則標(biāo)注具體的專有名詞類別。

      表6 專名標(biāo)注示例

      在實(shí)際的語(yǔ)料標(biāo)注過(guò)程中,共有約1 800個(gè)例句的目標(biāo)詞被標(biāo)注為專有名詞,接近語(yǔ)料庫(kù)規(guī)模的4.7%。

      2 詞義標(biāo)注

      完成了基礎(chǔ)詞義知識(shí)庫(kù)的構(gòu)建后,本研究依據(jù)詞義知識(shí),在語(yǔ)料庫(kù)中標(biāo)注目標(biāo)詞的義項(xiàng),并根據(jù)標(biāo)注結(jié)果對(duì)詞義知識(shí)庫(kù)中的義項(xiàng)進(jìn)行增補(bǔ)、刪除、合并等操作。

      2.1 語(yǔ)料采樣及預(yù)處理

      從古漢語(yǔ)詞義標(biāo)注語(yǔ)料庫(kù)的建設(shè)需求出發(fā),本研究認(rèn)為語(yǔ)料選取應(yīng)符合如下原則: ①句子完整、句長(zhǎng)適中,以提供較為明確的語(yǔ)境信息; ②語(yǔ)料均衡,覆蓋了不同時(shí)代和文獻(xiàn)類型,盡可能體現(xiàn)詞義使用和分布狀況; ③無(wú)文本內(nèi)容之外的特殊符號(hào)和標(biāo)記。

      根據(jù)上述原則,本文將語(yǔ)料采樣的范圍設(shè)定于“語(yǔ)料庫(kù)在線”古代漢語(yǔ)語(yǔ)料庫(kù)(國(guó)家語(yǔ)委語(yǔ)料庫(kù))和CCL古代漢語(yǔ)語(yǔ)料庫(kù),二者均為研究者廣泛使用的古代漢語(yǔ)語(yǔ)料庫(kù),采用簡(jiǎn)體字加工,具有體量大、收錄全、覆蓋不同朝代等特點(diǎn)。從上述語(yǔ)料庫(kù)中抽取含有目標(biāo)詞的句子,每個(gè)目標(biāo)詞隨機(jī)抽取200條語(yǔ)料,并保證其朝代分布的均衡性。隨后,去除語(yǔ)料中的特殊標(biāo)記。

      2.2 詞義標(biāo)注實(shí)踐

      根據(jù)基礎(chǔ)詞義知識(shí)庫(kù),由漢語(yǔ)言文字學(xué)、古典文獻(xiàn)學(xué)專業(yè)研究生開(kāi)展語(yǔ)料標(biāo)注工作,具體遵循如下步驟。

      (1) 標(biāo)注義項(xiàng)。根據(jù)目標(biāo)詞在語(yǔ)境中的含義,從義項(xiàng)表中選擇義項(xiàng)編號(hào)。對(duì)于無(wú)法找到對(duì)應(yīng)義項(xiàng)的情況做如下標(biāo)記: 若目標(biāo)詞屬于專有名詞,則按上文所述專名編號(hào)標(biāo)記;若目標(biāo)詞義屬于知識(shí)庫(kù)未收錄的義項(xiàng),則標(biāo)為“其他”;若根據(jù)上下文難以判定義項(xiàng)歸屬則標(biāo)為“待定”;若存在句子不完整情形或目標(biāo)詞在該語(yǔ)境中有歧義,則標(biāo)記為“語(yǔ)料不宜”。

      (2) 搜集標(biāo)注反饋,統(tǒng)計(jì)義項(xiàng)頻次信息,并結(jié)合詞典描寫(xiě)調(diào)整知識(shí)庫(kù)中的義項(xiàng)列表,對(duì)詞義知識(shí)庫(kù)中的義項(xiàng)做出新增、刪除、合并等操作建議。具體來(lái)說(shuō),包括如下幾種情形: ①若語(yǔ)料庫(kù)中該義項(xiàng)出現(xiàn)至少2次,則在詞義知識(shí)庫(kù)中保留該義項(xiàng)。②若義項(xiàng)在語(yǔ)料庫(kù)中未出現(xiàn)或僅出現(xiàn)1次,參考《漢語(yǔ)大字典》的義項(xiàng)設(shè)立和例句情況,如果其為《漢語(yǔ)大字典》獨(dú)立收錄且有例句佐證用法,則保留,否則建議歸并或刪除: 如該罕見(jiàn)義項(xiàng)與其他義項(xiàng)存在較高相似性,則建議歸并,否則建議取消該義項(xiàng)的設(shè)立。③針對(duì)標(biāo)注中發(fā)現(xiàn)的“其他”義項(xiàng),如果為《漢語(yǔ)大字典》收錄且具有可觀頻次,則建議為其新增義項(xiàng);如果兩部辭書(shū)均未收錄,且僅在少量語(yǔ)料中出現(xiàn)該意義,則不設(shè)立新義項(xiàng),例如,包含目標(biāo)詞“絕”的一條語(yǔ)料: “鄉(xiāng)中少年聞其美,神魂傾動(dòng),媼悉絕之。(《聊齋志異》)”,根據(jù)文義應(yīng)當(dāng)屬 “拒絕”義,但兩部辭書(shū)中“絕”字均無(wú)“拒絕”義。考慮到此義項(xiàng)出現(xiàn)情況較少,且不宜和其余義項(xiàng)合并,因而不新立義項(xiàng)。

      (3) 針對(duì)上述操作中給出的新增、刪除、歸并等建議,由漢語(yǔ)言文字學(xué)、中文信息處理專業(yè)教師再次審訂后,確認(rèn)詞義知識(shí)庫(kù)的修訂。

      (4) 根據(jù)修訂后的詞義知識(shí)庫(kù)對(duì)語(yǔ)料標(biāo)注結(jié)果進(jìn)行修訂,以確保修訂后的詞義知識(shí)庫(kù)和語(yǔ)料標(biāo)注中義項(xiàng)的一致性。同時(shí),將詞典中的例句也作為補(bǔ)充加入語(yǔ)料庫(kù)。

      (5) 開(kāi)展知識(shí)庫(kù)和語(yǔ)料庫(kù)校對(duì)工作,首先由高年級(jí)漢語(yǔ)言文字學(xué)研究生對(duì)語(yǔ)料庫(kù)中的“待定”“其他”等條目進(jìn)行校對(duì),給出合理的標(biāo)注建議;然后由項(xiàng)目組師生對(duì)詞義知識(shí)庫(kù)和語(yǔ)料標(biāo)注結(jié)果做再次校對(duì)。

      3 語(yǔ)料庫(kù)整體規(guī)模和義項(xiàng)分布概覽

      3.1 整體規(guī)模

      第一階段的古漢語(yǔ)詞義標(biāo)注語(yǔ)料庫(kù)共收錄200個(gè)單音節(jié)多義詞,詞義知識(shí)庫(kù)中收錄的詞語(yǔ)義項(xiàng)數(shù)量為2 007個(gè),加上專名義項(xiàng)編號(hào)6種,共有2013個(gè)義項(xiàng),平均每詞義項(xiàng)數(shù)量10個(gè)。其中,有5個(gè)義項(xiàng)未出現(xiàn)在語(yǔ)料庫(kù)標(biāo)注中,這些義項(xiàng)被《王力古漢語(yǔ)字典》或《漢語(yǔ)大字典》認(rèn)為屬于本義,但未列出例句用法,如“盡”的本義“器物中空”??紤]到這些屬于本義的義項(xiàng)在引申鏈的構(gòu)建中具有較大的意義,因此保留這些低頻義項(xiàng)備考。

      目前,詞義標(biāo)注語(yǔ)料庫(kù)收錄38 720條標(biāo)注數(shù)據(jù),總計(jì)117.6萬(wàn)字。除專名外,標(biāo)注語(yǔ)料庫(kù)中的總義項(xiàng)數(shù)量為2 002個(gè),每條語(yǔ)料僅對(duì)唯一的目標(biāo)詞進(jìn)行標(biāo)注。

      3.2 義項(xiàng)分布概覽

      語(yǔ)料庫(kù)中義項(xiàng)頻度信息如圖1所示,其中,大量的義項(xiàng)僅出現(xiàn)1次,出現(xiàn)次數(shù)在5次及以下的義項(xiàng)占比51.85%,主要原因推測(cè)有兩方面: ①古漢語(yǔ)歷時(shí)跨度長(zhǎng),不少義項(xiàng)僅在個(gè)別或少數(shù)朝代使用,整體的頻次較低; ②在同一個(gè)詞形下,存在使用優(yōu)勢(shì)的義項(xiàng)占據(jù)主導(dǎo)地位,使得其他義項(xiàng)比例較低。

      圖1 語(yǔ)料庫(kù)中的義項(xiàng)頻次分布情況

      為了解詞義分布的真實(shí)情況,僅依靠統(tǒng)計(jì)詞義標(biāo)注語(yǔ)料庫(kù)中對(duì)應(yīng)目標(biāo)詞的標(biāo)注結(jié)果(約200條/詞)是不夠的,因而我們可通過(guò)有監(jiān)督的詞義消歧技術(shù),對(duì)大規(guī)模語(yǔ)料進(jìn)行義項(xiàng)標(biāo)注,從而獲得義項(xiàng)真實(shí)的分布情況。

      4 詞義標(biāo)注語(yǔ)料庫(kù)的應(yīng)用

      4.1 古漢語(yǔ)詞義消歧

      依托詞義標(biāo)注語(yǔ)料資源,可以實(shí)現(xiàn)有監(jiān)督的多義詞消歧。Hu等[5]以牛津英語(yǔ)詞典的例句作為訓(xùn)練語(yǔ)料,將每個(gè)義項(xiàng)不多于10條例句作為訓(xùn)練集,通過(guò)BERT語(yǔ)言模型獲得各個(gè)義項(xiàng)的語(yǔ)境向量表示。針對(duì)新語(yǔ)料中的目標(biāo)詞,計(jì)算該詞的語(yǔ)境向量與該詞形各個(gè)義項(xiàng)向量的相似度,將相似度最高的義項(xiàng)確定為該句中目標(biāo)詞所屬義項(xiàng)。類似地,本研究嘗試將義項(xiàng)標(biāo)注語(yǔ)料庫(kù)資源劃分為訓(xùn)練集和測(cè)試集,開(kāi)展詞義消歧實(shí)驗(yàn)。

      本研究采用的語(yǔ)言模型來(lái)自胡韌奮等[11]構(gòu)建的古漢語(yǔ)BERT模型,該模型由總計(jì)33億字的殆知閣古代文獻(xiàn)藏書(shū)2.0版語(yǔ)料庫(kù)訓(xùn)練而成。由于訓(xùn)練語(yǔ)料庫(kù)中繁簡(jiǎn)體混雜,考慮到繁體轉(zhuǎn)簡(jiǎn)體的準(zhǔn)確率更高,模型研發(fā)者將訓(xùn)練語(yǔ)料統(tǒng)一轉(zhuǎn)換為簡(jiǎn)體。本研究選擇該模型進(jìn)行詞義消歧,是因?yàn)槠溆?xùn)練語(yǔ)料和本研究所使用的語(yǔ)料較為接近,均來(lái)自存世古代漢語(yǔ)典籍,且都有朝代跨度廣、涵蓋文體多的特點(diǎn)。

      考慮到古漢語(yǔ)詞義標(biāo)注語(yǔ)料庫(kù)中,每個(gè)義項(xiàng)下的例句樣本較小,實(shí)驗(yàn)設(shè)定了2~10共9種閾值,在不同閾值下進(jìn)行詞義消歧實(shí)驗(yàn)。閾值表示對(duì)于某一個(gè)義項(xiàng),若例句數(shù)量超過(guò)該閾值,則將其納入消歧實(shí)驗(yàn)。設(shè)立不同閾值可以較好地檢驗(yàn)和對(duì)比小樣本情境下消歧方法的效果。當(dāng)某個(gè)義項(xiàng)的例句數(shù)量為2、3、4時(shí),實(shí)驗(yàn)劃分出1條例句作為測(cè)試,其余例句歸入訓(xùn)練集。當(dāng)閾值大于或等于5時(shí),按照8: 2的比例劃分訓(xùn)練、測(cè)試集。考慮到語(yǔ)料庫(kù)中約52%的義項(xiàng)只有1~5條例句,這樣的劃分方法能夠較為真實(shí)地反映詞義消歧模型的效果。

      不同閾值下詞義消歧的數(shù)據(jù)劃分結(jié)果及準(zhǔn)確率如表7所示。

      表7 詞義消歧實(shí)驗(yàn)數(shù)據(jù)

      句子數(shù)量閾值為2時(shí),模型達(dá)到了高于75%的準(zhǔn)確率,而隨著閾值的增高,消歧準(zhǔn)確率也進(jìn)一步提高,當(dāng)訓(xùn)練樣本數(shù)量達(dá)到5(即閾值取6)時(shí),詞義消歧準(zhǔn)確率達(dá)到80%以上。實(shí)驗(yàn)結(jié)果顯示,本研究構(gòu)建的古漢語(yǔ)詞義標(biāo)注語(yǔ)料庫(kù)可以作為詞義消歧技術(shù)的基礎(chǔ)語(yǔ)言資源,基于BERT語(yǔ)言模型的小樣本詞義標(biāo)注方法達(dá)到了一定的準(zhǔn)確率。如能進(jìn)一步有針對(duì)性地人工增補(bǔ)例句,確保每條義項(xiàng)的例句數(shù)量達(dá)到一定閾值以上,該方法將可能取得更好的效果。

      接下來(lái),我們對(duì)低閾值和高閾值下模型判斷錯(cuò)誤的數(shù)據(jù)進(jìn)行人工分析,歸納總結(jié)出兩種典型的情況:

      典型情況一: 閾值的提升糾正了原本判斷錯(cuò)誤的義項(xiàng)。例句“束書(shū)辭東山,改服臨北風(fēng)。”中的目標(biāo)詞“書(shū)”正確的義項(xiàng)應(yīng)為“s4-書(shū)籍,裝訂成冊(cè)的著作”。在閾值為2時(shí),目標(biāo)詞被模型自動(dòng)標(biāo)注為“s2-文字”,屬于標(biāo)注錯(cuò)誤的案例。而當(dāng)閾值為10時(shí),義項(xiàng)被正確標(biāo)注了。對(duì)此本文認(rèn)為可能的原因是: 閾值較高時(shí),低頻義項(xiàng)不參與訓(xùn)練,這減少了目標(biāo)詞在義項(xiàng)消歧時(shí)的候選義項(xiàng)數(shù)量,增加了消歧準(zhǔn)確率。另外,相較于高頻義項(xiàng),低頻義項(xiàng)由于參考例句較少,其義項(xiàng)向量難以得到充分的表示。

      典型情況二: 高閾值時(shí)仍然判斷錯(cuò)誤的義項(xiàng)。目標(biāo)詞“慕”在例句“湯、禹久遠(yuǎn)兮,邈而不可慕?!敝械恼_義項(xiàng)為“s2-羨慕”,而模型標(biāo)注為“s1-思念,依戀”。原因可能是這兩個(gè)義項(xiàng)本身較為接近,且上下文未提供足夠信息。類似的誤判有: “九者彼來(lái)加我,志在不報(bào)?!钡摹皥?bào)”本應(yīng)標(biāo)為“s1-報(bào)答,報(bào)酬”,卻被模型標(biāo)為“s7-報(bào)復(fù)”;例句“子思,字眾念,性剛暴,恒以忠烈自許。元天穆當(dāng)朝權(quán),以親從薦為御史中尉。”中的目標(biāo)詞“朝”本應(yīng)標(biāo)為“s3-朝廷”,而被模型標(biāo)為“s8-政事”。

      4.2 古漢語(yǔ)歷時(shí)詞義演變

      歷時(shí)詞義演變研究依托大規(guī)模的歷時(shí)語(yǔ)料庫(kù),旨在還原多義詞義項(xiàng)在一段歷史時(shí)期內(nèi)頻率的變化,發(fā)現(xiàn)詞語(yǔ)義項(xiàng)產(chǎn)生、消亡和義項(xiàng)之間的競(jìng)爭(zhēng)等關(guān)系[12]。在本研究中的詞義消歧模型獲得一定準(zhǔn)確率的基礎(chǔ)上,可以使該模型自動(dòng)標(biāo)注大量歷時(shí)語(yǔ)料中的目標(biāo)詞詞義,從而獲得義項(xiàng)的歷時(shí)分布。

      本文以多義詞“使”為例,從國(guó)家語(yǔ)委古漢語(yǔ)語(yǔ)料庫(kù)中隨機(jī)抽取20 000條帶有時(shí)代信息、且包含目標(biāo)詞“使”的語(yǔ)料,以詞義標(biāo)注語(yǔ)料庫(kù)中所有目標(biāo)詞為“使”的例句作為訓(xùn)練集,建立目標(biāo)詞“使”的詞義標(biāo)注模型。用該模型對(duì)20 000條帶有時(shí)代標(biāo)簽的語(yǔ)料進(jìn)行義項(xiàng)自動(dòng)標(biāo)注,梳理各個(gè)主要義項(xiàng)的歷時(shí)分布情況,對(duì)曲線進(jìn)行四次多項(xiàng)式擬合,其結(jié)果如圖2所示。

      圖2 “使”各義項(xiàng)的歷時(shí)變化趨勢(shì)

      從圖中各義項(xiàng)的歷時(shí)變化趨勢(shì)可見(jiàn),“使”作為(君主)使者的含義在先秦即有,而作為官職名稱則可能在漢代以后出現(xiàn),隨后激增。到了清朝,“使”作為官職名稱成為文獻(xiàn)中最常見(jiàn)的義項(xiàng)。相反的,“命令、派遣”和“致使”意義在先秦頻率較高,但二者的占比在后期總體呈現(xiàn)下降趨勢(shì)。

      4.3 輔助詞典編撰

      除了歷時(shí)詞義分析之外,各義項(xiàng)的向量表示也可以作為詞典劃分義族的參考。本文根據(jù)詞義標(biāo)注語(yǔ)料庫(kù),使用古漢語(yǔ)BERT語(yǔ)言模型獲得了多義詞“望”的各義項(xiàng)的向量表示。通過(guò)計(jì)算各義項(xiàng)向量之間的余弦相似度或采用層次聚類方法,可以獲得各義項(xiàng)之間的親疏關(guān)系。層次聚類圖中,目標(biāo)合并的先后順序標(biāo)志著所屬類別的遠(yuǎn)近。另外,對(duì)詞義向量做PCA降維,可以直觀地在語(yǔ)義空間圖中查看義項(xiàng)之間的位置遠(yuǎn)近。以詞語(yǔ)“望”為例。在《王力古漢語(yǔ)字典》中,“望”未單列“希圖,企圖”和“向,對(duì)著”義項(xiàng),這兩個(gè)義項(xiàng)被《漢語(yǔ)大字典》單列,且在實(shí)際標(biāo)注過(guò)程中分別有22和13條例句被標(biāo)為該義項(xiàng),因而我們?cè)谠~義知識(shí)庫(kù)的構(gòu)建過(guò)程中新增了這兩個(gè)義項(xiàng)。為了描述這兩個(gè)義項(xiàng)與其他義項(xiàng)之間的關(guān)系,本文采用層次聚類的方法,以常用的歐氏距離作為距離計(jì)算公式。如層次聚類圖(圖3)所示,首先目標(biāo)義項(xiàng)“向,對(duì)著”和“遠(yuǎn)望”合并、另一個(gè)目標(biāo)義項(xiàng)“希圖,企圖”和“期望,盼望”合并,接著這兩個(gè)小類合并后,與“名望”合并,最后,兩個(gè)邊緣義項(xiàng)“望日”和“遙祭”合并后再并入其中。

      圖3 “望”各主要義項(xiàng)的層次聚類情況

      進(jìn)一步地,如圖4所示,降維后的語(yǔ)義空間反映了義項(xiàng)向量在三維空間中的相對(duì)位置關(guān)系,雖然降維過(guò)程丟失了高維空間中的一些細(xì)節(jié),但是還是可以直觀地看到義項(xiàng)“遙祭”和“望日”屬于邊緣義項(xiàng),而“遠(yuǎn)望”和“向,對(duì)著”,“期望,盼望”和“希圖,企圖”之間兩兩具有緊密聯(lián)系。

      圖4 “望”各主要義項(xiàng)向量在降維后的語(yǔ)義空間中的相對(duì)位置

      因此本文認(rèn)為“望”的義項(xiàng)“希圖,企圖”和“向,對(duì)著”有可能屬于引申義,“希圖,企圖”與“期望,盼望”義項(xiàng)關(guān)系密切,“向,對(duì)著”和“遠(yuǎn)望”義項(xiàng)之間關(guān)系密切。考慮到義項(xiàng)“遠(yuǎn)望”在《王力古漢語(yǔ)字典》中被認(rèn)為是本義,而《漢語(yǔ)大字典》中義項(xiàng)“向,對(duì)著”的最早用例來(lái)自馬王堆帛書(shū)的“日月相望”,則推測(cè)義項(xiàng)“向,對(duì)著”是由本義經(jīng)過(guò)語(yǔ)法化的過(guò)程而產(chǎn)生的近引申義。5結(jié)論本文以古漢語(yǔ)詞義標(biāo)注語(yǔ)料庫(kù)為研究對(duì)象,基于傳統(tǒng)辭書(shū)和語(yǔ)料庫(kù)中的義項(xiàng)頻率,設(shè)計(jì)了古漢語(yǔ)多義詞的詞義劃分原則,以200個(gè)常用古漢語(yǔ)單音節(jié)多義詞為例,構(gòu)建了詞義級(jí)別的知識(shí)庫(kù),并據(jù)此對(duì)包含多義詞的語(yǔ)料開(kāi)展詞義標(biāo)注。現(xiàn)有的語(yǔ)料庫(kù)包含3.87萬(wàn)條標(biāo)注數(shù)據(jù),規(guī)模超過(guò)117萬(wàn)字,豐富了古代漢語(yǔ)領(lǐng)域的語(yǔ)言資源。實(shí)驗(yàn)顯示,基于該語(yǔ)料庫(kù)和BERT語(yǔ)言模型,詞義消歧算法準(zhǔn)確率可達(dá)到80%左右。在此基礎(chǔ)上,本文介紹了該語(yǔ)言資源在古漢語(yǔ)詞義歷時(shí)演變研究、輔助詞典編撰中的應(yīng)用案例。未來(lái),該資源和相關(guān)算法還為文白機(jī)器翻譯、文言文信息抽取、古漢語(yǔ)詞匯語(yǔ)法現(xiàn)象研究等提供參考和借鑒。值得一提的是,本研究提出的古漢語(yǔ)詞義標(biāo)注語(yǔ)料庫(kù)依然存在規(guī)模較小的問(wèn)題,為確保提升該資源的應(yīng)用價(jià)值,我們將在未來(lái)的研究中對(duì)其做進(jìn)一步的擴(kuò)充和更新。

      猜你喜歡
      消歧王力古漢語(yǔ)
      保險(xiǎn)理賠知多少
      基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
      古漢語(yǔ)疑問(wèn)句末“為”字補(bǔ)證
      王力手跡
      詩(shī)選刊(2021年1期)2021-01-04 04:16:14
      基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
      藝術(shù)百家:王力
      上古漢語(yǔ)“施”字音義考
      藏文歷史文獻(xiàn)識(shí)別過(guò)程中藏文自由虛詞的自動(dòng)識(shí)別及消歧算法的研究
      為王力先生一辯
      談?wù)劰艥h語(yǔ)的翻譯
      松滋市| 南郑县| 龙里县| 马龙县| 泾阳县| 黔东| 仙桃市| 博爱县| 铜山县| 义乌市| 阜新市| 曲水县| 蓬溪县| 嘉义县| 贵州省| 鹰潭市| 新巴尔虎右旗| 兴宁市| 张家港市| 栾城县| 蕉岭县| 淄博市| 榆社县| 万源市| 沾化县| 固原市| 土默特右旗| 共和县| 昌乐县| 谢通门县| 泽州县| 新泰市| 衡阳县| 甘泉县| 福建省| 定安县| 临洮县| 蚌埠市| 昌邑市| 弋阳县| 巩义市|