劉鵬遠,劉玉潔
(北京語言大學(xué) 信息科學(xué)學(xué)院,北京 100083)
名詞是人類語言最基本的詞類范疇之一,包含了大量思維和認知信息,在語言學(xué)研究中占有非常重要的地位。名詞短語不但一直是中外語言學(xué)領(lǐng)域的重要研究對象,近年來在自然語言處理領(lǐng)域也受到研究者的持續(xù)關(guān)注。
國外,Downing[1]針對英語復(fù)合名詞短語提出了十二類語義關(guān)系。國內(nèi),呂叔湘先生[2]將作定語修飾成分的名詞與中心名詞之間的關(guān)系分成三大類。隨后,眾多學(xué)者針對名詞短語提出了很多語義關(guān)系分類方法,但鮮有基于語料庫大規(guī)模實例的驗證。
Vanderwende[3-4]首先進行了名詞短語語義關(guān)系標(biāo)注知識庫建設(shè)的嘗試,但規(guī)模很小。目前最大的英語復(fù)合名詞短語語義關(guān)系知識庫是Tratz&Hovy[5]建立的,該庫共含有17 509條短語,標(biāo)注了十二類語義關(guān)系,每一個大類關(guān)系下還分了小類,也進行了語義關(guān)系標(biāo)注。迄今為止,漢語并無類似的開放語義資源,僅有魏雪和袁毓林[6-7]以隱含謂詞的識別和自動釋義為目的而建立的名名搭配知識庫,規(guī)模為638條,暫沒有開放。
建立復(fù)合名詞短語語義關(guān)系體系,并建立基于該體系且具有一定規(guī)模的知識庫,可以幫助研究者們分析及發(fā)現(xiàn)名詞短語的句法語義規(guī)律,對名詞短語的自動釋義、語義關(guān)系自動分類及名詞短語復(fù)述等相關(guān)任務(wù)的研究具有很大價值。本文針對基本復(fù)合名詞短語[注]復(fù)合名詞短語源于英語研究者所用“Noun Compounds”,意為多個名詞復(fù)合而成的短語,整體表現(xiàn)類似一個名詞。本文將該結(jié)構(gòu)的名詞個數(shù)限定為2,這樣的結(jié)構(gòu)是復(fù)合名詞短語中最“基本”的一類,因此加上“基本”,對復(fù)合名詞短語做詞數(shù)限制。以下簡稱“NN短語”。,對中外眾多學(xué)者提出的語義分類體系進行梳理,并以Levi[8-9]的語義分類體系為基礎(chǔ),結(jié)合漢語相關(guān)研究及漢語自身特點,在反復(fù)考察大規(guī)模語料庫中基本復(fù)合名詞短語實例的基礎(chǔ)上,建立了中文基本復(fù)合名詞短語語義分類體系;并利用該體系,對18 218條新聞領(lǐng)域高頻基本復(fù)合名詞短語進行了人工標(biāo)注。標(biāo)注內(nèi)容包括:語義關(guān)系,句法結(jié)構(gòu),語義類及是否實體指稱等信息。
本文后續(xù)組織如下:第1節(jié)對相關(guān)研究進行了綜述;第2節(jié)介紹NN短語的語義關(guān)系分類體系以及知識庫構(gòu)建;第3節(jié)是對建立的知識庫的語義基本情況的考察;最后一節(jié)對全文進行總結(jié)。
國外復(fù)合名詞短語語義關(guān)系分類的研究主要有兩種路線,其一是通過復(fù)合短語內(nèi)部各個成分的語義類來定義其語義關(guān)系(始于Downing[1]),另一種則是基于刪除謂詞的語義類來定義復(fù)合名詞短語內(nèi)部成分的語義關(guān)系(始于Levi[8]及Warren[10])。
Downing[1]認為,對于某一個有限數(shù)量的語義或語法種類的關(guān)系,可以作為短語關(guān)系的潛在關(guān)系。他提出了十二類語義關(guān)系:(1)Whole-Part;(2)Half-Half;(3)Part-Whole;(4)Composition;(5)Comparison;(6)Time;(7)Place;(8)Source;(9)Product;(10)User;(11)Purpose;(12)Occupation。
Levi[8-9]在對英語復(fù)合名詞短語的研究中,通過刪除謂詞對獲得的“ N1+N2”復(fù)合名詞短語的名詞成分之間的語義關(guān)系進行分類,并根據(jù)可刪除謂詞的語義類,提出了此種結(jié)構(gòu)中作修飾成分的名詞和核心名詞之間的十二種語義關(guān)系:(1)N1 CAUSE N2;(2)N2 CAUSE N1;(3)N1 HAVE N2;(4)N2 HAVE N1;(5)N1 MAKE N2;(6)N2 MAKE N1;(7)N2 USE N1;(8)N2 BE N1;(9)N2 IN N1;(10)N2 FOR N1;(11)N2 FROM N1;(12)N2 ABOUT N1。
Warren[10]認為復(fù)合名詞短語的一個特點就是其中的抽象語義關(guān)系,這種語義關(guān)系由四個層級組成,最頂層有六種粗粒度的語義關(guān)系,分別為(1)Possession;(2)Location; (3)Purpose;(4)Activity-Actor;(5)Resemblance;(6)Constitute;而每一大類下面又包含眾多細粒度語義關(guān)系類型。
隨后的研究者在以上研究基礎(chǔ)上繼續(xù)改造或細化,陸續(xù)見文獻[5,11-14]等。
國內(nèi)傳統(tǒng)漢語相關(guān)研究中,復(fù)合名詞短語內(nèi)部名詞之間的關(guān)系集中在修飾語(定語)和中心語的關(guān)系上,相關(guān)研究常常面向包括如“N1+(的)+N2”結(jié)構(gòu)或其他名詞中間插入了其他成分的結(jié)構(gòu),統(tǒng)一將之視為名詞作修飾語(定語)的情況進行討論。呂叔湘[2]將作定語的修飾成分名詞和中心名詞的關(guān)系分為領(lǐng)屬性的、描寫性的、同位性的;朱德熙[15]提出修飾語和中心語意義上的聯(lián)系是多種多樣的,主要包括表示領(lǐng)屬者、表示質(zhì)料、表示時間、表示處所等。
相關(guān)研究成果如按照類別數(shù)量可分為兩類。一類是兩類說(兩大類,大類下可能再分為小類):袁毓林[16]將名詞作定語的情況分為領(lǐng)屬定語和屬性定語兩大類;張衛(wèi)國等[17]將名詞作定語的情況分為限定性和區(qū)別性兩大類;李宇明[18]將“N1的N2”的結(jié)構(gòu)中,名詞之間的關(guān)系分為屬性關(guān)系和非屬性關(guān)系;文貞惠[19]將“N1(的)N2”結(jié)構(gòu)中名詞之間的語義關(guān)系分為領(lǐng)有范疇和屬性范疇兩大類;后續(xù)還有藺璜[20]及譚景春[21]的相關(guān)研究。另一類是多類說:黃國營[22]認為“N1的N2”中名詞之間的語義關(guān)系共有十種:領(lǐng)屬、屬性、材料、比喻、同一、相關(guān)、成數(shù)、施事、受事、舉例;孔令達[23]又進一步將其細分為十四類;單強、牛守禎[24]將名詞作定語的情況分為領(lǐng)屬、數(shù)量、時間及處所定語等;馬洪海[25]考察了“名+名”偏正結(jié)構(gòu)和復(fù)指結(jié)構(gòu),將偏正結(jié)構(gòu)語義關(guān)系分為七類,把復(fù)指關(guān)系的名名組合語義關(guān)系分為了八類;周日安[26]歸納出18種復(fù)合名詞短語語義格組合;魏雪[27]歸納出了26種語義組合關(guān)系。
從語言信息處理角度,對應(yīng)的是槽關(guān)系的研究,如魯川[28]、林杏光和張慶旭[29]等。但更多的研究并不是聚焦在復(fù)合名詞短語上,而是在漢語所有結(jié)構(gòu)的語義關(guān)系層面進行的研究,如馮志偉[30]根據(jù)依存句法提出了30種論元關(guān)系;魯川[28]提出的意合網(wǎng)絡(luò)中歸納出了6大類,共26種關(guān)系;董振東[31]等人提出事件內(nèi)部語義關(guān)系總計83類,分為語義角色及輔語義角色;劉開瑛[32]基于CFN概括了31個常用的周邊語義角色。
總的來說,前人的相關(guān)研究中,國外已有成系統(tǒng)的短語內(nèi)部名詞之間的語義關(guān)系體系,且在此基礎(chǔ)上形成的研究成果頗豐。而國內(nèi)的研究往往是針對名詞作定語的情形對名詞定語進行分類,缺少對NN短語的針對性研究。在NN短語中,其結(jié)構(gòu)類型也是多樣的,不僅有定中結(jié)構(gòu),還有同位結(jié)構(gòu)、主謂結(jié)構(gòu)和聯(lián)合結(jié)構(gòu)等。針對NN短語的研究缺乏相應(yīng)的語義關(guān)系分類體系,僅僅以語義的組合來代替短語內(nèi)部名詞之間的語義關(guān)系,難以體現(xiàn)語義組合內(nèi)部的深層關(guān)系。
國外最早由B Rosario&M Hearst[33]建立了包含1 660條名詞短語及其語義關(guān)系的知識庫。隨后Kim&Baldwin[34]、D ó Séaghdha&Copestake[14]及Girju[13]分別構(gòu)建了包含短語及相應(yīng)語義關(guān)系的知識庫,規(guī)模分別為2 169、1 443及2 031條。目前國外最大的名詞短語語義關(guān)系知識庫規(guī)模為17 509條,由Tratz&Hovy[5]所構(gòu)建,該知識庫標(biāo)注了語義關(guān)系及名詞詞性。
嚴格說來,漢語目前尚無類似的知識庫資源,特別是開放資源。肖國政建立了基于語義依存圖的漢語復(fù)雜名詞短語資源,但沒有資源規(guī)模等信息。魏雪和袁毓林[6-7]以隱含謂詞的識別和自動釋義為目的建立的名名搭配知識庫,規(guī)模為638條。盧涌[35]針對“名詞+的+名詞”的結(jié)構(gòu)總結(jié)出了三十多個釋義模板,形成了一個短語釋義庫,規(guī)模為1 000條。以上資源均未對外開放。其余語義關(guān)系知識庫資源并非針對復(fù)合名詞短語,詞匯級別的主要有知網(wǎng)等,句子級別的有哈工大和北語聯(lián)合開發(fā)的語義依存關(guān)系標(biāo)注語料庫等。
為保證NN短語的規(guī)范性,本文基礎(chǔ)數(shù)據(jù)來源為新聞?wù)Z料,選自國家語言資源動態(tài)流通語料庫(DCC)2005年至2015年的全年報刊數(shù)據(jù),共超過30億字次。我們使用LTP平臺和jieba分詞對語料進行分詞及詞性標(biāo)注,以連續(xù)詞性為“名詞名詞”的序列為識別模式,抽取上述兩種分詞結(jié)果,得到模式的交集,最終得到290多萬條NN短語,其中出現(xiàn)頻次在100以上的有22 474條。
在這些NN短語中,有小部分不屬于本文考察范圍,主要包含以下三種情況:
(1)多層嵌套名詞結(jié)構(gòu)的一部分。例如,“《今日美國》報道,中國國家統(tǒng)計局公布的中國經(jīng)濟成績單提振了全球市場信心”?!爸袊鴩摇笔切稳纭爸袊鴩襒XX”的一部分,隨著該類型結(jié)構(gòu)的大量出現(xiàn),導(dǎo)致“中國國家”頻次較高。
(2)分詞粒度不一致。例如,“其中,進城務(wù)工人員子女的教育,特別是義務(wù)教育問題日益引起了社會的關(guān)注”。分詞工具將“務(wù)工人員”視為一個名詞,而實際上“務(wù)工人員”是兩個詞構(gòu)成的短語,根據(jù)本文的定義,“務(wù)工人員子女”就不是本文關(guān)注的NN短語。
(3)詞性標(biāo)注錯誤。例如,“民警隨即將犯罪嫌疑人王某龍及其車輛帶回調(diào)查”。分詞工具將“犯罪”標(biāo)注成名詞,而該詞只有動詞詞性,故而“犯罪嫌疑人”非NN短語。
經(jīng)過人工分析和確認后,共從出現(xiàn)頻次100以上的22 474條短語中篩選18 281條NN短語用于本文的研究。
漢語相關(guān)研究中,并沒有針對NN短語建立的語義關(guān)系體系。本文參考研究與應(yīng)用最為廣泛的Levi體系(英語),結(jié)合漢語中對名詞短語的相關(guān)研究成果,對上述18 281條短語進行了反復(fù)試標(biāo)注,由于漢語與英語NN短語存在很大差異,本文最終所建立的漢語NN短語語義關(guān)系體系與Levi體系有較大的差別。本文建立的語義關(guān)系體系共包含十四類語義關(guān)系:
(1) Cause: 致使/引起/導(dǎo)致(因果關(guān)系)
N1是導(dǎo)致N2產(chǎn)生的直接原因或N2是導(dǎo)致N1形成的直接原因。
① 原因+結(jié)果: 地震災(zāi)區(qū)(由于地震形成的災(zāi)區(qū))、病毒感冒(由病毒引起的感冒);
② 結(jié)果+原因: 禽流感病毒(引起禽流感的病毒)、事故車輛(造成事故的車輛)。
(2) Have: 患有/含有/擁有(領(lǐng)有關(guān)系)
可以用“有”相關(guān)的詞來解釋。 N1是N2的外部特征。
① 患有: 自閉癥兒童(患有自閉癥的兒童)、 重癥病例(患有重癥的病例);
② 擁有: 技術(shù)人才(擁有技術(shù)的人才)、實體書店(有實體的書店)、武裝分子(擁有武裝的人);
③ 含有: 碳酸飲料(含有碳酸的飲料)。
(3) Make: 用……做成/由……組成(做成組成關(guān)系)
N1是N2的主要和直接組成成分。
① 材料成分: 木頭桌子(用木頭做的桌子)、水果沙拉(主要用水果做成的沙拉);
② 成員: 志愿者隊伍(由志愿者組成的隊伍)。
(4) Use: 使用……做/采用(使用關(guān)系)
N1是 N2的使用工具、使用方法和使用材料??梢酝ㄟ^“用”類相關(guān)動詞來連接釋義。
① 用工具: 砂鍋排骨(用砂鍋燉的排骨)、鋼琴協(xié)奏曲(用鋼琴彈奏的協(xié)奏曲);
② 用原料: 燃氣熱水器(使用燃氣的熱水器)、汽油發(fā)動機(使用汽油的發(fā)動機)、激光武器(使用激光的武器);
③ 用方式: 法治中國(采用法治方式治理的中國)、冷鏈物流(使用制冷技術(shù)的物流)。
(5) Be: 是(屬性說明關(guān)系)
N1對N2某種屬性的說明和補充,N1和N2是從不同側(cè)面對同一事物的描述。
① 指稱: 總統(tǒng)普京(總統(tǒng)[姓名]是普京)、英雄黃繼光(英雄[姓名]是黃繼光)、埃博拉病毒([名字]是埃博拉的病毒)、深圳特區(qū)([名字]是深圳的特區(qū))、東風(fēng)汽車([品牌]是東風(fēng)的汽車);
② 補充: 老王夫婦、夫妻雙方、母女關(guān)系;
③ 陳述: 今天星期一(今天是星期一)、明天晴天(明天是晴天)。
(6) For: 為了/用于(目的關(guān)系)
N1是N2的用途,包括目的和目標(biāo)兩個方面。
① 目的: 公益項目(為了公益而……的項目)、慈善基金(為了慈善目的的而成立的基金);
② 目標(biāo): 嬰幼兒配方(用于嬰幼兒的配方)、兒童牛奶(用來給兒童喝的牛奶)。
(7) From(來源關(guān)系)
表示N1是N2事物的來源。
① 具體: 中國游客(來自中國的游客),新華社消息(來自新華社的消息);
② 抽象: 部門規(guī)定(來自部門的規(guī)定)、社會需求(來自社會的需求)。
(8) Do: 從事/教/生產(chǎn)(從事關(guān)系)
N1是N2所從事的工作,可以是領(lǐng)域或者內(nèi)容等。 N2可以是人或者機構(gòu)等。
① 領(lǐng)域: 互聯(lián)網(wǎng)精英(從事互聯(lián)網(wǎng)領(lǐng)域工作的精英)、生物學(xué)者(從事生物相關(guān)研究的學(xué)者);
② 內(nèi)容: 鋼鐵工人(生產(chǎn)鋼鐵的工人)、英語教師(教英語的教師)。
(9) Like(比喻關(guān)系)
N1是對N2的比喻或者隱喻。往往可以用“像……一樣”來解釋。
例如: 金磚國家(像金磚一樣的國家)、 影子銀行(像影子一樣的銀行)。
(10) Of(屬性屬于關(guān)系)
① 屬于: 廣汽豐田(屬于廣汽的豐田品牌)、集體財產(chǎn)(屬于集體的財產(chǎn))、消費者權(quán)益(屬于消費者的權(quán)益);
② 屬性: 中國特色( 中國的特色)、西洋風(fēng)格(西洋的風(fēng)格)、產(chǎn)品質(zhì)量( 產(chǎn)品的質(zhì)量)。
(11) Locate/In(位于關(guān)系)
N1 和 N2 在空間上有包含和被包含的關(guān)系。
例如: 杭州西湖,英國倫敦。
(12) And(并列關(guān)系)
N1和N2在語義上處于平等位置,屬于并列列舉關(guān)系。
例如: 華人華僑、田間地頭、爸爸媽媽。
(13) Time(時間關(guān)系)
N1和 N2有時間上有先后或者時間點和時間段的包含關(guān)系。
例如: 昨天下午、去年春天。
(14) Content(內(nèi)容關(guān)系)
N1是N2所指稱事物的具體內(nèi)容。N2通常是相對抽象和概括類的名詞。
例如: 能源項目(內(nèi)容是能源方面的項目)、戶籍政策(內(nèi)容是有關(guān)戶籍的政策)、質(zhì)量報告(內(nèi)容是有關(guān)質(zhì)量的報告)
NN短語知識庫標(biāo)注內(nèi)容主要分為結(jié)構(gòu)和語義兩個方面。結(jié)構(gòu)是指基本短語內(nèi)部兩個名詞之間的結(jié)構(gòu)關(guān)系;語義則包括三部分,一是組成短語的名詞所屬的語義類別,二是組成短語的名詞之間的語義關(guān)系,三是基本復(fù)合名詞短語是否指稱一個命名實體。其中語義類別的標(biāo)注根據(jù)上一節(jié)中建立的語義關(guān)系體系進行標(biāo)注。數(shù)據(jù)條目標(biāo)注示例如表1 所示。
表 1 數(shù)據(jù)條目標(biāo)注示例
2.3.1 短語結(jié)構(gòu)關(guān)系標(biāo)注
基本復(fù)合名詞短語的內(nèi)部語法結(jié)構(gòu)包含四種: 定中結(jié)構(gòu)、聯(lián)合結(jié)構(gòu)、同位結(jié)構(gòu)和主謂結(jié)構(gòu)。以每種結(jié)構(gòu)的拼音縮寫為標(biāo)記來對短語進行標(biāo)記,即分別標(biāo)記為dz(定中)、lh(聯(lián)合)、tw(同位)、zw(主謂)。
定中結(jié)構(gòu): 定中短語由有修飾關(guān)系的兩部分組成,構(gòu)成短語的兩個名詞中,前者為修飾語,后者為中心語。例如: 中國人民、工作會議。
聯(lián)合結(jié)構(gòu): 聯(lián)合短語由語法地位平等的兩項組成,內(nèi)部詞語之間是聯(lián)合關(guān)系。例如: 華人華僑、好人好事。
同位結(jié)構(gòu): 同位短語是指構(gòu)成短語的詞語不同,但所指的是同一事物,且二者語法地位相同。其與聯(lián)合短語的不同之處在于,構(gòu)成聯(lián)合短語的兩個名詞指的是不同的事物,而同位短語則是用不同的詞語指稱相同的事物。例如: 首都北京、習(xí)近平主席。
主謂結(jié)構(gòu): 主謂短語由有陳述關(guān)系的兩個成分組成,前面是主語,表示說的是人或者事物,后面陳述的部分是謂語,說明主語的狀態(tài)或者是什么。例如: 今天星期一、明天晴天。
2.3.2 名詞語義類標(biāo)注
本文用北京大學(xué)的《現(xiàn)代漢語語義詞典》(SKCC)為參考標(biāo)準,進行短語內(nèi)部名詞語義類別的標(biāo)注。根據(jù)SKCC的語義類體系,我們在其基礎(chǔ)上添加了幾個小類: 一是在“個人”下面添加了“稱謂”;二是將除人名、地名以外的命名詞統(tǒng)一提出來標(biāo)注為“命名詞”,如建筑物名、游戲名、舞蹈名等。
對于名詞的語義類標(biāo)注,本文遵循以下幾個原則:
① 標(biāo)簽盡量細致。也就是能標(biāo)小類的盡量標(biāo)注小類,實在無法細分的,可以標(biāo)為上層標(biāo)簽。例如: “白色” ——顏色(抽象事物);利益——抽象事物。
② 對于 SKCC 中沒有的詞,本文采用相似詞標(biāo)簽相同的原則。例如: 詞典中沒有“婦科”等詞,但是有“骨科”,并且標(biāo)簽為“領(lǐng)域|處所”。根據(jù)詞語相似原則,也將“婦科”標(biāo)注為“領(lǐng)域|處所”。
③ 對于 SKCC 中同類詞標(biāo)簽不一致的地方,要更正并標(biāo)注正確標(biāo)簽。例如: 詞典中將“綠色/藍色”標(biāo)注為“顏色”,但把“紅色”標(biāo)注為“抽象事物”,把“紫紅色”標(biāo)注為“外形”。將顏色類的詞統(tǒng)一標(biāo)注為“顏色”。
④ 對用普通名詞作為命名詞的情形,“命名詞”和原有的語義類都要標(biāo)注,二者用“|”隔開。例如: “花園小區(qū)”中的“花園”,標(biāo)為“命名詞|建筑物”。
2.3.3 命名實體標(biāo)注
對于狹義的命名實體,采用以下的判斷原則:
① 符號性: 命名實體是唯一一個個體的專有名稱,是一個區(qū)別性稱謂,具有代號性質(zhì)。
② 命名實體所指稱的事物不可向下再分類。
③ 命名實體所指稱的事物是世上獨一無二的,通常不可以被數(shù)量詞修飾;一旦以數(shù)量詞修飾,命名實體就被轉(zhuǎn)義了。
廣義上,命名實體還包括一些非概念性稱謂,如“厄爾尼諾現(xiàn)象”“格力空調(diào)”。這種非概念性稱謂一般只具備符號性,而不具備個體性和唯一性。在本文標(biāo)注內(nèi)容中,我們采用廣義的命名實體定義,將基本復(fù)合名詞短語中在位置上與命名實體緊密相連、語法詞法上與命名實體緊密結(jié)合、語義上與命名實體概念范疇相同的詞統(tǒng)一用數(shù)字標(biāo)簽“ 1”標(biāo)注出來。
2.3.4 知識庫建設(shè)成果
知識庫的標(biāo)注采用雙盲標(biāo)注,然后由第三人進行復(fù)核。短語句法標(biāo)注一致率為99.9%,短語語義關(guān)系標(biāo)注一致率為87.4%。最終形成了總共包含短語數(shù) 18 281條的NN短語句法語義知識庫[注]該庫已經(jīng)開源,共享在: https://github.com/liupengyuan/Basic-Noun-Compounds。包括短語所包含的每一個名詞的語義類、每一條短語的短語結(jié)構(gòu)、語義關(guān)系和命名實體。形成了三個表,分別包含: ①短語和各個句法語義信息;②語義類組合語義關(guān)系對應(yīng)信息;③語義類組合和是否為命名實體。知識庫的最終標(biāo)注成果規(guī)模如表2所示。
表2 NN短語知識庫的規(guī)模
續(xù)表
知識庫前50%的語義類出現(xiàn)的次數(shù)占到了所有語義類總數(shù)的90%。出現(xiàn)頻次排名前五的語義類有: 抽象事物、地名、身份、處所及領(lǐng)域(圖1)。語義類組合較多,其中頻次前五的語義類組合為: 職業(yè)+人名、地名+地名、地名+處所、身份+人名、地名+機構(gòu)。在排名最靠前的十個語義組合中(圖2),仍然以實體相關(guān)的名詞組合為主,這說明基本復(fù)合名詞短語在指稱實體中應(yīng)用相當(dāng)廣泛,這也離不開名詞在人們對事物的認知過程中的指稱作用。而且作為報刊語料,往往需要指出事件發(fā)生的主體人物、地點以及相關(guān)機構(gòu)等實體,因此其中出現(xiàn)的實體自然也會遠多于其他語體的語料。
圖1 語義類分布
圖2 語義類組合Top10
對十四類語義關(guān)系進行統(tǒng)計,其分布如表3及圖3所示。
表3 語義關(guān)系分布及對應(yīng)典型語義類組合
在這些語義關(guān)系中,出現(xiàn)頻次最多的就是Of/領(lǐng)屬關(guān)系,這也符合我們對NN短語的認知。其中Time[注]類似“x月y日”的短語,由于分詞原因,本文沒有統(tǒng)計在內(nèi)。,Like及Cause三種語義關(guān)系均在100以內(nèi),這是受到語料是新聞領(lǐng)域的影響,這三類語義關(guān)系的使用相對弱勢。
圖3 語義關(guān)系分布
相同語義類別的短語組成成分之間往往存在一定的聯(lián)系,每一類語義關(guān)系通常對應(yīng)多種語義類組合。表3展示了每一類語義關(guān)系中的典型語義組合并給出了示例。
理想情況下,我們希望語義類組合與語義關(guān)系是多對一對應(yīng)的關(guān)系,但事實上,除了每一類語義關(guān)系對應(yīng)多種語義組合之外,同一語義組合對應(yīng)著多種語義關(guān)系。原因在于,語義類詞典對名詞分類的粒度還不夠細,也就是說,出現(xiàn)此類情況意味著同一語義類的名詞可能需要進行更細致的分類才能夠進一步區(qū)分。由于語義類組合數(shù)目較多,因此表4僅給出了典型的語義類組合所對應(yīng)的語義關(guān)系及示例。
表4 典型的語義類組合所對應(yīng)的語義關(guān)系及示例
續(xù)表
本文以新聞媒體語料中抽取的基本復(fù)合名詞短語為數(shù)據(jù)基礎(chǔ),結(jié)合語言學(xué)基本理論及復(fù)合名詞短語語義關(guān)系分類及相關(guān)研究成果,建立了中文基本復(fù)合名詞短語語義關(guān)系體系。在此基礎(chǔ)上,對基本復(fù)合名詞短語的語義類、語義關(guān)系、結(jié)構(gòu)關(guān)系以及命名實體進行標(biāo)注,建立了一個基本復(fù)合名詞短語句法語義知識庫?;谠撝R庫,我們對漢語基本復(fù)合名詞短語的語義進行了初步分析。希望知識庫能夠為中文基本復(fù)合名詞短語句法語義的研究提供基礎(chǔ)數(shù)據(jù)支撐。
基本復(fù)合名詞短語語義的人工標(biāo)注存在一定的主觀性,特別是語義關(guān)系。雖然采用雙盲標(biāo)注且一致率較高,但恐怕仍然無法符合所有人的語感。此外,由于知識庫只選取了從新聞報刊語料中抽取的高頻短語,類型較為單一,平衡性較差,因此,對于語義關(guān)系的分類和描述仍然有待進一步完善。下一步工作的重點將針對語料的平衡性和人工標(biāo)注的一致性,對整個語義關(guān)系體系進行調(diào)整、細化或修改,選取多個領(lǐng)域的數(shù)據(jù)進行標(biāo)注,爭取建設(shè)一個平衡性、規(guī)模和質(zhì)量三者均衡的中文基本復(fù)合名詞句法語義知識庫。