孫道功
(南京師范大學文學院 江蘇 210097)
語義是目前語言信息處理的難點。如何解決語義的形式化問題,如何為計算機理解生成提供可形式化的語義網絡,成為語義研究的核心。2001年,李葆嘉提出了“面向信息處理的現代漢語元語言研究”這一課題,認為存在詞匯元語言、釋義元語言和析義元語言、認知元語言四個層面。析義元語言,即語義特征,簡稱義征,是比釋義元語言更加抽象的元語言系統(tǒng),具有人工語言性質。析義元語言研究通過對同一義場內義位的對比分析挖掘義征標記,屬于元語言研究的微觀層面。任何一個義位都是義征的聚合體,析義元語言詞典的開發(fā)正是基于此,在提取和建構現代漢語義征標記集的基礎上,對常用詞匯進行義征分析,按照義征排序規(guī)則(析義元句法模式)列出義征表達式,并根據屬性信息建立文件結構。
收詞范圍和所收詞匯是衡量一部詞典質量優(yōu)劣的重要標準,析義元語言詞典建構亦是如此。但與常規(guī)詞典的不同之處表現在對詞的語義分析上。常規(guī)詞典對詞的分析通常采用詞匯釋義的方式,而析義元語言詞典的語義分析采用義征分析的方法。義征分析是析義元語言詞典建構的基石。析義元語言詞典收詞須遵循三個原則:
第一,代表性原則。代表性原則指所選詞匯應該具有較高的權威性和使用率,不應該僅僅適用于某一領域或通行于某一特定人群。目前漢語詞匯常用詞表有《漢語詞匯的統(tǒng)計與分析》(北京語言學院教學研究所1985)、《現代漢語三千常用詞表》(何克抗等1987)、《普通話三千常用詞表》(增訂本)(鄭林曦等1987)等。有的詞表是基于語料統(tǒng)計的方法建構的,如《漢語詞匯的統(tǒng)計與分析》;有的是詞匯研究的階段性成果,如《現代漢語三千常用詞表》《普通話三千常用詞表》。比較發(fā)現,各個詞表雖然包含了一定量的共有詞匯,但也存在較大差異。而且通過基于個人語感的考察發(fā)現,有些日常生活中的常用詞,在某些詞表中并未出現。
第二,廣布性原則。廣布性原則指所選詞匯應該具有較大覆蓋性和分布率,通行于各個領域。這與代表性原則有一定相似之處,但又有差異。代表性原則側重使用率,廣布性原則側重分布率。如《漢語詞匯的統(tǒng)計與分析》和《現代漢語三千常用詞表》的語料基礎是中小學教材,屬于母語教學領域;《普通話三千常用詞表》的語料基礎是多種工具書和課本,屬于普通話學習領域。各個詞表雖有一定代表性,但也有其語域的局限性。選取義征分析對象詞匯時,力求充分考慮到廣布性,盡量把各種語域中廣泛使用的詞語吸收進來。
第三,共現性原則。共現性指所選詞匯應該是在目前大多數詞典和詞表中收錄的。共現性的高低體現詞典或詞表研究者對某詞語認可程度的高低。細言之,共現性主要包括口語交際領域和書面語領域的共現以及母語教學領域和對外漢語教學領域的共現等。
基于以上三原則,考察選取詞匯義征分析的對象詞匯。到目前為止,已選取3500個常用詞匯作為義征分析對象。具體包括名詞1221個,動詞1002個,形容詞784個,副詞226個,類別詞(量詞)154個,代詞12個,數詞10個,其他虛詞暫收91個。擇詞時不拘泥于某一詞表或某一專著。把常用性強的詞語最大可能地吸收到分析范圍內,從而使所收錄的詞匯更具有代表性、廣布性和全面性。
使用限量詞匯進行詞典釋義是國外詞典釋義的主流。但國內很多詞典往往還停留在隨機釋義的層面。析義元語言作為最具人工語言性質的類型,與釋義元語言雖然不同,但其釋義同樣需要采用限量詞匯義征。析義元語言詞典的分析是基于《現代漢語詞匯義征標記集》(2836個標記)進行的。[1]具體分析時,依據義征分析步驟,并參考了漢語權威詞典的解釋。不同類型的詞語,在分析時會采用不同的義征序列模式,即析義元句法模式。以實詞義位為例,說明如下:
1.名詞義征分析模式
NGn+Pn(+F)
N是Noun的縮寫。G是Genus的縮寫,P是Property的縮寫,n表個數,括號中F表語體、語用等附加說明,以下皆同。
NG表類別義征,NG的個數取決于語義分類層級,幾個NG之間必是上下義關系。P表屬性義征。F只有在所比較義位其他義征都相同,而要加以區(qū)分的情況下才出現。同場義位的區(qū)別表現在P上。因受篇幅所限,僅舉面食義場部分義位為例:
饅頭[+面食][+面粉][+發(fā)酵][-有餡][±圓形][-水煮][+熱蒸]
包子[+面食][+面粉][+發(fā)酵][+有餡][+圓形][-水煮][+熱蒸]
面條[+面食][+面粉][-發(fā)酵][-有餡][+線形][+水煮][-熱蒸]
水餃[+面食][+面粉][-發(fā)酵][+有餡][+半圓][+水煮][-熱蒸]雖然某些名詞可能采用其他分析模式,但上述模式是名詞義征分析的典型模式。
2.動詞義征分析模式
VGn+Sn+An(+F)
V是Verb的縮寫,S是Semantic role的縮寫,A是Action的縮寫。VG表類別義征。S表語義角色,通常n=3~5。A表動作行為義征,是對動作行為語義的凸顯描述或分解描述。同場義位的區(qū)別在于S和A的性質和數量。以手掌動作義場部分義位為例:
托[+動作][+手掌][+向上][+承受][+物體][-傳遞]
捂[+動作][+手掌][-向上][+蓋?。荩郏矬w][-傳遞]
接[+動作][+手掌][+向上][+接受][+物體][+傳遞]
3.代詞義征分析模式
RG+S+Pn(+F)
R是Pronoun的縮寫,因為已用P表屬性特征,故用英文第二個字母表示。RG是類別義征。S表指代的對象或范圍。同場義位的區(qū)別表現在P上。以人稱代詞義場部分義位為例:
我 [+代稱][+人類][+自稱][+單數]
你 [+代稱][+人類][+對稱][+單數]
他 [+代稱][+人類][+他稱][+單數]
4.形容詞義征分析模式
AGn+Sn+Pn(+F)
A是Adjective的縮寫。AG表類別義征。S表描寫對象,其數量取決于描寫深度。同場義位的差別表現在P的內容或數量上。以心情高漲類義場部分義位為例:
激動[+情形][+心情][+高漲][+沖動][+通用]
激昂[+情形][+心情][+高漲][+沖動][+高揚]
激憤[+情形][+心情][+高漲][+沖動][+憤怒]
5.副詞義征分析模式
DGn+Sn+Pn(+F)
D是Adverb的縮寫,因形容詞中已使用A,故用英文第二個字母表示。DG表類別義征,DG數量取決于語義分類層次。S表義位的限制對象或關涉范圍。同場義位的區(qū)別體現在P上。以時頻副詞義場部分義位為例:
往往[+時頻][+行為|狀況][+較長][+時段][+發(fā)生][+次數][+極多][+推定]
有時[+時頻][+行為|狀況][+較長][+時段][+發(fā)生][+次數][+很少][-定時]
常常[+時頻][+行為|狀況][+較長][+時段][+發(fā)生][+次數][+極多][-推定]
6.數詞義征分析模式
數目詞的析義元句法模式包括樞紐模式和其他模式兩類:
樞紐模式UG+Pn(+F)
其他模式UG+S1+A+S2
U是Numeral的縮寫,因名詞中已使用N,故用英文第二個字母表示。UG表類別義征,S是關涉對象,A是關系義征。以基數詞義場部分義位為例:
一[+數目][+獨立][+個體]
二[+數目][+成雙][+個體]
三[+數目][+二][+增加][+一個]
四[+數目][+三][+增加][+一個]
“一、二”的分析基于事物的個體和相配,屬性義征P的數量為2。在“三、四”中,S1、S2分別表參照對象和增加對象,A表計算關系。
7.類別詞義征分析模式
CGn+Pn+Sn(+F)
C是Category的縮寫。CG表類別義征。S表修飾對象或關涉范圍。同場義位的區(qū)別體現在P、S的內容上。以叢狀義場部分義位為例:
簇[+叢狀][+聚集][+密][+多][+植物][+毛發(fā)][+人類][-口語]
叢[+叢狀][+聚集][+密][+多][+植物][-毛發(fā)][-人類][-口語]
為了語義形式化和語言處理的需要,《析義元語言詞典》設置以下屬性信息:
1.詞匯信息。即詞典中所收錄詞語。對于包含多個義項的詞根據義項分列。如總庫文件的收錄詞語樣例中的拍1、拍2。
2.常規(guī)信息。即詞的拼音信息。
3.語法信息。按照北京大學計算語言學研究所的《現代漢語語法信息詞典》,描寫所收詞匯的語法信息。
4.釋義信息。雖然與常規(guī)詞典釋義方式不同,但常規(guī)的詞典釋義仍是義征分析的借鑒,故在屬性信息中設立詞典釋義信息。
5.義類信息。庫中共分出四大義類:指稱類、陳述類、修飾限制類、情態(tài)功能類。
6.義場信息。析義元語言分析必須在義場中進行,基于所收詞匯共構建了551個義場。
7.義征表達式信息。與常規(guī)詞典的最大區(qū)別在于,析義元語言詞典的語義分析結果是通過義征表達式體現的。每一個義位的析義結果體現為一個有層次的義征表達序列。不同詞類的義位其義征表達式結構是不同的。
8.義位組合信息。同一義場義位組合時,往往具有共性特征。義位組合研究可以以義場為單位進行考察。如“穿著”場和“衣物”場組合,“進食”場和“食物”場組合。但具體來看,同一義場義位在組合小類上又有所區(qū)別。在文件結構中,會附加能與該義位組合的義場和義位信息。同時,義位進入組合后,詞義往往會發(fā)生變化,增加該義位進入組合的語義信息變化的常見類型分析和例證說明。
析義元語言詞典的編纂采取以義類為綱,以義場為單位分析的方法。從義類角度進行詞典編纂,最早可以追溯到成書于秦漢時期的《爾雅》。義類研究曾經一度中斷,到了上世紀80年代,以《同義詞詞林》(梅家駒等1983)為發(fā)端,出現了諸多義類分析詞典。借鑒目前分類方法,基于日常感知,我們對基本詞匯進行語義分類。在具體研究中,將其分為4大類、15中類、42小類和551子場。如下圖所示。
為了語義研究的精細化,在進行析義元語言分析時,盡可能地再劃分小類和次小類,其中最深層次為8級,如“猴”,其語義類別層級是:事物-有形-生物-動物-野生-獸類-陸棲-小型。
1.詞典文件的總體結構及規(guī)模
析義元語言詞典采用關系數據庫技術,在Access下實現。詞典中信息都盡量用漢字表示。根據需要,詞典共設置了四個庫。其中總庫一個,義場義類信息庫一個,義征表達式信息庫一個,義位組合信息庫一個,這四個庫通過“詞匯”、“拼音”兩個字段鏈接。該詞典具有開放性,計劃收詞1萬條左右,目前已經收錄并分析了3500詞。
2.庫文件的結構及屬性的描述
(1)總庫文件結構及屬性描述
總庫的具體屬性字段、字段寬度、屬性值描述如下:
(2)義類義場信息庫文件結構及屬性描述
義場義類信息庫主要包含兩部分:義類信息和義場信息。義類信息相對簡單,即總庫中的四大類:指稱類、陳述類、修飾限制類、情態(tài)功能類。義場信息比較復雜,對詞典中所收錄詞語,分層級列出所屬的義場信息,其中第一層就是義類屬性。如以下“指稱類”下的“人類稱謂”義場的“堂兄、堂妹、表兄、表妹”所處的層級:
第一層 第二層 第三層 第四層 第五層 第六層 第七層 第八層
指稱類——人類稱謂——親稱——親戚——同輩——堂親——男性——堂兄
指稱類——人類稱謂——親稱——親戚——同輩——堂親——女性——堂妹
指稱類——人類稱謂——親稱——親戚——同輩——表親——男性——表兄
指稱類——人類稱謂——親稱——親戚——同輩——表親——女性——表妹
(3)組合信息庫文件結構及屬性描述
義位組合信息庫比較復雜,包括兩部分內容,一是與該義位組合的義場信息,一是該義位組合時詞義變化信息。與某義位相組合的義場以及意義的凸顯變化類型,都是基于語料的考察得出的,限于篇幅不再列舉。
3.總庫文件所收詞語樣例
表1
析義元語言是元語言系統(tǒng)中最具人工性質的類型,其研究對語言信息處理與本體研究都有重要價值。概括言之,包括兩個方面。
1.服務于語言信息處理研究
世界范圍內的自然語言處理,經過字處理、詞處理階段之后相繼進入句處理階段。以往句處理研究的重點是句法結構和語義角色的自動分析和標注,以及句法分析器的研制。根據語義語法學理論,句法植根于詞匯意義,詞匯意義決定句法語義,語義性是語言的本質屬性。句子的生成,需經過對象世界-認知圖式—語義結構-句法結構四個階段實現,其中語義結構是核心環(huán)節(jié)。語義研究的基石正是義征的提取和研究。析義元語言詞典的開發(fā),揭示了漢語常用詞匯的微觀語義層面,并提供了與之組合的常見義位,以及義位組合的語義變化信息,為句子生成和詞庫選擇提供幫助。同時析義元語言詞典把語義分析的顆粒度細化到了義征層面,能夠更加清楚地凸顯詞元之間的細微語義差異,為提高詞義消歧的精度提供了幫助。
2.豐富語義語法學理論
語義語法學強調語言的語義本質性,認為句法結構本質是相關義場的語義關聯或相關詞語的義征纏繞?!罢Z義統(tǒng)一場”假說是語義語法理論的核心思想(李葆嘉2007)。析義元語言詞典的開發(fā),為漢語常用詞匯的詞匯語義系統(tǒng)建構和組合選擇提供元語言基礎,為義位組合的語義變化信息考察提供模型,為漢語詞匯研究提供義類分析框架。語義語法學的最終目標是建構語義網絡,而語義網絡建構的關鍵是詞匯-句法語義的銜接研究,其基本任務是:在詞匯語義層面,進行義征提取和義場建構;在句法語義層面,進行句法范疇歸納、句法范疇義征提取和語義句模建構。而析義元語言詞典的開發(fā),把漢語常用義位分析為義征表達式,為詞匯-句法語義的銜接提供詞匯語義基礎。這些無疑進一步豐富了語義語法學理論。
析義元語言詞典具有開放性,目前僅分析了部分常用詞,之后將逐步擴大規(guī)模。同時,析義元語言詞典的開發(fā)也是個長期艱巨的工程,到目前為止尚未有人對漢語詞匯做大規(guī)模的義征分析,這一狀況需要在研究中不斷地改進和完善。
附 注
[1]義征提取和義征標記集的建構,詳見孫道功等 《試論析義元語言標記集的建構》,《語言文字應用》2008年第2期,P132-138。該義征標記集共包括2836個義征標記,具有較強的解釋力。
1.安華林.現代漢語釋義基元詞研究.北京:中國社會科學出版社,2005.
2.亢世勇.《現代漢語新詞語信息電子詞典》的開發(fā)與應用.辭書研究,2001(1).
3.李葆嘉.理論語言學:人文與科學的雙重精神.南京:江蘇古籍出版社,2001.
4.李葆嘉等.語義語法學導論.北京:中華書局,2007.
5.梅家駒等.同義詞詞林.上海:上海辭書出版社,1983.
6.孫道功等.試論析義元語言標記集的建構.語言文字應用,2008(2).