錢(qián)小飛
摘 要:名詞短語(yǔ)識(shí)別是漢語(yǔ)句法分析中的難點(diǎn),挖掘和利用語(yǔ)言學(xué)知識(shí)是提高名詞短語(yǔ)識(shí)別效率的關(guān)鍵。文章對(duì)漢語(yǔ)名詞短語(yǔ)識(shí)別相關(guān)的本體研究進(jìn)行了綜述,討論了名詞短語(yǔ)的界定、分類(lèi)、性質(zhì)判定、結(jié)構(gòu)關(guān)系和功能等問(wèn)題,這些研究對(duì)于定義名詞短語(yǔ),抓取識(shí)別特征具有啟發(fā)意義。
關(guān)鍵詞:面向識(shí)別任務(wù) 漢語(yǔ)名詞短語(yǔ) 本體研究 綜述
一、中文信息處理與名詞短語(yǔ)研究
在中文信息處理的基礎(chǔ)研究中,名詞短語(yǔ)的識(shí)別是一個(gè)重要問(wèn)題,也是進(jìn)一步作句法和語(yǔ)義處理的基礎(chǔ)。研究漢語(yǔ)名詞短語(yǔ)的專(zhuān)著較少,史錫堯(1990)對(duì)名詞短語(yǔ)的內(nèi)部結(jié)構(gòu)、定語(yǔ)構(gòu)成、中心語(yǔ)構(gòu)成以及定語(yǔ)順序進(jìn)行了較詳細(xì)的描寫(xiě)。王玨(2001)涉及到名詞的句法功能、語(yǔ)義關(guān)系、定語(yǔ)類(lèi)型以及定語(yǔ)順序等問(wèn)題。其他論述多散見(jiàn)于單篇文獻(xiàn)。從結(jié)構(gòu)內(nèi)容上劃分,我們將面向識(shí)別任務(wù)的名詞短語(yǔ)本體研究歸納為三個(gè)方面:(1)“的”的同一性;(2)含“的”名詞短語(yǔ)研究;(3)不含“的”名詞短語(yǔ)研究。這些研究涉及到名詞短語(yǔ)的界定問(wèn)題,以及潛在可用的識(shí)別資源和策略問(wèn)題。本文通過(guò)對(duì)這些研究的整理分析,梳理和辨識(shí)對(duì)名詞短語(yǔ)識(shí)別有用的語(yǔ)言學(xué)知識(shí)。
二、“的”的同一性
“的”的同一性問(wèn)題涉及到名詞短語(yǔ)界定。哪些“的”字短語(yǔ)是名詞性的,存在爭(zhēng)議。以De表示廣義的“的”①,弱化其形式區(qū)分,同一性研究即如何對(duì)De進(jìn)行更合理的分類(lèi)。字面上,“的”是一種文字形式。但語(yǔ)料中存在少量De字同形,如“的1”和“的3”同形,“的2”和“的3”同形,以前者為例,不應(yīng)包含在名詞短語(yǔ)的結(jié)構(gòu)助詞中。盡管漢語(yǔ)書(shū)面形式約定“的”“地”“得”分別是定語(yǔ)、狀語(yǔ)、補(bǔ)語(yǔ)的標(biāo)識(shí),但實(shí)際語(yǔ)料中存在不合約定的用法,并且含“的”短語(yǔ)也并不完全對(duì)應(yīng)著名詞短語(yǔ)。
De的同一性研究包括四分說(shuō)、二分說(shuō)、三分說(shuō)和同一說(shuō)四種觀點(diǎn)。
(一)四分說(shuō)
黎錦熙(1924)把De分為“特別介詞”“語(yǔ)尾”“聯(lián)接代名詞”和“確定語(yǔ)態(tài)的助詞”四類(lèi),涉及到De字研究的一些重要問(wèn)題,如De作為語(yǔ)氣詞、副詞性語(yǔ)尾,引導(dǎo)補(bǔ)語(yǔ),表領(lǐng)屬關(guān)系以及構(gòu)成“的”字短語(yǔ)等問(wèn)題。這一分類(lèi)初步區(qū)分了副詞性語(yǔ)尾“地”和補(bǔ)語(yǔ)標(biāo)志“得”。
(二)二分說(shuō)
呂叔湘(1942)論述了部分De表示語(yǔ)氣的現(xiàn)象,提出把De分為關(guān)系詞和語(yǔ)氣詞兩類(lèi)。關(guān)系詞表示加語(yǔ)與端語(yǔ)的組合關(guān)系;語(yǔ)氣詞表示確認(rèn)的語(yǔ)氣。二分說(shuō)把表示語(yǔ)氣和修飾關(guān)系放在對(duì)立面上,區(qū)分了句末或動(dòng)賓之間表語(yǔ)氣的De和偏正結(jié)構(gòu)中的De,引起了學(xué)術(shù)界對(duì)于語(yǔ)氣詞“的”的關(guān)注。
(三)三分說(shuō)
朱德熙(1961)應(yīng)用功能分布理論系統(tǒng)地研究了De的性質(zhì)和分類(lèi)問(wèn)題,將“X的”語(yǔ)法功能的不同歸結(jié)為De的不同功用,從而把De區(qū)分為三個(gè)語(yǔ)素:“的1”“的2”和“的3”,分別是副詞性語(yǔ)法單位、形容詞性語(yǔ)法單位、名詞性語(yǔ)法單位的后附成分。這一分類(lèi)在語(yǔ)法學(xué)界引發(fā)了關(guān)于De的性質(zhì)和分類(lèi)問(wèn)題的大討論,問(wèn)題涉及分類(lèi)方法、分類(lèi)內(nèi)容等多個(gè)方面。以下兩個(gè)問(wèn)題特別值得我們注意。
1.是否存在語(yǔ)氣詞De。朱德熙(1961、1966)使用“是……的”框架,論證了“我會(huì)寫(xiě)的”中的“的”是“的3”,同時(shí)也指出作為語(yǔ)氣詞的De和“的3”的界限“實(shí)在不容易劃清楚”,承認(rèn)語(yǔ)氣詞De與否都會(huì)遇到困難。
2.是否存在時(shí)間助詞De。宋玉柱(1981)論證了表示時(shí)間的De,指出這些De指明動(dòng)作發(fā)生于過(guò)去,去掉De會(huì)改變動(dòng)作時(shí)間,造成語(yǔ)義矛盾,如“他昨天晚上什么時(shí)候回來(lái)的?”。它們不能用于表示將來(lái)時(shí)的句子中,如“你明天什么時(shí)候回來(lái)的?”。
我們認(rèn)為De表示語(yǔ)氣和時(shí)間的情況是客觀存在的,但上述論述只有建立在De字功能單一的假設(shè)上才能成立,在“我昨天買(mǎi)的是這本書(shū)”中,“的”是時(shí)間助詞還是“的3”,亦或同時(shí)實(shí)現(xiàn)了兩種功能呢??jī)H看作時(shí)間助詞至少是不全面的。
(四)同一說(shuō)
隨著研究的深入,學(xué)術(shù)界越來(lái)越傾向于De字功能同一的觀點(diǎn)。石毓智(2000)從認(rèn)知的角度,認(rèn)為De的功能是用來(lái)確立認(rèn)知域中的成員。功能同一性的論證多在認(rèn)知層面進(jìn)行,這種抽象的解釋形式難以用來(lái)解決句法功能分類(lèi)問(wèn)題。
對(duì)于計(jì)算機(jī)而言,三分說(shuō)系統(tǒng)地考察了“的1”“的2”和“的3”的分布位置,有較好的可操作性。首先,“的1”對(duì)應(yīng)于形式“地”,不可能作為名詞短語(yǔ);其次,清楚地描述了“的2”和“的3”的分布差異,可以較明確地分辨名詞性和形容詞性“的”字短語(yǔ)。
三、含“的”名詞短語(yǔ)研究
構(gòu)造名詞短語(yǔ)的De,可以是“的2”或“的3”。一方面,De的問(wèn)題受到廣泛關(guān)注;另一方面,語(yǔ)言學(xué)家觀察得到De的參與是形成復(fù)雜名詞短語(yǔ)的重要因素。按照是否含有結(jié)構(gòu)助詞De,名詞短語(yǔ)分為含De名詞短語(yǔ)和不含De名詞短語(yǔ)。
(一)“的”字短語(yǔ)研究
關(guān)于名詞性“的”字短語(yǔ)的研究主要討論了“的”的性質(zhì),“的”字短語(yǔ)的自指、轉(zhuǎn)指和成分提取等方面的問(wèn)題。
1.“的”的性質(zhì)
早期以黎錦熙(1924)等為代表的學(xué)者認(rèn)為,“的”字短語(yǔ)是由含“的”偏正結(jié)構(gòu)省略中心語(yǔ)而來(lái),往往可以將省略成分補(bǔ)充出來(lái),其中“的”是修飾語(yǔ)的標(biāo)記。但在許多情況下,中心語(yǔ)無(wú)法補(bǔ)出,中心詞省略說(shuō)也就失去了解釋力,如“醬油和醋一樣打五分錢(qián)的”。
朱德熙(1966)反對(duì)修飾語(yǔ)標(biāo)記省略的觀點(diǎn),采用功能分布理論區(qū)分了三個(gè)De,認(rèn)為“S的”是一個(gè)自足的名詞性成分,其后并沒(méi)有省略什么,“的”是名詞性成分的標(biāo)記。根據(jù)該理論,“相對(duì)程度副詞+形容詞+的”是謂詞性的,其中“的”是形容詞性單位的后附成分,但是這樣的格式卻能夠出現(xiàn)在主語(yǔ)的位置上用于指稱(chēng),如“更重要的是今年的高考”。
郭銳(2000)區(qū)分了表述功能的詞匯層面和句法層面,把“的”看成是詞匯層面的“飾詞標(biāo)記”,認(rèn)為“開(kāi)車(chē)的跑了”中“開(kāi)車(chē)的”與“急性好治”中的“急性”一樣,都是飾詞性成分在句法層面的指稱(chēng)化。endprint
名詞短語(yǔ)識(shí)別作為一項(xiàng)較為基礎(chǔ)的研究,宜采用較為寬泛的定義,我們主張以朱德熙的觀點(diǎn)為主,部分采納郭銳關(guān)于飾詞性成分指稱(chēng)化的觀點(diǎn),將主語(yǔ)位置上的謂詞性“X+的2”短語(yǔ)也納入名詞短語(yǔ)的范疇。
2.“的”字短語(yǔ)的指代和成分提取
朱德熙(1978)研究了由動(dòng)詞性結(jié)構(gòu)組成的“的”字短語(yǔ)(DJ的)以及由該類(lèi)“的”字短語(yǔ)組成的判斷句,分析了“DJ的”與“DJ的+M”的關(guān)系,認(rèn)為“DJ的”中關(guān)于動(dòng)詞存在主謂和述賓兩種句法關(guān)系,“DJ的”總是優(yōu)先指代未出現(xiàn)的關(guān)系成分,因而可以指代三種對(duì)象:潛主語(yǔ)、潛賓語(yǔ)和其他成分。指代前兩者的“DJ的”,對(duì)應(yīng)了同格成分“M”;并且隨著動(dòng)詞向的不同,“DJ的”在句中可能出現(xiàn)0個(gè)或多個(gè)潛在關(guān)系成分,因而“DJ的”可能產(chǎn)生指代歧義。“DJ的”結(jié)構(gòu)指代潛主語(yǔ)、潛賓語(yǔ)和其他成分的不同之處在于,指代潛主語(yǔ)的“DJ的”語(yǔ)義上能夠離開(kāi)“M”而獨(dú)立,而指代潛賓語(yǔ)的則不能。袁毓林(1994)修正了朱德熙關(guān)于“的”字短語(yǔ)歧義指數(shù)的計(jì)算方法,認(rèn)為句法成分的提取不僅與動(dòng)詞的價(jià)有關(guān),也與名詞的配價(jià)有關(guān)。
沈家煊(1999)提出了一個(gè)轉(zhuǎn)喻/轉(zhuǎn)指的認(rèn)知模型,在認(rèn)知框架內(nèi)將指代目標(biāo)和替代項(xiàng)分辨為兩個(gè)不同的對(duì)象,替代項(xiàng)能夠激活指代目標(biāo),并且替代項(xiàng)的顯著度高于指代目標(biāo)。認(rèn)知框架與配價(jià)結(jié)構(gòu)有時(shí)是一致的,有時(shí)卻不一致,這樣更好地解釋了“的”字短語(yǔ)的自指和轉(zhuǎn)指問(wèn)題。如“毒蛇咬的(傷口)”并不在配價(jià)結(jié)構(gòu)內(nèi),但卻在“施事—?jiǎng)幼鳌Y(jié)果”這一認(rèn)知框架內(nèi),替代項(xiàng)“毒蛇咬”這一動(dòng)作比指代目標(biāo)“傷口”內(nèi)涵更多,顯著度更高。
指代和成分提取研究表明,“的”字短語(yǔ)內(nèi)部存在精巧的句法語(yǔ)義構(gòu)造。根據(jù)朱德熙的觀點(diǎn),多數(shù)包含動(dòng)詞的含“的”偏正結(jié)構(gòu)可以看作是“De字短語(yǔ)+中心語(yǔ)”形式。這樣,在“[NP1]+V+[NP2]+De+[NP3]”格式中,NP1、NP2、NP3與動(dòng)詞“V”都存在句法語(yǔ)義關(guān)系,這些關(guān)系可以參與短語(yǔ)邊界識(shí)別,如判斷“V”是否“NP2+De+NP3”的左邊界,而這正是最長(zhǎng)名詞短語(yǔ)識(shí)別的難點(diǎn)。
“的”字短語(yǔ)的構(gòu)造規(guī)則還提供了挖掘句法語(yǔ)義關(guān)系的方法。絕大部分動(dòng)詞是二價(jià)動(dòng)詞,“VP的”多提取主語(yǔ)和賓語(yǔ),最常見(jiàn)的是提取賓語(yǔ),可以利用轉(zhuǎn)指規(guī)則自動(dòng)獲取搭配。但風(fēng)險(xiǎn)也可以預(yù)見(jiàn):對(duì)二價(jià)動(dòng)詞,提取的結(jié)果可能是<動(dòng)詞,結(jié)果>,如“毒蛇咬的(傷口)”中的<咬,傷口>;對(duì)一價(jià)動(dòng)詞,可能提取出<動(dòng)詞,施事>,如從“游泳的人”中提取出<游泳,人>;或定中搭配對(duì),如<游泳,健將>。
(二)含“的”偏正結(jié)構(gòu)研究
含“的”偏正結(jié)構(gòu)是以助詞“的”為標(biāo)記的偏正結(jié)構(gòu)。研究主要涉及三個(gè)方面:含“的”偏正結(jié)構(gòu)的屬性;“N1的N2”內(nèi)部關(guān)系;“N的V”結(jié)構(gòu)與功能。
關(guān)于結(jié)構(gòu)屬性的研究主要從語(yǔ)法和認(rèn)知兩個(gè)角度進(jìn)行,探討了無(wú)標(biāo)記偏正結(jié)構(gòu)和含“的”偏正結(jié)構(gòu)的異同。
“N1的N2”內(nèi)部關(guān)系研究涉及到了其內(nèi)部的語(yǔ)法、語(yǔ)義、語(yǔ)用等層面,集中討論了其中的領(lǐng)屬關(guān)系問(wèn)題(沈陽(yáng),1995)。領(lǐng)屬關(guān)系知識(shí)能夠給識(shí)別工作提供消歧知識(shí)。例如,“修理汽車(chē)的輪子”對(duì)于計(jì)算機(jī)來(lái)說(shuō)是一個(gè)歧義結(jié)構(gòu),當(dāng)檢測(cè)到“汽車(chē)”和“輪子”具有很強(qiáng)的領(lǐng)屬關(guān)系時(shí),基本可以排除“修理”和“汽車(chē)”在該句中作為動(dòng)賓搭配的可能性。
“N的V”結(jié)構(gòu)是名詞性的還是動(dòng)詞性的存在爭(zhēng)議。學(xué)術(shù)界就其歷史演變、內(nèi)部結(jié)構(gòu)、外部功能等進(jìn)行了多角度的研究。爭(zhēng)論的焦點(diǎn)是“N的V”的內(nèi)部結(jié)構(gòu)關(guān)系和“V”的名物化問(wèn)題。
1.內(nèi)部結(jié)構(gòu)關(guān)系
從內(nèi)部結(jié)構(gòu)的研究來(lái)看,主要有主謂關(guān)系說(shuō)、偏正關(guān)系說(shuō),后者得到了語(yǔ)法學(xué)界的廣泛承認(rèn),大多數(shù)語(yǔ)法學(xué)家都持有這一觀點(diǎn)。
張伯江(1993)細(xì)致地考察了“N的V”的內(nèi)部結(jié)構(gòu)語(yǔ)義關(guān)系,特別是“V”可能實(shí)現(xiàn)的語(yǔ)法性質(zhì),發(fā)現(xiàn)表示時(shí)間意義的語(yǔ)法手段最受限制,表情態(tài)的次之,而動(dòng)詞自身的補(bǔ)充成分(賓語(yǔ))和修飾性成分(狀語(yǔ))比較自由。常見(jiàn)修飾性成分有:專(zhuān)職動(dòng)詞前加詞,如“全速、大力”;副詞,如“不”;表否定意義的助動(dòng)詞,如“未能、不肯”。“V”后出現(xiàn)賓語(yǔ)的情況較普遍,但不容易出現(xiàn)補(bǔ)語(yǔ)和動(dòng)態(tài)助詞“了、著、過(guò)”。從語(yǔ)義關(guān)系看,大多數(shù)情況下“N”是施事,但作受事也不少見(jiàn)。
沈家煊等(2000)從認(rèn)知角度研究了“N”和“V”的句法語(yǔ)義關(guān)系,根據(jù)“N”能否作“V”的主賓語(yǔ),分析了構(gòu)成“N的V”的四種情形,四種情況形成各自的動(dòng)詞聚類(lèi),并認(rèn)為“N的V”是“參照體—目標(biāo)”構(gòu)式,“N”是參照體,“V”是目標(biāo),人們通過(guò)參照體獲得對(duì)目標(biāo)的認(rèn)知,因此進(jìn)入“N的V”的“N”必然是與“V”聯(lián)系的凸現(xiàn)度或可及度較高的名詞。
2.動(dòng)詞名物化
內(nèi)部結(jié)構(gòu)的一個(gè)重要問(wèn)題是“V”是否名物化。黎錦熙(1924)在其構(gòu)建的“依句辨品”的語(yǔ)法體系中,將詞類(lèi)和句法成分一一對(duì)應(yīng),認(rèn)為主語(yǔ)和賓語(yǔ)位置上的“V”轉(zhuǎn)化成了名詞。朱德熙反對(duì)“名物化”的觀點(diǎn),認(rèn)為動(dòng)詞作主語(yǔ)時(shí)受定語(yǔ)修飾是動(dòng)詞固有的用法,而“這本書(shū)的出版”之所以是名詞性的,并非因?yàn)樵摻Y(jié)構(gòu)出現(xiàn)在主語(yǔ)或賓語(yǔ)的位置上,而是因?yàn)椤斑@個(gè)結(jié)構(gòu)本身是名詞性的:既不能作謂語(yǔ),也不能受副詞修飾”。
張伯江(1993)沒(méi)有對(duì)“V”的性質(zhì)作出定論,但認(rèn)為“V”的名詞性增強(qiáng),動(dòng)詞性減弱;王冬梅(2002)采用及物性理論中的八項(xiàng)及物性判定特征對(duì)“V”進(jìn)行測(cè)試,得出同樣的結(jié)論,發(fā)現(xiàn)及物性越高的動(dòng)詞越不容易出現(xiàn)在該結(jié)構(gòu)中。
3.外部句法功能
由于對(duì)“N的V”的結(jié)構(gòu)關(guān)系、結(jié)構(gòu)核心認(rèn)識(shí)不同,對(duì)它的外部功能也存在不同見(jiàn)解。基本分為兩種觀點(diǎn),一種認(rèn)為“N的V”是名詞性的,持名物化說(shuō)、偏正關(guān)系說(shuō)及“參照體—目標(biāo)”構(gòu)式說(shuō)的學(xué)者大都持此觀點(diǎn)。
張伯江(1993)根據(jù)語(yǔ)料統(tǒng)計(jì)指出,“N的V”格式作主語(yǔ)和賓語(yǔ)的幾率大約各占一半,并且作賓語(yǔ)時(shí)更傾向于作介詞賓語(yǔ);當(dāng)“V”為光桿動(dòng)詞時(shí),作主語(yǔ)或賓語(yǔ)都十分常見(jiàn),“V”前后帶附加成分時(shí),作主語(yǔ)的傾向則十分明顯。endprint