劉開瑛
(山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院, 山西 太原 030006)
框架語義學(xué)(Frame Semantics)是由Fillmore 提出的研究詞語意義和句法結(jié)構(gòu)意義的一種理論方法[1]。該理論試圖用經(jīng)驗(yàn)主義方法,探尋語言和人類經(jīng)驗(yàn)之間的聯(lián)系,并研究一種可行的描述方式來表示這種聯(lián)系,即將詞義、句子意義和文本意義統(tǒng)一用“框架”(Frame)進(jìn)行描述??蚣苁歉恍┘せ钚哉Z境(Motivating Context)相一致的一個(gè)結(jié)構(gòu)化的范疇系統(tǒng),是儲存在人類經(jīng)驗(yàn)中的圖式化情境,這種范疇系統(tǒng)所描述的既可能是一個(gè)實(shí)體,也可能是一種行為實(shí)踐模式,甚至是一些社會制度、習(xí)俗等。框架中的各種參與者稱為框架元素(Frame Elements)。例如,“煎、焙、煮、烤”等動詞在人類經(jīng)驗(yàn)中激活的是烹飪的場景,該場景涉及做飯的人(Cook)、食物(Food)、盛食物器皿(Container)和熱源(Heating-instrument)等要素。因此,描述“煎、焙、煮、烤”等動詞的語義性質(zhì),就可以將其歸入烹飪框架,以做飯的人、食物、器皿和熱源等為框架元素進(jìn)行刻畫??蚣茉卦谡Z義關(guān)系中的作用與語義角色或格角色相當(dāng),但傳統(tǒng)的語義角色或格角色是相對于普遍的詞匯而言的,而框架元素僅適用于具有相同框架背景的一小組詞語,其類型大大細(xì)化。框架元素表達(dá)的語義內(nèi)容更加豐富、更加深入,用其來描述自然語言的語義更為適當(dāng)且實(shí)用性強(qiáng)。
1997年,美國加州大學(xué)伯克利分校即以框架語義學(xué)為理論基礎(chǔ),開始構(gòu)建一個(gè)基于真實(shí)文本的詞匯語義數(shù)據(jù)庫——框架語義網(wǎng)(FrameNet)[2]。該項(xiàng)目在伯克利的國際科學(xué)研究所運(yùn)作,主要是由國家科學(xué)基金會的支持,數(shù)據(jù)可免費(fèi)下載。它已被世界各地的研究人員下載和使用于各種各樣的用途。截至2011年8月,框架語義網(wǎng)已定義了1 094個(gè)語義框架,這些框架描述了12 132個(gè)詞語的語義內(nèi)容,并對其中65%的詞語進(jìn)行了句子語義標(biāo)注,每個(gè)詞語標(biāo)注15到20個(gè)真實(shí)語句??蚣苷Z義網(wǎng)為每個(gè)框架細(xì)致刻畫了核心框架元素和非核心框架元素。核心框架元素是一個(gè)框架在概念理解上的必有成分,它們在不同的框架中類型和數(shù)量不同,顯示出框架的個(gè)性;非核心框架元素并不顯示框架的個(gè)性,可以出現(xiàn)在多數(shù)框架中。目前的FrameNet共定義了9 328個(gè)框架元素,平均每個(gè)框架約有10個(gè)。舉一個(gè)略復(fù)雜的例子,例如,attract(牽引)、cast(拋擲)、catapult(彈射)、drag(拖)等34個(gè)動詞所屬的使位移(Cause_Motion)有9個(gè)核心框架元素: 施動者(Agent)、區(qū)域(Area)、致因(Cause)、目的地(Goal)、始狀態(tài)(Initial_State)、路徑(Path)、結(jié)果(Result)、源點(diǎn)(Source)、轉(zhuǎn)移體(Theme);11個(gè)非核心元素: 程度(Degree)、形容(Depictive)、距離(Distance)、解釋(Explanation)、手柄(Handle)、工具(Instrument)、方式(Manner)、方法(Means)、空間(Place)、亞區(qū)(Subregion)、時(shí)間(Time)。此外,該數(shù)據(jù)庫還定義了8類框架—框架關(guān)系,包括繼承關(guān)系、整體—部分關(guān)系、因果關(guān)系等,共建立了 1 589個(gè)關(guān)聯(lián),幾乎將所有的框架連接到了同一個(gè)網(wǎng)絡(luò)圖中,因此稱為框架語義“網(wǎng)”。
目前伯克利FrameNet團(tuán)隊(duì)正在對美國國家語料(American National Corpus,ANC)進(jìn)行句子的標(biāo)注和全文標(biāo)注,作為多重標(biāo)注項(xiàng)目(即Multiply-Annotated Sub-Corpus項(xiàng)目)的一部分。另一個(gè)項(xiàng)目,正在和國防承包商合作創(chuàng)建軍事領(lǐng)域的框架和詞元,此國防承包商曾建立了一個(gè)士兵戰(zhàn)斗報(bào)告的自動語義角色標(biāo)注的系統(tǒng),用來決定兩篇報(bào)告什么時(shí)候是不同人報(bào)告同一件事,什么時(shí)候是表述不同的事件。
由于框架語義描述是以人的認(rèn)知經(jīng)驗(yàn)為基礎(chǔ)的,因此,在不同的語種中存在很大的共性。例如,框架購買和出售都包括購買者、出售者、商品、金錢等元素,不論各種語言的具體形式有什么不同,其語義是基本相同的。目前,許多研究人員正在建立與框架語義網(wǎng)平行的詞匯語義數(shù)據(jù)庫,包括西班牙語[3]、德語[4]、日語[5]、巴西語[6]和漢語等。漢語的框架語義網(wǎng)(Chinese FrameNet,CFN)是由山西大學(xué)從2004年開始建立的。該項(xiàng)工程一方面針對漢語詞匯,參照英語框架語義網(wǎng),譯建或創(chuàng)建適合漢語語義內(nèi)容的框架,定義其框架元素以及框架—框架關(guān)系;另一方面,以漢語真實(shí)語料為支撐,針對各個(gè)框架標(biāo)注了一些例句,顯示框架語義在句子表層的表現(xiàn)形式[7]。目前,已對3 151個(gè)詞元(一個(gè)義項(xiàng)下的一個(gè)詞)構(gòu)建了309個(gè)框架,標(biāo)注了2萬多條句子。除了描述通用領(lǐng)域一些常用詞語的框架語義外,對認(rèn)知語義和法律、旅游等應(yīng)用領(lǐng)域也進(jìn)行了系統(tǒng)的語義知識描述。其中,認(rèn)知領(lǐng)域包括51個(gè)框架,涉及512個(gè)詞語[8],法律領(lǐng)域包括86個(gè)框架。2006年10月11日,山西省科技廳組織,聘請國內(nèi)專家,由倪光南院士主持對該工程的階段性成果進(jìn)行了科技成果鑒定,鑒定結(jié)論為“該課題在信息處理用漢語框架語義研究領(lǐng)域中達(dá)到了國際領(lǐng)先水平”。
CFN由框架庫、句子庫和詞元庫三部分組成,下面即對各子庫的構(gòu)建技術(shù)加以說明[9]。
(1) CFN框架庫構(gòu)建技術(shù)
框架庫中每個(gè)框架都按照以下四方面進(jìn)行描述: (1)框架的定義;(2)框架元素的基本定義以及示例;(3)該框架所涉及的詞元;(4)框架和框架之間的抽象關(guān)系。例如,“波動、增加、提高、減少、降低”等漢語詞語有共同的意義基礎(chǔ)——都表示數(shù)量變化,歸為一個(gè)框架進(jìn)行描述,表1簡略地展示了該框架的內(nèi)容。
框架構(gòu)建的基本原則如下:
a) CFN框架是可以直接靠FN翻譯和修改補(bǔ)充完成的?,F(xiàn)已有翻譯普通詞語框架240個(gè),自制的只有19個(gè)。自制框架有: 等同、比較、推理、意識、想象、使?jié)M足、使呈現(xiàn)等。例如,頻率最高的多義詞“是v”屬于“屬于某類、存現(xiàn)、狀態(tài)、類似和等同”五個(gè)框架,其中“等同”框架為自制。
但是我們對各種不同專業(yè)領(lǐng)域的框架包括法律術(shù)語、足球、生物醫(yī)學(xué)領(lǐng)域和旅游業(yè)就不同。如CFN的法律自制框架庫工作量很大。美國法律屬英美法系,是判例法,判例法的一個(gè)重要特征是“遵循先例”。而我國法律是屬于大陸法系的,是成文法,人們的權(quán)利和義務(wù)都以法律的形式確定下來,所有的人適用同一部法律,法院也不例外,所謂法律面前人人平等。所以在做CFN法律框架庫時(shí),應(yīng)結(jié)合我國政治和經(jīng)濟(jì)制度,詞元選擇必須根據(jù)我國現(xiàn)行法規(guī)術(shù)語。在CFN中已有法律翻譯34個(gè)框架,自制52個(gè)框架。
表1 CFN框架庫樣例
b) 框架元素的數(shù)量和類型是區(qū)分和認(rèn)定框架的根本標(biāo)志。例如,“改變”一詞有兩個(gè)義項(xiàng): 事物發(fā)生變化;使發(fā)生變化。分別出現(xiàn)在以下兩種上下文中:
例1 巖石改變了形狀。
例2 老師改變了小毛的想法。
例1中“巖石”自身在某一屬性上(“形狀”)發(fā)生了變化,而例2則是由一個(gè)外部力量“老師”致使某實(shí)體發(fā)生變化,也就是說,例2比例1增加了一個(gè)表示致因的框架元素。因此“改變”作為兩個(gè)詞元?dú)w入不同的框架: [經(jīng)歷變化]和[使變化]。
真實(shí)漢語語料始終是決定框架元素、概念歸類等的主要證據(jù)。由于我國同英美國家生活習(xí)慣、宗教信仰和人文文化等不同,對于一個(gè)詞語,如果語料中有某一語義成分出現(xiàn),則給該詞語所承擔(dān)的框架設(shè)立一個(gè)框架元素;反之,如果語料中這個(gè)詞沒有和某一語義成分共現(xiàn),則不作為我們設(shè)立框架元素的標(biāo)準(zhǔn)。這樣做,可能會因?yàn)樗疾榈恼Z料范圍有限,遺漏一些框架元素,但是,隨著研究的進(jìn)展,我們會根據(jù)新的語料不斷修正前面的構(gòu)建結(jié)果。
c) 對于一個(gè)框架,所含詞元應(yīng)該逐一審查,尤其不能直接翻譯。因?yàn)樵谟⒄ZFN和CFN有的屬于同一框架,有的不在同一框架。我們以漢語中表示感知覺活動的兩類詞語的框架構(gòu)建情況為例:
<1>聽v,看v,嘗v,聞v,嗅v,聽聽v,聞聞v,看看v,嘗嘗v,……
<2>感到v,聽到v,聽見v,聽出v,覺得v,看到v,看出v,看見v,……
兩組詞語都表示有感知能力的實(shí)體利用感覺器官對外界事物進(jìn)行感知,但是<1>組的動作發(fā)出者在活動中是自主的,而在<2>組所表示的活動中,動作發(fā)出者是不能控制動作發(fā)生的。可見,兩組詞語的核心框架元素類型不同,前者概括為自主感知者,后者為非自主感知者。
還有表示同一領(lǐng)域而不同的事件階段和狀態(tài),例如,動詞“知道”表示一種認(rèn)知狀態(tài),即認(rèn)知者大腦擁有某內(nèi)容,但“獲知”表示的則是一種認(rèn)知過程,表示認(rèn)知者的認(rèn)知狀態(tài)由不知道變?yōu)橹馈_@類情況下,詞語表示了不同的事件階段或狀態(tài),應(yīng)該歸入不同的框架。
d) 詞性與框架沒有必然的對應(yīng)關(guān)系。區(qū)分框架主要根據(jù)框架元素的類型、數(shù)量和框架所表示的事件階段,表示動作行為的框架涉及的詞元大部分是動詞,但也有少數(shù)事件名詞(即有配價(jià)的名詞),表示狀態(tài)的框架大部分是形容詞,但也有動詞、名詞。
(2) 句子庫構(gòu)建技術(shù)
句子庫是CFN為每一個(gè)詞語例句來自真實(shí)的漢語語料庫,如“北京大學(xué)CCL現(xiàn)代漢語語料庫”。該語料庫是生語料庫,需要經(jīng)過分詞F2000加工成熟語料庫,每條例句均具有分詞、詞性標(biāo)注以及名體信息,并且人工確定每個(gè)待表詞語取10~20個(gè)義項(xiàng)一致的例句,針對每條句子標(biāo)注了目標(biāo)詞(每個(gè)例句只標(biāo)注了一個(gè)目標(biāo)詞)及其框架語義角色。
CFN句子標(biāo)注,是以框架庫為基礎(chǔ),針對一個(gè)句子,給定一個(gè)詞元和該詞元所屬框架,給框架元素所在的成分標(biāo)記框架元素、短語類型和句法功能三種信息。例如,句子“大型弦樂隊(duì)的人數(shù)增加一倍或一倍以上”的標(biāo)注結(jié)果如下:
其中,tgt表示所標(biāo)注的目標(biāo)詞“增加”,該詞語屬于[量變]框架;att表示框架元素屬性(框架元素標(biāo)記見表1),np表示短語類型是名詞性短語,subj表示句法功能是主語,其他標(biāo)記依此類推。
一個(gè)框架涉及多個(gè)詞元,用同一個(gè)框架的框架元素集合進(jìn)行標(biāo)注;反過來,一個(gè)多義詞代表多個(gè)詞元,屬于幾個(gè)不同的框架,即用不同的框架元素進(jìn)行表示,有了這樣的信息,一個(gè)應(yīng)用系統(tǒng)就有可能區(qū)分出同一個(gè)詞形在不同的使用環(huán)境中的不同意義。
句子庫主要是目標(biāo)詞確定,漢語中謂詞有: 體詞謂語句、形容詞謂語句和動詞謂語句。但當(dāng)動詞或形容詞作定語、狀語和連用形容詞和疊用動詞都不是目標(biāo)詞。
(3) 詞元庫構(gòu)建技術(shù)
詞元庫針對每一個(gè)詞元,記錄詞元所在義項(xiàng)的具體含義以及該詞元的句子標(biāo)注報(bào)告,后者包括各個(gè)框架元素的句法實(shí)現(xiàn)情況以及目標(biāo)詞的語義搭配模式,它們是利用軟件工具,從標(biāo)注好的句子中自動匯總出來的,見表2。
表2 目標(biāo)詞元“看”的匯總表
CFN的每一個(gè)詞語都從真實(shí)語料中抽象出框架元素的句法實(shí)現(xiàn)方式,力求跳出由“意義到意義”描述的局限,因?yàn)橹挥行问教卣?,才是機(jī)器可用的。值得注意的是,CFN并沒有直接刻畫動詞的語義角色選擇限制屬性,但它基于真實(shí)語料,總結(jié)出了哪一個(gè)或哪一些語言成分可以充當(dāng)動詞的語義角色,而不是從直覺出發(fā)對角色的選擇限制進(jìn)行預(yù)測,這可能要比人工描述的結(jié)果更具體、更準(zhǔn)確,也更有實(shí)用價(jià)值。
漢語的語義角色自動標(biāo)注的較早研究是文獻(xiàn)[10],文獻(xiàn)[11]基于中文PropBank的自動標(biāo)注研究工作。文獻(xiàn)[12]基于中文PropBank語料庫,在使用手工標(biāo)記好的句法分析上,得到了94.1%的F1-值。但若采用自動的句法分析,卻只有71.9%的F1-值。PropBank只對每個(gè)句子的核心動詞進(jìn)行了標(biāo)注,語義角色的定義總共有50多個(gè),所有動詞的主要角色最多有6個(gè),均以Arg0-Arg5為標(biāo)記。正如文獻(xiàn)[13]指出: “中文PropBank中,論元標(biāo)記Arg2至Arg5對于語義角色的嚴(yán)重超載,使用這種標(biāo)注語料來訓(xùn)練角色自動標(biāo)注系統(tǒng),其性能勢必會受到影響”。事實(shí)上,PropBank中語義角色類型忽略了語言表達(dá)中的細(xì)節(jié),詞匯義項(xiàng)的描述顯得不夠精細(xì)。
近年來,許多學(xué)者已使用條件隨機(jī)場模型進(jìn)行語義角色標(biāo)注的嘗試,文獻(xiàn)[14]條件隨機(jī)場模型直接使用到PropBank的句子的完全句法分析樹上,建立標(biāo)注模型,實(shí)驗(yàn)結(jié)果表明條件隨機(jī)場的標(biāo)注性能要顯著好于最大熵模型。文獻(xiàn)[15]以PropBank為實(shí)驗(yàn)語料,將句法分析樹“壓平”,并考慮句法樹中水平層次上的角色標(biāo)簽之間的馬爾科夫依賴關(guān)系, 以線性鏈CRF為標(biāo)注模型進(jìn)行了語義角色標(biāo)注實(shí)驗(yàn),提高了模型的精度。文獻(xiàn)[16]使用條件隨機(jī)場模型研究了英文PropBank的語義角色標(biāo)注問題,他將完全句法分析樹轉(zhuǎn)換成淺層短語塊序列,并使用淺層短語塊和命名實(shí)體塊作為標(biāo)注單位,也取得不錯(cuò)的結(jié)果。所有這些結(jié)果表明條件隨機(jī)場模型在語義角色標(biāo)注中有不俗的表現(xiàn)。然而,文獻(xiàn)中使用條件隨機(jī)場進(jìn)行漢語框架語義角色自動標(biāo)注研究的很少。文獻(xiàn)[17]基于規(guī)則的方法研究了“自主感知”和“非自主感知”兩個(gè)框架的語義角色的標(biāo)注,但每個(gè)框架構(gòu)建規(guī)則工作量大,適應(yīng)性差。文獻(xiàn)[18]中使用層疊條件隨機(jī)場的CFN對“包含”“陳述”“擁有”“屬于某類”“研究”“提供”“適宜性”等十多個(gè)漢語框架元素自動標(biāo)注結(jié)果的準(zhǔn)確率為80.1%,召回率為 69.9%。不過,至今文獻(xiàn)中未看到漢語框架語義角色的自動標(biāo)注的系統(tǒng)研究。
文獻(xiàn)[19-21]使用條件隨機(jī)場模型(CRF)進(jìn)行漢語框架語義角色標(biāo)注。其標(biāo)注任務(wù)為: 對于一個(gè)漢語句子,在給定目標(biāo)詞及其所屬框架的前提下,將其框架元素的自動標(biāo)注問題通過IOB策略轉(zhuǎn)化為整個(gè)句子上的詞序列標(biāo)注問題,使用條件隨機(jī)場模型(CRF),采用統(tǒng)計(jì)學(xué)中的正交表實(shí)驗(yàn)方案,自動識別出目標(biāo)詞所支配的框架語義角色的邊界,并標(biāo)注出該目標(biāo)詞所支配的語義角色名稱,既包括核心框架元素,也包括非核心框架元素。這個(gè)任務(wù)與Senseval-3 中針對英文FrameNet的語義角色標(biāo)注任務(wù)是相同的。實(shí)驗(yàn)分基于詞層面特征和基于基本塊特征兩大部分,并在每個(gè)實(shí)驗(yàn)中分別考查將語義角色邊界識別和角色分類同時(shí)進(jìn)行和分兩步標(biāo)注兩種情況。實(shí)驗(yàn)所用CRF++工具包來自于Sourceforge(http://crfpp.sourceforge.net/),使用其中的CRFL2算法,并選取C=1進(jìn)行參數(shù)平滑。所有CRF模型中都用一階轉(zhuǎn)移特征。
實(shí)驗(yàn)選取25個(gè)框架的例句庫,將其拆分為4份;考慮到語料規(guī)模偏小,采用了2-fold 交叉驗(yàn)證方法,即,任取兩份作為訓(xùn)練集,其他兩份作為測試集。這樣共可以做3組2-fold交叉驗(yàn)證。最終以3組交叉驗(yàn)證實(shí)驗(yàn)的F1-值的平均值來評價(jià)標(biāo)注模型的性能,見表3。
表3 CRF模型實(shí)驗(yàn)結(jié)果匯總表
基于CRF的漢語框架語義角色自動標(biāo)注實(shí)驗(yàn)可得以下基本結(jié)論: (1)邊界識別與角色分類同時(shí)進(jìn)行的情況下,標(biāo)注效果較好;(2)基本塊特征對角色分類有顯著作用,但對邊界識別作用不顯著;(3)采用分批正交表實(shí)驗(yàn)(方案三)比使用全部特征一起建模的結(jié)果好。
CRF與其他標(biāo)注模型結(jié)果比較。主要闡述了使用支撐向量機(jī)(SVM)和最大熵模型(ME)兩種模型進(jìn)行語義角色標(biāo)注的實(shí)驗(yàn)結(jié)果,并將它們與給出的基于條件隨機(jī)場(CRF)模型的實(shí)驗(yàn)結(jié)果進(jìn)行了對比。所有方法實(shí)驗(yàn)結(jié)果匯總表將所有結(jié)果匯總,見表4。
表4 所有模型實(shí)驗(yàn)結(jié)果匯總表
模型以詞為基本標(biāo)注單元,將標(biāo)注步驟分為1)邊界識別;2)角色分類;3)后處理三個(gè)步驟。全部實(shí)驗(yàn)是在選出的25個(gè)框架的6 692個(gè)例句的語料上進(jìn)行。將語料均勻分為4份,分3組作2-fold交叉驗(yàn)證,以3組交叉驗(yàn)證的平均F1-值作為最后評價(jià)指標(biāo)?;跅l件隨機(jī)場標(biāo)注模型(CRF)與基于支持向量機(jī)(SVM)模型的標(biāo)注結(jié)果沒有顯著差異,但CRF顯著好于基于最大熵(ME)模型的標(biāo)注結(jié)果。在全部25個(gè)框架的所有實(shí)驗(yàn)中,語義角色邊界識別最好的結(jié)果(mF)為71.68%;在給定語義角色邊界下角色分類的最好結(jié)果(mA)為84.08%;在給定句子中的目標(biāo)詞以及目標(biāo)詞所屬的框架情況下,最好結(jié)果(mF)達(dá)到63.26%。
框架自動識別即給定一個(gè)句子及其目標(biāo)動詞(或事件名詞),自動識別出其所屬框架。由于框架語義網(wǎng)中定義的框架元素是從屬于特定框架的,因此,框架的識別實(shí)際上是實(shí)現(xiàn)句子語義分析的前提。該任務(wù)的難點(diǎn)在于,有些動詞,尤其是一些常用詞,有不只一個(gè)義項(xiàng),分屬于多個(gè)框架,如動詞“有”在CFN中屬于擁有、存現(xiàn)和形成三個(gè)框架,這就需要根據(jù)具體的上下文消解歧義。例如,當(dāng)“有”出現(xiàn)的句子“全書的觀點(diǎn)有創(chuàng)意”中時(shí),應(yīng)該標(biāo)注為擁有框架,而不是存現(xiàn)或形成框架。框架自動識別的歧義消解可分解為三個(gè)子任務(wù): (1)詞元檢測(Lexical Unit Detection),(2)未知框架檢測(Unknown Frame Detection),(3)框架消歧(Frame Disambiguation)。文獻(xiàn)[22]經(jīng)過詞元檢測、未知框架檢測后,確定有88個(gè)詞語對應(yīng)兩個(gè)以上框架,涉及框架14個(gè),相應(yīng)的例句2 077條。研究將框架消歧任務(wù)看做典型的單點(diǎn)分類問題,使用最大熵對其進(jìn)行建模,選用詞、詞性、基本塊、依存句法樹上的若干特征,并且借助于開窗口技術(shù)和邊界識別策略,采用3-fold交叉驗(yàn)證方式進(jìn)行了實(shí)驗(yàn)。初步實(shí)驗(yàn)結(jié)果表明,框架消歧的精確率達(dá)到69.28%。文獻(xiàn)[23]基于依存句法分析,并借助T-CRF模型,針對7個(gè)可激起多個(gè)框架的詞元進(jìn)行了框架消歧的研究,最終在940句的訓(xùn)練集與128句的測試集中獲得了81.46%的準(zhǔn)確率。
漢語框架語義依存圖是句子語義的一種形式化表示,漢語框架語義依存圖抽取是在句子層面進(jìn)行的一種深層語義分析。
框架核心語義依存圖是句子核心語義依存關(guān)系的圖形化表示,它由目標(biāo)詞、依存于目標(biāo)詞的框架元素的語義核心成分組成。目前,文獻(xiàn)[24-25]已經(jīng)在漢語句子的核心語義依存圖抽取研究方面取得了一定的進(jìn)展。提出了基于多詞塊標(biāo)注、條件隨機(jī)場模型、最大熵模型以及支持向量機(jī)模型的核心詞塊提取方法。經(jīng)對比試驗(yàn)發(fā)現(xiàn),基于條件隨機(jī)場模型的框架元素核心詞塊提取獲得了較好的識別性能,達(dá)到了93.17%的準(zhǔn)確率。
另外,研究了多框架語義依存圖的形式化表示技術(shù)和表示規(guī)范;收集了漢語框架網(wǎng)中用于抽取語義依存圖的句子標(biāo)注語料庫。漢語框架語義依存圖的抽取技術(shù)是與框架元素自動標(biāo)注、框架排歧技術(shù)密不可分的,在進(jìn)行漢語框架語義依存圖抽取的同時(shí),也在不斷深入研究如何提高框架元素自動標(biāo)注及框架消歧的準(zhǔn)確率。
中文閱讀理解問答技術(shù)研究[26]是基于框架語義分析,對中文閱讀理解問答技術(shù)進(jìn)行了研究。閱讀理解問答系統(tǒng)的研究目的是測試計(jì)算機(jī)對一篇短文的理解能力。閱讀理解的任務(wù)是給定任意一篇自然語言文章和一組給定的問題,計(jì)算機(jī)自動找到相關(guān)問題的答案。該研究構(gòu)建了中文閱讀理解語料庫,包含121篇完整的文章,3.2萬詞次,1 633句,平均每篇13.5句。語料庫共用232個(gè)框架對語料中有關(guān)詞語進(jìn)行了框架語義標(biāo)注(框架名和框架元素),由于漢語框架數(shù)據(jù)庫規(guī)模有限,其中有50多個(gè)框架是從英文框架語義網(wǎng)直接翻譯使用的。該研究構(gòu)建了詞層面以及句法層面共計(jì)35個(gè)特征,基于最大熵模型對中文閱讀理解問題回答進(jìn)行了建模,選取35個(gè)特征??紤]到特征取值之間的相關(guān)性對權(quán)重估計(jì)的影響,先對35個(gè)特征觀測值矩陣進(jìn)行主成分降維,選擇適當(dāng)?shù)闹鞒煞謧€(gè)數(shù)重構(gòu)特征,然后再使用最大熵模型進(jìn)行建模,在測試集上的HumSent準(zhǔn)確率達(dá)到80.18%。實(shí)驗(yàn)結(jié)果表明,在閱讀理解問答系統(tǒng)中,采用特征的主成分降維方法,能有效融合全部特征信息,回避了最大熵模型中特征篩選的過程,并且提高了閱讀理解系統(tǒng)的準(zhǔn)確率。
漢語框架語義依存圖是句子語義的一種形式化表示,計(jì)算漢語框架依存圖間的相似度是解決漢語句子相似度計(jì)算的一種有效途徑。
文獻(xiàn)[27]設(shè)計(jì)并實(shí)現(xiàn)了基于漢語框架依存圖的句子相似度計(jì)算模型。主要通過計(jì)算漢語框架依存圖相似度和外圍成分相似度,最終以它們的凸組合作為兩個(gè)句子的相似度。句子相似度計(jì)算模型的整體流程圖如圖1。
圖1 句子相似度計(jì)算模型的整體流程圖
具體包含: 框架相似度計(jì)算、目標(biāo)詞相似度計(jì)算、詞集合相似度計(jì)算、框架依存圖相似度計(jì)算、外圍成分相似度及句子相似度計(jì)算。框架網(wǎng)絡(luò)中兩個(gè)框架之間的相似度是指它們之間的語義距離。在計(jì)算兩個(gè)框架的相似度時(shí),采用了基于最短路徑關(guān)系權(quán)重乘積的外延相似度和基于框架元素組合的內(nèi)涵相似度線性組合的策略。其中包括: 核心框架元素相似度、框架內(nèi)涵相似度及框架外延相似度。
文獻(xiàn)[28]初步完成了面向山西旅游景點(diǎn)的基于本體的旅游自動問答實(shí)驗(yàn)系統(tǒng)。該系統(tǒng)借助漢語框架知識庫在語義表達(dá)方面的獨(dú)特優(yōu)勢,對問句進(jìn)行語義角色標(biāo)注,提取結(jié)構(gòu)化語義信息。同時(shí),探索了面向特定領(lǐng)域的本體構(gòu)建方法。依據(jù)山西旅游景點(diǎn)網(wǎng)站,系統(tǒng)針對收集的1 566條旅游常問問句,同時(shí)用本體語言O(shè)wL進(jìn)行了描述。問句包括六個(gè)方面: 特色小吃、住宿、娛樂、景點(diǎn)、購物、交通工具。在eclipse3.3平臺上進(jìn)行了實(shí)驗(yàn),并使用了Jena2.3工具包。目前本系統(tǒng)主要針對特指疑問句中的地點(diǎn)、時(shí)間、方法及是非疑問句部分問句進(jìn)行了測試。采用召回率對系統(tǒng)進(jìn)行評價(jià),實(shí)驗(yàn)結(jié)果CFN標(biāo)注后的召回率: 特指疑問句(LOC)為72%,特指疑問句(TIME)為73%,特指疑問句(MEANS)為62%。
結(jié)束語
漢語框架語義網(wǎng)構(gòu)建與應(yīng)用技術(shù)研究正在處于發(fā)展時(shí)期,并得到國家863計(jì)劃、自然科學(xué)基金以及社會科學(xué)基金的支持,許多課題正在研究中。目前,漢語框架語義網(wǎng)構(gòu)建框架和句子庫規(guī)模偏小,使得其自動標(biāo)注系統(tǒng)及相關(guān)應(yīng)用技術(shù)研究實(shí)驗(yàn)結(jié)果偏低,而且漢語框架語義網(wǎng)遠(yuǎn)遠(yuǎn)沒有跟上英語FrameNet進(jìn)展,直接影響漢語應(yīng)用技術(shù)研究和推廣。
致謝本文撰寫過程,及時(shí)得到美國加州大學(xué)伯克利分校國際計(jì)算機(jī)科學(xué)研究中心FrameNet 項(xiàng)目經(jīng)理Collin F. Baker給予提供的當(dāng)前FrameNet資料。
[1] Fillmore. Frame semantics[C]//Linguistics in the Morning Calm. 1982: 37-111.
[2] Baker CF, Fillmore CJ, Lowe JB. The Berkeley FrameNet project [C]//Proceedings of the CO LING-ACL’98. Montreal: ACL Press, 1998: 86-90.
[3] Subirats, Carlos. Spanish Framenet: A frame-semantic analysis of the Spanish lexicon[C]//Hans Boas, ed. Multilingual FrameNets in Computational Lexicography. Methods and Applications. Berlin/New York: Mouton de Gruyter, 2009: 135-162.
[4] Boas,HansC.BilingualFrameNetDictionariesfor Machine ranslation[C]//Proceedings of the Third International Conference on Language Resources and Evaluation. Eds. Gonz lez M. Rodr guez, and Paz Su rez C. Araujo. Vol. IV. 2002: 1364-1371.
[5] Ohara, Kyoko Hirose, Seiko Fujii, et al. The Japanese FrameNet Project: A Preliminary Report[C]//Proceedings of Pacific Association for Computational Linguistics (PACLING’03), 2003: 249-254.
[6] Salom o, Maria M M. FrameNet Brasil: Um trabalho em progresso[J]. Calidosc pio, 2009, 7:3.
[7] You L P, Liu K Y. Building Chinese FrameNet Database[C]//Proceedings of 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering (IEEE NLP-KE), 2005: 301-306.
[8] 由麗萍. 構(gòu)建現(xiàn)代漢語框架語義知識庫技術(shù)研究[D]. 上海師范大學(xué)博士學(xué)位論文,2006.
[9] 劉開瑛. 漢語框架語義網(wǎng)(CFN)構(gòu)建現(xiàn)狀[R]. 計(jì)算語言學(xué)2008年青年學(xué)生會議大會邀請報(bào)告.
[10] Sun HL, Jurafsky D. Shallow semantic parsing of Chinese[C]//Hirschberg JB ed. Proceedings of NAACL-HLT 2004. Boston: ACL, 2004: 249-256.
[11] Xue NW, Palmer M. Automatic semantic role labeling for Chinese verbs[C]//Bramer M ed. Proceedings of the Nineteenth International Joint Conference on Artificial Intelligence. Edinburgh: IJCAI, 2005: 1161-1165.
[12] Xue NW. Labeling Chinese predicates with semantic roles[J]. Computational Linguistics, 2008, 34(2): 225-255.
[13] 袁毓林. 語義資源建設(shè)的最新趨勢和長遠(yuǎn)目標(biāo)[J]. 中文信息學(xué)報(bào), 2008, 22(3): 3-15.
[14] Cohn T, Blunsom P. Semantic role labeling with tree conditional random fields[C]//Knight K, Ng HT, Oflazer K, eds. Proceedings of CoNLL 2005. Ann Arbor: ACL, 2005: 169-172.
[15] 董靜,孫樂,呂元華,等. 基于線性鏈條件隨機(jī)場模型的語義角色標(biāo)注[C]//中國中文信息學(xué)會二十五周年學(xué)術(shù)會議, 2006: 32-37.
[16] Yu JD, Fan X, Pang W, et al. Semantic role labeling based on conditional random fields[J]. Journal of Southeast University(English Edition), 2007, 23(3): 361-364.
[17] 劉鳴洋,由麗萍. 漢語感知詞語的語義角色標(biāo)注規(guī)則初探[C]//內(nèi)容計(jì)算的研究與應(yīng)用前沿,2007: 320-325.
[18] 劉開瑛,陳雪艷,李濟(jì)洪. 漢語框架元素自動標(biāo)注實(shí)驗(yàn)報(bào)告[C]//第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議, 2008, 1: 48-55.
[19] 李濟(jì)洪. 漢語框架語義角色的自動標(biāo)注技術(shù)研究[D]. 山西大學(xué)博士學(xué)位論文, 2010.
[20] 李濟(jì)洪, 王瑞波, 王蔚林,等. 漢語框架語義角色的自動標(biāo)注[J].軟件學(xué)報(bào)(Journal of Software), 2010, 21(4):597-611.
[21] Jihong LI, Ruibo WANG, Weilin WANG Bo GU, Guochen LI. Automatic Labeling of Semantic Role on Chinese FrameNet Using Conditional Random Fields[C]//2009 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology-Workshops.
[22] 李濟(jì)洪, 高亞慧, 王瑞波, 等. 漢語框架自動識別中的歧義消解[J]. 中文信息學(xué)報(bào), 2011,25(3): 38-44.
[23] Ru Li,HaijingLiu,Shuanghong Li.Chinese Frame Identification using T-CRF Model[C]//International Conference on Computational Linguistics, (Coling 2010): 674-682.
[24] 李雙紅, 李茹, 鐘立軍, 等. 基于多詞塊的框架元素語義核心詞自動識別研究[J].中文信息學(xué)報(bào),2010,24(1): 30-36.
[25] 康旭珍,李茹,李雙紅.框架元素語義核心詞自動識別研究[J].中文信息學(xué)報(bào), 2011, 25(4): 116-121.
[26] 李濟(jì)洪,王瑞波,王凱華,等. 基于最大熵模型的中文閱讀理解問題回答技術(shù)研究[J]. 中文信息學(xué)報(bào),2008, 22(6): 55-62.
[27] Ru Li,Shuanghong,Li. The Semantic Computing Model of Sentence Similarity Based on Chinese FrameNet[C]//Web Intelligence/IAT Workshops 2009: 255-258.
[28] 李茹,王文晶,染吉業(yè),等.基于漢語框架網(wǎng)的旅游信息問答系統(tǒng)設(shè)計(jì)[J].中文信息學(xué)報(bào), 2009,23(2): 34-40.