李國臣,呂 雷,王瑞波,李濟洪,李 茹
(1. 太原工業(yè)學院 計算機工程系,山西 太原 030008;2. 山西大學 計算機與信息技術學院,山西 太原 030006;3. 山西大學 計算中心,山西 太原 030006)
基于同義詞詞林信息特征的語義角色自動標注
李國臣1,2,呂 雷2,王瑞波3,李濟洪3,李 茹2
(1. 太原工業(yè)學院 計算機工程系,山西 太原 030008;2. 山西大學 計算機與信息技術學院,山西 太原 030006;3. 山西大學 計算中心,山西 太原 030006)
該文使用同義詞詞林語義資源庫,以詞林中編碼信息為基礎構建新的特征,使用條件隨機場模型,研究了漢語框架語義角色的自動標注。該文在先前的基于詞、詞性、位置、目標詞特征的基礎上,在模型中加入不同的詞林信息特征,以山西大學的漢語框架語義知識庫為實驗語料,研究了各詞林信息特征分別對語義角色邊界識別與分類的影響。實驗結果表明,詞林信息特征可以顯著提高語義角色標注的性能,并且主要作用在語義角色分類上。
語義角色標注;同義詞詞林;條件隨機場;正交表
自20世紀70年代末以來,中文信息處理進入了快速發(fā)展時期,大致可分為兩個階段:分詞和詞性標注以及句法語義分析階段。目前,中文信息處理的主要瓶頸是詞義、句義的表示和語義理解問題。
語義角色標注(Semantic Role Labeling,SRL)是淺層語義分析的一種實現(xiàn)方式,總結近幾年國內外基于統(tǒng)計方法的語義角色標注研究的內容,主要可以歸結為特征提取及特征選擇的研究。在英文語義角色標注中,Gildea等人[1]在語義角色標注中使用了七個基本特征:謂詞、句法類型、次范疇框架、路徑、位置、語態(tài)和中心詞;Pradhan等人[2]在基本特征的基礎上引入了中心詞、詞性、謂詞類別、部分路徑等12種新特征。在之后的研究中,雖然Xue等人[3]對組合特征進行了嘗試,但這些特征也都是在基本特征集合上面進行的。
在中文語義角色標注實驗中,大多效仿英文的做法,劉挺等人在文獻[4]中用最大熵分類器對句子中謂詞的語義角色同時進行識別和分類;李濟洪[5]的正交表選特征的方法在語義角色標注技術得到了有效地應用;在文獻[6-7]中,劉懷軍,李世奇等人針對中文的特點,在英文語義角色標注特征的基礎上,提出了一些更有效的新特征和組合特征;而Sun等人在文獻[8]中也將英文中短語結構句法分析的特征移植到中文語義角色標注上,然后利用在賓州中文樹庫上訓練的Collins句法分析器進行句法分析,并利用SVM分類器在手工標注的小規(guī)模語料上進行了實驗。這些工作基本上都是用不同的機器學習方法,針對基本特征及其組合對語義角色標注進行了研究。
從以上文獻可以發(fā)現(xiàn),目前在語義角色標注任務上所使用的特征中,謂詞、中心詞以及謂詞的前一個詞、后一個詞在標注任務中起著重要的作用,但這些特征在使用的過程中,存在嚴重的詞特征稀疏問題[9-10]。緩解詞特征的稀疏問題應有助于提高標注器的性能。
《同義詞詞林》是一部優(yōu)秀的漢語詞義分類詞典,它通過對詞進行編碼,許多同義詞、近義詞將會被編為一類,在語義角色標注中引入《同義詞詞林》語義資源,提取相應特征,將改善訓練集和測試集中詞特征的稀疏性,使語義角色標注任務有可能提高。
《同義詞詞林》按照樹狀的層次結構把所有收錄的詞條組織到一起,把詞匯分成大、中、小三類,大類有12個,中類有97個,小類有1 400個。每個小類里都有很多的詞,這些詞有根據(jù)詞義的遠近和相關性分成了若干個詞群(段落)。每個段落中的詞語又進一步分成了若干個行,同一行的詞語要么詞義相同(有的詞義十分接近),要么詞義有很強的相關性。小類中的段落可以看作第四級的分類,段落中的行可以看作第五級的分類。這樣,詞典《同義詞詞林》就具備了五層結構。例如,
Ba01A02= 物質 質 素
Cb02A01= 東南西北 四方
Ba01A03@ 萬物
Cb06E09@民間
Ba01B08# 固體 液體 氣體 流體 半流體
Ba01B10# 導體 半導體 超導體
具體的標記參見表1。
表1 詞語編碼表
表1中的編碼位是按照從左到右的順序排列。第八位的標記有三種,分別是“=”、“#”、“@”,“=”代表“相等”、“同義”。末尾的“#”代表“不等”、“同類”,屬于相關詞語。末尾的“@”代表“自我封閉”、“獨立”,它在詞典中既沒有同義詞,也沒有相關詞。本文將以詞林對詞的編碼信息,提取不同特征,以提高標注的性能。
目前,國內語義角色標注的研究中,同義詞詞林的語義信息的研究還為數(shù)不多,本文在李濟洪[10]所選特征基礎上,融入同義詞詞林信息,使用條件隨機場模型建立漢語框架語義角色標注模型,并使用統(tǒng)計正交表的特征模板優(yōu)選方法[5]進行語義角色標注的研究。
本文結構如下:第二節(jié)給出漢語框架語義角色標注的任務描述;第三節(jié)說明相應的特征提取及選擇方法;第四節(jié)給出實驗結果及分析;最后對全文進行總結,并給出下一步的研究方向。
考慮到漢語框架CFN的建設仍然屬于初始階段,可用的語料規(guī)模還比較小。為此,本文的CFN語義角色(框架元素)標注的任務定為:對給定的一個漢語句子,在已知目標詞及其所屬框架的前提下,自動識別語義角色的邊界,標出該目標詞所支配的語義角色(框架元素,包括核心框架元素、非核心框架元素及通用語義角色)。
通過BIO標注策略,將語義角色標注看作是以詞為基本標注單位的序列標注問題。其標記集合可表示為式(1)。
(1)
這里FESet為給定目標詞的所屬框架的框架元素。本文可以使用條件隨機場(Conditional Random Fields,CRFs)模型對漢語框架語義角色標注進行處理。
條件隨機場(CRFs)模型是由Lafferty[11]在2001年提出的一種典型的判別式模型。它在觀測序列的基礎上對目標序列進行建模,重點解決序列化標注的問題。條件隨機場模型既具有判別式模型的優(yōu)點,又具有產(chǎn)生式模型那樣要考慮到上下文標記間的轉移概率,以序列化形式進行全局參數(shù)優(yōu)化和解碼的特點,解決了其他判別式模型(如最大熵馬爾科夫模型)難以避免的標記偏置問題。
不同于傳統(tǒng)的分類問題,序列標注任務有著獨特的特點。本文采用CRF模型,主要考慮到以下特點。
1) CRF模型是解決序列標注和分割問題的,而語義角色標注任務通過BIO策略可轉化為序列標注問題。
2) 序列標注模型中,一個序列中的每個標注單位有著較強的相關性,而序列和序列之間是獨立的。很多研究者在進行序列標注時,假設序列中的每個元素之間是獨立同分布的,并將序列標注任務看作是對每個序列中每個元素進行單點分類任務。在此基礎上,使用最大熵或者支撐向量機模型進行訓練。顯然,這樣的假設不太符合實際。而條件隨機場模型便考慮到了元素之間的相關性,并將一個序列看作是一個整體。
3) 正是由于序列之間各個元素具有相關性,開窗口技術才被廣泛用于序列標注問題,而相應窗口大小的選擇也是應當考慮的。
本文考慮到漢語框架語義角色標注模型的構造及其特點滿足以上特點,故使用CRF模型,以期達到較好的標注結果。
事實上,模型特征是影響機器學習性能的重要因素。構建良好的特征,以及特征信息的有效利用是提高機器學習性能的關鍵。
3.1 特征提取
本文假設語料庫中的漢語句子已經(jīng)經(jīng)過了正確的分詞、詞性標注,并且已經(jīng)識別出正確的目標詞和相應的框架信息。再以哈爾濱工業(yè)大學信息檢索中心的《同義詞詞林》為依托,自動為每個句子的每個詞語標上同義詞詞林編碼,根據(jù)編碼的層級提取出五種詞林信息。從給定的這些信息中,本文可以總結出如表2所示的幾種特征。
表2 詞層面特征與詞林信息特征描述
續(xù)表
根據(jù)目前語料庫的狀況,候選特征除了以上九個特征以外,還有這些特征的二元組合、三元組合特征, 這些特征的兩兩組合特征。本文將這些特征的窗口大小限定在三以內。可選窗口大小的表示與文獻[10]中表1相同。
3.2 特征選擇
本文以文獻[10]中基于詞特征的語義角色標注實驗為Baseline系統(tǒng),將五種詞林信息特征(F5,F(xiàn)6,F(xiàn)7,F(xiàn)8,F(xiàn)9)逐一替換Baseline系統(tǒng)中的詞特征進行試驗,得到的系統(tǒng)記為CL1、CL2、CL3、CL4、CL5。
考慮到特征的組合數(shù)非常龐大,以Baseline系統(tǒng)為例,所有特征的不同窗口大小組合可以構成410×2種特征模板,在所有模板上進行訓練、測試,顯然不現(xiàn)實。因此,文獻[10]中提出使用正交表L32(49×24)來進行特征選擇。具體方法可參見文獻[10]中的描述。
本文在文獻[10]的Baseline系統(tǒng)基礎上,為了進一步的驗證詞林信息特征對語義角色標注結果的影響,采用李濟洪在文獻[11]中提出基于分批正交表特征模板選優(yōu)方案,對系統(tǒng)Baseline+CL(Baseline所選特征與所有詞林信息的組合)進行了特征選擇。第二個正交表采用L54(21×325)。
該方案是在Baseline系統(tǒng)標注結果最好的模板的基礎上,再確定下一個正交表中的特征的窗口。即后部分實驗需要在前部分32個實驗選出最優(yōu)模板的基礎上,再確定L54(21×325)表中的水平所對應的窗口。實驗方案能確保新選模板的性能不低于Baseline系統(tǒng)所選出的最優(yōu)模板。詳見文獻[5]中描述。實驗所設系統(tǒng)如表3所示。
表3 實驗所設系統(tǒng)
4.1 語料來源
為了能夠得到與文獻[10]中可以對比的實驗結果,本文采用與文獻[10]相同的語料,該語料包含25個框架,這25個框架來自于“認知”領域和其他領域,包含6 692條正確標注的句子。由于目前語料規(guī)模不大,本文采用三組2-fold 交叉驗證進行實驗,即任取兩份作為訓練集,其他兩份作為測試集,這樣共可以做三組2-fold交叉驗證。最終的評價指標以三組交叉驗證實驗的F-值的平均值來評價標注模型的性能。本文對于三組2-fold交叉驗證中的詞信息進行了統(tǒng)計,統(tǒng)計結果如表4所示。
表4 語料中詞信息統(tǒng)計結果
從表4我們可以發(fā)現(xiàn),在語義角色標注實驗中,測試集中有一半左右的詞信息沒有出現(xiàn)在訓練集中,相應的詞特征稀疏問題嚴重。本文使用同義詞詞林信息特征后,經(jīng)統(tǒng)計,詞林信息特征的特征數(shù)得到有效的縮減,如表5所示。
表5 特征數(shù)統(tǒng)計結果
詞林信息特征的引入為語料中詞義相近的詞搭建了橋梁,使訓練語料與測試語料中共現(xiàn)特征數(shù)量大幅度的增多。
4.2 評價方法
4.2.1 評價指標
正確識別一個語義角色塊指的是語義角色塊的邊界正確,并且語義角色塊的類型也識別正確。為此,本文使用準確率(Precision),召回率(Recall)和F-值(F-Score)來評價漢語框架語義角色標注模型的性能。
假設模型標注出的語義角色塊數(shù)為Cp,其中正確的塊(左右邊界正確,且語義角色類型正確)數(shù)目為Cc,測試集中的語義角色塊的數(shù)目為Co,那么,準確率如式(2)所示。
(2)
召回率如式(3)所示。
(3)
F值如式(4)所示。
(4)
最終以三組2-fold交叉驗證的平均F-值(記為mF)來評價模型的性能。
4.2.2 顯著性檢驗
因為有隨機誤差因素存在,傳統(tǒng)的直接用F-值的平均值來評判系統(tǒng)優(yōu)劣的方法是不恰當?shù)?。應當構造合理的統(tǒng)計檢驗來實施正確推斷。在語義角色標注的相關文獻中,常常需要分析新加入某個特征對系統(tǒng)性能的影響是否顯著,每類特征重要性的分析一般是在基線模型B的基礎上,加入某類特征X得到模型A進行實驗,然后對模型A和B進行t檢驗,來評判特征X的重要程度(是否顯著)。在給定的一組交叉驗證的實驗下,如果將評價指標F-值近似看作服從正態(tài)分布,相應的檢驗統(tǒng)計量的構造主要是其方差的估計。為此,本文利用文獻[12]中給出的3×2交叉驗證下方差的估計以及t-檢驗方法。下面簡要敘述顯著性檢驗的方法。
假設系統(tǒng)A,系統(tǒng)B(Baseline系統(tǒng))在三組2-fold交叉驗證下的平均F-值為mFA,mFB,記式(5)。
(5)
這個問題的正確的假設檢驗提法為:
基于分批正交表實驗時,由于實驗的配置特點確保模型A的結果不會低于模型B的結果,因此檢驗應為單邊檢驗:
原假設H0: CV3×2≥0
備選假設H1:CV3×2<0
其他情況下,檢驗應為雙邊檢驗:
原假設H0: CV3×2=0
備選假設H1:CV3×2≠0
兩種檢驗均使用式(6)。
(6)
4.3 語義角色標注邊界識別與角色分類同時做的實驗結果
從表6中,本文可以得到如下幾點結論。
(1) 從表6中可以看出,在Baseline系統(tǒng)的基礎上加上CL信息,結果提高了0.69%,P-值結果為0.046,在α=0.05下是顯著的,證明詞林信息特征
表6 各系統(tǒng)與Baseline結果的對比
注:Baseline系統(tǒng)得到的實驗結果(58.86%)與文獻[10]中不同,是因為本文實驗包含通用語義角色,文獻[10]中的實驗不包含通用語義角色。
對語義角色標注結果的提高有作用。
(2) 從五個加入不同的詞林信息特征系統(tǒng)的實驗結果看出,CL3和CL4系統(tǒng)上比Baseline系統(tǒng)有顯著提高,說明詞林信息特征編碼選在第三或第四類較為合理。
再分別看25個框架下的詳細實驗結果(表7)。
表7 25個框架下的所有系統(tǒng)的實驗結果
續(xù)表
表7中最后一行的總計結果是在25個框架的測試集上的微平均的標注準確率、召回率和F-值,而不是25個框架的宏平均結果。從表7中,本文可以得到如下幾點結論。
(1) 在25個框架上總體的標注F-值在Baseline+CL系統(tǒng)下可以達到59.55%,可以看出來,雖然總結果有所提高,但是從結果中可以發(fā)現(xiàn),只有八個框架的F-值有提升,并不是所有的結果都好于Baseline系統(tǒng)。初步分析,這可能主要是因為語料相對較少的原因。
(2) 從CL1到CL5的結果看,25個框架中的11個框架在CL3時最大,7個在CL2最大,3個在CL4最大,4個在CL5最大,1個在CL1最大,說明詞林信息特征編碼選在第三類較為合理。
4.4 給定邊界下角色分類的實驗結果
從前面的實驗可以發(fā)現(xiàn),加入詞林信息特征對語義角色標注性能的提高是顯著的,而語義角色標注任務可以分為邊界識別和角色分類。下面將進一步深入分析詞林信息特征分別對邊界識別和角色分類的影響。
在本節(jié)中,本文將給出給定邊界的情況下做語義角色分類的實驗結果,實驗結果如表8所示。
表8 給定邊界的情況下做語義角色分類的實驗結果
續(xù)表
表8中給出了Baseline系統(tǒng)以及詞林信息特征替換詞特征所得到的給定邊界下角色分類的平均F-值。從表8中可以得到以下結論。
(1) 詞林信息特征對角色分類有顯著作用。
(2) CL3最高,且與Baseline系統(tǒng)有顯著差異,說明詞林信息特征編碼選在第三類較為合理。
4.5 邊界識別實驗結果
對于漢語框架語義角色的邊界識別,本文將25個框架的所有訓練集進行統(tǒng)一訓練,并在測試集上進行測試。表9中給出了六組實驗的平均指標。
表9 邊界識別的實驗結果
表9中統(tǒng)計的是Baseline系統(tǒng)以及詞林信息特征替換詞特征所得的在25個框架的測試集上的微平均的標注F-值。從表9中可以得到如下幾點結論。
(1) 從表中的結果可以看出,詞林信息特征替換詞特征所得到的邊界識別結果并不理想,說明詞林信息特征在邊界識別中的作用沒有詞特征的作用大。
(2) 在Baseline+CL系統(tǒng)中,邊界識別的性能比Baseline系統(tǒng)提高了0.19%,但并不顯著,說明詞林信息特征在邊界識別中的作用不大。
(3) 通過表6、表8、表9,可以得出,詞林信息特征的加入只對語義角色分類提高有顯著作用,對于邊界識別的作用不大。
從以上實驗結果及分析中,可以看出,Baseline+CL系統(tǒng)的標注結果最好,但CL包含了詞林信息特征的所有的各類編碼,特征的訓練測試耗時。從CL1到CL5的實驗結果中我們發(fā)現(xiàn),三類詞林信息特征的結果較好,因此,本文以分批正交表構建Baseline+CL3系統(tǒng)進行實驗,實驗結果如表10所示。
表10 Baseline+CL3系統(tǒng)實驗結果
表10中可以看到,在顯著水平0.05下,數(shù)據(jù)顯示與上文中分析結果一致,這就是:
(1) Baseline+CL3系統(tǒng)比Baseline系統(tǒng)的標注結果有顯著提高。
(2) 在給定邊界下的角色分類也有顯著提高。因此,詞林信息特征的加入作用主要在角色分類。
(3) Baseline+CL3系統(tǒng)的邊界識別與Baseline系統(tǒng)沒有顯著差異。
本文針對詞林信息特征,用交叉驗證的方法對其在語義角色標注中的作用做了深入的研究,并將詞林信息特征加入到Baseline系統(tǒng)中,與Baseline系統(tǒng)的標注結果做了對比,研究表明,同義詞詞林信息一定程度上提高了語義角色標注的結果,但是只在語義角色分類上作用顯著,而在邊界識別中的效果并不明顯,從而證明,詞林信息特征對語義角色標注系統(tǒng)性能的提高有著一定的作用。
下一步,本文將對同義詞詞林信息做進一步研究學習,擬將同義詞詞林信息加入到句法分析中,以期得到更好的標注結果。
致謝:本文采用了山西大學漢語框架網(wǎng)絡知識庫的語料資源,所使用的《同義詞詞林》是由哈爾濱工業(yè)大學信息檢索中心提供的,并且本文使用了山西省網(wǎng)絡科技環(huán)境高性能計算平臺,在此表示衷心的感謝!
[1] Gildea D, Jurafsky D. Automatic Labeling of Semantic Roles[J]. Computational Linguistics. 2002,28(3): 245-288.
[2] Pradhan S, Hacioglu K, Krugler V, et al. Support vector learning for semantic argument classification[J]. Machine Learning Journal, 2005,60(3):11-39.
[3] Xue N, Palmer M. Calibrating features for semantic role labeling[C]//Proceedings of the EMNLP-2004, 2004: 88-94.
[4] Liu T, Che W X, Li S. Semantic role labeling with maximum entropy classifier[J]. Journal of Software, 2007,18(3):565-573.
[5] 李濟洪. 漢語框架語義角色的自動標注技術研究[D]. 山西大學博士學位論文, 2010.
[6] 劉懷軍, 車萬翔, 劉挺. 中文語義角色標注的特征工程[J]. 中文信息學報, 2007,21(1):75-80.
[7] 李世奇, 趙鐵軍, 李晗靜, 等. 基于特征組合的中文語義角色標注[J]. 軟件學報, 2011,22 (2):222-232.
[8] Sun H, Jurafsky D. Shallow semantic parsing of Chinese[C]//Proceedings of the NAACL 2004, Boston, USA, 2004: 249-256.
[9] 劉挺, 車萬翔, 李生. 基于最大熵分類器的語義角色標注[J].軟件學報,2007,18(3):565-573.
[10] 李濟洪, 王瑞波, 王蔚林, 等. 漢語框架語義角色的自動標注[J]. Journal of Software, 2010,21(4):597-611.
[11] Lafferty J, McCallum A, Pereira F. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the ICML-01, 2001:282-289.
[12] Wang Y, Wang R B, Jia H C, et al. Blocked 3×2 cross-validated t-test for comparing supervised classification learning algorithms[C]//Proceedings of the Submitted to Neural Computation. 2013.
Semantic Role Labeling Based on TongYiCi CiLin Derived Features
LI Guochen1,2,LV Lei2,WANG Ruibo3,LI Jihong3,LI Ru2
(1. Department of Computer Engineering, Taiyuan Institute of Technology, Taiyuan, Shanxi 030008,China; 2. School of Computer and Information Technology, Shanxi University, Taiyuan, Shanxi 030006, China; 3. Computer Center, Shanxi University, Taiyuan, Shanxi 030006, China)
This paper presents an approach to label the semantic roles automatically by using a lexical resource named Tongyici Cilin, in which a CRFs model is constructed by a series of new features derived from the encoded information of Cilin. Compared with the features of word, part-of-speech and word positions, the proposed method investigates the Cilin features on the corpus of Chinese FrameNet (CFN), developed by Shanxi University to describe semantic knowledge. Experimental results show a significant improvement in the performance after adding the features of Cilin information.
semantic role labeling; TongYiCi CiLin; conditional random fields; orthogonal array
李國臣(1963—),教授,主要研究領域為中文信息處理。E?mail:lgc1017@163.com呂雷(1988—),碩士,主要研究領域為中文信息處理。E?mail:lvlei@sxu.edu.cn王瑞波(1985—),博士,主要研究領域為中文信息處理。E?mail:wangruibo@sxu.edu.cn
1003-0077(2016)01-0101-07
2014-01-05 定稿日期: 2014-04-20
國家語委“十二五”科研規(guī)劃項目(YB125-19);國家自然科學基金(61373082);國家自然科學基金(60873128,60970053);山西省回國留學人員科研項目(2013-015),國家863高技術研究發(fā)展計劃(2006AA01Z142)
TP391
A