郭忠偉 周慶伍 丁 丁 郭銀忠 李 巍 張曉松
(1.陸軍軍官學院二系 合肥 230031)(2.中國人民解放軍66282部隊 北京 102300)
軍用文書電子詞典為軍用文書的自然語言理解、信息提取、文語轉(zhuǎn)換等智能處理系統(tǒng)提供了基本知識源。由于軍用文書電子詞典應用目的的特殊性,它與一般的詞典是不同的,一般的詞典只是存儲詞語的詞性、釋意或與另一種語言對應的詞匯等,而軍用電子詞典除了存儲詞語之外,還包括語法信息、語義信息、語言處理方法規(guī)則等等[1]。本文從軍用文書智能處理的角度,著重研究了軍用文書領域電子詞典的構(gòu)建與實現(xiàn)問題。
在中文信息處理中,為了進行語法研究與信息處理,需要把語法功能相同的或者語義相近的詞歸成一類,這是建立信息處理規(guī)則和處理方法的重要前提。文獻[1]提出了一個面向語言信息處理的現(xiàn)代漢語詞語分類體系,將數(shù)十萬的漢語詞語進行了歸類,分為十八個基本詞類和七類非詞的語言成分。軍用文書作為漢語自然語言中的一個特定的受限領域,又具有自己鮮明的特點:格式記述方法固定、句子簡練、用詞精確、內(nèi)容規(guī)范、組織有序、縮短語使用較多、連接詞較少等[3]。因此,軍用文書的分類可在文獻[1]基礎之上進行簡化,省略其中基本詞類的語氣詞、擬聲詞和嘆詞,對于非詞的語言成分只采用成語、簡稱略語和習用語,其他不進行處理。這樣得到的簡化的軍用文書詞性分類為:名詞(n),時間詞(t),處所(s),方位詞(f),數(shù)詞(m),量詞(q),區(qū)別詞(b),代詞(r),動詞(v),形容詞(a),狀態(tài)詞(z),副詞(d),介詞(p),連詞(c),助詞(u),成語(i),習用語(l),簡稱略語(j)。
軍用文書詞語的語義分類主要是為軍用文書智能處理服務的。因此,軍用文書詞語不能完全照搬通用的語義分類系統(tǒng),需要參考相關軍用術語詞典,在對大量軍用文書樣本中的詞語提取、歸類的基礎上,再進行語義分類[2,4]。這里構(gòu)建的軍用文書詞語語義分類體系為:
1)事物
主要包括:綜合用語、國防、戰(zhàn)爭戰(zhàn)略、戰(zhàn)役戰(zhàn)役法、戰(zhàn)斗戰(zhàn)術、警戒行軍宿營、組織指揮、體制編制、軍事訓練、裝備管理、政治工作、后方勤務、偵察情報、電子對抗、軍事地理測繪、軍事氣象水文、時間、空間、軍種、兵種等。
2)運動
主要包括:關聯(lián)、心理活動、行為(自變、促變、自為、自移、搬移、對待、給予、獲取、創(chuàng)造、遭受)等。
3)性狀
主要包括:外形、表象、顏色、味道、性質(zhì)、品格、境況等。這種分類與通用的語義分類不同之處主要在于軍用文書電子詞典中名詞的語義分類。由于軍用文書領域的術語名詞都處于具體事物和抽象事物一級,如果繼續(xù)分下去對軍用文書的智能處理沒有太大意義,若只分兩類則提供的信息又不夠詳盡,這里的語義分類是按照簡單有效性原則,忽略了暫時不需要的信息。
詞法信息是詞的變化信息,軍用文書電子詞典需要收集兩類詞法信息:詞的重疊信息和詞的附加成分信息。漢語不像英語語系,它沒有時態(tài)變化,但可通過重疊、附加前接成分或后接成分等方式構(gòu)成新的詞。設單字詞為A,兩字詞為AB。漢語詞的重疊可能有AA、A一A、A了A、A了一A、AAB、ABB、AABB、ABAB等多種形態(tài)。在軍用文書智能處理中,為了實現(xiàn)文書詞語的正確切分,需要給出詞的重疊信息。在名詞庫中設有“重疊”字段,凡單字名詞有重疊形式者,該字段填NN。在動詞庫中,為了給出以VO形式表示的述賓結(jié)構(gòu)的離合動詞是否有VVO的重疊,動詞庫需要設立“VVO”字段。在形容詞庫中,一些單字形容詞A的重疊形式AA再加上狀態(tài)詞后綴“的”構(gòu)成的“AA的”,一定是狀態(tài)詞。如果只考察AA,則有的是詞(副詞,d),有的不是詞。因此,在形容詞庫中,除了設立“重疊”字段外,還要設立“重疊詞性”字段。
1)擔任句法成分情況
名詞一般是能擔任主語、賓語的,但也有些名詞不能單獨擔任主語或賓語的。因此,需要在名詞庫中設立“主”、“賓”兩個字段,對于“地步”,“主”字段填“否”,表示“地步”不能單獨做主語,即使它受定語修飾構(gòu)成定中短語也不能做主語,對于“方面”,“賓”字段填“否”表示“方面”不能單獨作賓語,不過受定語修飾構(gòu)成的定中短語就可以作賓語,如“兼顧各個方面”。一般認為多數(shù)動詞是可以作謂語的,因此在動詞庫中設立了“單作謂語”字段。
2)受程度副詞修飾的形容詞、動詞
絕大多數(shù)形容詞可以受“很”一類的程度副詞修飾,構(gòu)成狀中結(jié)構(gòu),其中形容詞是中心語,副詞是狀語。但是,在現(xiàn)行的詞語分類體系中,不是所有形容詞都能受“很”一類程度副詞修飾。為了準確描述形容詞庫中的每一個詞能否受“很”一類的程度副詞修飾,設立了“很”字段,并規(guī)定對于不能受“很”修飾的那些詞該字段填“否”能夠受“很”修飾的則不填。動詞庫中也有一部分能夠受程度副詞修飾的詞,因此在動詞庫中也需設立“很”字段,對那些能受“很”修飾的動詞,該字段填“很”否則不填。
軍用文書電子詞典建立的語法與語義相結(jié)合的收詞原則,要求對每個登錄項的語義要有明確的界定,名詞、動詞、形容詞這三個詞都要按語義分類填寫語義編碼。此外,各類詞都包含的“語義項”字段和“備注”字段要填寫簡明的釋義或示例。兩個登錄項如果同字同音同類,則主要靠“語義項”字段來區(qū)分其不同的含義。限于自然語言處理技術的水平,“語義項”和“備注”這兩個字段是供人閱讀使用的,為了便于計算機處理,另外需要設立“同形”字段。
在軍用文書中常有這樣的情況,兩個詞有前后照應關系,但這兩個詞并不直接構(gòu)成某種句法結(jié)構(gòu)。例如,對于介詞“在”,后面常有方位詞“上”、“下”、“中”、“里”等與其照應,構(gòu)成一個框架。中間可納入其他成分,如“在先期作戰(zhàn)基礎上”、“在火力支援下”、“在作戰(zhàn)準備中”等。具有這樣的前后照應信息對軍用文書句子的分析也是很有用的。因此,在介詞庫中設立了“后照應詞”、“后照應類”這兩個字段。在方位詞中,需要有一個“前介”字段,要求填寫與該方位詞前照應的介詞。在副詞中,需要有“前照應”與“后照應”兩個字段。
在軍用文書電子詞典中,可以將詞語模型表示為一個七元組[8]。
其中 :V為單 詞集;V1為實 詞集;V2為 短 語 集為有限語法特征集,包括詞性、詞法特征、語法特征及句法樹名等[6];Y為有限語義特征集,包括抽象語義、語義前后搭配等;有限集,稱為句法詞典,元素之值a為詞條word的x特征值,且,;有限集為語義詞典,元素(word1,y)之值b為實詞word1的Y特征值,且word1∈V1,y∈Y。由文書生成系統(tǒng)生成的文本,V*為V的閉包[9]。例如“攻占”一詞的表示為[7]
軍用文書電子詞典的實現(xiàn)主要包括四個步驟:首先從軍用文書語料中篩選、統(tǒng)計出候選詞語[2,10],并進行分類、屬性描述和表示,在特征集表示中應使詞語的特征屬性盡量完全;然后,按照分層建表的思想把軍用文書電子詞典設計為若干個相關的表,主要包括總表、名詞表、動詞表、副詞表、介詞表、形容詞表、習用語表等;再者,在分層后的每個層次上,依據(jù)分塊存儲的觀念,按某些標準分成若干塊,分而治之。如對語法層而言,按語法進行分類,按詞性分塊存儲,在語義層則按語義分類,同時按語義分塊存儲。這樣可以對每一個塊采取相同的或者不同的結(jié)構(gòu)存儲,大大提高了運行管理效率;最后采用合適的數(shù)據(jù)庫管理系統(tǒng),輸入軍用文書詞語信息,構(gòu)造出各個數(shù)據(jù)庫表。本文采用SQL Server數(shù)據(jù)庫管理系統(tǒng)描述每個詞語及其屬性的二維關系,構(gòu)建了包含3000余詞匯的軍用文書電子詞典(詞表如圖1所示)。
在軍用文書智能處理過程中,為了詞語調(diào)用的方便性以及加快對電子詞典的訪問速度,還應給詞典建立索引機制。
圖1 軍用文書詞表
軍用文書電子詞典對文書的智能處理有著重要的支撐作用。以對句子“指揮所開設位置”進行自動分詞為例,對構(gòu)建的軍用文書電子詞典進行試用。采用最大匹配算法,算法如下:
Step1 待切分的軍用文書詞語串為s1,已經(jīng)切分的軍用文書詞語串為s2(s2初始為空);
Step2 如果s1為空,轉(zhuǎn)Step6;
Step3 從s1的左邊復制一個子串w作為候選詞語,w盡可能長,但長度不能超過MaxLength;
Step4 從軍用文書電子詞典中進行查找,如果詞典中能找到w,或者w的長度為2,那么將w和一個詞界標記一起加到s2的右邊,并在軍用文書電子詞典中查找出詞語w的詞性,把詞性字符加到s2的右邊,并且從s1的左邊去掉w,轉(zhuǎn)Step2;
Step5 去掉w中最后一個漢字,轉(zhuǎn)Step4;
Step6 結(jié)束。
圖2 分詞結(jié)果
句子“指揮所開設位置”進行自動分詞后的結(jié)果如圖2所示。
電子詞典是軍用文書智能處理的基礎。本文依據(jù)現(xiàn)代漢語詞語分類體系,并結(jié)合軍用文書特點,對軍用文書詞匯進行了分類,并從詞法、句法、語義、照應等方面進行了屬性描述,建立了詞語表示模型,并構(gòu)建實現(xiàn)了軍用文書電子詞典,通過使用,表明該方法能很好地滿足軍用文書智能處理的要求。
[1]俞士汶,朱學峰,王惠.現(xiàn)代漢語語法信息詞典詳解[M].第二版.北京:清華大學出版社,2003.12-60.
[2]鄭家恒,張虎,譚紅葉,等.智能信息處理:漢語語料庫加工技術及應用[M].北京:科學出版社,2010.40-45.
[3]姜放然.軍用文書新編[M].北京:軍事科學出版社,1997.3-14.
[4]Ehud Reiter,Roberty Dale.自然語言生成系統(tǒng)的建造[M].北京:北京大學出版社,2010.21-36.
[5]徐琳宏,林鴻飛,趙晶.情感語料庫的構(gòu)建和分析[J].中文信息學報,2008,22(1):116-122.
[6]史燕,程顯毅.知網(wǎng)、HNC和框架網(wǎng)的語義知識表示異同[J].廣西師范大學學報,2009,27(1):174-176.
[7]郭忠偉,周獻中,徐延勇.C3I系統(tǒng)仿真中基于NLG技術的文電自動生成[J].系統(tǒng)仿真學報,2003,15(12):1712-1728.
[8]Daniel Jurafsky,James H Martin.Speech and Language Processing[M].Prentice Hall,2005.4-10.
[9]Harris MD.Building a Large-Scale Commercial NLG System for an EMR[C]//Proceedings of the Fifth International Natural Language Generation Conference.pages 157-160,2008.
[10]Daniel Jurafsky,James H Martin.Speech and Language Processing[M].Prentice Hall,2005.7-12.
[11]AnjaBelz,EricKow.Unsupervised Alignment of Comparable Data and Text Resources[C]//In Proceedings of the 4th Workshop on Buildingand Using Comparable Corpora,pages102-109,2011.