摘 要:根據(jù)計(jì)算術(shù)語(yǔ)學(xué)的原理,使用有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)對(duì)單詞型術(shù)語(yǔ)進(jìn)行自動(dòng)分析。首先以英語(yǔ)術(shù)語(yǔ)為例,介紹了有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)的基本原理和分析過程,然后分別討論了德語(yǔ)、法語(yǔ)和漢語(yǔ)的單詞型術(shù)語(yǔ)的自動(dòng)分析問題,最后討論了分析結(jié)果的表示形式。
關(guān)鍵詞:計(jì)算術(shù)語(yǔ)學(xué),有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò),自動(dòng)詞法分析
1998年的計(jì)算語(yǔ)言學(xué)國(guó)際會(huì)議COLING-ACL98上,組織了世界上第一次計(jì)算術(shù)語(yǔ)學(xué)的討論會(huì)(first workshop on computational terminology),這次討論會(huì)首次使用了“計(jì)算術(shù)語(yǔ)學(xué)”這個(gè)學(xué)科名稱。從此在術(shù)語(yǔ)學(xué)的研究中,明確地引進(jìn)了自然語(yǔ)言處理(natural language processing,簡(jiǎn)稱 NLP)的方法和技術(shù),出現(xiàn)了“計(jì)算術(shù)語(yǔ)學(xué)”①(computational termino-logy)這樣的學(xué)科。
筆者在1997年的術(shù)語(yǔ)學(xué)與知識(shí)傳播國(guó)際會(huì)議上發(fā)表的《日語(yǔ)形態(tài)的有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)分析》②一文,是中國(guó)學(xué)者最早的研究計(jì)算術(shù)語(yǔ)學(xué)的論文,在中國(guó)術(shù)語(yǔ)學(xué)研究中,幾乎還沒有其他的文章專門討論過計(jì)算術(shù)語(yǔ)學(xué)的問題。本文根據(jù)計(jì)算術(shù)語(yǔ)學(xué)近年來的新發(fā)展,介紹計(jì)算術(shù)語(yǔ)學(xué)中單詞型術(shù)語(yǔ)的結(jié)構(gòu)自動(dòng)分析方法,希望術(shù)語(yǔ)學(xué)工作者能夠關(guān)注計(jì)算術(shù)語(yǔ)學(xué)這個(gè)新興領(lǐng)域的研究,以推動(dòng)中國(guó)術(shù)語(yǔ)學(xué)研究現(xiàn)代化的進(jìn)程。
單詞型術(shù)語(yǔ)結(jié)構(gòu)分析的目的是讓計(jì)算機(jī)知道單詞型術(shù)語(yǔ)的結(jié)構(gòu),并且把與該術(shù)語(yǔ)有關(guān)的語(yǔ)言學(xué)信息(主要是形態(tài)信息)自動(dòng)地加在該術(shù)語(yǔ)上,為術(shù)語(yǔ)進(jìn)一步的自動(dòng)處理作好準(zhǔn)備。這是計(jì)算術(shù)語(yǔ)學(xué)最為基礎(chǔ)的工作。③
單詞型術(shù)語(yǔ)是由一個(gè)單詞構(gòu)成的,其中僅僅包含一個(gè)單詞。一般地說,單詞可以由詞根、詞綴和詞尾構(gòu)成,詞根和詞綴可以組成詞干,詞根后面也
可以沒有后綴而單獨(dú)成為詞干,在這種情況下,為了表述上的方便,直接稱之為詞干。這樣,就可以用如下的“有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)”(finite state transition network,簡(jiǎn)稱FSTN)來表示一個(gè)單詞的詞法分析過程。④
在圖中,如果一個(gè)單詞只包含詞干(這時(shí)詞干也就是詞根),則其遍歷過程是:q0→qf,如英語(yǔ)的 form (形式)。
如果一個(gè)單詞包含前綴、詞干,則其遍歷過程是:q0→q0→qf,如英語(yǔ)的reform(改革,re-是前綴,form 是詞干)。
如果一個(gè)單詞包含詞根、后綴,則其遍歷過程是:q0→q1→qf,如英語(yǔ)的formation(形成,form是詞根,-ation 是后綴)。
如果一個(gè)單詞包含前綴、詞根、后綴,則其遍歷過程是:q0→q0→q1→qf,如英語(yǔ)的 reformation (革新,re-是前綴,form是詞根,-ation是后綴)。
如果一個(gè)單詞包含詞干、詞尾,則其遍歷過程是:q0→q2→qf,如英語(yǔ)的forms(form是詞干,-s是詞尾)。
如果一個(gè)單詞包含前綴、詞干、詞尾,則其遍歷過程是:q0→q0→q2→qf,如英語(yǔ)的formations(form是詞根,-ation是后綴,-s是詞尾)。
如果一個(gè)單詞包含前綴、詞根、后綴、詞尾,則其遍歷過程是:q0→q0→q1→q2→qf,如英語(yǔ)的reformations(re-是前綴,form是詞根,-ation是后綴,-s是詞尾)。由此可見,采用有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò),可以非常清楚地描述屈折型語(yǔ)言單詞的詞法分析過程。
應(yīng)該指出的是,在詞根與后綴相連接時(shí),有時(shí)會(huì)發(fā)生音變。例如,英語(yǔ)的詞根decide與后綴-ion連接成decision時(shí),-de-變?yōu)?s-,decide中的元音i讀為[ai],在decision中變?yōu)閇i]。但是,英語(yǔ)的詞根deny與后綴-able連接成deniable時(shí),-y在書寫形式上變?yōu)?i,deny中的y讀為[ai],在deniable中變?yōu)?i-之后,讀音仍然為[ai]。對(duì)于這些復(fù)雜的音變問題,在用有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)來進(jìn)行單詞的詞法分析時(shí),應(yīng)該建立相應(yīng)的音變規(guī)則來處理。
下面,筆者進(jìn)一步舉例說明如何用有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)來進(jìn)行德語(yǔ)、法語(yǔ)單詞型術(shù)語(yǔ)的結(jié)構(gòu)分析。
德語(yǔ)屈折變化豐富,名詞、形容詞、冠詞和指示詞有性、數(shù)、格的變化,動(dòng)詞有變位形式。
德語(yǔ)中存在著大量的派生詞,一個(gè)單詞的詞干加上前綴可構(gòu)成許多新的單詞。最常見的是由動(dòng)詞加前綴構(gòu)成新的動(dòng)詞,由名詞和形容詞加后綴構(gòu)成新的名詞和形容詞。
由動(dòng)詞加前綴構(gòu)成的動(dòng)詞,如由rufen(叫)加前綴aus-構(gòu)成ausrufen(呼喊),aus-是前綴,ruf是詞干,en是詞尾,也可以用圖1中的有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)來進(jìn)行詞法分詞,其遍歷過程是:q0→q0→q2→qf。
由名詞和形容詞加后綴構(gòu)成新的名詞和形容詞,如由名詞Kunst(藝術(shù))加后綴-ler構(gòu)成的名詞Kunstler(藝術(shù)家),由名詞Stern(星)加后綴-artig構(gòu)成的形容詞sternartig(星狀的),由形容詞neu(新的)加后綴-artig構(gòu)成的形容詞neuartig(新型的),也可以用圖1中的有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)來進(jìn)行詞法分析,其遍歷過程是:q0→q1→qf。
在德語(yǔ)中還經(jīng)常使用復(fù)合詞,這種復(fù)合詞由限定詞加上基本詞構(gòu)成,基本詞位于復(fù)合詞的后部,復(fù)合詞的性和數(shù)由基本詞決定,基本詞還決定復(fù)合詞的基本含義,限定詞對(duì)基本詞起修飾和限定的作用。例如,在Intelligenztest(智力測(cè)驗(yàn))這個(gè)復(fù)合詞中,基本詞是Test(測(cè)驗(yàn)), 限定詞是Intelligenz(智力),它進(jìn)一步限定了基本詞Test的確切含義。
圖1中的有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)不能分析這樣的復(fù)合詞,必須加以改進(jìn),使它在分析了復(fù)合詞中的限定詞之后,還能進(jìn)一步分析復(fù)合詞中的基本詞。為此,筆者從終極狀態(tài)qf出發(fā),再加一條指向初始狀態(tài)q0的弧,并標(biāo)以#,使之從狀態(tài)qf跳回q0,再進(jìn)一步分析復(fù)合詞中的基本詞。如圖2所示。
例如,Weltgeschichtlich(世界歷史的)這個(gè)復(fù)合詞,由名詞Welt(世界)加形容詞geschichtlich(歷史的)復(fù)合而成。Welt是限定詞中的詞干(這個(gè)限定詞只有詞干),geschicht是基本詞中的詞根,lich是基本詞中的形容詞后綴。這個(gè)復(fù)合詞可利用圖2中的有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)來進(jìn)行詞法分析,其遍歷過程是:q0→qf→q0→q1→qf,其中,在qf與q0之間,進(jìn)行了一次返回初始狀態(tài)的“跳躍”。
德語(yǔ)的術(shù)語(yǔ)很多是復(fù)合詞,在許多復(fù)合詞術(shù)語(yǔ)中,在組合成復(fù)合詞的各個(gè)詞之間,往往要加上-s-,-es-,-en-,-n-,-er-等字母,有的要去掉修飾詞的詞尾-e。-例如,術(shù)語(yǔ)Lebenszeichen(生命象征)中,Leben(生命)與Zeichen(象征)之間加上了-s-;在術(shù)語(yǔ)Sinneszelle(感覺細(xì)胞)中,Sinn(感覺)與Zelle(細(xì)胞)之間加上了-es-;在術(shù)語(yǔ)Nervenzelle(神經(jīng)細(xì)胞)中,Nerv(神經(jīng))與Zelle(細(xì)胞)之間加上了-en-;在術(shù)語(yǔ)Erdgas(天然氣)中,去掉了修飾詞Erde(地球)的詞尾-e。在詞法分析時(shí),要建立相應(yīng)的音變規(guī)則來處理這些問題。
有時(shí),德語(yǔ)的復(fù)合詞術(shù)語(yǔ)可由兩個(gè)以上的詞組成,這只需在轉(zhuǎn)移到終極狀態(tài)qf之后,再往開始狀態(tài)q0跳躍一次或幾次就行了,仍然不難用圖2中的有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)來進(jìn)行詞法分析。但是,當(dāng)復(fù)合詞由若干個(gè)詞組合而成的時(shí)候,切分時(shí)往往會(huì)出
現(xiàn)舉棋不定的情況,這就需要在各種可能的切分情況中進(jìn)行選擇,確定一種正確的切分。
例如,Bauerlaubnisse(建筑許可)這個(gè)復(fù)合詞術(shù)語(yǔ),在德語(yǔ)的機(jī)器詞典中,存有Bauer(das Bauer,中性名詞,鳥籠)、Bau(動(dòng)詞bauen的詞干,建筑)、Bauer(der Bauer,陽(yáng)性名詞,農(nóng)民)、Erlaub(動(dòng)詞erlauben的詞干,許可)、Erlaubnis(die Erlaubnis,陰性名詞,許可)、Laub(das Laub,中性名詞,樹葉)、Nisse(die Nisse,陰性名詞,虱子卵)、se(名詞詞尾)等語(yǔ)素,因此,可能存在的切分情況有三種:
① Bau+erlaubnis+se
② Bauer+laub+nisse
③ Bau+erlaub+nisse
為了在這三種可能的切分中選擇出正確的切分,可檢查每種切分在語(yǔ)義上的相容性。
在①中,其語(yǔ)義的組合情況是:
建筑+許可+名詞詞尾
切分出來的三個(gè)部分的語(yǔ)義是相容的。
在②中,其語(yǔ)義的組合情況是:
鳥籠+樹葉+虱子卵
或農(nóng)民+樹葉+虱子卵
切分出來的三個(gè)部分在語(yǔ)義上不相容。
在③中,其語(yǔ)義的組合情況是:
建筑+許可+虱子卵
切分出來的三個(gè)部分在語(yǔ)義上也不相容。
所以,選擇語(yǔ)義上相容的第①種切分,排除語(yǔ)義上不相容的第②③兩種切分,并確定這個(gè)復(fù)合詞的詞義為“建筑許可”。
法語(yǔ)是從拉丁語(yǔ)演變而來的。與拉丁語(yǔ)相比,法語(yǔ)的詞形屈折已大大簡(jiǎn)化,名詞沒有格的變化,性和數(shù)主要通過名詞前的冠詞、限定詞來區(qū)別,動(dòng)詞有變位形式,形容詞也有性與數(shù)的變化,少數(shù)形式還比較復(fù)雜;法語(yǔ)的詞從結(jié)構(gòu)上也可以分為前綴、詞干、詞根、后綴、詞尾幾部分,名詞、形容詞、動(dòng)詞都可以通過加前綴或后綴來派生。
由詞干加前綴構(gòu)成的詞,如contrevent(風(fēng)窗,contre-是前綴,vent是詞干)、extrafin(纖細(xì),extra-是前綴,fin是詞干),可用圖1中的有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)來分析,其遍歷過程是:q0→q0→qf。
由詞根加后綴構(gòu)成的詞,如mouvement(運(yùn)動(dòng),mouve是詞根,-ment是后綴)、durable(持久,dur是詞根,-able是后綴),可用圖1中的有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)來分析,其遍歷過程是:q0→q1→qf。
由詞根加前綴和后綴構(gòu)成的詞,如surproduction(生產(chǎn)過剩,sur-是前綴,product是詞根,-ion是后綴)、telespectateur(電視觀眾,tele-是前綴,spectat是詞根,-eur是后綴),也可用圖1中的有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)來分析,其遍歷過程是:q0→q0→q1→qf。
在具體的法語(yǔ)詞法分析中,圖1中的有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)顯得過于籠統(tǒng)和簡(jiǎn)單。
在法語(yǔ)中,當(dāng)名詞后綴是-ance、-ation、-ade、-ment-時(shí),其詞C根C一C般C是C動(dòng)C詞詞根。例如,名詞obeissance(服從)的詞根是動(dòng)詞詞根obeiss-,名詞creation(創(chuàng)造)的詞根是動(dòng)詞詞根cre-,名詞promenade(散步)的詞根是動(dòng)詞詞根promen-,名詞fabrication(生產(chǎn))的詞根是動(dòng)詞詞根fabric-(fabriqu-的音變形式)。
當(dāng)形容詞后綴是able或-if時(shí),其詞根一般也是動(dòng)詞詞根。例如,形容詞navigable(可通航的)的詞根是動(dòng)詞詞根navig-,形容詞pensif(沉思的)的詞根是動(dòng)詞詞根pens-。
當(dāng)名詞后綴是-ité或-esse時(shí),其詞根一般是形容詞詞根,例如,名詞fidelité(忠實(shí))的詞根是形容
詞詞根fidel-,名詞souplesse(柔軟)的詞根是形容詞詞根soupl-。
由形容詞詞根構(gòu)成名詞時(shí),有時(shí)還會(huì)發(fā)生音變。例如,名詞sottise(笨拙)由形容詞詞根sot-(愚笨)和后綴-ise構(gòu)成,而在它們之間,要加輔音字母-t-。
基于這些情況,在對(duì)法語(yǔ)的單詞型術(shù)語(yǔ)進(jìn)行結(jié)構(gòu)分析時(shí),有必要區(qū)分構(gòu)成合成詞的詞根是動(dòng)詞詞根還是形容詞詞根,從而更加細(xì)致地描述名詞和形容詞的詞法分析過程。
另外,分析的方向也不一定總是從左到右,也可以從右到左,先分析詞尾、后綴,再分析詞根,最后才分析前綴。
為了處理法語(yǔ)中這些復(fù)雜的語(yǔ)言現(xiàn)象,筆者在法-漢機(jī)器翻譯系統(tǒng)FCAT的研制中,曾經(jīng)提出了如圖3所示的有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)。
這樣,詞根為動(dòng)詞詞根的名詞,如果沒有音變成分,則其遍歷過程是q0→q4→qf,例如,法語(yǔ)的creation。先分析后綴-ation-,后分析動(dòng)詞詞根cre-。如果有音變成分,則其遍歷過程是q0→q4→q6→qf。例如,法語(yǔ)的fabrication,先分析后綴-ation-,再把音變成分-c-變?yōu)?qu-,再分析動(dòng)詞詞根fabriqu。
詞根為形容詞詞根的名詞,如果沒有音變成分,
則其遍歷過程是q0→q3→q5。例如,法語(yǔ)的souplesse,先分析后綴-esse,再分析形容詞詞根soupl。 如果有音C變C成分, 遍C歷C過C程C是q0→q3→q5→qf。例如,法語(yǔ)的sottise,先分析后綴-ise,再分析音變成分-t-,-最后分析形容詞詞根sot。
法語(yǔ)的名詞、形容詞、動(dòng)詞都有詞尾屈折變化。如果名詞、形容詞有屈折變化詞尾,則首先還要分析詞尾,再分析后綴和詞根。無音變時(shí),其遍歷過程是q0→q1→q3→qf或q0→q1→q4→qf,有音變時(shí),其遍歷過程是q0→q1→q3→q5→qf或q0→q1→q4→q6→qf。如果動(dòng)詞有屈折變化詞尾,則首先分析動(dòng)詞詞尾,再分析動(dòng)詞詞干,其遍歷過程是q0→q2→qf。
如果名詞、形容詞、動(dòng)詞還有前綴,則還須在終極狀態(tài)qf分析了前綴之后,再回到這個(gè)終極狀態(tài)qf。例如,法語(yǔ)的prefabrication(預(yù)制),其遍歷過程是q0→q4→q6→qf→qf。首先分析后綴ation,再把音變成分-c-改變?yōu)?qu-,再分析動(dòng)詞詞根fabriqu-,最后再分析前綴pre。
漢語(yǔ)單詞型術(shù)語(yǔ)的結(jié)構(gòu)比較簡(jiǎn)單,也可以使用圖1中的有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)來分析。
①只有詞干的單詞型術(shù)語(yǔ):例如,“速度、能量”,遍歷過程是:q0→qf。
②帶前綴的單詞型術(shù)語(yǔ):例如,“超導(dǎo)體、非金屬”,其中“超,非”是前綴,遍歷過程是:q0→q0→qf。
③帶后綴的單詞型術(shù)語(yǔ):例如,“電氣化、絕緣體”,其中“化、體”是后綴,遍歷過程是:q0→q1→qf。
④帶前綴和后綴的單詞型術(shù)語(yǔ):例如,“非周期性,反鐵氧體”,其中的“非、反”是前綴,“性、體”是后綴,遍歷過程是:q0→q0→q1→qf。
漢語(yǔ)的語(yǔ)綴不僅可以附加在詞根或單詞上,還可以附加在詞組上。例如,“非線性規(guī)劃”中的附加前綴“非”,“同素異形體”中的附加后綴“體”。對(duì)于這樣的術(shù)語(yǔ),筆者可以按照德語(yǔ)單詞型術(shù)語(yǔ)中復(fù)合詞的結(jié)構(gòu)分析方法來處理,使用圖2中的有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)來進(jìn)行分析。使用這樣的有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò),“非線性規(guī)劃”的遍歷過程是:q0→q0→qf→q0→qf,“同素異形體”的遍歷過程是:q0→qf→q0→q1→qf。
根據(jù)有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)的原理,單詞型術(shù)語(yǔ)經(jīng)過自動(dòng)分析之后,就可以輸出與該單詞型術(shù)語(yǔ)有關(guān)的形態(tài)信息。這些形態(tài)信息可以形式化地加以表示。例如,英語(yǔ)中以beauty為詞干的單詞型術(shù)語(yǔ)beautified經(jīng)過形態(tài)分析之后,可以形式化地表示如下:
beatified:〈〈〈*〉N+ify〉V+ed〉A(chǔ)
其中,*表示beauty,N表示它是一個(gè)名詞,加上-ify之后,變成beautify,是一個(gè)動(dòng)詞(V),再加上-ed-之后,變成beautified,是一個(gè)形容詞(A)。
同樣,得到的其他單詞型術(shù)語(yǔ)的分析結(jié)果可以形式化地表示如下參看Christian Jacquemin,Spotting and Discovering Terms through Natural Language Processing,p20,The MIT Press,2001.:
beautification: 〈〈〈*〉N+ify〉V+cation〉N
beautifier: 〈〈〈*〉N+ify〉V+er〉N
beautiful: 〈〈*〉N+ful〉A(chǔ)
unbeautified: 〈un#〈〈〈*〉N+ify〉V+-ed〉A(chǔ)〉A(chǔ)
unbeautiful: 〈un#〈〈*〉N+ful〉A(chǔ)〉A(chǔ)
根據(jù)前面beautified的例子,讀者不難理解到這些分析結(jié)果的含義。
單詞型術(shù)語(yǔ)的自動(dòng)分析是對(duì)于單詞型術(shù)語(yǔ)中的各個(gè)組成成分進(jìn)行自動(dòng)分析,在自然語(yǔ)言處理中屬于自動(dòng)詞法分析(automatic morphological analysis)的范圍。而詞組型術(shù)語(yǔ)的自動(dòng)分析,就屬于自動(dòng)句法分析(syntactic parsing)的范疇了。筆者將另文討論詞組型術(shù)語(yǔ)的自動(dòng)分析問題。
馮志偉:教育部語(yǔ)言文字應(yīng)用研究所,100010