高東平
(中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所,北京 100020)
基于類型論的漢語(yǔ)分詞系統(tǒng)TTCS
高東平
(中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所,北京 100020)
針對(duì)漢語(yǔ)分詞中的未登錄詞識(shí)別和歧義消除這兩個(gè)瓶頸問(wèn)題和目前方法的不足,將類型論的思想引入到漢語(yǔ)分詞領(lǐng)域中,提出了類型匹配模型,以類型論函數(shù)貼合為主要算法,融合了全切分、統(tǒng)計(jì),前后綴識(shí)別信息等多種技術(shù)手段,將分詞、未登錄詞識(shí)別、歧義消除,詞典的動(dòng)態(tài)擴(kuò)充有機(jī)的融合到一個(gè)統(tǒng)一的理論模型當(dāng)中。在此理論框架的基礎(chǔ)上,最后實(shí)現(xiàn)了基于類型論的漢語(yǔ)分詞系統(tǒng)TTCS。
類型匹配;漢語(yǔ)分詞;歧義消除;未登錄詞;類型論
眾所周知,歧義和未登錄詞是漢語(yǔ)分詞的兩大瓶頸。從1983年第一個(gè)實(shí)用分詞系統(tǒng)CDWS[1]的誕生至今,國(guó)內(nèi)外的研究者對(duì)漢語(yǔ)分詞中的這兩個(gè)問(wèn)題進(jìn)行了廣泛的研究。從眾多研究方法來(lái)看,多數(shù)是針對(duì)其中之一進(jìn)行的研究。例如,針對(duì)歧義問(wèn)題,有基于規(guī)則的方法[2-3],也有針對(duì)某一類歧義的處理,如引入向量空間解決組合歧義問(wèn)題[4],用條件隨機(jī)域的方法處理組合歧義問(wèn)題[5]等。對(duì)于未登錄詞識(shí)別的研究,主要的出發(fā)點(diǎn)是綜合利用未登錄詞內(nèi)部構(gòu)成規(guī)律及其上下文信息。未登錄詞識(shí)別處理的對(duì)象主要是人名、地名、譯名和機(jī)構(gòu)名等命名實(shí)體。
在現(xiàn)有的研究中,對(duì)于分詞算法、切分排歧和未登錄詞識(shí)別的解決方案多數(shù)是相對(duì)獨(dú)立進(jìn)行的。只有少數(shù)學(xué)者給出相對(duì)統(tǒng)一的模型框架將三者進(jìn)行有機(jī)的融合[6-7]。
本文借鑒類型論的思想,針對(duì)漢語(yǔ)的特點(diǎn),對(duì)漢語(yǔ)類型重新進(jìn)行設(shè)計(jì),并在此基礎(chǔ)上提出了一種基于類型匹配的模型,旨在將歧義消除、未登錄詞識(shí)別、詞典動(dòng)態(tài)擴(kuò)充等任務(wù)融合到一個(gè)相對(duì)統(tǒng)一的理論模型中。在我們的分詞系統(tǒng)中,詞典中的每個(gè)詞不再標(biāo)注其詞性,而是標(biāo)注類型。通過(guò)句子類型匹配和短語(yǔ)類型匹配模型可以計(jì)算尋找出恰當(dāng)?shù)那蟹?。在文章的第一部分我們描述了TTCS系統(tǒng)的流程,給出了類型與規(guī)則的設(shè)計(jì),并對(duì)設(shè)計(jì)背后的動(dòng)機(jī)進(jìn)行了詳細(xì)闡釋;在第二部分我們介紹了在類型論框架下,歧義和未登錄詞識(shí)別的解決方案;文章最后對(duì)此系統(tǒng)的設(shè)計(jì)進(jìn)行了總結(jié)和討論。
基于類型邏輯的漢語(yǔ)分詞系統(tǒng)(TTCS)的基本設(shè)計(jì)流程如圖1。
類型邏輯語(yǔ)義學(xué)主要是指蒙太格語(yǔ)法的內(nèi)涵類型邏輯。蒙太格把范疇語(yǔ)法與內(nèi)涵類型邏輯聯(lián)系在一起,通過(guò)句法范疇到邏輯類型的映射給范疇語(yǔ)法的句法分析提供了嚴(yán)格的模型論語(yǔ)義解釋[8]。以蒙太格語(yǔ)義學(xué)為代表的邏輯語(yǔ)義學(xué)把語(yǔ)句的句法分析和語(yǔ)義解釋看成是同構(gòu)的。即認(rèn)為詞的組合成句及其語(yǔ)義的模型論解釋有著一一對(duì)應(yīng)的關(guān)系,也就是說(shuō),語(yǔ)義解釋是從句法代數(shù)到語(yǔ)義代數(shù)的同構(gòu)映像。類型論使得這種同構(gòu)映像成為可能[9]。從邏輯的觀點(diǎn)看,語(yǔ)句S的兩個(gè)關(guān)鍵成份為謂詞和論元。較簡(jiǎn)單的語(yǔ)句的謂詞僅含單個(gè)動(dòng)詞或形容詞,論元僅由專名充當(dāng)。從外延的角度看,專名指稱個(gè)體(在類型論中記作e),語(yǔ)句指稱真值(記作t),謂詞指稱個(gè)體的集合[10]。在類型論中,如果把e和t設(shè)定為基本類型,則其它較復(fù)雜的類型都可以根據(jù)以下定義得到:
定義1[10]:類型的集合S是最小集,使得:
(1)e,t∈S;
(2)如果a,b∈S,那么ab∈S;
(3)此外,S中不包含其他元素。
其中,e,t為基本類型,e代表個(gè)體,t代表真值。
(2)中的a﹑b可以是基本類型,也可以是復(fù)雜類型。這樣,謂詞可以通過(guò)e和t來(lái)間接定義。
圖1 TTCS流程圖
將上述類型與具體的詞匯及其邏輯表達(dá)式相匹配,可以得出一些結(jié)構(gòu)較為簡(jiǎn)單的語(yǔ)句的組合過(guò)程。例如:“John Walks.”
漢語(yǔ)的句法結(jié)構(gòu)有其特殊的地方。再加上考慮到漢語(yǔ)分詞系統(tǒng)設(shè)計(jì)的實(shí)際情況,我們需要將類型重新定義。在這一小節(jié),我們將給出漢語(yǔ)的類型設(shè)計(jì),以及在后文計(jì)算中用到的相關(guān)概念。
定義2:漢語(yǔ)類型的集合S是最小集,使得:
(1)e和t為基本類型;f為輔助類型;
(2)如果a,b為輔助類型之外的類型,則(ab)為類型。
(3)如果a,b之中存在輔助類型,若a,b之間存在匹配規(guī)則,則(ab)為類型。
其中f={f1,f2,f3,n,q,p,s,x}。其中,f1,f2,f3主要指函數(shù)類型;x類型主要包括助動(dòng)詞,嘆詞,擬聲詞,助詞,語(yǔ)氣詞等,n指數(shù)詞;q指量詞;p,s分別指前、后綴。
定義3(函數(shù)貼合):令g是類型為ab的表達(dá)式,如果(是類型為a的表達(dá)式,那么g(a),g(b)分別是類型為b和a的表達(dá)式。
定義4:一個(gè)句子是真歧義的當(dāng)且僅當(dāng)有兩種不同的切分方式使得每一種類型函數(shù)貼合后的結(jié)果都是t。
定義5:一個(gè)切分是正確的,當(dāng)且僅當(dāng)存在一種貼合方式使得類型函數(shù)貼合的最后結(jié)果是t。一個(gè)切分是可接受的當(dāng)且僅當(dāng)它存在一種貼合方式可以得到一個(gè)類型函數(shù)貼合結(jié)果。
表1中每一種類型設(shè)計(jì)都是語(yǔ)言學(xué)知識(shí)的體現(xiàn)。例如:趨向動(dòng)詞(分為簡(jiǎn)單趨向動(dòng)詞(上,下,來(lái),去)和復(fù)雜趨向動(dòng)詞(起來(lái),出去)),它們既可以單獨(dú)做謂語(yǔ),也可以在別的動(dòng)詞或形容詞后作趨向補(bǔ)語(yǔ)。故我們將其類型設(shè)計(jì)為:et(et),et類型。
更多的類型設(shè)計(jì)參見(jiàn)筆者的前期研究成果[11-12]。
表1 TTCS中的類型設(shè)計(jì)
在類型邏輯的經(jīng)典階段,它是通過(guò)對(duì)基本表達(dá)式指派一個(gè)或多個(gè)范疇組成,來(lái)使被計(jì)算的函數(shù)-論元組合匹配實(shí)際的語(yǔ)法字串。然而,由于自然語(yǔ)言是非常靈活的,同一個(gè)詞在不同語(yǔ)句中的作用,在不同語(yǔ)句中的詞性顯然不盡相同。為了處理眾多語(yǔ)言學(xué)中的問(wèn)題,后來(lái)的很多學(xué)者,已經(jīng)有了諸多不同的提議,如增加類型改變的范疇機(jī)制,或者是增加類型組合的更多的模式等。這是至今為止,大量文獻(xiàn)里普遍采用的方法,例如,Geach為了說(shuō)明否定的多態(tài)性,引入了他的遞歸規(guī)則,來(lái)提升基本類型tt為((et)(et))(不及物動(dòng)詞否定),((e(et))(e(et)))(及物動(dòng)詞否定)[13]。此種相同的改變也可以解釋非常不同的事實(shí),比如在及物動(dòng)詞接受復(fù)雜的命題短語(yǔ)對(duì)象時(shí)遇到的人所共知的困難[14]:
這在基本的框架下是沒(méi)有函數(shù)貼合規(guī)則可以實(shí)現(xiàn)的。Geach的解決方式是讓直接對(duì)象表達(dá)式“適應(yīng)語(yǔ)境”[14]:
其他很多的類型改變規(guī)則也已經(jīng)因?yàn)榫浞ê驮~法的需要而被提出。
但是與這種傳統(tǒng)的研究路線不同,我們?cè)谠O(shè)計(jì)TTCS系統(tǒng)時(shí),采用每個(gè)詞進(jìn)行多類型指派的方法,而不采用類型改變方法來(lái)解決自然語(yǔ)言中遇到的各種問(wèn)題,原因有下述幾點(diǎn):
首先,類型改變自身也存在一定的問(wèn)題,即類型改變的規(guī)則是非常寬松的,而事實(shí)上,某些類型變換確實(shí)是不可接受的。如“主目上升”規(guī)則: (a,c)?(((a,b),b),c)這種一般性的范式是無(wú)效的[14]。
而在TTCS中,我們對(duì)每個(gè)詞進(jìn)行多類型指派不但可以實(shí)現(xiàn)類型改變的目的,而且還可以減少類型改變?cè)趯?shí)際語(yǔ)言中不可接受的情況。原因很簡(jiǎn)單,因?yàn)轭愋透淖冏鳛橐?guī)則而言,是對(duì)于任何類型都成立的,但是,我們進(jìn)行多類型指派,是針對(duì)每一個(gè)詞的,例如,有的類型改變規(guī)則將不及物動(dòng)詞可以類型改變?yōu)榧拔飫?dòng)詞,如果作為規(guī)則應(yīng)用,則所有不及物動(dòng)詞都可以改變?yōu)榧拔飫?dòng)詞。但是在漢語(yǔ)中,雖然有很多不及物動(dòng)詞也確實(shí)是及物動(dòng)詞,但是顯然也有很多詞只能作為不及物動(dòng)詞使用,因此對(duì)于漢語(yǔ)分詞的具體任務(wù)而言,我們?cè)跇?gòu)建詞典時(shí),對(duì)每一個(gè)詞根據(jù)其語(yǔ)言學(xué)特征,進(jìn)行多類型指派可以很好的解決類型改變過(guò)于寬松這一問(wèn)題。
另外,類型改變的另一優(yōu)點(diǎn),比如通過(guò)類型提升解決及物動(dòng)詞接受復(fù)雜的命題短語(yǔ)對(duì)象時(shí)遇到的困難:(e,(e,t))和((e,t),t)的匹配問(wèn)題,類似的這類現(xiàn)象,在TTCS中,我們則是直接將函數(shù)的組合描述成:(e,(e,t))((e,t),t)?(e,t)來(lái)進(jìn)行解決。
再有,對(duì)于解決漢語(yǔ)分詞的實(shí)際問(wèn)題而言,時(shí)空開(kāi)銷是我們必須要考慮的一個(gè)因素,雖然在我們的算法設(shè)計(jì)中,也應(yīng)用到了一些遞歸算法,但是實(shí)際效果分詞速度是可以接受的,如果我們不采用多類型指派的方法,而改為給出大量類型改變規(guī)則的方法,分詞速度將會(huì)明顯變慢。且分詞的準(zhǔn)確度也會(huì)受到一定影響。
第四,采用多類型指派的方法,可以通過(guò)分詞過(guò)程很清晰的看出句子的結(jié)構(gòu),以及每個(gè)詞在句子中的角色。
類型函數(shù)貼合算法中的類型貼合規(guī)則,主要是根據(jù)語(yǔ)言學(xué)知識(shí)所進(jìn)行的設(shè)計(jì)。規(guī)則設(shè)計(jì)的合理度和全面度直接影響著分詞系統(tǒng)的準(zhǔn)確度。
在TTCS系統(tǒng)中,部分類型貼合規(guī)則如下(更多規(guī)則見(jiàn)參考文獻(xiàn)[11-12]):
其中有α出現(xiàn)的為規(guī)則模式,即α可以替換為任意類型,其他為具體規(guī)則。
如果切分序列類型函數(shù)貼合的結(jié)果是t,則說(shuō)明是正確的切分。
如果切分序列類型函數(shù)貼合存在最后的類型則是可以接受的切分。
具體算法如下:
第(1)步:讀取類型序列;
第(2)步:對(duì)類型序列中相鄰類型(從第一個(gè)類型開(kāi)始),運(yùn)用上述類型貼合規(guī)則逐步進(jìn)行貼合,直到不再有可以貼合的相鄰類型為止。
第(3)步:對(duì)貼合結(jié)果進(jìn)行判斷,如果只有一種切分是正確切分則直接輸出;如果兩種切分都是正確切分,則進(jìn)行統(tǒng)計(jì)校正;如果不存在正確切分,存在可以接受的切分,則輸出可以接受的切分;如果既不存在正確切分也不存在可以接受的切分,則輸出全切分后排在第一個(gè)的序列作為切分結(jié)果。
一個(gè)合法的句子總是可以匹配成t的,本文中設(shè)計(jì)出“可以接受的切分”,是考慮到漢語(yǔ)中經(jīng)常使用逗號(hào)將一個(gè)完整的句子分為幾部分,而對(duì)于逗號(hào)切分出的部分,匹配結(jié)果應(yīng)該是一個(gè)類型(對(duì)應(yīng)漢語(yǔ)中的一個(gè)成份),這樣可以減少匹配次數(shù),提高分詞效率。
在TTCS中,交叉歧義、組合歧義識(shí)別通過(guò)已有方法進(jìn)行判斷:
(1)令S=C1C2…Cn是需要切分的字符串,檢測(cè)是否至少存在兩種不同的切分路徑 S1=W1W2…Wn和S2=W1’W2’…Wm’,其中Wi,Wi’∈LexiCon。
(2)如果存在至少兩種不同的切分路徑,且Wi和Wi’是兩種切分下第一個(gè)不同的詞,若Wi的長(zhǎng)度大于Wi’的長(zhǎng)度,且Wi’+Wi+1’的長(zhǎng)度大于Wi的長(zhǎng)度,則稱字串Wi’Wi+1’是S中第一個(gè)具有交叉歧義的字串。
(3)如果Wi’+Wi+1’的長(zhǎng)度等于Wi的長(zhǎng)度,則稱字串Wi’Wi+1’是S中第一個(gè)具有組合歧義的字段。
在我們的系統(tǒng)中,對(duì)歧義的處理主要基于以下幾個(gè)步驟:
(1)對(duì)輸入的句子進(jìn)行全切分;
(2)歧義識(shí)別;
(3)對(duì)全切分結(jié)果執(zhí)行函數(shù)貼合運(yùn)算
(4)選擇可以接受的結(jié)果
(5)輸出
在TTCS系統(tǒng)中,未登錄詞的識(shí)別主要是基于未登錄詞合并算法和類型貼合運(yùn)算而進(jìn)行的。在我們的未登錄詞合并算法中,主要處理了下面三種情況:
Case1.type(Ci)=p;其中Ci是預(yù)合并單詞的詞頭;
Case2:type(Ci)=s;其中Ci是預(yù)合并單詞的詞尾;
Case3:type(Ci)=‘?’;起哄‘?’是對(duì)詞典中沒(méi)有的詞進(jìn)行的標(biāo)記。
每一種情況又包含數(shù)種子情況(對(duì)于預(yù)合并單詞的詞頭是p類型,預(yù)合并單詞的詞尾是s類型的情況,我們?cè)谒惴ň帉戇^(guò)程中歸入到了第一種情況進(jìn)行處理)。
考慮到越界問(wèn)題,我們將Case1又分為以下三種情況來(lái)處理:
Case1.1:Ci后只有Ci+1;
Case1.2:Ci后只有Ci+1,Ci+2;
Case1.3:Ci后多于Ci+1Ci+2
Case2:也同樣分為:
Case2.1:Ci前只有Ci-1且不是p類型
Case2.2:Ci前只有Ci-1,Ci-2
Case2.3:Ci前只有Ci-1,Ci-2,Ci-3
在每種情況下又將Cj(j=i-1,i-2,i+1,i+ 2,i+3……)分為未登錄詞,單字詞,多字詞幾種情況來(lái)處理。是單字詞時(shí),我們又細(xì)分為是否具有連詞類型,介詞類型,判定動(dòng)詞類型幾種子情況。
未登錄詞的識(shí)別過(guò)程概述如下:
(1)前、后綴類型、未登錄字的識(shí)別;
(2)在具有前、后綴類型、未登錄字時(shí),執(zhí)行合并算法;
(3)將合并算法的結(jié)果進(jìn)行類型函數(shù)貼合運(yùn)算;
(4)根據(jù)類型函數(shù)貼合運(yùn)算結(jié)果選擇正確的合并結(jié)果(正確的合并結(jié)果既為識(shí)別出的未登錄詞)
本文主要目的是將類型邏輯的思想和方法引入到自然語(yǔ)言信息處理領(lǐng)域,來(lái)解決漢語(yǔ)分詞問(wèn)題。從類型邏輯的研究趨勢(shì)來(lái)看,目前大量學(xué)者意識(shí)到了用其描述各種不同自然語(yǔ)言的重要性以及用其解決各種不同自然語(yǔ)言中特殊問(wèn)題的可行性及價(jià)值。因此,學(xué)者們紛紛用其為工具,對(duì)荷蘭語(yǔ)、意大利語(yǔ)、日語(yǔ)、漢語(yǔ)等各種語(yǔ)言中的特殊問(wèn)題進(jìn)行研究、刻畫[15-16]。因此對(duì)漢語(yǔ)類型論進(jìn)行研究,對(duì)于類型邏輯本身而言,也是具有重要意義的。
在本文中,我們從根本上突破了傳統(tǒng)類型論的定義,引入了輔助類型來(lái)解決未登錄詞識(shí)別問(wèn)題,使類型論可以描述的語(yǔ)句范圍有了明顯擴(kuò)展。當(dāng)然,輔助類型的引入也是出于漢語(yǔ)語(yǔ)句比較松散,且非常靈活這些因素而考慮的。
在TTCS系統(tǒng)的設(shè)計(jì)中,除了文中詳述的內(nèi)容之外,還涉及到統(tǒng)計(jì)校正和詞典的動(dòng)態(tài)擴(kuò)充等問(wèn)題,這些由于篇幅問(wèn)題我們沒(méi)有展開(kāi),但這些問(wèn)題的解決對(duì)于我們系統(tǒng)的完整性及應(yīng)用的方便性都具有重要作用。
[1]梁南元.書(shū)面漢語(yǔ)自動(dòng)分詞系統(tǒng)-CDWS[J].中文信息學(xué)報(bào),1987(2):101-106.
[2]張仕仁.利用語(yǔ)素詞規(guī)則消除切分歧義[C]//1998年中文信息處理國(guó)際會(huì)議論文集.北京:清華大學(xué)出版社,1998.
[3]Zheng J H,Wu F F.Study on segmentation of ambiguous phrases with the combinatorial type[C]//Collections of papers on Computational Lingustics,Beijing: Tsinghua University Press,1999.
[4]Xiao Luo,Maosong Sun,Benjamin K Tsou.Covering Ambiguity Resolution in Chinese Word Segmentation Based on Contextual Information.COLING’02 Proceedings of the 19th international conference on Computational linguistics,vol1,Stroudsburg,2002.
[5]Ying Xiong,Jie Zhu.A New Machine Learning Method for Chinese Overlapping Disambiguity—Conditional Random Fields[C]//Proceedings of the Sixth International Conference on Machine Learning and Cybernetics,HongKong,2007.
[6]劉群,張華平,俞鴻魁,程學(xué)旗.基于層疊隱馬模型的漢語(yǔ)詞法分析[J].計(jì)算機(jī)研究與發(fā)展,2004,41(8),1421-1429.
[7]Gao Jianfeng,Li Mu,Wu Andi,et al.Chinese Word Segmentation and Named Entity Recognition:A Pragmatic Approach[J].Computational Linguistics,2006,31 (4):531-574.
[8]鄒崇理.自然語(yǔ)言邏輯研究[M].北京:北京大學(xué)出版社,2000.
[9]蔣嚴(yán),潘海華.漢語(yǔ)語(yǔ)句的類型表達(dá)[C]//1998中文信息處理國(guó)際會(huì)議論文集.北京:清華大學(xué)出版社,1998.
[10]Gamut L T F.Logic,Language,and Meaning(Vol2)[M].The University of Chicago Press,1991.
[11]Gao Dongping,Niu Zhendong,Lv Lening,et al.Chinese Unknown Word Recognition Based on Functional Applications of Type Theory[C]//IITA2008,Published by IEEE Computer Sociey,2008.
[12]Gao Dongping,Guo Jiahong.Dealing with Chinese Overlapping Ambiguity Based on Type Functional Application[C]//2009 International Conference on Artificial Intelligence and Computational Intelligence,Published by IEEE Computer Sociey,2009.
[13]Geach P.A Program for Syntax[M].Davidson D.Harman G.eds.,Springer,1972.
[14]約翰·范本特姆.邏輯、語(yǔ)言和認(rèn)知[C]//劉新文,郭美云,等,譯.邏輯之門——約翰·范本特姆經(jīng)典著作(卷II).北京:科學(xué)出版社,2008.
[15]Otake R,Yoshimoto K.A Multimodal Type Logical Grammar Analysis of Japanese:Word Order and Quantifier Scope[C]//Annual Conference of the Japanese Society for Artificial Intelligence,Springer,2007.
[16]Angelov K.Type-theoretical Bulgarian grammar[C]// Advances in Natural Language Processing,Proceedings,Berlin:Springer,2008.
Chinese Segmentation System TTCS Based on Type Theory
GAO Dong-ping
(The Institute of Medical Information,Chinese Academy of Medical Sciences,Bejing 100020,China)
Chinese unknown word recognition and disambiguation are difficult problems of Chinese word segmentation.We introduce a method based on type theory for Chinese word segmentation in this paper.The model of type functional application is employed attempting to resolve Chinese ambiguity and unknown word recognition.A Chinese word segmentation system TTCS is proposed that it unites techniques including omni-segmentation,statistical method,prefix and suffix information expansion and so on.A major advantage of the TTCS is that it can deal with Chinese word segmentation,unknown word recognition,disambiguation and the dynamic expansion of the dictionary in a unified theoretical model.
type functional application;Chinese word segmentation;disambiguation;Chinese unknown word recognition;type theory
B81
A
1674-8425(2011)08-0061-06
2011-06-30
國(guó)家社科基金“面向自然語(yǔ)言信息處理的范疇類型邏輯研究”(09BZX046)資助。
高東平(1979—),女,河北人,博士后,副研究員,研究方向:自然語(yǔ)言處理、邏輯學(xué)、情報(bào)學(xué)。
(責(zé)任編輯 鄺坦勵(lì))
重慶理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué))2011年8期