李 琳,龍從軍
(1.中國社會(huì)科學(xué)院 民族學(xué)與人類學(xué)研究所,北京100081;2.中國社會(huì)科學(xué)院研究生院,北京102488;3.中央民族大學(xué) 民族語言監(jiān)測分中心,北京100081)
判斷動(dòng)詞和存在動(dòng)詞在藏語中使用廣泛且用法多樣。它們不但可以作判斷句、存在句的謂語;還可以構(gòu)成描寫句謂語;也可以作為語法標(biāo)記附加于其他動(dòng)作動(dòng)詞之后,共同構(gòu)成句子的謂語組塊,表達(dá)句子的體貌、示證范疇;此外還可以通過添加名詞化標(biāo)記構(gòu)成非謂語組塊。判斷動(dòng)詞和存在動(dòng)詞的歧義性給藏文文本標(biāo)注和藏語句型識(shí)別等藏語信息處理研究帶來了困難。
為了識(shí)別判斷、存在動(dòng)詞在不同語境的不同含義,本文借助藏語語法規(guī)則以及藏語信息處理的相關(guān)技術(shù),提出了一個(gè)自動(dòng)判別方法。首先,對(duì)判斷動(dòng)詞和存在動(dòng)詞在文本中出現(xiàn)的語言環(huán)境進(jìn)行形式化表述;然后,提取他們的上下文特征詞;最后,利用特征詞從肯定與否定兩個(gè)方面判別其詞性并標(biāo)注。對(duì)于不能以上下文特征詞判定的現(xiàn)象我們借助動(dòng)詞詞表輔助識(shí)別,從而減少由于未登錄詞或者詞類兼類造成的不能識(shí)別或者誤識(shí)別的情況。從實(shí)驗(yàn)結(jié)果來看,本文的方法可以有效判定判斷、存在動(dòng)詞詞性。
藏語是SOV型語言,動(dòng)詞都位于句尾,名詞放在動(dòng)詞前面[1]。在書面藏語文本中,判斷、存在動(dòng)詞后面還可以附加一些連詞,或者句子的結(jié)束標(biāo)志:單垂線、雙垂線或者四垂線。但是當(dāng)判斷、存在動(dòng)詞出現(xiàn)在嵌套句的小句或者作為句群中的分句時(shí),情況會(huì)稍微復(fù)雜一些。識(shí)別出包含判斷、存在動(dòng)詞句子,是識(shí)別其含義的先決條件。因此,本文首先要解決提取含有判斷、存在動(dòng)詞句子的問題。
我們認(rèn)為,判斷、存在動(dòng)詞右側(cè)的語言特征有助于識(shí)別出這類句子。通過研究我們總結(jié)出判斷、存在動(dòng)詞右側(cè)的語言環(huán)境可分為[2]:1)直接煞尾的;2)帶有語氣標(biāo)記的;3)帶有連詞標(biāo)記的;4)帶有名物化標(biāo)記;5)帶有名詞化和連詞標(biāo)記的這五種情況。值得提出的是,藏語中名詞化標(biāo)記可以加在整個(gè)短語、句子上,從而使整個(gè)短語和句子名詞化。同時(shí),當(dāng)一個(gè)句子從句法結(jié)構(gòu)上看已經(jīng)完結(jié),但是上下文句意還沒有表達(dá)完結(jié)、需要補(bǔ)充說明時(shí),也使用名詞化標(biāo)記。判斷、存在動(dòng)詞的右側(cè)特征可總結(jié)為規(guī)則集1,如下:
(1)名詞性短語(NP)+判斷、存在動(dòng)詞+句子結(jié)束符號(hào)。例如,
先前,亞東國王有一個(gè)聰明而又關(guān)心百姓,名叫尼措桑布的仆人。
(2)NP+判斷、存在動(dòng)詞+分句連詞+垂符。例如,
這座宮殿有13層,高度有117米左右。
(3)NP+判斷、存在動(dòng)詞+示證標(biāo)記+垂符。例如,
(親眼看見)從樓上窗子里掉下一塊玉石。
(4)判斷、存在動(dòng)詞+名詞化標(biāo)記+分句連詞+垂符。例如,
湖周圍的山綿延大約有250公里。
(5)判斷、存在動(dòng)詞+語氣詞+垂符。例如,
這是扎西的寢室嗎?
利用規(guī)則集1,我們從《學(xué)說藏語300句》[3]774個(gè)句子中識(shí)別帶有這兩類詞的句子。我們抽取出帶有判斷動(dòng)詞(yin\min\red)的句子分別有52、1、117句,帶有存在動(dòng)詞(yod\med\vdug\yod red)的句子分別有76、13、54、24句。全部語料中判斷、存在動(dòng)詞及同形形式共有337句,占測試語料的44%。這一結(jié)果也說明在藏語中判斷、存在動(dòng)詞使用非常廣泛。
由判斷動(dòng)詞和存在動(dòng)詞構(gòu)成的謂語組塊結(jié)構(gòu)相對(duì)簡單[4-5]。判斷、存在動(dòng)詞前面有極少的副詞對(duì)其修飾,后面也很少有體貌、示證成分(除外),但可能附加一些語氣詞[6]。
我們認(rèn)為,要對(duì)判斷、存在動(dòng)詞在不同語境下的詞性做出準(zhǔn)確的判定,其左邊的語言要素非常重要。即可以根據(jù)判斷、存在動(dòng)詞左邊的一些特殊的詞、短語作為識(shí)別特征直接判斷出該詞詞性。
當(dāng)判斷、存在動(dòng)詞作謂語動(dòng)詞時(shí),其左邊為名詞性成分。因此本文利用某些封閉的、能夠預(yù)測其左邊為名詞性成分的特征詞,如數(shù)詞指示代詞等來識(shí)別是否是判斷、存在動(dòng)詞,并把這些特征詞總結(jié)為規(guī)則集2:
(4)格標(biāo)記。
判斷、存在動(dòng)詞的用法多樣,除了作判斷、存在句的謂語動(dòng)詞外,還具有其他更加復(fù)雜的用法[7]。用法可分為以下兩類:一是作為動(dòng)作動(dòng)詞的體貌、示證標(biāo)記;二是作為描寫句的謂語動(dòng)詞,與形容詞一起構(gòu)成句子的謂語組塊[8]。
藏語(口語)中單獨(dú)以動(dòng)詞結(jié)尾的句子不多,在謂語動(dòng)詞后總是帶有一些其他成分(泛稱語尾)。謂語動(dòng)詞組塊可擴(kuò)展為形式(1)[4]:
{(狀語)+動(dòng)詞+(動(dòng)態(tài)補(bǔ)語)(+助動(dòng)詞[情態(tài)和趨向])(+體貌—示證標(biāo)記)(+語氣詞)}
當(dāng)判斷、存在動(dòng)詞作體貌、示證標(biāo)記時(shí),根據(jù)擴(kuò)展形式(1)句子的謂語組塊結(jié)構(gòu)可歸納為以下幾類。
(1)(副詞)+動(dòng)詞+體貌標(biāo)記。例如,
同學(xué)們一起讀著書。
(2)(副詞)+動(dòng)詞+助動(dòng)詞+體貌標(biāo)記。例如,
他說:不要磕頭,我們大家是平等的。
(3)(副詞)動(dòng)詞+趨向動(dòng)詞+體貌標(biāo)記。例如,
他們到南方溫暖的地方去過冬了,明年的春天回來。
(4)(副詞)動(dòng)詞+趨向動(dòng)詞+助動(dòng)詞+體貌標(biāo)記
我想回來了。
(1)(副詞)形容詞(副詞)+ 判斷、存在動(dòng)詞
質(zhì)量非常好。
(2)(形容詞性)疑問代詞+判斷、存在動(dòng)詞
你看味道怎么樣。
(3)(副詞)形容詞/副詞+判斷、存在動(dòng)詞+語氣詞
你身體好嗎?
通過以上對(duì)句子謂語組塊的分析,我們發(fā)現(xiàn)當(dāng)左特征詞符合以下規(guī)則集3時(shí),可以判定在該語境下,該詞不是判斷、存在句的謂語動(dòng)詞。
由于一些標(biāo)記本身也存在同形歧義情況,因此可以用來否定判斷、存在動(dòng)詞作謂語的特征詞比較少。尤其是否定判斷動(dòng)詞作謂語更難,比如+判斷動(dòng)詞,+判斷動(dòng)詞,如果不考慮前面的詞性,無從判定是判斷動(dòng)詞還是體標(biāo)記。
(3)助動(dòng)詞,趨向動(dòng)詞。
區(qū)分描寫句的特征詞主要是描寫性形容詞和一些修飾形容詞的副詞。(ha cang)和(zhe drags)通常用來修飾形容詞,而不常修飾動(dòng)詞。
我們把謂語組塊作為識(shí)別的主要特征。首先,找出句子結(jié)尾符合判斷、存在動(dòng)詞加右特征詞各形式的句子。然后,利用本文第3節(jié)和第4節(jié)提出的規(guī)則集對(duì)左特征詞進(jìn)行分析,從而判別出該語境下該詞的詞性。識(shí)別過程見圖1。
首先,利用規(guī)則集1提取出謂語組塊包含判斷、存在動(dòng)詞的句子。然后,查詢左特征詞是否符合規(guī)則集2。如果是,則該判斷、存在動(dòng)詞的詞性為動(dòng)詞;如果否,進(jìn)行下一步判斷。第三步,判斷左特征詞是否符合規(guī)則集3。如果是,該詞是體貌示證標(biāo)記或描寫句謂語;否則進(jìn)行下一步判斷。第四步,利用助動(dòng)詞和動(dòng)詞詞典判斷左特征詞。如果是,則可標(biāo)記該詞為體貌示證標(biāo)記或描寫句謂語;否則該詞為判斷、存在句謂語動(dòng)詞。
圖1 判斷、存在動(dòng)詞識(shí)別流程圖
本文首先通過人工篩選,從774個(gè)句子中篩選出帶有判斷、存在動(dòng)詞的句子,然后對(duì)這些句子分類,結(jié)果為:存在句26句,描寫句50句,判斷句92句,其他動(dòng)詞句161句。以規(guī)則為主的過濾法識(shí)別情況是,利用規(guī)則集2中的各類特征詞共正確識(shí)別出82個(gè)判斷、存在動(dòng)詞。其中,以數(shù)詞作為特征正確識(shí)別16個(gè);以格標(biāo)記作為特征正確識(shí)別11個(gè);以代詞作為特征正確識(shí)別出52個(gè);以敬語標(biāo)識(shí)為特征識(shí)別出3個(gè)。利用規(guī)則集3,排除帶有判斷、存在動(dòng)詞及同形詞的句子136句。其中利用助動(dòng)詞、趨向動(dòng)詞為特征詞,可以正確辨識(shí)出60個(gè)和4個(gè)句子中判斷、存在動(dòng)詞同形詞為體貌—示證標(biāo)記。利用常見的形容詞作為特征詞,可以正確識(shí)別為描寫句動(dòng)詞的有45個(gè)。最后,利用動(dòng)詞詞典,正確辨識(shí)了70個(gè)句子中的判斷、存在動(dòng)詞作體貌—示證標(biāo)記。采用本文的方法,對(duì)判斷、存在動(dòng)詞及同形形式的337個(gè)句子進(jìn)行識(shí)別,正確識(shí)別319個(gè),正確率達(dá)到94.66%。
從上述測試結(jié)果可見,利用規(guī)則方法層層過濾識(shí)別判斷、存在動(dòng)詞效果明顯,正確率較高。把依靠動(dòng)詞詞表放到最后一個(gè)步驟,大大減少了因兼類而誤識(shí)別或者未登錄詞條無法識(shí)別的情況。利用動(dòng)詞詞表的結(jié)果也表明了這一點(diǎn)。利用動(dòng)詞詞表識(shí)別時(shí),10個(gè)識(shí)別錯(cuò)誤中的9個(gè)是由于未登錄詞造成的。例如,
我剛購進(jìn)了一點(diǎn)冬蟲夏草。
本文所利用的規(guī)則集非常小,僅僅幾十個(gè)特征詞,但是識(shí)別效果還是不錯(cuò)的。下一步需要分析識(shí)別錯(cuò)誤,進(jìn)一步擴(kuò)大特征詞和測試語料。但是語言本身有它的復(fù)雜性,就存在動(dòng)詞而言(vdug)\(yod)本身又可以作為動(dòng)作動(dòng)詞用。例如,
這個(gè)小洞在他的眼睛正上方帶給他便利,因此向上看時(shí),有一只老鼠呆在那里。
米拉多杰僧格愛好賭博,而且很精通,經(jīng)常獲勝。
因此對(duì)于這些特殊的現(xiàn)象,還需要進(jìn)一步研究,調(diào)整識(shí)別策略,提取有效的特征詞,同時(shí)也可以采用統(tǒng)計(jì)方法對(duì)過濾
后不能用規(guī)則識(shí)別的現(xiàn)象進(jìn)行處理。
本文針對(duì)現(xiàn)代藏語判斷、存在動(dòng)詞進(jìn)行識(shí)別研究。通過考察含有判斷、存在動(dòng)詞句子的句子結(jié)構(gòu),我們建立了判別規(guī)則集。首先,從句子結(jié)尾逆向找出符合判斷、存在動(dòng)詞加右特征詞各形式的句子。然后,利用本文提出的判斷規(guī)則集對(duì)左特征詞進(jìn)行分析,從而辨別出該語境下該判斷或存在動(dòng)詞的詞性。
[1]胡坦.藏語存在句[C]//藏語研究文論.北京:中國藏學(xué)出版社,2002:474-504.
[2]趙維納.藏語句子邊界識(shí)別研究[D].北京:北京語言大學(xué),2010.
[3]江嘎,等.學(xué)說藏語300句[M].北京:民族出版社,2006:1-313.
[4]江荻.面向機(jī)器處理的現(xiàn)代藏語句法規(guī)則和詞類、組塊標(biāo)注集[C]//江荻,孔江平.中國民族語言工程研究新進(jìn)展.北京:社會(huì)科學(xué)文獻(xiàn)出版社,2005:10-93.
[5]江荻.現(xiàn)代謂語動(dòng)詞的識(shí)別與信息提?。跜]//第20屆東方語言計(jì)算機(jī)處理國際會(huì)議論文.沈陽:清華大學(xué)出版社,2003:125-137.
[6]周繼文,謝后芳.藏語拉薩話語法[M].北京:民族出版社,2003:42-43.
[7]胡坦,索南卓嘎,羅秉芬.拉薩口語讀本[M].北京:民族出版社,1986:25-70.
[8]江荻.藏語拉薩話的體貌、示證及自我中心范疇[J].語言科學(xué),2005,4(1):70-88.
[9]胡坦.拉薩藏語中的“是”字句[C]//胡坦.藏語研究文論.北京:中國藏學(xué)出版社,2002:454-473.