沈 威
(華中師范大學(xué) 語言與語言教育研究中心,湖北 武漢430079)
近年來,中文信息處理技術(shù)取得了一定的成績.總的來講,在字、詞處理方面的技術(shù)比較成熟,而在句子層面的研究則相對薄弱.在字、詞等方面,尤其是上世紀(jì)80年代之后,漢語的字、詞方面的各種研究得到了較快的發(fā)展.比如在分詞算法上,全切分分詞方法、最短路徑分詞方法、N-最短路徑分詞方法、基于隱馬爾科夫模型(HMM)或n元語法(n-gram)的分詞方法等一系列分詞方法相繼提出.而且,還出現(xiàn)了一批有指導(dǎo)性、代表性的文獻(xiàn)和工具,比如《現(xiàn)代漢語語法信息詞典》和“知網(wǎng)”.這些成果的出現(xiàn)顯示出現(xiàn)階段中文信息處理在字、詞方面的研究已經(jīng)相當(dāng)成熟.不過盡管中文信息處理目前取得的成績是巨大的,但還是存在不少問題.
中文信息處理是一個融合了認(rèn)知科學(xué)、數(shù)學(xué)、邏輯學(xué)、統(tǒng)計學(xué)、語言學(xué)、計算機(jī)科學(xué)等多個學(xué)科知識的綜合性學(xué)科.它所面臨的問題往往是復(fù)雜的.目前仍面臨著許多尚未解決,也不好解決的難題.比如,從目前情況來看,僅僅是歧義的消解就已經(jīng)讓自然語言處理研究者力不從心,更何況在實際的語言運用中,還有諸如隱喻、幽默、夸張、雙關(guān)等修辭手法的運用.[1]
特別是在中文信息處理領(lǐng)域中,對小句的研究還相對不足.比如現(xiàn)在熱門的各種搜索引擎仍舊是以詞項為主要匹配手段.而漢語中人們交流的形式是小句,各種專家系統(tǒng)中人與機(jī)器的交流形式也是小句,中文信息處理迫切需要對小句有足夠的認(rèn)識,那么首要的問題就是要對小句進(jìn)行準(zhǔn)確、細(xì)致的建模.
相對于字、詞已經(jīng)取得的豐碩成果,中文信息處理對句子層面的研究就顯得非常不足了.目前對小句進(jìn)行本體建模的文章極少,而且所建的本體模型要么不太完善要么不太準(zhǔn)確,都或多或少存在著這樣那樣的問題.[2]在這個大環(huán)境下,要想中文信息處理在句子層面有所突破,最關(guān)鍵的第一步就是建立一個科學(xué)的小句本體模型.而如何將傳統(tǒng)的小句本體知識應(yīng)用于中文信息處理,首先要解決的就是建立一個以小句為中心的句法標(biāo)注體系.[3]
本體(Ontology)最開始是在哲學(xué)領(lǐng)域中出現(xiàn)的,哲學(xué)中對本體的定義為:“系統(tǒng)地對世界上客觀存在物的描述.”哲學(xué)中的本體關(guān)心的是客觀現(xiàn)實的一種抽象本質(zhì).自哲學(xué)領(lǐng)域?qū)Ρ倔w做了定義之后,其它許多學(xué)科和學(xué)者也都給本體下過定義,其中以Gruber給出的定義影響最大.“本體是概念化的明確的規(guī)范說明”.[4-5]后來Studer等人總結(jié)前人的相關(guān)定義描述,將本體的描述概括為“共享概念化的形式的明確規(guī)范”.[6]
本體的主要目標(biāo)是對相關(guān)領(lǐng)域的知識進(jìn)行搜集和分類,確定這個領(lǐng)域內(nèi)部人們普遍認(rèn)可的詞匯,并從各個不同層級的形式化模式上標(biāo)明詞匯之間的各種復(fù)雜的聯(lián)系.信息處理領(lǐng)域中本體是人們公認(rèn)的最重要的成分之一.
UML(unifiied modeling language)是一種面向?qū)ο蟮慕UZ言,它是運用統(tǒng)一的、標(biāo)準(zhǔn)化的標(biāo)記和定義實現(xiàn)對任何具有靜態(tài)結(jié)構(gòu)和動態(tài)行為的系統(tǒng)進(jìn)行面向?qū)ο蟮拿枋龊徒?運用UML對小句本體進(jìn)行建??梢员WC模型的通用性,所以本文將利用UML對小句進(jìn)行靜態(tài)的本體建模.
人們平時說話都會用到小句,或者由小句構(gòu)成的復(fù)句、句群.人們說話就是一種表述.小句是最小的具有表述性和獨立性的語法單位.
所謂具有表述性,是指能夠闡明言者的表達(dá)意圖,不能含糊不清.所謂獨立性,是指小句作為一個實體不能作為別的小句的組成部分.[5]比如:
(1)今天星期一.
(2)我知道今天星期一.
(3)由于外面在下雨,所以我遲到了.
這三例中,第一例是小句.第二例也是小句,但是第二例中的“今天星期一”不是小句,因為“今天星期一”被包含在小句“我知道今天星期一”里.第三例是由兩個分句“由于外面在下雨”和“所以我遲到了”組合而成的復(fù)句.
有時,即使是由一個嘆詞構(gòu)成的疑問句或感嘆句,實際上也跟深層潛在的判斷存在關(guān)系.比如:
(4)哦?
(5)哼!
第一個例子是由一個嘆詞構(gòu)成的疑問句,在特定的語境中可能跟“想不到會這樣”之類的判斷存在聯(lián)系;第二個是由一個嘆詞構(gòu)成的感嘆句,在特定的語境中可能跟“你想得美”之類的判斷存在聯(lián)系.
小句在漢語的各級各類語法單位中占有主導(dǎo)地位,換句話說,居于中樞地位的是小句.[6]小句之所以能夠統(tǒng)領(lǐng)漢語的其他語法單位如詞、短語、復(fù)句、句群等而居于核心地位,是基于以下三個方面的因素:
2.2.1 小句在各級各類語法實體中,所具備的各種語法因素最為齊全
相對于句子語氣、語素、詞、短語、復(fù)句、句群等語法單位而言,小句所包含的語法因素種類最多.
2.2.2 小句在各級各類語法實體中,具有中樞地位
漢語包含多種語法實體,而只有小句和其他各種語法實體有直接聯(lián)系,處于核心地位.具體來說,人們在說話表達(dá)意圖時,小句和句子的語氣是直接聯(lián)系的;在小句的內(nèi)部構(gòu)成部件上,詞、短語和小句是直接相關(guān)的;在小句之外更大的語法單位來看,復(fù)句和句群也都是由小句構(gòu)成的.
2.2.3 在漢語的各級各類語法實體中,其它實體均依附于小句,處于從屬地位
由于小句具有承上啟下的重要功能,使得只有小句能約束其它的語法實體,其它語法實體都必須依附于小句.[7]具體來講:
2.2.3.1 句子語氣 依附于小句
準(zhǔn)確一點來講,應(yīng)該是句子語氣粘附于小句直接構(gòu)件,從而形成小句.
比如“今天星期四”是小句直接構(gòu)件,那么只要陳述語氣粘附于這個構(gòu)件,就會形成陳述句“今天星期四”.倘若是疑問語氣粘附于這個構(gòu)件,就會形成疑問句“今天星期四?”
2.2.3.2 復(fù)句和句群 依賴于小句
復(fù)句是由分句和分句聯(lián)結(jié)而成,而分句也可以看做是一種特殊的小句,可以說沒有小句,也就沒有復(fù)句.
句群是由兩個或兩個以上的句子構(gòu)成.構(gòu)成“句群”的成分“句”既可以是單句成分的小句,也可以是由以小句為基礎(chǔ)的分句聯(lián)結(jié)而成的復(fù)句.
(6)今天下午老師有事,下午的課取消了.
(7)學(xué)校里走不開?不認(rèn)識到這里的路?車胎漏氣了?路上出了麻煩?
這兩例中,前一例是個因果復(fù)句,這個復(fù)句由兩個分句“今天下午老師有事”和“下午的課取消了”聯(lián)結(jié)而成.后一例是個句群,這個句群由四個小句“學(xué)校里走不開?”“不認(rèn)識到這里的路?”“車胎漏氣了?”“路上出了麻煩?”組成.
總而言之,復(fù)句和句群離不開小句.
2.2.3.3 詞 受控于小句
漢語語法系統(tǒng)中的詞獨立存在于小句之外,但是卻是受控于小句的.詞,只有跟小句發(fā)生聯(lián)系之后,才能明確顯示其語法特性和語法職能,才能發(fā)揮特定的語法作用.
比如:
(8)這是一個標(biāo)志,標(biāo)志著人類正在走向互相了解,走向互相尊重.(邊霞遐《化劍為犁》)
這一例中,第一個“標(biāo)志”出現(xiàn)在賓語部分里,受“一個”的修飾,這一語法環(huán)境把它規(guī)約為名詞;第二個“標(biāo)志”出現(xiàn)在謂語部分里,帶了動態(tài)助詞“著”,而且后面出現(xiàn)了賓語“人類正在走向互相了解,走向互相尊重”,這一語法環(huán)境把第二個“標(biāo)志”規(guī)約為動詞.“入句顯類”,這是詞性句規(guī)約的重要表現(xiàn).
2.2.3.4 短語 從屬于小句.
絕大多數(shù)的短語,不像詞那樣獨立存在于句子之外.從總體上看,在漢語語法系統(tǒng)中,短語實際上從屬于小句,為小句所管控.這可以從三個方面來觀察.
①短語的具體組合,為造句的具體需要所決定.
絕大多數(shù)的短語,都是自由短語.它們具有組合的臨時性和可變性.也就是說,短語究竟由哪個結(jié)構(gòu)成分跟哪個結(jié)構(gòu)成分組合而成,完全取決于小句表述意旨的臨時需要,非常靈活.比如:
(9)他這幾天要跑錢.(哪有心思跟你們聊天?。?/p>
(10)他這幾天要跑票.(哪有心思跟你們聊天?。?/p>
(11)他這幾天要跑官.(哪有心思跟你們聊天?。?/p>
單獨說“跑錢”“跑票”“跑官”,聽起來也許不知所云,但出現(xiàn)在“他這幾天要X”的小句中,它們的意思就比較明確了.“跑錢”,為弄到錢而奔跑;“跑票”,為弄到票而奔跑;“跑官”,為弄到官職而奔跑.
②短語的結(jié)構(gòu)類型是包容在小句的結(jié)構(gòu)類型之中的.
短語所具有的的結(jié)構(gòu)類型如“動賓”“主謂”“定心”“狀心”“心補(bǔ)”等,沒有一種不在小句結(jié)構(gòu)類型的包容之中.短語的結(jié)構(gòu)類型在小句中全都可以找到.請看例子:
(12)買五個蘋果!
(13)今天我請毓芳同云霖看電影.
(14)好漂亮的蝴蝶!
(15)非常不錯!
(16)累得在床上躺了三天三夜.
例(12)~例(16)的例子去掉句末標(biāo)點就分別變成了相應(yīng)的動賓、主謂、定心、狀心、心補(bǔ)短語.
③短語的語義內(nèi)涵,為小句的結(jié)構(gòu)格局所顯示.[7]
看兩個例子:
(17)我們下午學(xué)習(xí)文件.
(18)我們下午領(lǐng)學(xué)習(xí)文件.
這兩例中,“學(xué)習(xí)文件”有不同的語義內(nèi)涵.前一例,“學(xué)習(xí)文件”被安置在謂語部分,是動賓結(jié)構(gòu),表示行為.后一例,被安置在動詞“領(lǐng)”的后面作其賓語,是定心結(jié)構(gòu),表示事物.
本部分將利用UML對小句進(jìn)行本體建模.先介紹小句建模涉及到的概念以及概念與概念之間的關(guān)系.
小句本體建模里涉及到的概念有:句子語氣、語素、詞語、短語、成分詞、非成分詞、成分短語、非成分短語、關(guān)系類短語、標(biāo)志類短語.
小句本體建模里各概念之間涉及到的關(guān)系有:
①公共領(lǐng)域本體和小句本體為聚合關(guān)系,且一個公共領(lǐng)域本體可以使用多個小句本體.
②小句和句子語氣的關(guān)系為組合關(guān)系,一個小句必須有而且只可以有一種語氣.
③句子語氣和陳述語氣、疑問語氣、祈使語氣、感嘆語氣的關(guān)系為繼承關(guān)系.
④小句的構(gòu)件有兩個類型:詞語和短語,小句和詞語、短語的關(guān)系為聚合關(guān)系.
⑤一個短語由兩個或兩個以上的詞語構(gòu)成,短語和詞語的關(guān)系為聚合關(guān)系.
⑥一個詞語由一個或一個以上的語素構(gòu)成,詞語和語素的關(guān)系為聚合關(guān)系.
⑦詞語按照能否作句法成分,又可以分為成分詞和非成分詞.詞語與成分詞、非成分詞的關(guān)系為聚合關(guān)系.
⑧成分詞分為名詞、動詞、形容詞、副詞、數(shù)詞、量詞、代詞、擬音詞.成分詞和名詞、動詞等詞之間為繼承關(guān)系.
⑨非成分詞分為介詞、連詞、助詞.非成分詞和介詞、連詞、助詞之間為繼承關(guān)系.
⑩短語根據(jù)是否可做句子成分分為成分短語和非成分短語.短語與成分短語、非成分短語之間為聚合關(guān)系.
?成分短語可以從結(jié)構(gòu)的角度和功能的角度分為結(jié)構(gòu)類短語和功能類短語.成分短語和結(jié)構(gòu)類短語、功能類短語之間的關(guān)系為聚合關(guān)系.
?結(jié)構(gòu)類短語根據(jù)結(jié)構(gòu)成分之間的語義關(guān)系是否清晰可分為結(jié)構(gòu)關(guān)系類短語和結(jié)構(gòu)標(biāo)志類短語.結(jié)構(gòu)類短語與結(jié)構(gòu)關(guān)系類短語、結(jié)構(gòu)標(biāo)志類短語之間為聚合關(guān)系.
?結(jié)構(gòu)關(guān)系類短語又可根據(jù)組成成分之間是否平等分為成分配對式短語和依次排列式短語.結(jié)構(gòu)關(guān)系類短語與成分配對式短語、依次排列式短語之間為聚合關(guān)系.
?成分配對式短語的類型有:主謂短語、動賓短語、定心短語、狀心短語、心補(bǔ)短語.成分配對式短語與主謂短語等短語之間為繼承關(guān)系.
?依次排列式短語可分為聯(lián)合短語和同位短語.依次排列式短語與聯(lián)合短語和同位短語之間為繼承關(guān)系.
?結(jié)構(gòu)標(biāo)志類短語根據(jù)語表上的標(biāo)志可分為:能愿短語、“的”字短語、介詞短語、方位短語、趨向短語、比況短語、數(shù)量短語.結(jié)構(gòu)標(biāo)志類短語和它們之間的關(guān)系為繼承關(guān)系.
?功能類短語包括名詞性短語、動詞性短語和形容詞性短語.功能類短語和它們之間的關(guān)系為繼承關(guān)系.
根據(jù)以上小句的概念以及各概念之間的關(guān)系,可以構(gòu)建圖1所示的小句本體模型圖.
圖1 小句本體模型
本文首先介紹了中文信息處理的研究現(xiàn)狀、本體的概念以及為什么選用UML來描述小句的本體模型;其次,本文較為詳細(xì)地介紹了漢語里小句的概念和內(nèi)涵以及小句為什么在漢語的各級各類語法實體里處于中樞地位?最后,本文對小句里包含的各種概念以及概念之間的關(guān)系進(jìn)行了分析,并利用UML對小句進(jìn)行了靜態(tài)的建模.本模型為中文信息處理領(lǐng)域的句處理打下了基礎(chǔ).今后有關(guān)漢語里句子語義的自動理解,小句、復(fù)句乃至句群等方面的研究都可以利用本文所建立的小句本體模型.
下一步,我們將對小句本體模型圖中各個類的數(shù)據(jù)成員和方法逐一進(jìn)行實現(xiàn)、對小句構(gòu)件內(nèi)部各成員之間隱含的語義、語法關(guān)系進(jìn)行充分地挖掘并將其形式化,這些嘗試將對中文信息處理中的句處理起到推進(jìn)作用.