吳鋒文
(信陽師范學(xué)院 文學(xué)院,河南 信陽 464000)
?
漢語復(fù)句信息處理研究二十年
吳鋒文
(信陽師范學(xué)院 文學(xué)院,河南 信陽 464000)
加強(qiáng)漢語復(fù)句信息處理研究對(duì)中文信息處理具有重要意義。該文介紹了漢語復(fù)句信息工程的概況,將復(fù)句知識(shí)建模、關(guān)系標(biāo)記識(shí)別、非分句識(shí)別、復(fù)句句法語義關(guān)系判定、復(fù)句知識(shí)庫建設(shè)等成果條理化,結(jié)合已有成果的研究視角、方法及關(guān)注焦點(diǎn)來分析復(fù)句信息處理的研究現(xiàn)狀,并對(duì)其發(fā)展趨勢(shì)進(jìn)行了展望。
信息處理;復(fù)句;關(guān)系標(biāo)記;自動(dòng)識(shí)別
在漢語研究領(lǐng)域,復(fù)句作為重要的語法實(shí)體單位,它上連篇章,下含小句,兼具句法、語義和語用等方面的屬性,因而成為語法研究的熱點(diǎn),受到學(xué)者的廣泛關(guān)注。復(fù)句在基礎(chǔ)研究方面成果豐碩,特別是出現(xiàn)了復(fù)句研究代表性專著《現(xiàn)代漢語復(fù)句新解》(王維賢1994)和《漢語復(fù)句研究》(邢福義2001)[1]。
然而,隨著科技信息的發(fā)展和學(xué)科研究的融合,面向信息處理的漢語研究需求日益突出,中文信息處理正成為漢語應(yīng)用研究的熱點(diǎn)。目前,中文信息處理正處于“句處理”攻堅(jiān)階段[2],而句處理現(xiàn)狀是對(duì)單句自動(dòng)句法分析研究較多,對(duì)復(fù)句的信息處理卻關(guān)注較少。復(fù)句在句法、語義方面與單句存有區(qū)別,而且它作為連接小句與篇章的“橋梁”,受到的語境制約也相對(duì)較多,因而要解決好“句處理”問題,漢語復(fù)句的句法語義自動(dòng)分析問題必須受到重視。為此,邢福義緊跟時(shí)代發(fā)展趨向,適時(shí)提出了“漢語復(fù)句信息工程”理念,推動(dòng)漢語復(fù)句應(yīng)用層面的研究。
為順應(yīng)中文信息領(lǐng)域“句處理”發(fā)展趨勢(shì),推動(dòng)漢語復(fù)句信息工程發(fā)展,本文擬對(duì)近二十年來(1994-2013)漢語復(fù)句在信息處理領(lǐng)域的研究進(jìn)行系統(tǒng)梳理,勾勒復(fù)句信息處理研究的現(xiàn)狀,審視研究中存在的問題,并對(duì)未來研究趨向進(jìn)行展望,以期進(jìn)一步深化漢語復(fù)句信息處理研究。
當(dāng)今信息時(shí)代,語言成為一種有用的資源。如何對(duì)語言資源進(jìn)行開發(fā)與利用,正成為計(jì)算語言學(xué)和人工智能、人機(jī)交互、專家系統(tǒng)等智能化領(lǐng)域的重要議題,這是時(shí)代與科技發(fā)展的要求。基于這種時(shí)代背景和學(xué)術(shù)使命,華中師范大學(xué)語言研究所語言學(xué)家邢福義教授帶領(lǐng)其研究團(tuán)隊(duì)適時(shí)啟動(dòng)漢語復(fù)句信息工程。
姚雙云以小句中樞說為理論指導(dǎo),對(duì)復(fù)句信息工程的研究內(nèi)容、目標(biāo)以及復(fù)句層次關(guān)系標(biāo)注的方法進(jìn)行了初步探討[3]。漢語復(fù)句信息工程是一個(gè)文理交叉的大型跨學(xué)科研究課題。這一課題,以漢語句法研究為本,以漢語信息處理研究為用,以漢語復(fù)句作為促進(jìn)學(xué)科發(fā)展的研究突破口。該課題主要包括5個(gè)方面的研究內(nèi)容:一為漢語復(fù)句關(guān)系詞的覆蓋范圍、配對(duì)情況、搭配強(qiáng)度和關(guān)系詞的相似度;二為復(fù)句關(guān)聯(lián)模式、內(nèi)部結(jié)構(gòu)特點(diǎn)與外部功能特點(diǎn);三為關(guān)系詞和復(fù)句復(fù)雜特征集的描述與合一運(yùn)算;四為關(guān)系詞的自動(dòng)識(shí)別和標(biāo)注、關(guān)聯(lián)項(xiàng)功能的自動(dòng)識(shí)別和標(biāo)注、復(fù)句句式類別與層次關(guān)系的自動(dòng)識(shí)別與標(biāo)注;五為有標(biāo)復(fù)句標(biāo)注語料庫的構(gòu)建以及面向復(fù)句領(lǐng)域的研究工具的開發(fā)。
本工程研究目標(biāo)包括兩個(gè)方面。其一,在研究的基礎(chǔ)性工作上,建立一個(gè)漢語研究專用標(biāo)注語料庫—漢語復(fù)句語料庫,它包含豐富的句法、語義信息,是漢語復(fù)句研究的重要平臺(tái);其二,在研究的深度和理論方法追求上,揭示復(fù)句關(guān)聯(lián)的內(nèi)在機(jī)制,建立復(fù)句關(guān)聯(lián)的基本模型,總結(jié)復(fù)句句式類別與語義關(guān)系的計(jì)算機(jī)自動(dòng)判定的方法,有效地提高計(jì)算機(jī)處理句子的能力。在工程實(shí)施過程中,努力將《漢語復(fù)句研究》一書的豐富成果形式化,使之應(yīng)用于語言信息化領(lǐng)域的研究實(shí)踐,并進(jìn)一步發(fā)掘復(fù)句的語法功能,弄清復(fù)句功能分類。本工程的研究實(shí)踐分前、后兩期。前期工程專門針對(duì)有標(biāo)復(fù)句進(jìn)行研究,重點(diǎn)研究復(fù)句的聯(lián)結(jié)機(jī)制,復(fù)句關(guān)系標(biāo)記的識(shí)別及其標(biāo)注,分句的確認(rèn),分句層次和語義關(guān)系的判定等,在前期研究的基礎(chǔ)上,逐步探索有標(biāo)復(fù)句向無標(biāo)復(fù)句研究的過渡,從而轉(zhuǎn)向后期的無標(biāo)復(fù)句句法、語義關(guān)聯(lián)的自動(dòng)判定研究。
在華中師范大學(xué)語言研究所和計(jì)算機(jī)科學(xué)系部分師生通力合作下,復(fù)句信息工程進(jìn)展順利,已完成了復(fù)句語料庫和基于復(fù)句語料庫的分詞系統(tǒng)的開發(fā),在復(fù)句語料自動(dòng)標(biāo)注、關(guān)系標(biāo)記與非分句的識(shí)別、關(guān)聯(lián)模式的形式化描寫,以及復(fù)句句法語義判定研究等方面已取得了階段性成果,有標(biāo)復(fù)句的信息處理正如火如荼地開展。
而且,以邢福義和胡金柱教授為領(lǐng)隊(duì)的聯(lián)合研究團(tuán)隊(duì),近幾年先后主持教育部重大基金項(xiàng)目“面向中文信息處理的復(fù)句聯(lián)結(jié)機(jī)制及形式化策略分析”和國家社科基金 “有標(biāo)復(fù)句層次關(guān)系的信息化研究”和“基于規(guī)則的復(fù)句關(guān)系標(biāo)記自動(dòng)標(biāo)注與實(shí)現(xiàn)策略研究”等課題,致力于漢語復(fù)句及其關(guān)系標(biāo)記的信息處理研究,逐步實(shí)現(xiàn)漢語復(fù)句研究從基礎(chǔ)層面向應(yīng)用層面的融合與轉(zhuǎn)變。
近二十年來,漢語復(fù)句應(yīng)用層面的研究正逐漸融入計(jì)算科學(xué)領(lǐng)域,為漢語復(fù)句研究開辟了新的道路,成為計(jì)算語言學(xué)的重要議題。相關(guān)研究成果主要集中在復(fù)句知識(shí)建模、復(fù)句關(guān)系標(biāo)記的識(shí)別、非分句語段的識(shí)別、復(fù)句句法語義關(guān)系判定、復(fù)句知識(shí)庫工程建設(shè)等方面。
3.1 復(fù)句知識(shí)建模
語言知識(shí)建模,是實(shí)現(xiàn)自然語言理解的關(guān)鍵性技術(shù)。張仕仁圍繞著漢語復(fù)句的計(jì)算機(jī)處理問題,提出采用盒式圖和復(fù)雜特征集表示復(fù)句結(jié)構(gòu)形式與意義結(jié)構(gòu),并探討了漢語復(fù)句的自動(dòng)分析問題。通過對(duì)復(fù)句結(jié)構(gòu)的分析,把復(fù)句歸結(jié)為分句、聯(lián)合結(jié)構(gòu)、偏正結(jié)構(gòu)3種基本成分,并用盒式圖表示這些結(jié)構(gòu),以此構(gòu)造出各式各樣的復(fù)句來。為了能正確地劃分復(fù)句基本結(jié)構(gòu)的類型,采用了復(fù)雜特征集描述,并構(gòu)造出一棵復(fù)句的“功能結(jié)構(gòu)樹”[4]。該文是研究漢語復(fù)句信息處理的較早文獻(xiàn)。
此外,胡金柱、邢福義、王琳、肖升等引入本體論思想,探索復(fù)句本體建模問題。胡金柱、邢福義介紹了本體研究現(xiàn)狀,引入本體元模型建模方法,在漢語小句元模型的基礎(chǔ)上構(gòu)造漢語復(fù)句靜態(tài)本體模型,以期推動(dòng)漢語本體語義網(wǎng)的研究,使中文信息處理水平努力提升到句子的層面[5]。王琳利用本體元建模方法構(gòu)建漢語小句元模型,并采用本體網(wǎng)絡(luò)語言O(shè)WL描述小句本體,對(duì)小句進(jìn)行語義分析,然后利用構(gòu)成的小句元模型再去描述復(fù)句模型,最后生成整個(gè)復(fù)句的OWL表示[6]。肖升在分析復(fù)句結(jié)構(gòu)和邏輯連接詞的基礎(chǔ)上,采用面向?qū)ο蠓椒?gòu)建有標(biāo)復(fù)句的本體模型[7]。
3.2 復(fù)句關(guān)系標(biāo)記的識(shí)別
復(fù)句關(guān)系詞語是復(fù)句句法、語義關(guān)系的形式標(biāo)志,因而關(guān)系詞語的識(shí)別是復(fù)句信息處理的基礎(chǔ)性工作。近十年來學(xué)界主要從機(jī)械匹配、機(jī)器學(xué)習(xí)、語料庫、規(guī)則和統(tǒng)計(jì)、標(biāo)記搭配判斷等方面對(duì)關(guān)系標(biāo)記識(shí)別問題進(jìn)行了研究。
鄒嘉彥將關(guān)系標(biāo)記的信息表示為五元組,采用機(jī)械匹配的方法來確定關(guān)系詞語和復(fù)句關(guān)系,并進(jìn)行語料篇章關(guān)系詞的標(biāo)注實(shí)驗(yàn)[8]。高維君將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于漢語復(fù)句關(guān)系詞的歧義辨別,將漢語關(guān)聯(lián)詞語的消歧識(shí)別轉(zhuǎn)化為決策樹分類器,提高了漢語關(guān)系詞語識(shí)別的正確率[9]。李文翔等以語料庫為資源,采用數(shù)據(jù)挖掘算法提取反映關(guān)聯(lián)詞語用法的各種特征信息,并將這些信息整理為關(guān)聯(lián)詞語的知識(shí)庫,作為關(guān)聯(lián)詞識(shí)別的依據(jù),并對(duì)有歧義的關(guān)聯(lián)詞語提出了基于決策樹的消歧方法[10]。胡金柱、沈威采用概率統(tǒng)計(jì)方法,構(gòu)建關(guān)系標(biāo)記的渡越矩陣,并對(duì)容易產(chǎn)生歧義的“結(jié)果”和“如”進(jìn)行關(guān)系標(biāo)記自動(dòng)標(biāo)注的個(gè)案測(cè)試,其測(cè)試結(jié)果較為理想[11]。沈威、姚雙云(2007)探討了基于規(guī)則方法的關(guān)系詞語識(shí)別策略,將關(guān)系詞的識(shí)別過程分解為關(guān)系詞表的建立、規(guī)則庫的建立、利用關(guān)系詞表和規(guī)則庫進(jìn)行關(guān)系詞標(biāo)注3個(gè)步驟[12]。尹蔚、羅進(jìn)軍對(duì)選擇標(biāo)記“是……,還是……”的識(shí)別問題進(jìn)行個(gè)案研究,總結(jié)出影響有標(biāo)復(fù)句合用型關(guān)系詞識(shí)別率的一些規(guī)律,分別為關(guān)系標(biāo)記的語序制約律、相互制約律、句法空間制約律、親密度制約律[13]。
復(fù)句關(guān)系標(biāo)記識(shí)別研究中,偽關(guān)系詞的篩除與過濾是難點(diǎn)。為解決這一問題,胡金柱、舒江波提出一種基于基于詞性標(biāo)記和關(guān)系詞搭配理論的正向算法提取復(fù)句語料中的關(guān)系標(biāo)記。首先采用正向選擇算法,利用詞性標(biāo)記的特點(diǎn)對(duì)復(fù)句實(shí)例中的詞語進(jìn)行剪枝,優(yōu)化匹配效率,得到初始的關(guān)系詞集,然后根據(jù)關(guān)系標(biāo)記的搭配理論對(duì)候選詞集進(jìn)行處理,過濾掉偽關(guān)系詞,最終標(biāo)記出復(fù)句中的關(guān)系詞[14]。胡金柱、雷利利從關(guān)系詞的搭配關(guān)系出發(fā),采用解空間樹得到關(guān)系標(biāo)記所有的搭配集合,并對(duì)解空間樹進(jìn)行剪枝,去掉無用搭配集,過濾掉偽關(guān)系標(biāo)記,最終識(shí)別出復(fù)句關(guān)系標(biāo)記,測(cè)試表明,解空間樹和剪枝算法對(duì)復(fù)句關(guān)系詞判定的正確率達(dá)到98.9%[15]。
姚雙云在大規(guī)模語料庫分詞處理基礎(chǔ)上,探討了關(guān)聯(lián)詞搭配模式自動(dòng)發(fā)現(xiàn)的基本方法[16]。通過評(píng)估關(guān)聯(lián)詞搭配的3個(gè)重要參數(shù)(搭配距離、搭配強(qiáng)度MI值、搭配強(qiáng)度Z值),并設(shè)定閾值,超過閾值的模式自動(dòng)作為候選搭配模式。實(shí)驗(yàn)表明,該方法有助于發(fā)現(xiàn)以往未被注意的復(fù)句句法搭配模式。
3.3 非分句語段的識(shí)別*所謂“非分句”,是指出現(xiàn)在復(fù)句中的缺乏“分句”相對(duì)獨(dú)立地位的各種短語性語段。如“成功的基礎(chǔ)是奮斗,奮斗的收獲是成功,所以,天下唯有不知而艱辛奮斗的人,才能走上成功的高峰?!敝袆潤M線部分就是一個(gè)名詞性非分句語段成分。
復(fù)句句法語義關(guān)系的判定,其前提是要確定分句的數(shù)目,排除各種短語語段的干擾。胡金柱、俞小娟結(jié)合語言學(xué)的相關(guān)理論,提取出識(shí)別短語字段的因素,并對(duì)這些因素進(jìn)行主成分分析,進(jìn)而得出短語字段識(shí)別的綜合影響因素以及與原始的具體因素之間的關(guān)聯(lián),采用主成分分析法識(shí)別復(fù)句中的非分句[17-18];李瓊在界定非分句的基礎(chǔ)上,采用基于詞性信息和句法信息的方法來識(shí)別復(fù)句中的短語字段[19];李瓊還探討了基于語義知識(shí)的非分句的識(shí)別策略[20]。此外,王立霞、孫宏林探討了現(xiàn)代漢語介詞短語邊界識(shí)別問題[21]。這些研究的開展,為復(fù)句層次關(guān)系自動(dòng)識(shí)別研究奠定了基礎(chǔ)。
3.4 復(fù)句句法語義關(guān)系判定
計(jì)算機(jī)對(duì)漢語復(fù)句進(jìn)行自動(dòng)句法分析,其核心任務(wù)是對(duì)分句間的層次構(gòu)造和語義關(guān)聯(lián)進(jìn)行自動(dòng)判定。這方面主要成果有魯松、李晉霞、洪鹿平、周文翠、劉云、羅進(jìn)軍、吳鋒文以及胡金柱、舒江波等。
魯松、宋柔從機(jī)器翻譯角度,研究判定漢語描述型復(fù)句分句間的內(nèi)在聯(lián)系的形式化處理方法,給出了完整的關(guān)系判定規(guī)則,并提出了采用中心分句動(dòng)態(tài)判定方法來解決部分復(fù)句處理規(guī)則局部性的問題[22];魯松、白碩等以復(fù)句的層次關(guān)系研究為對(duì)象,將多重復(fù)句的層次結(jié)構(gòu)形式化為層次關(guān)系樹,并采用上下文無關(guān)文法表示多重復(fù)句,提出一種基于具有預(yù)測(cè)機(jī)制、自底向上、部分?jǐn)?shù)據(jù)驅(qū)動(dòng)的確定性移進(jìn)-規(guī)約算法來處理多重復(fù)句的層次關(guān)系[23]。李幸、宗成慶在分析漢語標(biāo)點(diǎn)符號(hào)用法和句法功能的基礎(chǔ)上,提出一種新的面向漢語長句的層次化句法分析方法,對(duì)復(fù)句層次關(guān)系處理具有一定借鑒意義[24]。
周文翠采用統(tǒng)計(jì)方法,借鑒支持向量機(jī)(SVM)理論來識(shí)別無標(biāo)并列復(fù)句。該文首先從語言學(xué)角度角度提取主語、謂語等相關(guān)特征,并根據(jù)《知網(wǎng)》語義分類將特征量化,然后構(gòu)建并列復(fù)句模型來識(shí)別并列復(fù)句[25]。遺憾的是,該研究局限在兩個(gè)分句之間,因而并沒有涉及到分句間的層次判定分析。而洪鹿平通過確定逗號(hào)的功能來判斷復(fù)句的切分點(diǎn),將復(fù)句轉(zhuǎn)化為分句的有序集,在此基礎(chǔ)上,采用條件隨機(jī)場(chǎng)(CRF)理論來判定分句間的語義關(guān)系[26],也沒有涉及分句間的層次判定分析。
李晉霞、劉云著重探討了二重復(fù)句的自動(dòng)分析問題[27]。他們認(rèn)為,一個(gè)多重復(fù)句的層次劃分實(shí)質(zhì)上是分句之間相互選擇、匹配構(gòu)成不同層次復(fù)句子模塊的過程。該文總結(jié)出能夠?qū)崿F(xiàn)二重復(fù)句自動(dòng)層次劃分的幾種復(fù)句標(biāo)記聯(lián)結(jié)模式,并指出關(guān)系包孕、關(guān)系詞音節(jié)數(shù)量對(duì)復(fù)句層次劃分的影響。
羅進(jìn)軍從句法識(shí)別的角度,提出建立有標(biāo)復(fù)句表里關(guān)聯(lián)模態(tài),并結(jié)合關(guān)系標(biāo)記語表序列聚類的方法來識(shí)別有標(biāo)復(fù)句層次關(guān)系[28],但該方法對(duì)歧義型有標(biāo)復(fù)句格式的句法分析仍將無能為力。
為解決復(fù)句自動(dòng)句法分析中關(guān)系詞的省略和嵌套問題,劉云提出關(guān)系詞語“離析度”思想,引入信息頻率和權(quán)重值的思想來評(píng)估復(fù)句關(guān)系詞的離析度,以關(guān)系詞離析度思想來解決復(fù)句層次關(guān)系識(shí)別問題,并總結(jié)歸納出“最鄰近優(yōu)先匹配原則”、“前者前優(yōu)先,后者后優(yōu)先”等復(fù)句層次分析的規(guī)則[29];汪夢(mèng)翔在關(guān)系詞“離析度”基礎(chǔ)上,闡述了關(guān)系詞離析度在復(fù)句自動(dòng)句法分析中的應(yīng)用問題[30]。
吳鋒文從復(fù)句信息處理角度出發(fā),對(duì)復(fù)句的層次關(guān)系識(shí)別問題進(jìn)行了系列研究[31-33]。為解決關(guān)系詞省略和關(guān)系詞不能標(biāo)示分句間層次組合順序的局限,全面考察了3句式復(fù)句標(biāo)記聯(lián)結(jié)模式與層次關(guān)系之間的制約規(guī)律,將有標(biāo)復(fù)句分為充盈態(tài)與非充盈態(tài)兩類。標(biāo)記充盈態(tài)模式與復(fù)句實(shí)例層次關(guān)系間存在“一對(duì)一”的映射關(guān)系,其復(fù)句實(shí)例可以采用基于規(guī)則方法來識(shí)別;標(biāo)記非充盈態(tài)模式與復(fù)句實(shí)例間不存在“一對(duì)一”的映射關(guān)系,其層次關(guān)系的判定需要引入分句間的語義分析。在界定分句語義關(guān)聯(lián)度基礎(chǔ)上,從主謂句法成分角度對(duì)分句關(guān)聯(lián)進(jìn)行深層知識(shí)挖掘,提取出直接聚層關(guān)聯(lián)的分句間存在的10組典型特征,構(gòu)建了一種基于分句語義關(guān)聯(lián)度判定的復(fù)句分析法。此外,還對(duì)“二標(biāo)三句式”、“一標(biāo)三句式”復(fù)句的層次關(guān)系判定問題進(jìn)行個(gè)案研究[34-35],歸納出復(fù)句層次關(guān)系判定的若干句法語義規(guī)則,實(shí)驗(yàn)表明了該研究的有效性。
胡金柱、舒江波嘗試采用分句語義關(guān)聯(lián)理論來解決復(fù)句層次關(guān)系識(shí)別中的難點(diǎn),從句法和語義角度總結(jié)出分句語義關(guān)聯(lián)的3大類、14個(gè)小類的特征,并根據(jù)特征之間的相互約束規(guī)律和分句特征的統(tǒng)計(jì)規(guī)律來確定分句關(guān)聯(lián)特征分析的先后順序,在此基礎(chǔ)上討論分句間語義關(guān)聯(lián)度的計(jì)算方法,根據(jù)分句間的關(guān)聯(lián)度來確定分句的層次歸屬[36]。
3.5 復(fù)句語言知識(shí)庫的構(gòu)建
實(shí)踐表明,中文信息處理的開展,需要語言知識(shí)庫的支持。為適應(yīng)研究的需要,復(fù)句語言知識(shí)研究也引起學(xué)者關(guān)注:邢福義、姚雙云探討了復(fù)句語料庫的建設(shè)及其在復(fù)句信息工程中的應(yīng)用問題[37];為改進(jìn)現(xiàn)有分詞系統(tǒng)對(duì)復(fù)句關(guān)系詞標(biāo)注結(jié)果不準(zhǔn)的狀況,杜超華、胡金柱在中國科學(xué)院ICTCLAS 分詞軟件的基礎(chǔ)上,研發(fā)了基于復(fù)句語料庫的分詞系統(tǒng)[38];劉云開展了漢語虛詞知識(shí)庫的研究,該虛詞知識(shí)庫中包含大量復(fù)句關(guān)系詞語的相關(guān)句法、語義、語用信息[39];胡金柱、吳鋒文緊扣“句處理”需求,開發(fā)漢語復(fù)句知識(shí)庫,初步研制了一個(gè)包含436個(gè)復(fù)句關(guān)系標(biāo)記的復(fù)句知識(shí)子庫,并探討了關(guān)系標(biāo)記信息的形式化表征與運(yùn)算問題[40-41]。
總體而言,近二十年漢語復(fù)句應(yīng)用層面的研究取得了一些可喜的成就:漢語復(fù)句信息處理的兩項(xiàng)基礎(chǔ)性工作——復(fù)句關(guān)系詞的識(shí)別及非分句的識(shí)別與標(biāo)注,都取得一定進(jìn)展;漢語復(fù)句句法語義關(guān)系判定問題逐漸受到學(xué)界的關(guān)注,特別是復(fù)句語料庫、基于復(fù)句語料庫的分詞系統(tǒng)以及復(fù)句知識(shí)庫的建設(shè),都將為漢語復(fù)句信息工程推向縱深發(fā)展奠定堅(jiān)實(shí)的基礎(chǔ)。
當(dāng)然,我們也要清醒認(rèn)識(shí)到,漢語復(fù)句應(yīng)用層面的研究起步較晚,研究還極其薄弱。目前復(fù)句信息處理研究,無論是復(fù)句關(guān)系詞、非分句的識(shí)別,還是復(fù)句句法語義關(guān)系判定,都是在受限領(lǐng)域里進(jìn)行的??梢哉f,已有研究雖已觸及到漢語復(fù)句信息工程的“冰山一角”,但更多問題還需進(jìn)一步去發(fā)掘和探索。展望漢語復(fù)句信息處理研究的未來,需要著重做好以下幾方面的工作。
首先,需要進(jìn)一步加強(qiáng)漢語復(fù)句研究的“兩棲學(xué)者”聯(lián)合攻關(guān)勢(shì)態(tài)。當(dāng)前信息時(shí)代,語言學(xué)的多邊緣化趨勢(shì)日益明顯,語言學(xué)科的發(fā)展要跟上時(shí)代步伐,必須面向社會(huì),面向應(yīng)用,其研究成果必須服務(wù)于社會(huì)經(jīng)濟(jì)的發(fā)展[42]。中文信息處理需要的,并不是現(xiàn)在漢語學(xué)界已有知識(shí)的照搬,而是需要根據(jù)計(jì)算機(jī)的“能力”去總結(jié)和發(fā)掘漢語的規(guī)律,使之具有可操作性。但就漢語復(fù)句研究而言,長期以來學(xué)界研究關(guān)注點(diǎn)在于基礎(chǔ)研究,是基于“人際理解”的,而不是基于“機(jī)器理解”的,沒有考慮到漢語信息處理的需求,使得已有成果不能完全適應(yīng)中文信息處理的需要。在新的時(shí)代,中文信息處理研究需要文、理不同學(xué)科研究團(tuán)隊(duì)的聯(lián)合攻關(guān)已成為共識(shí),漢語復(fù)句研究必需結(jié)合社會(huì)的應(yīng)用需求,實(shí)現(xiàn)研究思路的轉(zhuǎn)變,為適應(yīng)中文信息處理的需求而加強(qiáng)面向機(jī)器的應(yīng)用型研究。這種研究思路的轉(zhuǎn)變,需要漢語言學(xué)界和計(jì)算機(jī)學(xué)界兩支隊(duì)伍緊密結(jié)合起來,需要整合不同學(xué)科(除語言學(xué)、計(jì)算機(jī)科學(xué),還涉及到邏輯學(xué)、人腦科學(xué)、信息傳播學(xué)等)之間的研究資源,大力培養(yǎng)既懂語言學(xué)又會(huì)計(jì)算機(jī)科學(xué)的“兩棲人才”。
其次,需要進(jìn)一步加強(qiáng)漢語復(fù)句語義識(shí)別研究,實(shí)現(xiàn)無標(biāo)分句的句法語義消歧。隨著復(fù)句關(guān)系詞語與非分句識(shí)別研究的開展,集中力量研究漢語復(fù)句句法語義關(guān)系識(shí)別將是復(fù)句信息工程的重心。在復(fù)句層次關(guān)系識(shí)別方面,魯松、白碩、羅進(jìn)軍等作出了開拓性工作,但對(duì)因缺乏關(guān)系標(biāo)記而出現(xiàn)分句層次歸屬歧義的情形仍無能為力;周文翠、洪鹿平等采用統(tǒng)計(jì)策略研究復(fù)句分句的語義識(shí)別,為復(fù)句的語義識(shí)別奠定了基礎(chǔ),但沒有涉及到分句間的層次構(gòu)造的處理;胡金柱、吳鋒文關(guān)于分句語義關(guān)聯(lián)的研究才剛起步。加強(qiáng)漢語復(fù)句的語義識(shí)別仍是任重道遠(yuǎn),要最終解決復(fù)句句法語義關(guān)系識(shí)別問題,無標(biāo)分句的層次歸屬消歧研究將是無法跨越的“溝坎”。只有首先突破對(duì)無標(biāo)分句層次歸屬消歧處理,才能實(shí)現(xiàn)有標(biāo)復(fù)句向無標(biāo)復(fù)句信息處理研究的過渡。
再者,需要進(jìn)一步加強(qiáng)復(fù)句知識(shí)庫資源建設(shè)。研究表明,語言知識(shí)庫在中文信息處理中具有重要作用。漢語言知識(shí)庫建設(shè)已取得一定進(jìn)展,如《現(xiàn)代漢語語法信息詞典詳解》、虛詞知識(shí)庫、漢語知網(wǎng)、HNC 詞語知識(shí)庫以及漢語框架語義知識(shí)庫(CFN)的開發(fā)與利用,已在學(xué)界產(chǎn)生一定影響。但由于知識(shí)產(chǎn)權(quán)方面的原因,這些語言知識(shí)庫的兼容性、通用性不強(qiáng),而漢語復(fù)句的專用知識(shí)庫建設(shè)又很滯后。因而,集中力量開發(fā)一個(gè)集復(fù)句分類系統(tǒng)、關(guān)系詞知識(shí)庫、分句聚層組合規(guī)則庫、分句句法語義特征集于一體的復(fù)句本體知識(shí)庫[43],將是今后漢語復(fù)句應(yīng)用研究面臨的重要任務(wù)。
[1] 吳鋒文.新時(shí)期以來漢語復(fù)句基礎(chǔ)研究綜觀[J].信陽師范學(xué)院學(xué)報(bào)(哲社版).2013,33(1):78-84.
[2] 陸儉明.關(guān)于句處理中所要考慮的語義問題[J].語言研究,2001,21(1):1-12.
[3] 姚雙云.小句中樞理論的應(yīng)用與復(fù)句信息工程[J].漢語學(xué)報(bào).2005,5(4):71-79.
[4] 張仕仁.漢語復(fù)句的結(jié)構(gòu)分析[J].中文信息學(xué)報(bào).1994,8(4):43-54.
[5] 胡金柱,邢福義.復(fù)句靜態(tài)本體模型初探.第三屆HNC與語言學(xué)研究學(xué)術(shù)研討會(huì)論文集[C].北京:北京師范大學(xué)出版社,2006.
[6] 王琳.基于本體的漢語復(fù)句語義分析[D].武漢:華中師范大學(xué)碩士學(xué)位論文.2006.
[7] 肖升,胡金柱.面向?qū)ο笥袠?biāo)復(fù)句本體建模[J].計(jì)算機(jī)應(yīng)用研究.2010,27(2):552-554.
[8] 鄒嘉彥,連興隆.中文篇章中的關(guān)聯(lián)詞語及其引導(dǎo)的句子關(guān)系的自動(dòng)標(biāo)注.中文信息處理國際會(huì)議論文集[C].北京:清華大學(xué)出版社,1998:288-297.
[9] 高維君,姚天順,黎邦洋,等.機(jī)器學(xué)習(xí)在漢語關(guān)聯(lián)詞語識(shí)別中的應(yīng)用[J].中文信息學(xué)報(bào).2000,14(3):1-8.
[10] 李文翔.基于語料庫的關(guān)聯(lián)詞識(shí)別方法[J].計(jì)算機(jī)工程與應(yīng)用.2004,41(7):50-52.
[11] 胡金柱,沈威.基于渡越矩陣的復(fù)句關(guān)系詞自動(dòng)標(biāo)注初探[J].微計(jì)算機(jī)信息.2007,24(30):200-202.
[12] 沈威,姚雙云.基于規(guī)則的復(fù)句中的關(guān)系詞標(biāo)注探討[J].福建電腦.2007,23(4):6-7.
[13] 尹蔚,羅進(jìn)軍.從“是p,還是q”有標(biāo)選擇復(fù)句看合用型關(guān)系詞的自動(dòng)識(shí)別[J].中南大學(xué)學(xué)報(bào)(社科版).2007,19(6):740-743.
[14] 胡金柱,舒江波,姚雙云,等.面向中文信息處理的復(fù)句關(guān)系詞提取算法研究[J].計(jì)算機(jī)工程與科學(xué).2009,37(10):90-93.
[15] 胡金柱,雷利利.多重復(fù)句關(guān)系標(biāo)記搭配的求解模型研究[J].計(jì)算機(jī)工程與科學(xué).2011,39(11):177-182.
[16] 姚雙云,胡金柱,肖升,等.關(guān)聯(lián)詞搭配的自動(dòng)發(fā)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究.2011,28(12):4426-4429.
[17] 胡金柱,俞小娟.基于規(guī)則庫和聚類分析的復(fù)句短語字段的自動(dòng)識(shí)別研究[J].華中師范大學(xué)學(xué)報(bào).2008,52(2):190-194.
[18] 俞小娟,胡金柱.用主成分分析法研究短語字段的判別因素[J].計(jì)算機(jī)技術(shù)與發(fā)展.2008,18(10):116-119.
[19] 李瓊,胡金柱.現(xiàn)代漢語復(fù)句中短語字段的自動(dòng)識(shí)別初探[J].寧夏大學(xué)學(xué)報(bào).2008,30(1):6-10.
[20] 李瓊.基于語義知識(shí)的書讀前后非分句語言片段識(shí)別[J].湖北社會(huì)科學(xué).2010,24(3):128-131.
[21] 王立霞,孫宏林.現(xiàn)代漢語介詞短語邊界識(shí)別研究[J].中文信息學(xué)報(bào).2005,19(3):80-86.
[22] 魯松,宋柔.漢英機(jī)器翻譯中描述型復(fù)句的關(guān)系識(shí)別與處理[J].軟件學(xué)報(bào).2001,12(1):83-93.
[23] 魯松,白碩,李素建,等.漢語多重關(guān)系復(fù)句的關(guān)系層次分析[J].軟件學(xué)報(bào).2001,12(7):987-995.
[24] 李幸,宗成慶.引入標(biāo)點(diǎn)處理的層次化漢語長句句法分析方法[J].中文信息學(xué)報(bào).2006,20(4):8-15.
[25] 周文翠,袁春風(fēng).并列復(fù)句的自動(dòng)識(shí)別初探[J].計(jì)算機(jī)應(yīng)用研究[J].2008,25(3):764-766.
[26] 洪鹿平.漢語復(fù)句關(guān)系自動(dòng)判定研究[D].南京:南京師范大學(xué)碩士學(xué)位論文.2008.
[27] 李晉霞,劉云.面向計(jì)算機(jī)的二重復(fù)句層次劃分研究[C].第7屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文.2003.
[28] 羅進(jìn)軍.基于句法識(shí)別的有標(biāo)復(fù)句層次關(guān)系研究[J].漢語學(xué)報(bào).2009,9(1):83-89.
[29] 劉云.復(fù)句關(guān)系詞語離析度考察[J].語言教學(xué)與研究.2008,30(6):15-21.
[30] 汪夢(mèng)翔.關(guān)聯(lián)詞離析度在有標(biāo)復(fù)句層次自動(dòng)分析中的應(yīng)用[J].云南師范大學(xué)學(xué)報(bào)(哲社版).2011,54(4):148-152.
[31] 吳鋒文,胡金柱,肖明,等.基于規(guī)則的漢語復(fù)句層次關(guān)系自動(dòng)識(shí)別研究[J].華文教學(xué)與研究.2010,10(1):85-92.
[32] 吳鋒文.基于關(guān)系標(biāo)記的漢語復(fù)句分類研究[J].漢語學(xué)報(bào).2011,11(3):63-73.
[33] 吳鋒文.基于主謂語知識(shí)挖掘的分句語義關(guān)聯(lián)研究[J].語言文字應(yīng)用.2011,20(4):132-142.
[34] 吳鋒文.面向信息處理的“二標(biāo)三句式”復(fù)句層次關(guān)系判定[J].信陽師范學(xué)院學(xué)報(bào)(哲社版).2012,32(1):88-93.
[35] 吳鋒文.面向信息處理的“一標(biāo)三句式”復(fù)句層次關(guān)系判定[J].北方論叢.2012,54(1):64-68.
[36] 胡金柱,舒江波,羅進(jìn)軍.漢語復(fù)句中分句的語義關(guān)聯(lián)特征[J].語言文字應(yīng)用.2010,19(4):121-130.
[37] 邢福義,姚雙云.復(fù)句語料庫的建設(shè)及利用[C].第三屆HNC與語言學(xué)研究學(xué)術(shù)研討會(huì).2005.
[38] 杜超華,胡金柱.基于復(fù)句語料庫分詞系統(tǒng)研究[J].計(jì)算機(jī)與數(shù)字工程.2007,35(5):43-45.
[39] 劉云.漢語虛詞知識(shí)庫的建設(shè)[M].武漢:華中師范大學(xué)出版社.2009.
[40] 胡金柱,吳鋒文,李瓊,等.漢語復(fù)句關(guān)系詞庫的建設(shè)及其利用[J].語言科學(xué).2010,9(2):133-142.
[41] 吳鋒文.面向中文信息處理的三句式有標(biāo)復(fù)句層次關(guān)系自動(dòng)識(shí)別研究[D].武漢:華中師范大學(xué)博士學(xué)位論文.2010.
[42] 許嘉璐.設(shè)想和現(xiàn)狀——試論中文信息處理與現(xiàn)代漢語研究[J].中文信息學(xué)報(bào).2001,15(2):1-8.
[43] 吳鋒文.從信息處理看漢語復(fù)句分類研究[J].信陽師范學(xué)院學(xué)報(bào)(哲社版).2011,31(4):79-83.
Chinese Compound Sentences Processing: Past 20 Years
WU Fengwen
(College of Liberal Arts, Xinyang Normal University, Xinyang, Henan 464000, China)
The study on Chinese Compound Sentences is essential to the information processing. This paper summarizes the past researches on compound sentences, including compound sentences modeling, relation markers recognition, structure recognition, compound sentences parsing and corpus construction. It also reveals the prospects and possible research trends in further studies.
information processing; compound sentences; relation markers; automatic recognition
吳鋒文(1981—),博士,副教授,主要研究領(lǐng)域?yàn)闈h語語法,中文信息處理。E?mail:wufw@mail.ccnu.edu.cn
1003-0077(2015)01-0013-06
2013-05-12 定稿日期: 2013-10-11
國家社科基金(14CYY035,11BYY052);教育部人文社科基金(12YJC740110);信陽師范學(xué)院第五批青年骨干教師資助計(jì)劃
TP391
A