張祿彭,易綿竹,周 云
(1. 解放軍外國(guó)語(yǔ)學(xué)院 歐亞語(yǔ)系,河南 洛陽(yáng) 471003;2. 解放軍外國(guó)語(yǔ)學(xué)院 國(guó)防語(yǔ)言文化研究所,河南 洛陽(yáng) 471003;3. 國(guó)防科技大學(xué) 計(jì)算機(jī)學(xué)院,湖南 長(zhǎng)沙 410073)
D. Jurafsky和J.H. Martin認(rèn)為[1],“在自然語(yǔ)言自動(dòng)處理過(guò)程中需要的語(yǔ)言學(xué)知識(shí)可以分為語(yǔ)音學(xué)與音系學(xué)、形態(tài)學(xué)、句法學(xué)、語(yǔ)義學(xué)、語(yǔ)用學(xué)、話語(yǔ)學(xué)等多個(gè)層面”,而“語(yǔ)音和語(yǔ)言計(jì)算機(jī)處理的絕大多數(shù)或者是全部研究都可以看成是在其中某個(gè)層面上的消解歧義?!倍砹_斯在線學(xué)術(shù)大百科詞典“Кругосвет”中“歧義”(неоднозначность)詞條指出[2],歧義體現(xiàn)為一個(gè)能指對(duì)應(yīng)多個(gè)所指,它存在于語(yǔ)言的各個(gè)層級(jí),包括詞素(морфемы)、詞形(формы слов)、詞(слова)、成語(yǔ)(фразеологические обороты)、短語(yǔ)(словосочетания)和句子(предложения)??梢?jiàn),自然語(yǔ)言處理所面臨的歧義問(wèn)題存在于多級(jí)語(yǔ)言單位以及語(yǔ)言學(xué)研究的多個(gè)層面。
20~21世紀(jì)之交是中文信息處理科學(xué)迅猛發(fā)展的時(shí)期,其間中文的歧義和消歧(或稱“排歧”)研究也越來(lái)越受重視。以中國(guó)中文信息學(xué)會(huì)會(huì)刊《中文信息學(xué)報(bào)》(以下簡(jiǎn)稱《學(xué)報(bào)》)為例,從1986年創(chuàng)刊至2010年的25年,歧義問(wèn)題研究取得了長(zhǎng)足進(jìn)步,涌現(xiàn)出大量的科研成果。本文試圖以《學(xué)報(bào)》刊載的文章為例,管窺20世紀(jì)后15年和21世紀(jì)前十年*關(guān)于21世紀(jì)的首年有兩種認(rèn)定方式,一種是2001年,另一種是2000年,各自的理由在此不再贅述。本文中我們采用第一種認(rèn)定方式,這種方式在我國(guó)廣泛使用。間中文信息處理領(lǐng)域歧義研究的大體趨勢(shì),調(diào)查各類型歧義的研究狀況,探討消歧方面研究的主要進(jìn)展和特點(diǎn)。不當(dāng)之處,敬祈雅正。
1986~2010年的25年間《中文信息學(xué)報(bào)》所刊論文中以“歧義”、“消歧”、“排歧”以及“歧”、“岐”作為主題或關(guān)鍵詞共可選中八十余篇文章*為保證論文搜索完整無(wú)遺漏,我們?cè)贑NKI中國(guó)知網(wǎng)及維普資訊兩個(gè)期刊數(shù)據(jù)庫(kù)進(jìn)行了檢索和下載。。經(jīng)認(rèn)真研讀比對(duì),我們將“論文中至少有一小節(jié)是關(guān)于歧義問(wèn)題的專門研究或者全文研究與歧義問(wèn)題有緊密聯(lián)系”設(shè)為必要條件,最終有66篇論文[3-68]符合這一必要條件,被選定為本文的研究素材*此外,2011年還有李濟(jì)洪等[69]和時(shí)迎超等[70]兩篇文章,但由于2011年度尚未結(jié)束,難以將該兩文計(jì)入分時(shí)間段定量統(tǒng)計(jì)分析中。為保證統(tǒng)計(jì)規(guī)則的統(tǒng)一及嚴(yán)謹(jǐn),本文中的很多統(tǒng)計(jì)分析并未計(jì)算該兩文。。該66篇論文大體可分為兩種,一種是全文都是關(guān)于歧義問(wèn)題的專門研究,可稱為“關(guān)于歧義問(wèn)題的專門論文”(以下簡(jiǎn)稱“歧義專文”),有41篇;另一種是文中至少有一小節(jié)是關(guān)于歧義問(wèn)題的專門探討或全文內(nèi)容與歧義問(wèn)題有密切聯(lián)系,可稱為“涉及歧義問(wèn)題的相關(guān)論文”(以下簡(jiǎn)稱“涉歧論文”),有25篇(詳見(jiàn)文末表1)。
從論文的研究對(duì)象看,66篇文章大體可分為分詞歧義研究[3-18]、結(jié)構(gòu)歧義研究*“結(jié)構(gòu)歧義”主要是指句法結(jié)構(gòu)歧義。此外,劉蓓等[29]還涉及到了語(yǔ)義結(jié)構(gòu)歧義,其稱謂和消解方法均源自句法結(jié)構(gòu)歧義,故一并歸為此類。[19-34]、詞義歧義研究*“詞義歧義”即詞匯語(yǔ)義的歧義。[35-52]、其他類型歧義研究[21,53-64]和歧義消解的一般性研究[65-68]五個(gè)方面。其中前四個(gè)方面具有明確的考察對(duì)象,針對(duì)具體類型的歧義現(xiàn)象提出具體的消歧策略或算法;最后一個(gè)方面并不明確限定歧義的具體類型,而是宏觀性地提出歧義消解的某種總體性方略或思路。主要研究方法可歸為基本策略和具體方法兩部分,其中基本策略大致分為本體論與分類研究、基于規(guī)則、基于統(tǒng)計(jì)、基于知識(shí)庫(kù)、基于實(shí)例等五個(gè)方面,具體方法包括各種知識(shí)庫(kù)、多種算法、語(yǔ)料庫(kù)的運(yùn)用、機(jī)器學(xué)習(xí)等。下面我們將分別對(duì)各方面進(jìn)行述評(píng),并通過(guò)定量統(tǒng)計(jì)來(lái)觀察中文信息處理領(lǐng)域歧義研究的特點(diǎn)和趨勢(shì)。
《學(xué)報(bào)》自1986年創(chuàng)刊以來(lái)最早的歧義研究主要見(jiàn)之于李國(guó)臣等[3]、俞士汶[65]、馮志偉[19-20]、孫茂松等[21]幾篇文章,學(xué)術(shù)前輩們富有開(kāi)創(chuàng)性的研究工作開(kāi)辟了中文信息處理中的歧義問(wèn)題這一重要領(lǐng)域。此后,歧義問(wèn)題不斷受到學(xué)界的關(guān)注,從討論的歧義類型,到研究方法,再到具體算法都在不斷演進(jìn)。
我們將二十五年來(lái)《學(xué)報(bào)》中關(guān)于歧義問(wèn)題的66篇論文以五年為一段,分為五段(下同),從而觀察在各時(shí)間段歧義研究論文的分布情況,如圖1所示。
圖1 歧義研究各時(shí)間段的分布
通過(guò)圖1我們不難看出,自1986年《學(xué)報(bào)》創(chuàng)刊以來(lái),歧義及其消解問(wèn)題一直受到中文信息處理領(lǐng)域?qū)W者們的關(guān)注,每個(gè)階段的歧義研究都不曾間斷??傮w來(lái)看,對(duì)歧義及其消解問(wèn)題的研究表現(xiàn)出一個(gè)穩(wěn)步升溫的趨勢(shì)*《學(xué)報(bào)》自1999年由季刊改為雙月刊,每年發(fā)表論文總數(shù)隨之增多。這也是影響歧義問(wèn)題研究的論文數(shù)量增長(zhǎng)的一個(gè)積極因素,促進(jìn)了歧義問(wèn)題研究在中文信息處理領(lǐng)域受關(guān)注程度穩(wěn)中有升的總體態(tài)勢(shì)。,尤其是近五年的歧義研究達(dá)到了一個(gè)高峰。
隨時(shí)間的推移,經(jīng)過(guò)學(xué)者們不斷的開(kāi)拓研究,逐步積累了較多成果。但中文信息處理領(lǐng)域的歧義問(wèn)題一直未能得到根本的解決,促使學(xué)者們對(duì)歧義問(wèn)題的研究持續(xù)深入。這樣的態(tài)勢(shì)顯示出歧義及其消解問(wèn)題是中文信息處理領(lǐng)域關(guān)鍵的課題之一,同時(shí)也是相當(dāng)有難度的課題。在接下來(lái)相當(dāng)長(zhǎng)的時(shí)間內(nèi),歧義及其消解問(wèn)題作為中文信息處理領(lǐng)域的一個(gè)重點(diǎn)和懸而未解的難題仍將受到學(xué)界的不斷關(guān)注。
此外值得一提的是,涉歧論文的分布呈較快增長(zhǎng)的趨勢(shì),越來(lái)越多的課題中出現(xiàn)了“一個(gè)輸入對(duì)應(yīng)多種輸出”的情形,研究者們?cè)絹?lái)越習(xí)慣稱其為“歧義”,例如,短語(yǔ)邊界歧義,音字轉(zhuǎn)換歧義,中文姓名識(shí)別歧義、類碼語(yǔ)句歧義、非標(biāo)準(zhǔn)詞歧義、翻譯對(duì)齊歧義等[58-64]。多種新類型的歧義與其他課題交織在一起,并成為某中的一部分,這是歧義研究所體現(xiàn)出的與相關(guān)課題間的交叉性。交叉性也將是中文歧義問(wèn)題在未來(lái)的一個(gè)發(fā)展趨勢(shì)。
接下來(lái),我們更為細(xì)致地討論不同類型歧義的情形。
中文信息處理領(lǐng)域的歧義問(wèn)題按照其研究對(duì)象大體可分為分詞歧義研究、結(jié)構(gòu)歧義研究、詞義歧義研究、其他類型歧義(如詞類(詞性)歧義、短語(yǔ)邊界歧義、文字歧義、縮略語(yǔ)歧義等)研究和歧義及其消解的一般性研究五個(gè)方面。其中前四個(gè)方面具有明確的考察對(duì)象,針對(duì)具體類型的歧義現(xiàn)象提出具體的消歧策略或算法;最后一個(gè)方面并不明確限定歧義的具體類型,而是宏觀性地提出歧義消解的某種總體性方略或思路。分詞歧義、結(jié)構(gòu)歧義、詞義歧義、其它類型歧義四種類型中,前三種構(gòu)成了中文歧義問(wèn)題的主要部分。
二十五年來(lái)《學(xué)報(bào)》的各種類型研究總的分布情況如圖2所示*孫茂松等[21]一文中詞類歧義和結(jié)構(gòu)歧義兩方面研究并重,因此在統(tǒng)計(jì)中我們將其分割放置在結(jié)構(gòu)歧義和其他類型歧義兩個(gè)部分中,各計(jì)0.5篇文章。(下同)。
圖2 各類型歧義研究的總體分布
《學(xué)報(bào)》刊登的66篇文章中討論分詞歧義[3-18]、結(jié)構(gòu)歧義[19-34]和詞義歧義[35-52]的論文各有15~18篇,分別占總數(shù)的四分之一左右;其他類型歧義研究[21,53-64]加上關(guān)于歧義問(wèn)題的一般性研究[65-68]兩方面總和也占總數(shù)的四分之一。圖2顯示,從所有論文的范圍來(lái)看,分詞歧義、結(jié)構(gòu)歧義、詞義歧義研究三足鼎立,目前占據(jù)中文信息處理領(lǐng)域歧義研究的絕大部分。
以上是所有論文的總體情況,歧義專文的情況如圖3所示。
圖3 各類型歧義專文的分布
41篇歧義專文中探討分詞歧義[3-13]、結(jié)構(gòu)歧義[19-31]和詞義歧義[35-44]問(wèn)題的文章各占24%~30%;而其他類型歧義研究[21,53-54,56-57]加上關(guān)于歧義問(wèn)題的一般性研究[65-67]兩方面總和還不到總數(shù)的20%。圖3顯示的情況與圖2相一致,而且歧義專文中的分詞歧義、結(jié)構(gòu)歧義、詞義歧義研究三個(gè)方面更為明顯地占據(jù)中文歧義研究的主要部分。
下面我們分時(shí)間段從歷時(shí)角度觀察《學(xué)報(bào)》中各種類型歧義研究的分布情況,討論其趨勢(shì)和特點(diǎn)。
3.2.1 三種主要類型歧義研究的按段分布
各時(shí)間段內(nèi)三種主要類型歧義研究的總體分布情況如圖4所示。
歧義專文的按時(shí)間段分布情況如圖5所示。
結(jié)合圖4和圖5我們看到:
(1) 從三種主要類型歧義論文的延續(xù)性和密集程度來(lái)看,研究者們對(duì)于分詞歧義、詞義歧義、結(jié)構(gòu)歧義的探討在向不斷深入的方向發(fā)展。
圖4 三種主要類型歧義研究論文總數(shù)的按段分布
圖5 三種主要類型歧義專文的按段分布
(2) 分詞歧義始終受到關(guān)注,而且受關(guān)注度不斷提升。結(jié)構(gòu)歧義也不斷受到關(guān)注,但在20~21世紀(jì)之交達(dá)到高點(diǎn)之后,其受關(guān)注度逐漸下降。詞義歧義在《學(xué)報(bào)》的前十年并未得到探討,自20世紀(jì)90年代后半期以來(lái),中文信息處理領(lǐng)域?qū)υ~義歧義的研究異軍突起。
(3) 若將歧義問(wèn)題依據(jù)研究對(duì)象的不同分解為若干子集,則各時(shí)段的研究熱點(diǎn)有所不同。早期重結(jié)構(gòu)歧義和分詞歧義,現(xiàn)今注重詞義歧義和分詞歧義。圖5反映的趨勢(shì)特點(diǎn)與圖4基本吻合,結(jié)構(gòu)歧義的發(fā)展趨勢(shì)不如圖4明顯,這與數(shù)據(jù)稀疏有關(guān)??偠灾?,詞義歧義和分詞歧義研究的發(fā)展速度比結(jié)構(gòu)歧義研究更快,尤其是在2001年以后的十年間。
3.2.2 其余兩方面歧義研究的按段分布
本小節(jié)我們考察其他類型歧義的研究以及關(guān)于歧義問(wèn)題的一般性研究?jī)煞矫娴姆植记闆r,其分布狀況也反映了中文歧義問(wèn)題研究的某些趨勢(shì)(圖6)。
圖6 其余兩方面歧義研究的總體按段分布
圖7 其余兩方面歧義專文的按段分布
圖8 其余兩方面涉歧論文的按段分布
結(jié)合圖6,7,8我們看到:
(1) 其他類型歧義的研究在近年來(lái)活躍起來(lái),體現(xiàn)歧義問(wèn)題研究對(duì)象的范圍正在擴(kuò)大。在對(duì)三種主要類型歧義研究向深化發(fā)展的同時(shí),歧義的其他類型也有向廣度發(fā)展的趨勢(shì)。這說(shuō)明中文信息處理的許多課題、領(lǐng)域都遇到了歧義的情況。研究其他類型歧義的文章共13篇。早期研究對(duì)象是傳統(tǒng)的歧義類型,如詞類(詞性)標(biāo)注歧義[21,53-55];近期的研究對(duì)象范圍擴(kuò)大,更多新的歧義類型進(jìn)入研究者的視野,如民族語(yǔ)言文字歧義、縮略語(yǔ)歧義、短語(yǔ)邊界歧義、非標(biāo)準(zhǔn)詞歧義、中文姓名歧義、音字轉(zhuǎn)換歧義等等[56-64]。*此外,趙軍[49]探討了命名實(shí)體的排歧,高維君等[45]討論了關(guān)聯(lián)詞語(yǔ)識(shí)別歧義,張順昌等[18]論述了拼音流切分存在的歧義,這三篇文章也體現(xiàn)出歧義研究對(duì)象向廣度發(fā)展的趨勢(shì)。但根據(jù)原文作者對(duì)這些類型歧義的定義,該三文總體屬于詞義歧義和分詞歧義的范疇,因此未歸入“其他類型歧義研究”的序列。
(2) 其他類型歧義的研究大多數(shù)存在于涉歧論文中,因?yàn)槠渌愋偷钠缌x大多是新出現(xiàn)的類型,它們出現(xiàn)在相關(guān)課題中的某個(gè)或某些環(huán)節(jié),于是很自然地被歸為其他類型的歧義。這些類型的歧義雖然從個(gè)體來(lái)看并不多也不算是歧義問(wèn)題的主流,但是它們總體作為一個(gè)屬種確實(shí)在近年成長(zhǎng)為一股新潮流,體現(xiàn)出歧義研究在向交叉性的方向發(fā)展。
(3) 歧義問(wèn)題一般性研究不明確限定具體類型的歧義,而是綜合性、概括性地提出歧義消解的某種基本思路和體系。例如,楊瑩等[66]提出一種可以表示常識(shí)及語(yǔ)言知識(shí)的意象知識(shí)體系;錢樹(shù)人[67]提出漢語(yǔ)語(yǔ)言片段歧義分析模型系統(tǒng)CAAMS。歧義問(wèn)題的一般性研究的文章主要出現(xiàn)在20世紀(jì)90年代前后,之后這種研究基本方法的文章減少,消歧研究向細(xì)化、深化的方向發(fā)展,絕大多數(shù)研究工作致力于深入挖掘用于消解具體類型歧義的新算法。
第一,歧義問(wèn)題作為一個(gè)整體長(zhǎng)期以來(lái)受到學(xué)界的不斷關(guān)注,然而在不同的時(shí)間段內(nèi)研究者們更為關(guān)注的歧義具體類型有所不同。
第二,隨時(shí)間的推移,歧義及其消解問(wèn)題的研究對(duì)象正在向廣度和深度發(fā)展,在向與相關(guān)課題交叉的方向發(fā)展,這符合人類認(rèn)識(shí)世界的規(guī)律。已有的歧義種類,其研究將不斷深入;相關(guān)領(lǐng)域的新的歧義類型也將逐漸出現(xiàn)。
第三,事實(shí)上,中文信息處理中的歧義問(wèn)題也應(yīng)是廣泛存在于各個(gè)語(yǔ)言單位和語(yǔ)言學(xué)的各個(gè)層面上的。現(xiàn)在我們處理的歧義主要是詞匯、短語(yǔ)(字符串)單位上的,其次是句子、單字單位上的,將來(lái)可能還將擴(kuò)展到段落和篇章單位。當(dāng)今我們研究的歧義主要是構(gòu)詞、句法結(jié)構(gòu)和詞匯語(yǔ)義層面的,其次是語(yǔ)音和形態(tài)層面,將來(lái)可能會(huì)涉及到現(xiàn)代語(yǔ)義學(xué)、語(yǔ)用學(xué)以及心理語(yǔ)言學(xué)、文化語(yǔ)言學(xué)等交叉學(xué)科的層面。
本節(jié)考察66篇論文的研究方法。為便于更直觀地了解每篇論文的情況,我們將所有論文的相關(guān)信息總結(jié)列于表1中,以發(fā)表時(shí)間進(jìn)行排序。
結(jié)合圖9與表1我們看到:
圖9 基本處理策略的按段分布
(1) 1990年以前,多采用本體論和分類的策略,主要任務(wù)是對(duì)歧義進(jìn)行定義和分類,并對(duì)消歧提出一些指導(dǎo)性的建議,例如,馮志偉[19-20]、俞士汶[65]和孫茂松等[21]。這些基礎(chǔ)性的研究為后來(lái)歧義研究的大發(fā)展奠定了基礎(chǔ)。
(2) 在早期的歧義研究中,基于規(guī)則的策略占據(jù)主導(dǎo)地位。1995年以前,較多使用規(guī)則集來(lái)處理歧義,構(gòu)建了一些實(shí)用的系統(tǒng)。截至2005年前的許多論文中還都會(huì)綜合利用規(guī)則的消歧策略,但2006年以來(lái),相對(duì)于其他策略的增長(zhǎng),基于規(guī)則的策略有了實(shí)質(zhì)性的減少?;谝?guī)則的策略應(yīng)當(dāng)怎樣發(fā)揮更大的作用,是值得我們探討的問(wèn)題,在這方面,香港城市大學(xué)《切詞規(guī)則》(轉(zhuǎn)引自: 李玉梅等[17])在2005年細(xì)致總結(jié)出中文分詞的諸多規(guī)則[71]。
(3) 20世紀(jì)最后的幾年間,基于與規(guī)則的策略與基于統(tǒng)計(jì)的策略并存。周強(qiáng)[53]首先采用了規(guī)則和統(tǒng)計(jì)相結(jié)合的策略,使用二元語(yǔ)法對(duì)語(yǔ)言進(jìn)行建模,用Viterbi算法進(jìn)行極大似然估計(jì),還制定數(shù)據(jù)集對(duì)所用的方法進(jìn)行了系統(tǒng)的評(píng)測(cè)。以概率統(tǒng)計(jì)為核心的現(xiàn)代自然語(yǔ)言處理手法在周強(qiáng)[53]一文得到了較完整的體現(xiàn),這點(diǎn)對(duì)于后來(lái)的研究具有重大意義。
(4) 隨著時(shí)間的推移,概率統(tǒng)計(jì)的研究策略被越來(lái)越多且越來(lái)越頻繁地使用。自1996年以來(lái),基于概率統(tǒng)計(jì)的策略開(kāi)始被大量采用。統(tǒng)計(jì)的策略常常與其他策略結(jié)合在一起,通過(guò)其他方法策略或者語(yǔ)言知識(shí)的加強(qiáng)提高歧義消解的正確率。2000年以來(lái),基于統(tǒng)計(jì)的策略更是開(kāi)始占據(jù)主導(dǎo),各類統(tǒng)計(jì)方法逐步成熟,這體現(xiàn)出實(shí)證主義的定量分析方法在當(dāng)今的中文歧義問(wèn)題研究中占據(jù)了統(tǒng)治地位。
(5) 基于知識(shí)庫(kù)的處理策略被廣為使用,且這一策略保持穩(wěn)定增長(zhǎng)的態(tài)勢(shì)。研究者們使用的詞典知識(shí)庫(kù)種類多樣,常常與規(guī)則或統(tǒng)計(jì)的策略配合使用,可預(yù)見(jiàn)今后一段時(shí)間內(nèi)基于詞典知識(shí)庫(kù)的處理策略將得到沿用和發(fā)展。另外,基于實(shí)例的策略在上世紀(jì)末出現(xiàn)后成為歧義處理策略的有益補(bǔ)充。
結(jié)合圖10可以看出:
圖10 具體處理方法的按段分布
(1) 使用語(yǔ)料庫(kù)進(jìn)行實(shí)驗(yàn)評(píng)測(cè)的方法迅速發(fā)展。基于規(guī)則和基于知識(shí)庫(kù)的方法需要大量的專家進(jìn)行總結(jié)歸納,而且知識(shí)表示是一個(gè)長(zhǎng)期以來(lái)難以解決的問(wèn)題。于是研究者們收集并加工語(yǔ)言資源形成語(yǔ)料庫(kù),進(jìn)行實(shí)驗(yàn)讓計(jì)算機(jī)從訓(xùn)練語(yǔ)料庫(kù)中自動(dòng)學(xué)習(xí)數(shù)據(jù)用于消歧,并在新的語(yǔ)料上進(jìn)行消歧方法評(píng)測(cè)。這些實(shí)驗(yàn)評(píng)測(cè)大多具有嚴(yán)格的數(shù)學(xué)、統(tǒng)計(jì)學(xué)基礎(chǔ),在計(jì)算機(jī)上實(shí)現(xiàn)具有天然的優(yōu)勢(shì),因此使用語(yǔ)料庫(kù)進(jìn)行實(shí)驗(yàn)評(píng)測(cè)的方法自20世紀(jì)末以來(lái)急速增長(zhǎng)。
(2) 1990年以來(lái),機(jī)器學(xué)習(xí)(尤其是有監(jiān)督機(jī)器學(xué)習(xí))的各種算法在該領(lǐng)域取得了顯著的效果。有監(jiān)督方法需要標(biāo)注語(yǔ)料,這同樣需要大量的人力物力,代表性的有李蓉等[7]采用SVM和K-NN相結(jié)合的方法。由此無(wú)監(jiān)督方法也逐漸應(yīng)用到該領(lǐng)域,王偉等[6]將非監(jiān)督的機(jī)器學(xué)習(xí)方法引入歧義研究,從原始語(yǔ)料庫(kù)中聚類出用于消歧的信息,其后,陳浩等[39]采用K-means方法進(jìn)行詞義消歧。但目前無(wú)監(jiān)督方法的消歧性能與有監(jiān)督方法還有一定差距。除此之外,如何挖掘互聯(lián)網(wǎng)語(yǔ)料、平行語(yǔ)料、維基百科等新興資源也成為該領(lǐng)域關(guān)注的問(wèn)題,例如,劉冬明等[40]利用HowNet資源中概念的可計(jì)算性和句子對(duì)齊的漢英雙語(yǔ)平行語(yǔ)料庫(kù)信息,將詞義排歧的問(wèn)題轉(zhuǎn)化為兩種語(yǔ)言相對(duì)應(yīng)句子詞義組合的相似度計(jì)算問(wèn)題。
(3) 具體算法迅速更新,層出不窮的新算法能夠在一定范圍內(nèi)逐步提高消歧正確率,但現(xiàn)有算法總體是在傳統(tǒng)算法的基礎(chǔ)上進(jìn)行的改善,原創(chuàng)性的、本土化的算法有待加強(qiáng)創(chuàng)新。
回顧25年來(lái)歧義及消歧研究的主要策略方法,總體呈現(xiàn)出前期多本體論及規(guī)則后期多概率統(tǒng)計(jì)、前期多原則定義后期多實(shí)驗(yàn)評(píng)測(cè)的態(tài)勢(shì)。當(dāng)前,基于統(tǒng)計(jì)的消歧方法在中文信息處理的歧義研究中發(fā)展空前,其貢獻(xiàn)是巨大的,但由于該方法固有的屬性,如果不能與語(yǔ)言科學(xué)和認(rèn)知心理科學(xué)有效結(jié)合的話,始終難以最終克服概率最優(yōu)的計(jì)算宗旨與小概率事件之間的矛盾問(wèn)題,從而無(wú)法在海量信息處理中達(dá)到高的正確率。近年來(lái),以概率統(tǒng)計(jì)占統(tǒng)治地位的消歧策略發(fā)展到了高峰,然而其正確率的提高卻難以再有實(shí)質(zhì)性的超越,在這樣的情形下,消歧研究應(yīng)當(dāng)在思變中謀發(fā)展。
第一,歧義處理與語(yǔ)言知識(shí)、語(yǔ)言科學(xué)相結(jié)合,語(yǔ)言學(xué)中的一些理論及模型是可能強(qiáng)化基于統(tǒng)計(jì)的消歧算法的。比如篇章語(yǔ)言學(xué),消歧所需的知識(shí)大體可分為上下文知識(shí)和世界知識(shí)(文化背景知識(shí)),現(xiàn)有的上下文知識(shí)主要考察鄰近的語(yǔ)言單位,如左上文、左右上下文,但如果把歧義單位放到全文這一更大的上下文中去考察,結(jié)合篇章語(yǔ)言學(xué)的知識(shí)分析全文的特征用以加強(qiáng)概率算法,就會(huì)提高消歧的準(zhǔn)確率。再比如概念依存理論、格語(yǔ)法,其關(guān)于題元角色的思想對(duì)于我們理解句子單位的語(yǔ)義結(jié)構(gòu)大有裨益,如何將這種現(xiàn)代語(yǔ)義學(xué)知識(shí)用于強(qiáng)化現(xiàn)有的消歧算法也值得我們深入思考。另外,語(yǔ)義場(chǎng)、wordnet、知網(wǎng)等本體知識(shí)網(wǎng)在消歧的過(guò)程中也能夠提供強(qiáng)大的背景知識(shí)支持,這方面的研究已經(jīng)有之,我們相信這方面的研究在未來(lái)會(huì)獲得更大的發(fā)展,也將做出更多貢獻(xiàn)。
第二,歧義處理與關(guān)于語(yǔ)言的心理認(rèn)知科學(xué)相結(jié)合。心理語(yǔ)言學(xué)中的心理詞典理論和言語(yǔ)理解與生成模型、神經(jīng)網(wǎng)絡(luò)模型、認(rèn)知語(yǔ)言學(xué)等都可能為中文信息的消歧處理帶來(lái)新的增長(zhǎng)點(diǎn)。
第三,“統(tǒng)計(jì)+結(jié)構(gòu)”將成為主流模型。如前所述,如何將語(yǔ)言科學(xué)、心理認(rèn)知科學(xué)等先驗(yàn)知識(shí)與統(tǒng)計(jì)方法相結(jié)合是一個(gè)十分重要的問(wèn)題,而“統(tǒng)計(jì)+結(jié)構(gòu)”就是解決該問(wèn)題的有效手段之一?!敖y(tǒng)計(jì)+結(jié)構(gòu)”模式首先通過(guò)先驗(yàn)知識(shí)給出問(wèn)題的結(jié)構(gòu),然后用統(tǒng)計(jì)的方法解決。目前,概率圖模型是“統(tǒng)計(jì)+結(jié)構(gòu)”的重要代表,它的結(jié)構(gòu)為一個(gè)概率圖,圖中的結(jié)點(diǎn)是隨機(jī)變量,圖中的邊為隨機(jī)變量之間的依賴關(guān)系,可用來(lái)表達(dá)問(wèn)題的內(nèi)部結(jié)構(gòu)。概率圖模型,包括條件隨機(jī)域(Conditional Random Fields, CRF)、潛在狄里克萊分配(Latent Dirichlet Allocation, LDA)等,已經(jīng)在消歧研究等自然語(yǔ)言處理的子領(lǐng)域得到了十分廣泛的應(yīng)用。另外,對(duì)于一些長(zhǎng)距離依賴,純統(tǒng)計(jì)方法的計(jì)算復(fù)雜度過(guò)高,而將語(yǔ)言學(xué)結(jié)構(gòu)模型加入到統(tǒng)計(jì)中則有可能較大幅度地降低計(jì)算復(fù)雜度。
第四,近年中文信息處理的消歧研究較為注重向美國(guó)學(xué)習(xí)先進(jìn)經(jīng)驗(yàn),也確實(shí)取得了很大進(jìn)步。當(dāng)然,在借鑒美國(guó)的統(tǒng)計(jì)消歧策略的同時(shí),了解借鑒其他國(guó)家的一些模型也許將是有益的補(bǔ)充。例如,俄國(guó)學(xué)者梅爾丘克的《意義—文本》理論模型也是面向自然語(yǔ)言處理的強(qiáng)大語(yǔ)言學(xué)理論體系。
第五,與英語(yǔ)相比,漢語(yǔ)的標(biāo)準(zhǔn)數(shù)據(jù)集還比較缺乏,已有的影響力也不大,對(duì)實(shí)驗(yàn)評(píng)估和研究的導(dǎo)向性作用不明顯。在這方面還需要加大投入,打造實(shí)用、權(quán)威的漢語(yǔ)數(shù)據(jù)集,為研究的發(fā)展進(jìn)步提供堅(jiān)實(shí)基礎(chǔ)。
我們以中國(guó)中文信息學(xué)會(huì)會(huì)刊——《中文信息學(xué)報(bào)》的25年來(lái)歧義問(wèn)題研究的論文[3-68]為例,對(duì)中文信息處理領(lǐng)域的歧義研究進(jìn)行系統(tǒng)梳理與評(píng)析。當(dāng)今歧義問(wèn)題的研究對(duì)象正在向深度和廣度兩個(gè)方向發(fā)展,歧義問(wèn)題與相關(guān)課題交叉產(chǎn)生多樣的歧義新類型。分詞歧義、結(jié)構(gòu)歧義和詞義歧義是當(dāng)今歧義問(wèn)題的主要類型。歧義問(wèn)題的研究方法具體化多樣化,消歧策略以概率統(tǒng)計(jì)為主流,由單一化向綜合化方向發(fā)展,算法不斷在已有基礎(chǔ)上更新,語(yǔ)料庫(kù)、機(jī)器學(xué)習(xí)和實(shí)驗(yàn)評(píng)測(cè)方法運(yùn)用廣泛。
歧義現(xiàn)象的本質(zhì)是自然語(yǔ)言處理過(guò)程中一個(gè)輸入對(duì)應(yīng)多個(gè)輸出的情形,其中絕大多數(shù)的歧義是只有計(jì)算機(jī)才會(huì)遇到的偽歧義[72]。其深層原因在于語(yǔ)言符號(hào)及其結(jié)構(gòu)的多義性以及自然語(yǔ)言的經(jīng)濟(jì)原則,正是在漫長(zhǎng)的歷史中人類逐步學(xué)會(huì)以有限的符號(hào)表達(dá)無(wú)限的意義和思想,因此越是古老和基本的語(yǔ)言符號(hào)單位,其意義也就越是復(fù)雜[73]。人類個(gè)體在成長(zhǎng)過(guò)程中會(huì)逐漸習(xí)得運(yùn)用語(yǔ)言進(jìn)行表達(dá)和交際,其中人的很多表達(dá)習(xí)慣、表達(dá)定式和言語(yǔ)交際知識(shí)有助于偽歧義的消解。
計(jì)算語(yǔ)言學(xué)(自然語(yǔ)言處理)是一門公認(rèn)的交叉學(xué)科,然而遺憾的是,長(zhǎng)期以來(lái)以計(jì)算機(jī)科學(xué)為背景和以語(yǔ)言科學(xué)為背景的兩方面科研工作者在很大程度上卻是各自為戰(zhàn),計(jì)算機(jī)科學(xué)和語(yǔ)言科學(xué)仍然未能得到較好地融合。語(yǔ)言學(xué)的很多有益知識(shí),比如涉及語(yǔ)義因素的概念依存理論與格語(yǔ)法,篇章語(yǔ)言學(xué)關(guān)于文本篇章語(yǔ)言特點(diǎn)的理論,普通語(yǔ)言學(xué)關(guān)于語(yǔ)言層級(jí)的學(xué)說(shuō),心理語(yǔ)言學(xué)中的心理詞典理論以及關(guān)于言語(yǔ)理解與生成的模型等,在未來(lái)需要更為有效地融入歧義及其消解問(wèn)題研究中。如何將上述領(lǐng)域的研究成果轉(zhuǎn)化為計(jì)算機(jī)可操作的知識(shí)系統(tǒng)是一個(gè)值得在未來(lái)繼續(xù)深入研究探討的課題。
表1 全部論文的信息總表*關(guān)于主要研究方法我們通過(guò)仔細(xì)研讀人工整理分類而成,若有與原文不甚契合處,懇請(qǐng)?jiān)淖髡呒白x者指正。
續(xù)表
[1] Jurafsky D., Martin J.H. 馮志偉,孫樂(lè)(譯). 自然語(yǔ)言處理綜論[M]. 電子工業(yè)出版社. 2005.
[2] неоднозначность詞條[DB/OL]. 俄羅斯Кругосвет大百科詞典. http://www.krugosvet.ru/
[3] 李國(guó)臣,劉開(kāi)瑛,張永奎. 漢語(yǔ)自動(dòng)分詞及歧義組合結(jié)構(gòu)的處理[J]. 中文信息學(xué)報(bào),1988,2(3): 27-33.
[4] 劉挺,王開(kāi)鑄. 關(guān)于歧義字段切分的思考與實(shí)驗(yàn)[J]. 中文信息學(xué)報(bào),1998,12(2): 63-64.
[5] 孫茂松,左正平,鄒嘉彥. 高頻最大交集型歧義切分字段在漢語(yǔ)自動(dòng)分詞中的作用[J]. 中文信息學(xué)報(bào),1999,13(1): 27-34.
[6] 王偉,鐘義信,孫建,等. 一種基于EM非監(jiān)督訓(xùn)練的自組織分詞歧義解決方案[J]. 中文信息學(xué)報(bào),2001,15(2): 38-44.
[7] 李蓉,劉少輝,葉世偉,等. 基于SVM和k-NN結(jié)合的漢語(yǔ)交集型歧義切分方法[J]. 中文信息學(xué)報(bào),2001,15(6): 13-18.
[8] 李斌,陳小荷,方芳,等. 基于語(yǔ)料庫(kù)的高頻最大交集型歧義字段考察[J]. 中文信息學(xué)報(bào),2006,20(1): 1-6.
[9] 秦穎,王小捷,張素香. 漢語(yǔ)分詞中組合歧義字段的研究[J]. 中文信息學(xué)報(bào),2007,21(1): 1-8.
[10] 王思力,王斌. 基于雙字耦合度的中文分詞交叉歧義處理方法[J]. 中文信息學(xué)報(bào),2007,21(5): 14-17.
[11] 馮素琴,陳惠明. 基于語(yǔ)境信息的漢語(yǔ)組合型歧義消歧方法[J]. 中文信息學(xué)報(bào),2007,21(6): 13-16.
[12] 喬維,孫茂松. 漢語(yǔ)交集型歧義切分字段關(guān)于專業(yè)領(lǐng)域的統(tǒng)計(jì)特性[J]. 中文信息學(xué)報(bào),2008,22(4): 10-18.
[13] 任惠,林鴻飛,楊志豪. 融合字特征的平滑最大熵模型消解交集型歧義[J]. 中文信息學(xué)報(bào),2010,24(4): 18-24.
[14] 周依欣,吳蔚天. 漢英機(jī)譯研究(二): 一種實(shí)用的漢語(yǔ)切分方法—鏈接表法[J]. 中文信息學(xué)報(bào),1990,4(2): 34-41.
[15] 徐秉錚,詹劍,賀前華. 基于神經(jīng)網(wǎng)絡(luò)的分詞方法[J]. 中文信息學(xué)報(bào),1993,7(2): 36-44.
[16] 趙鐵軍,呂雅娟,于浩,等. 提高漢語(yǔ)自動(dòng)分詞精度的多步處理策略[J]. 中文信息學(xué)報(bào),2001,15(1): 13-18.
[17] 李玉梅,陳曉,姜自霞,等. 分詞規(guī)范亟需補(bǔ)充的三方面內(nèi)容[J]. 中文信息學(xué)報(bào),2007,21(5): 3-7.
[18] 張順昌,孫樂(lè). 音字轉(zhuǎn)換中分層解碼模型的研究與改進(jìn)[J]. 中文信息學(xué)報(bào),2009,23(6): 79-85.
[19] 馮志偉. 中文科技術(shù)語(yǔ)的結(jié)構(gòu)描述及潛在歧義[J]. 中文信息學(xué)報(bào),1989,3(2): 3-18.
[20] 馮志偉. 中文科技術(shù)語(yǔ)中的歧義結(jié)構(gòu)及其判定方法[J]. 中文信息學(xué)報(bào),1989,3(3): 12-27.
[21] 孫茂松,黃昌寧. 漢語(yǔ)中的兼類詞、同形詞類組及其處理策略[J]. 中文信息學(xué)報(bào),1989,3(4): 11-23.
[22] 邰曉英,童兆頁(yè). 限制漢語(yǔ)語(yǔ)法分析中歧義性的啟發(fā)式方法[J]. 中文信息學(xué)報(bào),1993,7(4): 10-17.
[23] 馮志偉. 論歧義結(jié)構(gòu)的潛在性[J]. 中文信息學(xué)報(bào),1995,9(4): 14-24.
[24] 孫健,張堯,王啟祥. 漢語(yǔ)受限語(yǔ)言的設(shè)計(jì)與應(yīng)用[J]. 中文信息學(xué)報(bào),1997,11(3): 41-50.
[25] 苑春法,黃錦輝,李文捷. 基于語(yǔ)義知識(shí)的漢語(yǔ)句法結(jié)構(gòu)排歧[J]. 中文信息學(xué)報(bào),1999,13(1): 1-8.
[26] 詹衛(wèi)東,常寶寶,俞士汶. 漢語(yǔ)短語(yǔ)結(jié)構(gòu)定界歧義類型分析及分布統(tǒng)計(jì)[J]. 中文信息學(xué)報(bào),1999,13(3): 9-17.
[27] 楊曉峰,李堂秋,洪青陽(yáng). 基于實(shí)例的漢語(yǔ)句法結(jié)構(gòu)分析歧義消解[J]. 中文信息學(xué)報(bào),2001,15(3): 22-28.
[28] 張克亮. 基于HNC理論的句法結(jié)構(gòu)歧義消解[J]. 中文信息學(xué)報(bào),2004,18(6): 43-52.
[29] 劉蓓,杜利民. 漢語(yǔ)口語(yǔ)對(duì)話系統(tǒng)中語(yǔ)義分析的消歧策略[J]. 中文信息學(xué)報(bào),2005,19(1): 76-83.
[30] 王錦,陳群秀. 現(xiàn)代漢語(yǔ)語(yǔ)義資源用于短語(yǔ)歧義模式消歧研究[J]. 中文信息學(xué)報(bào),2007,21(5): 80-86.
[31] 董強(qiáng),郝長(zhǎng)伶,董振東. 基于知網(wǎng)的中文結(jié)構(gòu)排歧工具——VXY[J]. 中文信息學(xué)報(bào),2010,24(1): 60-64.
[32] 周強(qiáng). 漢語(yǔ)短語(yǔ)的自動(dòng)劃分和標(biāo)注[J]. 中文信息學(xué)報(bào),1997,11(1): 1-10.
[33] 劉穎. 句法評(píng)分和語(yǔ)義評(píng)分[J]. 中文信息學(xué)報(bào),2000,14(4): 17-24.
[34] 苑春法,陳剛,黃昌寧. 基于詞性和語(yǔ)義知識(shí)的漢語(yǔ)句法規(guī)則學(xué)習(xí)[J]. 中文信息學(xué)報(bào),2001,15(3): 1-8.
[35] 王永生,柴佩琪,衛(wèi)蔚. 德漢機(jī)器翻譯中的語(yǔ)義消歧策略[J]. 中文信息學(xué)報(bào),1998,12(2): 54-62.
[36] 李涓子,黃昌寧,楊爾弘. 一種自組織的漢語(yǔ)詞義排歧方法[J]. 中文信息學(xué)報(bào),1999,13(3): 1-8.
[37] 鄭杰,茅于杭,董清富. 基于語(yǔ)境的語(yǔ)義排歧方法[J]. 中文信息學(xué)報(bào),2000,14(5): 1-7.
[38] 全昌勤,何婷婷,姬東鴻,等. 從搭配知識(shí)獲取最優(yōu)種子的詞義消歧方法[J]. 中文信息學(xué)報(bào),2005,19(1): 30-35.
[39] 陳浩,何婷婷,姬東鴻. 基于k-means聚類的無(wú)導(dǎo)詞義消歧[J]. 中文信息學(xué)報(bào),2005,19(4): 10-16.
[40] 劉冬明,楊爾弘,方瑩. 漢英雙語(yǔ)平行語(yǔ)料庫(kù)的詞義標(biāo)注[J]. 中文信息學(xué)報(bào),2005,19(6): 50-56.
[41] 劉風(fēng)成,黃德根,姜鵬. 基于AdaBoost.MH算法的漢語(yǔ)多義詞消歧[J]. 中文信息學(xué)報(bào),2006,20(3): 6-13.
[42] 吳云芳,金澎,郭濤. 基于詞典屬性特征的粗粒度詞義消歧[J]. 中文信息學(xué)報(bào),2007,21(2): 3-8.
[43] 郭宇航,車萬(wàn)翔,劉挺. 基于語(yǔ)言模型驗(yàn)證的詞義消歧語(yǔ)料獲取[J]. 中文信息學(xué)報(bào),2008,22(6): 38-42.
[44] 車超,滕弘飛. 偽實(shí)例與人工標(biāo)注實(shí)例相結(jié)合的詞義消歧方法[J]. 中文信息學(xué)報(bào),2009,23(6): 31-38.
[45] 高維君,姚天順,黎邦洋,等. 機(jī)器學(xué)習(xí)在漢語(yǔ)關(guān)聯(lián)詞語(yǔ)識(shí)別中的應(yīng)用[J]. 中文信息學(xué)報(bào),2000,14(3): 1-8.
[46] 楊爾弘,郝秀蘭,李盛. 基于粗集的漢語(yǔ)詞語(yǔ)義項(xiàng)知識(shí)的獲取[J]. 中文信息學(xué)報(bào),2002,16(3): 27-33.
[47] 柯淑津. 以詞匯知識(shí)驅(qū)動(dòng)的詞網(wǎng)自動(dòng)對(duì)映[J]. 中文信息學(xué)報(bào),2002,16(4): 32-38.
[48] 金澎,吳云芳,俞士汶. 詞義標(biāo)注語(yǔ)料庫(kù)建設(shè)綜述[J]. 中文信息學(xué)報(bào),2008,22(3): 16-23.
[49] 趙軍. 命名實(shí)體識(shí)別,排歧和跨語(yǔ)言關(guān)聯(lián)[J]. 中文信息學(xué)報(bào),2009,23(2): 3-17.
[50] 王石,曹存根. WNCT: 一種WordNet概念自動(dòng)翻譯方法[J]. 中文信息學(xué)報(bào),2009,23(4): 63-70.
[51] 朱虹,劉揚(yáng),俞士汶. 漢語(yǔ)形容詞的自動(dòng)詞義區(qū)分研究[J]. 中文信息學(xué)報(bào),2009,23(6): 19-25.
[52] 喬劍敏,張仰森. 詞義標(biāo)注一致性檢驗(yàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 中文信息學(xué)報(bào),2010,14(4): 44-51.
[53] 周強(qiáng). 規(guī)則和統(tǒng)計(jì)相結(jié)合的漢語(yǔ)詞類標(biāo)注方法[J]. 中文信息學(xué)報(bào),1995,9(3): 1-10.
[54] 馮志偉. 英日機(jī)器翻譯系統(tǒng)E-to-J原語(yǔ)分析中的兼類詞消歧策略[J]. 中文信息學(xué)報(bào),1999,13(5): 14-27.
[55] 錢揖麗,鄭家恒. 漢語(yǔ)語(yǔ)料詞性標(biāo)注自動(dòng)校對(duì)方法的研究[J]. 中文信息學(xué)報(bào),2004,18(2): 30-35.
[56] 蔡京哲,崔榮一. 線性化朝鮮文字的歧義性研究[J]. 中文信息學(xué)報(bào),2008,22(5): 121-128.
[57] 于中華,陳蓉,胡俊鋒,等. 基于加權(quán)投票K-近鄰法的生物醫(yī)學(xué)縮略語(yǔ)消歧[J]. 中文信息學(xué)報(bào),2008,22(2): 18-23.
[58] 萬(wàn)建成. 語(yǔ)音代碼—漢字智能轉(zhuǎn)換研究[J]. 中文信息學(xué)報(bào),1994,6(2): 61-72.
[59] 王曉龍,王幼龍. 語(yǔ)句級(jí)漢字輸入技術(shù)[J]. 中文信息學(xué)報(bào),1996,8(4): 50-59.
[60] 張昱琪,周強(qiáng). 漢語(yǔ)基本短語(yǔ)的自動(dòng)識(shí)別[J]. 中文信息學(xué)報(bào),2002,16(6): 1-8.
[61] 王振華,孔祥龍,陸汝占,等. 結(jié)合決策樹(shù)方法的中文姓名識(shí)別[J]. 中文信息學(xué)報(bào),2004,18(6): 10-15.
[62] 王立霞,孫宏林. 現(xiàn)代漢語(yǔ)介詞短語(yǔ)邊界識(shí)別研究[J]. 中文信息學(xué)報(bào),2005,19(3): 80-86.
[63] 賈玉祥,黃德智,劉武,等. 中文語(yǔ)音合成中的文本正則化研究[J]. 中文信息學(xué)報(bào),2008,22(5): 45-50.
[64] 肖桐,李天寧,陳如山,等. 面向統(tǒng)計(jì)機(jī)器翻譯的重對(duì)齊方法研究[J]. 中文信息學(xué)報(bào),2010,24(1): 110-116.
[65] 俞士汶. 自然語(yǔ)言的歧義與機(jī)器翻譯對(duì)策[J]. 中文信息學(xué)報(bào),1989,3(3): 59-66.
[66] 楊瑩,李應(yīng)潭. 基于意象知識(shí)的消歧體系[J]. 中文信息學(xué)報(bào),1993,7(1): 40-47.
[67] 錢樹(shù)人. 歧義、系統(tǒng)歧義和語(yǔ)境[J]. 中文信息學(xué)報(bào),1993,7(2): 18-26.
[68] 劉穎. 健壯性學(xué)習(xí)算法[J]. 中文信息學(xué)報(bào),2001,15(4): 1-6.
[69] 李濟(jì)洪,高亞慧,王瑞波,等. 漢語(yǔ)框架自動(dòng)識(shí)別中的歧義消解[J]. 中文信息學(xué)報(bào),2011,25(3): 38-44.
[70] 時(shí)迎超,王會(huì)珍,肖桐,等. 面向人名消歧任務(wù)的人名識(shí)別系統(tǒng)[J]. 中文信息學(xué)報(bào),2011,25(3): 17-22.
[71] 切詞規(guī)則[DB/OL]. 香港城市大學(xué)語(yǔ)言資訊科學(xué)研究中心,2005. http://sighan.CS.uchicago.edu/
[72] 張祿彭. 面向自然語(yǔ)言處理的歧義概念[J]. 解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2007(5): 48-53.
[73] 張祿彭. 計(jì)算語(yǔ)言學(xué)視野下的俄語(yǔ)潛在歧義問(wèn)題研究[D]. 解放軍外國(guó)語(yǔ)學(xué)院,2008.