摘要:計(jì)算語言學(xué)是計(jì)算機(jī)對(duì)人類自然語言利用的全新領(lǐng)域,通過相關(guān)研究發(fā)現(xiàn),計(jì)算機(jī)利用英語和機(jī)器翻譯過程中會(huì)出現(xiàn)歧義問題,需要將相關(guān)知識(shí)作為基礎(chǔ),進(jìn)而對(duì)高質(zhì)量的機(jī)器翻譯系統(tǒng)開發(fā)。本文從計(jì)算語言學(xué)及其發(fā)展入手,討論自然語言處理過程中存在的問題,闡述如何解決歧義問題,希望對(duì)相關(guān)研究帶來幫助。
關(guān)鍵詞:自然語言;計(jì)算機(jī);歧義問題
自然語言處理(NLP)是人工智能領(lǐng)域主要的研究方向,在利用計(jì)算機(jī)的過程中會(huì)存在自然語言非規(guī)范性、歧義性等影響,需要專業(yè)知識(shí)與通過一定的推力能力實(shí)現(xiàn)語言理解,這也讓自然語言處理面臨極大的挑戰(zhàn),以下進(jìn)行相關(guān)分析。
一、計(jì)算語言學(xué)及其歷史
計(jì)算機(jī)語言學(xué)是語言學(xué)研究的一個(gè)分支,通過計(jì)算機(jī)和語言學(xué)的結(jié)合可以輔助分析以及處理英語、漢語、日語等本族語言,進(jìn)而對(duì)自然語言處理系統(tǒng)設(shè)計(jì)和加工。在技術(shù)層面看,計(jì)算機(jī)對(duì)自然語言起到了多方面的輔助作用,具體說來:其一是連接了計(jì)算機(jī)軟件和自然語言,當(dāng)前已經(jīng)證實(shí)通過麥克風(fēng)向計(jì)算機(jī)咨詢商業(yè)航班;其二是借助計(jì)算機(jī)檢索和更新資料,比如對(duì)報(bào)刊和相關(guān)文章進(jìn)行瀏覽,之后進(jìn)行索引,進(jìn)而快速的計(jì)算文章中語句、詞匯等出現(xiàn)頻率,也可以分析文章的語法;其三是實(shí)現(xiàn)了機(jī)器翻譯,如今的計(jì)算機(jī)可以將文章從某種語言翻譯成另一種語言。上世紀(jì)50年代世界計(jì)算機(jī)領(lǐng)域的研究人員開始分析計(jì)算機(jī)語言,并且在信息檢索預(yù)計(jì)機(jī)器翻譯領(lǐng)域取得一定的成績(jī),比如50年代末期,美國(guó)、俄羅斯與歐洲的學(xué)者都認(rèn)為隨著科技的發(fā)展短期出現(xiàn)高質(zhì)量的機(jī)械翻譯,然而10年過去依舊未能實(shí)現(xiàn)。美國(guó)科學(xué)院曾發(fā)表了自動(dòng)語言處理顧問委員會(huì)的報(bào)告,認(rèn)為當(dāng)時(shí)的資源尚不能解決機(jī)器翻譯方面的資源問題,需要關(guān)注語言處理中更多基本的問題,只有對(duì)這些問題解決才能建立翻譯機(jī)器,然而機(jī)器翻譯遠(yuǎn)遠(yuǎn)比想象中的困難。隨后世界很多先進(jìn)國(guó)家在該項(xiàng)研究中的實(shí)驗(yàn)室數(shù)量減少,政府也很少提供長(zhǎng)期研究的資金。語言學(xué)家也將研究成果用于其它領(lǐng)域,比如分析語言成分出現(xiàn)頻率,然后在文學(xué)文體研究中得到了利用,之后在信息檢索中利用自動(dòng)化語言分析[1]。
進(jìn)入80年代,對(duì)機(jī)械翻譯的研究熱潮再次響起,該階段的研究方法略不同于50-60年代,人們普遍認(rèn)為主要的研究成就來源于日本,這也側(cè)面指明了語言學(xué)與軟件技術(shù)的發(fā)展聯(lián)系不大,和計(jì)算機(jī)規(guī)模與發(fā)展速度關(guān)系不大,更多的和人們欣賞獨(dú)創(chuàng)性有關(guān),進(jìn)而促進(jìn)機(jī)器翻譯初步成功。該階段蒙特利爾大學(xué)研發(fā)了氣象系統(tǒng),受到了社會(huì)的廣泛關(guān)注,這個(gè)系統(tǒng)為貨運(yùn)公司、航空以及有關(guān)機(jī)構(gòu)提供法語翻譯,部分機(jī)器生產(chǎn)商發(fā)現(xiàn)技術(shù)員使用特定的語言,之后對(duì)模式仔細(xì)規(guī)劃,這樣就可以對(duì)機(jī)構(gòu)內(nèi)部維修說明書自動(dòng)翻譯[2]。
二、NLP過程中存在的問題
(一)計(jì)算機(jī)在使用語言過程中出現(xiàn)的難題
計(jì)算機(jī)具有強(qiáng)大的功能,但是不能對(duì)英語這種簡(jiǎn)單的語言利用,比如對(duì)于美國(guó)、英國(guó)等群眾來說英語是十分簡(jiǎn)單的語言,盡管計(jì)算機(jī)有著強(qiáng)大的性能,但是人們使用語言要比計(jì)算機(jī)更為復(fù)雜,比如為盲人提供閱讀機(jī)器,需要先把書面的符號(hào)轉(zhuǎn)化為語音,這是一項(xiàng)復(fù)雜的工作,即使計(jì)算機(jī)可以對(duì)詞典中每個(gè)詞匯的讀音掌握,在實(shí)施的過程中依舊存在很多的難題,比如說“read”可以讀成“reed”、“red”,這時(shí)機(jī)器不會(huì)分析在哪種情況下才是正確的讀音,機(jī)器并不能懂得在每一種情形下哪個(gè)讀音才是正確的呢?假設(shè)機(jī)器遇到如下句子:The boys will read the book(reed),這時(shí)就可以進(jìn)行程序的編寫,讓read出現(xiàn)在will后面時(shí)讀“reed”,出現(xiàn)在have后時(shí)讀“red”,不過這樣又會(huì)帶來以下問題:①Will the boys read the book? (reed)②Have any men of good will read the book? (red)③Have the executors of the will read the book? (red),在①中,盡管will和read不挨著,但是依舊讀成read;在②和③中,will和read挨著,但是read讀成“red”。如何通過程序的編寫才能讓計(jì)算機(jī)正確讀出,關(guān)鍵如下:其一是計(jì)算機(jī)需要明確在①和②中will、have 是助動(dòng)詞,是對(duì)read的修飾,所以需要分析閱讀這個(gè)詞匯是發(fā)生在過去還是將來,需要告知計(jì)算機(jī)“reed”在助動(dòng)詞will之后讀“reed”,如果在助動(dòng)詞have之后讀“red”即使will、have的位置在語句中不相鄰。Will也是助動(dòng)詞,是對(duì)reed的修飾,所以讀“reed”但是在②和③中Will不是助動(dòng)詞,read修飾have,所以讀“red”,那么機(jī)械如何進(jìn)行識(shí)別,只通過一個(gè)單詞無法區(qū)分,這是由于Will在①和③中用法一樣,需要計(jì)算機(jī)對(duì)文章中語法進(jìn)行分析,之后組成短語,分析詞匯屬于哪一類,究竟是名詞還是動(dòng)詞,所以工作更加簡(jiǎn)單[3]。
初中生都知道如何區(qū)分哪種條件下讀“read”、“reed”或者“red”,但是機(jī)器不確定,需要進(jìn)行細(xì)致的分析。上述問題無傷大雅,但是在計(jì)算機(jī)中的人類語言里,不管是盲人閱讀還是自動(dòng)電話系統(tǒng)都會(huì)出現(xiàn)這一問題。以上例子只是無數(shù)疑難問題的一個(gè)表現(xiàn),這些疑難問題需要學(xué)者進(jìn)行語句分析和開發(fā),以往的30-40年人們對(duì)句法的理解也幫助了了解語言結(jié)構(gòu),幫助人類首次對(duì)人類自然語言通過機(jī)器翻譯出來。但是這種簡(jiǎn)單的語言運(yùn)用也需要計(jì)算機(jī)編入語言程序,人們不論是閱讀、寫作還是聆聽與對(duì)話也需要對(duì)這種問題解決,但是人類就可以輕松解決,甚至在不經(jīng)意間就完成。隨著心理學(xué)和神經(jīng)學(xué)的發(fā)展,人們對(duì)如何理解這些任務(wù)有了更深刻的理解。此外,深入理解語言機(jī)構(gòu)也有利于提升計(jì)算機(jī)的智能性,可以說明的是,對(duì)于語言處理來說,即使計(jì)算機(jī)十分先進(jìn)也不能和人類大腦比擬[4]。
(二)機(jī)器翻譯中的歧義問題
對(duì)于計(jì)算機(jī)的翻譯歧義問題來說,其中包括了諸多的因素,比如詞語有著多重語義,句子中有多種語法,代詞指代不明確,計(jì)算語言專家需要進(jìn)行可以識(shí)別詞性或者語法的系統(tǒng),在機(jī)器翻譯中的歧義問題可以在以下方面說明:“我用望遠(yuǎn)鏡觀察操場(chǎng)上的那個(gè)運(yùn)動(dòng)員”,該句中計(jì)算機(jī)不能確定望遠(yuǎn)鏡是我的還是運(yùn)動(dòng)員的,或者是運(yùn)動(dòng)場(chǎng)的。當(dāng)消防員說“你的汽車旁邊有一堆易燃垃圾,你得把它處理掉”,所以需要處理汽車還是易燃垃圾,人們的理解不同,行動(dòng)也會(huì)不同,這些歧義會(huì)對(duì)口語或者書面語言歪曲。人們對(duì)語言歧義普遍不在意,這是由于人們已經(jīng)有了足夠的知識(shí),可以根據(jù)上下文分析,但是計(jì)算機(jī)卻不能做到這一點(diǎn)[5]。
對(duì)于翻譯問題來說主要存在如下誤解:一方面是翻譯不需要利用語言知識(shí)。另一方面是翻譯的過程中不需要保留原意,這也導(dǎo)致了人們普遍認(rèn)為計(jì)算機(jī)進(jìn)行語言翻譯是簡(jiǎn)單的工作,比如說“警察拒絕給學(xué)生發(fā)放許可證,因?yàn)樗麄兒ε卤┝Α保绻麑⒄Z義放在法語中“(police)警察”這個(gè)詞匯是陰性的,如果用“(advocate)提倡”代替“feared”,好像是指學(xué)生,那么翻譯結(jié)果就會(huì)明顯不同。這個(gè)結(jié)論得到只需要理解學(xué)生、警察等常識(shí)與關(guān)系就可以分析。
比如在法語中,Ou voulez - vous que je me mette?這句話的意識(shí)是“你想把我放在哪里?”如果翻譯為“你想讓我坐在哪里?”、“你想讓我在哪個(gè)位置簽名?”、“讓我把船停在哪里”也無可厚非。一般情況下,很多的語言就像法語,代詞中需要區(qū)分?jǐn)?shù)量,漢語中的名詞不需要區(qū)分復(fù)數(shù),再如日語中可以將代詞省略,而俄語中部存在冠詞,德語的語序更加多樣,難以區(qū)分其中的主語,所以翻譯是一項(xiàng)復(fù)雜的工作,計(jì)算機(jī)進(jìn)行語言的翻譯難度更大[6]。
三、如何解決歧義問題
從邏輯關(guān)系來看,自然語言是機(jī)器智能化的基礎(chǔ),而自然語言理解的主要障礙就是消除歧義,這一過程中需要開展諸多工作。要想解決歧義問題并找出其中的答案,需要以知識(shí)為基礎(chǔ)、以統(tǒng)計(jì)為基礎(chǔ),從這兩個(gè)方面入手并將知識(shí)作為解決方法,需要系統(tǒng)開發(fā)人員對(duì)知識(shí)進(jìn)行編碼,通過程序代指內(nèi)容,比如消防員警告的語句中,需要掌握汽車與廢物之間的價(jià)值關(guān)系,廢物和丟掉兩個(gè)詞匯的聯(lián)系,之后對(duì)以上內(nèi)容編碼,該方法更加接近人類對(duì)語言的處理方式,所以更容易取得成功。不足之處在于編碼是一項(xiàng)龐大的工程,并且利用已有的知識(shí)進(jìn)行編程效率很低。以統(tǒng)計(jì)學(xué)為基礎(chǔ)的方法中,需要對(duì)大量的語言庫和注解資料搜集,之后逐漸消除歧義帶來的不利影響,也可就是計(jì)算歧義后得到想要的結(jié)果。比如人們收到三個(gè)一組的詞語、介詞、名詞組合,在語料庫中會(huì)發(fā)現(xiàn)相比man、with的組合更為常見,這種組合的優(yōu)勢(shì)在于利用語料庫可以自動(dòng)的完成預(yù)定任務(wù),不足之處是對(duì)這種帶有注解的語料庫制作需要很大成本,需要具備對(duì)上文的洞察力,并且在分析的過程中可能出現(xiàn)錯(cuò)誤[7]。
(一)關(guān)系映射歧義消解算法
在網(wǎng)絡(luò)技術(shù)不斷發(fā)展的背景下,網(wǎng)絡(luò)中的信息海量增加,對(duì)于自然語言中的歧義問題,長(zhǎng)期利用關(guān)鍵詞:模式匹配的搜索引擎技術(shù),不過在信息的不斷增加下這種技術(shù)缺陷開始暴露出來,比如信息組織混亂問題,導(dǎo)致查詢的代價(jià)過大,再如關(guān)鍵詞:匹配不能理解用戶問題,無法準(zhǔn)確的體現(xiàn)檢索需要。所以近年來對(duì)于非結(jié)構(gòu)化及半結(jié)構(gòu)化信息出現(xiàn)了大量結(jié)構(gòu)化數(shù)據(jù)集,YAGO就是一種的代表性數(shù)據(jù)集,其在Wikipedia中抽取了海量數(shù)據(jù),之后結(jié)合WordNet構(gòu)建的本體,如今在YAGO本體中的國(guó)家、城市、地名、機(jī)構(gòu)、人物等實(shí)體超過107個(gè),使用RDF三元組的形式表示全部知識(shí),其中主要包括兩種方法,其一是實(shí)體映射歧義消解,其二是關(guān)系映射歧義消解。有研究發(fā)現(xiàn),該算法從自然語言向SPARQL語言映射過程中的正確率高達(dá)到81.3%,說明了該算法靠性較高[8]。
(二)基于語料庫的方法
這種方法就是研究人員大量標(biāo)注語料的基礎(chǔ)上考察已經(jīng)標(biāo)注的意向文本,然后得到和將要考察詞義項(xiàng)相關(guān)的參數(shù)和數(shù)據(jù),之后通過得到的數(shù)據(jù)和參數(shù)標(biāo)注目標(biāo)詞義項(xiàng),比如說漢語當(dāng)中的“單數(shù)”,該詞匯有不同的義項(xiàng),一方面是指1、3、5、7等正奇數(shù),另一方面是指語言當(dāng)中的單一數(shù)量,所以在開始階段需要搜集包括單數(shù)的句子,然后標(biāo)注詞性,在上下文中進(jìn)行參數(shù)提取,考察過程中需要列舉包括單數(shù)的新句子,然后通過新句子上下文以及已經(jīng)標(biāo)注詞性的句子上下文進(jìn)行分析,不過這種基于語料庫的方法進(jìn)行參數(shù)提取期間需要對(duì)較多語料人工標(biāo)注,并且參數(shù)也需要大量計(jì)算,此外標(biāo)注人員自身的語言水平也會(huì)對(duì)消除歧義的準(zhǔn)確率受到影響[9]。
(三)基于詞典釋義的排歧方法
這種方法就是借助詞典條目的解釋,以此分析多義詞釋義和語境之間的交集,也就是通過詞典釋義分析詞匯的相關(guān)程度,比如在漢語詞匯中X是個(gè)多義項(xiàng),在詞典中X的每個(gè)義項(xiàng)都對(duì)應(yīng)了不同的釋義,X在某個(gè)具體語境當(dāng)中出現(xiàn)時(shí)利用上下文出現(xiàn)的詞匯可以判斷其特征詞,并且每個(gè)特征詞在詞典中的釋義有所不同。在分析X在具體語境當(dāng)中的義項(xiàng)時(shí)也需要計(jì)算交集,這種排除歧義的方法依賴詞典,而詞典需要對(duì)詞語釋義精煉概括,導(dǎo)致在復(fù)雜的自然語言環(huán)境下不能充分應(yīng)對(duì)。
(四)基于詞類分析進(jìn)行排歧的方法
詞義在當(dāng)代漢語當(dāng)中需要應(yīng)對(duì)不同詞類,所以需要分析多義詞的詞類,這樣就能解決詞類的歧義問題,比如干凈的“凈”,用于形容詞表示為潔凈、沒有剩余,用于動(dòng)詞代表洗刷干凈,用于副詞代表單純,用于名詞代表戲曲中的角色。比如“地上凈是水”這一句當(dāng)中用于副詞,這種排除歧義的方法由于詞匯自身義項(xiàng)較多,所以判斷難度較大。整體來看,在漢語當(dāng)中詞性和句法的成分也未能形成相對(duì)應(yīng)關(guān)系,導(dǎo)致難以解決詞性分析的問題[10]。
四、機(jī)器翻譯系統(tǒng)的構(gòu)成
盡管多數(shù)的機(jī)器翻譯系統(tǒng)都存在差異不過在已經(jīng)投入系統(tǒng)的部分都可以作為教科書中的章節(jié)名稱,并且在系統(tǒng)中都對(duì)語法、句法、語義、形態(tài)的組成成分進(jìn)行了設(shè)定。源語和目的語這兩種語言都可以找到某個(gè)特定的部分,進(jìn)而對(duì)語句中的基本詞匯、復(fù)雜詞匯、句子、語義進(jìn)行分析,在翻譯的過程中單獨(dú)成分載入另外成分中,然后到詞語鏈的最后成分中,由此對(duì)目的語的某個(gè)句子或者體現(xiàn)成分概括。載入轉(zhuǎn)換成分,這是專門為兩種語言而設(shè)計(jì),首先可以對(duì)源語的體現(xiàn)形式概括,之后轉(zhuǎn)化成目的語,在轉(zhuǎn)換的過程中翻譯系統(tǒng)利用語言關(guān)系或者中間語把轉(zhuǎn)換的部分分成兩個(gè)階段,其中第一個(gè)階段將源語言翻譯成中間語,之后將得到的結(jié)果概括成為目的語。
五、自動(dòng)分詞深度學(xué)習(xí)模型
(一)Bi-LSTM模型
在深度學(xué)習(xí)系列模型當(dāng)中,循環(huán)神經(jīng)網(wǎng)絡(luò)是一種用于序列標(biāo)記的人工神經(jīng)網(wǎng)絡(luò),這種模型適合用于詞性標(biāo)注、自動(dòng)分詞、實(shí)體識(shí)別等自然語言處理的任務(wù)中。從模型理論上講,循環(huán)神經(jīng)網(wǎng)絡(luò)可以對(duì)不同自動(dòng)分詞特征依賴關(guān)系屬性加以學(xué)習(xí),不過在自動(dòng)分詞模型訓(xùn)練期間,隨著時(shí)間順序推移循環(huán)神經(jīng)網(wǎng)絡(luò)自動(dòng)分詞的深度也在加強(qiáng),一旦循環(huán)神經(jīng)網(wǎng)絡(luò)自動(dòng)分詞層數(shù)達(dá)到臨界值容易造成梯度下降。LSTM可以解決這種問題,在漢語自動(dòng)分詞當(dāng)中LSTM結(jié)合了記憶單元,并且引入門控制器,對(duì)自動(dòng)分詞模型訓(xùn)練當(dāng)中的歷史信息保留或者舍棄。通常來講,單個(gè)LSTM神經(jīng)網(wǎng)絡(luò)神經(jīng)元涵蓋了單個(gè)記憶單元,在自動(dòng)分詞當(dāng)中對(duì)應(yīng)了信息輸入門、分詞相應(yīng)信息輸入門以及分詞相應(yīng)信息遺忘門,分別對(duì)分詞信息、輸入輸出進(jìn)行控制。
(二)Bi-LSTM-CRF模型
在構(gòu)建漢語自動(dòng)分詞模型過程中,盡管通過LSTM模型能夠達(dá)到良好的分詞順序效果,不過中文自動(dòng)分詞這種輸出標(biāo)簽之間對(duì)于順序標(biāo)記問題較為依賴,并且softmax激活函數(shù)只能分析當(dāng)前漢語字分布狀態(tài)特點(diǎn),無法關(guān)聯(lián)漢語字前后特點(diǎn)。所以LSTM模型當(dāng)中的漢語自動(dòng)分詞模型性能受到一定影響,為解決這一問題,CRF模型應(yīng)運(yùn)而生,可以將LSTM模型當(dāng)中的soft max層去掉,之后實(shí)現(xiàn)LSTM模型融合CRF模型這種組合,保留了LSTM考慮漢語字上下文信息特性并且借助CRF層對(duì)整個(gè)漢語自動(dòng)分詞觀察順序狀態(tài)標(biāo)記當(dāng)中的聯(lián)合條件概率分布進(jìn)行了計(jì)算。
六、結(jié)論
綜上所述,在心理學(xué)、語言學(xué)和計(jì)算機(jī)等領(lǐng)域中的發(fā)現(xiàn)為機(jī)器翻譯提供了巨大的便利,而隨著人工智能技術(shù)的發(fā)展,也為自然語言的翻譯提供了更多便利,如今語言專家對(duì)相關(guān)的研究也更加深入,其中心理學(xué)專家認(rèn)為假設(shè)人腦是生物計(jì)算機(jī),可以對(duì)大腦理解的以及產(chǎn)生的語言原理掌握,并且可以作為計(jì)算機(jī)工作模式,之后進(jìn)行機(jī)器翻譯系統(tǒng)的研究,不過能否實(shí)現(xiàn)翻譯質(zhì)量的提升依舊是今后研究的重點(diǎn)。
參考文獻(xiàn):
[1]楊凡,任丹.基于知識(shí)圖譜的自然語言中歧義字段切分系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2020,43(1):44-47,52.
[2]陳倩,樂紅兵.基于改進(jìn)Trie樹的歧義消解方法[J].計(jì)算機(jī)與數(shù)字工程,2020,48(9):2238-2243.
[3]姚建華,李佳,徐雯麗.第五講化學(xué)結(jié)構(gòu)的歧義性及其計(jì)算機(jī)表達(dá)方法[J].上海化工,2019,44(8):8-10.
[4]徐兵,石少青,陳超.基于自然語言的中文地址匹配研究[J].電子設(shè)計(jì)工程,2020,28(16):7-10,16.
[5]宋一凡.自然語言處理的發(fā)展歷史與現(xiàn)狀[J].中國(guó)高新科技,2019,22(3):64-66.
[6]侯圣巒,費(fèi)超群,張書涵.面向中文的修辭結(jié)構(gòu)關(guān)系分類體系及無歧義標(biāo)注方法[J].中文信息學(xué)報(bào),2019,33(7):20-30.
[7]陸正揚(yáng).基于計(jì)算機(jī)自然語言處理的機(jī)器翻譯技術(shù)應(yīng)用與簡(jiǎn)介[J].科技傳播,2019,11(22):140-141.
[8]郭蕾.基于自然語言處理的英語翻譯計(jì)算機(jī)智能評(píng)分系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2019,42(4):158-160,165.
[9]Meesad P .Thai Fake News Detection Based on Information Retrieval,Natural Language Processing and Machine Learning[J].SN Computer Science,2021,2(6):1-17.
[10]Bi S .Research on English Translation of Computer-aided Classics Based on Natural Language Processing[J].Journal of Physics Conference Series,2020,1550:032036.
作者簡(jiǎn)介:吳鐘健,(1981-)男,本科,華云天下(南京)科技有限公司。