• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      語言學(xué)與語言智能

      2022-11-24 09:07:43胡開寶尚文博
      關(guān)鍵詞:語言學(xué)語音文本

      胡開寶 尚文博

      引 言

      語言智能是指語言信息的智能化,運(yùn)用計(jì)算機(jī)信息技術(shù)模仿人類語言的智能,分析和處理人類語言的科學(xué)。(1)周建設(shè)、呂學(xué)強(qiáng) 、金生、張凱:《語言智能研究漸成熱點(diǎn)》,《中國(guó)社會(huì)科學(xué)報(bào)》 2017 年2 月7 日,第3 版。語言智能的發(fā)展經(jīng)歷了由基于規(guī)則的發(fā)展階段向基于實(shí)例和統(tǒng)計(jì)的發(fā)展階段的轉(zhuǎn)變。在基于規(guī)則的語言智能發(fā)展階段,語言學(xué)知識(shí)和理論發(fā)揮著十分重要的作用。然而近年來,語言智能的發(fā)展愈來愈依賴于語言數(shù)據(jù),語言學(xué)對(duì)于語言智能的重要性似乎逐漸下降,以至于一些學(xué)者認(rèn)為語言學(xué)研究對(duì)于語言智能發(fā)展的意義并不大?,F(xiàn)代語音識(shí)別和自然語言處理研究的先驅(qū)Frederick Jelinelik 在1988 年指出,“每當(dāng)解雇一個(gè)語言學(xué)家時(shí),語音識(shí)別器的性能就會(huì)改善”。(2)J. Hirschberg, “‘Every Time I Fire a Linguist, My Performance Goes up’, and Other Myths of the Statistical Natural Language Processing Revolution”, Invited speech, 15th National Conference on Artificial Intelligence, Madison, Wisconsin.然而,語言學(xué)對(duì)于語言智能的發(fā)展具有多大價(jià)值?是否真的如同許多計(jì)算機(jī)專家所認(rèn)為的那樣一文不值?語言學(xué)與語言智能之間的關(guān)系如何?這些問題顯然需要我們予以回答。鑒于此,本文在分析語言智能內(nèi)涵和發(fā)展歷程的基礎(chǔ)之上,從語言智能的歷史、現(xiàn)狀和未來趨勢(shì)等角度,探討語言學(xué)理論對(duì)于語言智能發(fā)展的價(jià)值,并分析語言智能對(duì)于語言學(xué)理論研究的意義。

      一 語言智能的內(nèi)涵與發(fā)展歷程

      (一)語言智能的內(nèi)涵

      語言智能旨在運(yùn)用計(jì)算機(jī)技術(shù)和信息技術(shù),讓機(jī)器理解、處理和分析人類語言,實(shí)現(xiàn)人機(jī)語言交互,(3)胡開寶、田緒軍:《語言智能背景下的MTI 人才培養(yǎng):挑戰(zhàn)、對(duì)策與前景》,《外語界》 2020 年第2 期,第59—64 頁。使得機(jī)器在一定程度上擁有理解、應(yīng)用和分析人類語言的能力。

      一般而言,語言智能技術(shù)包括文本數(shù)據(jù)挖掘、語音處理、智能寫作、智能批改、智能問答和機(jī)器翻譯等。文本數(shù)據(jù)挖掘是指利用計(jì)算機(jī)技術(shù)從文本數(shù)據(jù)中抽取有價(jià)值的信息進(jìn)而發(fā)現(xiàn)文本知識(shí)的技術(shù),涵蓋文本摘要、文本分類、文本聚類以及可視化等技術(shù)。語音處理包括語音識(shí)別和語音合成,前者是指利用計(jì)算機(jī)技術(shù)將語音自動(dòng)轉(zhuǎn)換為書面文字,后者指將文本轉(zhuǎn)換成自然流暢的語音輸出。智能寫作是指計(jì)算機(jī)自動(dòng)生成自然語言的技術(shù)。智能批改則指計(jì)算機(jī)自動(dòng)給出學(xué)生作業(yè)或作文評(píng)分和反饋的技術(shù)。智能問答系統(tǒng)可以自動(dòng)分析用戶提問和辨識(shí)用戶意圖,并提供答案。機(jī)器翻譯是指利用計(jì)算機(jī)把一種語言文字翻譯成另外一種語言文字。

      (二)語言智能的發(fā)展歷程

      語言智能的發(fā)展到目前為止已有70 余年的歷程,經(jīng)歷了理性主義主導(dǎo)的自然語言處理初期階段、經(jīng)驗(yàn)主義主導(dǎo)的人機(jī)對(duì)話和機(jī)器翻譯階段以及機(jī)器學(xué)習(xí)階段等三大發(fā)展階段。

      第一階段始于20 世紀(jì)50 年代,直至80 年代。該階段以理性主義為主導(dǎo)思想,強(qiáng)調(diào)將語言知識(shí)或語言規(guī)則輸入計(jì)算機(jī),開展基于規(guī)則的機(jī)器翻譯和自然語言處理相關(guān)領(lǐng)域的研究。1954 年,首次俄英機(jī)器翻譯實(shí)驗(yàn)在美國(guó)喬治敦大學(xué)開展。20 世紀(jì)70 年代,人們采用程序推演的方法研制語義、語用和語境分析系統(tǒng),實(shí)現(xiàn)了初級(jí)的人機(jī)互動(dòng)。

      第二階段為1980—2000 年。在該階段,機(jī)器學(xué)習(xí)理論、算法、語料庫和知識(shí)庫等先后應(yīng)用于自然語言處理、機(jī)器翻譯和人機(jī)對(duì)話等領(lǐng)域,語言智能的研究因而取得快速發(fā)展。1993 年,麻省理工學(xué)院成功研制出世界上第一個(gè)基于網(wǎng)頁的問答系統(tǒng)START。1998 年,IBM 公司推出語音識(shí)別軟件

      ViaVoice。

      第三階段始于2001 年,即“機(jī)器學(xué)習(xí)”階段。在該階段,大數(shù)據(jù)和深度機(jī)器學(xué)習(xí)日益廣泛地應(yīng)用于語言智能,機(jī)器學(xué)習(xí)實(shí)現(xiàn)了由統(tǒng)計(jì)學(xué)習(xí)向集成學(xué)習(xí)和深度學(xué)習(xí)的轉(zhuǎn)變。各種各樣的算法先后問世并快速迭代升級(jí),機(jī)器翻譯則進(jìn)入神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯階段。

      二 語言學(xué)對(duì)語言智能發(fā)展的意義

      前文述及,語言智能旨在使計(jì)算機(jī)具有某種語言智能,即理解、分析和運(yùn)用人類語言的能力。要實(shí)現(xiàn)這一目標(biāo),必須依據(jù)關(guān)于特定語言智能假設(shè)編制的計(jì)算機(jī)程序。為此,我們需要理解自然語言系統(tǒng)和結(jié)構(gòu)的特征,把握自然語言詞匯、語法和語義之間的關(guān)系,并通過形式化表達(dá)手段將語言學(xué)知識(shí)和規(guī)則輸入給計(jì)算機(jī),讓計(jì)算機(jī)歸納這些知識(shí)和規(guī)則,并生成統(tǒng)計(jì)模型。從這個(gè)意義上講,語言學(xué)對(duì)于語言智能的發(fā)展具有十分重要的理論支撐作用。盡管當(dāng)代語言智能的發(fā)展進(jìn)入機(jī)器學(xué)習(xí)階段,愈來愈依賴語言數(shù)據(jù),對(duì)句法和語義等語言學(xué)知識(shí)的應(yīng)用愈來愈少,然而這并不意味著語言學(xué)知識(shí)對(duì)于語言智能的研究與發(fā)展沒有多大價(jià)值。相反,大數(shù)據(jù)驅(qū)動(dòng)的語言智能的發(fā)展目前已接近天花板,面臨這樣或那樣的問題,恰恰是因?yàn)闆]有對(duì)語言學(xué)知識(shí)的應(yīng)用予以足夠重視。眾所周知,作為語言智能發(fā)展的物質(zhì)基礎(chǔ),語言數(shù)據(jù)質(zhì)量的高低直接影響到語言智能發(fā)展水平的高低。然而,現(xiàn)有語言數(shù)據(jù)往往未能充分依據(jù)有關(guān)語言學(xué)理論進(jìn)行詞性標(biāo)注和句法分析處理,語言數(shù)據(jù)質(zhì)量不高,直接制約了語言智能的發(fā)展。此外,語言智能目前仍然不能理解人類話語所表達(dá)的復(fù)雜含義,也不能用語言表達(dá)出復(fù)雜的話語含義。而要突破這一瓶頸,必須理解人類語言的機(jī)制,這需要心理語言學(xué)和神經(jīng)認(rèn)知語言學(xué)的理論支持。事實(shí)上,無論是過去還是將來,語言智能的發(fā)展離不開語言學(xué)的支撐,人工智能算法并不能代替語言學(xué)理論。近年來,由于過分強(qiáng)調(diào)計(jì)算算法和語言數(shù)據(jù),忽略了對(duì)語言學(xué)理論的借鑒與應(yīng)用,人工智能在自然語言處理尤其是語義分析上始終不盡如人意。為此,語言智能的未來發(fā)展應(yīng)當(dāng)走語言數(shù)據(jù)和語言學(xué)知識(shí)并重的雙軌發(fā)展道路。

      (一)語言學(xué)與自然語言的理解和生成

      自然語言的理解和生成是語言智能技術(shù)發(fā)展的重要基礎(chǔ),涵蓋自然語言理解和自然語言生成。前者是指使機(jī)器理解語言和文本等,提取有用信息,具體表現(xiàn)為使自然語言結(jié)構(gòu)化,如分詞、詞性標(biāo)注和句法分析等,構(gòu)建文本表示的文本分類,提取信息。后者是指使計(jì)算機(jī)提供結(jié)構(gòu)化的數(shù)據(jù),如文本圖標(biāo)、音頻和視頻等,生成人類可以理解的自然語言形式的文本,具體劃分為文本到文本、文本到其他和其他到文本等三種形式。

      自然語言理解和生成是語言智能的重要物質(zhì)基礎(chǔ)。能否實(shí)現(xiàn)自然語言理解和生成,直接關(guān)系到語言智能發(fā)展的成敗和水平。然而,要讓計(jì)算機(jī)能夠理解和生成自然語言,需要對(duì)語言數(shù)據(jù)進(jìn)行分詞、詞性標(biāo)注和句法分析,并對(duì)大量高質(zhì)量標(biāo)注語料進(jìn)行訓(xùn)練,以構(gòu)建分詞模型和句法模型。詞性標(biāo)注涉及詞性歧義消解和未知詞的詞性識(shí)別。句法分析包括依存句法分析、短語結(jié)構(gòu)句法分析、深層文法句法分析和基于深度學(xué)習(xí)的句法分析。應(yīng)當(dāng)指出,無論是分詞、詞性標(biāo)注和句法分析,還是對(duì)語料進(jìn)行標(biāo)注和訓(xùn)練,均需要以語言學(xué)理論或語言學(xué)規(guī)則為依據(jù)。盡管憑借機(jī)器學(xué)習(xí),我們可以實(shí)現(xiàn)語言的理解和生成,但憑借大量語料的訓(xùn)練,機(jī)器學(xué)習(xí)所學(xué)到的只是大概率下最可能的說法,生成的文字往往呆板有余,靈性不足,缺乏情感的表現(xiàn)。鑒于此,我們應(yīng)將語言學(xué)理論應(yīng)用于語言智能研究之中。只有如此,才能解決自然語言理解和生成存在的以上問題。以人機(jī)對(duì)話為例,語用學(xué)和社會(huì)語言學(xué)理論的應(yīng)用,可以使機(jī)器能夠理解“寒暄”“安撫”和“幽默”等言語行為。我們還可以在深度學(xué)習(xí)中融入語言學(xué)尤其是心理語言學(xué)和認(rèn)知語言學(xué)的研究成果,使機(jī)器能夠在語義理解的基礎(chǔ)之上,識(shí)別文本的意圖和情感,從而讓機(jī)器讀懂人類語言,實(shí)現(xiàn)人機(jī)之間的交往和互動(dòng)。

      目前,語言智能發(fā)展面臨語義理解的瓶頸。無論語言數(shù)據(jù)規(guī)模有多大,機(jī)器翻譯系統(tǒng)迄今為止尚不能對(duì)具體語境進(jìn)行分析,將多義詞譯成合適的目的語對(duì)應(yīng)詞。以“pen”的翻譯為例,無論是谷歌的機(jī)器翻譯還是微軟的機(jī)器翻譯,都不能根據(jù)具體語境將其譯成合適的漢語對(duì)應(yīng)詞,即“鋼筆”或“圍欄”。為解決這些問題,就必須對(duì)人類語言進(jìn)行語義角色標(biāo)注,以期讓機(jī)器理解人類自然語言的語義。正確理解和標(biāo)注人類語言的語義角色不僅是實(shí)現(xiàn)機(jī)器問答以及信息理解和抽取所不可缺少的重要步驟,而且也為自然語言生成提供約束規(guī)則。然而,語義角色的標(biāo)注需要計(jì)算語義學(xué)、詞匯語義學(xué)和計(jì)算詞匯語義學(xué)等語言學(xué)理論的支撐,尤其需要語義知識(shí)庫的支撐。要真正解決語言智能發(fā)展所面臨的語義理解問題,最終還是要借助于傳統(tǒng)語言學(xué)理論研究的成果,單純依靠統(tǒng)計(jì)方法和大數(shù)據(jù)驅(qū)動(dòng)無法取得實(shí)質(zhì)性突破。事實(shí)上,語言智能要獲得突破,最終還是要靠知識(shí)驅(qū)動(dòng)。孫茂松指出大數(shù)據(jù)與富知識(shí)雙輪驅(qū)動(dòng)或成為解決語言智能發(fā)展瓶頸的關(guān)鍵,即在大數(shù)據(jù)驅(qū)動(dòng)的基礎(chǔ)上加入富知識(shí)驅(qū)動(dòng),(4)轉(zhuǎn)引自孫茂松2019 年10 月18 日在北京智源智能研究院舉辦的“自然語言處理重大研究方向暨北京智源—京東跨媒體對(duì)話智能聯(lián)合實(shí)驗(yàn)室發(fā)布會(huì)”上所做的題為“大數(shù)據(jù)和富知識(shí)驅(qū)動(dòng)的自然語言處理”的主題發(fā)言。而這些知識(shí)主要源自語言學(xué)理論。

      (二)語言學(xué)與語音處理

      語音處理主要包括語音識(shí)別和語音合成。語音識(shí)別系統(tǒng)主要涵蓋4 個(gè)部分,即特征提取、聲學(xué)模型、語言模型和解碼搜索。其中,特征提取和語言模型均涉及對(duì)相關(guān)語言數(shù)據(jù)所做的語言學(xué)分析,尤其是語音學(xué)分析。語音合成系統(tǒng)包括文本分析模塊、韻律處理模塊和聲學(xué)處理模塊。作為語音合成系統(tǒng)的前端,文本分析是指對(duì)輸入的文本進(jìn)行分析,提取包括讀音和節(jié)奏在內(nèi)的語言學(xué)信息和語音學(xué)信息。這些信息的分析和提取直接關(guān)系到語音合成系統(tǒng)能否成功研制。韻律處理強(qiáng)調(diào)在文本分析的基礎(chǔ)上,分析具體語流中的抑揚(yáng)頓挫和輕重緩急,包括重音的位置分布及其等級(jí)差異、語調(diào)與聲調(diào)、節(jié)奏和重音的關(guān)系等。聲學(xué)處理模塊側(cè)重于根據(jù)文本分析模塊和韻律處理模塊等提供的信息來生成自然語音波形。有必要指出,文本分析旨在對(duì)輸入的文本進(jìn)行分析,以提取盡可能多的語言學(xué)和語音學(xué)信息,如韻律和節(jié)奏等,而韻律處理涉及語音學(xué)、聲學(xué)、心理學(xué)和物理學(xué)。具體而言,語音合成系統(tǒng)需要建構(gòu)包括自動(dòng)分詞器、自動(dòng)標(biāo)音器和韻律預(yù)測(cè)器在內(nèi)的三個(gè)計(jì)算模型,而這些模型的建構(gòu)一方面需要直接依據(jù)語言學(xué)理論,對(duì)輸入文本的語音學(xué)特征進(jìn)行分析,另一方面需要利用語言學(xué)相關(guān)知識(shí),通過語法詞典、注音詞典、分詞和多音字轉(zhuǎn)換韻律分析等建構(gòu)以上模型,采用與規(guī)則庫相結(jié)合的數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)模型。最后,語音合成還需要利用語言學(xué)信息標(biāo)注處理過的文本數(shù)據(jù)庫和言語數(shù)據(jù)庫,進(jìn)行上述模型的參數(shù)訓(xùn)練,并利用這些模型完成由輸入文本到發(fā)音描述符號(hào)的轉(zhuǎn)換計(jì)算。顯見,作為語音合成的重要步驟,文本分析和韻律處理均離不開語言學(xué)理論的指導(dǎo)。

      必須指出,在語言智能發(fā)展的初期,學(xué)界關(guān)于語音識(shí)別的研究未曾對(duì)韻律這一重要的口語區(qū)別性特征進(jìn)行系統(tǒng)深入的探討,語音識(shí)別效果不太理想,生成的語音沒有語調(diào)的升降,沒有語氣的強(qiáng)弱,不能識(shí)別和表現(xiàn)人類話語的情感。要解決這些問題,唯有加強(qiáng)語音學(xué)尤其是韻律和情感的分析,將語調(diào)、語氣和韻律這些區(qū)別性特征信息充分應(yīng)用于語音識(shí)別和語音合成系統(tǒng)的研發(fā),才能讓語音識(shí)別和語音合成的質(zhì)量更上一個(gè)臺(tái)階。

      (三)語言學(xué)與機(jī)器翻譯

      機(jī)器翻譯始自20 世紀(jì)30 年代,當(dāng)時(shí)法國(guó)人George Artsouni 和俄國(guó)人PetrSmirnov-Troyanskii以機(jī)器翻譯為主要內(nèi)容申請(qǐng)了專利。自那時(shí)以來,機(jī)器翻譯已走過了90 余年的發(fā)展歷程,歷經(jīng)了四大發(fā)展階段,即基于規(guī)則的機(jī)器翻譯、基于實(shí)例的機(jī)器翻譯、基于統(tǒng)計(jì)的機(jī)器翻譯和神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯。

      基于規(guī)則的機(jī)器翻譯通常依據(jù)輸入計(jì)算機(jī)的源語分析規(guī)則、源語和目的語之間的轉(zhuǎn)換規(guī)則以及目的語生成規(guī)則,將源語語言的句子轉(zhuǎn)換為目的語句子。基于實(shí)例的機(jī)器翻譯從已有的源語句庫中挑出與待譯語句相似的語句,在對(duì)這些語句進(jìn)行調(diào)整、修改的基礎(chǔ)之上,得出與之對(duì)應(yīng)的目的語語句,并根據(jù)類比原則確定待譯語句的譯文。(5)胡開寶、李翼:《機(jī)器翻譯特征及其與人工翻譯關(guān)系的研究》,《中國(guó)翻譯》 2016 年第5 期,第10—14 頁。基于統(tǒng)計(jì)的機(jī)器翻譯主要依據(jù)基于大規(guī)模平行語料分析所歸納的翻譯規(guī)則對(duì)輸入語句進(jìn)行匹配,得到該語句的翻譯候選,并憑借語言模型和翻譯模型的應(yīng)用對(duì)這些翻譯候選進(jìn)行排序,挑選打分最高的翻譯候選作為譯文。神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯利用深度學(xué)習(xí)技術(shù),通過計(jì)算機(jī)模擬人類大腦神經(jīng)系統(tǒng)功能設(shè)計(jì)出網(wǎng)絡(luò)神經(jīng)模型,通過端到端的神經(jīng)網(wǎng)絡(luò)直接實(shí)現(xiàn)不同語言之間的轉(zhuǎn)換。具體而言,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯通過編碼器將源語言文本進(jìn)行編碼,然后再把源語言句子反向解碼得到目標(biāo)語句子,即通過編碼器將源語言文本變換表征為一個(gè)稠密向量,之后通過編碼器把稠密向量解碼成譯文。

      總體而言,機(jī)器翻譯的發(fā)展歷程可大致劃分為理性主義階段和經(jīng)驗(yàn)主義階段。在理性主義階段,機(jī)器翻譯強(qiáng)調(diào)對(duì)源語、目的語以及源語和目的語之間轉(zhuǎn)換的相關(guān)規(guī)則進(jìn)行描寫,并依據(jù)這些規(guī)則進(jìn)行源語和目的語之間的轉(zhuǎn)換。其中,語言學(xué)知識(shí)發(fā)揮著十分重要的理論支撐作用,因?yàn)檫@些規(guī)則的描寫和制定均需要以語言學(xué)理論為依據(jù)。在經(jīng)驗(yàn)主義階段,基于統(tǒng)計(jì)的機(jī)器翻譯尤其是神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的翻譯質(zhì)量要優(yōu)于基于規(guī)則的機(jī)器翻譯。對(duì)于這些機(jī)器翻譯而言,語言數(shù)據(jù)愈來愈重要,而語言學(xué)理論似乎越來越無足輕重。甚至有聲音認(rèn)為,語言學(xué)知識(shí)不僅對(duì)機(jī)器翻譯沒有什么用處,甚至還會(huì)有反作用。Mireia Farrus 等人指出:“從理論上講,使用統(tǒng)計(jì)機(jī)器翻譯,不需要語言學(xué)知識(shí)?!?6)Mireia Farrus, Marta R. Costa-jussa`, Jose′ B. Marin?o, Marc Poch, Adolfo Herna′ndez, Carlos Henr?′quez & Jose′ A. R. Fonollosa, “Overcoming Statistical Machine Translation Limitations: Error Analysis and Proposed Solutions for the Catalan-Spanish Language Pair”,Language Resources and Evaluation, vol.45, no.2, 2011, pp.181-208.在許多學(xué)者看來,如果有充足的語言數(shù)據(jù),便可利用機(jī)器學(xué)習(xí)方法開展機(jī)器翻譯,不需要語言學(xué)知識(shí),也不需要懂源語言或目標(biāo)語言。

      然而,事實(shí)并非如此。對(duì)于不同種類的機(jī)器翻譯而言,語言學(xué)理論和知識(shí)不論是在過去、現(xiàn)在還是將來都發(fā)揮著或?qū)?huì)發(fā)揮重要作用。

      一方面,機(jī)器翻譯系統(tǒng)通常由數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、譯前編輯、雙語轉(zhuǎn)換、譯后編輯和性能評(píng)測(cè)等步驟組成。其中,機(jī)器翻譯的性能評(píng)測(cè)需要依據(jù)有關(guān)翻譯理論和語言學(xué)理論,在對(duì)雙語轉(zhuǎn)換關(guān)系、目的語語言文化規(guī)范以及翻譯文本語言特征進(jìn)行分析的基礎(chǔ)之上,評(píng)價(jià)機(jī)器翻譯的質(zhì)量。譯前編輯包括詞語的消歧、短語的切分、長(zhǎng)句的切分與斷句等。譯后編輯主要是指從選詞、語法、語義完整性和邏輯性方面進(jìn)行編輯、潤(rùn)色。對(duì)譯文進(jìn)行潤(rùn)色,不僅要檢查和改正過譯、漏譯、錯(cuò)譯和術(shù)語翻譯錯(cuò)誤的現(xiàn)象,增加連接詞和短語,使譯文自然流暢,而且還需要補(bǔ)足理解譯文所需的情景知識(shí)和文化背景。毋庸諱言,無論是原文的消歧和詞句的切分,還是譯文的潤(rùn)色以及情境知識(shí)的補(bǔ)充,均需要語義學(xué)、句法學(xué)和文體學(xué)等語言學(xué)知識(shí)的理論支撐。此外,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯并不像許多學(xué)者所宣稱的那樣與語言學(xué)無關(guān)。恰恰相反,在神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)中,基于語料庫的詞向量訓(xùn)練過程涉及詞語概率統(tǒng)計(jì)因素、語義和語法結(jié)構(gòu)相關(guān)排列組合,與語言學(xué)的詞匯和語法信息密切相關(guān)。

      另一方面,盡管與基于規(guī)則的機(jī)器翻譯相比,基于實(shí)例或統(tǒng)計(jì)的機(jī)器翻譯以及神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的質(zhì)量獲得了前所未有的提高,但也存在不少問題。首先,機(jī)器翻譯的譯文雖然流暢,但準(zhǔn)確性不夠。其次,機(jī)器翻譯模型構(gòu)建所需的數(shù)據(jù)量太大,成本高。此外,由于低資源語言的數(shù)據(jù)量往往不大,且不易獲得,這些機(jī)器翻譯系統(tǒng)在低資源語言文本翻譯方面的表現(xiàn)往往不盡如人意。再者,神經(jīng)網(wǎng)絡(luò)模型遷移比較困難,導(dǎo)致神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)的跨領(lǐng)域適應(yīng)性差。最后,也最讓人擔(dān)憂的是,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的過程很難從語言學(xué)角度加以解釋,從而使得我們難以理解特定機(jī)器翻譯的結(jié)果,無法確定機(jī)器翻譯錯(cuò)誤的原因進(jìn)而對(duì)這些錯(cuò)誤進(jìn)行修正?;趯?shí)例或統(tǒng)計(jì)的機(jī)器翻譯以及神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯依據(jù)大規(guī)模語言數(shù)據(jù)的分析來構(gòu)建語言模型或翻譯模型,表面上看起來要比基于規(guī)則的機(jī)器翻譯更加客觀、科學(xué)。然而,我們不能忽略這樣一個(gè)事實(shí),即相對(duì)于人類自然語言規(guī)模的浩大以及翻譯的復(fù)雜性而言,無論多大規(guī)模的語言數(shù)據(jù)都是不充分的,不能涵蓋人類翻譯的多樣性,因而無法真正達(dá)到人類智能的水平。而且,機(jī)器翻譯無法回避人類語言模糊性和詞匯多義性等問題所帶來的困難。一方面,一些語句或短語往往表達(dá)多種意義,沒有明確、可靠的規(guī)則作為依據(jù)予以區(qū)分,給機(jī)器翻譯增加了很多困難;另一方面,詞匯也表達(dá)多項(xiàng)意義,盡管上下文和搭配線索可以幫助我們確定詞義,但很多情況下卻不能提供可靠的線索。

      應(yīng)當(dāng)指出,基于統(tǒng)計(jì)的機(jī)器翻譯和神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯之所以面臨以上問題,不僅僅是因?yàn)檎Z言本身的復(fù)雜性,更重要的是學(xué)界嚴(yán)重忽略了語言學(xué)理論和知識(shí)對(duì)于機(jī)器翻譯的價(jià)值。為此,我們應(yīng)當(dāng)重視語言學(xué)理論和知識(shí)在機(jī)器翻譯中的應(yīng)用,努力走出一條規(guī)則和數(shù)據(jù)相結(jié)合的機(jī)器翻譯發(fā)展道路。我們可以在基于統(tǒng)計(jì)的機(jī)器翻譯模型或神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型中融入語言學(xué)信息,在數(shù)據(jù)訓(xùn)練結(jié)果輸出之前,增加語言學(xué)檢測(cè),以發(fā)現(xiàn)機(jī)器翻譯出現(xiàn)的異常情況,并以此作為研究人員改進(jìn)算法或模型的依據(jù)。事實(shí)上,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的過程只能通過語言學(xué)理論和知識(shí)來加以解釋,而從神經(jīng)機(jī)器翻譯模型中提取出相應(yīng)的語言學(xué)知識(shí)來解釋機(jī)器翻譯過程并改進(jìn)翻譯模型,已成為當(dāng)代機(jī)器翻譯研究領(lǐng)域的熱門話題和未來發(fā)展方向。(7)李學(xué)寧、董劍橋:《韓禮德的機(jī)器翻譯思想初探》,《中國(guó)外語》 2012 年第3 期,第90—93 頁;趙會(huì)軍、安巖:《機(jī)器翻譯中的語用自動(dòng)調(diào)序》,《西安外國(guó)語大學(xué)學(xué)報(bào)》 2017 年第4 期,第77—81 頁;趙會(huì)軍、林國(guó)濱:《機(jī)器翻譯智能化的語言學(xué)路徑研究》,《外語電化教學(xué)》 2020 年第2 期,第42—47 頁。

      三 語言智能發(fā)展對(duì)于語言學(xué)研究的價(jià)值

      必須指出,語言學(xué)與語言智能之間有著非常緊密的聯(lián)系。語言學(xué)研究可以為語言智能的發(fā)展提供重要的理論支撐,而語言智能的發(fā)展能夠有力推進(jìn)語言學(xué)研究。

      其一,語言智能的發(fā)展可以推進(jìn)語言學(xué)研究方法產(chǎn)生重要變革。長(zhǎng)期以來,語言學(xué)研究方法一直以定性研究為主,研究人員依據(jù)相關(guān)語言學(xué)理論,往往在觀察少量語言事實(shí)的基礎(chǔ)上,憑借主觀演繹和個(gè)人判斷,就語言現(xiàn)象或語言功能提出相關(guān)理論假設(shè),研究結(jié)論難免失之于片面、主觀。而語言智能相關(guān)技術(shù)尤其是自然語言處理和文本數(shù)據(jù)挖掘技術(shù)的應(yīng)用,不僅可以使語言學(xué)研究建立在大規(guī)模語言數(shù)據(jù)的觀察和統(tǒng)計(jì)分析的基礎(chǔ)之上,將定量研究引入語言學(xué)研究之中,而且可以通過模型的構(gòu)建來考察和解釋相關(guān)語言現(xiàn)象,語言學(xué)研究因而更加趨于客觀和全面。尤為重要的是,語言智能技術(shù)在語言學(xué)研究中的應(yīng)用可以實(shí)現(xiàn)語言學(xué)研究的智能化、數(shù)據(jù)化和可視化。語言智能技術(shù)的應(yīng)用可以使語言現(xiàn)象或語言事實(shí)的觀察和分析更加迅速和便捷,并且能夠幫助我們發(fā)現(xiàn)僅憑肉眼無法發(fā)現(xiàn)的語言現(xiàn)象。

      其二,語言智能的發(fā)展可以深化并拓展語言學(xué)研究。一方面,隨著語言智能的發(fā)展,語言智能目前所面臨的諸多問題必然會(huì)得到解決,如機(jī)器合成的語音不夠自然、缺乏情感,機(jī)器生成的語言較為呆板、不夠靈活,等等。這些問題的解決以語音學(xué)和語義學(xué)研究的發(fā)展為前提,必然會(huì)推進(jìn)語言學(xué)研究,尤其是面向語言智能應(yīng)用的語音學(xué)和語義學(xué)研究的發(fā)展。另一方面,由于語言智能技術(shù)在語言學(xué)研究領(lǐng)域的應(yīng)用,使我們?cè)群苌偕孀愕难芯砍蔀榭赡?,一些由于缺乏技術(shù)條件而無法深入進(jìn)行的領(lǐng)域研究能夠得以深化。傳統(tǒng)歷史語言學(xué)研究主要采用文獻(xiàn)閱讀和比較的方法,由于缺乏相關(guān)技術(shù)條件的支撐,很少基于大數(shù)據(jù)考察某一語言的歷史演變過程,難以描繪出語言演變的全景圖。利用自然語言處理技術(shù),我們可以從時(shí)空和地理角度清晰地描繪出具體概念發(fā)展演變的軌跡及其對(duì)語言體系的影響,揭示在特定歷史時(shí)期內(nèi)某一民族語言在詞匯、形態(tài)、句法、語義和語用層面所發(fā)生的變遷,闡明詞匯化和語法化發(fā)生的機(jī)制,從而深化歷史語言學(xué)研究。語言智能技術(shù)的應(yīng)用使得歷史語言學(xué)研究建立在大規(guī)模語料的統(tǒng)計(jì)分析基礎(chǔ)之上,這使得歷史語言學(xué)的實(shí)證研究成為可能。就社會(huì)語言學(xué)而言,男性和女性語言使用的差異一直是學(xué)界感興趣的話題,但該領(lǐng)域的研究由于缺乏必要的技術(shù)條件一直停滯不前。利用包括語料庫技術(shù)和數(shù)據(jù)挖掘技術(shù)在內(nèi)的語言智能技術(shù),我們可以對(duì)大規(guī)模語料進(jìn)行考察和統(tǒng)計(jì),客觀揭示男性和女性語言的差異。(8)Kaibao Hu & Xiaoqian Li, “Corpus-based Critical Translation Studies: Research Areas and Approaches”,Meta, vol.36, no.3,2018, pp.583-603.

      近年來,話語研究逐漸發(fā)展成為語言學(xué)研究的熱點(diǎn),以自然語言處理技術(shù)為代表的語言智能技術(shù)先后應(yīng)用于話語研究。許家金運(yùn)用詞網(wǎng)、潛在語義分析和奇異值分解等自然語言處理技術(shù)對(duì)語篇銜接連貫的程度進(jìn)行分析。(9)許家金、徐秀玲:《基于可比語料庫的翻譯英語銜接顯化研究》,《外語與外語教學(xué)》 2016 年第6 期,第94—102 頁。邵珊珊、王立非采用詞向量(Word2vec)方法、長(zhǎng)短期記憶網(wǎng)絡(luò)和GRU 深度學(xué)習(xí)模型等語言智能技術(shù)分析了電子商務(wù)話語的情感。(10)邵珊珊、王立非:《基于語言大數(shù)據(jù)挖掘的電商英漢評(píng)價(jià)話語情感分析》,《外語電化教學(xué)》 2019 年第5 期,第76—84 頁。應(yīng)當(dāng)指出,這些研究不僅促使該領(lǐng)域研究由定性研究向定性研究和定量分析相結(jié)合的方向轉(zhuǎn)變,而且在很大程度上深化了話語研究。

      還應(yīng)指出,語言智能和語言學(xué)研究均涉及人類語言的理解、分析和應(yīng)用,兩者之間具有天然的共性。由于這一共性,語言智能可以與語言學(xué)研究有機(jī)融合,形成以語言智能技術(shù)應(yīng)用為主要特色的全新的語言學(xué)研究領(lǐng)域,如計(jì)算話語學(xué)、計(jì)算詞典學(xué)、計(jì)算語用學(xué)等。計(jì)算話語學(xué)是指利用計(jì)算機(jī)可計(jì)算的形式抽象描寫話語意義的操作模型,是話語分析同認(rèn)知語言學(xué)、語言智能和自然語言處理之間的有機(jī)融合。該領(lǐng)域的研究?jī)?nèi)容主要包括話語概念意義求解的主題計(jì)算和針對(duì)人際意義求解的話語評(píng)價(jià)計(jì)算。(11)李佐文、嚴(yán)玲:《什么是計(jì)算話語學(xué)》,《山東外語教學(xué)》 2018 年第6 期,第24—32 頁。計(jì)算詞典學(xué)源于詞典學(xué)與自然語言處理之間的融合,研究?jī)?nèi)容主要包括電子詞庫的理論研究與實(shí)體構(gòu)建、詞典語料的精加工與數(shù)據(jù)化以及自然語言處理技術(shù)在詞典編纂中應(yīng)用等。計(jì)算語用學(xué)由語用學(xué)與語言智能融合而成,是對(duì)話語與語境之間關(guān)系的計(jì)算研究,主要從計(jì)算角度研究話語與語境之間的關(guān)系。毋庸諱言,這些研究領(lǐng)域從計(jì)算維度開創(chuàng)了全新的語言學(xué)研究領(lǐng)域,大大拓寬了語言學(xué)的疆域。

      結(jié) 語

      綜上所述,語言學(xué)與語言智能之間存在天然的共性,相互支撐,相得益彰。一方面,語言智能的發(fā)展離不開語言學(xué)理論和知識(shí)的支撐。盡管數(shù)據(jù)驅(qū)動(dòng)的語言智能技術(shù)對(duì)于語言學(xué)知識(shí)的依賴愈來愈少,甚至已發(fā)展到似乎不需要語言學(xué)理論的地步,但語言智能的總體發(fā)展依然需要運(yùn)用語言學(xué)知識(shí),畢竟語言智能的算法不能代替語言學(xué)理論。在當(dāng)代,數(shù)據(jù)驅(qū)動(dòng)的語言智能之所以面臨這樣或那樣的問題,恰恰是因?yàn)闆]有對(duì)語言學(xué)理論的支撐作用給予足夠的重視。無論是過去、現(xiàn)在還是將來,語言智能的發(fā)展始終離不開語言學(xué)理論的指導(dǎo)。另一方面,語言智能的發(fā)展對(duì)于語言學(xué)研究同樣具有重要的價(jià)值。具體而言,語言智能技術(shù)在語言學(xué)研究中的應(yīng)用不僅使得語言學(xué)研究方法發(fā)生重要的變革,而且深化了語言學(xué)研究,催生全新的語言學(xué)研究分支學(xué)科,從而拓展了語言學(xué)研究的疆域。

      猜你喜歡
      語言學(xué)語音文本
      在808DA上文本顯示的改善
      魔力語音
      基于MATLAB的語音信號(hào)處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對(duì)方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      基于doc2vec和TF-IDF的相似文本識(shí)別
      電子制作(2018年18期)2018-11-14 01:48:06
      認(rèn)知語言學(xué)與對(duì)外漢語教學(xué)
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
      如何快速走進(jìn)文本
      語言學(xué)與修辭學(xué):關(guān)聯(lián)與互動(dòng)
      丁青县| 六安市| 肇州县| 金川县| 琼海市| 治县。| 吴江市| 重庆市| 隆化县| 板桥市| 广汉市| 濉溪县| 台中市| 无棣县| 通辽市| 镇康县| 苏州市| 灵寿县| 隆昌县| 武义县| 龙井市| 定西市| 宝丰县| 会东县| 义马市| 诸城市| 林甸县| 射洪县| 枣庄市| 明星| 信丰县| 隆昌县| 洛宁县| 东平县| 阿图什市| 利辛县| 广水市| 崇仁县| 本溪| 若羌县| 桂平市|