• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于表征重述的機器文本理解

      2020-07-26 14:23付熙徐龔希章
      軟件導(dǎo)刊 2020年7期
      關(guān)鍵詞:機器翻譯

      付熙徐 龔希章

      摘 要:傳統(tǒng)機器翻譯系統(tǒng)缺乏聯(lián)系上下文形成認(rèn)知的能力,僅根據(jù)對應(yīng)單詞的默認(rèn)含義進(jìn)行翻譯,容易導(dǎo)致語義錯誤等問題。通過模擬人的表征重述認(rèn)知過程,提出一種新的機器文本理解與翻譯方法。該方法可通過較少的實例對文本進(jìn)行理解和翻譯,避免出現(xiàn)語義理解錯誤問題,且無需進(jìn)行繁雜的語法標(biāo)注。實驗表明,該方法可通過引入習(xí)得的常識,使翻譯出現(xiàn)歧義錯誤的概率降低到1%以下,并可標(biāo)注出不符合常理而又無法找到更好解釋的句子。

      關(guān)鍵詞:表征重述;文本理解;機器翻譯

      DOI:10. 11907/rjdk. 192447 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):

      中圖分類號:TP301文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2020)007-0024-04

      Machine Text Understanding Using Representational Redescription Process

      FU Xi-xu,GONG Xi-zhang

      (Institute of Information and Education Technology,Shanghai Ocean University,Shanghai 201306,China)

      Abstract: Traditional machine translation methods often cause semantic errors by simple substitution. Because of lacking common sense, machines merely find corresponding words in target language and substitute them with default meanings. A novel machine text understanding and translation method is advanced by simulating humans representational redescription process. This method can understand and translate text correctly with fewer instances. Semantic errors can be avoided in this method. Complex syntactic label can be avoided too. According to the experiment result, this method can introduce common sense into the understanding process and get a semantic ambiguity error rate lower than 1%. Furthermore ridiculous translations can be labeled if no better translation can be found.

      Key Words: representational redescription; text understanding; machine translation

      0 引言

      目前機器自動翻譯和文本理解系統(tǒng)存在不能有效結(jié)合上下文、理解過于死板的問題,具體表現(xiàn)為對文本僅簡單地進(jìn)行詞對詞的語義翻譯,不考慮相關(guān)背景和搭配。有不少研究提出了新的文本理解和知識發(fā)現(xiàn)方法[1-7],以及關(guān)于自然語言理解和機器翻譯的評價標(biāo)準(zhǔn)[8]。這些方法從詞法、語法等各個角度,利用神經(jīng)網(wǎng)絡(luò)等多種方法提出自然語言理解和自動翻譯的方法,但沒有從語言習(xí)得的角度建立語言知識模型,需要大量人工干預(yù),也未能提出一個完整的語言結(jié)構(gòu)、詞義解決方案。機器學(xué)習(xí)方法被應(yīng)用于機器翻譯中,如基于統(tǒng)計的方法、對應(yīng)特定文本理解任務(wù)的方法等[9-16]。然而這些方法通用性不佳,且需大量已標(biāo)注的文本作為訓(xùn)練集。

      語言認(rèn)知是人類認(rèn)知的一個重要部分,人類從幼年開始學(xué)習(xí)語言,很多概念的學(xué)習(xí)均伴隨著語言交流[17]。語言與概念的聯(lián)系十分緊密。缺失對概念的理解,語言翻譯通常會出現(xiàn)錯誤。如“He killed a bat with a bat”,如果只考慮到詞法,翻譯成中文可以是“他殺了一只蝙蝠用一個球拍”,也可以是“他殺了一只蝙蝠用一只蝙蝠”等;考慮到語法,還可以翻譯成“他用一個球拍殺死一只蝙蝠”或“他用一只蝙蝠殺死一只蝙蝠”;考慮到詞典中解釋的順序,翻譯成后者的可能性更大。然而,對于一個掌握了“球拍”、“蝙蝠”、“殺”、“用”等概念的人,這種翻譯是荒謬的。

      語言習(xí)得是表征重述理論研究的重要內(nèi)容之一[18]。表征重述的幾個階段也可為語言概念的形成提供豐富的概念基礎(chǔ)。目前基于表征重述過程建立了一些模型,部分模型已應(yīng)用到機器人等領(lǐng)域[19-21]。本文以“kill”概念的形成和掌握為例,從認(rèn)知角度討論語言概念的形成,從概念認(rèn)知與形成的角度討論語言理解、翻譯等問題。

      1 表征重述與語言

      1.1 水平表征特點

      在語言認(rèn)知的I階段,兒童只能簡單地重復(fù)習(xí)得語句,但無法掌握實例基礎(chǔ)結(jié)構(gòu)。當(dāng)孩子習(xí)得“He killed a bat with a bat”這一語句時,能知道“kill”表示“殺死”這個行為,而第一個“bat”是指一只蝙蝠,第二個“bat”是指一個球拍。這些單詞在兒童的意識中指代特定的物體和行為,如果換一個實例,比如“Mary killed a mouse with a stick”,兒童就無法理解。盡管兒童通常在掌握第一門語言后很長一段時間才顯式地習(xí)得“動詞”、“名詞”、“介詞”等概念,但兒童對物體、動作以及它們對應(yīng)的語言元素早已清楚了解。

      1.2 E1水平表征特點

      在完成E1階段的認(rèn)知后,兒童對 “kill”這個概念的應(yīng)用有了深刻理解,可以用“kill”進(jìn)行造句等活動,可良好地掌握相關(guān)語法和詞義,但會造出“He killed a bear with a bat”這種事實上不可能發(fā)生的句子。這是由于“kill”的概念雖可被熟練應(yīng)用,但卻不能通達(dá)于意識,無法用其在知識系統(tǒng)中其它概念解釋工具和對象的對應(yīng)關(guān)系。

      1.3 E2水平表征特點

      在E2水平,概念已通達(dá)于意識,兒童能知道“He killed a bear with a bat”是荒謬的,通常來說用球拍殺死熊是不現(xiàn)實的。但這個時候,他們?nèi)匀粺o法用另一種語言正確翻譯“He killed a bear with a bat”這個句子。

      1.4 E3水平表征特點

      在E3階段完成后,兒童能順利把句子翻譯成其它語言,前提是兒童對這種語言構(gòu)成有所了解。在該階段,兒童已完全掌握該概念,可用于語言報告。

      2 表征重述學(xué)習(xí)模型

      2.1 語言概念表征

      在語言學(xué)中,名詞是指代物體的實詞,代詞是名詞的指代,動詞是對名詞的動作[18]。形容詞被用來修飾名詞,副詞被用于修飾動詞,介詞用于對方法、地點等的表征。對于兒童來說,這些概念并不是很清晰,但對于具體詞語尤其是名詞和動詞的使用卻是很清楚的。可以認(rèn)為動詞是以名詞或名詞短語為參數(shù)的一個函數(shù),副詞是以動詞為參數(shù)的函數(shù)。以概念為根節(jié)點可以生成一棵語法樹。如“Mary killed a bat with a bat”,語法樹如圖1所示。

      在圖1的語法樹中,只有名詞和代詞被作為底層參數(shù),動詞、冠詞、介詞均可作為函數(shù)。其中,冠詞、介詞、形容詞、副詞均可作為一元函數(shù)。這棵語法樹可簡化為一個字符串。如式(1)所示。

      由于一元函數(shù)只接受一個參數(shù),因此括號可以省略,如式(2)所示。

      該式可完整地表征為一個概念的動詞。

      除概念表征外,同時語言表征規(guī)則也應(yīng)存儲于兒童記憶中,作為語言表達(dá)方法和依據(jù)。在進(jìn)化過程中,以概念進(jìn)化為主,而語言范式表征也跟隨概念變化。

      2.2 I水平表征與形成

      I水平的表征僅僅是對一個實例的描述,是對該實例認(rèn)知的附屬物。對語言的認(rèn)知可以表征成一個單詞序列,兒童這時對概念相關(guān)的結(jié)構(gòu)已初步構(gòu)建。兒童已有概念結(jié)構(gòu),其內(nèi)部對應(yīng)表征如式(2)所示,這些結(jié)構(gòu)可與實例中的語言相互轉(zhuǎn)換。

      在I水平形成過程中,句子本身作為I階段表征的一部分存儲在系統(tǒng)中,同時,兒童對句子的理解也形成了表征結(jié)構(gòu),作為I階段表征的另一部分存儲,在后續(xù)階段中將作為進(jìn)化主題。

      根據(jù)語法樹構(gòu)建規(guī)則,對于一元函數(shù)單詞只需將單詞放置在參數(shù)之前即可,對于多元函數(shù),只需將函數(shù)單詞放在最前面,按函數(shù)規(guī)則組織字符串即可。形成表征結(jié)構(gòu)的算法流程如圖2所示。

      如圖2所示,首先找到動作詞(表動作的詞,不包括be動詞和表時態(tài)的have等詞),這是概念根節(jié)點;然后根據(jù)名詞生成名詞短語,將名詞短語作為動詞參數(shù);最后,將函數(shù)作為修飾動詞的單詞或短語參數(shù)。

      I水平雖然構(gòu)建了表征基本結(jié)構(gòu),但因所有參數(shù)均僅是固定的單詞,因此沒有泛化能力,不能理解不同的句子。

      2.3 E1水平表征與E1階段進(jìn)化

      在E1階段,概念中的名詞或名詞短語作為參數(shù)在進(jìn)化過程中逐漸泛化,類和概念逐漸替換了概念表征中具體的詞和短語,表征開始具有靈活性。這種泛化在思維與語言輸出中同時存在。

      在E1階段,可使用系統(tǒng)中的知識使參數(shù)和方法更加泛化,本文系統(tǒng)使用的名詞泛化結(jié)構(gòu)如圖3所示(由于對象較多,僅列出部分)。

      在圖3中,各種名詞依據(jù)兒童已有的知識分類,而不僅是簡單地分為名詞。本文對各個分類使用不同的變量表示,如動物,可以用大寫字母A表示(在這里,“動物”指活的動物)。介詞按語義分類,如with和using均根據(jù)語義“用”分在一類,用大寫字母U表示。通過進(jìn)化和循環(huán)識別的方法,得到如式(3)所示的表征字符串。

      如式(3)所示,該式表示kill可被任意多個副詞修飾,該概念有3個參數(shù),前兩個是必須有的,而后一個則不一定存在。第一個參數(shù)是一個人(P),其構(gòu)成形式是冠詞+若干形容詞+人。第二個參數(shù)是一只活著的生物(L),其構(gòu)成形式是冠詞+若干形容詞+活物。最后一個參數(shù)表示使用的工具,其格式為一個表“使用”的詞加上一個工具(T),而工具的表示形式是冠詞+若干形容詞+工具。

      同時,對語言本身的進(jìn)化也得出如式(4)所示的模式。

      該模板指第一個參數(shù)及其修飾放在最前面,動詞及其修飾放在第二位,第二個參數(shù)及其修飾放在第三位,最后是第三個參數(shù)及其修飾。如“Mary killed a dog with a knife”,“Mary”是第一個參數(shù),“a dog”是第二個參數(shù),“a knife”是第三個參數(shù)。

      2.4 E2水平表征與E2階段進(jìn)化

      在E2階段,概念被作為一個整體考慮,達(dá)到 E2水平的表征后,可判斷出“He killed a bear with a bat”是荒唐的。在E2階段的進(jìn)化中,通常認(rèn)為沒有經(jīng)歷過的、且經(jīng)推導(dǎo)不可實現(xiàn)的事情是荒謬的。該水平可用激活概念圖表示。如“Mary killed a bear with a bat”可用圖4 表示。

      如圖4所示,雖然bat和bear單獨看來均符合對參數(shù)的要求,但根據(jù)其詳細(xì)分類,這個組合顯然不恰當(dāng),熊是一只大動物,而球拍只能造成很小傷害,因此這個語句是荒謬的。

      將每個語句中所有元素存入激活圖中,存入時自動激活每個元素相關(guān)最底層的類。如“Bob killed a fly with a bat”中的“fly”只能激活“小動物”。反例和規(guī)則也可對激活概念圖進(jìn)行修正,如果出現(xiàn)反例,則降低對應(yīng)記錄和相關(guān)最底層的類激活權(quán)重,如出現(xiàn)沖突,則在實例層級中以反例為準(zhǔn)。系統(tǒng)中的規(guī)則也可對聯(lián)結(jié)進(jìn)行修正。

      2.5 E3水平與自動翻譯

      在E3水平,兒童可將概念以另一種形式表述,本文認(rèn)為是指將英文翻譯為中文的能力。E3階段的學(xué)習(xí)包括中文語法、中英文語義和概念等的習(xí)得。中文“殺”的概念語法描述如式(5)所示。

      根據(jù)該式即可找到概念對應(yīng)的中文詞匯并生成翻譯結(jié)果。

      3 實驗與評價系統(tǒng)

      基于以上分析,本文編寫了基于RR概念習(xí)得的自動翻譯系統(tǒng),系統(tǒng)包括一個學(xué)習(xí)程序、一個翻譯程序和一個知識庫。通過對150個包含“kill”的句子進(jìn)行學(xué)習(xí)后(這些句子不包括文中提到的“bat”和“bear”等詞匯),系統(tǒng)已能對相關(guān)語句作出正確翻譯,如圖5所示。

      系統(tǒng)對不同位置的“bat”和語言順序給出了正確翻譯。這表明基于概念系統(tǒng)的翻譯系統(tǒng)可正確處理語言結(jié)構(gòu)和語義問題,可對不同位置的“bat”作出正確解釋。

      本文還設(shè)計了翻譯評價系統(tǒng)供用戶選擇并進(jìn)一步提升翻譯系統(tǒng)效果。系統(tǒng)將翻譯結(jié)果分成3類:第一類是“正確”,這類翻譯既符合E1階段的表征,又符合常識;第二類是符合E1階段的表征,但不符合常理的結(jié)果,系統(tǒng)將其評價為“奇怪”;第三類是“錯誤”,即語句不符合概念系統(tǒng)中的基本描述,如“羅斯用蝙蝠殺死了蝙蝠”。如果語句有多個候選翻譯,系統(tǒng)會顯示評價最高的翻譯。如果語句錯誤,如“She killed a desk”系統(tǒng)會提示錯誤,并給出錯誤翻譯。

      對于奇怪的翻譯,系統(tǒng)給出提示并讓用戶進(jìn)行評價,如圖6所示。

      如圖6所示,當(dāng)系統(tǒng)給出奇怪的翻譯結(jié)果時,會顯示一個按鈕,如果用戶點擊“這是正確的”按鈕,這個翻譯對應(yīng)的概念會作為正例更新系統(tǒng)中E2階段的表征,在下次翻譯時,會將類似翻譯置為“正確”。

      本文使用Wordnet作為基本詞庫[22],將包含1 200個句子的語料庫作為訓(xùn)練集,用500個含有多義詞的句子分別對基于詞庫的自動翻譯方法與基于表征重述的文本理解方法(本文方法)進(jìn)行測試,結(jié)果如圖7所示。

      從圖7可看出,基于表征重述方法可消除翻譯中的歧義,對大部分奇怪語義進(jìn)行正確標(biāo)識。實驗中未出現(xiàn)標(biāo)識錯誤的情況。

      4 結(jié)語

      為提升機器翻譯系統(tǒng)認(rèn)知能力,本文通過模擬人的表征重述認(rèn)知過程,提出一種新的機器文本理解與翻譯方法。實驗證明,該方法只需通過較少的實例,即可建立支持正確翻譯的概念系統(tǒng),能自動選擇符合常識的翻譯。表征重述理論以概念表征為媒介,建立了不同語言互相轉(zhuǎn)換的橋梁。本文方法無需對文本進(jìn)行語法標(biāo)注,這也是表征重述學(xué)習(xí)的優(yōu)勢之一。通過對文本理解的研究,對表征重述進(jìn)行了更深層次的建模,也為機器翻譯提供了一種更高效、準(zhǔn)確的方法。在下一步的工作中,還可將該方法應(yīng)用于更復(fù)雜的機器學(xué)習(xí)任務(wù)。

      參考文獻(xiàn):

      [1] 胡金銘,史曉東,蘇勁松,等. 引入復(fù)述技術(shù)的統(tǒng)計機器翻譯研究綜述[J]. 智能系統(tǒng)學(xué)報,2013,8(3) :199-207.

      [2] 李伯約·賽丹.? 自然語言理解的心理學(xué)原理[M].? 上海:學(xué)林出版社,2007.

      [3] 羅莎.? 一種高效的自然語言理解語法分析算法[J].? 科技通報,2013,29(12):91-93.

      [4] 熊德意,劉群,林守勛. 基于句法的統(tǒng)計機器翻譯綜述[J]. 中文信息學(xué)報,2013,22(2) :28-39.

      [5] WANG B,ZHANGY Y, XU Q. Sentence-level combination of machine translation outputs with syntactically hybridized translations[J]. IEICE Transactions on Information and Systems,2014,E97D (1):164-167.

      [6] PUSTEJOVSKY J, STUBBS A. Natural language annotation for mache learning[M]. New York: O Reilly,2012.

      [7] LAWRY J. A framework for linguistic modeling[J]. Artificial Intelligence,2004(155):1-39.

      [8] 李良友,貢正仙,周國棟. 機器翻譯自動評價綜述[J]. 中文信息學(xué)報,2014,28(3) :81-91.

      [9] CHINEA-RIOS M,SANCHIS-TRILLES G,CASACUBER F. Discriminative ridge regression algorithm for adaptation in statistical machine translation[J]. Pattern Analysis and Applications. 2019,22(4) :1293-1305.

      [10] GRAHAM N, TARO W. Optimization for statistical machine translation: a survey[J].? Computational Linguistics, 2016,42(1): 1-54.

      [11] 劉慶峰,劉晨璇,王亞楠,等.? 會議場景下融合外部詞典知識的領(lǐng)域個性化機器翻譯方法[J]. 中文信息學(xué)報,2019,33(10): 31-37.

      [12] 徐健鋒,許園,許元辰, 等. 基于語義理解和機器學(xué)習(xí)的混合的中文文本情感分類算法框架[J]. 計算機科學(xué),2015, 42(6):61-66.

      [13] 閆盈盈,黃瑞章,王瑞,等.? 一種長文本輔助短文本的文本理解方法[J]. 山東大學(xué)學(xué)報(工學(xué)版), 2018, 48(3): 67-87.

      [14] SANCHEZ FRANCO M J,CEPEDA-CARRION G,ROLDAN J L. Understanding relationship quality in hospitality services: a study based on text analytics and partial least squares[J].? INTERNET RESEARCH. 2019, 29(3): 478-503.

      [15] CHATTERJEE A,GUPTE U, CHINNAKOTIA M. Understanding emotions in text using deep learning and big data[J].? Computers in Human Behavior, 2019(93): 309-317.

      [16] RABIGER S, SPILIOPOULOU M, SAYGIN Y. How do annotators label short texts? Toward understanding the temporal dynamics of tweet labeling[J].? Information Sciences, 2018(457):29-47.

      [17] MIROLLI M, PARISI D. Language as a cognitive tool[J].? Minds & Machines,2009(19):517-528.

      [18] A. 卡米洛夫·史密斯.? 超越模塊性認(rèn)知科學(xué)的發(fā)展觀[M].? 繆小春,譯. 上海:華東師范大學(xué)出版社,2001.

      [19] 陳燕,危輝. 非限定的概念獲取表征重述方法[J].? 計算機科學(xué), 2006, 33(6):168-171

      [20] CHRONOULA V. Oral counting sequences: a theoretical discussion and analysis through the lens of representational redescription[J].? Educational Studies in Mathematics,? 2016, 93(2):175-193.

      [21] STEPHANEL D. Open-ended learning: a conceptual framework based on representational redescription[J].? Frontiers in Neurorobotics, 2018(12):59.

      [22] SIGMAN M, CECCHI G A. Global organization of the Wordnet lexicon[J]. Proceedings of the National Academy of Sciences of the United States of America,2002, 99(3):1742-1747.

      (責(zé)任編輯:江 艷)

      猜你喜歡
      機器翻譯
      海量數(shù)據(jù)機器單詞中關(guān)鍵語義篩選方法研究
      機器翻譯不可盲取
      信息時代下機器翻譯的“可譯”與“不可譯”
      互聯(lián)網(wǎng)+新時代下人機翻譯模式研究
      “語聯(lián)網(wǎng)+行業(yè)” 助力中國偉大復(fù)興
      機器翻譯句法錯誤分析
      秭归县| 淮南市| 金湖县| 奇台县| 连城县| 普兰店市| 眉山市| 东阿县| 墨脱县| 鸡西市| 花莲县| 台湾省| 新蔡县| 洞头县| 溆浦县| 德清县| 乌鲁木齐县| 内江市| 商南县| 南涧| 新宁县| 邛崃市| 阿克苏市| 灵丘县| 舒城县| 裕民县| 竹山县| 绥德县| 西畴县| 普宁市| 阿尔山市| 榆社县| 乐东| 德州市| 鞍山市| 三都| 当涂县| 卓尼县| 山东| 望谟县| 佳木斯市|