程彥博
近日,百度發(fā)布了融合統(tǒng)計(jì)和深度學(xué)習(xí)方法的在線翻譯系統(tǒng),宣稱在機(jī)器翻譯技術(shù)上取得了重大突破。百度稱,該系統(tǒng)借助計(jì)算機(jī)模擬的海量神經(jīng)元,模仿人腦“理解語(yǔ)言、生成譯文”,同時(shí)結(jié)合百度已有的統(tǒng)計(jì)機(jī)器翻譯技術(shù),使得機(jī)器翻譯質(zhì)量實(shí)現(xiàn)了“質(zhì)的飛躍”。
機(jī)器翻譯一直被公認(rèn)為是人工智能領(lǐng)域最難的課題之一。讓機(jī)器理解語(yǔ)言,進(jìn)而實(shí)現(xiàn)不同語(yǔ)言之間的翻譯,不僅僅是該領(lǐng)域的科學(xué)家們孜孜追求的技術(shù)夢(mèng)想,也寄托著普羅大眾對(duì)自由溝通交流的美好愿望。
機(jī)器翻譯技術(shù)的發(fā)展一直與計(jì)算機(jī)技術(shù)的發(fā)展緊密相隨。從早期的詞典匹配,到詞典結(jié)合語(yǔ)言學(xué)專家知識(shí)的規(guī)則翻譯,再到基于語(yǔ)料庫(kù)的統(tǒng)計(jì)機(jī)器翻譯,隨著計(jì)算機(jī)計(jì)算能力的提升和多語(yǔ)言信息的爆發(fā)式增長(zhǎng),機(jī)器翻譯技術(shù)逐漸走出象牙塔,開(kāi)始為普通用戶提供實(shí)時(shí)便捷的翻譯服務(wù)。
此次百度發(fā)布的基于深度學(xué)習(xí)的在線翻譯系統(tǒng),實(shí)現(xiàn)了類似人腦的“理解語(yǔ)言、生成譯文”的翻譯方式。這種翻譯方法最大的優(yōu)勢(shì)在于譯文更加流暢,更加符合語(yǔ)法規(guī)范,讓人更加容易理解。相比之前的翻譯技術(shù),質(zhì)量有“躍進(jìn)式”的提升。
百度稱,基于深度學(xué)習(xí)的翻譯系統(tǒng)的核心,是一個(gè)擁有無(wú)數(shù)結(jié)點(diǎn)(神經(jīng)元)的深度神經(jīng)網(wǎng)絡(luò)。一種語(yǔ)言的句子被向量化之后,在網(wǎng)絡(luò)中層層傳遞,轉(zhuǎn)化為計(jì)算機(jī)可以“理解”的表示形式,再經(jīng)過(guò)多層復(fù)雜的傳導(dǎo)運(yùn)算,生成另一種語(yǔ)言的譯文。有趣的是,這個(gè)龐大的系統(tǒng)在剛剛構(gòu)建完成之后像剛出生的嬰兒一樣,不懂任何事情。它通過(guò)學(xué)習(xí)大量雙語(yǔ)互譯對(duì)照的句子,逐漸提升翻譯水平。百度利用自身得天獨(dú)厚的龐大網(wǎng)頁(yè)庫(kù)資源,挖掘了海量的雙語(yǔ)句對(duì),作為系統(tǒng)的“學(xué)習(xí)教材”。由于深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)極其復(fù)雜,整個(gè)學(xué)習(xí)過(guò)程非常耗時(shí),需要持續(xù)很長(zhǎng)時(shí)間。百度機(jī)器翻譯團(tuán)隊(duì)經(jīng)過(guò)技術(shù)攻堅(jiān),使得翻譯系統(tǒng)的學(xué)習(xí)效率提高了十幾倍,大大縮短了學(xué)習(xí)時(shí)間?!敖滩摹钡臄?shù)量如果按照字?jǐn)?shù)換算成《大英百科全書》,翻譯系統(tǒng)在一周內(nèi)學(xué)習(xí)的內(nèi)容相當(dāng)于千萬(wàn)部《大英百科全書》。
此外,該翻譯系統(tǒng)還應(yīng)用了長(zhǎng)短時(shí)記憶(LSTM,Long Short-Term Memory)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,Recurrent Neural Network)模型。該模型擅長(zhǎng)對(duì)自然語(yǔ)言建模,把任意長(zhǎng)度的句子轉(zhuǎn)化為特定維度的浮點(diǎn)數(shù)向量,同時(shí)“記住”句子中比較重要的單詞,讓“記憶”保存比較長(zhǎng)的時(shí)間。該模型很好地解決了自然語(yǔ)言句子向量化的難題,對(duì)利用計(jì)算機(jī)來(lái)處理自然語(yǔ)言來(lái)說(shuō)具有非常重要的意義,使得計(jì)算機(jī)對(duì)語(yǔ)言的處理不再停留在簡(jiǎn)單的字面匹配層面,而是進(jìn)一步深入到語(yǔ)義理解的層面。百度自然語(yǔ)言處理部致力于自然語(yǔ)言處理技術(shù)的創(chuàng)新探索,對(duì)深度學(xué)習(xí)模型的應(yīng)用研究走在了該領(lǐng)域的前沿。目前,該技術(shù)不僅在百度在線翻譯系統(tǒng)中取得成功,大幅提升了譯文質(zhì)量,還在篇章理解、語(yǔ)義計(jì)算、深度問(wèn)答等多個(gè)重要方向取得了突破性進(jìn)展。
其實(shí),百度一直在機(jī)器翻譯領(lǐng)域深耕細(xì)作,希望通過(guò)技術(shù)創(chuàng)新不斷提升翻譯質(zhì)量和系統(tǒng)性能,并致力于大規(guī)?;ヂ?lián)網(wǎng)應(yīng)用,為廣大用戶提供高質(zhì)量、方便快捷的翻譯服務(wù)。依托海量的互聯(lián)網(wǎng)資源和自然語(yǔ)言處理技術(shù)的優(yōu)勢(shì),百度研發(fā)出高質(zhì)量翻譯知識(shí)獲取技術(shù),突破了傳統(tǒng)方法在翻譯知識(shí)獲取方面規(guī)模小、成本高的瓶頸;基于互聯(lián)網(wǎng)大數(shù)據(jù)的多策略翻譯模型,能夠?qū)崟r(shí)響應(yīng)用戶復(fù)雜多樣的包括網(wǎng)絡(luò)新詞、科技文獻(xiàn)、電子商務(wù)、古文、粵語(yǔ)等多領(lǐng)域、多文體的翻譯需求;基于樞軸語(yǔ)言的翻譯方法,使得資源有限的小語(yǔ)種翻譯成為可能。百度在機(jī)器翻譯核心技術(shù)上的創(chuàng)新和突破,不僅使普通用戶受益,享受到方便快捷、高質(zhì)量的互聯(lián)網(wǎng)翻譯服務(wù),也得到了學(xué)術(shù)界的認(rèn)可。由百度牽頭,聯(lián)合國(guó)內(nèi)頂尖學(xué)術(shù)機(jī)構(gòu)中科院自動(dòng)化所、浙江大學(xué)、哈爾濱工業(yè)大學(xué)、中科院計(jì)算所、清華大學(xué)共同研發(fā)的“基于大數(shù)據(jù)的互聯(lián)網(wǎng)機(jī)器翻譯核心技術(shù)及產(chǎn)業(yè)化”項(xiàng)目獲得了中國(guó)電子學(xué)會(huì)科技進(jìn)步一等獎(jiǎng)。
技術(shù)的創(chuàng)新要以喜聞樂(lè)見(jiàn)的形式普惠到每一個(gè)有需求的用戶,這是互聯(lián)網(wǎng)的精髓。百度機(jī)器翻譯團(tuán)隊(duì)一直秉承讓所有人平等便捷地獲取信息、找到所求的使命,致力于消除用戶跨語(yǔ)言溝通交流的障礙。結(jié)合百度領(lǐng)先的圖像識(shí)別、語(yǔ)音識(shí)別等技術(shù),“百度翻譯”APP為用戶打造了一個(gè)全方位的隨身翻譯官。這位“翻譯官”不僅可以幫助用戶實(shí)時(shí)地與外國(guó)人進(jìn)行面對(duì)面交流,根據(jù)用戶所處場(chǎng)景,智能推送實(shí)用口語(yǔ)例句,還可以通過(guò)攝像頭拍照對(duì)菜單、車站站牌等進(jìn)行翻譯,解決用戶在海外學(xué)習(xí)和旅行時(shí)的語(yǔ)言難題。
百度發(fā)布基于深度學(xué)習(xí)的在線翻譯系統(tǒng),讓我們看到解決機(jī)器翻譯這一人工智能經(jīng)典難題的希望。也許不久的將來(lái),世界各地的人們都能夠自由交流,在全球范圍內(nèi)獲取資訊和服務(wù)。即使使用不同的語(yǔ)言,人們也可以交流想法和觀念,傳承思想和文化。畢竟,語(yǔ)言是保存和傳遞人類文明成果最重要的工具之一。