• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      火山翻譯:打造AI地基之上的巴別塔

      2021-08-17 06:12:47張書琛
      電腦報 2021年31期
      關(guān)鍵詞:語種跳動字節(jié)

      張書琛

      機器翻譯新突破

      8月5日,ACL 2021正式頒發(fā)“最佳論文”獎項,字節(jié)跳動AI Lab的機器翻譯技術(shù)論文在3350篇論文投稿中脫穎而出,當(dāng)選今年度“最佳論文”。ACL大會由國際計算語言學(xué)協(xié)會主辦,被視為自然語言處理與計算語言學(xué)領(lǐng)域最高級別的學(xué)術(shù)會議。多年來,自然語言處理被譽為“人工智能皇冠上的明珠”,在機器翻譯、搜索、信息流、輸入法等領(lǐng)域都有著廣泛的應(yīng)用。

      自1949年信息論先驅(qū)Warren Weaver發(fā)表翻譯備忘錄、提出機器翻譯的可能性以來,機器翻譯已經(jīng)過了幾十年的發(fā)展迭代,如今進入了一個可以運用“神經(jīng)網(wǎng)絡(luò)”和加入了“深度學(xué)習(xí)技術(shù)”的AI翻譯時代。

      不可否認的是,全球化的商業(yè)巨頭已經(jīng)走在了最前端。

      字節(jié)跳動作為互聯(lián)網(wǎng)新貴,機器翻譯是其AI能力發(fā)展程度的重要體現(xiàn)之一。該公司業(yè)務(wù)覆蓋150個國家和地區(qū),員工也遍布全球各地。在其11萬名員工跨越語言障礙、順暢交流協(xié)作的背后,字節(jié)跳動AI Lab火山翻譯團隊多年打磨的機器翻譯模型的支持必不可少。

      基于文本翻譯、語音翻譯、圖像翻譯、語種識別等技術(shù)能力,火山翻譯推出了一系列形態(tài)多樣的產(chǎn)品與服務(wù),包括機器翻譯云服務(wù)、智能視頻翻譯、智能同傳等。此外,火山翻譯還支持垂直領(lǐng)域的快速模型定制,能夠滿足不同群體和不同行業(yè)的翻譯需求。

      據(jù)火山翻譯負責(zé)人王明軒介紹,內(nèi)部很多大熱的軟件中都可以看到火山翻譯的身影。無論是在泛娛樂端還是工具端的應(yīng)用,火山翻譯多語言互譯的速度和準確度都經(jīng)受住了考驗。

      如今,火山翻譯已經(jīng)上線了56門語種之間的互譯,支持的語向翻譯多達3080個。據(jù)透露,今年內(nèi)火山翻譯上線語種將超過150個。值得一提的是,火山翻譯不需要英語等通用語作為中間語,可以支持任意兩個語種之間的互譯,大大提高了翻譯速度。

      火山翻譯的前沿技術(shù)也獲得了學(xué)術(shù)界認可。今年共有9篇論文被ACL 2021接收,就是由AI Lab的NLP基礎(chǔ)研究團隊和火山翻譯團隊合作實現(xiàn)的。由字節(jié)跳動AI Lab提出的一種新的詞表學(xué)習(xí)方案VOLT,更是獲得了年度唯一的“最佳論文”獎項。這是ACL59年歷史上,華人科學(xué)家團隊第二次贏得最高榮譽。

      王明軒透露,火山翻譯現(xiàn)在每天都要處理數(shù)億次翻譯請求,可以說每一個上線語種都經(jīng)過了實際用戶的檢驗,“因此,穩(wěn)定和高質(zhì)量的翻譯服務(wù)是我們必須提供的保障”。

      今年內(nèi)火山翻譯上線語種將超過150個

      火山翻譯多語言預(yù)訓(xùn)練新范式源于人類語言學(xué)習(xí)規(guī)律

      持續(xù)不斷地為用戶提供高水平翻譯服務(wù)靠的不是運氣,而是火山翻譯背后強大的技術(shù)支撐和工程能力,以及字節(jié)跳動開放體系的聯(lián)動支持。

      技術(shù)底色支撐應(yīng)用落地

      火山翻譯之所以能在近年快速落地,實現(xiàn)商業(yè)價值,離不開其濃厚的技術(shù)基底。

      微軟技術(shù)學(xué)院院士黃學(xué)東曾表示,一家公司構(gòu)建的翻譯系統(tǒng)效果如何,主要取決于兩點:一是數(shù)據(jù)是否夠全、夠多;二是算法是否足夠好。

      海量數(shù)據(jù)是AI自我迭代不可或缺的基礎(chǔ),由于背靠字節(jié)全球化布局,火山翻譯可以獲得更好的AI訓(xùn)練結(jié)果,并從AI賦能中率先獲益。

      同時,得益于字節(jié)跳動多年機器學(xué)習(xí)和自然語言處理領(lǐng)域的深耕,其AI團隊擁有百余項技術(shù)發(fā)明專利,在機器翻譯技術(shù)上更是獨創(chuàng)了multilingual Random Aligned Substitution Pre-training (mRASP)多語言預(yù)訓(xùn)練算法,把幾十種語言語料融合在一起訓(xùn)練,獲得的模型在具體語對上微調(diào)取得了44個語對的業(yè)界最佳性能。

      據(jù)悉,目前研究界主流的多語言翻譯模型主要在英語相關(guān)的語對上進行訓(xùn)練。這樣的系統(tǒng)通常在英語相關(guān)的語向(有監(jiān)督語向)上表現(xiàn)不錯,而在非英語方向(零資源方向)的翻譯效果不佳。針對這個問題,火山翻譯團隊近期提出了更簡潔優(yōu)雅的大規(guī)模多語言預(yù)訓(xùn)練新范式mRASP2,通過引入對比學(xué)習(xí),輔以對齊增強方法,將單語語料和雙語語料囊括在統(tǒng)一的訓(xùn)練框架之下,旨在充分利用語料,學(xué)習(xí)更好的語言表示,并由此提升多語言翻譯性能。

      這一多語言預(yù)訓(xùn)練新范式運用在機器翻譯時,就像是一個精通兩三門語言的人類學(xué)者,在學(xué)習(xí)另一門語言時,速度就會更快?!叭祟愒诙嗾Z言學(xué)習(xí)過程中會自發(fā)去總結(jié)語言學(xué)習(xí)中比較抽象的共性,再去學(xué)習(xí)新語言的特性。因此想要提升個人語言學(xué)習(xí)能力,往往需要學(xué)習(xí)更多的語言。”火山翻譯就將這一規(guī)律植入神經(jīng)網(wǎng)絡(luò)翻譯中,創(chuàng)造出了一個統(tǒng)一的具備多種語言能力的模型,在遇到新的語言時,臨時少量學(xué)習(xí)即可達到很流利的語言水平。

      Transformer模型結(jié)構(gòu)圖(以機器翻譯為例)

      這意味著,無論是語料庫豐富的通用語言,還是訓(xùn)練數(shù)據(jù)稀缺的小語種,機器都可以通過這一新范式,把翻譯能力遷移到不同語言上,使不同語言之間的信息互相利用,完成學(xué)習(xí)迭代。

      隨著語種數(shù)量增加,翻譯任務(wù)增多,對機器自然語言處理任務(wù)的能力水平也提出了新的要求。

      早在2019年12月,火山翻譯團隊曾經(jīng)開源過一款Transformer類模型推理加速引擎LightSeq。作為業(yè)界第一款支持多種模型和解碼方法的推理加速引擎,LightSeq的推理速度快于其他同類軟件,更是遠遠超過了TensorFlow和PyTorch。

      猜你喜歡
      語種跳動字節(jié)
      No.8 字節(jié)跳動將推出獨立出口電商APP
      《波斯語課》:兩個人的小語種
      時代郵刊(2021年8期)2021-07-21 07:52:44
      跳動的音符
      跳動的聲音
      No.10 “字節(jié)跳動手機”要來了?
      咚,咚,咚,心臟在跳動
      “一帶一路”背景下我國的外語語種規(guī)劃
      簡談MC7字節(jié)碼
      打造穩(wěn)定跳動的“心臟”
      太空探索(2014年3期)2014-07-10 14:59:39
      人類進入“澤它時代”
      南木林县| 望谟县| 德阳市| 新乡县| 太和县| 广元市| 博乐市| 乳源| 合肥市| 丽江市| 攀枝花市| 龙海市| 淮北市| 胶州市| 屯门区| 四川省| 巫山县| 城步| 平顶山市| 五寨县| 大丰市| 连城县| 盱眙县| 威海市| 宁阳县| 会同县| 肥乡县| 神木县| 岢岚县| 大洼县| 镇安县| 石首市| 山东省| 鄂尔多斯市| 柞水县| 鹤岗市| 黑水县| 安远县| 吉林省| 九龙县| 裕民县|