魏雪峰 王強(qiáng) 曾海軍 沈陽
[摘? ?要] 吾守爾·斯拉木院士闡述了多語種信息處理技術(shù)的發(fā)展現(xiàn)狀,圍繞新興技術(shù)與多語種智能信息處理的結(jié)合對(duì)教育的影響、民族語言信息化在“一帶一路”建設(shè)中的特色和優(yōu)勢,以及多語種智能信息處理的產(chǎn)學(xué)研一體化發(fā)展等方面提出了諸多有價(jià)值的建議。吾守爾院士團(tuán)隊(duì)開拓了計(jì)算機(jī)民文信息處理新領(lǐng)域,突破和解決了民文信息處理領(lǐng)域的許多關(guān)鍵理論及核心技術(shù);分析了大數(shù)據(jù)和人工智能技術(shù)在多語種智能信息處理中的應(yīng)用,研發(fā)了智能雙語教學(xué)系統(tǒng),有效解決了民族教育發(fā)展不均衡、優(yōu)質(zhì)教育資源不能充分利用的問題;結(jié)合“一帶一路”倡議,建設(shè)教育信息化“絲綢之路”,針對(duì)不同沿線國家共建需要開展“多語種+”跨文化教育;分析了人工智能與多語種智能信息化處理相融合的交叉學(xué)科對(duì)學(xué)科建設(shè)和人才培養(yǎng)的影響。
[關(guān)鍵詞] 智能時(shí)代; 人工智能; 多語種; 信息處理
[中圖分類號(hào)] G434? ? ? ? ? ? [文獻(xiàn)標(biāo)志碼] A
[作者簡介] 魏雪峰(1981—),男,山東萊蕪人。教授,博士,主要從事人工智能與教育研究。E-mail:xuefengwei99@163.com。沈陽為通訊作者,E-mail:shenyang@bnu.edu.cn。
一、多語種信息處理技術(shù)的溯源及發(fā)展現(xiàn)狀
訪談?wù)撸何崾貭栐菏?,您好!非常感謝您撥冗接受我們的采訪。您是維吾爾族唯一的院士,研發(fā)出20多種多語種信息處理系統(tǒng)軟件和工具,開拓了計(jì)算機(jī)民文信息處理新領(lǐng)域,突破和解決了民文信息處理領(lǐng)域的許多關(guān)鍵理論及核心技術(shù)。作為多語種信息化領(lǐng)域的著名專家、帶頭人,請(qǐng)您給大家介紹一下多語種信息處理的內(nèi)涵和發(fā)展歷程。
吾守爾·斯拉木:20世紀(jì)80年代初,計(jì)算機(jī)、互聯(lián)網(wǎng)等現(xiàn)代信息技術(shù)的出現(xiàn)給世界科技和產(chǎn)業(yè)等各領(lǐng)域帶來巨大的沖擊和變革,信息化成為歷史的發(fā)展趨勢并逐漸滲透、改變?nèi)藗兊纳詈桶l(fā)展方式。當(dāng)時(shí)的計(jì)算機(jī)剛引入國內(nèi),操作系統(tǒng)為英文,如何讓計(jì)算機(jī)能識(shí)別并處理少數(shù)民族語言文字,這在當(dāng)時(shí)完全是一個(gè)不可企及的夢,要知道操作系統(tǒng)從英文到中文的本地化,匯聚了國內(nèi)學(xué)術(shù)界大批優(yōu)秀人才和工業(yè)界上百個(gè)企業(yè)的力量才實(shí)現(xiàn)。通過分析解剖Dos的輸入、輸出及數(shù)百個(gè)功能調(diào)用模塊,在IBM PC/XT電腦上成功研發(fā)完成基于Dos2.0操作系統(tǒng)的多語種綜合信息處理系統(tǒng),實(shí)現(xiàn)了維哈柯文與漢語、英語完全兼容的混合處理功能,達(dá)到同類漢語操作系統(tǒng)的同等水平[1]。1986年4月,我們團(tuán)隊(duì)開發(fā)的多語種綜合信息系統(tǒng)軟件在新疆人大會(huì)議上應(yīng)用,實(shí)現(xiàn)了會(huì)議管理、會(huì)議資料和參會(huì)代表資料的維哈柯文錄入、打印、排版。這一成果轟動(dòng)了新疆乃至中西亞各界。
通過不斷研發(fā)Dos3.0至Dos6.2系列操作系統(tǒng)及應(yīng)用軟件,針對(duì)維哈柯文獨(dú)有的自動(dòng)選型、雙向混合處理等特點(diǎn),研發(fā)出不同版本的維哈柯文輸入法、維漢聲圖文一體化系統(tǒng)。針對(duì)維哈柯文獨(dú)有的字符連筆、不等寬、右向輸入等文字特點(diǎn),創(chuàng)造出維哈柯文變寬字符選形插入連接、連筆字左右字符智能判斷、智能組合、光標(biāo)不等寬管理等特殊技術(shù)和機(jī)制[2],使方塊字處理技術(shù)發(fā)展成為變寬連筆字處理技術(shù),基于上述技術(shù)基礎(chǔ)實(shí)現(xiàn)Windows3.1/95/98/2000系列及其他許多應(yīng)用軟件、多媒體軟件、網(wǎng)絡(luò)應(yīng)用軟件的維哈柯文版本,并在全新疆及部分中西亞國家推廣應(yīng)用,其技術(shù)達(dá)到國際先進(jìn)水平,屬國內(nèi)首創(chuàng)。
20世紀(jì)90年代初,通過剖析Windows系列體系結(jié)構(gòu)及內(nèi)核機(jī)制,提出并創(chuàng)建了外掛式嵌入方法,攻克了維哈柯文的混合智能輸入編輯、嵌入式在線處理、分音節(jié)、分欄混排等多個(gè)關(guān)鍵技術(shù)[3],解決了維哈柯文信息的網(wǎng)絡(luò)傳送接收等國際難題[3]。徹底淘汰了原來辦公用的維哈柯文機(jī)械打字機(jī)和蠟紙刻錄方式,促使其進(jìn)入電與光的時(shí)代,推動(dòng)維哈柯文鉛印排版革新為電子印刷排版,為維哈柯文信息處理進(jìn)入電子化、自動(dòng)化、網(wǎng)絡(luò)化、多媒體化、智能化打下良好基礎(chǔ)。
通過剖析Linux系列系統(tǒng)及嵌入式系統(tǒng)內(nèi)核結(jié)構(gòu)、國際化機(jī)制,創(chuàng)建了維哈柯文信息混合處理、輸入編輯、存取檢索、發(fā)送接收等技術(shù)及國際化、本地化機(jī)制,研發(fā)出具有自主知識(shí)產(chǎn)權(quán)的Linux系列維哈柯文操作系統(tǒng)桌面版、服務(wù)器版及應(yīng)用軟件,開發(fā)了多語種智能輸入聯(lián)想式3G、幾種CDMA及飛利浦手機(jī),為多語種國產(chǎn)軟件奠定了基礎(chǔ)[3]。創(chuàng)立了維哈柯文的附加管道——嵌入式字庫技術(shù),在線顯示處理和IME技術(shù),解決了維哈柯聲、圖、文混合文件的傳輸和接收展示問題,實(shí)現(xiàn)不安裝民文軟件也能正常瀏覽網(wǎng)站信息,解決了維哈柯文信息處理與交換面向全國、面向國際的難題,為新疆信息化事業(yè)保駕護(hù)航、為新疆信息化事業(yè)的多語種化、多媒體化、網(wǎng)絡(luò)化提供技術(shù)支撐。
近年來,帶領(lǐng)團(tuán)隊(duì)對(duì)自然語言理解、智能語音交互、機(jī)器翻譯、視頻圖文處理等方面展開研究,針對(duì)典型反恐場景,結(jié)合可實(shí)際運(yùn)行的示范應(yīng)用場景,突破現(xiàn)有地區(qū)安全精細(xì)化程度不足的重大應(yīng)用問題,構(gòu)建了面向公共安全的多語言輿情監(jiān)測、預(yù)警系統(tǒng),實(shí)現(xiàn)了苗頭性涉政涉恐事件提前發(fā)現(xiàn)、提前預(yù)警等功能,為實(shí)現(xiàn)地區(qū)安全能力升級(jí)、社會(huì)穩(wěn)定和長治久安提供關(guān)鍵理論與技術(shù)支撐。
訪談?wù)撸耗脱芯繄F(tuán)隊(duì)經(jīng)過長期攻關(guān),將維吾爾文、哈薩克文、柯爾克孜文嵌入計(jì)算機(jī)系統(tǒng),方便使用民族語言對(duì)計(jì)算機(jī)進(jìn)行操作,這在技術(shù)方面遇到了哪些挑戰(zhàn)?
吾守爾·斯拉木:維吾爾文、哈薩克文、柯爾克孜文(以下簡稱維哈柯文)屬于阿爾泰語系,其書寫方式為自右向左,具有字符變形、連筆、不等寬等與漢英文完全不同的特點(diǎn)[4],另外當(dāng)時(shí)前后端使用的字庫相互不兼容,會(huì)導(dǎo)致“前后端不一致”的問題,這些問題深深困擾著照排輸出用戶。20世紀(jì)90年代,針對(duì)上述問題,自主研發(fā)出民文信息處理系統(tǒng)使用的點(diǎn)陣字體和矢量字體,在微軟和Adobe公司聯(lián)合推出的Trutype字體基礎(chǔ)上編制出16×16、16×8全角、半角點(diǎn)陣維吾爾字庫和矢量字庫,制定了符合國家G18030標(biāo)準(zhǔn)的信息交換維、哈、柯文信息技術(shù)三項(xiàng)國家標(biāo)準(zhǔn),后來又研制了4種與此對(duì)應(yīng)的OpenType字體,使OpenType字體技術(shù)首次在新疆使用,提高了維哈柯文在新聞、圖書、報(bào)刊電子印刷等方面的印刷質(zhì)量和系統(tǒng)健壯性,為系統(tǒng)開發(fā)人員帶來方便。1987年,最早研發(fā)的維哈柯文信息文輸入法1發(fā)展成自動(dòng)選型輸入技術(shù),該技術(shù)僅僅把33個(gè)維文字母布置到鍵盤上,讓計(jì)算機(jī)自動(dòng)選型(首連體、中連體、尾連體、獨(dú)立體),大大提高了維哈柯文的輸入效率[5]。同時(shí)制定了鍵盤布局的國家標(biāo)準(zhǔn),提出創(chuàng)立了文字雙向輸入及混合編輯技術(shù)、光標(biāo)不等寬控制技術(shù)、多語言混排技術(shù),設(shè)計(jì)出相關(guān)詞庫,后來又研制出維哈柯智能輸入法、語音輸入法等技術(shù),為維哈柯操作系統(tǒng)、辦公套件的智能化、產(chǎn)業(yè)化應(yīng)用打下堅(jiān)實(shí)基礎(chǔ)。
為了推進(jìn)維、哈、柯文信息處理的標(biāo)準(zhǔn)化、規(guī)范化,把原來的維文56個(gè)基本字符、哈文50個(gè)字符、柯文49個(gè)基本字符輸入鍵盤布局技術(shù),發(fā)展成獨(dú)立字母自動(dòng)選型輸入鍵盤布局技術(shù),制定了維哈柯信息技術(shù)鍵盤布局國家標(biāo)準(zhǔn)。這些標(biāo)準(zhǔn)為多種文字共用計(jì)算機(jī)帶來極大的方便,意義非常大[6]。
二、民族語言信息化:夯實(shí)民族教育發(fā)展之基
訪談?wù)撸何覈冀K高度重視雙語教育,國務(wù)院印發(fā)的《國務(wù)院關(guān)于加快發(fā)展民族教育的決定》規(guī)定: “科學(xué)穩(wěn)妥推行雙語教育”的方針。在教學(xué)方面,您合作研發(fā)了智能雙語教學(xué)系統(tǒng),您能介紹一下智能雙語系統(tǒng)在教學(xué)中的應(yīng)用以及效果嗎?
吾守爾·斯拉木:新疆是一個(gè)多民族、多語言的地區(qū),尚未掌握或根本不懂漢語的少數(shù)民族占大多數(shù),特別是熟練掌握漢語的雙語人口比例很低,這就導(dǎo)致教育資源匱乏的新疆更加落后。漢語作為國家通用語言,加快推廣普及工作,對(duì)于偏遠(yuǎn)地區(qū)的教育均衡、脫貧攻堅(jiān)更是至關(guān)重要。掌握好漢語對(duì)于加強(qiáng)各民族間的交流溝通,增進(jìn)民族團(tuán)結(jié),維護(hù)祖國統(tǒng)一,實(shí)現(xiàn)新疆的社會(huì)穩(wěn)定和長治久安具有重要而深遠(yuǎn)的意義。發(fā)揮“互聯(lián)網(wǎng)+”技術(shù)的作用,利用人工智能、多語種智能互譯等技術(shù)手段研制“能聽會(huì)說”的教學(xué)設(shè)備、觸手可及的教學(xué)資源,可以有效解決當(dāng)前教育發(fā)展不均衡、優(yōu)質(zhì)教育資源不能充分利用的問題。通過“云端”的點(diǎn)對(duì)點(diǎn)教學(xué)模式,可以讓每位學(xué)習(xí)者擁有一位AI老師實(shí)時(shí)幫助學(xué)習(xí)者糾正發(fā)音、高效學(xué)習(xí),從而促進(jìn)多樣化、個(gè)性化學(xué)習(xí),讓學(xué)生隨時(shí)隨地學(xué)習(xí),讓教學(xué)變得更加專注和深入。智能遠(yuǎn)程教育打破了時(shí)空限制,支持遠(yuǎn)程多地互動(dòng)教學(xué),可以為少數(shù)民族和偏遠(yuǎn)地區(qū)的孩子構(gòu)建班級(jí)標(biāo)準(zhǔn)的語言環(huán)境,實(shí)現(xiàn)優(yōu)質(zhì)教學(xué)資源共享,助力國家通用語言文字工作和推動(dòng)脫貧攻堅(jiān)邁上全新的臺(tái)階。
訪談?wù)撸耗难芯繄F(tuán)隊(duì)開發(fā)了智能語音識(shí)別系統(tǒng),能識(shí)別少數(shù)民族語言文字、聽“懂”少數(shù)民族語言,也能根據(jù)文字讀出文章內(nèi)容。目前,智能語音識(shí)別系統(tǒng)已在教學(xué)中應(yīng)用,您覺得對(duì)我國少數(shù)民族教育事業(yè)的發(fā)展會(huì)產(chǎn)生什么影響?
吾守爾·斯拉木:實(shí)現(xiàn)語言互通最便捷的方式就是利用語音識(shí)別、語音合成、機(jī)器翻譯手段實(shí)現(xiàn)智能語音交互,并在教育、文化、旅游、通信、安全等領(lǐng)域推廣應(yīng)用。為此,我們研究了多語言的詞法、句法、語義、篇章、情感、蘊(yùn)含、信息抽取等語言分析方法,研究復(fù)雜形態(tài)語言和長距離語言模型、聲學(xué)模型、跨語言文法推導(dǎo)方法等,重點(diǎn)突破同語系和跨語系語言機(jī)器翻譯方法和訓(xùn)練模型,開展維漢等語音識(shí)別、語音合成、機(jī)器翻譯研究開發(fā)[7],研發(fā)出維漢雙向語音翻譯系統(tǒng),目前,我們維漢互譯已經(jīng)達(dá)到實(shí)用化水平,部分語音識(shí)別準(zhǔn)確率已達(dá)到95%以上。在此基礎(chǔ)上,通過互聯(lián)網(wǎng)把語音云、智能識(shí)別等技術(shù)應(yīng)用到少數(shù)民族的遠(yuǎn)程教育、雙語教育中。這些可以擴(kuò)大優(yōu)質(zhì)資源覆蓋面,助力優(yōu)質(zhì)教育資源輸血給教育資源欠缺地區(qū),對(duì)于促進(jìn)教育發(fā)展均衡,改變偏遠(yuǎn)地區(qū)落后教育現(xiàn)狀起了重大作用。另外,隨著“一帶一路”建設(shè)的深入推進(jìn),中央提出加快培養(yǎng)拔尖創(chuàng)新人才、非通用語種人才、國際組織人才、國別和區(qū)域研究人才等,在新形勢下,“多語種+”的研究可以助力打破學(xué)科壁壘和專業(yè)藩籬,培養(yǎng)復(fù)合型人才,提高新疆少數(shù)民族學(xué)生學(xué)業(yè)成就、知識(shí)水平,開闊他們的視野,培養(yǎng)經(jīng)濟(jì)社會(huì)發(fā)展所需的民漢兼通性人才,加強(qiáng)各民族文化交流、交融,讓他們深入理解中華民族優(yōu)秀傳統(tǒng)文化,增強(qiáng)國家和民族認(rèn)同感,推動(dòng)民族團(tuán)結(jié)進(jìn)步,鑄牢中華民族共同體意識(shí)[8]。
三、多語種智能信息處理技術(shù):拓寬國際教育信息化的“絲綢之路”
訪談?wù)撸涸谛畔⒒l(fā)展歷程中,大數(shù)據(jù)與人工智能等技術(shù)將被廣泛應(yīng)用于教育領(lǐng)域。您帶領(lǐng)團(tuán)隊(duì)致力于研究基于云平臺(tái)的多語種大數(shù)據(jù)處理、智能分析技術(shù),從跨民族、跨文化教育的視角來看,將催生怎樣的技術(shù)發(fā)展新趨勢?
吾守爾·斯拉木:利用現(xiàn)代化技術(shù)手段,建立大規(guī)模、跨語言、多模態(tài)的多媒體語言資源工作對(duì)于開展語言研究進(jìn)而突破同語系、跨語言互通意義深遠(yuǎn),結(jié)合教育場景來看,其深遠(yuǎn)意義在于夯實(shí)跨文化、跨民族教育的基礎(chǔ)。
我們團(tuán)隊(duì)的維哈柯語料庫平臺(tái)[9],主要包含大型平行語料庫、詞性標(biāo)注語料庫、語法信息詞典、語言形態(tài)分析庫、詞頻統(tǒng)計(jì)庫、語義知識(shí)庫等,建設(shè)了大規(guī)模、多層次綜合型多語言知識(shí)庫系統(tǒng)。重點(diǎn)研究多種自然語言智能理解技術(shù)、同語系和跨語系自然語言機(jī)器翻譯方法和模型,研究阿爾泰語系、印歐語系等中西亞語系的詞法、句法、語義、篇章、情感、蘊(yùn)含、信息抽取等語言分析方法,突破了同語系相似語言的互譯對(duì)齊和跨語系的序列遷移學(xué)習(xí)和深度學(xué)習(xí)等技術(shù),基于黏著語的形態(tài)豐富與黏著性特點(diǎn)、同語言多文字等問題,開展了編碼轉(zhuǎn)換、語種識(shí)別、文字校對(duì)、詞干提取、詞類標(biāo)注、命名實(shí)體識(shí)別與關(guān)系抽取、句法分析、框架語義構(gòu)建與語義角色標(biāo)注等方面的研究[10],研發(fā)了維哈柯文字校對(duì)中間件、維哈編碼轉(zhuǎn)換與語種識(shí)別系統(tǒng)、維語句法分析軟件、維文命名實(shí)體識(shí)別中間件、維語框架語義平臺(tái)以及維、哈詞法分析軟件等10余項(xiàng)多語言語料智能處理與管理系統(tǒng),填補(bǔ)了我國面向黏著語的自然語言處理技術(shù)的空白,為進(jìn)一步研究中西亞語言的自然語言處理奠定基礎(chǔ)。
我認(rèn)為,隨著“一帶一路”建設(shè)深入推進(jìn),需要進(jìn)一步整合語種資源、數(shù)據(jù)資源,利用云計(jì)算、人工智能、大數(shù)據(jù)等技術(shù)深入開展智能語音交互、多語言翻譯、視頻圖像處理、人臉識(shí)別、智慧教育等方面的研究,重點(diǎn)開發(fā)一批高度本地化、個(gè)性化及產(chǎn)業(yè)化的基礎(chǔ)共性軟件及信息化平臺(tái)、跨語言智能化系統(tǒng)、應(yīng)用軟件,從根本上解決“一帶一路”信息技術(shù)支撐體系和云服務(wù)產(chǎn)業(yè);構(gòu)建大數(shù)據(jù)信息融合處理平臺(tái)、網(wǎng)絡(luò)信息安全服務(wù)體系,開展跨語言網(wǎng)絡(luò)信息內(nèi)容安全研究,跨媒體多語言社會(huì)輿情分析與監(jiān)測系統(tǒng)研發(fā);搭建“一帶一路”區(qū)域信息走廊及其服務(wù)體系,軍民融合、國家化應(yīng)用機(jī)制;研究多語言信息交換、信息抽取、自動(dòng)文摘、跨語言檢索、人機(jī)智能問答、機(jī)器翻譯等技術(shù),構(gòu)建“互聯(lián)網(wǎng)+”語言服務(wù)模式,通過云平臺(tái)、智能平臺(tái)、在線翻譯等服務(wù)平臺(tái)提供智能教育、遠(yuǎn)程教學(xué)平臺(tái)、多語言多媒體課件、雙語教育等現(xiàn)代教育服務(wù),提升互聯(lián)網(wǎng)條件下的現(xiàn)代化教學(xué)服務(wù)效率和專業(yè)化水平;推動(dòng)人才培養(yǎng)模式、教學(xué)方法改革,促進(jìn)構(gòu)建包含智能學(xué)習(xí)、交互式學(xué)習(xí)的新型教育體系。
訪談?wù)撸弘S著“一帶一路”倡議構(gòu)想的逐步實(shí)施,我國與沿線各國的經(jīng)濟(jì)貿(mào)易、區(qū)域合作、金融文化交流與合作、互聯(lián)互通,勢必需要利用信息與網(wǎng)絡(luò)平臺(tái)和新媒體手段,通過教育信息化“絲綢之路”的建設(shè),來進(jìn)一步深化文化與信息交流。國家語委與新疆大學(xué)共同建設(shè)新疆多語種信息技術(shù)研究中心,請(qǐng)您介紹一下如何發(fā)揮該中心在信息技術(shù)與新疆及中西亞多語種的融合上所具有的特色和優(yōu)勢,服務(wù)“一帶一路”建設(shè)?
吾守爾·斯拉木:2017年,國家語委與新疆大學(xué)簽約共建新疆多語種信息技術(shù)研究中心(以下簡稱中心),這是國家語委與西部高校共建的第一家科研機(jī)構(gòu),中心以國家“一帶一路”倡議、新疆社會(huì)穩(wěn)定和長治久安、國家通用語言文字的普及、語言文字信息化建設(shè)、國家語言文字服務(wù)能力提升、各民族語言文字的科學(xué)保護(hù)等國家所面臨的重大需求為導(dǎo)向,根據(jù)國家語言文字事業(yè)發(fā)展規(guī)劃,以新疆維吾爾語、哈薩克語、柯爾克孜語、錫伯語等民族語言為主要研究對(duì)象,在漢語和維哈柯語之間的信息轉(zhuǎn)換和交流的基礎(chǔ)上進(jìn)一步擴(kuò)充,研發(fā)漢語和烏茲別克語、吉爾吉斯語等中西亞語言的信息交換的智能化工具和平臺(tái);開展在統(tǒng)一框架下的中西亞阿爾泰語系語言的語音聲學(xué)參數(shù)數(shù)據(jù)庫建設(shè),開展少數(shù)民族語言和中西亞國家多語言、多模態(tài)資源與知識(shí)庫建設(shè)及相關(guān)標(biāo)準(zhǔn)、規(guī)范的制定;發(fā)揮在Windows/Linux系列、嵌入式操作系統(tǒng)、辦公套件、手機(jī)軟件等方面的優(yōu)勢與特色,研發(fā)中西亞語言的多語種操作系統(tǒng)平臺(tái)及其多文種Office等基礎(chǔ)軟件,以及電子商務(wù)、物流網(wǎng)、數(shù)據(jù)中心等多語種跨境電子平臺(tái)系統(tǒng),為國家軟件出口及服務(wù)外包戰(zhàn)略提供有力支撐[11];開展新疆少數(shù)民族語言和中西亞國家語言文字自然語言理解、智能語音交互、機(jī)器翻譯、面向公共安全的輿情監(jiān)測等技術(shù)研究,推動(dòng)在相應(yīng)國家的外貿(mào)銷售、文化交流,促進(jìn)我國多語種信息處理技術(shù)和成果在“一帶一路”建設(shè)中的輻射、引領(lǐng)性作用;開展“絲綢之路經(jīng)濟(jì)帶多種自然語言互譯平臺(tái)”研究與建設(shè);開展國家通用文字普及、學(xué)習(xí)與評(píng)測平臺(tái)的研發(fā);開展服務(wù)特殊人群的語言文字信息技術(shù)研究。
根據(jù)人工智能一級(jí)學(xué)科建設(shè)進(jìn)程,中心致力于推動(dòng)多語言自然語言處理、語音識(shí)別成為人工智能學(xué)科下的二級(jí)學(xué)科,建設(shè)多語言自然語言處理及語音識(shí)別的課程體系、培養(yǎng)方案,開展高水平學(xué)術(shù)活動(dòng),探索教學(xué)和實(shí)踐的人才培養(yǎng)模式,豐富學(xué)科發(fā)展,為國家和自治區(qū)培養(yǎng)優(yōu)秀的現(xiàn)代化人才。以國家語言文字需求為發(fā)展導(dǎo)向,以學(xué)術(shù)研究為基礎(chǔ),積極推動(dòng)多語言自然語言處理、智能語音交互等技術(shù)手段在新疆及中西亞國家的應(yīng)用;積極承擔(dān)國家和自治區(qū)的重大科研項(xiàng)目,攻關(guān)“卡脖子”問題,為“一帶一路”提供科技支撐;積極開展與中西亞國在語言、文化、科技、教育等方面的國際交流,培養(yǎng)跨文化人才,助力國家“一帶一路”倡議的實(shí)施。
訪談?wù)撸耗疤岬叫枰跐h語和維吾爾語之間的信息轉(zhuǎn)換和交流的基礎(chǔ)上進(jìn)一步擴(kuò)充,開發(fā)漢語和哈薩克語、烏茲別克語、吉爾吉斯語、土耳其語,乃至阿拉伯語信息交換的智能化工具和平臺(tái),為“一帶一路”的信息交流和人文交流提供智能化的工具和平臺(tái)。您認(rèn)為民族語言信息化對(duì)“一帶一路”沿線國家的跨文化人才培養(yǎng)有什么影響?
吾守爾·斯拉木:自習(xí)近平總書記提出“一帶一路”倡議以來,全世界都高度關(guān)注,沿線許多國家也都積極響應(yīng)。民心相通是“一帶一路”建設(shè)的重要內(nèi)容,也是“一帶一路”建設(shè)的人文基礎(chǔ),然而沿線60多個(gè)國家在歷史傳統(tǒng)、語言文化、社會(huì)制度、風(fēng)俗習(xí)慣等方面存在較大差異,因此,如何消除語言障礙和文化隔閡是“一帶一路”建設(shè)的重要環(huán)節(jié)。古絲綢之路的開辟,始于漢武帝派張騫出使西域,有了對(duì)沿線風(fēng)土人情的考察和了解。今天的“一帶一路”建設(shè),也要從文化交融入手,在沿線60多個(gè)國家中有200多種語言都是非通用語言,通過對(duì)我國民族語言的信息化建設(shè),研究復(fù)雜形態(tài)語言和長距離語言模型、跨語言文法推導(dǎo)方法等,突破同語系和跨語系語言機(jī)器翻譯方法和模型、多語種信息化智能化技術(shù),可以消除語言隔閡,為“一帶一路”建設(shè)提供技術(shù)支撐。總體而言,我國在跨語言人才培養(yǎng)中尚存在一些缺陷和不足,一是了解西方主要發(fā)達(dá)國家語言文化和社會(huì)制度的人員比較多,而了解中小發(fā)展中國家相關(guān)情況的人員比較少;二是能夠聽、寫國外語言的人雖然多,但真正深入了解外國政策法規(guī)、決策程序、民心走向的人比較少。
通過對(duì)我國民族語言信息化平臺(tái)的建設(shè),可以為我國培養(yǎng)高水平人才,讓更多青年學(xué)生對(duì)“一帶一路”沿線中小國家的語言產(chǎn)生興趣、引發(fā)關(guān)注。最后,“一帶一路”建設(shè)需要健全的跨文化教育體系、搭建跨境人文教育交流平臺(tái),多語種信息化就可以搭建交流平臺(tái),實(shí)現(xiàn)一民族對(duì)其它民族文化信息的獲取和學(xué)習(xí)交流,努力打造好利益共同體、責(zé)任共同體、命運(yùn)共同體,為“一帶一路”營造良好的人文交流環(huán)境。
四、“產(chǎn)學(xué)研一體化”加速推進(jìn)民族教育
信息化步入快軌
訪談?wù)撸簭狞h的十八大報(bào)告中指出的“產(chǎn)學(xué)研相結(jié)合”到黨的十九大報(bào)告中的“產(chǎn)學(xué)研深度融合”,反映了國家對(duì)產(chǎn)學(xué)研協(xié)同性的高度重視和更高期待。您及您的團(tuán)隊(duì)打造出多語種信息技術(shù)研發(fā)、生產(chǎn)、經(jīng)營、服務(wù)一體化的產(chǎn)學(xué)研基地,您認(rèn)為實(shí)驗(yàn)室多語種信息技術(shù)的研發(fā)向產(chǎn)業(yè)化轉(zhuǎn)化對(duì)新疆信息化建設(shè)有何意義?
吾守爾·斯拉木:黨的十九屆四中全會(huì)審議通過的《中共中央關(guān)于堅(jiān)持和完善社會(huì)主義制度、推進(jìn)國家治理體系和治理現(xiàn)代化若干重大問題的決定》(以下簡稱《決定》),立足加快建設(shè)創(chuàng)新型國家的全局,重申黨的十九大報(bào)告關(guān)于“建立企業(yè)為主體、市場為導(dǎo)向、產(chǎn)學(xué)研深度融合的技術(shù)創(chuàng)新體系”的總體要求,將其作為“完善科技創(chuàng)新體制機(jī)制”系列部署中的關(guān)鍵環(huán)節(jié),對(duì)我國企業(yè)、高校、科研院所的協(xié)同創(chuàng)新,開創(chuàng)合作共贏新局面提出了更高的要求。這就要求高校和企業(yè)相互跟進(jìn)搭建產(chǎn)學(xué)研協(xié)同創(chuàng)新、深度融合的資源服務(wù)平臺(tái),聯(lián)合組建攻關(guān)團(tuán)隊(duì),促進(jìn)我國產(chǎn)學(xué)研協(xié)同創(chuàng)新、深度融合發(fā)展。
新疆是“一帶一路”建設(shè)的核心區(qū)、橋頭堡,新疆大學(xué)是新疆信息化建設(shè)的排頭兵,一向高度重視產(chǎn)學(xué)研的深度融合。2019年,清華大學(xué)與新疆大學(xué)成立了新疆大學(xué)人工智能創(chuàng)新團(tuán)隊(duì)清華指導(dǎo)委員會(huì),新疆大學(xué)成立了人工智能研究院,聯(lián)合國家計(jì)算網(wǎng)絡(luò)信息安全管理中心籌建了新疆網(wǎng)絡(luò)空間安全聯(lián)合實(shí)驗(yàn)室,聯(lián)合電子科技大學(xué)、清華大學(xué)等申報(bào)了“一帶一路”國際聯(lián)合實(shí)驗(yàn)室。這些研究平臺(tái)首先極大推進(jìn)了新疆企業(yè)、高校、科研機(jī)構(gòu)資源共享、優(yōu)勢互補(bǔ),共建絲路文化資源庫,共同利用數(shù)字化手段對(duì)新疆深厚、博大的文化資源進(jìn)行挖掘梳理,提升新疆的文化軟實(shí)力,擴(kuò)大中華文化的影響力。其次可以整合已有的民文信息技術(shù)成果,完善其標(biāo)準(zhǔn)及技術(shù)支撐體系,建立一套與我國漢語信息處理技術(shù)體系相融合的民文信息處理技術(shù)體系架構(gòu),重點(diǎn)研發(fā)一批我國多語種基礎(chǔ)共性軟件,從根本上解決民文信息處理的核心技術(shù)和產(chǎn)業(yè)化[11]。最后通過共同開展科技創(chuàng)新,推動(dòng)成果轉(zhuǎn)化來提升產(chǎn)業(yè)基礎(chǔ)能力和產(chǎn)業(yè)鏈現(xiàn)代化水平,助力國家及新疆信息化建設(shè)。
訪談?wù)撸航鼉赡?,許多高校相繼開設(shè)人工智能專業(yè),您研究的語音識(shí)別系統(tǒng)、智能雙語教學(xué)系統(tǒng)也體現(xiàn)了人工智能技術(shù),您認(rèn)為人工智能與多語種信息化處理融合的交叉學(xué)科對(duì)學(xué)科建設(shè)和人才培養(yǎng)帶來什么影響?
吾守爾·斯拉木: 自2013年我國提出“一帶一路”倡議以來,中國企業(yè)和文化走出去的步伐進(jìn)一步加快,使得語言服務(wù)在“一帶一路”建設(shè)中的重要性和基礎(chǔ)地位更加凸顯出來,非通用語言、小語種的服務(wù)需求急劇上升,當(dāng)今世界正步入一個(gè)“多語種+”的時(shí)代,高校必須積極為國家儲(chǔ)備面向未來需要的人才。各高校應(yīng)注意“差別化發(fā)展”,堅(jiān)持將大數(shù)據(jù)、云計(jì)算、人工智能、深度學(xué)習(xí)、智慧教學(xué)等技術(shù)方法與自身優(yōu)勢相結(jié)合,走特色發(fā)展之路,突出自己的特色、突出創(chuàng)新特質(zhì),才能求得發(fā)展。當(dāng)然特色并不意味著盲目跟風(fēng),被牽著鼻子走,堅(jiān)持“特色”也絕非固步自封,我們要堅(jiān)持的是特色中追求一流,謀取發(fā)展,以點(diǎn)帶面,形成良性循環(huán)。各高校、各學(xué)科要打破專業(yè)、學(xué)科壁壘,注意培養(yǎng)學(xué)生思考和認(rèn)識(shí)世界的能力,促進(jìn)學(xué)生對(duì)中西文化的深刻理解,培養(yǎng)具有人文情懷、全球視野、創(chuàng)新精神和實(shí)踐能力的跨文化、跨國別的“多語種+”國際化人才。
國家“一帶一路”倡議需要語言服務(wù)來鋪軌架橋,要實(shí)現(xiàn)民心相通,首要核心問題就是語言服務(wù),語言服務(wù)能力已成為國家參與全球化事務(wù)的戰(zhàn)略資源。當(dāng)前高校多注重通用語種、大語種,然而“一帶一路”沿線眾多國家文化、國情民情、需求利益差異很大,非通用語言已超過200種。當(dāng)前我國對(duì)一些非通用語言和小語種的關(guān)注還不夠,存在一定的“赤字”。我們團(tuán)隊(duì)始終堅(jiān)持從理論、方法、工具、系統(tǒng)等四個(gè)方面,結(jié)合新疆的特色與優(yōu)勢,展開阿爾泰語系、阿拉伯語系、印度—伊朗語族的智能語音交互、多語言機(jī)器翻譯、語音合成等研究工作,有針對(duì)性地發(fā)展交叉學(xué)科,在特色上狠下功夫、深入鉆研,提高我國語言服務(wù)的核心競爭力;在人才培養(yǎng)上,科學(xué)制訂具有不同特點(diǎn)的交叉培養(yǎng)方案,將“精領(lǐng)域”和“通國家”相結(jié)合,培養(yǎng)能夠參與全球事務(wù)的“通才”和“專才”;在科學(xué)研究上,要加強(qiáng)基礎(chǔ)理論研究,支持科學(xué)家勇闖人工智能科技前沿的“無人區(qū)”,努力在人工智能發(fā)展方向和理論、方法、工具、系統(tǒng)等方面取得變革性、顛覆性突破;緊緊抓住人工智能基礎(chǔ)研究與原始創(chuàng)新、技術(shù)研發(fā)、場景應(yīng)用三個(gè)關(guān)鍵環(huán)節(jié),不斷開拓新疆少數(shù)民族信息的處理新時(shí)代,推動(dòng)民文信息系統(tǒng)智能化、多媒體化、網(wǎng)絡(luò)化的發(fā)展,發(fā)揮新疆核心區(qū)優(yōu)勢,助力國家“一帶一路”建設(shè)[12]。
[參考文獻(xiàn)]
[1] 劉俊,吾守爾·斯拉木,艾尼宛爾·托乎提.基于Windows的維哈柯文多語種操作系統(tǒng)的研究[J].現(xiàn)代計(jì)算機(jī),2011(10):17-19.
[2] 天山網(wǎng).吾守爾·斯拉木:新疆大學(xué)給予我空間 讓我振翅飛翔[EB/OL].[2011-12-13].http://roll.sohu.com/20111213/n328869882.shtml.
[3] 趙凡.納百川而成海 恒無欲而為剛——吾守爾·斯拉木院士[J].當(dāng)代科學(xué)人,2014(4):1-3.
[4] 吳宗堯,吾守爾,蘇丹.維、哈、柯、漢、英多種文字信息處理系統(tǒng)[J].計(jì)算機(jī)學(xué)報(bào), 1987(3):157-162.
[5] 熱依曼·吐爾遜,吾守爾·斯拉木.維吾爾文手機(jī)輸入關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[J].中文信息學(xué)報(bào),2005,2(20):72-77.
[6] 吾守爾,吳宗堯,蘇丹.計(jì)算機(jī)維、哈、柯文字信息處理標(biāo)準(zhǔn)化方案[J].計(jì)算機(jī)研究與發(fā)展,1986,12(23):33-38.
[7] 努爾麥麥提·尤魯瓦斯,劉俊華,吾守爾·斯拉木,熱依曼·吐爾遜,達(dá)吾勒·阿布都哈依爾.跨語言聲學(xué)模型在維吾爾語語音識(shí)別中的應(yīng)用[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,4(58): 342-346.
[8] 孫杰遠(yuǎn),后慧宏.新時(shí)代民族地區(qū)要堅(jiān)持依法穩(wěn)妥推行雙語教育——兼評(píng)《中國民族教育發(fā)展報(bào)告(2015—2018)·現(xiàn)實(shí)與前瞻: 民族地區(qū)雙語教育研究》[J].民族教育研究,2020,4(31):65-69.
[9] 徐健.維吾爾語語音語料庫管理平臺(tái)的研究與實(shí)現(xiàn)[D].烏魯木齊:新疆大學(xué),2018.
[10] 帕麗旦·木合塔爾,熱依曼·吐爾遜,買買提阿依甫,排孜拉·奴來海買提.基于 Android的維吾爾文詞性標(biāo)注、詞干提取APP的開發(fā)與設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2019,18(42):139-142,146.
[11] 中國經(jīng)濟(jì)網(wǎng).吾守爾·斯拉木:打造“一帶一路”多語種信息平臺(tái)[EB/OL].[2016-08-10].https://www.sohu.com/a/109960026_120702.
[12] 蔡三發(fā),王倩,沈陽.人工智能賦能:高校學(xué)科建設(shè)的創(chuàng)新與發(fā)展——訪中國工程院院士陳杰教授[J].電化教育研究,2020(2):5-9.