• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      不同自然語言的信息處理方法差異概述

      2022-03-07 01:53:12尕藏才讓
      關(guān)鍵詞:漢文藏文語料庫

      尕藏才讓

      關(guān)鍵詞:NLP文本檢查藏文文法

      計算機(jī)時代的到來開啟了自然語言的自動處理先河。早在二戰(zhàn)時期,就有美國數(shù)學(xué)家沃倫·韋弗指出“德語只是用密碼寫成的英語而已”。他在戰(zhàn)后構(gòu)想的機(jī)器翻譯概念直接啟發(fā)和推動了冷戰(zhàn)時期以英俄語翻譯為主的機(jī)器翻譯。自然語言處理從最初的基于規(guī)則的方法,到今天的基于深度學(xué)習(xí)的方法,技術(shù)得到了革命性變革。如今,NLP技術(shù)水平已不同往日,除了機(jī)器翻譯,其還被廣泛應(yīng)用在輿情檢測、自動摘要、文本分類、語音識別、智能問答和人工智能等眾多領(lǐng)域。

      由于互聯(lián)網(wǎng)首先在英語國家發(fā)展成型,所有在現(xiàn)階段的英語處理水平基本上代表著國際最頂尖的NLP技術(shù)水平1)因為各個自然語言的文法規(guī)則有差別,導(dǎo)致各個語種之間的處理技術(shù)有一定的差異性,在進(jìn)行跨語種的NLP技術(shù)的研究時,只能進(jìn)行淺層次的借鑒,而不能完全搬抄。甚至同語言不同方言的NLP技術(shù)都需要設(shè)計和采用不同的算法程序。本文以研究者較為熟練的藏漢兩種文字為例,從文本檢查的角度簡要概述不同語言間,由不同的語言特性所帶來的NLP技術(shù)差異。

      1漢藏NLP技術(shù)發(fā)展回顧

      1.1漢文的NLP技術(shù)發(fā)展

      漢文是不同于英文的表意字,在語法上與大部分拼音文字有巨大差別。恰如語言學(xué)家王力先生所言:“就句子的結(jié)構(gòu)而言,西洋語言是法治的,中國語言是人治的”。漢文的原始信息化處理開拓極其艱難,早期計算機(jī)和互聯(lián)網(wǎng)在國內(nèi)的大范圍推廣應(yīng)用直接受制于“計算機(jī)漢化”工作進(jìn)度,這也是漢文字信息化處理工作要攻克的第一個難關(guān);1974年,經(jīng)有關(guān)部門批準(zhǔn)將748工程納入國家科技發(fā)展計劃,標(biāo)志著漢文字NLP技術(shù)攻關(guān)在國家層面得到了重視,其成果引發(fā)了印刷業(yè)的改革。其中,748工程又細(xì)分為精密中文編輯排版系統(tǒng)、中文情報檢索系統(tǒng)、中文通信系統(tǒng),三者直接為“計算機(jī)漢化”和中文互聯(lián)網(wǎng)生態(tài)的形成打下了堅實的基礎(chǔ)。發(fā)展至今,“計算機(jī)漢化”問題已基本解決,漢文NLP則更注重于“漢文計算機(jī)化”,即通過計算機(jī)來處理漢文,輔助甚至代替人類進(jìn)行翻譯、語言識別控制、情緒識別等。

      相較其他自然語言,漢文NLP水平已走在世界前列,出現(xiàn)了一批優(yōu)秀的科研機(jī)構(gòu)和科技企業(yè),如清華大學(xué)、哈爾濱工業(yè)大學(xué)、科大訊飛、百度等。通過與知識圖譜的結(jié)合,可廣泛運(yùn)用于教育、醫(yī)療、養(yǎng)老、旅游等領(lǐng)域。此外,因漢文字所固有的語法復(fù)雜、結(jié)構(gòu)不穩(wěn)定等特性,使?jié)h文字的NLP技術(shù)發(fā)展遇到了瓶頸,影響了整個技術(shù)的發(fā)展速度。但這幾年隨著深度學(xué)習(xí)和大規(guī)模語料庫的加持,又使該技術(shù)得到了新的發(fā)展契機(jī)(見圖1)。

      1.2藏文的NLP發(fā)展回顧

      藏文是參考古印度梵文編制的拼音文字[1],其基本由30個輔音1)和4個元音2)組成,有相對穩(wěn)定和嚴(yán)格的文法體系,但又有別于西方流行的拉丁、日耳曼和斯拉夫等語系的左右橫向拼音排列,還具有從上到下的縱向疊加,對NLP技術(shù)的算法提出了更高的要求。20世紀(jì)80年代,改革開放,百業(yè)初興。在國內(nèi)外的NLP技術(shù)大發(fā)展的背景下,藏文NLP技術(shù)研究工作也開始起步[2]———最早見于報道的是張連生于1981年用計算機(jī)進(jìn)行的藏文詞匯排序工作,并于1983年采用李方桂先生提出的藏文羅馬轉(zhuǎn)寫方案,實現(xiàn)了藏文最初的處理系統(tǒng),包括俞樂等人于1984年在VICTOR9000上設(shè)計的藏文處理系統(tǒng)和西北民族大學(xué)在WANGVS/80上實現(xiàn)的藏文字處理系統(tǒng)等。但上述藏文字處理系統(tǒng)缺乏宏觀層面的協(xié)調(diào)和國家統(tǒng)一標(biāo)準(zhǔn)的制訂,呈現(xiàn)了“各自為政,相互不通”的情況,嚴(yán)重制約了整個藏文信息處理研究的進(jìn)一步發(fā)展。不過,1997年7月這種情況迎來了轉(zhuǎn)機(jī)———我國多部門、多地方、多高校聯(lián)合制訂的《信息技術(shù)交換用藏文編碼字符集基本集》通過第33屆SC2/WG2會議,藏文成為我國繼漢文后第二個進(jìn)入國際ISO/IEC10646標(biāo)準(zhǔn)編碼體系的文字。此項標(biāo)準(zhǔn)的制定也正式打開了古老的藏文通向新時代的大門。這前后出現(xiàn)的蘭海藏文系統(tǒng)、TCE藏漢英文信息處理系統(tǒng)、北大方正藏文處理系統(tǒng)都呈現(xiàn)了高標(biāo)準(zhǔn)化的現(xiàn)象。此后,藏文NLP計算的研究對象越發(fā)廣泛,典型的有字詞頻統(tǒng)計、語料庫建設(shè)、自動分詞、機(jī)器翻譯、字詞校對、文本識別等。

      隨著相關(guān)領(lǐng)域的國家和省級重點實驗室在西藏大學(xué)、青海師范大學(xué)等藏區(qū)高校落地,加快促進(jìn)了以計算語言學(xué)為核心的藏文信息處理技術(shù)的研究和各層次人才的培養(yǎng),使藏文信息化處理掀起了一個前所未有的發(fā)展熱潮。2016年8月,云藏搜索引擎在青海省海南藏族自治州正式上線(見圖2),代表著藏文互聯(lián)網(wǎng)和藏文處理技術(shù)形成了規(guī)模龐大的產(chǎn)業(yè)群。為該領(lǐng)域的產(chǎn)研結(jié)合、產(chǎn)教結(jié)合開辟了先河。

      2漢文與藏文NPL技術(shù)在文本檢查方法中的差異概述

      從語言學(xué)的骨架語法角度來看,漢文屬于獨特的“孤立語”,其表義轉(zhuǎn)變主要依賴虛詞和詞序的變化。如“水溫”和“溫水”具有根本詞義上的區(qū)別,但因字之間相互孤立,無所謂字詞的錯誤,而是根據(jù)用詞環(huán)境來界定。而藏文恰恰不同,其語法和表達(dá)方式帶有很強(qiáng)的“黏著語”的特點。即根據(jù)詞根的后綴或內(nèi)部(即藏文的一個字節(jié),以隔音符來界定)的變化實現(xiàn)語義的轉(zhuǎn)變,如“”和“”僅一個元音字母()之差帶來了語義的轉(zhuǎn)變[3]。本文將以漢文和藏文各自的語法差異為出發(fā)點,從自然語言文本處理的四個層面;字、詞、句(上下文無關(guān))、篇(上下文有關(guān)),試述兩種文字NLP技術(shù)的具體差異。

      2.1字層面的拼寫檢查方法差異

      字的處理是進(jìn)行自然語言文本處理的第一步和基礎(chǔ)。因漢文字本身的語法特點,在這層面只需通過統(tǒng)一編碼的漢字庫,就可以杜絕錯別字(即不存在的別字)的出現(xiàn)?,F(xiàn)行的漢字顯示大都由基于Unicode編碼的漢文字機(jī)內(nèi)碼、交換碼、輸入碼、點陣碼、點陣圖來實現(xiàn),形成了龐大的具有6萬余字的字庫,編碼標(biāo)準(zhǔn)號為;GB2312?80。在此不做贅述。

      不過,藏文字層面的檢查和糾錯機(jī)制則更為復(fù)雜[4],藏文由常用的30個輔音字母和10個非常用的輔音字母1)以及“”“”“”“”四種元音字符組成。而30個常用輔音字符中有分別分出10個后加字、5個前加字、2個再(后)加字、3個上加字、4個下加字。一個音節(jié)除了由40個常用和非常用輔音字母擔(dān)任基字外,還可以在基字上添加上、下、前、后、再加字以及元音字母。如果在拼寫環(huán)節(jié)不對語法規(guī)則進(jìn)行限制,以現(xiàn)有的himalaya藏文輸入法為例,在限制字長為7的前提下,能輸入48000組不同音節(jié)字符串,但實際符合藏文音節(jié)2)拼寫規(guī)則的只有8000多組,盲打錯誤率高達(dá)83%。所以,要采用一定的算法規(guī)則,去規(guī)避和糾正不符合語法的錯誤音節(jié)的輸出。

      下文將簡單介紹三種較為可行的方法:一是利用形式語言與自動機(jī)理論,構(gòu)造識別藏文字的有限狀態(tài)自動機(jī),將藏文字作為有限自動機(jī)進(jìn)行輸入,能夠被自動機(jī)識別的藏文字的拼寫則是正確的,否則可能是錯誤的。此方法由西藏大學(xué)尼瑪扎西教授提出;二是對已輸入或正在輸入的藏文字按部件進(jìn)行分解和分析,并在語法上進(jìn)行規(guī)范,從而實現(xiàn)錯別字的過濾。此辦法由青海民族大學(xué)安見才讓教授提出;三是使用向量模型取值設(shè)限去實現(xiàn)音節(jié)內(nèi)的拼寫檢查,參照藏文語法,把藏文中七個部件抽象成向量元素,并以元素數(shù)量設(shè)值,再用語法細(xì)則制定規(guī)則,從而制作向量模型,并將其與向量模型對照映射就可檢查該音節(jié)藏文字符語法的真值結(jié)果。此外,還有基于知識庫和產(chǎn)生式推理等處理方法,在此不做贅述。

      如今,藏文字層面的拼寫檢查理論研究趨于成熟,更多的研究應(yīng)該側(cè)重于實用化。以上部分的藏文語法以《字性組織法》理論為重點3)。

      2.2詞層面的檢查方法差異

      不管是孤立語還是屈折語和黏著語,到詞層面都需要參照相應(yīng)的語法進(jìn)行書寫檢查和糾錯處理,藏漢文字亦如此。此外,藏漢文字有個不同于西方英、法、西等語言的顯著特點———詞與詞之間沒有分隔符。所以,分詞系統(tǒng)的設(shè)計在藏漢兩種語言的NPL技術(shù)中都同樣重要,是詞法分析的基礎(chǔ)性工作。

      在深度學(xué)習(xí)之前,詞層面的處理不外乎基于語言學(xué)知識的規(guī)則約束和基于大規(guī)模語料庫的統(tǒng)計匹配。雖然藏漢兩種文字在這個層面的處理方式差異已經(jīng)變小,但因各自語法的特點,也還有一定的差異。

      藏文詞層面的處理偏向于語法規(guī)則的約束,此方法相較建設(shè)成本高昂的語料庫而言,有成本低、算法穩(wěn)定等優(yōu)點。但其對前期的語法規(guī)則知識歸納和算法設(shè)計要求較高。此外,隨著處理對象的變化,如譯詞、新專用詞以及未登錄詞等的出現(xiàn),必然會導(dǎo)致誤判情況發(fā)生。同時,在區(qū)別近義詞和歧義詞的差別上不靈敏、細(xì)粒度不夠,往往需要語料庫的加持。現(xiàn)流行的一部分Android藏文輸入法帶有一定的聯(lián)想匹配功能,亦是在遵循上述原則上拓展實現(xiàn)的。

      漢文詞層面的處理則偏重于語料庫,通過細(xì)化和擴(kuò)展語料,特別是分詞和標(biāo)記等基礎(chǔ)工作,準(zhǔn)備大容量的熟詞語料庫,加上詞表庫和每個詞運(yùn)用環(huán)境正確,再借助統(tǒng)計和匹配以判斷檢查對象詞的用法正確。到現(xiàn)在,隨著深度學(xué)習(xí)的使用以及預(yù)訓(xùn)練模型等的成熟運(yùn)用,傳統(tǒng)的語料運(yùn)用和建設(shè)變得更為簡單。

      2.3句子層面的檢查方法差異

      句子層面自然語言處理比以上兩個層次更復(fù)雜、更抽象,而藏漢兩種文字的處理方法也進(jìn)一步趨同[5],但還是有一定的差別———比如,藏文在句法層面的處理就要考慮語法規(guī)則《三十頌》,而漢文字更注重考慮詞序和虛詞等語句構(gòu)件的結(jié)構(gòu)和排序。較為常見的方法體系有:短語結(jié)構(gòu)句法體系和依存結(jié)構(gòu)句法體系[6]。簡單舉例如“我在拉薩八廓街?!保匆蕾囮P(guān)系標(biāo)記并寫成樹狀圖(如圖3所示)。

      依存結(jié)構(gòu)句法體系所運(yùn)用的表示形式簡單且可讀性強(qiáng),方便設(shè)計算法。但不同語種都有各自的語法特色,所以剖析依賴關(guān)系時需要注意———比如,漢文字中的把字句、被字句;藏文字中的各類格詞和其他非自主副詞(在藏文字節(jié)之間,其表義和書寫要遵循三十頌語法體系。其中,以格屬詞、格動詞為主的非自主副在與前詞或整個語境結(jié)合時,要嚴(yán)格遵循跨音節(jié)的拼寫規(guī)則)的作用和使用規(guī)則,以免細(xì)微的差異帶來整體語句的變化,導(dǎo)致處理無效或錯誤??梢哉f,藏語句義分析技術(shù)現(xiàn)階段還未成熟[7]。

      2.4語義層面的檢查

      語義層面的處理除了要檢查語法層面的真?zhèn)螁栴},還要結(jié)合上下文,即上下文有關(guān)文法;在語法正確的前提下,判斷整個篇章的語義統(tǒng)一性和邏輯連貫性。該層次的實現(xiàn)對算法要求極高,無法通過簡單的規(guī)則推理和簡單的語料庫匹配來完成,更多地需要借助人工智能的訓(xùn)練和學(xué)習(xí)來實現(xiàn)。如清華大學(xué)楊植麟團(tuán)隊就在近期提出一種不需要預(yù)訓(xùn)練模型的學(xué)習(xí)框架,并以此延伸出任務(wù)驅(qū)動的語言模型,使訓(xùn)練模型能夠準(zhǔn)確地認(rèn)識語句中的細(xì)微差別,能明顯提高計算機(jī)的篇章級語言文字處理水平。以研究者角度來看,經(jīng)過字、詞、句層面,到這一環(huán)節(jié)漢藏文字處理方法基本一致[8~10],可相互借鑒使用。

      3結(jié)語

      除了程序員,計算機(jī)和人類之間大部分的交流無外乎通過各種各樣的自然語言來實現(xiàn)。而計算機(jī)作為當(dāng)今不可或缺的生活、辦公、學(xué)習(xí)工具,提升其對自然語言的識別和處理能力,不但可以提升某種工具的價值,更能使人類實現(xiàn)自我提升、自我解放。以研究者身邊的計算機(jī)和網(wǎng)絡(luò)環(huán)境為例,除了常用的漢文字外,還有一定的藏文數(shù)字信息存在,所以需要對這兩種文字NLP技術(shù)的發(fā)展予以關(guān)注。此外,在很多領(lǐng)域都有這樣的現(xiàn)象,如從事西方某國文字或歷史的專業(yè)研究,但不懂該國的語言文字,從而不能掌握一手資料,只能人云亦云,終究只能困守在一定的學(xué)術(shù)高度而不能出眾。在自然語言處理領(lǐng)域更是如此,進(jìn)行跨語種NLP技術(shù)鉆研的時候,第一步就應(yīng)該學(xué)習(xí)、掌握目標(biāo)語言的語法規(guī)則和運(yùn)用環(huán)境,而非脫離現(xiàn)實,翻閱二手資料,先入為主。這樣,即使自身擁有較高的計算機(jī)水平,往往也因語法知識的局限而亦趨亦步,而不能向前。

      跨語種的信息化處理的第一步應(yīng)該從目標(biāo)語言的語法知識開始??傊?,不管是哪種文字,除了語法上的差別導(dǎo)致處理過程有一定的差異外,目標(biāo)都是一致的,就是能讓計算機(jī)咬文嚼字、又出口成章、代行百事,讓我們?yōu)檫@個目標(biāo)持續(xù)奮斗[11]。

      猜你喜歡
      漢文藏文語料庫
      《內(nèi)蒙古師范大學(xué)學(xué)報(自然科學(xué)漢文版)》征稿簡則
      《內(nèi)蒙古師范大學(xué)學(xué)報(自然科學(xué)漢文版)》征稿簡則
      樂器名稱漢文譯名小議
      西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
      布達(dá)拉(2020年3期)2020-04-13 10:00:07
      《語料庫翻譯文體學(xué)》評介
      黑水城和額濟(jì)納出土藏文文獻(xiàn)簡介
      西夏學(xué)(2019年1期)2019-02-10 06:22:34
      《黑城出土漢文遺書敘錄》中TK133敘錄辨正
      西夏學(xué)(2017年1期)2017-10-24 05:32:10
      把課文的優(yōu)美表達(dá)存進(jìn)語料庫
      藏文音節(jié)字的頻次統(tǒng)計
      現(xiàn)代語境下的藏文報刊
      新聞傳播(2016年17期)2016-07-19 10:12:05
      重庆市| 玉山县| 安图县| 合作市| 泊头市| 贵德县| 翼城县| 恩施市| 辽源市| 共和县| 延庆县| 南充市| 南安市| 泸溪县| 皮山县| 兰溪市| 诏安县| 远安县| 南丹县| 新乡县| 汝州市| 颍上县| 金门县| 武清区| 涿州市| 宽甸| 巴林右旗| 遵化市| 施秉县| 罗定市| 洪湖市| 和平县| 青冈县| 万盛区| 佛山市| 丽江市| 常宁市| 普陀区| 宣汉县| 高邮市| 冕宁县|