【摘 要】研究中俄文字符號在網(wǎng)絡(luò)上的應(yīng)用規(guī)律和特點(diǎn),通過GB2312和UTF-8編碼技術(shù)的轉(zhuǎn)換技術(shù)解決中俄網(wǎng)絡(luò)語言編程編碼接口問題,結(jié)合中俄文語法特點(diǎn),使用Java語言進(jìn)行Web方式的中俄網(wǎng)絡(luò)語言編碼接口問題,提出解決方案。
【關(guān)鍵詞】中俄文;編碼;接口;Java
0 引言
研究中俄文互譯和接口標(biāo)準(zhǔn)關(guān)系,能得中國科技企業(yè)面向俄語世界的網(wǎng)絡(luò)貿(mào)易工作都能達(dá)到更好的經(jīng)濟(jì)效果。本文針對核心中俄文互通問題,整合與集成不同文化背景的網(wǎng)絡(luò)符號互譯與信息交換的標(biāo)準(zhǔn)接口問題,研究中俄文字符號在網(wǎng)絡(luò)上的應(yīng)用規(guī)律和特點(diǎn),注意與計(jì)算機(jī)搜索引擎技術(shù)的協(xié)調(diào)配合,提高本研究的持續(xù)適應(yīng)能力,形成具有統(tǒng)一性的國際協(xié)議。本項(xiàng)目實(shí)施相對長期的客戶支持,能促進(jìn)中國對俄語系21國家的電子商務(wù)活動,激勵大眾創(chuàng)業(yè)和萬眾創(chuàng)新,最終實(shí)現(xiàn)中俄電子商務(wù)合作的國際市場化應(yīng)用[1]。
1 編碼分析
中俄網(wǎng)絡(luò)語言編碼接口技術(shù),通過合作研究GB2312和UTF-8編碼技術(shù)的轉(zhuǎn)換技術(shù)解決中俄網(wǎng)絡(luò)語言編程編碼接口問題,無論是俄文網(wǎng)站,還是中文網(wǎng)站,都能確保文字符號在,中、俄兩個國家適用的操作平臺上正常顯示運(yùn)行。
1.1 編碼集
完成GB2312和UTF-8編碼技術(shù)轉(zhuǎn)換的研發(fā)工作,實(shí)現(xiàn)異構(gòu)系統(tǒng)之間的互聯(lián)互通,制定統(tǒng)一的信息標(biāo)準(zhǔn)。由于缺乏編碼方案來解決中俄這兩種不同語言體系在計(jì)算機(jī)語言中表示的問題,從而導(dǎo)致一直以來中國的商品基本上通過歐美、日、韓等國家轉(zhuǎn)銷至俄語世界,原因在于他們擁有通往俄語國家的信息交流通道,UTF-8編碼接軌較早。為了通過網(wǎng)絡(luò)技術(shù),給中俄企業(yè)溝通、交流、發(fā)布及獲取信息提供直接的渠道,雙方需要有設(shè)計(jì)全新的編碼模型方案解決中俄這兩種不同語言體系在計(jì)算機(jī)語言中表示的問題。
1.1.1 GB2312
GB2312編碼適用于漢字處理、漢字通信等系統(tǒng)之間的信息交換,通行于中國大陸;新加坡等地也采用此編碼。中國大陸幾乎所有的中文系統(tǒng)和國際化的軟件都支持GB2312?;炯彩杖霛h字6763個和非漢字圖形字符682個。整個字符集分成94個區(qū),每區(qū)有94個位。每個區(qū)位上只有一個字符,因此可用所在的區(qū)和位來對漢字進(jìn)行編碼,稱為區(qū)位碼。同時,GB2312收錄了包括拉丁字母、希臘字母、日文平假名及片假名字母、俄語西里爾字母在內(nèi)的682個全角字符。GB2312的出現(xiàn),基本滿足了漢字的計(jì)算機(jī)處理需要,它所收錄的漢字已經(jīng)覆蓋中國大陸99.75%的使用頻率。
1.1.2 Unicode
Unicode是為了解決傳統(tǒng)的字符編碼方案的局限而產(chǎn)生的,例如ISO8859-1(Latin-1,是西歐常用字符)所定義的字符雖然在不同的國家中廣泛地使用,可是在不同國家間卻經(jīng)常出現(xiàn)不兼容的情況。很多傳統(tǒng)的編碼方式都有一個共同的問題,即允許電腦處理雙語環(huán)境(通常使用拉丁字母以及其本地語言),但卻無法同時支持多語言環(huán)境(指可同時處理多種語言混合的情況)。Unicode為每種語言中的每個字符設(shè)定了統(tǒng)一并且唯一的二進(jìn)制編碼,以滿足跨語言、跨平臺進(jìn)行文本轉(zhuǎn)換、處理的要求。幾乎所有電腦系統(tǒng)都支持基本拉丁字母,并各自支持不同的其他編碼方式。Unicode為了和它們相互兼容,其首256字符保留給ISO8859-1所定義的字符,使既有的西歐語系文字的轉(zhuǎn)換不需特別處理;并且把大量相同的字符重復(fù)編到不同的字符碼中去,使得舊有紛雜的編碼方式得以和Unicode編碼間互相直接轉(zhuǎn)換,而不會丟失任何信息。在文字處理方面,Unicode為每一個字符而非字形定義唯一的代碼(即一個整數(shù))。以一種抽象的方式(即數(shù)字)來處理字符,并將視覺上的演繹工作(例如字體大小、外觀形狀、字體形態(tài)、文體等)留給其他軟件來處理,例如網(wǎng)頁瀏覽器或是文字處理器。UNICODE用2個字節(jié)編碼,它通過增加一個高字節(jié)對ISOLatin-1字符集進(jìn)行擴(kuò)展,可以用ASCII表示的字符使用UNICODE并不高效,因?yàn)閁NICODE比ASCII占用大一倍的空間,而對ASCII來說高字節(jié)的0對他毫無用處。為了解決這個問題,就出現(xiàn)了一些中間格式的字符集,他們被稱為通用轉(zhuǎn)換格式,即UTF(Universal Transformation Format)。常見的UTF格式有:UTF-7,UTF-7.5,UTF-8,UTF-16,以及UTF-32。UTF-8用1到6個字節(jié)編碼UNICODE字符。用在網(wǎng)頁上可以同一頁面顯示中文簡體繁體及其它語言(如英文、日文、韓文)。
1.2 中俄文字差別
1.2.1 中文雙字節(jié)
GB2312和UTF-8編碼技術(shù)轉(zhuǎn)換的研發(fā)工作,實(shí)現(xiàn)異構(gòu)系統(tǒng)之間的互聯(lián)互通,制定統(tǒng)一的信息標(biāo)準(zhǔn)。在兩國架設(shè)的服務(wù)器設(shè)備中同時嵌入中俄兩國的標(biāo)準(zhǔn)字符庫,為數(shù)據(jù)匯總和數(shù)據(jù)交換中的數(shù)據(jù)沖突問題提供完善的解決方案,從而避免在境外使用出現(xiàn)的文字亂碼現(xiàn)象。漢字是雙字節(jié)而一些漢字編輯軟件并沒有充分認(rèn)識到這一點(diǎn),例如:漢化對光標(biāo)移動、刪除等還是按單字節(jié)方式處理,16*16俄文,8*16俄文字都是單字節(jié)的,給用戶造半個字顯示的混亂的后果[2]。
1.2.2 俄文重形式
俄語是莊重的書面體語體,它的商務(wù)行文簡練,語法比較嚴(yán)謹(jǐn),重點(diǎn)也突出,言辭極具數(shù)學(xué)邏輯性和技術(shù)準(zhǔn)確性,交流要求盡可能準(zhǔn)確地描述和解釋一定的事實(shí)。俄羅斯人更加接近西方世界的直觀式思維方式。強(qiáng)調(diào)由細(xì)節(jié)部到整體部,由外表到內(nèi)涵的分析思路。比較理性的思維,注重形式的論證過程,不喜歡采用藝術(shù)比喻手段,追求語義簡明且凝練,要求明白、并且直露[3]。
1.2.3 俄文多語格
俄語符號文句在語法上是:使用非一致性定語的第二格的特點(diǎn)比例較高[4]。俄語符號文句二格在網(wǎng)絡(luò)俄文中,首先要用于表示出定語關(guān)系,語句中包含比列達(dá)到41%。形容詞性在俄語文句中的混合運(yùn)用相當(dāng)多而普遍,除了形容詞的普通混用之外,還大量地使用帶著補(bǔ)語語法的形容詞根。絕大多數(shù)俄語動詞都用未完成語體的“現(xiàn)在時”來表達(dá)含義,比較復(fù)雜的動詞第三人稱的陳述式,占文章的大部分。網(wǎng)絡(luò)現(xiàn)在時和網(wǎng)絡(luò)動詞的第三人稱單數(shù)形式很多,使用比率較頻繁。俄語還多喜歡用長句和復(fù)合句式,以便能確切地表達(dá)出嚴(yán)格的語義上的關(guān)聯(lián)邏輯[5]。
1.3 商務(wù)編碼轉(zhuǎn)換
中亞國家屬于俄語使用范圍,俄語的交際功能和實(shí)際應(yīng)用性并沒有因法律地位的下降而大幅度降低。俄語仍然是主要的族際交際語言語言政策與現(xiàn)實(shí)需求的背離。嚴(yán)重影響著社會生活的方方面面[6]。中俄之間的互訪路徑往往要通過多次編碼轉(zhuǎn)換才能達(dá)成[7]。這就直接導(dǎo)致中俄雙方頁面在異域的運(yùn)行速度非常慢,為實(shí)現(xiàn)雙方文字在應(yīng)用終端準(zhǔn)確、實(shí)時的顯現(xiàn),中俄雙方專家擬采用架設(shè)鏡像服務(wù)器(Mirror server)的方式,完成主服務(wù)器字庫定時鏡像的任務(wù),實(shí)現(xiàn)在網(wǎng)絡(luò)以及雙方現(xiàn)場進(jìn)行俄、漢或其他文種貿(mào)易文本的起草、翻譯、溝通、修改、確認(rèn)、完成貿(mào)易合同;提供貿(mào)易活動的下游的雙語文件和信息(包括商檢、物流、報(bào)關(guān)活動所需的雙語文件信息);通過網(wǎng)絡(luò)對貿(mào)易活動全過程進(jìn)行必要的安全監(jiān)控。受到貿(mào)易規(guī)模的影響,國內(nèi)大部分企業(yè)沒有通過互聯(lián)網(wǎng)開拓。國際市場基本上通過歐美、日、韓等國家轉(zhuǎn)銷至俄語世界,所以對俄企業(yè)數(shù)據(jù)庫的建設(shè)速度較慢。
2 動態(tài)接口轉(zhuǎn)換
將Web頁面上的域標(biāo)記,及其文本屬性值進(jìn)行Java程序化動態(tài)隔離,以DIV、SB和BB等標(biāo)記為樣本容器,利用Java腳本分析技術(shù),實(shí)現(xiàn)動態(tài)的Web文本的過濾、布局、刪除和修正的功能,來修正頁面編碼方式。在java編碼中,要對網(wǎng)絡(luò)平臺的頁面文件作“字符集設(shè)置”,如圖1所示。
2.1 動態(tài)字符集
利用Web頁面上的表單分析語法,將Web單元的文本數(shù)據(jù)和交互過程,實(shí)現(xiàn)動態(tài)翻譯管理,豐富用戶交互數(shù)據(jù)輸入形式,動態(tài)俄文翻譯的支持格式要求相應(yīng)字符集的變動和動態(tài)字符的變更,目的是為客戶數(shù)據(jù)能適用I/O功能來鋪墊動態(tài)翻譯模塊。在編程開發(fā)工具中要對集成開發(fā)環(huán)境的字符編碼做出設(shè)定,例如:ISO88591-1,以適應(yīng)動態(tài)變更的需要。
2.2 轉(zhuǎn)碼方法
Web頁面的專碼問題,要求將俄文文本頁面組織布局形式,劃分的更加細(xì)小,適應(yīng)文字節(jié)單位。服務(wù)器只傳遞“節(jié)部分”的變動性Web數(shù)據(jù),直接翻譯,不需要重復(fù)發(fā)送補(bǔ)充性重復(fù)資料。當(dāng)用戶請求翻譯頁面時,往往只需要動態(tài)構(gòu)造的新的翻譯字符碼數(shù)據(jù)列表或DIV域局部。當(dāng)用戶翻譯請求時得到的服務(wù)器動態(tài)響應(yīng)時,啟動異步翻譯功能,對應(yīng)域文本位置上,就能動態(tài)適用翻譯結(jié)果替換HTML元素的局部文字?!皠釉g”是實(shí)現(xiàn)異國語言接口自動翻譯系統(tǒng)的嵌入性技術(shù)基礎(chǔ),需要翻譯插件的模塊性支持。通過動態(tài)域元素字符集設(shè)定,可以解決獨(dú)立頁面和編程文件的字符統(tǒng)一問題,但是實(shí)際上在文字信息通過網(wǎng)絡(luò)傳輸?shù)倪^程中,仍然會因?yàn)椴煌脩舻膰覅^(qū)域不同,操作語言不同,而產(chǎn)生亂碼,因此需要對傳輸?shù)玫降奈淖中畔⑦M(jìn)行編碼和解碼,如圖2所示。
在一個多語種的網(wǎng)頁中,Java腳本與HTML、CSS和COM組件集成,能實(shí)現(xiàn)復(fù)雜的交互過程,極大地豐富Java程序接口設(shè)計(jì)的手段。這樣我們在文字信息的發(fā)送端對信息用固定的編碼方式編碼,在信息接受端用相應(yīng)的解碼方式進(jìn)行解碼,使得最終得到的信息適應(yīng)接收端的本地環(huán)境,以接收端的本地語言方式正確顯示出來。
如果客戶適配本地的語言為:簡體中文,但是對于俄語文字的保存,如果不做正確處理,就會保存為亂碼??筛鶕?jù)數(shù)據(jù)庫服務(wù)器所在國家的語言環(huán)境設(shè)定好默認(rèn)字符集,并對數(shù)據(jù)庫接收的信息進(jìn)行預(yù)加工、預(yù)處理使它適配于數(shù)據(jù)庫服務(wù)器所兼容的字符集,最后,再對處理好的信息進(jìn)行保存操作。信息從數(shù)據(jù)庫輸出時,也要做類似的信息編碼轉(zhuǎn)換工作,使得從數(shù)據(jù)庫中查詢出的信息適配于各個本國家的語言環(huán)境,從而展示出來沒有亂碼。
2.3 亂碼處理
網(wǎng)絡(luò)上的俄文信息,一部分通過網(wǎng)絡(luò)直接傳輸,但是大部分實(shí)際上是要保存到數(shù)據(jù)庫中,來自不同國家,不同語言的文字信息要保存到數(shù)據(jù)庫里,同樣面對著信息亂碼問題。
客戶端通過頁面操作激發(fā)自動接口動作,調(diào)用了Java組件的異步引擎。自動接口模塊要捕獲Web文本和圖片對象的操作事件,直接合成翻譯參數(shù)URL途徑,再向客戶發(fā)出翻譯結(jié)果。客戶端可以不等待自動接口的反饋結(jié)果,繼續(xù)維持客戶的其它交互性操作流程,保持業(yè)務(wù)操作的連貫性。Java語言可以操控Web文檔的元素構(gòu)成,默認(rèn)以document指向整體文檔對象,例如:和等為高級節(jié)點(diǎn),節(jié)點(diǎn)類型是Element。對于每一次頁面啟動的Element節(jié)點(diǎn)元素,都可調(diào)用get-Attribute()、set-Attribute()和remove-Attribute()等方法,來設(shè)置或修改節(jié)點(diǎn)的接口性質(zhì)[8]。也能使用parent-Node屬性和child-Nodes[]數(shù)組形式,在預(yù)定文檔樹中,上下移動文本元素;可以通過遍歷child-Nodes[]數(shù)組,使用first-Child和next-Sibling性進(jìn)行循環(huán)性接口設(shè)置。從而改變文本結(jié)構(gòu)和接口屬性,達(dá)到靈活多變的翻譯目標(biāo),避免文本混亂顯示問題。
3 結(jié)果與分析
俄方網(wǎng)絡(luò)平臺展現(xiàn)情況:①應(yīng)用本項(xiàng)目的轉(zhuǎn)碼技術(shù)后,俄方網(wǎng)絡(luò)平臺展示中文商品信息沒有亂碼。②中方網(wǎng)絡(luò)平臺展現(xiàn)情況:在中國國內(nèi)訪問俄方外貿(mào)交易平臺沒有亂碼。同時在國內(nèi)可以以俄文錄入中國商品信息,在雙方網(wǎng)絡(luò)平臺展示均無亂碼。
網(wǎng)絡(luò)平臺采用轉(zhuǎn)碼技術(shù)后應(yīng)用效果比較。①俄方網(wǎng)絡(luò)平臺應(yīng)用情況:俄方網(wǎng)絡(luò)平臺能準(zhǔn)確、完整地展現(xiàn)中國商品信息,客戶認(rèn)可率高。②中方網(wǎng)絡(luò)平臺應(yīng)用情況:中方網(wǎng)絡(luò)平臺可以自如地用俄文描述,錄入中國商品信息,并在俄方平臺準(zhǔn)確展示,很受企業(yè)歡迎。
使用接口轉(zhuǎn)碼技術(shù)后,在中俄兩方的網(wǎng)絡(luò)平臺上均解決了亂碼問題。實(shí)現(xiàn)了無論是俄文網(wǎng)站,還是中文網(wǎng)站,都能確保其在中、俄兩個國家適用的操作平臺上正常顯示運(yùn)行。有效解決了中俄網(wǎng)絡(luò)語言編程編碼差異化問題,提升了中國科技企業(yè)的跨國技術(shù)創(chuàng)新能力,從而幫助中國商品能迅速、有效、準(zhǔn)確、直接在俄羅斯主流網(wǎng)絡(luò)媒體展示。
【參考文獻(xiàn)】
[1]李海艦,田躍新,李文杰.互聯(lián)網(wǎng)思維與傳統(tǒng)企業(yè)再造[J].中國工業(yè)經(jīng)濟(jì),2014,10:135-146.
[2]王曉華,張鵬,傅景歆.俄漢編輯軟件的實(shí)現(xiàn)[J].黑龍江大學(xué)自然科學(xué)學(xué)報(bào),1998,02:43-45+48.
[3]徐濤.基于“情景更替理論”的俄語動詞體常體意義新論[J].中國俄語教學(xué),2015,01:40-44.
[4]陳雪.俄語計(jì)算機(jī)術(shù)語構(gòu)成研究[J].中國俄語教學(xué),2010,01:37-41.
[5]樂路.試探科技俄語的特點(diǎn)及其翻譯[D].上海外國語大學(xué),2009.
[6]張宏莉.中亞國家語言政策及其發(fā)展走向分析[J].新疆社會科學(xué),2015,02:72-79+161.
[7]余自潔.計(jì)算機(jī)、多媒體技術(shù)和當(dāng)今俄語教學(xué)[J].中國俄語教學(xué),2003,01:51-54.
[8]王翠云.高校網(wǎng)絡(luò)教學(xué)輔助平臺的設(shè)計(jì)與實(shí)現(xiàn)[D].電子科技大學(xué),2013.
[責(zé)任編輯:王楠]
客服熱線:400-656-5456??客服專線:010-56265043??電子郵箱:longyuankf@126.com
電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證:京icp證060024號
Dragonsource.com Inc. All Rights Reserved