■趙生輝
中國少數(shù)民族語言語義電子文件初探★
■趙生輝
本文參照語義網(wǎng)思想,提出了“中國少數(shù)民族語言語義電子文件”的概念,構(gòu)建了少數(shù)民族語言語義電子文件的邏輯模型,分析了作為核心技術(shù)的多民族語言通用語義本體模型的構(gòu)建原理,并對這一領(lǐng)域需要關(guān)注的重點研究方向進行了梳理。
電子文件管理 少數(shù)民族語言 語義網(wǎng) 跨語言信息檢索
中國是統(tǒng)一的多民族國家,多語言、多文字是民族地區(qū)社會生活的基本特征。一般認為,除了全國通用的漢語普通話和規(guī)范漢字之外,目前全國正在使用的少數(shù)民族語言在80種以上,正在使用的少數(shù)民族文字在30種左右[1]。近年來,伴隨著少數(shù)民族語言文字信息處理技術(shù)的快速發(fā)展,以蒙古文、藏文、哈薩克文、柯爾克孜文、朝鮮文、狀文、彝文等為代表的少數(shù)民族語言字處理軟件、辦公自動化系統(tǒng)、編輯出版系統(tǒng)、廣告照排系統(tǒng)、節(jié)目制作系統(tǒng)等開始在民族地區(qū)的政府機關(guān)、企事業(yè)單位和社會生活中得到應(yīng)用,一大批少數(shù)民族語言文字網(wǎng)站相繼開通[2]。與此同時,如何應(yīng)對語言文字多樣性帶來的挑戰(zhàn),穩(wěn)妥、科學、有效地管理隨之產(chǎn)生的少數(shù)民族語言電子文件,已成為民族地區(qū)檔案管理工作迫切需要研究和解決的問題。
中國少數(shù)民族語言電子文件(Electronic Records in Minority Languages of China)是核心內(nèi)容以我國境內(nèi)現(xiàn)存的或者曾經(jīng)存在過的少數(shù)民族語言文字或語音符號作為信息記錄形式的電子文件[3]。與國家通用語言文字電子文件相比,少數(shù)民族語言電子文件的管理需求具有諸多特殊性,其中最為顯著的就是“異構(gòu)性(heterogeneous)”特征?!爱悩?gòu)性”是信息工程學術(shù)語,是指信息系統(tǒng)各組成要素之間的差異性。少數(shù)民族語言電子文件的“異構(gòu)性”可分為“編碼異構(gòu)性(Coding heterogeneous)”、“邏輯異構(gòu)性 (Logic heterogeneous)”和“語義異構(gòu)性(Semantic heterogeneous)”三個方面?!熬幋a異構(gòu)性”是指由不同語言文字底層代碼之間的沖突而出現(xiàn)的不可兼容的現(xiàn)象。例如,我國政府自上個世紀80年代起陸續(xù)制定并頒布了使用人口較多的幾種少數(shù)民族語言文字字符集編碼國家標準,當時主要考慮單機版的應(yīng)用需求,因而所使用的編碼空間是重合的。采用上述國家標準的少數(shù)語言字信息處理系統(tǒng)產(chǎn)生的不同語種的少數(shù)民族語言電子文件在同一系統(tǒng)讀取時就會出現(xiàn)代碼沖突或亂碼現(xiàn)象。目前,這一問題可以通過包括多種語言文字的中文統(tǒng)一編碼體系GB18030、GB13000或國際統(tǒng)一編碼體系Unicode得以解決。“邏輯異構(gòu)性”是指不同來源的電子文件在邏輯結(jié)構(gòu)上可能是千差萬別的,要進行信息共享必須進行特定的加工處理,使之可以實現(xiàn)互操作。目前,在基于XML的元數(shù)據(jù)結(jié)構(gòu)自定義技術(shù)的支持下,邏輯異構(gòu)電子文件的整合問題已經(jīng)得到部分解決。
與“編碼異構(gòu)性”和“邏輯異構(gòu)性”相比,最難解決的是語義層面上的異構(gòu)性問題?!罢Z義異構(gòu)性”是指由于語言文字本身的差異性所造成的用戶閱讀和理解障礙,即通常意義上的“語言鴻溝(Language Divide)”。在傳統(tǒng)電子文件管理模式下,計算機和網(wǎng)絡(luò)充當信息傳遞的媒介,只負責產(chǎn)生、保存和傳遞電子文件,其中蘊含語義信息必須依靠人的閱讀和理解完成。如果用戶沒有掌握某特定語種少數(shù)民族語言文字,即使該語種電子文件記錄的內(nèi)容非常重要,也不能被該用戶所理解和利用。作為統(tǒng)一的多民族國家,我國民族地區(qū)特殊的信息生態(tài)決定了少數(shù)民族語言電子文件應(yīng)用的“非孤立性”。在民族地區(qū)社會生活當中,國家通用語言文字和少數(shù)民族語言文字同時發(fā)揮著重要作用,以其中一種作為信息記錄符號的時候,同時要考慮不能識讀這一文字的其他社會群體的閱讀需求。由于人類語言系統(tǒng)的復(fù)雜性,“語義異構(gòu)性”的消除還面臨巨大障礙,很多技術(shù)難題短期內(nèi)難以攻克,但是采取可能的措施降低語義異構(gòu)性帶來的溝通障礙,已成為少數(shù)民族語言電子文件管理的核心需求,語義電子文件(Semantic Electronic Records)正是在上述背景下提出的。
“語義電子文件”是語義網(wǎng)(Semantic Web)思想在電子文件管理領(lǐng)域的應(yīng)用。語義網(wǎng)是萬維網(wǎng)創(chuàng)始人蒂姆·伯納斯 -李(Tim Berners-Lee)1998年提出的概念,其核心思想是通過給萬維網(wǎng)上的各類文檔添加語義標記,從而使計算機能夠“理解”互聯(lián)網(wǎng)的內(nèi)容。語義網(wǎng)要求數(shù)據(jù)及其參照統(tǒng)一規(guī)范產(chǎn)生的語義信息同期創(chuàng)建,這一點正好符合電子文件管理的“前端控制”原則,也就是要從源頭開始為電子文件的共享和利用做準備。中國少數(shù)民族語言語義電子文件就是通過標注通用語義符號支持多語言信息交流的少數(shù)民族語言電子文件。這里的語義標記是用來表征某少數(shù)民族語言文字語義信息的代碼符號,通常由事先設(shè)計好的多民族語言通用語義參照體系映射而來。少數(shù)民族語言語義電子文件在生成文字符號的同時,可以標注和傳遞語言文字背后所蘊含的語義信息,從而使各少數(shù)民族語言文字與國家通用語言文字之間、各語種少數(shù)民族語言文字之間有了共同的語義基礎(chǔ),可以基于共同的語義代碼體系進行高精度信息共享和交換。本文擬在構(gòu)建少數(shù)民族語言語義電子文件研究框架的基礎(chǔ)上,分析這一領(lǐng)域研究的核心問題,展望未來研究趨勢。少數(shù)民族語言語義電子文件對于提高民族地區(qū)電子文件管理的一體化程度,促進各民族人口之間的溝通和交流具有重要的促進意義。
少數(shù)民族語言語義電子文件是按照語義網(wǎng)思想提出的一種解決我國多民族語言電子文件信息共享問題的構(gòu)想方案。蒂姆·伯納斯-李在提出語義網(wǎng)理念之初,曾經(jīng)提出過著名的“語義網(wǎng)分層模型”[4]。該模型將語義網(wǎng)的實現(xiàn)分為Unicode/URI、XML、RDF Schema、Ontology、Proof、Trust共七層,其中信任層Trust伴隨數(shù)字簽名DigitalSignature的使用。參照上述模型,對我國少數(shù)民族語言語義電子文件的結(jié)構(gòu)模型概要分析和規(guī)劃如下:
圖1 少數(shù)民族語言語義電子文件的邏輯模型
圖1是中國少數(shù)民族語言語義電子文件的邏輯模型,其中左側(cè)的層次結(jié)構(gòu)模型整體上分為6層,自底向上分別為:編碼層通過一體化的編碼方案確保不同語種電子文件直接能夠兼容;內(nèi)容層是電子文件通過源語言記錄和表達的核心內(nèi)容;語義層是語義電子文件的核心部分,需要參照通用語義體系進行映射和標注;元數(shù)據(jù)層是維護電子文件真實性、完整性和可讀性的重要方式,電子文件是否具有證據(jù)效力,與元數(shù)據(jù)的完整程度有非常緊密的聯(lián)系,元數(shù)據(jù)著錄內(nèi)容也可以嵌入通用語義標記實現(xiàn)跨語言信息共享;檢索層,即通過語義檢索語言實現(xiàn)多語種電子文件的內(nèi)容檢索;應(yīng)用層,基于統(tǒng)一的語義參照體系實現(xiàn)的諸如數(shù)字資源整合、跨語言輔助閱讀、跨語言信息檢索、跨語言知識發(fā)現(xiàn)等應(yīng)用。少數(shù)民族語言語義電子文件實現(xiàn)跨語言信息交互的方式如圖1右側(cè)所示。國家通用語言文字電子文件(N)和各語種少數(shù)民族語言電子文件(Mi)在生成時參照共同的語義表達體系進行映射,在正文或者元數(shù)據(jù)當中嵌入通用語義標記(Sj)?;谶@些通用語義標記,不同語種電子文件在邏輯上就被聯(lián)結(jié)為一個整體,可以支持全局性的信息檢索。在檢索系統(tǒng)中以國家通用語言文字檢索詞進行檢索的時候,系統(tǒng)會根據(jù)該檢索詞的語義聯(lián)系,自動查找與之對應(yīng)的各少數(shù)民族語言文字的檢索詞,從而獲得所有與某一主題相關(guān)的電子文件。由于不同語種電子文件都標注了語義標記,基于這些標記可以開發(fā)出多種類型的應(yīng)用,使得計算機輔助跨語言閱讀、機器翻譯等技術(shù)的實現(xiàn)變得相對容易。在語義電子文件管理模式實現(xiàn)之后,采用某種少數(shù)民族語言文字作為記錄符號的電子文件可以轉(zhuǎn)換為其他各語種的信息,方便對應(yīng)語種人口的閱讀和理解。例如,如果國家通用語言文字“政府”一詞的通用語義代碼用G001表示,那藏文的、蒙古文的、彝文的、朝鮮文的等詞匯都可以用G001進行標注,從而基于通用語義代碼將各語種少數(shù)民族語言文字聯(lián)結(jié)為一個整體,可以基于通用語義代碼實現(xiàn)各少數(shù)民族語言文字與國家通用語言文字之間的相互轉(zhuǎn)換,也可以實現(xiàn)任意兩種少數(shù)民族語言文字之間的轉(zhuǎn)換。
中國少數(shù)民族語言語義電子文件的實現(xiàn),關(guān)鍵在于構(gòu)建可供多種語言語義映射的“通用語義參照體系”。“通用語義參照體系”是對“通用語義空間(UniversalSemantic Space)”的形式化表述方式。這里的“通用語義空間”,是指人類社會的各種自然語言所描述的語義對象及其關(guān)系所構(gòu)成的虛擬空間,是客觀世界和思維活動中各類語義對象的總和?!巴ㄓ谜Z義空間”與各種自然語言的“語義空間”之間是“表現(xiàn)”和“映射”關(guān)系:一方面,通用語義空間是一種觀念意義上的空間,它無法脫離自然語言空間而獨立存在,通用語義空間的語義對象必須通過某種具體的自然語言才能展現(xiàn)出來從而被人們所理解;另外一方面,任何一種自然語言本質(zhì)上是對“通用語義空間”進行映射的結(jié)果,相當于以某種具體的自然語言所展現(xiàn)的“通用語義空間”視圖。從“通用語義空間”視角看來,跨語言信息閱讀實際上是實現(xiàn)“通用語言空間”不同語種“自然語言視圖”的切換過程。那么,如果可以用代碼表達通用語義空間的語義對象,并基于這一代碼,實現(xiàn)多個自然語言視圖當中等價語素的語義關(guān)聯(lián),則可以非常方便地實現(xiàn)這些等價語素不同語種語義符合之間的切換,可以大大降低不同語種語言文字等價語素轉(zhuǎn)換的難度和執(zhí)行速度,如圖2所示。
圖2 通用語義參照體系的實現(xiàn)原理
“通用語義代碼 (Universal Semantic Code,USC)”是一種為實現(xiàn)多語言信息交流而專門設(shè)計的人工編碼體系,該體系獨立于任何一種具體的自然語言,其存在主要是為多種自然語言同義語素的定位和關(guān)聯(lián)提供邏輯基礎(chǔ),也是多種自然語言一體化信息檢索和語義共享的邏輯中介?!巴ㄓ谜Z義代碼”本身并沒有任何特殊含義,其建構(gòu)必須以某種具體的自然語言作為語義參照對象,結(jié)合我國語言文字工作的總體規(guī)劃,多民族語言通用語義代碼體系的構(gòu)建應(yīng)當以國家通用的漢語和規(guī)范漢字作為參照語言文字。因此,對少數(shù)民族語言電子文件進行“通用語義代碼(USC)”的標注,本質(zhì)上是參照國家通用語言文字進行語義映射的過程,因而也是以國家通用語言文字為核心的多民族語言信息資源共享體系的實現(xiàn)方式。
由于人類語言的復(fù)雜性,“通用語義參照體系”的建立是一項非常艱巨的任務(wù)。目前,實現(xiàn)不同語種語言文字等價語素之間的語義轉(zhuǎn)換常用的語義參照體系主要有:機讀雙語詞典(Machine-Read BilingualDictionary)、雙語語料庫(Bilingual Corpus)、多語言敘詞表(Multilingual Thesauri)、 多 語 言 本 體(MultilingualOntology)等等,這些方法主要是為實現(xiàn)語言文字的對等翻譯而設(shè)計的,需要有專門的語言學知識作為基礎(chǔ),并且需要經(jīng)過長期的積累和優(yōu)化才能最終投入應(yīng)用。從發(fā)展的趨勢來看,基于多語言本體的語義轉(zhuǎn)換正在日益受到重視而成為主流方法。作為信息學術(shù)語,本體是指共享概念的形式化說明,能夠用規(guī)范化的方式描述關(guān)鍵概念及其邏輯關(guān)系。目前,全球最著名的本體模型是由美國普林斯頓大學的語言學家、心理學家和計算機專家聯(lián)合創(chuàng)建的Word Net,該模型囊括了絕大多數(shù)英語常見詞匯,并揭示了這些詞匯直接的語義關(guān)系。本體建立需要投入巨大的精力和成本,為了降低工作難度,目前世界上絕大多數(shù)國家和地區(qū)的多語言本體都是基于Word Net或者采用與Word Net類似的架構(gòu)建立的,例如歐盟建立的歐洲多語言詞網(wǎng)Euro Word Net,俄羅斯建立的俄英雙語本體模型Russian Word Net等等,我國一些機構(gòu)建立的多語言本體的技術(shù)原理也與之類似,例如北京大學計算語言學研究所的中文概念詞典CCD、中科院計算機語言信息中心的How Net、我國臺灣地區(qū)建立的中英雙語知識詞網(wǎng)等[5]。
我國少數(shù)民族語言文字語義信息技術(shù)目前還處在初級階段,能夠支持跨語言信息組織與檢索的技術(shù)資源非常少,需要國家民族事務(wù)管理委員會和各民族地區(qū)信息化管理部門高度重視,國內(nèi)相關(guān)研究機構(gòu)共同協(xié)作,完成我國多民族語言通用語義本體的設(shè)計與開發(fā)工作。鑒于通用本體開發(fā)工作的復(fù)雜性和長期性,在研究初期可以在確定整體模型開發(fā)原則和規(guī)范的前提下,優(yōu)先一些跨語種信息共享需求較為迫切的領(lǐng)域本體模型,隨著領(lǐng)域本體模型的逐步積累,再進行多民族語言通用本體模型的整合。根據(jù)現(xiàn)實需求,我國多民族語言通用語義本體模型可以采用開放式結(jié)構(gòu)設(shè)計,初期進行國家通用語言文字和蒙古語、藏語、維吾爾語、哈薩克語、柯爾克孜語、壯語、傣語、朝鮮語等使用人口較多,具有較大社會影響力的少數(shù)民族語言文字的統(tǒng)一編碼,今后根據(jù)實際需要可以繼續(xù)補充其他語種的少數(shù)民族語言文字。
與語義網(wǎng)一樣,“少數(shù)民族語言語義電子文件”到目前為止還只是美好的技術(shù)愿景,需要檔案管理機構(gòu)、業(yè)務(wù)工作部門、技術(shù)支持部門的協(xié)同工作,共同推進。當前,中國少數(shù)民族語言語義電子文件研究領(lǐng)域需要關(guān)注的問題主要有以下方面:
1.“中國多民族語言文字通用語義本體模型”的協(xié)同構(gòu)建。
這是語義電子文件構(gòu)建最為核心的任務(wù),需要以國家通用語言文字為參照,設(shè)計通用語義代碼體系,實現(xiàn)藏語、蒙古語、維吾爾語、哈薩克語、柯爾克孜語、壯語、傣語、朝鮮語等少數(shù)民族語言文字的語義映射。要完成這一任務(wù),必須由精通各少數(shù)民族語言文字的學者與計算語言學、知識管理、計算機科學等學科的專家共同協(xié)作完成。鑒于這一任務(wù)的艱巨性,可以采用任務(wù)分解的方法,分期完成。同時,需要立足我國民族地區(qū)信息化建設(shè)實際,在滿足應(yīng)用需求的前提下,適度降低通用本體構(gòu)建的精度要求。
2.中國少數(shù)民族語言電子文件語義信息標注與質(zhì)量控制規(guī)范。
在通用語義本體模型建立之后,如何進行語義信息標注也是需要探討和研究問題,例如人工標注的工作效率太低,要實現(xiàn)自動化語義信息標注又面臨諸如詞語切分、語義選擇、語義消歧等多方面困難。此外,標注的精度和粒度也是需要考慮的問題,大粒度、低精度語義信息標注只需要對篇章內(nèi)容進行概括,用多語言主題詞表就可以滿足要求,但是高精度、細粒度的語義信息標注則要細化到每句話,甚至要進行詞語切分后對每個詞的語義信息進行高精度標注。究竟要采用哪一種精度和粒度,取決于電子文件內(nèi)容的重要程度和它的利用場合。同時,語義信息標注質(zhì)量也需要進行評價和控制。
3.基于領(lǐng)域本體的少數(shù)民族語言語義電子文件管理實踐。
本體分為通用本體和領(lǐng)域本體兩種,多民族語言通用本體模型的長遠目標是實現(xiàn)對各語言主要詞匯的全面覆蓋,從而為構(gòu)建多語言無障礙交流奠定基礎(chǔ)。然而,本體構(gòu)建是一項高度負責的工作,從更加現(xiàn)實一些的角度出發(fā),可以優(yōu)先發(fā)展部分領(lǐng)域的多語言本體模型,以滿足這些領(lǐng)域的跨語言信息共享需要。例如,我國民族地區(qū)司法機關(guān)當中,國家通用語言文字司法文書和少數(shù)民族語言文字司法文書都是認可的,可以結(jié)合司法機關(guān)的多語言信息共享需求,開發(fā)司法領(lǐng)域多民族語言電子文件管理的相關(guān)探索。
4.少數(shù)民族語言語義電子文件管理需求的嵌入與生命周期控制。
少數(shù)民族語言語義電子文件語義信息是要在內(nèi)容信息生成后就要進行標注的,需要與內(nèi)容信息一同參與電子文件的處理、保存、歸檔和利用等環(huán)節(jié)。因此,語義信息嵌入式需要在概念階段就嵌入電子文件管理系統(tǒng)功能需求當中,成為系統(tǒng)設(shè)計考慮的重要問題。在電子文件的整個生命周期當中,語義標記信息需要完整保存,而且在業(yè)務(wù)處理過程中產(chǎn)生少數(shù)民族語言文字處理結(jié)果是同樣需要進行語義信息標注。在電子文件對應(yīng)的業(yè)務(wù)處理完成之后,電子文件執(zhí)行歸檔操作時,語義信息的完整程度也是歸檔鑒定的重要內(nèi)容??傊?,在少數(shù)民族語言電子文件管理生命周期當中,作為表征內(nèi)容和管理過程的語義代碼,需要與核心內(nèi)容信息同期創(chuàng)建,同時管理,最終成為歸檔電子文件不可或缺的組成部分。
5.基于通用語義代碼的少數(shù)民族語言電子文件利用模式。
由于電子文件當中嵌入了通用語義代碼,不同語言文字的電子文件就建立了語義關(guān)聯(lián),從而使電子文件的利用方式變得更加多樣。例如,可以開發(fā)基于跨語言閱讀系統(tǒng),用戶讀取少數(shù)民族語言文字電子文件的時候,鼠標可以提示對應(yīng)詞語的國家通用語言文字或者另外一種少數(shù)民族語言文字的詞義,供利用者概要理解電子文件的主題信息。在電子文件的所有詞語進行了語義標注的情況下,可以通過詞頻分析等方法,揭示電子文件內(nèi)容的深層次規(guī)律,從而使電子文件編研具有新的可能性。
中國少數(shù)民族語言電子文件是核心內(nèi)容以我國境內(nèi)現(xiàn)存的或者曾經(jīng)存在過的少數(shù)民族語言文字或語音符號作為信息記錄形式的電子文件。中國少數(shù)民族語言語義電子文件就是通過標注通用語義符號支持多語言信息交流的少數(shù)民族語言電子文件,是語義網(wǎng)(Semantic Web)思想在電子文件管理領(lǐng)域的應(yīng)用。少數(shù)民族語言語義電子文件的邏輯模型整體上分為編碼層、內(nèi)容層、語義層、元數(shù)據(jù)層、檢索層和應(yīng)用層共6個層次,關(guān)鍵在于構(gòu)建可供多種語言語義映射的“通用語義參照體系”。“通用語義參照體系”的主流實現(xiàn)方式是多語言通用本體模型,其建立是一項非常艱巨的任務(wù),需要相關(guān)研究機構(gòu)共同協(xié)作設(shè)計與開發(fā)。中國少數(shù)民族語言語義電子文件研究領(lǐng)域需要關(guān)注的問題主要有“中國多民族語言文字通用語義本體模型”協(xié)同構(gòu)建、中國少數(shù)民族語言電子文件語義信息標注和質(zhì)量控制規(guī)范、基于領(lǐng)域本體的少數(shù)民族語言語義電子文件管理實踐、少數(shù)民族語言語義電子文件管理需求的嵌入與生命周期控制和基于通用語義代碼的少數(shù)民族語言電子文件利用模式等方面。
[1]中華人民共和國國務(wù)院新聞辦公室,中國的民族政策與各民族共同繁榮發(fā)展[M],北京:人民出版社,2009.10:32.
[2]趙生輝,數(shù)字紐帶:中國少數(shù)民族語言電子文件集成管理的體系架構(gòu)研究[M].西安:陜西師范大學出版社,2014.3.
[3]趙生輝,中國少數(shù)民族語言電子文件管理初探[J].檔案學通訊.2011(2).
[4]Grigoris Antoniou.語義網(wǎng)基礎(chǔ)教程[M].北京:機械工業(yè)出版社.2014.09:10.
[5]劉偉成,孫吉紅,多語言本體及其在跨語言信息檢索中的應(yīng)用[J],武漢科技大學學報,2008(10).
[6]司莉,莊曉喆,賈歡.近10年國外多語言信息組織與檢索研究進展與啟示[J].中國圖書館學報.2015(4).
[7]吳丹,本體驅(qū)動的跨語言信息檢索研究[J].現(xiàn)代圖書情報技術(shù).2006(5).
[8]塔娜等.面向跨語言信息檢索的蒙漢語義詞典構(gòu)建[A].第三屆全國少數(shù)民族青年自然語言信息處理學術(shù)研討會論文集.北京:中央民族大學出版社,2002:12-15.
[9]劉登峰.艾斯卡爾·艾木都拉.維、漢多語種檔案信息管理系統(tǒng) [J].計算機工程,2008(20): 263-268
[10]趙小兵,邱莉蓉.多民族語言本體知識庫構(gòu)建技術(shù)[J].中文信息學報,2011(4):34.
作者單位:西藏民族大學管理學院