• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      彝語言語料資源數(shù)據(jù)庫的設(shè)計與共享的實現(xiàn)

      2016-05-04 00:59:46王成平
      中文信息學(xué)報 2016年1期
      關(guān)鍵詞:彝文彝語信息處理

      王成平

      (西南民族大學(xué) 民族語言文字信息處理實驗中心,四川 成都 610041)

      彝語言語料資源數(shù)據(jù)庫的設(shè)計與共享的實現(xiàn)

      王成平

      (西南民族大學(xué) 民族語言文字信息處理實驗中心,四川 成都 610041)

      該文以收集整理翻譯的彝語言語料為基礎(chǔ),在SQL Server 2008數(shù)據(jù)庫環(huán)境下,通過ODBC,利用VC++ 6.0編寫彝語言語料入庫程序,實現(xiàn)了彝語言語料U文件(Unicode彝文)和Y文件(YIWIN彝文)的自動入庫,完成了彝語言語料資源數(shù)據(jù)庫的設(shè)計;通過編寫WEB服務(wù)端的查詢和統(tǒng)計程序,利用C/S方式實現(xiàn)了彝語言語料基于WEB瀏覽器的訪問和遠程共享,同時也為其他少數(shù)民族文字信息處理中的類似問題提供了一個可參考的解決方案。

      彝語言;語料庫;數(shù)據(jù)庫設(shè)計;共享

      1 引言

      近年來,隨著我國加大民族語言文字信息化建設(shè)的力度,彝語言文字信息處理的規(guī)范標準工作取得了很大進展,為進一步開展彝語言文字信息化建設(shè)奠定了基礎(chǔ)。但是,要推進彝語言文字信息化研究向更高層次和領(lǐng)域的發(fā)展,還有許多基礎(chǔ)工作亟需開展,其中至關(guān)重要的一項就是彝語言資源庫的研究與建設(shè)。無論從彝語言文字材料的收集、整理、研究角度來看,還是從彝語言文字的計算機信息處理角度來看,彝語言資源庫都有著極為重要的價值,同時也是彝語言文字信息處理的一項基礎(chǔ)性關(guān)鍵資源,具有重要的學(xué)術(shù)價值和實踐意義[1]。

      目前大多數(shù)的彝語言語料都是以文本錄入形式進行收集、整理,而且由于計算機彝文信息處理技術(shù)起步晚、信息處理編碼標準還不完善等方面的原因,造成了不同來源的彝語言語料在格式、編碼上的不統(tǒng)一,而且種類也比較多,這給彝語言語料的分類統(tǒng)計和查詢帶來了許多困難。目前常用的彝語言語料數(shù)據(jù)格式主要有U文件(Unicode彝文,采用2005年西南民族大學(xué)與北大方正合作研制的Unicode彝文系統(tǒng)編輯的語料文件,Unicode編碼位于BMP彝文專區(qū)A000-A4BF)和Y文件(YIWIN彝文,采用2000年西南民族大學(xué)研制的基于Windows平臺的YIWIN彝文系統(tǒng)編輯的語料文件,Unicode編碼位于BMP用戶自定義區(qū)E000-E4C5),把這些彝文語料文本整合成語料資源數(shù)據(jù)庫,一方面可方便對彝語言語料進行查詢和統(tǒng)計,也可通過WEB服務(wù)端為彝語言語料資源庫的數(shù)據(jù)共享提供可行的網(wǎng)絡(luò)技術(shù)支持。

      本文利用VC++ 6.0,通過ODBC編寫彝語言語料的入庫程序,實現(xiàn)彝語言語料U文件(Unicode彝文)和Y文件(YIWIN彝文)的自動入庫。采用目前數(shù)據(jù)庫開發(fā)常用的C/S結(jié)構(gòu)體系,通過Web網(wǎng)絡(luò)服務(wù)端技術(shù)實現(xiàn)了以數(shù)據(jù)庫為后臺模式的語料Web發(fā)布和共享,構(gòu)建了一整套從語料入庫、查詢、統(tǒng)計、分析到下載、管理維護的實現(xiàn)流程,這樣既保證了彝語言語料資源的規(guī)范性、有效性,也實現(xiàn)了語料資源庫的后期維護簡單、使用方便快捷,提高了彝語言語料資源的使用率。

      2 彝語言語料資源數(shù)據(jù)庫的設(shè)計

      2.1 彝語言語料的收集整理、標注、入庫

      語言知識庫是自然語言處理系統(tǒng)不可或缺的組成部分,語言知識庫的規(guī)模和質(zhì)量在很大程度上決定了自然語言處理系統(tǒng)的成敗。這已經(jīng)成為自然語言處理技術(shù)研究者和系統(tǒng)開發(fā)者的共識[2]。本文以“廣泛的客觀定義的文本類型”為依據(jù)來進行初始語料的采樣,然后根據(jù)庫存語料的“影響力”、隨機采樣以及可訪問性等指標來進行彝語語料選擇[3],主要以西南民族大學(xué)彝學(xué)學(xué)院、民族文字信息處理實驗中心、圖書館、西南民族研究院等單位所收集整理翻譯的政治、法律、經(jīng)濟、科學(xué)、文化、教育等領(lǐng)域內(nèi)的1 000多萬彝語言語料U文件(Unicode彝文)和Y文件(YIWIN彝文)作為基礎(chǔ),建立了彝語言語料資源庫。

      U文件的Unicode彝文是依照ISO/IEC 10646(Unicode)BMP編碼標準,遵循彝文編碼字符集國際標準,彝文字符范圍在A000-A4FF,共1 165個彝文字,55個彝文字根;Y文件是YIWIN彝文,其編碼位于Unicode用戶自定義區(qū)(EUDC)E000-F8FF,彝文字符范圍E000-E491,共1 165個彝文字符。雖然U文件和Y文件都屬于Unicode字符,兩者所采用的編碼和范圍不相同,兩者之間并無直接的對應(yīng)和聯(lián)系,但因為都屬于Unicode字符,VC++程序語言就很容易識別和調(diào)用。

      為方便語料庫的管理與共享,所用語料需按照統(tǒng)一的標準進行編碼、標注,這樣的語料庫就不會僅限于某個具體的應(yīng)用程序和軟件平臺,語料數(shù)據(jù)才會具有更強的共享性。XML是一套定義語義標記的規(guī)則,這些標記將文檔分成許多部件并對這些部件加以標識,它也是元標記語言,即定義了用于定義其他與特定領(lǐng)域有關(guān)的、語義的、結(jié)構(gòu)化的標記語言的句法語言[4],因此采用基于XML語言的編碼、標注體系的語料庫才能獲得更多軟件平臺和應(yīng)用程序的兼容與支持??紤]語料標記集的可操作性、全面性,以及語料的實用性、共享性,本文采用XML格式完成彝語言語料的編碼、標記工作,這樣不僅方便VC++程序語言定義語料的數(shù)據(jù)結(jié)構(gòu),還可以方便地把彝語言語料入庫,同時為了入庫的方便和保持彝語言語料的完整性,彝語言語料庫按照不同體裁來進行分類和存放。由于標注后的彝語言語料格式U文件和Y文件都有良好的結(jié)構(gòu)特性,就可以通過對入庫語料結(jié)構(gòu)的分析、參考入庫文件的標準,從而編制語料文件的入庫程序,實現(xiàn)彝語言語料的自動入庫。

      2.2 彝語言語料資源數(shù)據(jù)庫設(shè)計與數(shù)據(jù)表的結(jié)構(gòu)

      語料數(shù)據(jù)Web發(fā)布、在線瀏覽、查詢、下載等功能的實現(xiàn)是數(shù)據(jù)庫建設(shè)的基礎(chǔ)核心部分,但由于數(shù)據(jù)檢索方式具有很強的伸縮性,為了能更好地滿足彝語言語料檢索者的需求,那就需要按照彝語語料庫建設(shè)的相關(guān)標準和規(guī)定[5],建立彝語言語料共享數(shù)據(jù)庫,構(gòu)建彝語言語料入庫的自動化流程,實現(xiàn)彝語言語料數(shù)據(jù)的自行追加。彝語言語料資源數(shù)據(jù)庫采用SQL Server 2008數(shù)據(jù)庫實現(xiàn)與管理模式,在綜合考慮彝語語法、語料數(shù)據(jù)格式、標注等特點的基礎(chǔ)上,設(shè)計了語料庫中各數(shù)據(jù)表的相應(yīng)結(jié)構(gòu),建立彝語言語料資源數(shù)據(jù)庫。具體的數(shù)據(jù)庫表結(jié)構(gòu)如表1所示。

      表1 彝語言語料要素數(shù)據(jù)表

      此外彝語言語料資源數(shù)據(jù)庫采用了XML格式統(tǒng)一標注語料,以方便數(shù)據(jù)庫軟件的調(diào)用,常用要素標記如表2所示。

      表2 彝語XML標記集

      續(xù)表

      2.3 彝語言語料數(shù)據(jù)更新時對特定數(shù)據(jù)的過濾和表的同步

      語料數(shù)據(jù)庫中語料要素都設(shè)定了特定形式,對于語料使用者而言,他們更關(guān)心的是語料是否規(guī)范、真實,但語料的原始數(shù)據(jù)又不能隨意改變,這樣就必須在原始語料庫中有一個表同步和表的數(shù)據(jù)訂正更新的機制,沒有同步機制,新插入的記錄就不能自動反應(yīng)在常用要素表中,沒有數(shù)據(jù)訂正更新的機制,語料要素表就不能用簡單的SQL語句進行統(tǒng)計與分析[6];調(diào)用SQL Server 2008管理中的觸發(fā)器功能來解決語料庫中表的同步和數(shù)據(jù)的過濾問題,對各要素表定義插入、刪除和更新的觸發(fā)器,當有新的記錄插入要素表的時候,與觸發(fā)器相關(guān)聯(lián)的程序就會自動執(zhí)行,把相關(guān)的要素插入常用的要素表中去,同時可以對特定數(shù)據(jù)進行更新和過濾[7]。這樣語料庫中設(shè)定了題材、語體、領(lǐng)域的數(shù)據(jù)都是可以統(tǒng)計與分析的語料,同時通過編程,觸發(fā)器還可以維護數(shù)據(jù)庫中的完整性和標準性。

      3 彝語言語料資源數(shù)據(jù)庫共享的實現(xiàn)

      為適應(yīng)當前語料庫語言學(xué)、計算語言學(xué)等領(lǐng)域在大數(shù)據(jù)時代的研究需求,利用網(wǎng)絡(luò)和數(shù)據(jù)庫技術(shù)平臺,通過Web網(wǎng)絡(luò)服務(wù)端實現(xiàn)了彝語言語料資源發(fā)布、管理、檢索、統(tǒng)計、分析,極大地提高彝語言語料資源的使用效率,為進一步建設(shè)各種彝語語料資源庫提供了技術(shù)支撐,對彝語言、彝語言信息化建設(shè)的研究具有重要的學(xué)術(shù)價值和實踐意義。

      3.1 彝語言語料資源的檢索

      隨著互聯(lián)網(wǎng)的迅猛發(fā)展,大量的信息以電子文檔的形式出現(xiàn)在人們面前, Web已經(jīng)成為了一種非常重要的信息資源,人們所需的知識幾乎都可以在Web中檢索到[8]。彝語言語料資源數(shù)據(jù)庫是面向廣大研究、學(xué)習(xí)彝語言的用戶,因此數(shù)據(jù)庫所提供服務(wù)的客觀性取決于數(shù)據(jù)庫的具體組織實現(xiàn)方式。彝語言語料資源數(shù)庫針對用戶對語料格式、存儲方式的不同需求,提供了以下兩種檢索彝語語料的方式和途徑:

      1) 以Web中常用的交互方式直接把入庫的常用原始語料、初加工語料供檢索用戶。

      2) 對于需要有注音、分詞標注、語法樹庫等詳細標注信息的用戶,可按需對分語料要素存儲的原始語料和標注資料進行瀏覽和檢索。

      3.2 彝語言語料數(shù)據(jù)的在線瀏覽與下載

      3.2.1 面向用戶視圖的語料數(shù)據(jù)的檢索與下載

      針對不同語料檢索與下載的用戶,在彝語言語料資源數(shù)庫管理中可用三個常用語料要素表定義不同的只讀性用戶界視圖。語料庫管理員對庫中所有的語料數(shù)據(jù)都有上傳、查詢、統(tǒng)計、修改、下載的權(quán)限,其他用戶只有查詢、檢索的權(quán)限。因此可以根據(jù)與數(shù)據(jù)相對應(yīng)的不同用戶類別,對三個常用的語料表為各種不同語料類別定義不同的視圖,視圖里只有用戶所在權(quán)限內(nèi)的語料數(shù)據(jù);同時對不同類別用戶進行不同的管理與授權(quán),用戶只有經(jīng)過身份認證后,才能根據(jù)設(shè)定的語料數(shù)據(jù)檢索方式調(diào)用具體的檢索信息,然后發(fā)送到后臺數(shù)據(jù)庫實現(xiàn)語料數(shù)據(jù)的檢索和查詢,具體的實現(xiàn)流程如圖1所示。

      圖1 面向用戶視圖的語料數(shù)據(jù)的檢索與下載流程

      3.2.2 基于拆分方案的批量語料數(shù)據(jù)的檢索與下載

      在彝語言語料資源數(shù)庫的設(shè)計過程中為了方便用戶在線批量檢索、下載語料數(shù)據(jù),制定了語料數(shù)據(jù)文件分級別、分類別的拆分方案,對基礎(chǔ)語料、標注語料按不同的用戶級別進行了分類,具體的實現(xiàn)流程如圖2所示。

      圖2 基于拆分方案的批量語料數(shù)據(jù)的檢索和下載流程

      4 彝語言語料資源數(shù)據(jù)庫的結(jié)構(gòu)與功能

      從總體結(jié)構(gòu)看,彝語言語料資源數(shù)據(jù)庫主要由以下五個平臺構(gòu)成。

      1) 網(wǎng)絡(luò)平臺:通過網(wǎng)絡(luò)技術(shù)平臺實現(xiàn)彝語言語料資源庫的網(wǎng)絡(luò)化管理與共享。

      2) 數(shù)據(jù)處理平臺:對彝語言語料數(shù)據(jù)在形式上進行編碼與格式檢查,在內(nèi)容上實現(xiàn)分類入庫,將經(jīng)過分類甄別的語料自動添加到數(shù)據(jù)庫中,確保了入庫語料的規(guī)范性、準確性。同時將數(shù)據(jù)庫中新增的語料自動追加到文件服務(wù)器中。

      3) 服務(wù)平臺:是語料數(shù)據(jù)的查詢、檢索、統(tǒng)計、分析與下載。

      4) 開發(fā)平臺: SQL Server 2008,VC++6.0等集成開發(fā)環(huán)境。

      5) 后臺管理: 通過Web控制端實現(xiàn)數(shù)據(jù)庫的日常管理。

      此外,彝語言語料資源庫還具有以下兩個方面功能:

      1) 檢索方式多樣化(有日期、領(lǐng)域、題材、作者等),能對多要素按條件查詢,還能進行動態(tài)SQL查詢。

      2) 能面向彝語言的教學(xué)科研、信息處理、機器翻譯、跨語言信息檢索等領(lǐng)域提供強大的語言數(shù)據(jù)支持和快捷的Web在線服務(wù)。

      彝語言語料資源數(shù)據(jù)庫的實現(xiàn)參考借鑒了目前網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫建設(shè)方面的主流技術(shù),搭建了一個基于Internet C/S結(jié)構(gòu)的可動態(tài)顯示、查詢、瀏覽、統(tǒng)計、下載的彝語言語料資源信息數(shù)據(jù)共享系統(tǒng),并根據(jù)實際運用需要制定了一整套保障系統(tǒng)持續(xù)高效運行的工作流程,具體流程如圖3所示。

      圖3 彝語言語料資源數(shù)據(jù)庫的業(yè)務(wù)流程

      5 結(jié)語

      本文以收集整理翻譯的政治、法律、經(jīng)濟、科學(xué)、文化、教育等領(lǐng)域內(nèi)的500多萬彝語文本語料為基礎(chǔ),通過ODBC,利用VC++ 6.0編寫彝語言語料入庫程序,實現(xiàn)了彝語言語料U文件(Unicode彝文)和Y文件(YIWIN彝文)的自動入庫,通過SQL Server 2008進行后臺管理,利用基于瀏覽器/服務(wù)器的架構(gòu),實現(xiàn)了能針對不同用戶的需求,合理、科學(xué)組織數(shù)據(jù)是實現(xiàn)其入庫、共享和廣泛應(yīng)用的關(guān)鍵,本文以數(shù)據(jù)庫為中心,利用SQL結(jié)構(gòu)化查詢語言進行查詢和統(tǒng)計,既方便了程序的編制,又方便了用戶進行查詢和統(tǒng)計,通過對彝語言語料資源庫數(shù)據(jù)進行共享,方便了相關(guān)學(xué)科的研究者對彝語語料的檢索,是提高彝語語料使用效率的有效途徑,同時文中涉及到的開發(fā)思路和原理對其他民族文字信息處理中的類似問題也提供了一個可參考的解決方案。

      [1] 王成平.彝語言信息處理的現(xiàn)況分析與發(fā)展前景探討[J].西南民族大學(xué)學(xué)報(人文社會科學(xué)版),2011.(2): 60-63.

      [2] 俞士汶.綜合型語言知識庫的建設(shè)與利用[J].中文信息學(xué)報,2004,18(5): 1-10.

      [3] 王成平.信息處理用彝、漢、英三語平行語料庫的建設(shè)與語料對齊技術(shù)研究[J].科技通報,2012(1): 131-134.

      [4] 周從軍.XML程序設(shè)計[M],天津: 天津大學(xué)出版社,2010:9-12.

      [5] 沙馬拉毅.彝文信息處理技術(shù)三十年發(fā)展歷程與展望[J],中文信息學(xué)報,2011,25(6): 170-174.

      [6] 胡百敬.SQL Server 2008管理實踐[M].北京: 人民郵電出版社,2009:36-48

      [7] 董如根.歷史地面氣象資料庫的設(shè)計及共享[J],軟件導(dǎo)刊,2012.(1): 98-99.

      [8] 曹馨宇,曹存根.從Web獲取部分整體關(guān)系語料的方法,中文信息學(xué)報[J], 2011,25(5): 17-23.

      [9] 林政,呂雅娟,劉群,馬希榮.Web平行語料挖掘及其在機器翻譯中的應(yīng)用[J],中文信息學(xué)報,2010,24(5): 85-91.

      [10] 常寶寶,詹衛(wèi)東,張華瑞.面向漢英機器翻譯的雙語語料庫的建設(shè)及其管理[J].計算機輔助術(shù)語研究,2003,(1):28-31.

      [11] 雪艷.關(guān)于用XML語言組織蒙古語語料庫的設(shè)想[J]. 內(nèi)蒙古大學(xué)學(xué)報(人文社會科學(xué)版),2006(1):13-16.

      [12] 陳小荷.現(xiàn)代漢語自動分析[M].北京: 北京語言文化大學(xué)出版社,2000: 35-80.

      [13] 李康熙,楊勇.平行語料庫對齊技術(shù)的語言學(xué)思考[J].合肥工業(yè)大學(xué)學(xué)報(社會科學(xué)版),2009(6):83-86.

      Database Design of Yi Language Corpus and Its Web Access

      WANG Chengping

      (The Experimental Center of National Language Information Processing, Southwest University for Nationalities,Chengdu,Sichuan 610041, China)

      This paper describes the design of Yi language corpus database on SQL Server 2008. This system can store the Yi language corpus U (Unicode Yi characters) and Y (YIWIN Yi characters) automatically. A C/S style access module is also implemented, which enable remote access via web browser. The report practice can contribute to similar tasks in other minority languages.

      Yi language;corpus;database design;Web access

      王成平(1979-),博士,副教授,主要研究領(lǐng)域為彝語言文字信息處理技術(shù)及計算語言學(xué)。E?mail:wangchengping@126.com

      1003-0077(2016)01-0129-04

      2013-05-08 定稿日期: 2014-02-26

      國家自然科學(xué)基金(71373216);國家社科重大招標項目(13&ZD142);西南民族大學(xué)創(chuàng)新團隊建設(shè)計劃項目(13TD0058)、學(xué)位點建設(shè)項目;國家民委重點人文研究基地中國彝學(xué)研究中心項目(YXJDZ1503);四川省重點研究基地彝族文化研究中心項目(YZWH1203)

      TP391

      A

      猜你喜歡
      彝文彝語信息處理
      東營市智能信息處理實驗室
      民初《大定縣志·殊語》中的彝語研究
      納蘇彝語越南語親屬稱謂特征及其文化內(nèi)涵異同研究
      彝文經(jīng)籍《祭龍經(jīng)·祭彩虹經(jīng)》中的敬畏自然觀研究
      訪大涼山懸崖村
      基于Revit和Dynamo的施工BIM信息處理
      地震烈度信息處理平臺研究
      CTCS-3級列控系統(tǒng)RBC與ATP結(jié)合部異常信息處理
      貴州彝文信息技術(shù)研究概述
      中國信息化(2017年8期)2017-11-30 04:02:25
      漢語“不”與彝語“ap”的異同
      东光县| 通海县| 红原县| 威远县| 商水县| 萍乡市| 板桥市| 阜南县| 资兴市| 襄汾县| 孝感市| 两当县| 陈巴尔虎旗| 无极县| 满洲里市| 大田县| 黄陵县| 齐齐哈尔市| 鄂州市| 六盘水市| 同仁县| 都兰县| 河曲县| 南康市| 连城县| 湘潭县| 岑溪市| 天峨县| 全州县| 和平县| 新丰县| 内黄县| 沾化县| 海安县| 成安县| 璧山县| 四子王旗| 舞阳县| 崇信县| 平和县| 隆昌县|