• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      古籍?dāng)?shù)字化過程中漢字處理對(duì)策研究

      2014-02-05 00:47:21李玖蔚
      關(guān)鍵詞:廬陵字庫造字

      李玖蔚

      ?

      古籍?dāng)?shù)字化過程中漢字處理對(duì)策研究

      李玖蔚

      井岡山大學(xué)圖書館,江西 吉安 343009

      古籍?dāng)?shù)字化是解決古籍保護(hù)與利用之間矛盾的有效手段。本文概述了國內(nèi)外古籍?dāng)?shù)字化過程中漢字字庫的研究情況,并以廬陵文化古籍文獻(xiàn)數(shù)字化實(shí)踐為基礎(chǔ),從輸入法的選擇、偏僻字的錄入技巧、自造古字等方面,探討圖書館在古籍?dāng)?shù)字化過程中面臨的漢字字庫不足問題所采取的應(yīng)對(duì)策略,并提出漢字處理過程中需注意的若干問題,以期對(duì)從事古籍?dāng)?shù)字化的同仁有所啟發(fā)和幫助。

      圖書館;古籍?dāng)?shù)字化;漢字處理;對(duì)策研究

      古籍?dāng)?shù)字化是加快古籍流通,有效保護(hù)古籍的重要手段。中文古籍?dāng)?shù)字化肇始于1978年[1],美國人P?J?Ivanhoe使用電子計(jì)算機(jī)編制了《戴震孟子字義疏證索引》《王陽明大學(xué)問索引》《王陽明傳習(xí)錄索引》《朱熹中庸章句索引》《朱熹大學(xué)章句索引》機(jī)讀目錄。目前在美國,由北美36家圖書館組成的美國圖書館研究學(xué)會(huì),擁有25000條數(shù)據(jù)的數(shù)據(jù)庫做到了館際資源共享,并還在不斷地?cái)U(kuò)充完善中。哈佛燕京圖書館擁有的“線裝古籍計(jì)算機(jī)檢索系統(tǒng)”中的1000余種家譜的資料,目前已經(jīng)編目完成。在英國,大量中國珍貴文獻(xiàn)和古籍收藏在大英圖書館,大英圖書館開發(fā)的“古版書簡(jiǎn)明標(biāo)題目錄”是當(dāng)前全球古籍文獻(xiàn)數(shù)據(jù)庫最大的聯(lián)機(jī)數(shù)據(jù)庫[1]。以上這些成果為我國古籍?dāng)?shù)字化建設(shè)提供了寶貴的經(jīng)驗(yàn)。

      據(jù)2010年不完全統(tǒng)計(jì),我國大陸地區(qū)有179家單位從事古籍?dāng)?shù)字化,形成各類數(shù)據(jù)庫(包括各種古籍書目數(shù)據(jù)庫、古籍全文數(shù)據(jù)庫等)415個(gè),許多數(shù)據(jù)庫的字?jǐn)?shù)都在1億以上。較權(quán)威的統(tǒng)計(jì)表明,2012年我國公藏機(jī)構(gòu)已經(jīng)擁有超過20億字的數(shù)字化文本格式的古籍。一些已成規(guī)模的大型古籍?dāng)?shù)據(jù)庫還在原有基礎(chǔ)上不斷拓展和完善[2]。

      中國大陸地區(qū)開始中文古籍?dāng)?shù)字化工作以來,制約古籍?dāng)?shù)字化進(jìn)程的主要問題是漢字字庫問題。業(yè)界就這一問題進(jìn)行了深入的研究和探討。

      1 國內(nèi)外古籍?dāng)?shù)字化過程中對(duì)漢字字庫問題的研究概況

      1.1 漢字字庫的研究情況

      我國從20世紀(jì)50年代就開始了計(jì)算機(jī)中文信息處理的理論和技術(shù)的研究,自20世紀(jì)70年代中期開始,我國逐漸加快在計(jì)算機(jī)中文信息處理方面的發(fā)展步伐,在漢字鍵盤輸入技術(shù)、漢字輸出技術(shù)、漢字編碼技術(shù)、漢字儲(chǔ)存、檢索和識(shí)別、電子照排、中文平臺(tái)等多方面取得了一系列重大成就[3]。陸續(xù)開發(fā)的漢字鍵盤輸入方法,解決了漢字進(jìn)入計(jì)算機(jī)的難題;漢字輸出實(shí)現(xiàn)了多字體、多字號(hào);漢字字庫的制作也由點(diǎn)陣字庫、矢量字庫逐步過渡到曲線輪廓字庫;漢字自動(dòng)識(shí)別技術(shù)達(dá)到國際先進(jìn)水平,并有商品投入市場(chǎng);ISO/IEC 10646的CJK字符集,由早期的20 902個(gè)CJK統(tǒng)一漢字逐步擴(kuò)充,擴(kuò)充集A和擴(kuò)充集B已經(jīng)完成,現(xiàn)在正討論擴(kuò)充集C1。待擴(kuò)充集C1完成后,中日韓編碼漢字已經(jīng)7萬多。這些成就,促進(jìn)了中國計(jì)算機(jī)的普及,為發(fā)展計(jì)算機(jī)應(yīng)用技術(shù)和信息化創(chuàng)造了基本條件[4]。

      1.2 漢字字庫的不足

      中國古籍?dāng)?shù)字化經(jīng)過近30年的努力,漢字字庫得到了飛速發(fā)展,并開發(fā)出了超大字符集字庫。在漢字信息化標(biāo)準(zhǔn)制定方面,國內(nèi)外相繼制定了多個(gè)漢字編碼標(biāo)準(zhǔn)。最新的GB 18030-2005標(biāo)準(zhǔn)可以涵蓋70 244個(gè)漢字。然而,古籍中的漢字大約有10萬多個(gè),GB 18030-2005的字庫還是遠(yuǎn)沒有覆蓋所有漢字[3]。因此,在古籍?dāng)?shù)字化時(shí)依然會(huì)碰到不少缺字現(xiàn)象,補(bǔ)字工作不可避免。漢字字庫的不足是影響古籍?dāng)?shù)字化質(zhì)量及進(jìn)程的主要問題之一。

      2 我館古籍?dāng)?shù)字化過程中應(yīng)對(duì)漢字字庫問題的策略

      井岡山大學(xué)地處素稱“江南望郡”、“金廬陵”、“文章節(jié)義之邦”的吉安,一直以來注重廬陵文化相關(guān)文獻(xiàn)資料的購買和收藏,為充分挖掘廬陵文化的精髓和內(nèi)涵,又組織力量對(duì)相關(guān)的館藏資源進(jìn)行數(shù)字化加工,建成了特色數(shù)據(jù)庫,為研究者提供了更快捷、更豐富、更深層次的服務(wù)[5]。

      所謂廬陵文化,主要是指讀書人多,建功立德者多,文教設(shè)施多,發(fā)表著述多等等。在數(shù)字化廬陵文化名人的古籍作品時(shí),比如在《歐陽修文萃》的數(shù)字化過程中,盡管安裝了超大字符集字庫,對(duì)計(jì)算機(jī)也作了相應(yīng)的設(shè)置,但還是碰到不少問題。故筆者將三年來數(shù)字化廬陵古籍文獻(xiàn)中的實(shí)踐經(jīng)驗(yàn)進(jìn)行總結(jié),希望對(duì)從事古籍?dāng)?shù)字化的同仁有所啟發(fā)和幫助,以期更多的古籍文化得以展示和傳承。

      2.1 選擇合適的輸入法

      在古籍?dāng)?shù)字化過程中,安裝大的漢字字體庫,能解決大部分漢字的輸入與顯示問題。目前比較成熟的輸入法有很多,但任何一種輸入法都難以囊括字體庫中的所有漢字。因此,對(duì)輸入法的選擇至關(guān)重要。合適的輸入法,不但決定了漢字的輸出能力,更影響著古籍?dāng)?shù)字化的效率。

      筆者建議選擇“極點(diǎn)五筆”輸入法,其一,此輸入法既可單獨(dú)進(jìn)行“五筆字形、拼音輸入法”的選擇,也可選擇“五筆拼音輸入法”,在這種輸入狀態(tài)下,對(duì)于那些目前還不能通過五筆輸出的漢字,可直接輸入該字的拼音進(jìn)行輸出,省去了在五筆和拼音之間來回切換的操作;其二,該輸入法的繁簡(jiǎn)切換非常直觀、明了、方便,對(duì)于那些不是很熟悉的繁體字,通過輸入其簡(jiǎn)體字就能顯示對(duì)應(yīng)的繁體字,這樣建庫人員能很快地確定其正誤。比如“齋”和“齊”,不仔細(xì)區(qū)別感覺像是同一個(gè)字,但實(shí)際上它們分別是“齋”和“齊”的繁體字。

      2.2 偏僻字的錄入技巧

      目前漢字字庫中有大量的生僻字,無法通過五筆輸入法輸出,需通過拼音輸入法才能輸出,此時(shí)可在Word中輸入與生僻字偏旁和筆畫相近的字,并選定該字,點(diǎn)擊右鍵,在彈出菜單中選擇“符號(hào)”,便很快能找到所需文字,雙擊該字,即可直接輸入到Word中,這樣建庫人員在不知道其讀音的情況下,也能很快地輸入該字,從而提高古籍?dāng)?shù)字化的進(jìn)程。

      2.3 自造古字

      目前在古籍文獻(xiàn)數(shù)字化處理的過程中,通用于業(yè)界的Uni-code字符集具有近7萬字的容量[6],但在古籍?dāng)?shù)據(jù)庫建設(shè)中還是不夠用。因此,我們使用微軟操作系統(tǒng)自帶的“TrueType”造字程序進(jìn)行造字,避免數(shù)據(jù)庫中使用符號(hào)或說明性文字代替目前輸入法無法正常輸出的文字現(xiàn)象。

      3 古籍?dāng)?shù)字化漢字處理過程中需注意的問題及對(duì)策

      古籍?dāng)?shù)字化漢字處理過程中遇到的最大障礙是漢字字庫問題,它不但影響著古籍?dāng)?shù)字化的進(jìn)程,還制約著古籍?dāng)?shù)字化的發(fā)展。漢字字庫問題多年來經(jīng)過專家學(xué)者的研究,正在不斷的完善中,但仍未囊括古籍中的所有漢字,在進(jìn)行古籍?dāng)?shù)字化時(shí)仍有不少字需要利用相關(guān)程序進(jìn)行造字。目前有一些具備造字功能的程序,筆者主要介紹使用微軟操作系統(tǒng)自帶的“TrueType”造字程序進(jìn)行造字時(shí)需要注意的問題及解決方法。

      3.1 造字時(shí)截取字庫中已有字的有關(guān)部位

      在造字時(shí),最好截取現(xiàn)成字中需要的部分進(jìn)行造字,這樣比分別輸入所造字的各個(gè)部分而造出的字要美觀。比如:我們通過截取“映”的左半部和“換”的右半部造出的字比直接輸入“日”和“奐”字而造出的字,看上去要自然美觀。

      3.2 自造字大小的調(diào)節(jié)

      自造的字如果不通過區(qū)位碼輸入法進(jìn)行輸出,而是直接將其復(fù)制粘貼到Word或Excel文檔中的話,字號(hào)大小的調(diào)節(jié)不要在造字程序中進(jìn)行,而應(yīng)在Word或Excel文檔中進(jìn)行,否則字的筆劃線條太粗,放入相應(yīng)文檔中也會(huì)顯得很不協(xié)調(diào)。

      3.3 自造字的輸出

      將自造字直接放入Excel單元格中時(shí),單元格的狀態(tài)應(yīng)處于編輯狀態(tài)(即單擊該單元格)而不是可修改狀態(tài)(即雙擊單元格),否則無法將自造字粘貼到指定位置。但這種直接將自造字復(fù)制粘貼到Excel或Word文檔中的操作,當(dāng)需對(duì)其進(jìn)行排版時(shí),它不會(huì)隨之移動(dòng),要人工調(diào)整它所在的位置,故生僻字造好后,應(yīng)利用區(qū)位碼輸入法輸出到相應(yīng)文檔中,這樣排版時(shí)就不會(huì)出現(xiàn)自造字不隨文移動(dòng)的現(xiàn)象了。

      3.4 自造字的顯示

      自造的字缺乏通用性,因此若要在不同的計(jì)算機(jī)上都可以正常顯示Excel或數(shù)據(jù)庫中的自造字,就必須將eudc.euf和eudc.tff這兩個(gè)自造字庫文件拷貝到字體目錄下。需要指出的是,將這二個(gè)文件拷貝到指定目錄時(shí),根據(jù)計(jì)算機(jī)設(shè)置的不同,其拷貝方法也不同。即:操作系統(tǒng)中沒有攜帶TrueType造字程序,只需直接將自造字的二個(gè)文件粘貼到指定目錄,重啟計(jì)算機(jī)就行了;其他情況就只有通過command命令進(jìn)行拷貝操作,當(dāng)然如果造字程序或自造字文件處于運(yùn)行狀態(tài),則拷貝操作無法進(jìn)行。

      4 結(jié)語

      古籍?dāng)?shù)字化建設(shè)是一項(xiàng)艱巨而復(fù)雜的系統(tǒng)工程,盡管目前古籍?dāng)?shù)字化建設(shè)中還存在一些問題,但隨著國家“中國古籍?dāng)?shù)字化工程”的啟動(dòng)及數(shù)字化技術(shù)的發(fā)展與完善,相信在不久的將來,古籍?dāng)?shù)字化過程中所遇到的問題都將逐步得到解決。

      [1]趙雪云,劉宗利,趙瑞生.淺談我國古籍?dāng)?shù)字化[J].才智,2012(12):115-116.

      [2]高娟,劉家真.中國大陸地區(qū)古籍?dāng)?shù)字化問題及對(duì)策[J].中國圖書館學(xué)報(bào),2013,39(4):110-119.

      [3]黃堅(jiān).無字庫智能造字系統(tǒng)在計(jì)算機(jī)上的實(shí)現(xiàn)[D].廣州:華南理工大學(xué),2010:1-89.

      [4]李宇明.搭建中華字符集大平臺(tái)[J].中文信息學(xué)報(bào),2003, 17(2):1-6,53.

      [5]李實(shí)明,李玖蔚,傅林紅,等.宋代廬陵文化名人研究數(shù)據(jù)庫建設(shè)概述[J].井岡山學(xué)院學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)),2009, 30(11):9-11.

      [6]郭偉玲,戴艷清.論古籍?dāng)?shù)字化的檢索問題[J].圖書館理論與實(shí)踐,2011(10):13-16.

      A Countermeasure Study on Chinese Character Processing in Ancient Literature Digitization Process

      Li Jiuwei

      (Library of Jinggangshan University,Ji'an Jiangxi 343009,China)

      Ancient literature digitization is an effective means to resolve the conflict between protection and utilization of ancient literature. This article provided an overview of the situation about researches on Chinese character database in ancient literature digitization process at home and abroad. It explored solutions when the problem of inadequate coping in ancient literature digitization process emerged from the aspects of choice of input method, input skill of rare characters, and self-made ancient characters based on the digitization practice of ancient literature about Luling culture. It also raised a number of problems in Chinese character processing in order to inspire and help colleagues engaged in ancient literature digitization.

      library; ancient literature digitization; Chinese character processing; countermeasure study

      10.3969/j.issn.2095-5707.2014.06.006

      江西省社科規(guī)劃重點(diǎn)項(xiàng)目(TQ1102)

      李玖蔚,副研究館員,研究方向:信息管理、信息系統(tǒng)及計(jì)量分析。E-mail: 530807487@qq.com

      (2014-06-11,編輯:魏民)

      猜你喜歡
      廬陵字庫造字
      美麗廬陵
      廬陵某者
      秦簡(jiǎn)牘專造字釋例
      No.2 喜茶聯(lián)合漢儀字庫推出微型書和書簽
      “堆花杯”廬陵詩詞學(xué)會(huì)慶祝新中國成立70周年全國詩詞大賽征稿啟事
      中華詩詞(2019年7期)2019-11-25 01:43:06
      贊廬陵
      老友(2019年7期)2019-08-06 17:34:22
      某型號(hào)產(chǎn)品的字庫遷移優(yōu)化設(shè)計(jì)
      電子世界(2018年7期)2018-04-26 08:51:35
      隋文帝造字
      相同字庫條件下激光打印文件特征的變化規(guī)律和特點(diǎn)
      再議字庫知識(shí)產(chǎn)權(quán)保護(hù)
      周宁县| 厦门市| 元谋县| 思茅市| 南丹县| 游戏| 榆中县| 辽阳市| 博罗县| 林西县| 南陵县| 莱芜市| 岳普湖县| 增城市| 旌德县| 泗水县| 双流县| 西峡县| 珠海市| 山东省| 洛浦县| 贵港市| 彰化县| 探索| 延寿县| 卫辉市| 吉隆县| 额敏县| 威信县| 绥中县| 临安市| 阳泉市| 黔西县| 石阡县| 淮北市| 耒阳市| 昭平县| 合作市| 肃北| 嵊泗县| 赣榆县|