• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      古籍?dāng)?shù)字化技術(shù)的新思路

      2014-05-30 08:55:52鑫,潘
      語言研究 2014年1期
      關(guān)鍵詞:全文檢索古籍檢索

      章 杰 鑫,潘 悟 云

      (上海師范大學(xué) 語言研究所,上海 200234)

      文獻(xiàn)數(shù)字化建設(shè),自上個(gè)世紀(jì)80年代開始,至今超過了30年,有不少產(chǎn)品面世并進(jìn)入商業(yè)化應(yīng)用。文獻(xiàn)數(shù)字化最根本的目的是要解決如何高效、準(zhǔn)確、可靠地讓讀者查詢到自己所關(guān)注的東西,從這個(gè)角度而言,文獻(xiàn)數(shù)字化大致經(jīng)歷了三個(gè)階段。

      第一階段:文本數(shù)字化階段。這一階段的產(chǎn)品以文本方式進(jìn)行檢索、展現(xiàn),文本通過人工輸入、或者對影印紙質(zhì)文獻(xiàn)進(jìn)行OCR識別并校對后獲取。這個(gè)階段的產(chǎn)品以臺灣中研院的瀚典全文檢索系統(tǒng)為代表,能提供文本檢索、反色定位等功能,文獻(xiàn)的利用方式發(fā)生了革命性的變化。以往研究者要花費(fèi)數(shù)個(gè)月甚至是數(shù)年時(shí)間翻閱大量文獻(xiàn)的工作,通過電子文本只要幾分鐘就能完成。但是這一階段的數(shù)字化產(chǎn)品也存在幾個(gè)缺陷:(1)用于檢索的文本有可信度問題。因?yàn)闄z索的文本是通過人工輸入,或者 OCR識別獲得,都存在不忠于原版紙質(zhì)文獻(xiàn)的問題,原因大致有兩個(gè):1)輸入錯(cuò)誤。用人工輸入或OCR得到的文本,錯(cuò)誤當(dāng)然是不可避免的。2)字符集規(guī)模限制導(dǎo)致的錯(cuò)誤。目前普遍使用的七萬多字的Unicode字符集,在文獻(xiàn)數(shù)字化中顯然不夠用。此外,大量的異體字、通假字、避諱字,以及日、韓等國的漢字,有很多無法輸入。這些都會導(dǎo)致文本與原版紙質(zhì)文獻(xiàn)之間的不一致。(2)必須查驗(yàn)對應(yīng)的紙質(zhì)文獻(xiàn)。這一方面是由于檢索文本的可信度不夠,用戶不敢直接采信。另一方面,與檢索內(nèi)容相關(guān)的一些其他信息,如頁數(shù)、行數(shù)、版本以及上下文內(nèi)容等等,也許只能在原書中找到。這就導(dǎo)致讀者還需要花時(shí)間去查找相應(yīng)的紙質(zhì)文獻(xiàn),甚至?xí)粫r(shí)找不到原書。同時(shí),查找原書也會導(dǎo)致紙質(zhì)文獻(xiàn)的磨損,尤其是某些珍貴的古籍是不允許人工翻閱的。

      第二階段:文本為主,影印版為輔的數(shù)字化階段。這一階段的文獻(xiàn)數(shù)字化產(chǎn)品以愛如生中國基本古籍庫為代表,在第一階段的基礎(chǔ)上,加入了兩個(gè)顯著的改進(jìn):(1)將文本按照原版的樣式、字體等進(jìn)行排版,并能進(jìn)行檢索和定位,讓讀者在視覺上有了與紙質(zhì)原版相似的感覺。但是由于用來檢索的還是文本,所以仍然不能克服第一階段的文本可信度問題。(2)提供影印版圖片與文本進(jìn)行對照,免除了讀者到圖書館去翻閱相應(yīng)的紙質(zhì)文獻(xiàn)的麻煩。然而影印版圖片的對照以整本書為單位,讀者在對照時(shí)還是需要瀏覽整本書來定位到相應(yīng)的頁碼和位置,這無疑是一項(xiàng)費(fèi)時(shí)費(fèi)力的工作。

      第三階段:在影印版圖片上直接進(jìn)行檢索、定位的階段。這個(gè)階段的產(chǎn)品以超星為代表。在屏幕上顯示的是原書的影印版圖片,輸入要查詢的字符,就能直接定位到圖像上的字符位置。其工作原理是利用雙層PDF技術(shù),對圖片進(jìn)行OCR識別建立文本,文本上的每個(gè)字符與圖片上對應(yīng)字符的坐標(biāo)位置產(chǎn)生映射關(guān)系。在文本層上檢索到要查的字符,就能夠通過這種映射關(guān)系,直接反色顯示到圖片中的相應(yīng)位置,產(chǎn)生在影印圖片上實(shí)現(xiàn)全文檢索的效果。用來檢索的文本雖然是用OCR識別得到,仍然存在文本的可信度問題,但是檢索結(jié)果直接映射到原版圖片上的對應(yīng)位置,讀者在直接閱讀原版文獻(xiàn)圖片的時(shí)候,避免了文本中可能出現(xiàn)的錯(cuò)誤。

      可以說超星在這一點(diǎn)上取得了巨大的成功,然而也存在著很大的不足。因?yàn)楣糯霭嫖颫CR的識別率很低,無法實(shí)現(xiàn)雙層PDF技術(shù),所以進(jìn)行原版圖片檢索并且定位的文獻(xiàn)僅限于近現(xiàn)代文獻(xiàn)。于是,目前文獻(xiàn)檢索的產(chǎn)品就分為兩類,能作現(xiàn)代出版物檢索的產(chǎn)品不能檢索古代出版物,能檢索古代出版物的產(chǎn)品不能檢索現(xiàn)代出版物,這對研究人員來說,無疑是一大缺陷。

      (一)古代出版物影印圖片上全文檢索的實(shí)現(xiàn)。本研究是將現(xiàn)代文獻(xiàn)的數(shù)字化的基本原理應(yīng)用于古籍?dāng)?shù)字化,成功解決了幾個(gè)關(guān)鍵的問題,使得古籍的數(shù)字化能像現(xiàn)代文獻(xiàn)數(shù)字化一樣,實(shí)現(xiàn)在原始影印版古籍圖片上進(jìn)行全文檢索、全文定位。

      在影印版圖片上直接進(jìn)行檢索、定位的基本原理,是將文獻(xiàn)圖片OCR識別成文本,與圖片形成雙層PDF文件。文本層中每一個(gè)字符與圖像層中相應(yīng)字符的坐標(biāo)一一對應(yīng)。當(dāng)在文本層中檢索到一個(gè)字符,就映射到圖像層中的相應(yīng)坐標(biāo),實(shí)現(xiàn)在圖片中的定位。

      例如,某張圖片上有“古籍文獻(xiàn)數(shù)字化”7個(gè)字,它們的坐標(biāo)分別為(232,301,246,315)、(232,319,246,333)、(236,355,264,384)、(253,391,267,405)、(253,410,267,424)、(254,430,267,443)、(253,449,267,463),括號中第1、2個(gè)數(shù)字表示一個(gè)字符的左上角橫座標(biāo)與縱座標(biāo),第3、4個(gè)數(shù)字表示右下角的橫座標(biāo)與縱座標(biāo),座標(biāo)的單位為象素。假設(shè)檢索詞為“文獻(xiàn)”,檢索到它在文本層中分別是第3與第4個(gè)字,映射到圖像層中的坐標(biāo)分別為(236,355,264,384)和(253,391,267,405),只要把圖片中這些座標(biāo)所包圍的矩形反色標(biāo)示,就實(shí)現(xiàn)了在圖片上的檢索定位。

      根據(jù)以上原理在現(xiàn)代文獻(xiàn)中實(shí)現(xiàn)全文定位簡單易行,但是應(yīng)用到古籍?dāng)?shù)字化則絕非易事,主要會遇到以下兩個(gè)難以解決的問題:

      (1)OCR結(jié)果的準(zhǔn)確性問題。在利用計(jì)算機(jī)排版并出版的現(xiàn)代文獻(xiàn)中,所使用的字體數(shù)量有限,使用同一種字體的字形狀固定,并且各個(gè)字符之間在X軸或Y軸上的投影至少都有1px的距離,對其進(jìn)行OCR識別會有很高的識別率,目前主流的OCR識別軟件對現(xiàn)代文獻(xiàn)的識別率都能達(dá)到98%以上。

      古籍文獻(xiàn)不同于現(xiàn)代文獻(xiàn),無論是雕版印刷或者是活版印刷的古籍,字和字之間經(jīng)常是互相交叉,尤其是雕版印刷的古籍,所使用的模版是手工雕刻的,存在著很大的隨意性,同樣的字之間在字形上也會存在著不同,因此古籍的OCR識別率相對較低,識別率一般不會超過 80%,尤其是一些手工抄寫的古籍識別率更低,制作出雙層PDF文件中的文本錯(cuò)誤太多,對于全文檢索而言沒有實(shí)際的使用價(jià)值。

      (2)OCR結(jié)果的順序問題。古籍的排版方式不同于現(xiàn)代文獻(xiàn),除了橫排和豎排的區(qū)別外,最主要的區(qū)別是古籍中存在著大量的雙行夾注,即大字下面并排排列著兩列小字。加上大量古籍的字體是手寫體,字的大小也不盡統(tǒng)一,導(dǎo)致OCR結(jié)果的順序出現(xiàn)很多意想不到的錯(cuò)誤。例如張氏本的《宋本廣韻》有這樣一段文字(見右圖):

      文本的正確順序是:峒崆峒山名硐磨也。但是OCR出來的文本順序卻是:峒崆峒硐磨山名也。從這個(gè)例子可以看出,古籍通過OCR識別得到的文本,即使文字正確,也有可能由于順序錯(cuò)誤,造成文本的錯(cuò)誤。如果用人工手段將OCR出來的文本順序調(diào)整正確,因?yàn)榇笮∽炙嫉目臻g不一樣,也會出現(xiàn)在圖片上的定位不準(zhǔn)確。

      我們把這兩個(gè)問題分開解決,首先解決OCR結(jié)果的順序問題,進(jìn)而解決識別率不高的問題。

      古籍OCR以后所以會產(chǎn)生順序問題,是因?yàn)楣偶杂衅涮囟ǖ拈喿x順序規(guī)則。雙行夾注的第一行結(jié)束以后,要轉(zhuǎn)到小字的第二行開始閱讀,而不是跳到下面的正文大字去。由于抄寫或雕版不規(guī)則,下一個(gè)字與前字的中心線有時(shí)候產(chǎn)生偏移,但是我們根據(jù)對同一行字的前行感知模式,不難判斷什么情況下前后字歸為一行,什么情況下分作兩行。我們采用動(dòng)態(tài)規(guī)劃的思想,建立整個(gè)頁面中任意兩個(gè)坐標(biāo)的先后順序權(quán)值,并對其求取最短路徑的方式實(shí)現(xiàn)坐標(biāo)排序,可以糾正文本的順序錯(cuò)誤。經(jīng)過測試,用這種糾錯(cuò)方法,各種古籍,包括甲金文樣本在內(nèi),排序結(jié)果與人的閱讀順序一致率達(dá)到 100%。經(jīng)過這樣處理過的文本,其中的文字可能有誤,但是順序是肯定正確的,這種文本叫作有序文本。

      順序問題解決以后,接著就是解決有序文本中的文字錯(cuò)誤。古籍?dāng)?shù)字化經(jīng)過30多年的發(fā)展,已經(jīng)在互聯(lián)網(wǎng)上積累了大量相對精確的文本(我們稱其為精確文本)。使用精確文本對有序文本進(jìn)行自動(dòng)校對,使得校對后的文本中的每個(gè)字既保留精確文本的信息,同時(shí)又保留有序文本的位置信息。整個(gè)古籍?dāng)?shù)字化模型示意圖如下圖所示:

      圖1 古籍?dāng)?shù)字化模型示意圖

      (二)古籍?dāng)?shù)字化系統(tǒng)的實(shí)現(xiàn)。本研究通過坐標(biāo)排序及自動(dòng)校對的基本原理,已經(jīng)實(shí)現(xiàn)了在原始影印版古籍圖片上的全文檢索、全文定位的古籍?dāng)?shù)字化系統(tǒng),包括古籍加工系統(tǒng)和古籍查詢系統(tǒng)。利用古籍加工系統(tǒng)進(jìn)行古籍加工,能在少量人工干預(yù)的前提下實(shí)現(xiàn)平均40秒鐘加工一頁的速度,加工完成的數(shù)據(jù)可導(dǎo)入古籍查詢系統(tǒng)進(jìn)行查詢。為了測試整個(gè)古籍?dāng)?shù)字化系統(tǒng)的效率和準(zhǔn)確性,在古籍查詢系統(tǒng)中進(jìn)行10次不同檢索詞的全文檢索及圖片定位,系統(tǒng)響應(yīng)時(shí)間都能控制在秒的數(shù)量級,檢索結(jié)果定位準(zhǔn)確率達(dá)到100%。實(shí)踐結(jié)果表明所實(shí)現(xiàn)的古籍?dāng)?shù)字化系統(tǒng)準(zhǔn)確高效。

      這個(gè)系統(tǒng)中目前已經(jīng)加工完成并能使用的有四部叢刊等古籍,古籍?dāng)?shù)量正在快速增長中,教育網(wǎng)內(nèi)訪問網(wǎng)址為東方語言學(xué)上的文獻(xiàn)查詢鏈接,也可以直接訪問網(wǎng)址:http://202.121.55.168。

      由于本系統(tǒng)是面向研究使用的系統(tǒng),除了提供基本的書目檢索、全文檢索、正文檢索、注文檢索,以及全文圖片定位等功能外,還依托系統(tǒng)平臺,提供以下功能:(1)校注功能。對原版古籍中指定位置的圖像文字可以進(jìn)行校注,并可查看相關(guān)學(xué)者的校注,為研究者提供了一個(gè)學(xué)術(shù)交流的平臺。同時(shí),對于在校注中出現(xiàn)的相關(guān)文獻(xiàn)可直接進(jìn)行直接鏈接定向,不必要另外進(jìn)行查詢。(2)頁碼級對應(yīng)的多版本對照功能。通過全文檢索定位某版本的圖片頁面以后,能直接打開其他版本的對應(yīng)頁面,為研究者進(jìn)行比較研究提供了極大的便利。

      古籍?dāng)?shù)字化是一個(gè)系統(tǒng)工程,本研究所構(gòu)建的高效、準(zhǔn)確、可靠的數(shù)字化系統(tǒng)模型,為古籍?dāng)?shù)字化提供了一條新思路,同時(shí)系統(tǒng)中所提及的思想也可應(yīng)用于少數(shù)民族文獻(xiàn)的數(shù)字化實(shí)踐。系統(tǒng)有待進(jìn)一步改進(jìn)之處有以下幾點(diǎn):(1)可通過改進(jìn)及優(yōu)化圖像處理算法等措施,進(jìn)一步提高古籍的數(shù)字化加工效率。(2)依托系統(tǒng)準(zhǔn)確、可靠的優(yōu)勢,可進(jìn)一步挖掘古籍利用中一些深層次的信息。在當(dāng)前大數(shù)據(jù)時(shí)代的背景下,更好地將古籍中包含的中華民族的傳統(tǒng)燦爛文化融入到信息社會的方方面面,發(fā)揮古籍更大的作用。

      賀科偉 2011 我國古籍?dāng)?shù)字化標(biāo)準(zhǔn)體系建設(shè)芻議,《科技與出版》第8期。

      劉聰明、姜愛蓉、鄭小惠 2011 信息技術(shù)在古籍?dāng)?shù)字化實(shí)踐中的應(yīng)用,《蘭臺世界》第5期。

      吳夏平 2012 古籍?dāng)?shù)字化與學(xué)術(shù)異化,《山西師大學(xué)報(bào)》(社會科學(xué)版)第5期。

      周迪、宋登漢 2010 中文古籍?dāng)?shù)字化開發(fā)研究綜述,《圖書情報(bào)知識》第6期。

      周雪瑩 2012 采用雙層PDF 形式將方正書版文件制作為可檢索式PDF文件,《編輯學(xué)報(bào)》第6期。

      朱建亮 2002 粵港高校圖書館信息資源建設(shè)比較研究,《圖書館論壇》第1期。

      猜你喜歡
      全文檢索古籍檢索
      中醫(yī)古籍“疒”部俗字考辨舉隅
      關(guān)于版本學(xué)的問答——《古籍善本》修訂重版說明
      天一閣文叢(2020年0期)2020-11-05 08:28:06
      2019年第4-6期便捷檢索目錄
      關(guān)于古籍保護(hù)人才培養(yǎng)的若干思考
      天一閣文叢(2018年0期)2018-11-29 07:48:08
      我是古籍修復(fù)師
      金橋(2017年5期)2017-07-05 08:14:41
      Oracle數(shù)據(jù)庫全文檢索性能研究
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      基于KySou的全文檢索系統(tǒng)的分析與優(yōu)化
      特色數(shù)據(jù)庫全文檢索系統(tǒng)的設(shè)計(jì)
      國際標(biāo)準(zhǔn)檢索
      南江县| 兖州市| 会理县| 连云港市| 措美县| 廊坊市| 额济纳旗| 宝坻区| 松潘县| 白朗县| 刚察县| 新干县| 辰溪县| 清水县| 榆社县| 东源县| 藁城市| 攀枝花市| 无棣县| 彭阳县| 腾冲县| 黔江区| 澄江县| 色达县| 中方县| 五指山市| 勃利县| 通州区| 通辽市| 肥乡县| 胶州市| 孙吴县| 油尖旺区| 麻城市| 铅山县| 镇宁| 涟源市| 定结县| 西丰县| 太谷县| 东乡族自治县|