古籍?dāng)?shù)字化中計(jì)算機(jī)自然語言處理應(yīng)用現(xiàn)狀分析*

2020-05-07 03:42:36馬海麗

古籍研究 2020年2期

馬海麗王曦

關(guān)鍵詞：古漢語；古籍?dāng)?shù)字化；分詞；詞性標(biāo)注

中國漢語典籍浩如煙海，但因其歷史久遠(yuǎn)、難理解、無句讀等問題，人們難以研讀學(xué)習(xí)。雖有不少古漢語工作者堅(jiān)持傳承傳統(tǒng)文化，但因標(biāo)點(diǎn)斷句等基礎(chǔ)性工作而耗費(fèi)了大量的時(shí)間和精力?！拔覀兤谕苡锌梢杂渺稘h語史電子文獻(xiàn)自動(dòng)分詞、自動(dòng)斷句、自動(dòng)標(biāo)注的軟件早日問世，專家只需對(duì)結(jié)果刊謬補(bǔ)缺，這將大大減輕屬性式標(biāo)注的勞動(dòng)強(qiáng)度，加快工作進(jìn)度。”(1)尉遲治平：《計(jì)算機(jī)技術(shù)和漢語史研究》，《古漢語研究》2000年第3期，第56—60頁。尉遲治平的呼籲反映了衆(zhòng)多古漢語工作者的心聲。採用計(jì)算機(jī)自然語言處理技術(shù)實(shí)現(xiàn)對(duì)古代典籍自動(dòng)化處理，承載著學(xué)者們殷切的希望，也是傳承中華文明的重大責(zé)任。

隨著近年來自然語言處理技術(shù)的發(fā)展，現(xiàn)代漢語分詞與詞性標(biāo)注工作已經(jīng)取得了頗爲(wèi)優(yōu)秀的成果，但是在古漢語處理方面的研究是較爲(wèi)薄弱的。目前對(duì)古籍文獻(xiàn)處理現(xiàn)代化的研究主要是字的輸入、輸出、建立電子資源庫，在詞彙、語義層面上的研究卻是寥寥。本文將綜合多篇相關(guān)論文討論古籍?dāng)?shù)字化自然語言處理的研究現(xiàn)狀。

一、古籍?dāng)?shù)字化現(xiàn)狀

想要實(shí)現(xiàn)對(duì)古籍文獻(xiàn)處理的現(xiàn)代化，構(gòu)建古漢語語料庫是最爲(wèi)基礎(chǔ)的工作。相關(guān)研究最早是從計(jì)算機(jī)技術(shù)較爲(wèi)發(fā)達(dá)的美國開始的，直到20世紀(jì)80年代，海岸兩峽及香港相繼開始研發(fā)中文古籍?dāng)?shù)字化專案。1984年，中國臺(tái)灣“中研院”開始“史籍自動(dòng)化計(jì)劃”，計(jì)劃開發(fā)《二十五史(全文資料庫)》全文資料庫，後又於1990年著手建立“古漢語語料庫”。經(jīng)過三十多年不懈努力，現(xiàn)已整理建設(shè)了一個(gè)具有數(shù)億字的古籍資料庫，具有重要實(shí)用價(jià)值。其次，香港中文大學(xué)在1988年開始著手古漢語典籍的數(shù)字化建設(shè)，建立了“漢達(dá)文獻(xiàn)資料庫中心”，該中心致力於將全部出土文獻(xiàn)收入文獻(xiàn)資料庫。相較於臺(tái)灣、香港地區(qū)，大陸地區(qū)的古籍?dāng)?shù)字化建設(shè)相對(duì)起步較晚，1998年成立北京愛如生數(shù)字化計(jì)算研究中心進(jìn)行相關(guān)研究。雖起步較晚，但發(fā)展速度迅猛，國家、地方高校及商業(yè)機(jī)構(gòu)都在積極研發(fā)相關(guān)專案，如現(xiàn)有規(guī)模較大的“北大CCL古代漢語語料庫”“國家語委古籍語料庫”“中華古籍語料庫”等語料庫。

學(xué)者對(duì)古籍?dāng)?shù)字化的研究不僅體現(xiàn)在上述語料庫的構(gòu)建方面，相關(guān)的理論研究也在逐步深入。2014年常繼紅和魏曉峰發(fā)表的《國內(nèi)古籍?dāng)?shù)字化研究進(jìn)展與啓示》(2)常繼紅、魏曉峰：《國內(nèi)古籍?dāng)?shù)字化研究進(jìn)展與啓示》，《河北科技圖苑》2014年第3期，第82—85頁。中，以中國知網(wǎng)(CNKI)全文期刊資料庫爲(wèi)樣本，以“古籍?dāng)?shù)字化”爲(wèi)檢索詞，選定2001—2013的特定年限進(jìn)行模糊檢索，經(jīng)過人工資料篩選處理，排除不相關(guān)數(shù)據(jù)，最後得到國內(nèi)CNKI期刊論文數(shù)據(jù)361條。發(fā)文量總體呈穩(wěn)步增長的態(tài)勢(shì)，21世紀(jì)初期發(fā)文量增長平緩，自2004年開始迅速增長，年均論文數(shù)達(dá)到28篇，其中2012年達(dá)到最高值52篇，研究成果主要集中在圖書情報(bào)與檔案文獻(xiàn)等領(lǐng)域，同時(shí)廣泛涉及中文、教育、醫(yī)藥、計(jì)算機(jī)技術(shù)、信息工程等專業(yè)領(lǐng)域。研究熱點(diǎn)主要有6個(gè)方面，如圖表所示。

古籍?dāng)?shù)字化研究熱點(diǎn)對(duì)比圖表

2020年李明傑、張纖軻、陳夢(mèng)石發(fā)表的《古籍?dāng)?shù)字化研究進(jìn)展述評(píng)(2009—2019)》(3)李明傑、張纖軻、陳夢(mèng)石：《古籍?dāng)?shù)字化研究進(jìn)展述評(píng)(2009—2019)》，《圖書情報(bào)工作》2020年第6期，第130—137頁。，同樣以中國知網(wǎng)(CNKI)全文期刊資料庫爲(wèi)樣本，以“古籍”“數(shù)字化”等爲(wèi)主題，以2009年至2019年?duì)?wèi)時(shí)間限定，篩選、剔除後得到759條相關(guān)結(jié)果。結(jié)果顯示研究者多來自于不同的學(xué)科背景，研究主題較爲(wèi)分散，成果主要還是涉及圖書情報(bào)、文史、醫(yī)藥等，但在計(jì)算機(jī)方面的研究有所增加。作者將研究熱點(diǎn)也歸爲(wèi)6個(gè)方面，如圖表所示。

對(duì)比兩篇文章中的研究熱點(diǎn)，不難發(fā)現(xiàn)，學(xué)者對(duì)於古籍?dāng)?shù)字化的研究，理論方面、技術(shù)層面都在不斷深入，且始終秉持著通過古籍?dāng)?shù)字化實(shí)現(xiàn)古籍再生性保護(hù)的信念，國家、高校、商業(yè)機(jī)構(gòu)之間也在不斷地進(jìn)行統(tǒng)籌協(xié)作，努力實(shí)現(xiàn)各類古籍資源的共用；各學(xué)科的古籍整理也在不斷的精細(xì)化，同時(shí)也在不斷加強(qiáng)學(xué)科之間的交叉研究。但是，縱觀古籍?dāng)?shù)字化的理論研究與不同高校、機(jī)構(gòu)之間的實(shí)際語料庫整理可以發(fā)現(xiàn)，古籍?dāng)?shù)字化還未能構(gòu)建出一套完整的學(xué)術(shù)規(guī)範(fàn)體系，以至於無法保障古籍?dāng)?shù)字化的品質(zhì)；其次，進(jìn)行古籍?dāng)?shù)字化研發(fā)，一方面是爲(wèi)了保護(hù)古籍資源，但另一方面也是爲(wèi)相關(guān)的人文社會(huì)科學(xué)研究者進(jìn)行古籍知識(shí)研究提供服務(wù)，但目前多數(shù)古籍?dāng)?shù)字化研發(fā)停留在文本的輸入、輸出層面，深度的處理技術(shù)層面還遠(yuǎn)不能滿足古籍工作者的需求。

二、古漢語分詞、詞性標(biāo)注技術(shù)

(一) 分詞、詞性標(biāo)注簡述

分詞是指將一個(gè)句子中的字元切分爲(wèi)詞的過程，是中文信息處理的最基礎(chǔ)研究工作。關(guān)於自然語言處理系統(tǒng)，國內(nèi)研究相較於國外，起步較晚。中文分詞系統(tǒng)始於20世紀(jì)80年代初北京航空航天大學(xué)的CDWS(Chinese Distinguishing Word System)，在該系統(tǒng)研發(fā)過程中，研究人員首次論證了中文分詞的可行性並初步建立了相關(guān)的計(jì)算模型。隨後，中文分詞研究在國內(nèi)興起一片浪潮，更多的研究人員投身其中，取得豐碩的研究成果。首先在分詞方法方面，常見的主要分爲(wèi)三種：機(jī)械分詞方法、基於規(guī)則的分詞方法和基於統(tǒng)計(jì)的分詞方法。在基於統(tǒng)計(jì)的分詞方法中，最基本的方法包括隱馬爾科夫模型(HMM)、最大熵馬爾科夫模型(MEMM)以及條件隨機(jī)場模型(CRF)。利用上述方法開發(fā)且已開放的引擎有中國科學(xué)院技術(shù)研究所的ICTCLAS分詞系統(tǒng)、SCWS分詞系統(tǒng)、搜狗分詞、結(jié)巴分詞、盤古分詞、庖丁解牛等。

詞性標(biāo)注是指在給定句子中判定每個(gè)詞的語法範(fàn)疇，確定其詞性並加以標(biāo)注的過程，這也是自然語言處理中一項(xiàng)非?；A(chǔ)且重要的研究工作。詞性標(biāo)注的研究分爲(wèi)標(biāo)注集的研究和方法的研究。在詞性標(biāo)注集方面，對(duì)於同一種自然語言，劃分標(biāo)注集時(shí)，多是根據(jù)不同的應(yīng)用目的針對(duì)性地制定相應(yīng)的劃分標(biāo)準(zhǔn)，所以目前還沒有統(tǒng)一的詞性標(biāo)注集。在詞性標(biāo)注方法方面，研究者的方向主要集中在兩種，一種是基於規(guī)則的方法，一種是基於統(tǒng)計(jì)的方法。在基於規(guī)則的方法中，最基礎(chǔ)的就是先要制定出一個(gè)有一套標(biāo)注規(guī)則集的規(guī)則庫，但因爲(wèi)語言表達(dá)的相對(duì)抽象性，人們難以制定出一套十分完備的規(guī)則集，且過多的規(guī)則，相互之間又會(huì)産生種種衝突。所以，基於規(guī)則的方法因自身的矛盾性漸漸退到邊緣，基於統(tǒng)計(jì)的標(biāo)注方法逐漸成爲(wèi)詞性標(biāo)注研究的主流方法。另外，因爲(wèi)詞性標(biāo)注任務(wù)和分詞任務(wù)兩者從本質(zhì)上講都是序列標(biāo)注任務(wù)，所以研究人員多採用相同模型來解決此類問題，即隱馬爾科夫模型(HMM)、最大熵馬爾科夫模型(MEMM)以及條件隨機(jī)場模型(CRF)等。

(二)應(yīng)用實(shí)例

歷史進(jìn)程的推進(jìn)，隨之而來的時(shí)代特徵也是在不斷變化的，這些特徵不僅僅是表現(xiàn)在社會(huì)的政治、經(jīng)濟(jì)方面，文化方面的變化也是顯著的，僅僅聚焦在字詞的形、音、義及使用規(guī)則這一小點(diǎn)上，時(shí)代的差別性也是顯而易見的。所以，對(duì)漢語史進(jìn)行時(shí)代的劃分，明確界定古籍所屬時(shí)代是十分重要的。目前對(duì)於漢語史的分期問題，學(xué)界還有爭議，不過方一新所持觀點(diǎn)：“以東漢爲(wèi)界，把西漢列爲(wèi)過渡期和參考期，把古代漢語分爲(wèi)上古漢語和中古漢語兩大塊，以東漢魏晉南北朝隋爲(wèi)中古漢語時(shí)期，從語法、詞彙上看都是比較合理的?！?4)方一新：《從中古詞彙的特點(diǎn)看漢語史的分期》，《漢語史學(xué)報(bào)》第4輯，上海教育出版社2004年，第178—184頁?；颈粚W(xué)界認(rèn)同。所以可基本明確：漢語史分期，可以東漢爲(wèi)界，在大約3世紀(jì)以前的是上古漢語；東漢其下的是中古漢語；南宋(大約13世紀(jì))之後，則是近代漢語；1919年五四運(yùn)動(dòng)以來，就是現(xiàn)代漢語。

(1) 上古漢語古籍研究

對(duì)上古漢語古籍文獻(xiàn)的自動(dòng)分詞、詞性標(biāo)注的研究是一個(gè)循序漸進(jìn)的過程。臺(tái)灣“中研院”的“漢籍電子文獻(xiàn)”在對(duì)以《十三經(jīng)》爲(wèi)主的先秦文獻(xiàn)進(jìn)行分詞和詞性標(biāo)注時(shí)，以較爲(wèi)傳統(tǒng)的最大概率和隱馬爾科夫模型爲(wèi)主；其後邱冰、皇甫娟提出啓發(fā)式的混合分詞方法，以反向最大匹配分詞爲(wèi)主，針對(duì)《論語》《國語》等21種古代漢語語料進(jìn)行研究(5)邱冰、黃甫娟：《基於中文信息處理的古代漢語分詞研究》，《微計(jì)算機(jī)信息》，2008年第24卷第8—3期，第100—102頁。；石民、李斌、陳小荷以《左傳》爲(wèi)例，採用條件隨機(jī)模型(CRF)，通過自動(dòng)分詞、詞性標(biāo)注、分詞一體化的對(duì)比實(shí)驗(yàn)，證明了一體化分詞比傳統(tǒng)先分詞後標(biāo)注的“兩步走”方法更有效(6)石民、李斌、陳小荷：《基於CRF的先秦漢語分詞標(biāo)注一體化研究》，《中文信息學(xué)報(bào)》，2010年第2期，第39—45頁。。

梁社會(huì)、陳小荷《先秦文獻(xiàn)〈孟子〉自動(dòng)分詞方法研究》(7)梁社會(huì)、陳小荷：《先秦文獻(xiàn)〈孟子〉自動(dòng)分詞方法研究》，《南京師範(fàn)大學(xué)文學(xué)院學(xué)報(bào)》，2013年第3期，第175—182頁。以先秦文獻(xiàn)《孟子》爲(wèi)例，研究了上古漢語古籍的分詞方法。文中採用了兩種分詞方法：1. 基於條件隨機(jī)場統(tǒng)計(jì)模型的自動(dòng)分詞方法；2. 利用注疏文獻(xiàn)的自動(dòng)分詞方法。在基於條件隨機(jī)場統(tǒng)計(jì)模型的分詞實(shí)驗(yàn)中，採用《左傳》《論語》作爲(wèi)訓(xùn)練語料，根據(jù)古漢語的語料構(gòu)成，選取了簡單字面信息和複雜漢字特徵作爲(wèi)文本特徵進(jìn)行自動(dòng)分詞實(shí)驗(yàn)，值得一提的是在複雜漢字特徵中作者將漢字的聲、韻、調(diào)及部首信息涵蓋其中。最終結(jié)果爲(wèi)：基於上下文3個(gè)漢字、三字同現(xiàn)、並考慮字元分類的模板“3W+3+C1”，是最適合《孟子》的自動(dòng)分詞的。其中，在字元基礎(chǔ)上再增加聲、韻、調(diào)及部首信息，實(shí)驗(yàn)效果差別不大。僅就聲韻方面究其原因，一方面上古漢語的聲、韻、調(diào)皆是後人構(gòu)擬的，沒有準(zhǔn)確的標(biāo)準(zhǔn)，作者選用描寫中古漢語的《廣韻》字表作爲(wèi)基本資料庫，這其中肯定會(huì)産生不可避免的誤差；另一方面因爲(wèi)漢字有一字多音的特性，以及上古漢語的文獻(xiàn)中會(huì)有很多的通假字、諧音等，漢字的聲、韻、調(diào)在不同的詞性或者義項(xiàng)下往往又是不同的。這方面問題還是值得學(xué)者們深入研究的。其次作者還進(jìn)行了利用注疏文獻(xiàn)幫助自動(dòng)分詞的實(shí)驗(yàn)。這也是一種另闢蹊徑的辦法，可以説作者以一種獨(dú)特的眼光抓住了古漢語分詞的優(yōu)勢(shì)，上古漢語文獻(xiàn)年代久遠(yuǎn)，一些字詞句的含義，後人難以理解，因此産生了大量的注疏文獻(xiàn)，這些注疏文獻(xiàn)的存在，恰好爲(wèi)計(jì)算機(jī)的機(jī)器學(xué)習(xí)提供了一個(gè)重要的語言知識(shí)庫。最後的實(shí)驗(yàn)結(jié)果也證明這種方法行之有效，是進(jìn)行古籍文獻(xiàn)信息處理的新方法。

留金騰、宋彥、夏飛的《上古漢語分詞及詞性標(biāo)注語料庫的構(gòu)建》(8)留金騰、宋彥、夏飛：《上古漢語分詞及詞性標(biāo)注語料庫的構(gòu)建：以〈淮南子〉爲(wèi)範(fàn)例》，《中文信息學(xué)報(bào)》，2013年第6期，第6—15，81頁。以《淮南子》爲(wèi)文本，採用自動(dòng)標(biāo)注和人工校正相結(jié)合的方法構(gòu)建深加工的上古語料庫。首先文章以《淮南子》爲(wèi)底本分析了上古漢語詞語的特點(diǎn)，主要集中在古漢語複音詞的構(gòu)詞特點(diǎn)、詞語的形態(tài)特徵和詞語的詞性轉(zhuǎn)化三個(gè)方面，深入細(xì)緻的分析，爲(wèi)下文的實(shí)驗(yàn)提供了很好的特徵模板。在進(jìn)行分詞、標(biāo)注實(shí)驗(yàn)過程中，該文創(chuàng)造性的提出，在適應(yīng)領(lǐng)域方面，採用半監(jiān)督學(xué)習(xí)領(lǐng)域適應(yīng)技術(shù)，將基於現(xiàn)代漢語訓(xùn)練的模型應(yīng)用到古漢語的分詞任務(wù)中，且取得較爲(wèi)理想的效果。在進(jìn)行詞性標(biāo)注實(shí)驗(yàn)中，綜合分析了前人的實(shí)驗(yàn)結(jié)果，爲(wèi)了取得更爲(wèi)理想的詞性標(biāo)注結(jié)果，拋棄了其他學(xué)者常用的分詞和詞性標(biāo)注的聯(lián)合解碼，而採用串列的分詞+標(biāo)注的方案，實(shí)驗(yàn)結(jié)果也證明了其方法的有效性。同時(shí)，該文最後基於人工校正的實(shí)際情況匯總了自動(dòng)分詞和詞性標(biāo)注時(shí)産生的常見錯(cuò)誤，爲(wèi)後來者的研究提供了很好的借鑒。

魏一《古漢語自動(dòng)句讀與分詞研究》(9)魏一：《古漢語自動(dòng)句讀與分詞研究》，北京：北京大學(xué)碩士學(xué)位論文2020年。結(jié)合最新的深度學(xué)習(xí)技術(shù)，提出古漢語的BERT預(yù)訓(xùn)練模型，以期更好地解決古漢語研究中的句讀與分詞問題。在進(jìn)行古漢語分詞任務(wù)時(shí)，作者以《左傳》作爲(wèi)測(cè)試語料，首次嘗試使用無指導(dǎo)方法，通過將非參數(shù)貝葉斯模型與預(yù)訓(xùn)練BERT深度學(xué)習(xí)語言建模方法相結(jié)合。經(jīng)測(cè)試，隨著訓(xùn)練集使用資料量的增大，其分詞效果能取得與有指導(dǎo)訓(xùn)練下測(cè)試的相同結(jié)果，甚至在準(zhǔn)確率、召回率等值上遠(yuǎn)超前人基於CRF方法取得的數(shù)值。並且在使用有指導(dǎo)訓(xùn)練後，這一模型表現(xiàn)出極佳的泛化能力和穩(wěn)定性，具有很大的實(shí)用化潛力。最值得肯定的是，作者提出的這一新方法不僅可以利用無標(biāo)注文本，而且不需要除了分詞以外的任何語言學(xué)特徵標(biāo)注，這無形中就解決了前人研究中的一大難題，即需要考慮漢字聲、韻、調(diào)、部首信息等各種複雜的特徵，極大的降低了工作成本。

(2) 中古漢語古籍研究

王嘉靈以中古時(shí)期的傳世文獻(xiàn)《漢書》爲(wèi)例，從詞彙獲取和字標(biāo)注兩個(gè)層面探討了古代漢語分詞的多種方法(10)王嘉靈：《以〈漢書〉爲(wèi)例的中古漢語自動(dòng)分詞》，南京：南京師範(fàn)大學(xué)碩士學(xué)位論文2014年。。首先在詞彙獲取層面，作者結(jié)合中古時(shí)期的詞彙特徵，針對(duì)性地做出《漢書》詞語的切分細(xì)則，並且創(chuàng)造性地提出關(guān)於疑難字串的處理辦，雖是淺嘗輒止，但是這方面的研究還是值得大家深入探究。在上述工作的基礎(chǔ)上，作者對(duì)《漢書》中的專有名詞和已登録詞這類特殊的複音詞進(jìn)行了匯總處理，整理出人名表、地名表、先秦沿襲詞表、互信息詞表以及注疏詞表五張?jiān)~表，分別統(tǒng)計(jì)了單個(gè)詞表及各個(gè)詞表組合後對(duì)分詞結(jié)果的影響。最後得出結(jié)論：加入專名詞表和注疏詞表的分詞結(jié)果要明顯優(yōu)於其他詞表的分詞結(jié)果。這一結(jié)果也表明，將多個(gè)詞表綜合運(yùn)算並不代表其分詞效果就最好，古漢語詞彙的表達(dá)、劃分是極其複雜的，且進(jìn)行分詞時(shí)過多的細(xì)則反而會(huì)影響分詞的結(jié)果。其次在字標(biāo)注層面，利用CRF模型對(duì)《漢書》進(jìn)行了一系列的實(shí)驗(yàn)，選用了字元分類，中古聲、韻，上古聲、韻等語言特徵來輔助分詞，最終結(jié)果表明：增加了字元分類和上古音的1W+2+C1’5’模板在特徵二元同現(xiàn)的情況下分詞效果可以達(dá)到最優(yōu)。同時(shí)從音韻學(xué)角度來看，《漢書》屬於中古時(shí)期的文獻(xiàn)，但是在上古音語音特徵的輔助下分詞效果較好，也表明了漢語發(fā)展的繼承性，因爲(wèi)中古語音中仍保留著上古語音的特徵。

王曉玉《中古漢語語料庫分詞不一致問題研究》(11)王曉玉：《中古漢語語料庫分詞不一致問題研究》，南京：南京師範(fàn)大學(xué)碩士學(xué)位論文2016年。從中古漢語語料庫中選取史書、佛經(jīng)、小説三類共28萬餘人工分詞語料，通過計(jì)算機(jī)自動(dòng)處理和人工校對(duì)的方法，分析匯總出中古語料分詞不一致現(xiàn)象産生的原因和分類，並提出初步解決的設(shè)想方案。在上述研究的基礎(chǔ)上，王曉玉、李斌發(fā)表《基於CRFs和詞典信息的中古漢語自動(dòng)分詞》(12)王曉玉、李斌：《基於CRFs和詞典信息的中古漢語自動(dòng)分詞》，《數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)》，2017年第5期，第62—70頁。，針對(duì)中古漢語中常常發(fā)生分詞不一致的字串，制定並優(yōu)化分詞規(guī)範(fàn)，以此規(guī)範(fàn)校準(zhǔn)人工分詞語料，然後將整理後的語料，引入字元分類和字典信息兩種特徵進(jìn)行隨機(jī)場分詞實(shí)驗(yàn)。最後認(rèn)爲(wèi)，在有效提高分詞一致性的前提下，字元分類、詞典標(biāo)記特徵能夠有效提高中古漢語CRFs分詞的精確度。

古漢語的自然語言處理除上文提到的分詞和詞性標(biāo)注技術(shù)之外，還有一項(xiàng)較爲(wèi)基礎(chǔ)性的研究工作——斷句標(biāo)點(diǎn)(也稱句讀)。國內(nèi)利用計(jì)算機(jī)對(duì)古籍進(jìn)行自動(dòng)標(biāo)點(diǎn)的研究，最初多是集中在詩歌、韻文方面。1997年，北京大學(xué)計(jì)算機(jī)語言研究所和北京大學(xué)古文獻(xiàn)研究所合作開發(fā)《全宋詩》系統(tǒng)，該系統(tǒng)可根據(jù)已儲(chǔ)存的韻書和押韻規(guī)則自動(dòng)判斷任一詩作的押韻狀況與韻腳，這可視爲(wèi)利用計(jì)算機(jī)對(duì)古籍進(jìn)行自動(dòng)斷句標(biāo)點(diǎn)的先聲。後臺(tái)灣陳郁夫先生在進(jìn)行《古今圖書集成》項(xiàng)目時(shí)，成功實(shí)現(xiàn)對(duì)句法嚴(yán)整，兼有押韻的收録詩文詞賦的“藝文”、“選句”，約1700萬字韻文的自動(dòng)標(biāo)點(diǎn)。隨著計(jì)算機(jī)技術(shù)的發(fā)展，對(duì)古籍進(jìn)行自動(dòng)斷句標(biāo)點(diǎn)的研究也有了較大突破，其常用方法與分詞、標(biāo)注技術(shù)相同，有基於規(guī)則和基於統(tǒng)計(jì)的兩種方法。目前，魏一(13)魏一：《古漢語自動(dòng)句讀與分詞研究》，北京：北京大學(xué)碩士學(xué)位論文2020年。等人利用較爲(wèi)流行的深度學(xué)習(xí)技術(shù)，又提出使用BERT預(yù)訓(xùn)練模型加微調(diào)來解決斷句標(biāo)點(diǎn)任務(wù)，取得較爲(wèi)可觀的效果。同時(shí)針對(duì)古籍文本無句亦無段，可能長達(dá)若干千字的連續(xù)文本，設(shè)計(jì)了基於滑動(dòng)視窗的句讀方法，使得模型可處理的序列長度不受限制，具有較強(qiáng)的實(shí)用性。

深入研究斷句標(biāo)點(diǎn)、分詞、標(biāo)注技術(shù)的同時(shí)，學(xué)者們也在努力開拓新的疆土，例如利用計(jì)算機(jī)對(duì)古漢語進(jìn)行自動(dòng)句法語義分析，但相關(guān)研究較少，現(xiàn)有馮秋香《基於數(shù)據(jù)庫語義學(xué)的古漢語句法語義分析研究》(14)馮秋香：《基於數(shù)據(jù)庫語義學(xué)的古漢語句法語義分析研究》，大連：大連理工大學(xué)博士學(xué)位論文2011年。，馮秋香等《數(shù)據(jù)庫語義學(xué)在古漢語自動(dòng)分析上的應(yīng)用》(15)馮秋香、汪榕培：《數(shù)據(jù)庫語義學(xué)在古漢語自動(dòng)分析上的應(yīng)用》，《大連理工大學(xué)學(xué)報(bào)》2012年第6期，第902—907頁。；樹庫構(gòu)建方面，因古漢語的句法標(biāo)注資源較少，樹庫的構(gòu)建多是在小樣本集上的嘗試，如John Lee等構(gòu)建的唐詩依存樹庫，彭煒明等選取《論語》等語料構(gòu)建的圖解樹庫(16)何靜、宋天寶、彭煒明、朱淑琴、宋繼華：《基於“詞—詞性”匹配模式獲取的古漢語樹庫快速構(gòu)建方法》，《中文信息學(xué)報(bào)》，2017年第31卷第4期，第114—121頁。；研究方法上，有學(xué)者開始探究利用最新流行的深度學(xué)習(xí)方法設(shè)計(jì)針對(duì)古漢語分詞的長短時(shí)神經(jīng)網(wǎng)絡(luò)，但相關(guān)研究較少，現(xiàn)有如高毅《基於長短時(shí)神經(jīng)網(wǎng)絡(luò)的古漢語分詞系統(tǒng)》(17)高毅：《基於長短時(shí)神經(jīng)網(wǎng)絡(luò)的古漢語分詞系統(tǒng)》，《自動(dòng)化與儀器儀錶》2020年第2期，第128—131頁。。

三、結(jié)語

綜上所述，我國在古漢語自然語言處理研究的過程中有值得肯定的地方，也有其不足之處。值得肯定的是，無論是對(duì)上古漢語古籍的研究還是對(duì)中古漢語古籍的研究，學(xué)者都在盡自己最大的努力一步步深入，不斷提出新的研究思路。例如，學(xué)者在進(jìn)行分詞、標(biāo)注研究時(shí)，將漢字的形、音作爲(wèi)輔助工具，不單單是從技術(shù)上革新，更多關(guān)注到理論知識(shí)層面，解構(gòu)漢字的形、音本質(zhì)。能與時(shí)俱進(jìn)，將最新技術(shù)運(yùn)用到古漢語的具體研究中，即深度學(xué)習(xí)技術(shù)的應(yīng)用。其不足之處在于，古漢語信息處理技術(shù)需要跨學(xué)科研究，研究者知識(shí)儲(chǔ)備不足時(shí)，相關(guān)研究只能淺嘗輒止，如上文提到的《漢書》中疑難字串的處理，這就需要進(jìn)一步加強(qiáng)學(xué)科之間的交流合作或培養(yǎng)知識(shí)更加全面的人才。同時(shí)，無論是在古漢語語料庫構(gòu)建方面還是在古漢語分詞、詞性標(biāo)注方面，其成果遠(yuǎn)遠(yuǎn)比不上現(xiàn)代漢語，未能達(dá)到古漢語研究者的期望。除此之外，筆者查找論文時(shí)發(fā)現(xiàn)，關(guān)於古漢語自然語言處理研究的文章較多集中在2014—2017年，近幾年發(fā)表的文章寥寥無幾，這是一個(gè)令人擔(dān)憂的現(xiàn)象，古漢語自然語言處理技術(shù)藴藏著巨大的潛能，值得人們深入挖掘。

古籍研究2020年2期

古籍研究的其它文章: 《張氏宗譜》辨誤與反思*; 《明儒學(xué)案》清刻本及版本源流*; 空靈無待與充然情至：從《擬阮步兵詠懷》看船山詩與詩論之關(guān)係*; 淹博識(shí)斷精審
——評(píng)曾昭聰點(diǎn)校本《談徵》*; 《西遊記》“破爛流丟一口鐘”考釋*; 茶陵派殿軍石珤年譜*

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

古籍?dāng)?shù)字化中計(jì)算機(jī)自然語言處理應(yīng)用現(xiàn)狀分析*

一、 古籍?dāng)?shù)字化現(xiàn)狀

二、 古漢語分詞、詞性標(biāo)注技術(shù)

(一) 分詞、詞性標(biāo)注簡述

(二)應(yīng)用實(shí)例

三、 結(jié)語

一、古籍?dāng)?shù)字化現(xiàn)狀

二、古漢語分詞、詞性標(biāo)注技術(shù)

(一) 分詞、詞性標(biāo)注簡述

三、結(jié)語