• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      古籍?dāng)?shù)字化中計(jì)算機(jī)自然語言處理應(yīng)用現(xiàn)狀分析*

      2020-05-07 03:42:36馬海麗
      古籍研究 2020年2期

      馬海麗 王 曦

      關(guān)鍵詞:古漢語;古籍?dāng)?shù)字化;分詞;詞性標(biāo)注

      中國漢語典籍浩如煙海,但因其歷史久遠(yuǎn)、難理解、無句讀等問題,人們難以研讀學(xué)習(xí)。雖有不少古漢語工作者堅(jiān)持傳承傳統(tǒng)文化,但因標(biāo)點(diǎn)斷句等基礎(chǔ)性工作而耗費(fèi)了大量的時(shí)間和精力?!拔覀兤谕苡锌梢杂渺稘h語史電子文獻(xiàn)自動(dòng)分詞、自動(dòng)斷句、自動(dòng)標(biāo)注的軟件早日問世, 專家只需對(duì)結(jié)果刊謬補(bǔ)缺,這將大大減輕屬性式標(biāo)注的勞動(dòng)強(qiáng)度,加快工作進(jìn)度。”(1)尉遲治平:《計(jì)算機(jī)技術(shù)和漢語史研究》,《古漢語研究》2000年第3期,第56—60頁。尉遲治平的呼籲反映了衆(zhòng)多古漢語工作者的心聲。採用計(jì)算機(jī)自然語言處理技術(shù)實(shí)現(xiàn)對(duì)古代典籍自動(dòng)化處理,承載著學(xué)者們殷切的希望,也是傳承中華文明的重大責(zé)任。

      隨著近年來自然語言處理技術(shù)的發(fā)展,現(xiàn)代漢語分詞與詞性標(biāo)注工作已經(jīng)取得了頗爲(wèi)優(yōu)秀的成果,但是在古漢語處理方面的研究是較爲(wèi)薄弱的。目前對(duì)古籍文獻(xiàn)處理現(xiàn)代化的研究主要是字的輸入、輸出、建立電子資源庫,在詞彙、語義層面上的研究卻是寥寥。本文將綜合多篇相關(guān)論文討論古籍?dāng)?shù)字化自然語言處理的研究現(xiàn)狀。

      一、 古籍?dāng)?shù)字化現(xiàn)狀

      想要實(shí)現(xiàn)對(duì)古籍文獻(xiàn)處理的現(xiàn)代化,構(gòu)建古漢語語料庫是最爲(wèi)基礎(chǔ)的工作。相關(guān)研究最早是從計(jì)算機(jī)技術(shù)較爲(wèi)發(fā)達(dá)的美國開始的,直到20世紀(jì)80年代,海岸兩峽及香港相繼開始研發(fā)中文古籍?dāng)?shù)字化專案。1984年,中國臺(tái)灣“中研院”開始“史籍自動(dòng)化計(jì)劃”,計(jì)劃開發(fā)《二十五史(全文資料庫)》全文資料庫,後又於1990年著手建立“古漢語語料庫”。經(jīng)過三十多年不懈努力,現(xiàn)已整理建設(shè)了一個(gè)具有數(shù)億字的古籍資料庫,具有重要實(shí)用價(jià)值。其次,香港中文大學(xué)在1988年開始著手古漢語典籍的數(shù)字化建設(shè),建立了“漢達(dá)文獻(xiàn)資料庫中心”,該中心致力於將全部出土文獻(xiàn)收入文獻(xiàn)資料庫。相較於臺(tái)灣、香港地區(qū),大陸地區(qū)的古籍?dāng)?shù)字化建設(shè)相對(duì)起步較晚,1998年成立北京愛如生數(shù)字化計(jì)算研究中心進(jìn)行相關(guān)研究。雖起步較晚,但發(fā)展速度迅猛,國家、地方高校及商業(yè)機(jī)構(gòu)都在積極研發(fā)相關(guān)專案,如現(xiàn)有規(guī)模較大的“北大CCL古代漢語語料庫”“國家語委古籍語料庫”“中華古籍語料庫”等語料庫。

      學(xué)者對(duì)古籍?dāng)?shù)字化的研究不僅體現(xiàn)在上述語料庫的構(gòu)建方面,相關(guān)的理論研究也在逐步深入。2014年常繼紅和魏曉峰發(fā)表的《國內(nèi)古籍?dāng)?shù)字化研究進(jìn)展與啓示》(2)常繼紅、魏曉峰:《國內(nèi)古籍?dāng)?shù)字化研究進(jìn)展與啓示》,《河北科技圖苑》2014年第3期,第82—85頁。中,以中國知網(wǎng)(CNKI)全文期刊資料庫爲(wèi)樣本,以“古籍?dāng)?shù)字化”爲(wèi)檢索詞,選定2001—2013的特定年限進(jìn)行模糊檢索,經(jīng)過人工資料篩選處理,排除不相關(guān)數(shù)據(jù),最後得到國內(nèi)CNKI期刊論文數(shù)據(jù)361條。發(fā)文量總體呈穩(wěn)步增長的態(tài)勢(shì),21世紀(jì)初期發(fā)文量增長平緩,自2004年開始迅速增長,年均論文數(shù)達(dá)到28篇,其中2012年達(dá)到最高值52篇,研究成果主要集中在圖書情報(bào)與檔案文獻(xiàn)等領(lǐng)域,同時(shí)廣泛涉及中文、教育、醫(yī)藥、計(jì)算機(jī)技術(shù)、信息工程等專業(yè)領(lǐng)域。研究熱點(diǎn)主要有6個(gè)方面,如圖表所示。

      古籍?dāng)?shù)字化研究熱點(diǎn)對(duì)比圖表

      2020年李明傑、張纖軻、陳夢(mèng)石發(fā)表的《古籍?dāng)?shù)字化研究進(jìn)展述評(píng)(2009—2019)》(3)李明傑、張纖軻、陳夢(mèng)石:《古籍?dāng)?shù)字化研究進(jìn)展述評(píng)(2009—2019)》,《圖書情報(bào)工作》2020年第6期,第130—137頁。,同樣以中國知網(wǎng)(CNKI)全文期刊資料庫爲(wèi)樣本,以“古籍”“數(shù)字化”等爲(wèi)主題,以2009年至2019年?duì)?wèi)時(shí)間限定,篩選、剔除後得到759條相關(guān)結(jié)果。結(jié)果顯示研究者多來自于不同的學(xué)科背景,研究主題較爲(wèi)分散,成果主要還是涉及圖書情報(bào)、文史、醫(yī)藥等,但在計(jì)算機(jī)方面的研究有所增加。作者將研究熱點(diǎn)也歸爲(wèi)6個(gè)方面,如圖表所示。

      對(duì)比兩篇文章中的研究熱點(diǎn),不難發(fā)現(xiàn),學(xué)者對(duì)於古籍?dāng)?shù)字化的研究,理論方面、技術(shù)層面都在不斷深入,且始終秉持著通過古籍?dāng)?shù)字化實(shí)現(xiàn)古籍再生性保護(hù)的信念,國家、高校、商業(yè)機(jī)構(gòu)之間也在不斷地進(jìn)行統(tǒng)籌協(xié)作,努力實(shí)現(xiàn)各類古籍資源的共用;各學(xué)科的古籍整理也在不斷的精細(xì)化,同時(shí)也在不斷加強(qiáng)學(xué)科之間的交叉研究。但是,縱觀古籍?dāng)?shù)字化的理論研究與不同高校、機(jī)構(gòu)之間的實(shí)際語料庫整理可以發(fā)現(xiàn),古籍?dāng)?shù)字化還未能構(gòu)建出一套完整的學(xué)術(shù)規(guī)範(fàn)體系,以至於無法保障古籍?dāng)?shù)字化的品質(zhì);其次,進(jìn)行古籍?dāng)?shù)字化研發(fā),一方面是爲(wèi)了保護(hù)古籍資源,但另一方面也是爲(wèi)相關(guān)的人文社會(huì)科學(xué)研究者進(jìn)行古籍知識(shí)研究提供服務(wù),但目前多數(shù)古籍?dāng)?shù)字化研發(fā)停留在文本的輸入、輸出層面,深度的處理技術(shù)層面還遠(yuǎn)不能滿足古籍工作者的需求。

      二、 古漢語分詞、詞性標(biāo)注技術(shù)

      (一) 分詞、詞性標(biāo)注簡述

      分詞是指將一個(gè)句子中的字元切分爲(wèi)詞的過程,是中文信息處理的最基礎(chǔ)研究工作。關(guān)於自然語言處理系統(tǒng),國內(nèi)研究相較於國外,起步較晚。中文分詞系統(tǒng)始於20世紀(jì)80年代初北京航空航天大學(xué)的CDWS(Chinese Distinguishing Word System),在該系統(tǒng)研發(fā)過程中,研究人員首次論證了中文分詞的可行性並初步建立了相關(guān)的計(jì)算模型。隨後,中文分詞研究在國內(nèi)興起一片浪潮,更多的研究人員投身其中,取得豐碩的研究成果。首先在分詞方法方面,常見的主要分爲(wèi)三種:機(jī)械分詞方法、基於規(guī)則的分詞方法和基於統(tǒng)計(jì)的分詞方法。在基於統(tǒng)計(jì)的分詞方法中,最基本的方法包括隱馬爾科夫模型(HMM)、最大熵馬爾科夫模型(MEMM)以及條件隨機(jī)場模型(CRF)。利用上述方法開發(fā)且已開放的引擎有中國科學(xué)院技術(shù)研究所的ICTCLAS分詞系統(tǒng)、SCWS分詞系統(tǒng)、搜狗分詞、結(jié)巴分詞、盤古分詞、庖丁解牛等。

      詞性標(biāo)注是指在給定句子中判定每個(gè)詞的語法範(fàn)疇,確定其詞性並加以標(biāo)注的過程,這也是自然語言處理中一項(xiàng)非?;A(chǔ)且重要的研究工作。詞性標(biāo)注的研究分爲(wèi)標(biāo)注集的研究和方法的研究。在詞性標(biāo)注集方面,對(duì)於同一種自然語言,劃分標(biāo)注集時(shí),多是根據(jù)不同的應(yīng)用目的針對(duì)性地制定相應(yīng)的劃分標(biāo)準(zhǔn),所以目前還沒有統(tǒng)一的詞性標(biāo)注集。在詞性標(biāo)注方法方面,研究者的方向主要集中在兩種,一種是基於規(guī)則的方法,一種是基於統(tǒng)計(jì)的方法。在基於規(guī)則的方法中,最基礎(chǔ)的就是先要制定出一個(gè)有一套標(biāo)注規(guī)則集的規(guī)則庫,但因爲(wèi)語言表達(dá)的相對(duì)抽象性,人們難以制定出一套十分完備的規(guī)則集,且過多的規(guī)則,相互之間又會(huì)産生種種衝突。所以,基於規(guī)則的方法因自身的矛盾性漸漸退到邊緣,基於統(tǒng)計(jì)的標(biāo)注方法逐漸成爲(wèi)詞性標(biāo)注研究的主流方法。另外,因爲(wèi)詞性標(biāo)注任務(wù)和分詞任務(wù)兩者從本質(zhì)上講都是序列標(biāo)注任務(wù),所以研究人員多採用相同模型來解決此類問題,即隱馬爾科夫模型(HMM)、最大熵馬爾科夫模型(MEMM)以及條件隨機(jī)場模型(CRF)等。

      (二)應(yīng)用實(shí)例

      歷史進(jìn)程的推進(jìn),隨之而來的時(shí)代特徵也是在不斷變化的,這些特徵不僅僅是表現(xiàn)在社會(huì)的政治、經(jīng)濟(jì)方面,文化方面的變化也是顯著的,僅僅聚焦在字詞的形、音、義及使用規(guī)則這一小點(diǎn)上,時(shí)代的差別性也是顯而易見的。所以,對(duì)漢語史進(jìn)行時(shí)代的劃分,明確界定古籍所屬時(shí)代是十分重要的。目前對(duì)於漢語史的分期問題,學(xué)界還有爭議,不過方一新所持觀點(diǎn):“以東漢爲(wèi)界,把西漢列爲(wèi)過渡期和參考期,把古代漢語分爲(wèi)上古漢語和中古漢語兩大塊,以東漢魏晉南北朝隋爲(wèi)中古漢語時(shí)期,從語法、詞彙上看都是比較合理的?!?4)方一新:《從中古詞彙的特點(diǎn)看漢語史的分期》,《漢語史學(xué)報(bào)》第4輯,上海教育出版社2004年,第178—184頁?;颈粚W(xué)界認(rèn)同。所以可基本明確:漢語史分期,可以東漢爲(wèi)界,在大約3世紀(jì)以前的是上古漢語;東漢其下的是中古漢語;南宋(大約13世紀(jì))之後,則是近代漢語;1919年五四運(yùn)動(dòng)以來,就是現(xiàn)代漢語。

      (1) 上古漢語古籍研究

      對(duì)上古漢語古籍文獻(xiàn)的自動(dòng)分詞、詞性標(biāo)注的研究是一個(gè)循序漸進(jìn)的過程。臺(tái)灣“中研院”的“漢籍電子文獻(xiàn)”在對(duì)以《十三經(jīng)》爲(wèi)主的先秦文獻(xiàn)進(jìn)行分詞和詞性標(biāo)注時(shí),以較爲(wèi)傳統(tǒng)的最大概率和隱馬爾科夫模型爲(wèi)主;其後邱冰、皇甫娟提出啓發(fā)式的混合分詞方法,以反向最大匹配分詞爲(wèi)主,針對(duì)《論語》《國語》等21種古代漢語語料進(jìn)行研究(5)邱冰、黃甫娟:《基於中文信息處理的古代漢語分詞研究》,《微計(jì)算機(jī)信息》,2008年第24卷第8—3期,第100—102頁。;石民、李斌、陳小荷以《左傳》爲(wèi)例,採用條件隨機(jī)模型(CRF),通過自動(dòng)分詞、詞性標(biāo)注、分詞一體化的對(duì)比實(shí)驗(yàn),證明了一體化分詞比傳統(tǒng)先分詞後標(biāo)注的“兩步走”方法更有效(6)石民、李斌、陳小荷:《基於CRF的先秦漢語分詞標(biāo)注一體化研究》,《中文信息學(xué)報(bào)》,2010年第2期,第39—45頁。。

      梁社會(huì)、陳小荷《先秦文獻(xiàn)〈孟子〉自動(dòng)分詞方法研究》(7)梁社會(huì)、陳小荷:《先秦文獻(xiàn)〈孟子〉自動(dòng)分詞方法研究》,《南京師範(fàn)大學(xué)文學(xué)院學(xué)報(bào)》,2013年第3期,第175—182頁。以先秦文獻(xiàn)《孟子》爲(wèi)例,研究了上古漢語古籍的分詞方法。文中採用了兩種分詞方法:1. 基於條件隨機(jī)場統(tǒng)計(jì)模型的自動(dòng)分詞方法;2. 利用注疏文獻(xiàn)的自動(dòng)分詞方法。在基於條件隨機(jī)場統(tǒng)計(jì)模型的分詞實(shí)驗(yàn)中,採用《左傳》《論語》作爲(wèi)訓(xùn)練語料,根據(jù)古漢語的語料構(gòu)成,選取了簡單字面信息和複雜漢字特徵作爲(wèi)文本特徵進(jìn)行自動(dòng)分詞實(shí)驗(yàn),值得一提的是在複雜漢字特徵中作者將漢字的聲、韻、調(diào)及部首信息涵蓋其中。最終結(jié)果爲(wèi):基於上下文3個(gè)漢字、三字同現(xiàn)、並考慮字元分類的模板“3W+3+C1”,是最適合《孟子》的自動(dòng)分詞的。其中,在字元基礎(chǔ)上再增加聲、韻、調(diào)及部首信息,實(shí)驗(yàn)效果差別不大。僅就聲韻方面究其原因,一方面上古漢語的聲、韻、調(diào)皆是後人構(gòu)擬的,沒有準(zhǔn)確的標(biāo)準(zhǔn),作者選用描寫中古漢語的《廣韻》字表作爲(wèi)基本資料庫,這其中肯定會(huì)産生不可避免的誤差;另一方面因爲(wèi)漢字有一字多音的特性,以及上古漢語的文獻(xiàn)中會(huì)有很多的通假字、諧音等,漢字的聲、韻、調(diào)在不同的詞性或者義項(xiàng)下往往又是不同的。這方面問題還是值得學(xué)者們深入研究的。其次作者還進(jìn)行了利用注疏文獻(xiàn)幫助自動(dòng)分詞的實(shí)驗(yàn)。這也是一種另闢蹊徑的辦法,可以説作者以一種獨(dú)特的眼光抓住了古漢語分詞的優(yōu)勢(shì),上古漢語文獻(xiàn)年代久遠(yuǎn),一些字詞句的含義,後人難以理解,因此産生了大量的注疏文獻(xiàn),這些注疏文獻(xiàn)的存在,恰好爲(wèi)計(jì)算機(jī)的機(jī)器學(xué)習(xí)提供了一個(gè)重要的語言知識(shí)庫。最後的實(shí)驗(yàn)結(jié)果也證明這種方法行之有效,是進(jìn)行古籍文獻(xiàn)信息處理的新方法。

      留金騰、宋彥、夏飛的《上古漢語分詞及詞性標(biāo)注語料庫的構(gòu)建》(8)留金騰、宋彥、夏飛:《上古漢語分詞及詞性標(biāo)注語料庫的構(gòu)建:以〈淮南子〉爲(wèi)範(fàn)例》,《中文信息學(xué)報(bào)》,2013年第6期,第6—15,81頁。以《淮南子》爲(wèi)文本,採用自動(dòng)標(biāo)注和人工校正相結(jié)合的方法構(gòu)建深加工的上古語料庫。首先文章以《淮南子》爲(wèi)底本分析了上古漢語詞語的特點(diǎn),主要集中在古漢語複音詞的構(gòu)詞特點(diǎn)、詞語的形態(tài)特徵和詞語的詞性轉(zhuǎn)化三個(gè)方面,深入細(xì)緻的分析,爲(wèi)下文的實(shí)驗(yàn)提供了很好的特徵模板。在進(jìn)行分詞、標(biāo)注實(shí)驗(yàn)過程中,該文創(chuàng)造性的提出,在適應(yīng)領(lǐng)域方面,採用半監(jiān)督學(xué)習(xí)領(lǐng)域適應(yīng)技術(shù),將基於現(xiàn)代漢語訓(xùn)練的模型應(yīng)用到古漢語的分詞任務(wù)中,且取得較爲(wèi)理想的效果。在進(jìn)行詞性標(biāo)注實(shí)驗(yàn)中,綜合分析了前人的實(shí)驗(yàn)結(jié)果,爲(wèi)了取得更爲(wèi)理想的詞性標(biāo)注結(jié)果,拋棄了其他學(xué)者常用的分詞和詞性標(biāo)注的聯(lián)合解碼,而採用串列的分詞+標(biāo)注的方案,實(shí)驗(yàn)結(jié)果也證明了其方法的有效性。同時(shí),該文最後基於人工校正的實(shí)際情況匯總了自動(dòng)分詞和詞性標(biāo)注時(shí)産生的常見錯(cuò)誤,爲(wèi)後來者的研究提供了很好的借鑒。

      魏一《古漢語自動(dòng)句讀與分詞研究》(9)魏一:《古漢語自動(dòng)句讀與分詞研究》,北京:北京大學(xué)碩士學(xué)位論文2020年。結(jié)合最新的深度學(xué)習(xí)技術(shù),提出古漢語的BERT預(yù)訓(xùn)練模型,以期更好地解決古漢語研究中的句讀與分詞問題。在進(jìn)行古漢語分詞任務(wù)時(shí),作者以《左傳》作爲(wèi)測(cè)試語料,首次嘗試使用無指導(dǎo)方法,通過將非參數(shù)貝葉斯模型與預(yù)訓(xùn)練BERT深度學(xué)習(xí)語言建模方法相結(jié)合。經(jīng)測(cè)試,隨著訓(xùn)練集使用資料量的增大,其分詞效果能取得與有指導(dǎo)訓(xùn)練下測(cè)試的相同結(jié)果,甚至在準(zhǔn)確率、召回率等值上遠(yuǎn)超前人基於CRF方法取得的數(shù)值。並且在使用有指導(dǎo)訓(xùn)練後,這一模型表現(xiàn)出極佳的泛化能力和穩(wěn)定性,具有很大的實(shí)用化潛力。最值得肯定的是,作者提出的這一新方法不僅可以利用無標(biāo)注文本,而且不需要除了分詞以外的任何語言學(xué)特徵標(biāo)注,這無形中就解決了前人研究中的一大難題,即需要考慮漢字聲、韻、調(diào)、部首信息等各種複雜的特徵,極大的降低了工作成本。

      (2) 中古漢語古籍研究

      王嘉靈以中古時(shí)期的傳世文獻(xiàn)《漢書》爲(wèi)例,從詞彙獲取和字標(biāo)注兩個(gè)層面探討了古代漢語分詞的多種方法(10)王嘉靈:《以〈漢書〉爲(wèi)例的中古漢語自動(dòng)分詞》,南京:南京師範(fàn)大學(xué)碩士學(xué)位論文2014年。。首先在詞彙獲取層面,作者結(jié)合中古時(shí)期的詞彙特徵,針對(duì)性地做出《漢書》 詞語的切分細(xì)則,並且創(chuàng)造性地提出關(guān)於疑難字串的處理辦,雖是淺嘗輒止,但是這方面的研究還是值得大家深入探究。在上述工作的基礎(chǔ)上,作者對(duì)《漢書》中的專有名詞和已登録詞這類特殊的複音詞進(jìn)行了匯總處理,整理出人名表、地名表、先秦沿襲詞表、互信息詞表以及注疏詞表五張?jiān)~表,分別統(tǒng)計(jì)了單個(gè)詞表及各個(gè)詞表組合後對(duì)分詞結(jié)果的影響。最後得出結(jié)論:加入專名詞表和注疏詞表的分詞結(jié)果要明顯優(yōu)於其他詞表的分詞結(jié)果。這一結(jié)果也表明,將多個(gè)詞表綜合運(yùn)算並不代表其分詞效果就最好,古漢語詞彙的表達(dá)、劃分是極其複雜的,且進(jìn)行分詞時(shí)過多的細(xì)則反而會(huì)影響分詞的結(jié)果。其次在字標(biāo)注層面,利用CRF模型對(duì)《漢書》進(jìn)行了一系列的實(shí)驗(yàn),選用了字元分類,中古聲、韻,上古聲、韻等語言特徵來輔助分詞,最終結(jié)果表明:增加了字元分類和上古音的1W+2+C1’5’模板在特徵二元同現(xiàn)的情況下分詞效果可以達(dá)到最優(yōu)。同時(shí)從音韻學(xué)角度來看,《漢書》屬於中古時(shí)期的文獻(xiàn),但是在上古音語音特徵的輔助下分詞效果較好,也表明了漢語發(fā)展的繼承性,因爲(wèi)中古語音中仍保留著上古語音的特徵。

      王曉玉《中古漢語語料庫分詞不一致問題研究》(11)王曉玉:《中古漢語語料庫分詞不一致問題研究》,南京:南京師範(fàn)大學(xué)碩士學(xué)位論文2016年。從中古漢語語料庫中選取史書、佛經(jīng)、小説三類共28萬餘人工分詞語料,通過計(jì)算機(jī)自動(dòng)處理和人工校對(duì)的方法,分析匯總出中古語料分詞不一致現(xiàn)象産生的原因和分類,並提出初步解決的設(shè)想方案。在上述研究的基礎(chǔ)上,王曉玉、李斌發(fā)表《基於CRFs和詞典信息的中古漢語自動(dòng)分詞》(12)王曉玉、李斌:《基於CRFs和詞典信息的中古漢語自動(dòng)分詞》,《數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)》,2017年第5期,第62—70頁。,針對(duì)中古漢語中常常發(fā)生分詞不一致的字串,制定並優(yōu)化分詞規(guī)範(fàn),以此規(guī)範(fàn)校準(zhǔn)人工分詞語料,然後將整理後的語料,引入字元分類和字典信息兩種特徵進(jìn)行隨機(jī)場分詞實(shí)驗(yàn)。最後認(rèn)爲(wèi),在有效提高分詞一致性的前提下,字元分類、詞典標(biāo)記特徵能夠有效提高中古漢語CRFs分詞的精確度。

      古漢語的自然語言處理除上文提到的分詞和詞性標(biāo)注技術(shù)之外,還有一項(xiàng)較爲(wèi)基礎(chǔ)性的研究工作——斷句標(biāo)點(diǎn)(也稱句讀)。國內(nèi)利用計(jì)算機(jī)對(duì)古籍進(jìn)行自動(dòng)標(biāo)點(diǎn)的研究,最初多是集中在詩歌、韻文方面。1997年,北京大學(xué)計(jì)算機(jī)語言研究所和北京大學(xué)古文獻(xiàn)研究所合作開發(fā)《全宋詩》系統(tǒng),該系統(tǒng)可根據(jù)已儲(chǔ)存的韻書和押韻規(guī)則自動(dòng)判斷任一詩作的押韻狀況與韻腳,這可視爲(wèi)利用計(jì)算機(jī)對(duì)古籍進(jìn)行自動(dòng)斷句標(biāo)點(diǎn)的先聲。後臺(tái)灣陳郁夫先生在進(jìn)行《古今圖書集成》項(xiàng)目時(shí),成功實(shí)現(xiàn)對(duì)句法嚴(yán)整,兼有押韻的收録詩文詞賦的“藝文”、“選句”,約1700萬字韻文的自動(dòng)標(biāo)點(diǎn)。隨著計(jì)算機(jī)技術(shù)的發(fā)展,對(duì)古籍進(jìn)行自動(dòng)斷句標(biāo)點(diǎn)的研究也有了較大突破,其常用方法與分詞、標(biāo)注技術(shù)相同,有基於規(guī)則和基於統(tǒng)計(jì)的兩種方法。目前,魏一(13)魏一:《古漢語自動(dòng)句讀與分詞研究》,北京:北京大學(xué)碩士學(xué)位論文2020年。等人利用較爲(wèi)流行的深度學(xué)習(xí)技術(shù),又提出使用BERT預(yù)訓(xùn)練模型加微調(diào)來解決斷句標(biāo)點(diǎn)任務(wù),取得較爲(wèi)可觀的效果。同時(shí)針對(duì)古籍文本無句亦無段,可能長達(dá)若干千字的連續(xù)文本,設(shè)計(jì)了基於滑動(dòng)視窗的句讀方法,使得模型可處理的序列長度不受限制,具有較強(qiáng)的實(shí)用性。

      深入研究斷句標(biāo)點(diǎn)、分詞、標(biāo)注技術(shù)的同時(shí),學(xué)者們也在努力開拓新的疆土,例如利用計(jì)算機(jī)對(duì)古漢語進(jìn)行自動(dòng)句法語義分析,但相關(guān)研究較少,現(xiàn)有馮秋香《基於數(shù)據(jù)庫語義學(xué)的古漢語句法語義分析研究》(14)馮秋香:《基於數(shù)據(jù)庫語義學(xué)的古漢語句法語義分析研究》,大連:大連理工大學(xué)博士學(xué)位論文2011年。,馮秋香等《數(shù)據(jù)庫語義學(xué)在古漢語自動(dòng)分析上的應(yīng)用》(15)馮秋香、汪榕培:《數(shù)據(jù)庫語義學(xué)在古漢語自動(dòng)分析上的應(yīng)用》,《大連理工大學(xué)學(xué)報(bào)》2012年第6期,第902—907頁。;樹庫構(gòu)建方面,因古漢語的句法標(biāo)注資源較少,樹庫的構(gòu)建多是在小樣本集上的嘗試,如John Lee等構(gòu)建的唐詩依存樹庫,彭煒明等選取《論語》等語料構(gòu)建的圖解樹庫(16)何靜、宋天寶、彭煒明、朱淑琴、宋繼華:《基於“詞—詞性”匹配模式獲取的古漢語樹庫快速構(gòu)建方法》,《中文信息學(xué)報(bào)》,2017年第31卷第4期,第114—121頁。;研究方法上,有學(xué)者開始探究利用最新流行的深度學(xué)習(xí)方法設(shè)計(jì)針對(duì)古漢語分詞的長短時(shí)神經(jīng)網(wǎng)絡(luò),但相關(guān)研究較少,現(xiàn)有如高毅《基於長短時(shí)神經(jīng)網(wǎng)絡(luò)的古漢語分詞系統(tǒng)》(17)高毅:《基於長短時(shí)神經(jīng)網(wǎng)絡(luò)的古漢語分詞系統(tǒng)》,《自動(dòng)化與儀器儀錶》2020年第2期,第128—131頁。。

      三、 結(jié)語

      綜上所述,我國在古漢語自然語言處理研究的過程中有值得肯定的地方,也有其不足之處。值得肯定的是,無論是對(duì)上古漢語古籍的研究還是對(duì)中古漢語古籍的研究,學(xué)者都在盡自己最大的努力一步步深入,不斷提出新的研究思路。例如,學(xué)者在進(jìn)行分詞、標(biāo)注研究時(shí),將漢字的形、音作爲(wèi)輔助工具,不單單是從技術(shù)上革新,更多關(guān)注到理論知識(shí)層面,解構(gòu)漢字的形、音本質(zhì)。能與時(shí)俱進(jìn),將最新技術(shù)運(yùn)用到古漢語的具體研究中,即深度學(xué)習(xí)技術(shù)的應(yīng)用。其不足之處在于,古漢語信息處理技術(shù)需要跨學(xué)科研究,研究者知識(shí)儲(chǔ)備不足時(shí),相關(guān)研究只能淺嘗輒止,如上文提到的《漢書》中疑難字串的處理,這就需要進(jìn)一步加強(qiáng)學(xué)科之間的交流合作或培養(yǎng)知識(shí)更加全面的人才。同時(shí),無論是在古漢語語料庫構(gòu)建方面還是在古漢語分詞、詞性標(biāo)注方面,其成果遠(yuǎn)遠(yuǎn)比不上現(xiàn)代漢語,未能達(dá)到古漢語研究者的期望。除此之外,筆者查找論文時(shí)發(fā)現(xiàn),關(guān)於古漢語自然語言處理研究的文章較多集中在2014—2017年,近幾年發(fā)表的文章寥寥無幾,這是一個(gè)令人擔(dān)憂的現(xiàn)象,古漢語自然語言處理技術(shù)藴藏著巨大的潛能,值得人們深入挖掘。

      钦州市| 五常市| 五大连池市| 揭东县| 合阳县| 安阳县| 嘉定区| 威远县| 三都| 肥东县| 高陵县| 台州市| 德昌县| 穆棱市| 南漳县| 汽车| 伊宁县| 平和县| 隆回县| 鄂州市| 菏泽市| 台中县| 舒城县| 蒙阴县| 新乐市| 扶沟县| 平安县| 商都县| 缙云县| 杭锦旗| 吴堡县| 温州市| 成安县| 永昌县| 仁寿县| 耒阳市| 嫩江县| 涞水县| 志丹县| 松滋市| 乐山市|