• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      甲骨文信息化研究之路簡(jiǎn)述

      2022-04-06 10:18:32王帥李鵬蘇倩文
      關(guān)鍵詞:綴合甲骨甲骨文

      王帥 李鵬 蘇倩文

      甲骨文是迄今為止我國(guó)發(fā)現(xiàn)的最早的文字系統(tǒng),因其刻于龜甲和獸骨而得名。自1899年王懿榮首先識(shí)別出殷墟甲骨文始,通過持續(xù)的考古發(fā)掘,甲骨文目前存世數(shù)量約為16萬片[1]。甲骨文的發(fā)現(xiàn)極大地推進(jìn)了先秦史和古漢字研究,并直接促成現(xiàn)代考古學(xué)在中國(guó)的創(chuàng)立。時(shí)至今日,甲骨學(xué)早已是一門分支眾多、影響深遠(yuǎn)的顯學(xué)。習(xí)近平總書記在《致甲骨文發(fā)現(xiàn)和研究120周年的賀信》中指出:“殷墟甲骨文的重大發(fā)現(xiàn)在中華文明乃至人類文明發(fā)展史上具有劃時(shí)代的意義。甲骨文是迄今為止中國(guó)發(fā)現(xiàn)的年代最早的成熟文字系統(tǒng),是漢字的源頭和中華優(yōu)秀傳統(tǒng)文化的根脈,值得倍加珍視、更好傳承發(fā)展?!盵2]甲骨文研究專業(yè)性強(qiáng),迄今被學(xué)者識(shí)讀的只有2000字左右,限制其得到進(jìn)一步學(xué)術(shù)應(yīng)用的障礙還有不少,計(jì)算機(jī)信息技術(shù)的引入則可能帶來改變。

      我國(guó)學(xué)者利用計(jì)算機(jī)研究甲骨文并不算晚。以甲骨綴合為例,早在20世紀(jì)70年代,童恩正等就嘗試使用計(jì)算機(jī)技術(shù)綴合甲骨碎片。他們從安陽(yáng)殷墟坑中選擇了263片甲骨進(jìn)行綴合實(shí)驗(yàn),綴合成功率40%。[3]實(shí)驗(yàn)雖然是在已經(jīng)綴合的樣本中進(jìn)行,當(dāng)時(shí)計(jì)算機(jī)技術(shù)也不夠成熟,但是他們的創(chuàng)新工作還是為計(jì)算機(jī)應(yīng)用于甲骨學(xué)做了有益探索。近些年來,隨著數(shù)據(jù)處理與人工智能相關(guān)技術(shù)瓶頸的突破,一批甲骨文信息化項(xiàng)目更是取得進(jìn)展。安陽(yáng)師范學(xué)院王愛民團(tuán)隊(duì)[4]發(fā)表多篇文章論述甲骨碎片綴合的關(guān)鍵技術(shù),他們利用甲骨碎片的邊界特征進(jìn)行了新的甲骨綴合實(shí)驗(yàn),在有比較準(zhǔn)確的甲骨碎片邊界信息時(shí)可以利用人機(jī)交互快速實(shí)現(xiàn)有關(guān)碎片的綴合。莫伯峰等[5]則通過對(duì)比專家學(xué)者和人工智能在甲骨綴合方面各自的優(yōu)劣,提出兩者可以互相配合以取得不同條件下的最優(yōu)綴合成果。

      此前也有學(xué)者從不同角度對(duì)甲骨文信息化不斷取得的成果進(jìn)行評(píng)述。2008年,門藝對(duì)當(dāng)時(shí)國(guó)內(nèi)外甲骨文數(shù)據(jù)庫(kù)進(jìn)行了綜合介紹[6]。2010年,顧紹通對(duì)甲骨文數(shù)字化過程中的一些問題如甲骨圖像去噪處理、甲骨文字?jǐn)M合、甲骨碎片拼接、甲骨文字庫(kù)建設(shè)等進(jìn)行過討論[7]。盧芯怡則對(duì)近年來計(jì)算機(jī)在甲骨文識(shí)別、編碼、輸入法、語(yǔ)義分析等方面的應(yīng)用進(jìn)行了簡(jiǎn)要評(píng)論[8]。劉永革等也對(duì)近年來的甲骨文輸入法做了評(píng)述,并介紹了該團(tuán)隊(duì)新開發(fā)的可視化輸入法[9]。盡管已經(jīng)有學(xué)者對(duì)甲骨文信息化成果做過梳理,但計(jì)算機(jī)技術(shù)更新很快,如近年來深度學(xué)習(xí)對(duì)甲骨文信息化有很大促進(jìn),此前學(xué)者在這一領(lǐng)域的介紹和涉及不多。有鑒于此,在回顧研究歷史的基礎(chǔ)上結(jié)合最新成果進(jìn)行綜合評(píng)述仍是必要的。目前利用計(jì)算機(jī)信息化技術(shù)及人工智能深度學(xué)習(xí)對(duì)甲骨文的研究主要集中在數(shù)據(jù)庫(kù)、檢識(shí)、編碼、輸入法及甲骨文考釋等方面。

      一、甲骨文數(shù)據(jù)庫(kù)的建立與維護(hù)

      甲骨文信息化應(yīng)用的前提是將甲骨文的材料、工具書、研究文獻(xiàn)數(shù)字化,相應(yīng)的工作即數(shù)據(jù)庫(kù)的建設(shè)。數(shù)據(jù)庫(kù)并非簡(jiǎn)單地將已有材料制作成電子資料,還應(yīng)對(duì)甲骨文拓片或圖片進(jìn)行去噪處理并使相應(yīng)材料可檢索。甲骨文的數(shù)據(jù)庫(kù)包括甲骨文原始資料庫(kù)、甲骨文文字庫(kù)、甲骨文著錄庫(kù)、甲骨文文獻(xiàn)庫(kù)等多種類型。

      國(guó)內(nèi)外已建成多個(gè)數(shù)據(jù)庫(kù),如香港中文大學(xué)開發(fā)的香港漢達(dá)古籍?dāng)?shù)據(jù)庫(kù)檢索系統(tǒng),不僅包括甲骨文,還有金文、竹簡(jiǎn)帛書以及一些傳統(tǒng)文獻(xiàn)數(shù)據(jù)庫(kù)。其甲骨文數(shù)據(jù)庫(kù)收錄《甲骨文合集釋文》及《英國(guó)所藏甲骨集》等海內(nèi)外7種主要大型甲骨圖書,共計(jì)卜辭53834片,約100萬字[10]。中國(guó)國(guó)家圖書館·中國(guó)國(guó)家數(shù)字圖書館中“古籍資源庫(kù):甲骨世界”數(shù)據(jù)庫(kù)收集了“甲骨實(shí)物:元數(shù)據(jù)2964條,影像5932幅。甲骨拓片:元數(shù)據(jù)2975條,影像3177幅”[11]。此數(shù)據(jù)庫(kù)還具有工具庫(kù)鏈接功能,如《甲骨文合集》來源表及釋文部分、《甲骨文字典》《金文字典》等,以便讀者參考。此外,中國(guó)臺(tái)灣“中研院”、日本東京大學(xué)東洋文化研究所、中國(guó)華東師范大學(xué)等機(jī)構(gòu)也相繼研制出幾種甲骨文數(shù)據(jù)庫(kù),國(guó)學(xué)大師網(wǎng)站等個(gè)人開發(fā)的數(shù)據(jù)庫(kù)也有部分可公開使用。依托安陽(yáng)師范學(xué)院的甲骨文信息處理實(shí)驗(yàn)室研發(fā)的甲骨文數(shù)據(jù)平臺(tái)“殷契文淵”是近年來甲骨文數(shù)據(jù)庫(kù)建設(shè)方面的重要成果,該平臺(tái)包括甲骨字形庫(kù)、甲骨著錄庫(kù)和甲骨文獻(xiàn)庫(kù)三個(gè)數(shù)據(jù)庫(kù)。甲骨字形庫(kù)收錄172個(gè)部首和4049個(gè)甲骨文單字;甲骨著錄庫(kù)(含甲骨綴合庫(kù))收錄46部著錄,共112517片甲骨的信息,綴合庫(kù)存儲(chǔ)了已綴合的甲骨片信息;甲骨文獻(xiàn)庫(kù)完成29426篇文獻(xiàn)和282部專書的數(shù)字化[12]。

      目前甲骨文數(shù)據(jù)庫(kù)在甲骨文資源的數(shù)字化方面做出了不少成績(jī),很大程度上方便了學(xué)者進(jìn)行研究工作,但仍有不足之處。由于各單位在相對(duì)獨(dú)立的情況下進(jìn)行數(shù)據(jù)庫(kù)的開發(fā)建設(shè),因而已建成的數(shù)據(jù)庫(kù)不可避免地存在重復(fù)收錄的情況,造成了一定的資源浪費(fèi)。數(shù)據(jù)庫(kù)建成后數(shù)據(jù)更新不及時(shí)、系統(tǒng)維護(hù)缺位的問題也影響了數(shù)據(jù)平臺(tái)的使用。因此,后續(xù)的數(shù)據(jù)庫(kù)研發(fā)有必要重視互通性,數(shù)據(jù)的時(shí)效性和平臺(tái)的實(shí)用性也有待改進(jìn)[13]。

      二、甲骨文的檢測(cè)與識(shí)別

      作為刻于龜甲獸骨上的早期文字,甲骨文的書寫和排列并不如后世漢字那么規(guī)范,從一塊甲骨上將文字和非文字區(qū)分開就成為進(jìn)行甲骨文研究的前提。采用傳統(tǒng)方法選取文字部分需要投入的人力和時(shí)間成本相當(dāng)大,而利用計(jì)算機(jī)技術(shù)進(jìn)行甲骨文的自動(dòng)檢測(cè)則會(huì)事半功倍。

      首先,甲骨文字檢測(cè)的實(shí)現(xiàn)依賴于目標(biāo)檢測(cè)技術(shù)的發(fā)展,學(xué)界一般將檢測(cè)分為傳統(tǒng)目標(biāo)檢測(cè)和基于深度學(xué)習(xí)的場(chǎng)景檢測(cè)。姜維等在論文中詳細(xì)論證了傳統(tǒng)場(chǎng)景檢測(cè)理論和深度學(xué)習(xí)理論下的目標(biāo)檢測(cè)的優(yōu)劣[14]。史小松等則分別利用兩種方法進(jìn)行過甲骨文字符定位實(shí)驗(yàn),他們通過基于閾值分割方法和基于形態(tài)學(xué)方法實(shí)現(xiàn)了部分甲骨拓片的文字提取,但是在噪聲嚴(yán)重的條件下檢測(cè)結(jié)果不盡如人意[15]。此外,史小松等還針對(duì)當(dāng)前圖像目標(biāo)定位算法對(duì)解決圖像目標(biāo)發(fā)生形變的條件下進(jìn)行目標(biāo)定位存在的問題,提出基于稀疏活動(dòng)輪廓模型的甲骨拓片圖像目標(biāo)自動(dòng)定位算法并縮短了檢測(cè)定位時(shí)間[16]。

      近年來深度學(xué)習(xí)理論推動(dòng)了目標(biāo)檢測(cè)方法的革新。深度學(xué)習(xí)又稱深層神經(jīng)網(wǎng)絡(luò)(DeepNeuralNet Work,DNN),它是一類通過多層非線性變換對(duì)高復(fù)雜性數(shù)據(jù)進(jìn)行建模的算法合集[17]。這類算法通過模擬人腦神經(jīng)決策過程,擁有強(qiáng)大的特征表達(dá)能力和函數(shù)擬合能力。目前逐漸形成了以卷積神經(jīng)網(wǎng)絡(luò)、深度置信網(wǎng)絡(luò)、棧式自編碼網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)為核心的深度學(xué)習(xí)模型體系[18]。

      研究人員也適時(shí)地探索新技術(shù)應(yīng)用于甲骨文字符檢測(cè)的工作。王浩彬、黃雙萍構(gòu)建了甲骨文檢測(cè)數(shù)據(jù)集OBCD(OracleBoneCharacter Detection),為深度學(xué)習(xí)技術(shù)應(yīng)用于甲骨文字符檢測(cè)工作提供基準(zhǔn)數(shù)據(jù)庫(kù),同時(shí)引入動(dòng)態(tài)增廣算法和甲骨文字符特征輔助識(shí)別算法,有效提高了甲骨文字符檢測(cè)精度[19]。安陽(yáng)師范學(xué)院劉國(guó)英團(tuán)隊(duì)也在這方面做出了不少有益的工作[20-21]。劉芳等在詳細(xì)分析甲骨文特征的基礎(chǔ)上,提出基于MaskR-CNN改進(jìn)的深度學(xué)習(xí)模型,通過對(duì)訓(xùn)練樣本集的特征學(xué)習(xí),實(shí)現(xiàn)了對(duì)甲骨文拓片上文字的自動(dòng)定位、檢測(cè)與識(shí)別,檢測(cè)準(zhǔn)確率有所提高[22]。

      其次,甲骨文字符檢測(cè)僅是深度學(xué)習(xí)的基礎(chǔ),利用技術(shù)實(shí)現(xiàn)高效的甲骨文識(shí)別將對(duì)甲骨文釋讀有重大意義。1996年,周新倫等就將甲骨文字符抽象為點(diǎn)和線組成的無向圖并提取其拓?fù)涮卣鬟M(jìn)行兩級(jí)分類識(shí)別,實(shí)驗(yàn)結(jié)果識(shí)別準(zhǔn)確率較高[23]。李鋒等又同樣基于圖論理論和技術(shù)設(shè)計(jì)了甲骨文字符的三級(jí)識(shí)別,三級(jí)累計(jì)識(shí)別率為92.27%[24]。呂肖慶等利用曲率特征分析的方法對(duì)甲骨文圖像進(jìn)行分類,分類準(zhǔn)確率為90%[25]。栗青生等通過將甲骨文抽象為無向圖,利用圖的同構(gòu)判定算法來識(shí)別甲骨文[26]。高峰等提出基于語(yǔ)境的統(tǒng)計(jì)分析和Hopfield網(wǎng)絡(luò)相結(jié)合的模糊匹配識(shí)別方法[27]。顧紹通通過分析甲骨文字形拓?fù)漤旤c(diǎn)之間的拓?fù)潢P(guān)系實(shí)現(xiàn)甲骨文字形的拓?fù)涿枋?,利用拓?fù)渑錅?zhǔn)的方法,計(jì)算基準(zhǔn)拓?fù)渑c待配準(zhǔn)拓?fù)渲g的歐氏距離,從而實(shí)現(xiàn)基于拓?fù)浣Y(jié)構(gòu)的甲骨文字形的配準(zhǔn),從而識(shí)別甲骨文字形[28]。他還利用分形幾何的原理實(shí)現(xiàn)甲骨文字形描述的形式化,再將甲骨文字形的分形描述碼與分形特征庫(kù)進(jìn)行配準(zhǔn),從而識(shí)別甲骨文字形[29]。劉永革等采用支撐向量機(jī)分類技術(shù)研究甲骨文字圖片的識(shí)別技術(shù),通過實(shí)驗(yàn)證明達(dá)到88%的準(zhǔn)確率,但是由于異體字出現(xiàn)頻率較高,準(zhǔn)確率仍有待提高[30]。

      深度學(xué)習(xí)理論革新也推動(dòng)了甲骨文字符自動(dòng)識(shí)別的研究工作。2015年,郭俊等提出了多層次甲骨文字符表示方法,對(duì)圖像中的中層特征,利用稀疏自編碼進(jìn)行表示,對(duì)底層特征,利用Gabor進(jìn)行表示,再將二者結(jié)合對(duì)甲骨字符進(jìn)行描述,并將這種草圖識(shí)別技術(shù)與基于卷積神經(jīng)網(wǎng)絡(luò)的模型相結(jié)合進(jìn)行甲骨文的識(shí)別,在甲骨文字?jǐn)?shù)據(jù)集上取得了較好的識(shí)別水平[31]。魯旭正設(shè)計(jì)了一種基于Capsule和遷移學(xué)習(xí)的模型RadicalNet,用于識(shí)別和提取甲骨文的構(gòu)件。通過對(duì)甲骨文構(gòu)建的多目標(biāo)識(shí)別實(shí)現(xiàn)甲骨文字形識(shí)別功能[32-33]。王琦琦基于卷積神經(jīng)網(wǎng)絡(luò)對(duì)甲骨文字提取Gabor特征、梯度特征和Hog特征作為先驗(yàn)知識(shí)映射到網(wǎng)絡(luò)輸入層,提升模型識(shí)別正確率[34]。劉夢(mèng)婷構(gòu)建了甲骨文字圖像數(shù)據(jù)集OBIS163,并對(duì)數(shù)據(jù)集進(jìn)行了擴(kuò)增和去噪的預(yù)處理[35]。高旭同樣對(duì)原始甲骨文數(shù)據(jù)集進(jìn)行了數(shù)據(jù)擴(kuò)充、圖像去噪和圖片歸一化的預(yù)處理,并在改進(jìn)的ResNet網(wǎng)絡(luò)模型基礎(chǔ)上設(shè)計(jì)了甲骨文識(shí)別系統(tǒng)[36]。趙一文嘗試?yán)肅apsule網(wǎng)絡(luò)解決甲骨文識(shí)別準(zhǔn)確率問題,實(shí)驗(yàn)證明Capsule網(wǎng)絡(luò)比其他CNN網(wǎng)絡(luò)模型準(zhǔn)確率更高[37]。門藝等也基于深度學(xué)習(xí)的人工智能手段實(shí)現(xiàn)甲骨文的定位、識(shí)別及釋讀工作[38]。張頤康等提出了一種基于深度度量學(xué)習(xí)和最近鄰分類的跨模態(tài)甲骨文字識(shí)別框架,相對(duì)于傳統(tǒng)的CNN分類框架和單模態(tài)識(shí)別方法都具有明顯的優(yōu)勢(shì)[39]。林小渝團(tuán)隊(duì)構(gòu)建了甲骨文偏旁和甲骨文合體字?jǐn)?shù)據(jù)集,提出了兩種以甲骨文偏旁為構(gòu)件的卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)識(shí)別方法,為甲骨文識(shí)別考釋提供了新的思路[40]。

      甲骨文檢測(cè)和識(shí)別已經(jīng)取得了一定的成績(jī),但甲骨文字殘缺較多、異體字出現(xiàn)頻率高、甲骨樣本類別少等問題仍將阻礙著其自動(dòng)檢測(cè)和識(shí)別的質(zhì)量提升[41]。

      三、甲骨文編碼與甲骨文輸入法

      甲骨文雖已是一個(gè)相對(duì)成熟的文字系統(tǒng),但古文字畢竟與現(xiàn)代漢字有諸多不同。其沒有規(guī)范的筆畫,不少字的讀音也無從知曉,這種情況下想要實(shí)現(xiàn)甲骨文的計(jì)算機(jī)輸入,編制簡(jiǎn)明易用的編碼表就是一條必經(jīng)之路。

      1994年,李季民就嘗試編制甲骨文編碼電腦字典,這套碼以四位為限,碼元全部取用標(biāo)準(zhǔn)輸入鍵盤主盤字符。這套碼規(guī)則簡(jiǎn)明,字根易記,界面清晰[42]。華中師范大學(xué)的肖明、胡金柱等對(duì)甲骨文編碼做了較為深入的研究。1999年,肖明等在論文中介紹了面向?qū)ο蟮腜etri網(wǎng)(OOPN)方法,并將它應(yīng)用于甲骨文象形碼編碼的設(shè)計(jì)過程中,給出了基于面向?qū)ο蟮腜etri網(wǎng)的甲骨文編碼的類層次結(jié)構(gòu)圖[43]。2002年,肖明等建立了甲骨文信息處理的模糊信息模型,利用模型分析甲骨文的部件(字根)和碼元的確定規(guī)則,使用32個(gè)字符(25個(gè)英文字母和7個(gè)阿拉伯?dāng)?shù)字)作為碼元,與甲骨文中的500多個(gè)字根相對(duì)應(yīng),首次實(shí)現(xiàn)了一字一碼的編碼方案。并且通過分析得出甲骨文最佳碼長(zhǎng)接近3,從而為對(duì)5000多個(gè)甲骨文字的編碼提供了理論基礎(chǔ)[44-46]。郝文勉則通過分析最小的構(gòu)形單位“線”以及線與線之間的關(guān)系去解析甲骨文結(jié)構(gòu),歸納出獨(dú)立性、相觸性、交叉性和對(duì)稱性四個(gè)甲骨文線性結(jié)構(gòu)特征,作為提取碼元之基礎(chǔ),進(jìn)而形成甲骨文編碼方案[47]。李東琦等結(jié)合甲骨文字的構(gòu)件特點(diǎn),分析并設(shè)計(jì)了基于NET平臺(tái)的甲骨文字編碼器[48]。以上編碼方式多從甲骨文字形特點(diǎn)出發(fā),可稱為“形碼”,由于甲骨文多數(shù)難以拼讀,所以基于讀音的音碼研究者較少。

      實(shí)現(xiàn)計(jì)算機(jī)輸入是甲骨文走向信息化應(yīng)用的重要一環(huán)。1995年,徐松等基于甲骨文象形碼吸取甲骨文的傳統(tǒng)部件的優(yōu)點(diǎn),從字形上找到突破口,為多個(gè)甲骨文進(jìn)行科學(xué)編碼時(shí)使用了26個(gè)英文字母和9個(gè)阿拉伯?dāng)?shù)字,從而實(shí)現(xiàn)了一字一碼的編碼方案。他們開發(fā)的“甲骨文象形輸入法”兼具了甲骨文的查找與輸入兩種功能[49]。2010年,聶艷召等研發(fā)了甲骨文自由筆畫輸入法。通過對(duì)甲骨文的筆畫特征進(jìn)行分析,將構(gòu)成甲骨文的筆畫歸納為點(diǎn)、橫、豎、撇、捺、彎、曲、框、圓9種筆畫,在此基礎(chǔ)上設(shè)計(jì)了甲骨文筆畫輸入法,該工具可以為甲骨文工作者提供方便快捷的輸入途徑,以提高效率[50]。栗青生等提出了基于有向筆段的甲骨文輸入系統(tǒng),利用有向筆段的描述方法去描述甲骨文字元,再由字元拼接為字形,較好地解決了甲骨文中弧線筆元的描述方法[51]。該團(tuán)隊(duì)還提出甲骨文字形動(dòng)態(tài)描述方法,為甲骨文異體字和未識(shí)別甲骨文的輸入找到了解決思路[52]。2004年,劉永革等開發(fā)了可視化輸入法。這種方法采用“所見即所得”的方式,將所有的甲骨文字按照部首劃分類,難檢字單獨(dú)成一類,通過鼠標(biāo)點(diǎn)擊圖片輸入甲骨文字[53]。手寫輸入法是使用者在終端界面手寫輸入,軟件進(jìn)行識(shí)別后再將匹配的甲骨文輸入系統(tǒng)。據(jù)上文所引劉永革等《甲骨文輸入法綜述》介紹,廈門大學(xué)開發(fā)了一款甲骨文手寫輸入法,該輸入法可通過鼠標(biāo)在提供的虛擬手寫板上通過直接書寫甲骨字再選擇識(shí)別結(jié)果完成甲骨文字輸入。安陽(yáng)師范學(xué)院甲骨文信息處理實(shí)驗(yàn)室研發(fā)基于深度學(xué)習(xí)的甲骨文識(shí)別系統(tǒng),并基于此開發(fā)了新的手寫甲骨文輸入系統(tǒng),并在“殷契文淵”網(wǎng)站中推出了手寫檢索甲骨字的功能。

      四、基于大數(shù)據(jù)的甲骨文考釋與語(yǔ)義分析

      甲骨文作為記錄商代晚期語(yǔ)言的符號(hào),其語(yǔ)義與辭例失傳已久,現(xiàn)代人必須依靠專業(yè)知識(shí)才能對(duì)其考證研究并加以利用。對(duì)甲骨文句進(jìn)行深入學(xué)習(xí),大數(shù)據(jù)的語(yǔ)義和辭類檢索是一個(gè)可行路徑。韓姣紅提供了一種基于本體的甲骨文文獻(xiàn)查詢技術(shù),通過本體構(gòu)建、語(yǔ)義標(biāo)注等技術(shù)提高了甲骨文領(lǐng)域文獻(xiàn)檢索的查準(zhǔn)率和查全率,并研制了甲骨文文獻(xiàn)綜合檢索系統(tǒng)[54]。安陽(yáng)師范學(xué)院吳琴霞等針對(duì)傳統(tǒng)語(yǔ)義標(biāo)注的不足之處,基于甲骨文卜辭信息的特殊性,提出了一種基于本體的甲骨文專業(yè)文檔標(biāo)注方法[55]。

      對(duì)未識(shí)字進(jìn)行考釋是計(jì)算機(jī)在甲骨文研究中的另一重要工作。聶艷召等將甲骨文字形演變知識(shí)數(shù)字化,建立基礎(chǔ)數(shù)據(jù)表,構(gòu)建演變規(guī)律知識(shí)庫(kù),開發(fā)出了輔助考釋的原型系統(tǒng)[56]。葛彥強(qiáng)等根據(jù)甲骨文字、文、圖合一的特點(diǎn)提出了從結(jié)構(gòu)、上下文、與金文的演變相結(jié)合的輔助考釋方法,構(gòu)造甲骨文的貝葉斯網(wǎng)絡(luò),構(gòu)建了甲骨文的特征屬性語(yǔ)料庫(kù)和案例庫(kù),開發(fā)了供甲骨文專家使用的輔助考釋系統(tǒng)[57]。為提高甲骨文考釋效率,熊晶等提出利用計(jì)算機(jī)輔助甲骨文考釋,結(jié)合上下文語(yǔ)義環(huán)境來輔助甲骨文考釋[58]。2018年,焦清局等使用大規(guī)模的拓片信息創(chuàng)新性地構(gòu)建了甲骨字網(wǎng)絡(luò),在其構(gòu)建的甲骨字網(wǎng)絡(luò)中充分捕捉了甲骨文語(yǔ)義單元信息,保留了甲骨文中單音字多的特性,同時(shí)該網(wǎng)絡(luò)的中邊權(quán)重反映了甲骨字之間的同現(xiàn)關(guān)系[59]。2020年,該團(tuán)隊(duì)利用甲骨文拓片數(shù)據(jù)構(gòu)建了甲骨字網(wǎng)絡(luò),對(duì)未識(shí)甲骨字在網(wǎng)絡(luò)上的重要性、信息豐富度及閉合性進(jìn)行研究,結(jié)合網(wǎng)絡(luò)特性和拓片的上下文語(yǔ)境對(duì)未識(shí)甲骨字的場(chǎng)景語(yǔ)義進(jìn)行了預(yù)測(cè)[60]。

      甲骨文知識(shí)圖譜的構(gòu)建也有利于其文字考釋和語(yǔ)義分析。熊晶等還針對(duì)甲骨文的特點(diǎn)及其與現(xiàn)代漢語(yǔ)的內(nèi)在聯(lián)系,提出雙向活動(dòng)鉸接法的甲骨文本體構(gòu)建模型[61]。2015年,他們又提出了構(gòu)建甲骨文知識(shí)圖譜的方案,以解決甲骨文專家知識(shí)應(yīng)用率低的問題,其關(guān)鍵技術(shù)是發(fā)現(xiàn)知識(shí)圖譜中實(shí)體的關(guān)聯(lián)關(guān)系[62]。2020年,熊晶等進(jìn)一步基于甲骨學(xué)MKD和甲骨學(xué)KG的構(gòu)建方法,通過實(shí)體對(duì)齊、關(guān)系融合和知識(shí)推理得到最終的甲骨學(xué)知識(shí)圖譜[63]。2020年,該團(tuán)隊(duì)論證了構(gòu)建大規(guī)??缒B(tài)的甲骨學(xué)知識(shí)圖譜在甲骨文知識(shí)管理與共享、考釋和綴合方面的重要性[64]。卜辭文本聚類也是建立卜辭語(yǔ)義主題和未釋甲骨字之間關(guān)聯(lián)的重要任務(wù)之一,是甲骨文考釋、綴合等工作的有效手段。馬園園等針對(duì)甲骨卜辭數(shù)據(jù),提出一種基于對(duì)稱非負(fù)矩陣分解的無監(jiān)督文本聚類方法[65]。

      利用計(jì)算機(jī)對(duì)甲骨文語(yǔ)句進(jìn)行翻譯也是未來甲骨文信息化應(yīng)用的一個(gè)方向。袁冬等提出基于實(shí)例的甲骨文釋文機(jī)器翻譯技術(shù)研究方案[66]。熊晶等為解決基于實(shí)例的甲骨文機(jī)器翻譯缺乏深層次語(yǔ)義分析的問題,引入了本體技術(shù),采用實(shí)例和本體相結(jié)合的辦法,分階段實(shí)現(xiàn)甲骨文語(yǔ)句的機(jī)器翻譯[67]。熊晶等還研究了基于翻譯記憶的計(jì)算機(jī)輔助翻譯技術(shù)[68]。這種方案優(yōu)勢(shì)在于準(zhǔn)確度較高,但翻譯的準(zhǔn)確度受記憶庫(kù)規(guī)模大小和語(yǔ)句復(fù)雜程度限制比較明顯。

      五、結(jié)語(yǔ)

      自20世紀(jì)70年代至今,甲骨學(xué)和計(jì)算機(jī)技術(shù)的研究者孜孜不倦地聯(lián)合推動(dòng)了甲骨文數(shù)字化的進(jìn)步。特別是21世紀(jì)以來,伴隨人工智能新科技的發(fā)展浪潮,甲骨文信息化取得了豐碩的成果。數(shù)字處理和深度學(xué)習(xí)在甲骨文檢測(cè)與識(shí)別中的應(yīng)用,知識(shí)圖譜在甲骨文語(yǔ)義分析和未識(shí)字考釋方面的引入,都極大地開拓了甲骨文資料進(jìn)一步數(shù)字化、信息化、智能化的應(yīng)用范圍和場(chǎng)景。幾十年間,各種甲骨文的數(shù)據(jù)庫(kù)、資源平臺(tái)逐漸開放,甲骨文輸入法的部分投入使用,計(jì)算機(jī)輔助甲骨文考釋、翻譯的技術(shù)實(shí)驗(yàn),均預(yù)示著甲骨文數(shù)字技術(shù)應(yīng)用研究的光明前景。然而,我們也必須看到,這里仍存在著一些深層次的問題。數(shù)據(jù)庫(kù)建設(shè)方面的互通性、兼容性不足,已建成的數(shù)據(jù)平臺(tái)維護(hù)質(zhì)量不夠穩(wěn)定及其更新速度緩慢,古文字專家參與度不夠?qū)е碌挠?jì)算機(jī)技術(shù)人員對(duì)甲骨文自身特征把握不足,甲骨學(xué)術(shù)界有關(guān)分類、分期、考釋等重大問題本身存在的爭(zhēng)議等,都是影響甲骨文信息化成果創(chuàng)新和應(yīng)用范圍的諸多不利因素??傊?,甲骨文信息化之路任重道遠(yuǎn)。

      ﹝本文是2018年度國(guó)家社科基金西部項(xiàng)目“深度學(xué)習(xí)技術(shù)支持下的甲骨文自動(dòng)識(shí)別系統(tǒng)研究(項(xiàng)目編號(hào):18XKG003)”階段成果。﹞

      猜你喜歡
      綴合甲骨甲骨文
      旅順博物館藏吐魯番蒙書敘錄與綴合
      尋根(2022年2期)2022-04-17 11:01:38
      字溯甲骨?文承龍韻
      甲骨釋字四則
      說甲骨新綴所見的“南孟”與“奠子方”
      甲骨文“禍”字新證
      三千年甲骨文
      遵義(2017年24期)2017-12-22 06:10:48
      最“萌”甲骨文——心
      敦煌本《大方等大集經(jīng)》殘卷綴合研究
      敦煌佛經(jīng)殘卷綴合釋例
      敦煌疑偽經(jīng)三種殘卷綴合研究
      开远市| 辽源市| 北安市| 南昌县| 临清市| 云梦县| 涡阳县| 鄂尔多斯市| 德化县| 高尔夫| 石泉县| 郓城县| 绥化市| 白河县| 京山县| 万荣县| 芷江| 辛集市| 寻甸| 沁阳市| 阳原县| 西华县| 鄂托克旗| 扶余县| 赤壁市| 红安县| 扶风县| 来宾市| 肥城市| 南皮县| 石门县| 海宁市| 龙口市| 上犹县| 泾阳县| 射洪县| 漳浦县| 镇宁| 资源县| 西乌珠穆沁旗| 上犹县|