焦清局,劉永革,仇 利萍,金園園,熊 晶,劉國英,高峰
(1.安陽師范學院計算機與信息工程學院,河南安陽455000; 2.甲骨文信息處理教育部重點實驗室,河南安陽455000; 3.河南省甲骨文信息處理重點實驗室,河南安陽455000; 4.安陽師范學院歷史與文博學院,河南安陽455000; 5.中國社會科學院先秦史研究所,北京100732)
甲骨學的研究為人們探究中國文字的起源、殷商史及中國文明史具有重要的意義。然而,單純依靠文獻的傳統(tǒng)甲骨學研究已不能滿足當今社會發(fā)展的需要,特別是不能快速有效地破譯未識甲骨字的語義。隨著甲骨學研究成果和文獻的積累,甲骨學知識逐步呈現(xiàn)系統(tǒng)和大規(guī)?;?。為利用計算機技術研究甲骨學提供了基礎數(shù)據(jù)。近年來,在甲骨字的輸入和可視化、識別、語義分析、網(wǎng)絡甲骨學等方面已有一些初步探索和研究。甲骨字的輸入為甲骨學文獻和著錄的數(shù)字化提供了必要的工具。2004 年,為對甲骨文字、拓片、文獻等信息數(shù)字化,劉永革等[1]開發(fā)了甲骨字輸入法:將甲骨字轉化為圖片,并通過插入圖片的方法輸入甲骨字。為了更好地輸入甲骨字,肖明等[2]利用模糊信息分析理論研究了象形碼編碼模型。顧紹通等[3]通過編碼研究,可從形和音的角度輸入甲骨文:首先,利用部件對甲骨字進行拆分,然后,將甲骨字部件與標準鍵盤的26 個鍵位建立映射關系,最后,按照規(guī)定順序輸入甲骨字部件對應的鍵位,完成甲骨文輸入。與顧紹通等的方法類似,聶艷召等[4]將甲骨字拆分成更小的部件(稱為筆畫或碼元),然后設計編碼系統(tǒng),進而輸入甲骨字。在計算機技術輔助的甲骨學研究中,甲骨字識別在甲骨異體字(異體字是同一個甲骨字的不同寫法)辨別、甲骨學文獻數(shù)據(jù)庫建設等方面具有重要作用。栗青生等[5]通過對甲骨字向圖的轉換,進而識別甲骨文字。該方法首先把甲骨字的一些重要端點和交點抽象為圖中的點;然后,根據(jù)甲骨字形連接圖中點之間的邊,進而形成該甲骨字的圖;最后,根據(jù)圖的匹配算法識別未知甲骨字。2014 年,高峰等[6]首先利用語境分析生成的候選字庫得到對應的甲骨文語義構件向量,然后結合Hopfield 網(wǎng)絡識別的結果計算待識別的甲骨文模糊字的匹配度,根據(jù)匹配度識別甲骨字。2016 年,顧紹通等[7]通過對甲骨字的拓撲提取和編碼抽象甲骨字,并通過拓撲配準算法識別甲骨字。同樣利用圖像處理的方法,GUO等[8]首先利用Gabor 變換和稀疏表達提出一種層次表示(hierarchical representation)法,然后結合卷積神經(jīng)網(wǎng)絡(convolutional neural network, CNN)識別甲骨字。在甲骨文語義分析方面,2012 年,袁冬等[9]提出基于實例的甲骨文釋文機器翻譯方案,并實現(xiàn)一套機器翻譯系統(tǒng)。2015 年,高峰等[10]首先構建一個融合甲骨文和現(xiàn)代漢語的語義知識庫,然后通過可拓模型解決甲骨卜辭問題。同年,熊晶等[11]在文本挖掘的基礎上,結合語義Web 技術,將實體及其關系資源描述框架(resource description framework,RDF)抽象化,并在生成的RDF 集合中進行語義搜索,利用本體關系和推理挖掘RDF 對象間顯式或隱式的語義關系。在網(wǎng)絡甲骨學方面,2016 年,DRESS 等[12]選擇60 個甲骨文動物字作為研究對象,通過提取這些甲骨字的特征向量,計算相似性距離,構建動物甲骨字的認知網(wǎng)絡。焦清局等[13]從系統(tǒng)的角度研究甲骨學,并利用甲骨拓片數(shù)據(jù),通過建模構建甲骨字網(wǎng)絡。在甲骨字網(wǎng)絡之上,對網(wǎng)絡屬性進行分析,為用計算機技術預測未識甲骨字的語義提供數(shù)據(jù)和理論支持。
語言是人類驅動(human-driven)的復雜適應系統(tǒng)[14],從復雜系統(tǒng)或復雜網(wǎng)絡的角度對自然語言的研究可以充分捕捉語句、詞、字之間的語法和語境的內(nèi)在關聯(lián)信息,也有助于揭示語言的結構化和語言在演化過程中的未知屬性[15]。2001 年,CANCHO等[16]首次利用復雜網(wǎng)絡的方法構建并研究英語同現(xiàn)網(wǎng)絡。隨后,從復雜網(wǎng)絡的角度對語言進行研究,包括語言網(wǎng)絡的構建及其特性分析、語言中未知屬性分析、基于網(wǎng)絡視角的語言認知分析等。2005 年,STEYVERS 等[17]構建并分析了3 種語義網(wǎng)絡,并對它們進行網(wǎng)絡特性的對比分析。此外,還提出一種語義網(wǎng)絡增長模型。同年,韋洛霞等[18]根據(jù)詞同現(xiàn)構建了漢語網(wǎng)絡,并揭示網(wǎng)絡的無標度特性。ARBESMAN 等[19]構建了英語和西班牙的音韻(phonologically)網(wǎng)絡,并詳細分析了具有相同小構件的西班牙語和英語在音韻和語義之間的差異。SIEW 等[20]不僅構建了音韻網(wǎng)絡,而且使用模塊結構(module structure)挖掘算法,從音韻網(wǎng)絡中挖掘17 個模塊,并分析了模塊的特性。 2017 年,DAUTRICHE 等[21]利用字之間的相鄰音韻關系構建音韻相鄰網(wǎng)絡,分析發(fā)現(xiàn),與隨機網(wǎng)絡相比,音韻網(wǎng)絡有較高聚類系數(shù)和傳遞性。2019 年,LIANG等[22]利用構建的206 個現(xiàn)代漢字共現(xiàn)網(wǎng)絡(cooccurrence network)分析其演化過程中的統(tǒng)計參數(shù)關系,結果表明,現(xiàn)代漢語拓撲結構的光譜行為(spectral behavior)在演化過程中具有一致性。ARRUDA 等[23]提 出 一 種 基 于 段 落(paragraphbased)的文本表示方法,利用此方法揭示了真實的文本具有較強的社團結構特性。通過構建語言的語義網(wǎng)絡、句法網(wǎng)絡、概念網(wǎng)絡、信息網(wǎng)絡以及社會網(wǎng)絡可揭示人類的認知系統(tǒng)[24]。SIZEMORE 等[25]通過構建語義特征網(wǎng)絡探索知識鴻溝(knowledge gaps)問題,并揭示語義特征網(wǎng)絡在語言學習過程中的重要性。HAGOORT[26]從多重腦網(wǎng)絡的角度揭示了人類處理語言的過程。
未識甲骨字的語義預測是目前甲骨學研究中面臨的重要問題和難題。雖然計算機技術輔助的甲骨學研究取得了一些進展,但要預測未識甲骨字的語義還很遠。為了解決以上問題,本文從系統(tǒng)的角度對未識甲骨字進行研究。首先,利用甲骨文拓片數(shù)據(jù)構建了甲骨字網(wǎng)絡;其次,對未識甲骨字在網(wǎng)絡上的重要性、信息豐富度、閉合性進行研究;最后,結合網(wǎng)絡特性和拓片的上下文語境對未識甲骨字的場景語義進行了預測。
為了分析未識和已識甲骨字在網(wǎng)絡上的不同特征,需要構建甲骨字網(wǎng)絡。本文以甲骨拓片為基礎數(shù)據(jù),并利用文獻[13]中的方法構建甲骨字網(wǎng)絡,即網(wǎng)絡矩陣M。此方法共包含3 個步驟。第1,選定一片甲骨拓片,假設此拓片上有2 個甲骨字i 和j,則可用式(1)和式(2)定義甲骨字i 和j 之間的距離wij,并將wij值賦予Mij處。在式(1)中,int eral 的值可用式(2)計算:如果2 個甲骨字之間沒有殘缺的字(由于年代久遠,甲骨拓片中的甲骨字可能出現(xiàn)脫落),li和lj表示甲骨字i 和j 在拓片中的位置,并且字j 在字i 的后面,那么int eral 的值為lj-li;如果甲骨字i 和j之間有殘缺的甲骨字,那么int eral 的值有兩部分組成,其中一部分為β,表示殘缺甲骨字之間的距離,在本文中,設置為2。第2,如果2 個甲骨字在不同的拓片上同時出現(xiàn),分別計算這2 個甲骨字在不同拓片上的相似性距離,相加后賦予相似性矩陣對應的位置。第3,根據(jù)71 455 片拓片,得到6 199 個甲骨字(包含甲骨異體字)之間的相似性矩陣,此矩陣共包含160 964 條邊。
為破譯未識甲骨字的語義,需要對已識和未識甲骨字的網(wǎng)絡特性進行分析,并利用已識甲骨字的特性指導未識甲骨字的考釋。本文以甲骨字網(wǎng)絡為基礎數(shù)據(jù),對已識和未識甲骨字在網(wǎng)絡上的重要性、信息豐富度、考釋難易程度進行詳細分析,進而為未識甲骨字的考釋提供方法指導。
首先對未識甲骨字是否值得進一步研究進行探索。由于本文使用甲骨字網(wǎng)絡抽象甲骨文系統(tǒng),因此,需要對未識甲骨字在甲骨字網(wǎng)絡中對應結點的重要性進行研究。在復雜網(wǎng)絡中,介數(shù)中心性(betweenness centrality, BC)是結點重要性的一種指標[27],以經(jīng)過某個結點的最短路徑數(shù)目來刻畫結點的重要性:
其中,gst表示從結點s 到結點t 的最短路徑數(shù)目,nist為從結點s 到結點t 的gst條最短路徑中經(jīng)過結點i 的最短路徑數(shù)目。
拓片是甲骨文字系統(tǒng)存在最為有力的載體,也是計算甲骨學家能夠獲取的最直觀的數(shù)據(jù),它構成了甲骨文系統(tǒng)的基本語義單元。甲骨文拓片中字與字之間的相互關聯(lián)信息是預測未識甲骨字的重要信息。本文構建的甲骨字網(wǎng)絡以原始拓片為基礎數(shù)據(jù),通過抽象同一拓片中字(i)與字(j)之間的前后順序定義它們之間的距離,而字i 和j 之間的權重通過它們在不同拓片中形成的距離疊加得到。因此,構建的甲骨字網(wǎng)絡不僅能反映字與字之間的語境信息,而且能反映字與字之間在不同拓片中出現(xiàn)的次數(shù)。
如果一個未識甲骨字在不同拓片中出現(xiàn)次數(shù)較多,并且所在拓片含有的甲骨字較多,那么,此未識甲骨字因其在甲骨文系統(tǒng)中包含的信息較豐富,其語義被預測的可能性較大。在甲骨字網(wǎng)絡中,未識甲骨字的信息豐富度表現(xiàn)為結點(i)的強度(S,式(4))和與此結點相連且權重大于0 的個數(shù)(U,式(5))。
式(4)和(5)中,N 表示網(wǎng)絡矩陣M 的結點數(shù),wij表示結點i 和j 之間的權重值。當wij大于0 時,δ 取值為1,否則取值為0。
在2.2 節(jié)中,分析了一個甲骨字與其他甲骨字之間在不同拓片出現(xiàn)的情況(U 值)以及不同拓片同時出現(xiàn)的強度(S 值),這些結果為破譯未識甲骨字的語義提供了重要的信息。但是這些信息只是從模糊的角度反映未識甲骨字語義推理的重要性。如,一個未識甲骨字(i)有較大的S 和U 值,而與字i 相連的都是未識甲骨字(可標記為[i1,i2,…,in])。由于甲骨字[i1,i2,…,in]的語義是未知的,因此也無法從[i1,i2,…,in]中獲取有用信息進而預測i 字的語義。同樣,對于一個具有較大S 和U 值的已識甲骨字j,與j 字相連的都是已識甲骨字(可標記為[ j1,j2,…,jm]),那么j 字也無法為破譯未識甲骨字提供有用信息。這種現(xiàn)象稱為甲骨字的閉合性(見式(6)和圖1)。
式(6)中,Ci表示甲骨字i 的閉合系數(shù),Nn和Un分別表示已識和未識甲骨字的個數(shù),wih和wik分別表示甲骨字i 與已識和未識甲骨字連接的權重。由于連接的權重和值較大,對其取對數(shù)。
圖1 閉合系數(shù)計算示意圖Fig.1 An example to calculate closed coefficient
一個未識甲骨字的閉合性的絕對值越大,被破譯的可能性越小;而一個已識甲骨字的閉合性值越大,此字為破譯其他未識甲骨字提供的信息就越少。從式(6)中可以推斷,如果一個未識甲骨字i 與其他已識甲骨字連接的權重越小,而與其他未識甲骨字連接的權重越大,Ci的負值就越小,|Ci|絕對值就越大;如果一個已識甲骨字j 與其他已識甲骨字連接的權重越大、而與其他未識甲骨字連接的權重越小,Cj的值就越大。總之,在甲骨文字系統(tǒng)中,如果已識甲骨字的Cj值和未識甲骨字的|Ci|值較大,對破譯未識甲骨字語義的困難就越大。對于一個未識甲骨字i,如果它的Ci值越大,說明此字與已識甲骨字連接較為緊密,可用信息越多,破譯的可能性越大。
在圖1 中,與甲骨字1 相連的甲骨字共有5 個,分別為甲骨字2,3,4,5,6,它們與甲骨字1 的權重分別為30,90,60,20,10,如果甲骨字2,3,4 為已識甲骨字,甲骨字5,6 為未識甲骨字,那么甲骨字1 的閉合系數(shù)C1為
為計算未識甲骨字在甲骨字網(wǎng)絡中的重要性,首先計算所有甲骨字的介數(shù)中心性(式(3));然后,對所有甲骨字的介數(shù)中心性值進行排序,排序后的結果為SBC;最后,選出排名前NS的結點,計算NS中未識甲骨字所占比例PS:
式(7)中,當甲骨字i 為未識字時,θ 取值為1,否則取值為0。
圖2表示的是當Ns=[50,100,200,…,1500,1600]時(由于已識甲骨字的個數(shù)為1 602,所以NS的最大值設置為1 600),未識甲骨字在BC 值上的PS值。從圖2 中可以看到,當NS=50 時,PS在BC 上的值為10%,即前50 個甲骨字中,僅有5 個字是未識甲骨字;當NS=100 時,PS在BC 上的值為13%,即前100 個甲骨字中,僅有13 個字是未識甲骨字。隨著NS值的增大,PS值也逐步增大。當NS=1 600 時,PS值為52.06%,其結果意味著未識甲骨字的重要性甚至大于已識甲骨字。因此,未識甲骨字語義預測對重新認識甲骨文系統(tǒng)、殷商文化和古代史都有重要意義。
圖2 未識甲骨字在BC 值上的PSFig.2 The values of PS of unknown oracle characters on BC
未識甲骨字的信息豐富度是語義預測的直接依據(jù)。依據(jù)S(式(4))和U(式(5))的定義,分析未識甲骨字的信息豐富度:第1,計算所有結點的S 和U值;第2,對結點的S 和U 值進行排序,取出排名前NS個結點,計算NS中未識甲骨字所在的比例PS(式(7) ) 。 圖 3 表 示 的 是 當 Ns=[50,100,200,…,1500,1600]時,未識甲骨字在值S(圖3A)和U(圖3B)上的PS值。從圖3 中可以看到,當NS=50 時,PS在S 上的值為10%,即前50 個甲骨字中,僅有5 個是未識甲骨字;當NS=100 時,PS在S 上的值為17%,即前100 個甲骨字中,僅有17個是未識甲骨字。隨著NS值的增大,PS值也逐漸增大??梢钥吹?,甲骨字的S 值越大,其語義被破譯的可能性就越大。對于U 值,隨著NS值的增大,PS值也逐漸增大。如,當NS=50 時,PS在S 上的值為6%,即前50 個甲骨字中,僅有3 個是未識甲骨字;當NS=100 時,PS在S 上 的 值 為12%,即 前100 個 甲骨字中,僅有12 個是未識甲骨字。從U 值中可以看到,與S 值相比,U 值在破譯甲骨字語義上起更重要的作用。綜上,甲骨字的信息豐富度在預測甲骨字語義上具有重要的支持作用,而一些未識甲骨字(具有較大的S 和U 值)的可用信息足以預測其語義。
圖3 未識甲骨字在S 和U 值上的PSFig.3 The values of PS of unknown oracle characters on S and U
閉合系數(shù)(式(6),C)可以定義未識甲骨字的考釋難易程度,即未識甲骨字的閉合系數(shù)越大,此字的語義被破譯的可能性越大。考釋難易程度有助于解決首先預測那些未識甲骨字的語義問題。圖4 給出了已識甲骨字和未識甲骨字的C 值。需要注意的是,在計算C 值時,如果分子和分母其中一項為0,不計算此字的C 值。通過篩選,共得到已識甲骨字1 397 個,未識甲骨字3 367 個。從圖中以看到,對于已識甲骨字,有2.79%(共39 個,見表1)的甲骨字C值小于0,即這些甲骨字與未識甲骨字連接緊密;有0.21%(共3 個)的C 值等于0,說明這些甲骨字與已識甲骨字和未識甲骨字連接的權重相等。而C 值較大(大于4)的甲骨字僅占到所有已識甲骨字的5.94%(共83 個),大部分(91.05%,共1 272 個甲骨字)已識甲骨字的C 值分布在0 ~4。
通過以上分析可知,已識甲骨字并沒有較強的閉合性,可以為未識甲骨字語義的預測提供重要的可用信息。對于未識甲骨字,C 值小于等于0 的共有234 個(見表1),而C 值分布在0 ~4 的共有2 863個(占85.03%)。與已識甲骨字連接緊密而與未識甲骨字連接稀疏(即C 值大于4)的未識甲骨共有270 個。與已識甲骨字一樣,未識甲骨字的閉合性較弱,這為預測未識甲骨字的語義提供了重要的理論和數(shù)據(jù)依據(jù)。特別是對于具有較大C 值的270 個未識甲骨字,是需要破譯的首要目標。
圖4 已識和未識甲骨字的C 值Fig.4 The values of C of known and unknown oracle characters
表1 不同C 值的已識和未識甲骨字的個數(shù)和占比Table 1 The number and percentage of known and unknown oracle characters on different values of C
閉合性為首先預測那些未識甲骨字的語義提供了重要的數(shù)據(jù)支持,因為這些未識甲骨字與已識甲骨字緊密相連,且在不同的拓片中多次出現(xiàn),并構成相對完整的語義單元。更進一步,對已識甲骨字(連接性甲骨字和非連接性甲骨字)進行模糊分類。連接性甲骨字在拓片中起“連接”的作用,如“卜”字的出現(xiàn),表明此拓片用于占卜,對于預測未識甲骨字的語義提供的信息較少。另外,“卜”字在所有的拓片中共出現(xiàn)了至少20 375 次[13],能夠提供可用信息非常少。由于這些甲骨字有較高的U 值,因此,去掉U 值排名前100 的甲骨字,然后計算已識和未識甲骨字的閉合性C。圖5 給出了已識和未識甲骨字的閉合系數(shù)。從圖5 中可看到:(1)沒有出現(xiàn)有較高C值的已識甲骨字,(2)沒有出現(xiàn)具有較高|Ci|值的未識甲骨字。因此,已識和未識甲骨字都不具有很強的閉合性,可以利用已有的拓片數(shù)據(jù)信息預測未識甲骨字的語義。
圖5 篩選連接性甲骨字后的已識和未識甲骨字的閉合系數(shù)Fig.5 The closed coefficient of known and unknown oracle characters by selecting linked oracle characters
通過對未識甲骨字的特征分析可知,如果一個未識甲骨字的介數(shù)中心性、強度和度以及閉合系數(shù)有較大的值,那么此字的場景語義最有可能被破譯。依據(jù)此結論,對未識甲骨字(標記為P,此字的介數(shù)中心性、強度和度以及閉合系數(shù)值較大)(異形體為,,)的場景語義進行預測。為了充分利用甲骨拓片的上下文信息,首先,對未識甲骨字P 的前置甲骨字B 出現(xiàn)的次數(shù)FB(式(8))、間隔前置甲骨字Bi出現(xiàn)的次數(shù)FBi(式(9))、后置甲骨字A 出現(xiàn)的次數(shù)FA(式(10))、間隔后置甲骨字Ai出現(xiàn)的次數(shù)FAi(式(11))進行計算。
式(8)~(11)中,TN表示所有甲骨拓片的個數(shù),當wPB和wPA值為10 時(可由式(1)和(2)推理),γB和γA取為1,否則取為0。當wPBi和wPAi值為時(可由式(1)和(2)推理),γBi和γAi取為1,否則取為0。
然后,對FB、FBi、FA、FAi進行排序;第3,在篩選B、Bi、A、Ai為已識甲骨字的情況下,計算FB、FBi、FA、FAi的值。通過計 算發(fā)現(xiàn),當FB為1 889(最大值)時,甲骨字B 為(簡體字為受),說明甲骨字P與B 經(jīng)常聯(lián)合出現(xiàn)。根據(jù)甲骨文語法知識[28],甲骨字B 后應與名詞聯(lián)合使用。因此,推測未識甲骨字P 的詞性應為名詞。進一步對FA進行分析,當FA為最大(1 676)時,甲骨字A 為(簡體字為于)。同樣,根據(jù)甲骨文語法知識知,的前面經(jīng)常與名詞連用,因此,推測未識甲骨字P 詞性為名詞。
為了預測未識甲骨字P 的場景語義,對FB值的前置甲骨字B 做進一步分析,當FB=531 時,前置甲骨字B 為(簡體字為牢)。字在甲骨文系統(tǒng)中用來表示圈起來飼養(yǎng)家禽[29]。那么,字是否與家禽以及一些動物有關?接下來,通過擴大P 字的搜索范圍,即計算P 的后置甲骨字FA和間隔后置甲骨字FAi。當FA=FAi=455 時,P 字后置甲骨字為一(簡體字為一)、間隔后置甲骨字為(簡體字為牛);不僅如此,P 字也經(jīng)常(FA=241)和甲骨字二(簡體字為二)共同出現(xiàn)。P 字和一定數(shù)量的家禽共同使用(或出現(xiàn)),由此推斷P()字為參與“祭祀”場景的描述。為了驗證推斷的正確性,進一步對未識甲骨字P 的間隔后置甲骨字進行分析,當FAi=336時,P 字和甲骨字(簡體字為祖)共同出現(xiàn)。通過分析,預測未識甲骨字P 用于“祭祀祖先”場景語義的描述。不僅如此,未識甲骨字P 和后置甲骨字(簡體字為疾)聯(lián)合使用(FA=226)。以上情況說明,未識甲骨字主要用于描述“祭祀祖先”的場景,并在祭祀的同時祈禱先人保佑后人健康。
甲骨文是地下出土中我國最早的成文古典文獻遺產(chǎn),是漢字漢語的鼻祖,承載著真正的中華基因。對未識甲骨字的考釋是甲骨學研究的最主要內(nèi)容,可以廣泛推動甲骨學的發(fā)展。然而,現(xiàn)有計算機技術輔助的研究方法無法進一步破譯未識甲骨字的語義。為了破譯未識甲骨字的語義,本文以甲骨拓片為基礎數(shù)據(jù),首先,通過抽象甲骨文字在拓片中的上下文語境構建甲骨字網(wǎng)絡;然后,在甲骨字網(wǎng)絡之上,分析未識甲骨字的重要性、信息豐富度、閉合性等特性,為預測未識甲骨字的場景語義提供理論依據(jù);最后,根據(jù)網(wǎng)絡特性和甲骨拓片的上下文語境預測未識甲骨字的場景語義。本文的研究可為用計算機技術破譯未識甲骨字的語義提供研究思路。但尚有很多問題需要改進:第1,構建的甲骨字網(wǎng)絡不完備?,F(xiàn)有的甲骨拓片約有15 萬片,而文中僅使用了約7.1 萬片。甲骨拓片的不足會嚴重影響甲骨字網(wǎng)絡的完備性,而甲骨字網(wǎng)絡的不完備會降低語義預測的正確率;第2,使用文中方法預測的未識甲骨字語義是模糊的,還不能精準預測其語義,即找到與現(xiàn)代漢字的映射關系;第3,提出的未識甲骨字預測方法是半自動化的計算機輔助方法。甲骨字與甲骨字之間的語義推理需要甲骨學家、古文字學家的參與,無法智能地完成場景語義的預測。這種半自動化的計算機輔助預測模型并不理想。
為了克服文中方法的缺點,今后的研究將從以下兩個方面對計算機輔助的甲骨字語義預測做改進。首先,收集文中未使用的甲骨拓片(約8 萬片),建立完備的甲骨字網(wǎng)絡,提高語義預測的正確率。其次,利用機器學習、人工智能等最新算法,設計更加智能的未識甲骨字語義預測模型,如神經(jīng)網(wǎng)絡及其衍生方法:卷積神經(jīng)網(wǎng)絡(conventional neural network, CNN)[30]、遞歸神經(jīng)網(wǎng)絡(recurrent neural network, RNN)[31-32]、圖 卷 積 神 經(jīng) 網(wǎng) 絡(graph conventional neural network,GCNN)[33]等。其 中遞歸神經(jīng)網(wǎng)絡及其衍生的長短期記憶網(wǎng)絡(long short term memory network, LSTM)[34-35]由于其良好的記憶功能已被廣泛應用于自然語言處理,特別是語言模型中的上下文殘缺詞的推理;而圖卷積神經(jīng)網(wǎng)絡在處理圖(graph)(或稱為網(wǎng)絡)數(shù)據(jù)方面具有高效性能,使其成為神經(jīng)網(wǎng)絡研究領域最活躍的分支[36]。在今后的研究中,筆者將使用圖卷積神經(jīng)網(wǎng)絡處理甲骨字網(wǎng)絡(或稱甲骨字圖),并結合長短期記憶網(wǎng)絡標注未識甲骨字的語義,進而減少預測模型的人工干預,推動計算機技術輔助的未識甲骨字語義預測的進展。