• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向拓片信息的甲骨字網(wǎng)絡(luò)構(gòu)建與分析

      2018-08-17 08:38:50焦清局金園園劉永革
      中文信息學(xué)報 2018年7期
      關(guān)鍵詞:拓片甲骨甲骨文

      焦清局,高 峰,金園園,熊 晶,劉永革

      (1. 安陽師范學(xué)院 計算機(jī)與信息工程學(xué)院,河南 安陽 455000;2. 河南省甲骨文信息處理重點(diǎn)實(shí)驗(yàn)室,河南 安陽 455000;3. 漢語海外傳播河南省協(xié)同創(chuàng)新中心,河南 安陽 455000)

      0 引言

      甲骨文是一種距今有3 500多年歷史的古漢字,其所記載的內(nèi)容極其豐富,涉及商代社會生活的諸多方面,不僅包括政治、軍事、文化、社會習(xí)俗等內(nèi)容,而且涉及天文、歷法等科學(xué)技術(shù)[1]。對甲骨文進(jìn)行深入的研究與探討,可以對語言文字學(xué)、考古學(xué)、歷史學(xué)、社會人類學(xué)等學(xué)科產(chǎn)生深刻的影響,具有重要的文化價值和傳承意義。目前國內(nèi)外共收藏的甲骨片約有15萬片[2](數(shù)字會隨時間的變化而變化,如新出土甲骨片及甲骨片的綴合),被發(fā)現(xiàn)的甲骨文單字約有4 378個[3](2010年前所見殷墟甲骨字),但其中可釋者僅為1 682個[3]。因此,考釋字是甲骨文研究的主要任務(wù)。一百多年來,經(jīng)過幾代學(xué)者的努力,在甲骨文字的考釋方面取得了豐碩的成果[4]。如郭沫若是第一個運(yùn)用歷史唯物主義研究古文字的人,善于將文字考釋與史料分析相結(jié)合,進(jìn)而研究中國古代社會。他在甲骨文字考釋方面取得了令人矚目的成績。歷史學(xué)家唐蘭,他不但考釋出很多難以辨識的甲骨文字,還建立了各種較為完整和系統(tǒng)的研究方法,如對照法、推勘法、偏旁分析法等。其他如董作賓、徐中舒也在甲骨文考釋方面取得了豐碩的成果。然而,純?nèi)斯さ匮芯考坠俏囊泊嬖谠S多缺陷:①專家們對甲骨文的辨識和翻譯只能依賴于長期的學(xué)術(shù)鉆研和經(jīng)驗(yàn)累積,而且培養(yǎng)一名甲骨文專家是無法速成的,往往需要一二十年甚至更長的時間[1]; ②甲骨文字之間不是孤立存在的,它們之間相互聯(lián)系和作用,從而形成一個成熟的文字系統(tǒng)。然而,歷史學(xué)家研究甲骨文的考釋時,只是孤立的研究,并不能從系統(tǒng)的角度揭示甲骨文字的場景和語義。

      隨著對甲骨文的深入研究和其材料的數(shù)字化,甲骨文的數(shù)據(jù)已體現(xiàn)出海量化和系統(tǒng)化[5],這為使用計算機(jī)技術(shù)研究甲骨文提供了數(shù)據(jù)上的保障。甲骨文的研究也漸漸進(jìn)入了以計算機(jī)研究和人工研究相輔相成的時代。為了解決甲骨文資料庫的缺陷,2007年,劉永革開發(fā)了甲骨文字的編輯軟件[6]。甲骨文字編輯軟件對甲骨文字的可視化研究開創(chuàng)了一種資料編輯的新方法,也為國內(nèi)外的甲骨文學(xué)者們之間的相互交流提供了一個新的平臺。2008年,顧紹通等人對計算機(jī)中如何輸入甲骨文字也做出重要研究[7]: 首先對甲骨文字形進(jìn)行深入研究之后發(fā)現(xiàn),甲骨文的字形具有一定的規(guī)律。通過對《殷墟甲骨刻辭類纂》中收錄的甲骨文字形的拓?fù)浣Y(jié)構(gòu)進(jìn)行深入分析之后,整理出了569個甲骨文字的偏旁部首。再把這569個偏旁部首分別配置到標(biāo)準(zhǔn)鍵盤的26個英文字母上之后,通過拆分取碼和現(xiàn)代漢字的拼音方法,使用標(biāo)準(zhǔn)鍵盤即可輸入3 673個甲骨文字(包含異體字合文)。甲骨文字輸入法的問世對甲骨文字的數(shù)字化 、展示 、有效保護(hù)和方便使用,具有非常重要的現(xiàn)實(shí)意義。2013年,酆格斐等人通過對原始拓片的預(yù)處理,并結(jié)合數(shù)學(xué)形態(tài)學(xué)方法提出12項(xiàng)指標(biāo)描述甲骨字特征,這些特征較好地反映了甲骨文字的筆畫形態(tài)和結(jié)構(gòu)[8]。2014年,安陽師范學(xué)院的高峰對諸多甲骨文語義進(jìn)行研究后,構(gòu)建了一個甲骨文領(lǐng)域的語義詞典系統(tǒng)[9]。作者通過不斷地對國內(nèi)外甲骨文語義詞典的對比研究后,從其特點(diǎn)出發(fā),對甲骨文語料中的原材料進(jìn)行了精細(xì)的加工處理,并在甲骨文語義分類的基礎(chǔ)上對實(shí)詞做出了很多屬性描述,并建立了計算機(jī)的半自動化輔助加工模塊,用來服務(wù)于甲骨文輔助機(jī)器的翻譯和考釋工作。2014年,熊晶以許多甲骨文學(xué)家建立的甲骨文字庫為基礎(chǔ),提出一種計算機(jī)輔助翻譯甲骨文的方法[10]。2016年,中山大學(xué)、北京微軟研究院以及瑞士日內(nèi)瓦大學(xué)的研究人員通過圖像處理的方式識別甲骨字[11]。2016年,德國馬克斯普朗克研究所和上海大學(xué)的研究人員構(gòu)建了有關(guān)動物甲骨字的認(rèn)知網(wǎng)絡(luò)[12]。雖然一些計算機(jī)學(xué)家在研究甲骨文方面取得了顯著的成績,但是還存在一些問題需要繼續(xù)深入研究。如現(xiàn)有的算法在研究甲骨文字時,并沒有從系統(tǒng)的角度研究,導(dǎo)致使用計算機(jī)方法預(yù)測未知甲骨文字的語義距離還很遠(yuǎn)。不僅如此,現(xiàn)有的計算機(jī)方法研究甲骨文時,并沒有考慮甲骨字之間的聯(lián)系對場景和語義的影響。

      復(fù)雜網(wǎng)絡(luò)是描述復(fù)雜系統(tǒng)的一種有效工具,語言系統(tǒng)的網(wǎng)絡(luò)化抽象為研究語言提供了新的視角和手段[13]。目前,人們已經(jīng)構(gòu)建了漢語的同現(xiàn)網(wǎng)絡(luò)[14]、句法網(wǎng)絡(luò)[15]、語義場網(wǎng)絡(luò)[16]等。語言網(wǎng)絡(luò)的構(gòu)建及其特征的分析對研究語言系統(tǒng)背后的形成機(jī)制和演化規(guī)律具有重要的意義[13]。在本文中,我們使用甲骨拓片信息構(gòu)建甲骨文字網(wǎng)絡(luò),并對網(wǎng)絡(luò)的特性進(jìn)行詳細(xì)分析。本文的研究結(jié)果能為歷史學(xué)家和網(wǎng)絡(luò)甲骨學(xué)家揭示未知甲骨字的語義提供新的數(shù)據(jù)和研究思路。

      1 甲骨字網(wǎng)絡(luò)構(gòu)建

      本文以收集的72 151片甲骨文拓片為研究對象,進(jìn)而通過建模構(gòu)建甲骨字網(wǎng)絡(luò)。由于甲骨拓片歷史久遠(yuǎn),拓片的損壞比較嚴(yán)重。因此,在構(gòu)建網(wǎng)絡(luò)之前,對其進(jìn)行相應(yīng)的處理。第一,如果在一個拓片中,字和字之間有殘缺的情況,用省略號代替;第二,除去沒有甲骨字的拓片;最后共得到71 455片甲骨文拓片、6 199個已識和未識甲骨字。

      由于甲骨文系統(tǒng)是中國最早的文字系統(tǒng),語言特性還處于萌芽的狀態(tài)。因此,它和現(xiàn)有的成熟文字系統(tǒng)有很大的區(qū)別: 第一,在甲骨文系統(tǒng)中,同一拓片的甲骨字描述了同一個場景(或稱語義單元),如,戰(zhàn)爭、天象、婚娶等,但也有可能不同拓片中的甲骨字描述不同時段的場景。第二,在甲骨文系統(tǒng)中,單音節(jié)詞較多,而復(fù)音節(jié)詞較少。這也是古文字系統(tǒng)特有的屬性。

      為了構(gòu)建甲骨字網(wǎng)絡(luò),需要定義甲骨字和甲骨字之間的相似性距離。由于甲骨文系統(tǒng)的同一場景或語義單元是以拓片為單位,所以,如果在一個拓片中,兩個甲骨字之間在n階Markov鏈的條件下同時存在,則認(rèn)為這兩個甲骨字之間應(yīng)存在一條邊。與劉知遠(yuǎn)構(gòu)建漢語網(wǎng)絡(luò)不同[14],本文中,在兩個甲骨字之間定義了相應(yīng)的權(quán)重。對于同一拓片上的兩個甲骨字(這兩個甲骨字可以是已識或未識),它們分別用i和j表示,那么這兩個字之間的距離為wij(見公式1)。不僅如此,在n階Markov鏈中n在現(xiàn)代漢語中經(jīng)常取值為2[14],因?yàn)楝F(xiàn)在的文字系統(tǒng)有大量的詞語。而在甲骨文系統(tǒng),很少有詞組的出現(xiàn)。因此,在構(gòu)建網(wǎng)絡(luò)時,對于不同拓片,n值選擇為拓片上甲骨字的個數(shù)。

      圖1 甲骨字之間距離計算圖

      本文使用的構(gòu)建甲骨字網(wǎng)絡(luò)方法具有三個創(chuàng)新點(diǎn): 一是在構(gòu)建網(wǎng)絡(luò)的過程中,充分利用了拓片在甲骨文系統(tǒng)中作為語義單元的信息,即拓片中的甲骨字不論是已識或未識,根據(jù)式(1)~(2)都可以構(gòu)建它們之間的距離。因此,未識和已識的甲骨字出現(xiàn)在同一個網(wǎng)絡(luò)中,這種現(xiàn)象為我們依據(jù)已識的語義信息破譯未識甲骨字提供可能;二是構(gòu)建網(wǎng)絡(luò)的方法體現(xiàn)了甲骨文系統(tǒng)中復(fù)音節(jié)詞較少的古文字特征;三是在構(gòu)建網(wǎng)絡(luò)的過程中賦予甲骨字之間相應(yīng)的權(quán)重,利于分析甲骨字之間的同現(xiàn)信息。

      2 甲骨字網(wǎng)絡(luò)特性分析

      為了驗(yàn)證甲骨字網(wǎng)絡(luò)是否具有真實(shí)網(wǎng)絡(luò)的特性,本文對構(gòu)建網(wǎng)絡(luò)的度分布、局部連接比率、聚類系數(shù)、模塊度等特性進(jìn)行分析。

      2.1 度分布

      圖2 甲骨字網(wǎng)絡(luò)的度分布

      一個節(jié)點(diǎn)的度是此節(jié)點(diǎn)的鄰接節(jié)點(diǎn)的個數(shù)或者是節(jié)點(diǎn)連接邊的個數(shù)。如果我們把節(jié)點(diǎn)度為k的數(shù)目占網(wǎng)絡(luò)節(jié)點(diǎn)總數(shù)目的比例記為pk,那么網(wǎng)絡(luò)中不同度的統(tǒng)計分布即為度分布[17]。為了方便推斷一個甲骨字在71 455片拓片中同時出現(xiàn)的信息,即一個甲骨字和其鄰接甲骨字共同描述同一個場景或語義單元信息,我們把構(gòu)建的權(quán)重網(wǎng)絡(luò)簡化為無權(quán)重的網(wǎng)絡(luò),然后計算度分布。在本文構(gòu)建的網(wǎng)絡(luò)中,甲骨字的度表現(xiàn)為甲骨字之間的權(quán)重值(或連接邊的個數(shù)),而甲骨字之間權(quán)重分布表現(xiàn)為網(wǎng)絡(luò)的度分布。圖2給出了未識和已識甲骨字網(wǎng)絡(luò)的度分布圖,從圖中我們可以看到甲骨字網(wǎng)絡(luò)的度分布符合無標(biāo)度分布[18](scale-free distribution),無標(biāo)度分布意味著網(wǎng)絡(luò)中大部分節(jié)點(diǎn)度的取值較小,但是會有少數(shù)節(jié)點(diǎn)度的取值非常大。在甲骨字網(wǎng)絡(luò)中的度分布說明: 一方面大部分甲骨字的度值比較小,比如,度值小于10的甲骨字(即此甲骨字有10個相鄰甲骨字)占總甲骨字的比例為76.6%,而度值小于17、50的甲骨字占總甲骨字的比例分別為82.1%、91.1%。在甲骨文字系統(tǒng)中,較小的度值代表描述同一個場景或語義單元所需的甲骨字也較少。另一方面,有少數(shù)的甲骨字有很大的度值,如甲骨字“卜”和“貞”字之間的權(quán)重高達(dá)203 756,如果假設(shè)這兩個甲骨字直接相連,那么“卜”和“貞”在71 455個拓片中至少出現(xiàn)20 375次。不僅如此,“卜”和其他甲骨字的度值也較大。通過相關(guān)的文獻(xiàn)我們得知[1]: 在甲骨字系統(tǒng)中,單音節(jié)名詞占大多數(shù);而動詞占少數(shù),并且在動詞中,祭祀動詞占多數(shù)?!安贰弊质浅S玫膭釉~,經(jīng)常和其他名詞相連使用,因此,“卜”字具有較大的度值。以上分析也說明我們構(gòu)建的甲骨字網(wǎng)絡(luò)能充分反映甲骨文系統(tǒng)的語言信息。

      2.2 局部連接比率

      局部連接比率(local-links-rate,LLR)是一種衡量網(wǎng)絡(luò)局部特性的指標(biāo)[19],如式(3)所示。由于網(wǎng)絡(luò)中的邊信息比節(jié)點(diǎn)信息更能反映網(wǎng)絡(luò)的各種特性。因此,LLR的定義是基于網(wǎng)絡(luò)的連接信息,而不是節(jié)點(diǎn)信息。對網(wǎng)絡(luò)中任意一條邊e,被它連接的兩個節(jié)點(diǎn)為n1和n2。首先計算這兩個節(jié)點(diǎn)的共同鄰接節(jié)點(diǎn)(common node,CN),然后統(tǒng)計共同鄰接節(jié)點(diǎn)之間存在的邊數(shù)(local-links)。最后,計算局部連接比率LLR。圖3給出了計算LLR的實(shí)例圖。對于圖3中的一條實(shí)線邊,連接它的兩個節(jié)點(diǎn)(中空結(jié)點(diǎn))共享四個節(jié)點(diǎn)(實(shí)心節(jié)點(diǎn)),這四個節(jié)點(diǎn)之間存在三條邊(點(diǎn)形邊)。因此,實(shí)線邊的LLR值為3/4。如果一個網(wǎng)絡(luò)的平均LLR大于2,那么這個網(wǎng)絡(luò)有較強(qiáng)的局部特性[19]。通過計算,甲骨字網(wǎng)絡(luò)的LLR值高達(dá)26.678 7,說明甲骨字網(wǎng)絡(luò)具有很強(qiáng)的局部特性,即描述同一個場景(或語義單元)的甲骨字在甲骨字網(wǎng)絡(luò)中相互之間連接的邊較為稠密。

      LLR=local-links/CN

      (3)

      圖3 局部連接比率計算示意圖[19]

      2.3 聚類系數(shù)

      一個網(wǎng)絡(luò)的聚類系數(shù)是網(wǎng)絡(luò)中所有節(jié)點(diǎn)聚類系數(shù)的平均值。通過計算,甲骨字網(wǎng)絡(luò)的聚類系數(shù)為0.594 4。較高的聚類系數(shù)意味著節(jié)點(diǎn)的鄰接節(jié)點(diǎn)之間存在更高程度的交互關(guān)系,即這個節(jié)點(diǎn)和其鄰接節(jié)點(diǎn)更穩(wěn)固地聚集成模塊結(jié)構(gòu)[22]。在甲骨字網(wǎng)絡(luò)中,較高的聚類系數(shù)意味著一個甲骨字和其鄰接的甲骨字參與描述同一場景或語義單元的概率較高。

      (4)

      Ui表示節(jié)點(diǎn)i的鄰接節(jié)點(diǎn)數(shù),ei表示Ui個鄰接節(jié)點(diǎn)之間存在的邊數(shù)。

      圖4 聚類系數(shù)計算示意圖

      2.4 模塊度

      模塊(module,或稱社團(tuán))結(jié)構(gòu)是復(fù)雜網(wǎng)絡(luò)的一個基本特性,也是復(fù)雜網(wǎng)絡(luò)研究的重點(diǎn)內(nèi)容。模塊是網(wǎng)絡(luò)的一個子集,它要求模塊中節(jié)點(diǎn)之間的邊連接緊密,而不同模塊之間節(jié)點(diǎn)的邊連接稀疏。圖5是一個含有12個節(jié)點(diǎn)和三個模塊的網(wǎng)絡(luò)示意圖[23]。模塊內(nèi)的節(jié)點(diǎn)具有相似的屬性,依據(jù)這一特點(diǎn),模塊結(jié)構(gòu)已在很多領(lǐng)域取得了成功的應(yīng)用。如在蛋白質(zhì)相互作用網(wǎng)絡(luò)中,功能相似的蛋白質(zhì)在網(wǎng)絡(luò)中往往以模塊的形式存在。因此,通過挖掘模塊結(jié)構(gòu)可以預(yù)測未知蛋白質(zhì)的功能;在人類社會中,人以類聚是模塊結(jié)構(gòu)在社會網(wǎng)絡(luò)中的真實(shí)反映。社會學(xué)家可以利用模塊結(jié)構(gòu)研究人們的心理行為、興趣愛好等。通過構(gòu)建包含已知和未知語義的甲骨字網(wǎng)絡(luò),在此基礎(chǔ)上分析此網(wǎng)絡(luò)是否具有模塊度特性,進(jìn)而利用模塊內(nèi)結(jié)點(diǎn)的屬性,可以預(yù)測同一模塊內(nèi)未知甲骨字的語義信息。如在圖5中下方的一個含有五個節(jié)點(diǎn)的模塊中,假如我們已知其中四個甲骨字描述了某種場景信息(如婚娶),那么根據(jù)模塊結(jié)構(gòu)中節(jié)點(diǎn)具有相同屬性的特性,可以推測剩余一個未知語義的甲骨字也用來描述婚娶信息。

      圖5 網(wǎng)絡(luò)模塊結(jié)構(gòu)示意圖[23]

      模塊度(modularity)[24]不僅是一種用來挖掘網(wǎng)絡(luò)中模塊結(jié)構(gòu)的方法,而且是一種用來衡量網(wǎng)絡(luò)是否具有模塊結(jié)構(gòu)的標(biāo)準(zhǔn)。雖然基于模塊度的方法具有“分辨率限制”(Resolution limit)的問題[25],但它仍然被廣泛用于判斷一個網(wǎng)絡(luò)是否具有模塊結(jié)構(gòu)的評價標(biāo)準(zhǔn)。對于有權(quán)重的網(wǎng)絡(luò),模塊度(Q)的定義如式(5)所示。

      (5)

      其中,nc是網(wǎng)絡(luò)劃分的模塊個數(shù),W是網(wǎng)絡(luò)中所有邊的權(quán)值之和,Wv是模塊v內(nèi)部所包含的邊的權(quán)重和,Sv是所有與模塊v內(nèi)部的點(diǎn)相關(guān)聯(lián)的邊的權(quán)重和。利用模塊度方法對甲骨字網(wǎng)絡(luò)進(jìn)行分析,得到的模塊度的值為0.292 1。根據(jù)文獻(xiàn)[26]我們得知,如果一個網(wǎng)絡(luò)的模塊度大于等于0.3,說明這個網(wǎng)絡(luò)具有很強(qiáng)的模塊特性。另外,從局部連接比率和聚類系數(shù)可以說明我們構(gòu)建的甲骨字網(wǎng)絡(luò)具有較強(qiáng)的局部特性。綜上所述,甲骨字網(wǎng)絡(luò)具有良好的模塊結(jié)構(gòu)屬性,這種屬性為我們通過識別模塊結(jié)構(gòu)進(jìn)而破譯未知甲骨字的語義提供了直接數(shù)據(jù)和理論上的依據(jù)。

      3 討論

      作為一個新的研究方向,語言網(wǎng)絡(luò)正在悄然興起,并取得了一些有意義的結(jié)果[27]。本文第一次使用大規(guī)模的拓片信息創(chuàng)新性地構(gòu)建了甲骨字網(wǎng)絡(luò),其主要表現(xiàn)在以下三個方面: 一是構(gòu)建的網(wǎng)絡(luò)充分捕捉了甲骨文系統(tǒng)的語義單元信息;二是構(gòu)建網(wǎng)絡(luò)的方法保留了甲骨文系統(tǒng)單音節(jié)詞多、復(fù)音節(jié)詞少的特性;三是構(gòu)建的網(wǎng)絡(luò)中邊權(quán)重反映了甲骨字之間的同現(xiàn)關(guān)系。

      在甲骨字網(wǎng)絡(luò)之上,深入研究了網(wǎng)絡(luò)的度分布、局部連接比率、聚類系數(shù)和模塊結(jié)構(gòu)特性。本文構(gòu)建的甲骨字網(wǎng)絡(luò)可為網(wǎng)絡(luò)甲骨學(xué)家和歷史學(xué)家預(yù)測未知甲骨字的場景和語義提供數(shù)據(jù)支持和直接的研究理論思路。但是,本文還存在一些不足之處需要我們進(jìn)一步研究: 第一,式(2)中參數(shù)length選取具有不合理性: length表示的是同一拓片上兩個甲骨字之間殘缺字的個數(shù),因此,length的值不能設(shè)置過大。如何利用甲骨文字系統(tǒng)的意義選取length的值是我們需要進(jìn)一步研究的問題。第二,由于破譯未知甲骨字的語義是甲骨學(xué)研究的重要內(nèi)容,因此另外一個不足之處是本文既沒有利用構(gòu)建的網(wǎng)絡(luò)破譯已識甲骨字的一些偏旁部首的可能含義,也沒有依據(jù)已識甲骨字推斷未識甲骨字或其偏旁部首的可能含義。如何設(shè)計高效算法推斷未識甲骨字或其偏旁部首的可能含義是我們下一步重點(diǎn)研究的內(nèi)容。

      猜你喜歡
      拓片甲骨甲骨文
      唐 豳州昭仁寺碑拓片
      中國書法(2023年12期)2023-02-02 16:45:53
      唐 等慈寺碑拓片
      中國書法(2023年12期)2023-02-02 15:51:36
      《韋洽墓志》拓片
      字溯甲骨?文承龍韻
      北宋《曲行殷墓志》拓片
      說甲骨新綴所見的“南孟”與“奠子方”
      甲骨釋字四則
      甲骨文“禍”字新證
      三千年甲骨文
      遵義(2017年24期)2017-12-22 06:10:48
      最“萌”甲骨文——心
      沾益县| 蓬溪县| 抚松县| 龙泉市| 外汇| 淮安市| 墨竹工卡县| 精河县| 城市| 南城县| 历史| 邵武市| 西平县| 镇雄县| 凤山市| 安徽省| 新龙县| 和田市| 股票| 南川市| 揭东县| 郴州市| 大邑县| 丘北县| 会泽县| 郑州市| 丹阳市| 保康县| 嫩江县| 富裕县| 黄骅市| 香港| 莱州市| 天台县| 察雅县| 双牌县| 铜山县| 阿图什市| 句容市| 博乐市| 凤城市|