• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向典籍內(nèi)容分析的分類體系構(gòu)建方法研究

      2021-10-17 13:21:00艾毓茜
      關(guān)鍵詞:典籍古籍語(yǔ)義

      艾毓茜,徐 健,何 琳,戚 筠

      (南京農(nóng)業(yè)大學(xué)信息管理學(xué)院,南京 210095)

      1 引言

      典籍作為記錄中華文明史的重要載體,承載著浩繁且豐富的傳統(tǒng)文化知識(shí),對(duì)于史學(xué)與古文化知識(shí)的研究具有重要意義。傳統(tǒng)的典籍資源研究集中于古籍資源的保存、整合和利用等方面,通過(guò)開(kāi)發(fā)古籍?dāng)?shù)據(jù)庫(kù)系統(tǒng),實(shí)現(xiàn)線上更新收錄資源以便利用,如《漢語(yǔ)古籍電子文獻(xiàn)知見(jiàn)錄》[1]、奎章閣網(wǎng)站[2]等。但這類傳統(tǒng)的典籍資源利用和開(kāi)發(fā)方法,對(duì)于大規(guī)模古籍?dāng)?shù)據(jù)的深度開(kāi)發(fā)和利用率較低,難以適應(yīng)人文學(xué)科研究發(fā)展[3]。

      數(shù)字人文技術(shù)的蓬勃發(fā)展,為古籍文本深度開(kāi)發(fā)提供了新的技術(shù)與思路,利用文本挖掘等多種中文信息處理技術(shù)可以幫助充分揭示和組織古籍?dāng)?shù)字資源,使其成為立體的學(xué)術(shù)知識(shí)庫(kù),有效提高了古籍資源的開(kāi)發(fā)利用效率[4]。如何借助數(shù)字人文技術(shù)對(duì)古籍資源進(jìn)行深度挖掘與知識(shí)發(fā)現(xiàn),以便成就學(xué)業(yè)、研治古文的人使用,具有重要的學(xué)術(shù)意義與價(jià)值[5]。

      為實(shí)現(xiàn)基于典籍內(nèi)容細(xì)粒度知識(shí)單元的管理、共享和重用的目的,需構(gòu)建一個(gè)面向數(shù)字人文領(lǐng)域、以典籍內(nèi)容分析為基礎(chǔ)的系統(tǒng)、全面的分類體系,以實(shí)現(xiàn)更準(zhǔn)確有效的信息檢索。已有的分類體系研究大多面向典籍的外部形式,多以典籍的載體形式[6]、記敘手法[7]和語(yǔ)言結(jié)構(gòu)[8]為依據(jù)進(jìn)行分類,這類知識(shí)組織方法不能有效揭示典籍內(nèi)在知識(shí)信息和語(yǔ)義關(guān)系,分類較粗糙。隨著數(shù)字人文研究的不斷深入,對(duì)基于文本內(nèi)容的細(xì)粒度分類要求不斷提高。在此背景下,本文意圖構(gòu)建一種較為通用的典籍內(nèi)容分類體系,這一體系綜合了分面分類理念和字詞語(yǔ)義信息,從政治、經(jīng)濟(jì)、文化、社會(huì)和軍事5 個(gè)維度將典籍內(nèi)容進(jìn)行有序的組織與揭示。

      2 相關(guān)研究

      2.1 語(yǔ)義組織研究

      知識(shí)單元是知識(shí)領(lǐng)域中知識(shí)控制與處理的基本單位,是一切知識(shí)管理活動(dòng)的前提和基本對(duì)象[9]。在自然語(yǔ)言處理中,語(yǔ)義組織是對(duì)知識(shí)單元間的語(yǔ)義關(guān)系進(jìn)行描述,并進(jìn)行存儲(chǔ)以便交流和傳遞,其目的是通過(guò)各種數(shù)字人文技術(shù),將非結(jié)構(gòu)化的文本數(shù)據(jù)資源轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),并將數(shù)據(jù)間的語(yǔ)義關(guān)系通過(guò)敘詞表、元數(shù)據(jù)、本體等多種方式進(jìn)行組織,以實(shí)現(xiàn)數(shù)據(jù)的關(guān)聯(lián)化和智能化[10],可以認(rèn)為語(yǔ)義組織關(guān)系著信息服務(wù)和信息共享的質(zhì)量和水平。面向數(shù)字人文領(lǐng)域的語(yǔ)義組織主要包括知識(shí)建模和知識(shí)抽取兩個(gè)方面。

      知識(shí)建模通過(guò)對(duì)知識(shí)單元的結(jié)構(gòu)化、模型化表達(dá),實(shí)現(xiàn)文本數(shù)據(jù)知識(shí)的語(yǔ)義化和共享化。傳統(tǒng)知識(shí)建模以分類敘詞表為主,早期多通過(guò)手工標(biāo)引的方式,進(jìn)行知識(shí)組織,如 《歷代進(jìn)士登科數(shù)據(jù)庫(kù)》[11]。隨著數(shù)字人文技術(shù)的發(fā)展,利用分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、文本挖掘等自然語(yǔ)言處理技術(shù),有效實(shí)現(xiàn)對(duì)大規(guī)模數(shù)據(jù)資源的語(yǔ)義組織,可以快速抽取出典籍?dāng)?shù)據(jù)資源中的人名、地名、官職等信息[12],豐富了實(shí)體間關(guān)系的表示方式及更廣泛的知識(shí)組織,為數(shù)字遠(yuǎn)讀奠定了基礎(chǔ)。

      在數(shù)字人文領(lǐng)域,知識(shí)抽取主要用于識(shí)別大規(guī)模數(shù)據(jù)資源中潛藏的知識(shí)及其之間的語(yǔ)義關(guān)系,目前主要有基于規(guī)則匹配和基于機(jī)器學(xué)習(xí)兩種方法。其中,基于規(guī)則匹配的方法通過(guò)人工對(duì)文本資源進(jìn)行特征分析,以相應(yīng)的領(lǐng)域知識(shí)為基礎(chǔ)構(gòu)建正則表達(dá)式,從而實(shí)現(xiàn)基于規(guī)則的知識(shí)抽取,如CBDB 項(xiàng)目[12]中領(lǐng)域?qū)<乙韵鄳?yīng)領(lǐng)域知識(shí)為背景,針對(duì)墓志銘等設(shè)計(jì)知識(shí)抽取正則表達(dá)式;丁君軍等[13]針對(duì)學(xué)術(shù)文獻(xiàn)中的概念屬性描述,構(gòu)建描述規(guī)則用以抽取學(xué)術(shù)概念屬性。而基于機(jī)器學(xué)習(xí)的方法通過(guò)對(duì)少量語(yǔ)料數(shù)據(jù)進(jìn)行標(biāo)注,訓(xùn)練模型,以實(shí)現(xiàn)對(duì)大量文本的自動(dòng)抽取,如意大利自然語(yǔ)言處理實(shí)驗(yàn)室設(shè)計(jì)的LinguA、READ-IT、T2K 等工具,以實(shí)現(xiàn)文本標(biāo)注、命名實(shí)體識(shí)別、可視化[14]。

      2.2 典籍分類體系研究

      典籍作為文化傳承的重要載體,如何有效組織和利用典籍一直都是人文學(xué)者研究的重點(diǎn)之一。類書作為典籍的薈萃,將某一門類的古籍通過(guò)一定的方法加以組織以便尋檢和征引,從魏晉南北朝的 《皇覽》 到明清時(shí)期的 《永樂(lè)大典》,對(duì)文獻(xiàn)保存和學(xué)術(shù)研究起到了重要作用[15]。

      20 世紀(jì)末,隨著計(jì)算機(jī)技術(shù)的發(fā)展,中文古籍?dāng)?shù)字化逐漸成為國(guó)內(nèi)典籍研究的重點(diǎn)。在典籍?dāng)?shù)字資源組織方面,王依民先生將傳統(tǒng)文獻(xiàn)學(xué)與數(shù)字技術(shù)相結(jié)合,提出 “數(shù)字文獻(xiàn)學(xué)”概念,研究涉及古籍文史資源的保存、整合、加工、傳播和利用等方面[6]。此后,有學(xué)者提出 “古籍電子文獻(xiàn)學(xué)”,從古籍?dāng)?shù)字資源的分類與導(dǎo)航、古籍聯(lián)合目錄和古籍?dāng)?shù)字資源的評(píng)價(jià)研究3個(gè)方面,展開(kāi)對(duì)古籍?dāng)?shù)字資源的目錄學(xué)的研究[7]。為適應(yīng)大規(guī)模典籍?dāng)?shù)據(jù),學(xué)者們根據(jù)古籍?dāng)?shù)據(jù)資源分散、形式多元、數(shù)據(jù)格式多樣等特點(diǎn),建立多種估計(jì)數(shù)據(jù)庫(kù)導(dǎo)航系統(tǒng),如 《漢語(yǔ)古籍電子文獻(xiàn)知見(jiàn)錄》[1]、奎章閣網(wǎng)站[2]等,在實(shí)現(xiàn)線上更新收錄資源的同時(shí),提高與用戶的交互性。

      隨著典籍分類體系的深入研究,單一的使用 《中圖法》 或 《四庫(kù)法》 進(jìn)行典籍分類組織,無(wú)法將典籍的表象主題與深層主題進(jìn)行有效結(jié)合,研究者開(kāi)始將分面分類法引入典籍分類研究中。羅艷秋等[16]在綜合分析民族醫(yī)藥典籍內(nèi)容特征的基礎(chǔ)上,結(jié)合 《中國(guó)中醫(yī)古籍總目》,對(duì)民族醫(yī)藥古籍進(jìn)行分類組織,共劃分11 個(gè)大類,并進(jìn)一步細(xì)分三到四級(jí)小類以便使用。李娜等[17]以 《方志物產(chǎn)》 山西卷為研究對(duì)象,從物產(chǎn)、土產(chǎn)、食貨、方產(chǎn)等方面對(duì) 《方志物產(chǎn)》 中的物產(chǎn)西信息進(jìn)行分類組織,實(shí)現(xiàn)了物產(chǎn)類目信息的智能完善。而針對(duì)古籍?dāng)?shù)據(jù)庫(kù),張力元等[6]提出利用分面分類法,構(gòu)建古籍?dāng)?shù)據(jù)庫(kù)分面分類體系,包括主題、類型、建置主體、格式、權(quán)限和地區(qū)等6 個(gè)維度,在粗粒度層面對(duì)現(xiàn)有古籍?dāng)?shù)據(jù)庫(kù)資源進(jìn)行了組織。

      2.3 典籍?dāng)?shù)字資源內(nèi)容分析研究

      早期的典籍研究多以典籍詞匯研究為主。古籍詞匯研究始于漢代,學(xué)者在古籍的注疏中解釋古代語(yǔ)詞,如《爾雅》 《說(shuō)文解字》 等,為后人研究奠定了基礎(chǔ)[18]。目前多集中于詞匯系統(tǒng)的發(fā)展、新詞的產(chǎn)生與變化、詞義演變以及構(gòu)詞法的發(fā)展等領(lǐng)域。社會(huì)制度、環(huán)境的演變使得詞匯數(shù)量增多,典籍文本中詞匯的變化反映著社會(huì)情況的變化,通過(guò)分析詞匯發(fā)展脈絡(luò)借以分析社會(huì)發(fā)展的情況[19,20]。

      以詞匯研究為基礎(chǔ),國(guó)內(nèi)外學(xué)者面向典籍的文本內(nèi)容展開(kāi)了事件抽取、主題挖掘及相關(guān)知識(shí)組織研究。RYAN 等[21]對(duì)中國(guó)古代和中世紀(jì)的500 多萬(wàn)字的語(yǔ)料庫(kù)進(jìn)行主題建模,從相交主題和不相交主題兩個(gè)角度,對(duì)《論語(yǔ)》《孟子》和《荀子》的競(jìng)相關(guān)系進(jìn)行了解釋。彭煒明等[22]在實(shí)例挖掘的基礎(chǔ)上,提出采用模式驅(qū)動(dòng)的方式,構(gòu)建 《資治通鑒》 歷史領(lǐng)域本體,以實(shí)現(xiàn)對(duì)《資治通鑒》 先秦史部分的深度開(kāi)發(fā)。何琳等[4]利用詞匹配算法抽取特征詞語(yǔ)料,然后使用LDA 主題模型對(duì)語(yǔ)料進(jìn)行處理,并結(jié)合相關(guān)時(shí)間信息進(jìn)行主題強(qiáng)度計(jì)算,從盟會(huì)、禮儀、戰(zhàn)爭(zhēng)、權(quán)力斗爭(zhēng)和周禮治國(guó)等主題入手,對(duì)春秋時(shí)期社會(huì)發(fā)展態(tài)勢(shì)進(jìn)行了分析。

      綜上所述,本文借鑒分面分類思想,以語(yǔ)義組織中知識(shí)建模和知識(shí)抽取的方法和技術(shù)為支撐,提取典籍?dāng)?shù)據(jù)中的概念及其關(guān)系,從細(xì)粒度知識(shí)單元語(yǔ)義信息的層面對(duì)典籍內(nèi)容進(jìn)行組織和揭示。面向典籍內(nèi)容分析的分類體系的構(gòu)建可以突破典籍?dāng)?shù)量、體裁和種類的限制,有效地從典籍中抽取相關(guān)特征,為成就學(xué)業(yè)、研治古文的人刪繁取要,進(jìn)而推動(dòng)對(duì)典籍內(nèi)容的研究。

      3 構(gòu)建方法

      3.1 分面分類法

      典籍?dāng)?shù)字資源與文化傳承及其相關(guān)活動(dòng)密切相關(guān),因此具有一定的領(lǐng)域獨(dú)特性:①文化性,典籍資源產(chǎn)生于中華民族歷史社會(huì)中的某一特定時(shí)期,一定程度上反映了當(dāng)時(shí)環(huán)境下人類的人文、歷史、藝術(shù)等情況,是國(guó)家和民族的文化積淀。②延續(xù)性,典籍資源記錄了中華文明發(fā)展的歷史進(jìn)程,即使其所記錄為數(shù)千年前之事,研究者們?nèi)耘f可以通過(guò)保存的典籍資源去發(fā)現(xiàn)歷史奧秘。③分散性,典籍資源涉及的信息涵蓋社會(huì)、經(jīng)濟(jì)、政治、軍事、文化等多個(gè)領(lǐng)域,且分布廣泛,很難在一部典籍中獲得全部信息。④繁雜性,典籍?dāng)?shù)據(jù)資源的語(yǔ)義和形式都很復(fù)雜,且古漢語(yǔ)與現(xiàn)代漢語(yǔ)表達(dá)結(jié)構(gòu)有很大差別。

      針對(duì)典籍?dāng)?shù)據(jù)資源的以上特性,在構(gòu)建面向典籍內(nèi)容分析的分類體系時(shí),需充分考慮典籍資源中數(shù)據(jù)的語(yǔ)義和形式特征,而分面分類法可以很好地根據(jù)不同的方面和范疇對(duì)數(shù)據(jù)進(jìn)行有效劃分,通過(guò)多個(gè)組合表達(dá)復(fù)雜主題[23],因此本文利用分面分類法,考慮到分類體系的易用性,采用 “分面-類目”結(jié)構(gòu),以實(shí)現(xiàn)對(duì)典籍內(nèi)容多維度的組織與揭示。

      3.2 數(shù)據(jù)來(lái)源

      本研究所構(gòu)建的典籍分類體系研究對(duì)象為典籍內(nèi)容數(shù)據(jù),而典籍的類型、編撰時(shí)間及其社會(huì)背景決定了典籍的內(nèi)容。由于歷史典籍一詞多義現(xiàn)象嚴(yán)重、文本短、缺乏結(jié)構(gòu)性,且在大量的古代用詞,與現(xiàn)代常用詞難以對(duì)應(yīng),因此本文廣泛收集與歷史典籍相關(guān)的主題詞表和詞典,如與 《左傳》 相關(guān)的楊伯峻 《春秋左傳詞典》 等,這些詞典是由專業(yè)人士編制的成熟的詞典,一定程度上保障了信息準(zhǔn)確性和有效性。在選詞過(guò)程中,以詞典中的詞釋義為主要依據(jù),通過(guò)對(duì)詞的釋義進(jìn)行解析,對(duì)詞進(jìn)行分類,并從相關(guān)歷史典籍如 《公羊傳》 《史記》 等中進(jìn)行抽詞,從而保證自然語(yǔ)言環(huán)境下可以用典籍中的詞語(yǔ)進(jìn)行檢索。

      3.3 確定分類框架

      為確定面向典籍內(nèi)容分析的分類體系的具體分面,本研究結(jié)合 《中圖法》 并參考相關(guān)古籍分類與內(nèi)容分析研究文獻(xiàn),以深入知識(shí)單元的詞義為主要分類依據(jù),確定最能有效描述與劃分典籍?dāng)?shù)據(jù)的類別維度為:政治、經(jīng)濟(jì)、文化、社會(huì)、軍事。

      概念體系的建立以一般敘詞表的概念間邏輯關(guān)系為基礎(chǔ),采用分類法編制標(biāo)簽分類索引,來(lái)表示詞間的等級(jí)關(guān)系和屬性關(guān)系。通過(guò)對(duì)詞典中的詞數(shù)據(jù)進(jìn)行初步標(biāo)引,對(duì)每個(gè)大類下各小類進(jìn)行簡(jiǎn)單劃分,采用自下而上和自上而下相結(jié)合的方法,構(gòu)建基于詞典和史籍的分類體系的概念語(yǔ)義網(wǎng)絡(luò)。

      3.4 概念抽取

      K-means 聚類算法自上世紀(jì)50 年代被提出后,廣泛應(yīng)用于不同學(xué)科領(lǐng)域的聚類劃分[24]。K-means 算法通過(guò)反復(fù)迭代,從初始K 個(gè)類別開(kāi)始計(jì)算,分別將數(shù)據(jù)劃分至已知類別,并重新計(jì)算類別中心,最終使得各類別總距離平方和趨于最小值[25]。K-means 算法具有簡(jiǎn)單、高效等優(yōu)勢(shì),且類別個(gè)數(shù)K 值可通過(guò)人工指定,因此本文利用K-means 算法,本研究根據(jù)分類框架設(shè)計(jì)二級(jí)類目,對(duì)楊伯峻的 《春秋左傳詞典》 以詞釋義為文本相似度計(jì)算對(duì)象,并引入 《漢語(yǔ)大詞典》 對(duì)釋義進(jìn)行擴(kuò)展,對(duì)詞頭進(jìn)行分類,以實(shí)現(xiàn)面向典籍內(nèi)容分析的分類體系二級(jí)類目的劃分。其中相似度計(jì)算分為兩部分:①分詞后利用TF-IDF 計(jì)算詞向量間的相似度,相似度超過(guò)閾值(0.3),即認(rèn)為兩個(gè)詞屬于同類詞。②若A 詞的詞頭出現(xiàn)于B 詞的釋義中,認(rèn)為A、B兩詞為同義詞。

      算法中K 值設(shè)置為6,迭代次數(shù)為10 000,即分類結(jié)果共輸出6 類。觀察輸出結(jié)果,為其中5 類賦予最接近的類名:政治、經(jīng)濟(jì)、文化、社會(huì)、軍事,第六類為手工分類的補(bǔ)充數(shù)據(jù)。觀察第一次聚類結(jié)果后,對(duì)賦予類名的5 類詞進(jìn)行簡(jiǎn)單篩選,將不屬于當(dāng)前類的詞剔除至作為手工分類補(bǔ)充數(shù)據(jù),分別對(duì)5 個(gè)類別進(jìn)行二次聚類。對(duì)第二次聚類結(jié)果進(jìn)行簡(jiǎn)單篩選后,參考相關(guān)研究文獻(xiàn),設(shè)計(jì)二級(jí)類目。

      3.5 語(yǔ)義關(guān)系組織

      面向典籍內(nèi)容分析的分類體系主要包括概念和概念間語(yǔ)義關(guān)系兩部分。在本文構(gòu)建的分類體系中,可以通過(guò)詞釋義對(duì)概念范圍進(jìn)行規(guī)范,用于語(yǔ)義關(guān)系的構(gòu)建和組織。

      3.5.1 等同關(guān)系

      在詞典編纂時(shí),編者需要對(duì)詞做必要的解釋以便使用者了解其含義,在此過(guò)程中,多利用已知的同義概念即同義詞對(duì)新概念進(jìn)行綜合性描述。因此在古代社會(huì)畫像標(biāo)簽體系的構(gòu)建中,可以利用詞典中詞定義,獲取同義詞以完善詞間等同關(guān)系。主要通過(guò)以下3 種途徑。

      (1)如果存在兩個(gè)詞A 詞和B 詞,A 詞的詞頭出現(xiàn)于B 詞的釋義中,且B 詞的詞頭出現(xiàn)于A 詞的釋義中,即這兩個(gè)詞可以形成詞頭-詞釋義的映射,那么認(rèn)為A、B 兩詞為同義詞。

      (2)通過(guò)觀察語(yǔ)料,發(fā)現(xiàn)在 《春秋左傳詞典》 中,這種利用同義詞作術(shù)語(yǔ)詮釋時(shí),通常會(huì)運(yùn)用特定的指示詞,如“同”“見(jiàn)”“即”“又稱”“或稱”“參”“亦作”“亦稱”“猶言”“借為”等。利用模式匹配的方法,根據(jù)上述語(yǔ)言標(biāo)志尋找詞典中的同義詞。如表1 所示,“甸”——“甸服”“幣帛”——“幣钄”分別為一組同義詞。

      表1 同義詞示例Table 1 Examples of synonyms

      (3)對(duì)詞釋義分詞后利用TF-IDF 計(jì)算詞向量間的相似度,若存在兩個(gè)詞,其詞向量間相似度超過(guò)閾值,即認(rèn)為這兩個(gè)詞是同義詞。

      3.5.2 相關(guān)關(guān)系

      基于文本獲得相關(guān)關(guān)系時(shí),通常通過(guò)計(jì)算兩個(gè)詞向量在多維空間中的距離來(lái)進(jìn)行分析。Word2Vec 作為計(jì)算詞間距離的重要方法,也被稱為“Word Embedding”,可以將字詞轉(zhuǎn)化為向量的形式并用詞向量的方式表征詞的語(yǔ)義信息。通過(guò)將單詞從原先所屬的空間嵌入到一個(gè)多維空間里,使得語(yǔ)義上相似的單詞在該空間內(nèi)呈現(xiàn)較近的距離,該過(guò)程實(shí)質(zhì)上即是一個(gè)映射[26]。

      在現(xiàn)代語(yǔ)言環(huán)境下,語(yǔ)言表述具有一定的結(jié)構(gòu)性,Word2Vec 可以很好地處理結(jié)構(gòu)化文本以發(fā)現(xiàn)文本內(nèi)容中的同義詞,但相對(duì)于古文這種一詞多義現(xiàn)象嚴(yán)重、文本短、缺少結(jié)構(gòu)化的文本,Word2Vec 可以更多的用于發(fā)現(xiàn)相關(guān)詞,以補(bǔ)充詞間相關(guān)關(guān)系。通過(guò)對(duì)相關(guān)典籍語(yǔ)料進(jìn)行分詞后,去除特殊字符及停用詞,利用Word2Vec 訓(xùn)練模型,計(jì)算詞間相似度后,抽取詞間相似度高于閾值的詞,認(rèn)為抽取出來(lái)的詞組具有一定的相關(guān)度。

      4 分類體系框架

      本研究構(gòu)建的面向典籍內(nèi)容分析的分類體系如圖1所示。分類體系共設(shè)置5 個(gè)分面,分別表示典籍內(nèi)容數(shù)據(jù)的5 個(gè)維度:政治、經(jīng)濟(jì)、文化、社會(huì)和軍事。研究者可根據(jù)分面和類目實(shí)現(xiàn)對(duì)典籍內(nèi)容的快速檢索。

      圖1 面向典籍內(nèi)容分析的分類體系框架Fig.1 Classification system framework for content analysis of ancient books

      4.1 政治分面

      歷史研究中,通常以史籍為重要研究依據(jù),而史籍記敘以國(guó)家大事為主,如 《春秋》 《史記》 等,因此政治分面極大程度上反映了典籍內(nèi)容的社會(huì)背景信息。本文將典籍?dāng)?shù)據(jù)的政治分面歸納為國(guó)家外交、律法及政權(quán)更迭等類目。其中外交為國(guó)家或證權(quán)對(duì)外交流情況,具體包括朝見(jiàn)、盟會(huì)、盟約、聘問(wèn)、議和、斷交、賄賂、人質(zhì)等方面;律法為國(guó)家或證權(quán)對(duì)內(nèi)管理情況,具體包括基本法、刑法、法典以及訴訟等方面;朝代更迭則反映了國(guó)家或政權(quán)變遷情況,具體包括治國(guó)政務(wù)、新皇即位、政令發(fā)布、政變叛亂、逃亡和國(guó)家遷移等方面。

      4.2 經(jīng)濟(jì)分面

      經(jīng)濟(jì)分面揭示了典籍記敘內(nèi)容的社會(huì)經(jīng)濟(jì)情況,本文將經(jīng)濟(jì)分面歸納為農(nóng)業(yè)、工業(yè)、商業(yè)、手工業(yè)和養(yǎng)殖業(yè)等類目。其中農(nóng)業(yè)數(shù)據(jù)包括農(nóng)作物、非農(nóng)作物和農(nóng)用器具;工業(yè)包括工業(yè)過(guò)程使用的材料、工藝、器具以及生產(chǎn)的工業(yè)產(chǎn)品等;商業(yè)包括市場(chǎng)流通過(guò)程中使用的貨幣及對(duì)應(yīng)產(chǎn)業(yè)數(shù)據(jù);手工業(yè)則涉及具體的手工材料、工藝以及手工產(chǎn)品等;養(yǎng)殖業(yè)則為生產(chǎn)養(yǎng)殖涉及的牲畜、禽鳥(niǎo)、水產(chǎn)等信息;建筑業(yè)專指建筑材料及工藝。

      4.3 文化分面

      文化作為典籍研究的核心基礎(chǔ),對(duì)政治、經(jīng)濟(jì)有潛在的長(zhǎng)期作用,本文將文化分面歸納為建筑、天文、歷算、醫(yī)學(xué)、文學(xué)、藝術(shù)及民俗信仰等類目。其中建筑專指古建筑類型,包括宗廟、宮殿、門、亭臺(tái)等,具體建筑名稱分別在對(duì)應(yīng)的小類中進(jìn)行描述;天文和歷算多用作占卜、祭祀等,具體包括星象、天文現(xiàn)象、天像、節(jié)氣和時(shí)間等方面;醫(yī)學(xué)專指醫(yī)學(xué)典籍?dāng)?shù)據(jù),具體包括醫(yī)藥、病理等;文學(xué)以文學(xué)典籍、典籍載體和文學(xué)理論為主;藝術(shù)主要為舞蹈和樂(lè)曲,還包括棋、畫、狩獵等休閑活動(dòng);民俗信仰則進(jìn)一步分為信仰類、活動(dòng)類和飲食習(xí)慣等,其中信仰包括宗教、禁忌和倫理道德等方面,活動(dòng)類以婚、喪、祭祀、節(jié)日和宴席等活動(dòng)形式為主。

      4.4 社會(huì)分面

      社會(huì)分面特指典籍中所記敘的社會(huì)習(xí)俗等信息,根據(jù)反映的社會(huì)活動(dòng)形式對(duì)典籍?dāng)?shù)據(jù)進(jìn)行劃分。具體包括婚喪嫁娶、祭祀、風(fēng)俗、生育以及社交等方面,利用典籍中這些社會(huì)活動(dòng)中涉及的風(fēng)俗習(xí)慣、禮儀、器具等數(shù)據(jù)進(jìn)行表征。

      4.5 軍事分面

      中華民族歷經(jīng)23 個(gè)朝代、近千位君王,歷史變遷中軍事始終占據(jù)的重要地位,因此軍事分面是歷史研究中重要的組成部分。典籍?dāng)?shù)據(jù)中的軍事分面具體包括軍人、軍職、軍制、軍備、戰(zhàn)爭(zhēng)、兵法等類目,其中軍人、軍職等類目從實(shí)體維度進(jìn)行組織,而戰(zhàn)爭(zhēng)則是從時(shí)間維度進(jìn)行組織,具體包括戰(zhàn)前軍事儲(chǔ)備力量、戰(zhàn)中使用兵法策略、戰(zhàn)后交戰(zhàn)雙方勝負(fù)和領(lǐng)土歸屬等方面。

      5 應(yīng)用前景分析

      本文構(gòu)建的面向典籍內(nèi)容分析的分類體系框架不僅涉及政治、經(jīng)濟(jì)等社會(huì)科學(xué)領(lǐng)域,還涵蓋了文學(xué)、宗教等人文學(xué)科知識(shí)。此分類體系可應(yīng)用于典籍?dāng)?shù)字資源的深度開(kāi)發(fā)利用,以文本內(nèi)容為基礎(chǔ),從典籍的分類組織、知識(shí)導(dǎo)航和分析利用等方面為研究者提供便利。

      5.1 基于分類體系的典籍資源分類組織

      現(xiàn)有的典籍資源組織系統(tǒng)如古籍全文數(shù)據(jù)庫(kù)、書目數(shù)據(jù)庫(kù)和索引數(shù)據(jù)庫(kù),大多從從典籍的外部特征與主題角度對(duì)典籍?dāng)?shù)據(jù)進(jìn)行組織和描述,缺少對(duì)于典籍內(nèi)容特征及內(nèi)在知識(shí)的組織。分類體系是學(xué)科知識(shí)組織與利用的框架,以分類體系為基礎(chǔ)構(gòu)建的分類表可系統(tǒng)地將知識(shí)資源加以分類組織,再通過(guò)瀏覽的方式逐層遍歷,以選擇需要的信息或資源。采用面向典籍內(nèi)容分析的分類體系對(duì)典籍?dāng)?shù)字資源進(jìn)行分類標(biāo)引,將文本內(nèi)容與其內(nèi)在知識(shí)、語(yǔ)義相結(jié)合,對(duì)典籍資源進(jìn)行知識(shí)層面的組織,可以幫助深度整合典籍資源,實(shí)現(xiàn)基于知識(shí)內(nèi)容的典籍?dāng)?shù)據(jù)組織和基于語(yǔ)義的典籍信息檢索。

      5.2 基于分類體系的典籍資源知識(shí)導(dǎo)航

      數(shù)字人文技術(shù)的發(fā)展,為典籍文本智能標(biāo)注、語(yǔ)義分析、知識(shí)挖掘和數(shù)字化地圖建設(shè)等智能導(dǎo)航提供了技術(shù)支持[27]。面向典籍內(nèi)容分析的分類體系以規(guī)范數(shù)據(jù)為數(shù)據(jù)基礎(chǔ),從細(xì)粒度知識(shí)語(yǔ)義角度出發(fā),對(duì)典籍內(nèi)容進(jìn)行重新組織,并利用規(guī)范數(shù)據(jù)對(duì)典籍中的實(shí)體信息提供參考,可以為讀者提供典籍知識(shí)導(dǎo)航,降低閱讀難度,幫助讀者理解和利用典籍?dāng)?shù)字資源。

      5.3 基于分類體系的典籍資源分析利用

      典籍資源涉及時(shí)間跨度長(zhǎng)、學(xué)科范圍廣,傳統(tǒng)的文獻(xiàn)細(xì)讀方式效率較低,不適用于大規(guī)模典籍?dāng)?shù)據(jù)的開(kāi)發(fā)利用。借助數(shù)字人文理論與技術(shù),利用面向典籍內(nèi)容分析的分類體系,可以有效挖掘典籍文本中潛藏的知識(shí)和規(guī)律,并進(jìn)行清晰、直觀的分析和展示。

      筆者將分類體系應(yīng)用于古籍文本內(nèi)容分析,基于用戶畫像技術(shù)和數(shù)字遠(yuǎn)讀技術(shù),以本文構(gòu)建的分類體系為基礎(chǔ),利用多種文本挖掘技術(shù)對(duì)典籍文本進(jìn)行多維度特征抽取,通過(guò)構(gòu)建和分析古代社會(huì)畫像,全景化呈現(xiàn)社會(huì)發(fā)展?fàn)顩r,幫助研究者快速獲得古代社會(huì)概貌[28]。

      6 結(jié)語(yǔ)

      典籍?dāng)?shù)字化資源的出現(xiàn),對(duì)于中華文化的傳承與研究具有重要意義。隨著典籍?dāng)?shù)字資源的不斷深入開(kāi)發(fā)和利用,傳統(tǒng)的知識(shí)組織方式多以典籍外部載體形式特征為主,不能有效揭示典籍內(nèi)在知識(shí)信息和語(yǔ)義關(guān)系,在一定程度上限制的學(xué)者對(duì)典籍資源的開(kāi)發(fā)利用深度,同時(shí)在研究過(guò)程中浪費(fèi)了大量的時(shí)間和精力。

      本研究試圖從細(xì)粒度知識(shí)單元語(yǔ)義信息的層面對(duì)典籍內(nèi)容進(jìn)行組織和揭示,提出基于典籍內(nèi)容分析的分類體系,從政治、經(jīng)濟(jì)、文化、社會(huì)和軍事5 個(gè)維度將典籍內(nèi)容進(jìn)行重新組織與揭示,以期幫助研究者快速分析典籍內(nèi)容,提高典籍?dāng)?shù)字資源的利用效率。但本文提出的分類體系框架具體分面與類目尚不完善,在分類實(shí)踐中需考慮到具體分類目的、分面組配方式和分類深度等問(wèn)題,需要更多的典籍?dāng)?shù)據(jù)及人文學(xué)者的意見(jiàn)進(jìn)行細(xì)化和修訂。

      猜你喜歡
      典籍古籍語(yǔ)義
      中醫(yī)古籍“疒”部俗字考辨舉隅
      《典籍里的中國(guó)》為什么火?
      金橋(2021年4期)2021-05-21 08:19:24
      關(guān)于版本學(xué)的問(wèn)答——《古籍善本》修訂重版說(shuō)明
      天一閣文叢(2020年0期)2020-11-05 08:28:06
      語(yǔ)言與語(yǔ)義
      關(guān)于古籍保護(hù)人才培養(yǎng)的若干思考
      天一閣文叢(2018年0期)2018-11-29 07:48:08
      我是古籍修復(fù)師
      金橋(2017年5期)2017-07-05 08:14:41
      在詩(shī)詞典籍中賞春日盛景
      “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
      典籍翻譯模式的構(gòu)建與啟發(fā)
      先秦典籍中的男嬖形象探微
      韶山市| 龙南县| 海晏县| 镇江市| 仪征市| 来凤县| 古田县| 惠来县| 亚东县| 乌鲁木齐县| 襄樊市| 海林市| 郎溪县| 桐柏县| 天门市| 吉木萨尔县| 阳东县| 长丰县| 榆林市| 高青县| 远安县| 尉犁县| 隆安县| 泸西县| 确山县| 济宁市| 江阴市| 伊宁市| 颍上县| 鄂伦春自治旗| 阿尔山市| 成安县| 潞西市| 克山县| 信丰县| 西乌珠穆沁旗| 手游| 龙井市| 长垣县| 石泉县| 古蔺县|