• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合GPT技術(shù)和用戶需求的文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布研究

      2024-10-08 00:00:00范顏鑠周曉英王克平等
      現(xiàn)代情報(bào) 2024年10期

      關(guān)鍵詞: 文學(xué)類古籍; 數(shù)字人文; 知識(shí)組織; 關(guān)聯(lián)數(shù)據(jù);Drupal;ChatGPT; 用戶需求

      DOI:10.3969 / j.issn.1008-0821.2024.10.013

      〔中圖分類號(hào)〕G255 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2024) 10-0154-14

      文學(xué)類古籍作為古籍資源的一個(gè)重要門類, 兼具藝術(shù)性與文化性, 同時(shí)具有“存史” 的功能, 可突出展現(xiàn)某一特定時(shí)期的文化重心情況, 其題材、數(shù)量的豐富程度也在一定程度上反映了社會(huì)的安定程度與文化繁榮程度。此外, 文學(xué)類古籍包容性強(qiáng)、內(nèi)容豐富, 極具地域?qū)傩陨剩?與一般古籍相比,其蘊(yùn)含的知識(shí)更為豐富, 知識(shí)群體之間存在的語(yǔ)義關(guān)系更為復(fù)雜, 挖掘潛力較大。

      在文化與科技融合的數(shù)字化背景下, 數(shù)據(jù)可視化、虛擬現(xiàn)實(shí)、GPT(Generative Pre-trained Trans?former)等技術(shù)為古籍的數(shù)字化提供了新思路, 促使古籍知識(shí)組織向語(yǔ)義化方向發(fā)展, 也為文學(xué)類古籍的關(guān)聯(lián)組織提供全新的方法借鑒。然而, 現(xiàn)有的古籍?dāng)?shù)字化研究多集中于歷史、哲學(xué)、地方志、中醫(yī)藥等門類, 或關(guān)注書目等外部屬性特征, 文學(xué)類古籍?dāng)?shù)字化研究特別是應(yīng)用實(shí)踐研究偏少, 相較于其他門類古籍關(guān)注度偏低。同時(shí), 由于文學(xué)類古籍資源具有多重藝術(shù)形式, 涵蓋了題材、體裁等特征要素, 使用現(xiàn)有關(guān)聯(lián)數(shù)據(jù)發(fā)布思路時(shí)存在屬性揭示不足、領(lǐng)域描述不適配等問(wèn)題。因此, 本文選取文學(xué)類古籍資源作為研究對(duì)象, 在現(xiàn)有的“本體模型+關(guān)聯(lián)數(shù)據(jù)實(shí)現(xiàn)平臺(tái)” 發(fā)布思路基礎(chǔ)上, 探究如何將GPT 技術(shù)、用戶需求分析與關(guān)聯(lián)數(shù)據(jù)技術(shù)相結(jié)合以提升文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布的效果。

      1文獻(xiàn)綜述本節(jié)梳理分析

      國(guó)內(nèi)外關(guān)聯(lián)數(shù)據(jù)在古籍中的應(yīng)用、發(fā)布方式、實(shí)體識(shí)別抽取方法與用戶需求分析的研究成果, 為后續(xù)模型的構(gòu)建提供理論基礎(chǔ)。

      1.1關(guān)聯(lián)數(shù)據(jù)在古籍研究中的應(yīng)用

      關(guān)聯(lián)數(shù)據(jù)是語(yǔ)義網(wǎng)的一個(gè)簡(jiǎn)單應(yīng)用, 利用RDF、URI 等技術(shù)可將Web 中的各類數(shù)據(jù)、信息和知識(shí)進(jìn)行分布、共享和鏈接, 讓人們可以通過(guò)HTTP 協(xié)議來(lái)揭示和獲取這些數(shù)據(jù), 因其自身具有自描述等優(yōu)良特性, 現(xiàn)已成為語(yǔ)義Web 的一種輕量級(jí)解決方案[1] 。2006 年7 月, “萬(wàn)維網(wǎng)之父” Tim Berners-Lee提出關(guān)聯(lián)數(shù)據(jù)的概念并指出了關(guān)聯(lián)數(shù)據(jù)的4 項(xiàng)基本準(zhǔn)則[2] : ①用URI 來(lái)標(biāo)記任何事物; ②使用HTTPURI 使任何人都可以查找和引用這些事物; ③當(dāng)某個(gè)資源被訪問(wèn)時(shí), 應(yīng)以開(kāi)放標(biāo)準(zhǔn)的形式(如RDF、SPARQL等)提供有用的信息; ④盡可能給出相關(guān)的URI, 以便實(shí)現(xiàn)資源或者數(shù)據(jù)集的豐富化。

      我國(guó)對(duì)古籍?dāng)?shù)字化的研究正處于不斷“升溫”的階段, 不少學(xué)者借助關(guān)聯(lián)數(shù)據(jù)技術(shù)對(duì)其展開(kāi)研究。在古籍文本研究方面, 有學(xué)者總結(jié)了古文知識(shí)組織及關(guān)聯(lián)數(shù)據(jù)技術(shù)在古籍知識(shí)組織應(yīng)用的現(xiàn)狀, 提出了基于關(guān)聯(lián)數(shù)據(jù)的古文知識(shí)組織模式并對(duì)核心問(wèn)題及技術(shù)進(jìn)行探討[3] ; 有學(xué)者通過(guò)分析關(guān)聯(lián)數(shù)據(jù)等信息技術(shù)在挖掘數(shù)字化古籍知識(shí)中的運(yùn)用, 提出了數(shù)字化古籍知識(shí)管理模型[4] 。在古籍?dāng)?shù)據(jù)庫(kù)建設(shè)方面,數(shù)字媒介的不斷發(fā)展使關(guān)聯(lián)數(shù)據(jù)技術(shù)在古籍?dāng)?shù)據(jù)庫(kù)建設(shè)、古籍資源的組織與存儲(chǔ)等方面發(fā)揮著重要作用[5],歐盟數(shù)字圖書館(Europeana)借助關(guān)聯(lián)數(shù)據(jù)將散落在世界各地的文獻(xiàn)等資源進(jìn)行整合, 構(gòu)建了統(tǒng)一的網(wǎng)絡(luò)平臺(tái)[6] ; 有學(xué)者基于關(guān)聯(lián)數(shù)據(jù), 在分析現(xiàn)有語(yǔ)義技術(shù)應(yīng)用基礎(chǔ)上提出了語(yǔ)義技術(shù)驅(qū)動(dòng)下的古籍互聯(lián)互通框架[7] 。在古籍外部特征研究方面,有學(xué)者借助語(yǔ)義網(wǎng)和關(guān)聯(lián)數(shù)據(jù)技術(shù)對(duì)古籍書目進(jìn)行知識(shí)組織, 構(gòu)建叢書古籍書目知識(shí)組織模型[8] ; 有學(xué)者對(duì)我國(guó)特有的, 以CNMARC 格式編目的古籍書目進(jìn)行了關(guān)聯(lián)數(shù)據(jù)化與關(guān)聯(lián)化發(fā)布研究[9] 。也有不少學(xué)者對(duì)不同門類古籍展開(kāi)研究, 如借助關(guān)聯(lián)數(shù)據(jù)技術(shù)研究史書類古籍《漢書·藝文志》中的人物知識(shí)關(guān)聯(lián)[10] 、構(gòu)建地方志類古籍《方志物產(chǎn)》知識(shí)庫(kù)[11] 、設(shè)計(jì)地方詩(shī)詞資源關(guān)聯(lián)聚合模式并構(gòu)建實(shí)例化應(yīng)用平臺(tái)[12] 。作為較為成熟的技術(shù), 關(guān)聯(lián)數(shù)據(jù)在古籍領(lǐng)域中的應(yīng)用已涉及多個(gè)門類與多個(gè)方面,但知識(shí)組織及關(guān)聯(lián)數(shù)據(jù)技術(shù)在文學(xué)類古籍?dāng)?shù)字化探索中的應(yīng)用研究十分有限, 僅涉及詩(shī)詞文字形式,整體研究程度與關(guān)注程度依舊偏低, 因此本文嘗試將關(guān)聯(lián)數(shù)據(jù)技術(shù)應(yīng)用于文學(xué)類古籍資源領(lǐng)域, 提出文學(xué)類古籍資源關(guān)聯(lián)發(fā)布模型, 從多維度對(duì)文學(xué)類古籍資源知識(shí)進(jìn)行全面、具體的呈現(xiàn)。

      1.2關(guān)聯(lián)數(shù)據(jù)發(fā)布

      現(xiàn)階段,我國(guó)學(xué)者主要借助D2RQ、Drupal 發(fā)布關(guān)聯(lián)數(shù)據(jù)集, D2RQ 是目前較為常用的RDF 映射平臺(tái), 有學(xué)者借助該平臺(tái)實(shí)現(xiàn)了可移動(dòng)文物的關(guān)聯(lián)數(shù)據(jù)存儲(chǔ)[13] ; 也有學(xué)者基于層級(jí)結(jié)構(gòu), 用D2R 模型實(shí)現(xiàn)家譜文化資源的語(yǔ)義關(guān)聯(lián)及可視化展示[14] 。Drupal 則具有更好的輕量級(jí)數(shù)據(jù)發(fā)布能力, 具有良好的可擴(kuò)展性和靈活性, 其內(nèi)容結(jié)構(gòu)定義對(duì)關(guān)聯(lián)數(shù)據(jù)的支持適用性也較大[12] 。已有多位學(xué)者借助該平臺(tái)實(shí)現(xiàn)關(guān)聯(lián)數(shù)據(jù)集的發(fā)布, 如基于層級(jí)結(jié)構(gòu)方式,從數(shù)據(jù)層、模式層以及應(yīng)用層3 個(gè)層級(jí)結(jié)構(gòu)對(duì)山水志史料資源進(jìn)行語(yǔ)義化知識(shí)關(guān)聯(lián)與知識(shí)發(fā)布[15] ; 通過(guò)構(gòu)建內(nèi)容節(jié)點(diǎn)類型和屬性、節(jié)點(diǎn)與本體庫(kù)的關(guān)聯(lián)映射等步驟, 實(shí)現(xiàn)民國(guó)建筑知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)的組織與發(fā)布[16] ; 基于模塊匹配的方式, 以資源發(fā)布模塊、問(wèn)題答疑模塊、實(shí)驗(yàn)管理模塊、在線考試模塊搭建師生間的信息交流網(wǎng)絡(luò)平臺(tái)等[17] 。盡管目前圍繞關(guān)聯(lián)數(shù)據(jù)發(fā)布的相關(guān)成果顯著, 但由于文學(xué)類古籍資源的結(jié)構(gòu)元素、內(nèi)容具有一定特殊性, 仍有必要進(jìn)一步結(jié)合文學(xué)類古籍資源的內(nèi)容結(jié)構(gòu)特征, 設(shè)計(jì)探討關(guān)聯(lián)數(shù)據(jù)發(fā)布新思路, 促進(jìn)關(guān)聯(lián)數(shù)據(jù)技術(shù)在該領(lǐng)域的應(yīng)用落地。

      1.3實(shí)體識(shí)別抽取

      基于自然語(yǔ)言處理技術(shù)、深度學(xué)習(xí)算法的挖掘、識(shí)別抽取方案雖可以取得良好的效果, 但操作門檻高、步驟復(fù)雜, 設(shè)計(jì)抽取模型需耗費(fèi)大量時(shí)間與人力成本, 且傳統(tǒng)抽取方式多以“看到一類, 定義一類, 構(gòu)建一類” 的模式構(gòu)建知識(shí)庫(kù), 手段效率低, 當(dāng)包含多個(gè)中間子任務(wù)時(shí), 抽取準(zhǔn)確率急劇下降, ChatGPT 等大語(yǔ)言模型的發(fā)布對(duì)傳統(tǒng)自然語(yǔ)言核心任務(wù)產(chǎn)生了巨大的沖擊和影響, 不僅可以高質(zhì)量完成任務(wù)且貼合用戶的實(shí)際需求[18] 。GPT 技術(shù)在語(yǔ)義理解、知識(shí)抽取、知識(shí)生成與推薦方面的出色表現(xiàn)使知識(shí)組織環(huán)境發(fā)生巨大變化[19] , 在數(shù)字任務(wù)研究過(guò)程中, 可提供研究過(guò)程中所需要的文本生成、跨語(yǔ)言處理、情感分析、語(yǔ)料庫(kù)建設(shè)等技術(shù)支持[20] , 在閱讀理解、情感分析等自然語(yǔ)言處理任務(wù)中獲得較優(yōu)的性能[21] 。南京理工大學(xué)已有實(shí)驗(yàn)結(jié)果表明, ChatGPT 在命名實(shí)體識(shí)別具有較好的表現(xiàn), 但在關(guān)系抽取中的效果需進(jìn)一步提高[22] 。

      現(xiàn)階段,ChatGPT在知識(shí)抽取方面的研究主要集中于實(shí)驗(yàn)分析階段, 大多數(shù)研究以直接向其輸入文本、分析其輸出結(jié)果的方式測(cè)試其識(shí)別抽取準(zhǔn)確度, 也有學(xué)者通過(guò)給定關(guān)系的方式抽取關(guān)系[22] 。在ChatGPT 生成內(nèi)容分析上, 有學(xué)者通過(guò)輸入樣例的方式, 讓其模仿樣例的語(yǔ)言風(fēng)格進(jìn)行寫作并分析實(shí)驗(yàn)結(jié)果[23] ?;谝陨蠈?shí)驗(yàn)思維, 結(jié)合其強(qiáng)大的學(xué)習(xí)能力、操作的便捷性與良好的抽取效果等特性,本文將以輸入樣例、給定關(guān)系與識(shí)別抽取目標(biāo)的形式識(shí)別抽取本文所需數(shù)據(jù), 可在一定程度上提高知識(shí)組織與研究效率。

      1.4用戶需求分析

      目前,用戶需求分析常用方法有Kano模型、AHP層次分析法、AD理論等, 也有不少學(xué)者通過(guò)內(nèi)容分析、訪談、問(wèn)卷等方法收集用戶需求, 在知識(shí)服務(wù)支撐、服務(wù)水平提升、服務(wù)效果提升方面做了很多嘗試[24],如從用戶對(duì)資源的需求出發(fā), 借助層次分析法、TF-IDF算法構(gòu)建用戶畫像模型,為精準(zhǔn)圖書推薦服務(wù)提供支撐[25] ; 或借助訪談、內(nèi)容分析等方法, 完善數(shù)據(jù)可視化研究素養(yǎng)體系, 提高高校圖書館服務(wù)水平[26] 。也有學(xué)者從用戶需求角度優(yōu)化醫(yī)療健康類APP[27] 、針對(duì)實(shí)際需求對(duì)家用火災(zāi)類逃生作品進(jìn)行創(chuàng)新設(shè)計(jì)等[28],進(jìn)而提高現(xiàn)有產(chǎn)品的機(jī)能與服務(wù)效果。文學(xué)類古籍知識(shí)受眾群體較為廣泛, 本文通過(guò)訪談法收集不同年齡、身份的用戶知識(shí)需求并進(jìn)行歸納分析, 據(jù)此設(shè)計(jì)、構(gòu)建文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布模型, 提升其可用性與實(shí)用性。

      綜上所述, 目前關(guān)聯(lián)數(shù)據(jù)技術(shù)在古籍領(lǐng)域的應(yīng)用已有較為豐碩的成果, 但聚焦到文學(xué)類古籍資源尚存在一些不足: 一是數(shù)字化實(shí)踐研究偏少, 雖對(duì)文學(xué)作品文本等進(jìn)行挖掘分析, 但仍缺少對(duì)其應(yīng)用實(shí)踐方面的探索。二是已有的關(guān)聯(lián)數(shù)據(jù)發(fā)布模式與文學(xué)類古籍資源無(wú)法做到完全適配, 無(wú)法全面呈現(xiàn)其語(yǔ)義知識(shí)結(jié)構(gòu)網(wǎng)絡(luò)。三是現(xiàn)階段將用戶需求多維度分析結(jié)果結(jié)合到關(guān)聯(lián)數(shù)據(jù)發(fā)布模型中的成果尚不多見(jiàn)。因此, 本文將從文學(xué)類古籍資源的特征和數(shù)字化實(shí)踐需求出發(fā), 結(jié)合關(guān)聯(lián)數(shù)據(jù)集發(fā)布的典型流程, 將GPT 技術(shù)、用戶需求分析與關(guān)聯(lián)數(shù)據(jù)技術(shù)相結(jié)合, 創(chuàng)新性提出文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布模型。與傳統(tǒng)關(guān)聯(lián)發(fā)布模型相比, 該模型基于大語(yǔ)言模型時(shí)代背景改進(jìn)現(xiàn)有數(shù)據(jù)層, 融合GPT 技術(shù)完成數(shù)據(jù)采集工作, 提高知識(shí)組織效率, 同時(shí)增設(shè)針對(duì)不同用戶群體分析其需求的應(yīng)用層, 并通過(guò)文學(xué)類古籍關(guān)聯(lián)組織模型來(lái)實(shí)現(xiàn)其構(gòu)建, 完善文學(xué)類古籍資源關(guān)聯(lián)化發(fā)布思路的同時(shí)增強(qiáng)本文提出模型的實(shí)用性。在實(shí)證方面, 選取《聊齋志異·司文郎》驗(yàn)證模型的有效性及可用性。

      2文學(xué)類古籍資源的結(jié)構(gòu)要素與關(guān)聯(lián)發(fā)布需求分析

      本節(jié)首先從時(shí)間、地點(diǎn)、人物、文章4 個(gè)角度出發(fā)梳理文學(xué)類古籍資源的結(jié)構(gòu)要素, 其次歸納數(shù)字化時(shí)代背景下用戶對(duì)文學(xué)類古籍知識(shí)的需求, 為后續(xù)文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布模型的建立奠定基礎(chǔ)。

      2.1文學(xué)類古籍資源結(jié)構(gòu)要素分析

      文學(xué)類作品通過(guò)詩(shī)歌、散文、小說(shuō)等藝術(shù)形式來(lái)表達(dá)作者對(duì)生活的觀察和理想[29] , 通過(guò)語(yǔ)言塑造形象以反映人類社會(huì)生活[30] 。與其他類別作品相比, 除卻多個(gè)門類書籍包含的人物、地點(diǎn)、時(shí)間基本元素, 篇章題目是該類書籍的核心要素, 故事情節(jié)基本通過(guò)文章章節(jié)串聯(lián), 體裁、題材等要素更是該類書籍重要的形式特征與要素。與現(xiàn)代文學(xué)作品相比, 文學(xué)類古籍不僅包含人物、時(shí)間、地點(diǎn)等基本結(jié)構(gòu)要素, 還增加了文言文要素, 其晦澀性在考驗(yàn)專業(yè)研究人員文學(xué)素養(yǎng)的同時(shí), 也給大眾閱讀群體造成了一定的閱讀障礙。本文結(jié)合文學(xué)類古籍資源的結(jié)構(gòu)與特征, 將結(jié)構(gòu)要素劃分為時(shí)間、地點(diǎn)、人物、文章4 個(gè)基本組成部分, 將其具有代表性特征的體裁、題材與文言文要素放置文章類目下, 形成文學(xué)類古籍資源通用結(jié)構(gòu)要素, 涵蓋了更深層次、更全面的實(shí)體和關(guān)系, 從而使所構(gòu)建的文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布模型具有更高的兼容性與實(shí)用性,如圖1所示。

      2.2文學(xué)類古籍資源cBkt/79jolSd7yfSSlU+dxG//qrcy72YE3ac2/goBjg=關(guān)聯(lián)組織和關(guān)聯(lián)發(fā)布需求

      文學(xué)類古籍在教育實(shí)踐、價(jià)值觀指引等社會(huì)環(huán)節(jié)中具有固本培元的作用, 有助于在全民心中建立起真正的文化自信, 形成強(qiáng)大的社會(huì)凝聚力[31],對(duì)其展開(kāi)數(shù)字化實(shí)踐研究具有重要的現(xiàn)實(shí)意義。信息技術(shù)的不斷發(fā)展使用戶對(duì)文學(xué)古籍知識(shí)化的需求不再停留于單純的知識(shí)獲取, 而轉(zhuǎn)為更為直觀、更富有語(yǔ)義內(nèi)涵的知識(shí)展示與查詢, 主要表現(xiàn)為用戶的知識(shí)需求多元化、知識(shí)獲取便捷化、需求內(nèi)容多樣化、需求連續(xù)化與動(dòng)態(tài)化。

      為了解用戶真實(shí)需求, 本文先后訪談了10名蒲松齡研究院相關(guān)專家、90名社會(huì)群眾與50 名高校學(xué)生, 訪談主要圍繞以下內(nèi)容展開(kāi): 職業(yè)、對(duì)文學(xué)類古籍關(guān)注與熱愛(ài)程度等背景性問(wèn)題、文學(xué)類古籍查閱與研究過(guò)程中遇到的問(wèn)題、數(shù)字化背景下文學(xué)類古籍知識(shí)獲取途徑傾向與內(nèi)容需求等, 根據(jù)對(duì)150名用戶的訪談結(jié)果, 按照用戶需求特征的不同將用戶分為專業(yè)用戶與普通用戶。前者為文學(xué)愛(ài)好者、研究人員或熱衷于文學(xué)研究的學(xué)者, 這類群體知識(shí)需求比較集中, 對(duì)知識(shí)的需求更為深入和專業(yè)化; 后者主要為學(xué)生、對(duì)文學(xué)感興趣的社會(huì)群眾,此類用戶的知識(shí)需求更加廣泛和多樣化。基于此,本文針對(duì)不同用戶需求對(duì)關(guān)聯(lián)數(shù)據(jù)發(fā)布平臺(tái)進(jìn)行設(shè)計(jì), 以便使用戶能更好地在平臺(tái)上根據(jù)自身需要獲取所需知識(shí)。

      3融合GPT技術(shù)和用戶需求的文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布模型設(shè)計(jì)

      為促進(jìn)文學(xué)類古籍資源的有效傳播、利用與知識(shí)共享, 需對(duì)文學(xué)類古籍資源中的知識(shí)進(jìn)行全面、充分的揭示, 借助關(guān)聯(lián)數(shù)據(jù)技術(shù)實(shí)現(xiàn)文學(xué)類古籍文本知識(shí)的鏈接與智能應(yīng)用, 以可視化形式呈現(xiàn)此類古籍的知識(shí)語(yǔ)義網(wǎng)絡(luò), 使關(guān)聯(lián)發(fā)布平臺(tái)能夠以更清晰、便捷的方式呈現(xiàn)文學(xué)類古籍資源的整體概貌。

      本文沿用了以層級(jí)結(jié)構(gòu)實(shí)現(xiàn)關(guān)聯(lián)化發(fā)布的思路,同時(shí)結(jié)合前文分析的文學(xué)類古籍結(jié)構(gòu)要素特征改進(jìn)現(xiàn)有關(guān)聯(lián)發(fā)布框架, 添加文學(xué)類古籍資源關(guān)聯(lián)組織模型使關(guān)聯(lián)數(shù)據(jù)發(fā)布更貼合該領(lǐng)域特征, 設(shè)計(jì)文學(xué)類古籍關(guān)聯(lián)數(shù)據(jù)發(fā)布模型以實(shí)現(xiàn)知識(shí)語(yǔ)義化關(guān)聯(lián),該模型主要包含數(shù)據(jù)層、數(shù)據(jù)網(wǎng)絡(luò)層、數(shù)據(jù)融合層、應(yīng)用層及表現(xiàn)層5 個(gè)層面, 如圖2 所示。其中, 數(shù)據(jù)層嘗試借助GPT 技術(shù)完成數(shù)據(jù)采集工作, 基于前人抽取思維, 在數(shù)據(jù)層以輸入樣例、給定關(guān)系與識(shí)別抽取目標(biāo)的形式識(shí)別抽取本文所需數(shù)據(jù), 增設(shè)分析用戶需求的應(yīng)用層, 并以用戶需求為導(dǎo)向完成表現(xiàn)層的構(gòu)建, 提高本模型的實(shí)用性。

      1) 數(shù)據(jù)層。數(shù)據(jù)層主要借助GPT類技術(shù)解決數(shù)據(jù)離散無(wú)序、屬性缺失等問(wèn)題, 構(gòu)建本地?cái)?shù)據(jù)集為其他4 個(gè)層面提供數(shù)據(jù)支撐。根據(jù)不同數(shù)據(jù)選取相應(yīng)數(shù)據(jù)源完成數(shù)據(jù)的獲取, 從地方、高校圖書館及檔案館收集紙質(zhì)版古籍, 超星數(shù)字圖書館等數(shù)字圖書館、中國(guó)知網(wǎng)等期刊數(shù)據(jù)庫(kù)分別作為電子版古籍與期刊的主要數(shù)據(jù)源, 以網(wǎng)絡(luò)數(shù)字資源為補(bǔ)充,并對(duì)數(shù)據(jù)進(jìn)行初步分類。在數(shù)據(jù)采集方面, 借助OCR、GPT 技術(shù)獲取文本數(shù)據(jù), 根據(jù)ChatGPT 可通過(guò)語(yǔ)言模型任務(wù)“閱讀” 大量自然語(yǔ)言文本進(jìn)而習(xí)得大量知識(shí)[20] 的優(yōu)點(diǎn), 以分批、多次輸入識(shí)別抽取實(shí)例的方式訓(xùn)練ChatGPT, 依托其強(qiáng)大的學(xué)習(xí)能力使其不斷明確本文所需的抽取任務(wù)與抽取目標(biāo), 提高ChatGPT 對(duì)三元組的敏感程度, 借助ChatGPT實(shí)現(xiàn)文本數(shù)據(jù)的識(shí)別與抽取。相關(guān)論文數(shù)據(jù)則在中國(guó)知網(wǎng)等期刊數(shù)據(jù)庫(kù)利用“主題” “關(guān)鍵詞” 搜索相關(guān)研究論文, 以自定義的方式選擇“題目” “摘要” “關(guān)鍵詞” 等內(nèi)容導(dǎo)出到Excel, 并以人工篩選的方式收集關(guān)聯(lián)數(shù)據(jù)庫(kù)的URI 鏈接。將從以上3 個(gè)方面采集到的數(shù)據(jù)進(jìn)行人工校對(duì)與初步融合, 剔除掉重復(fù)數(shù)據(jù), 結(jié)合網(wǎng)絡(luò)資源對(duì)數(shù)據(jù)進(jìn)行補(bǔ)充, 最終形成文學(xué)類古籍資源數(shù)據(jù)集, 存儲(chǔ)到本地?cái)?shù)據(jù)集中供后續(xù)訪問(wèn)。

      2)數(shù)據(jù)網(wǎng)絡(luò)層。數(shù)據(jù)網(wǎng)絡(luò)層的主要任務(wù)是將采集到的本地?cái)?shù)據(jù)集轉(zhuǎn)化為機(jī)器可識(shí)別的RDF(Re?source Description Framework)格式并構(gòu)建文學(xué)類關(guān)聯(lián)組織模型, 以實(shí)現(xiàn)對(duì)文學(xué)類古籍資源知識(shí)的語(yǔ)義揭示, 并為數(shù)據(jù)融合層提供指導(dǎo)。目前, 針對(duì)不同數(shù)據(jù)有多種RDF 轉(zhuǎn)換方式, 文學(xué)類古籍資源數(shù)據(jù)的主要組成部分為文本數(shù)據(jù), 本體則具有較好的知識(shí)表示能力且有統(tǒng)一的描述標(biāo)準(zhǔn), 因此在此層面可用本體技術(shù)對(duì)數(shù)據(jù)層中的本地?cái)?shù)據(jù)集進(jìn)行規(guī)范化描述,同時(shí)結(jié)合文學(xué)類古籍資源內(nèi)容結(jié)構(gòu)特征, 充分考慮現(xiàn)有本體復(fù)用的可能性, 通過(guò)owl 語(yǔ)言描述文學(xué)類古籍資源的對(duì)象及屬性, 實(shí)現(xiàn)實(shí)體的關(guān)聯(lián)、消歧、融合, 進(jìn)而生成本文所需的RDF 數(shù)據(jù), 為每個(gè)實(shí)體生成具有唯一標(biāo)識(shí)的URI,以實(shí)現(xiàn)HTTP 訪問(wèn),避免實(shí)體ID 屬性沖突的問(wèn)題。對(duì)知識(shí)單元進(jìn)行有效組織形成知識(shí)網(wǎng)絡(luò), 完成對(duì)文學(xué)類古籍資源知識(shí)的規(guī)范化組織, 實(shí)現(xiàn)文學(xué)類古籍資源關(guān)聯(lián)組織模型的g8usNwXcwIDoYFoZ38oPgQ==構(gòu)建。

      3) 數(shù)據(jù)融合層。鑒于Drupal 的兼容性與文學(xué)類古籍資源數(shù)據(jù)量大小, 本文選取Drupal 平臺(tái)實(shí)現(xiàn)文學(xué)類古籍資源的關(guān)聯(lián)數(shù)據(jù)發(fā)布, 因此數(shù)據(jù)融合層的主要任務(wù)是依托Drupal 的模塊化發(fā)布思維, 通過(guò)實(shí)體命名化、實(shí)體關(guān)聯(lián)化完成RDF 數(shù)據(jù)到Drupal 站點(diǎn)內(nèi)容的存儲(chǔ)與映射, 將本地?cái)?shù)據(jù)集轉(zhuǎn)化為機(jī)器可理解的關(guān)聯(lián)數(shù)據(jù)集, 具體使用模塊如圖3 所示。Drupal 的核心要素為內(nèi)容類型、字段、節(jié)點(diǎn)3 種要素, 將3 種要素與文學(xué)類古籍本體模型中的類、屬性、實(shí)例一一對(duì)齊即可實(shí)現(xiàn)RDF 數(shù)據(jù)到Drupal 站點(diǎn)內(nèi)容的存儲(chǔ)與映射[32] 。因此, 首先需要構(gòu)建數(shù)據(jù)庫(kù)與關(guān)聯(lián)數(shù)據(jù)間的映射規(guī)則及關(guān)系,確保關(guān)聯(lián)組織模型在Drupal 平臺(tái)中內(nèi)容類型、字段和節(jié)點(diǎn)等元素與本體中的實(shí)體、關(guān)系、實(shí)體與實(shí)體、屬性、屬性值之間建立一一對(duì)應(yīng)關(guān)系, 提高文學(xué)類古籍資源的數(shù)據(jù)質(zhì)量和可用性。同時(shí), 在該層面需以TimBerners-Lee 提出的關(guān)聯(lián)數(shù)據(jù)4 項(xiàng)基本原則為理論基礎(chǔ), 將數(shù)據(jù)網(wǎng)絡(luò)層中的知識(shí)元提取出來(lái), 篩選出具有相似或相關(guān)關(guān)系的知識(shí)元后進(jìn)行分類, 存儲(chǔ)在一個(gè)知識(shí)單元中, 封裝為一個(gè)知識(shí)元庫(kù), 將站點(diǎn)內(nèi)容轉(zhuǎn)為語(yǔ)義化數(shù)據(jù), 整合文學(xué)類古籍資源的知識(shí)元素并使其相互關(guān)聯(lián), 為用戶提供更豐富、更準(zhǔn)確的信息, 此關(guān)聯(lián)化發(fā)布方式也有助于提升文學(xué)類古籍資源的數(shù)據(jù)可訪問(wèn)性和互操作性。

      4) 應(yīng)用層。為向用戶提供更為清晰的知識(shí)語(yǔ)義脈絡(luò), 應(yīng)用層根據(jù)用戶對(duì)文學(xué)類古籍資源的知識(shí)需求, 提供以用戶需求為導(dǎo)向的知識(shí)服務(wù), 進(jìn)而提高文學(xué)類古籍資源知識(shí)服務(wù)平臺(tái)的利用效率, 拓展共享范圍。根據(jù)前文分析, 平臺(tái)應(yīng)為專業(yè)用戶提供更為細(xì)致和全面的文學(xué)類古籍資源知識(shí)服務(wù), 為普通用戶提供便捷和易于理解的文學(xué)類古籍資源知識(shí)服務(wù), 以直觀的方式呈現(xiàn)文學(xué)類古籍資源的內(nèi)容,使普通用戶能夠輕松獲得、理解并享受文學(xué)類古籍資源的知識(shí)。因此, 平臺(tái)在知識(shí)檢索方面需提供強(qiáng)大的搜索功能, 用戶可以使用多種關(guān)鍵詞進(jìn)行查詢;在知識(shí)獲取方面需從多維度對(duì)文學(xué)類古籍資源知識(shí)進(jìn)行呈現(xiàn), 輔助以圖片形式促進(jìn)理解, 并提供分類導(dǎo)航功能; 在知識(shí)推理方面需提供個(gè)性化的推薦功能, 幫助用戶發(fā)現(xiàn)新的知識(shí); 在知識(shí)利用方面需支持用戶的互動(dòng)和參與, 呈現(xiàn)文學(xué)類古籍知識(shí)的關(guān)聯(lián)關(guān)系和語(yǔ)義脈絡(luò), 幫助用戶更好地理解和利用知識(shí)。

      5)表現(xiàn)層。表現(xiàn)層在關(guān)聯(lián)技術(shù)基礎(chǔ)上實(shí)現(xiàn)了文學(xué)類古籍資源的關(guān)聯(lián)發(fā)布, 滿足用戶的人機(jī)交互需求, 作為整個(gè)模型中極為重要的一環(huán), 表現(xiàn)層從知識(shí)檢索、知識(shí)獲取、知識(shí)推理和知識(shí)利用4 個(gè)方面實(shí)現(xiàn)了用戶對(duì)文學(xué)類古籍資源知識(shí)的檢索、概覽和利用。知識(shí)檢索方面, 通過(guò)語(yǔ)義關(guān)聯(lián), 平臺(tái)能夠提供更準(zhǔn)確、更相關(guān)的搜索結(jié)果, 幫助用戶快速找到所需的信息, 用戶可以通過(guò)關(guān)鍵詞、主題或其他查詢條件搜索相關(guān)的文學(xué)類古籍資源知識(shí)。在知識(shí)獲取方面, 表現(xiàn)層根據(jù)文學(xué)類古籍資源的內(nèi)容結(jié)構(gòu)設(shè)置相應(yīng)的大類, 以滿足用戶在海量信息中的分類導(dǎo)航需求。通過(guò)將文學(xué)類古籍資源按照人物、時(shí)間、地點(diǎn)、文章基本組成進(jìn)行分類, 用戶可以便捷地瀏覽并導(dǎo)航到感興趣的領(lǐng)域, 提供更好的信息發(fā)現(xiàn)和瀏覽體驗(yàn)。在知識(shí)推理方面, 表現(xiàn)層根據(jù)用戶在文學(xué)類古籍資源知識(shí)服務(wù)平臺(tái)中的歷史記錄, 提供個(gè)性化的文章推送功能, 幫助用戶發(fā)現(xiàn)新的知識(shí), 深入了解感興趣的古籍。在知識(shí)利用方面, 表現(xiàn)層利用數(shù)據(jù)網(wǎng)絡(luò)層和數(shù)據(jù)融合層形成的文學(xué)類古籍資源知識(shí)語(yǔ)義網(wǎng), 為用戶提供信息查詢服務(wù), 在一定程度對(duì)文學(xué)類古籍資源的內(nèi)容進(jìn)行全面、具體的呈現(xiàn)。通過(guò)信息查詢、個(gè)性化推送、分類導(dǎo)航和概念匹配等功能, 用戶可以更好地利用該平臺(tái)獲取文學(xué)類古籍資源的知識(shí), 滿足用戶的需求, 促進(jìn)文學(xué)類古籍資源的雙向、高效利用。

      該模型中,數(shù)據(jù)層從不同數(shù)據(jù)源借助OCR、GPT等技術(shù),獲取數(shù)據(jù)為關(guān)聯(lián)數(shù)據(jù)的發(fā)布提供支撐, 數(shù)據(jù)網(wǎng)絡(luò)層構(gòu)建關(guān)聯(lián)組織模型實(shí)現(xiàn)知識(shí)的語(yǔ)義化鏈接,數(shù)據(jù)融合層將本地?cái)?shù)據(jù)集轉(zhuǎn)化為機(jī)器可理解的關(guān)聯(lián)數(shù)據(jù)集, 應(yīng)用層以用戶需求為導(dǎo)向設(shè)計(jì)關(guān)聯(lián)數(shù)據(jù)發(fā)布頁(yè)面,表現(xiàn)層則呈現(xiàn)最終的文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布平臺(tái), 前一層面為后一層面的基礎(chǔ), 依次構(gòu)建完5 個(gè)層面后可將分散在文學(xué)類古籍資源中的知識(shí)進(jìn)行收集、抽取與有效組織, 以簡(jiǎn)單有效且系統(tǒng)化、關(guān)聯(lián)化的方式呈現(xiàn)給用戶。

      4融合GPT 技術(shù)和用戶需求的文學(xué)類古籍資源關(guān)聯(lián)發(fā)布的實(shí)現(xiàn)

      《聊齋志異》作為中國(guó)文言短篇小說(shuō)的巔峰之作, 是博采歷代文言小說(shuō)之精義與史傳文學(xué)之菁華的曠世佳作[33],其本體類及屬性涵蓋范圍廣,包含科舉、愛(ài)情、復(fù)仇、民俗、迷信、鬼神等眾多題材,同時(shí)也涉及多個(gè)人物及語(yǔ)言, 選取該古籍作為實(shí)例構(gòu)建的本體模型涉及類目眾多, 具有普適性特點(diǎn),其知識(shí)發(fā)布及可視化呈現(xiàn)也可凸顯文學(xué)類古籍包含的地域與文化屬性?!读凝S志異》中的科舉類文章具有較高的代表意義, 它們是蒲松齡生活經(jīng)歷的折射, 也是他情感輸出的重要媒介[28] 。《聊齋志異·司文郎》在以科舉為題材的作品中具有典型的意義和價(jià)值[34] , 主人公王平子的青年才俊形象是作者原型在故事中的投射, 其科考經(jīng)歷更是“蒲松齡的化身”[35] 。在文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布過(guò)程中, 《聊齋志異·司文郎》不僅涉面廣, 內(nèi)涵也十分豐富[36] , 涵蓋本文所構(gòu)建本體模型的基本類目,實(shí)體屬性較多, 可通過(guò)關(guān)聯(lián)數(shù)據(jù)的可視化呈現(xiàn)讓用戶對(duì)該篇目有大致的了解, 其作為文學(xué)類古籍的代表性較好, 因此選取《聊齋志異·司文郎》對(duì)本文提出的文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布模型進(jìn)行實(shí)證研究。

      4.1發(fā)布模型數(shù)據(jù)層構(gòu)建——文學(xué)類古籍資源數(shù)據(jù)的采集和保存

      目前《聊齋志異》文言文版與白話文版的版本較多, 為保證數(shù)據(jù)來(lái)源的質(zhì)量, 本文結(jié)合蒲松齡研究院相關(guān)研究專家的意見(jiàn), 研究商討后最終確定本文數(shù)據(jù)主要來(lái)源于北京華夏出版社2012 年版蒲松齡(清)所寫的《聊齋志異》、上海古籍出版社2012 年版丁如明等翻譯的《聊齋志異全譯》、上海古籍出版社2011 年版(清) 蒲松齡、張友鶴校的《聊齋志異會(huì)校會(huì)注會(huì)評(píng)本》等權(quán)威書籍。經(jīng)采集后, 在文本識(shí)別抽取任務(wù)中ChatGPT 輸出69 條數(shù)據(jù), 經(jīng)人工核對(duì)后保留53 條數(shù)據(jù), 準(zhǔn)確度為768%,ChatGPT 在人物、地點(diǎn)、時(shí)間識(shí)別抽取任務(wù)中表現(xiàn)出色, 幾乎可精準(zhǔn)識(shí)別輸入文字中的人物、地點(diǎn)、時(shí)間實(shí)體并進(jìn)行相關(guān)三元組抽取, 但典故的識(shí)別與抽取效果不佳, 僅識(shí)別抽取到9 條數(shù)據(jù), 與通過(guò)深度學(xué)習(xí)算法進(jìn)行抽取操作相比耗費(fèi)時(shí)間大大減少,抽取效率大幅提升。與相關(guān)文獻(xiàn)數(shù)據(jù)合并、校對(duì)后,實(shí)例《聊齋志異·司文郎》最終獲得149 條數(shù)據(jù),包括題目數(shù)據(jù)1 條、文言版數(shù)據(jù)1 條、白話版數(shù)據(jù)1 條、體裁數(shù)據(jù)1 條、題材數(shù)據(jù)3 條、地點(diǎn)數(shù)據(jù)9條、人物數(shù)據(jù)19 條、職業(yè)數(shù)據(jù)1 條、任職事件數(shù)據(jù)3 條、書籍?dāng)?shù)據(jù)2 條、典故數(shù)據(jù)29 條(文學(xué)典故22 條、歷史典故4 條、神話典故3 條)、相關(guān)文獻(xiàn)數(shù)據(jù)77 條。將采集到的數(shù)據(jù)信息錄為CSV 格式,與采集到的關(guān)聯(lián)數(shù)據(jù)庫(kù)URI 同時(shí)保存到本地?cái)?shù)據(jù)集, 完成數(shù)據(jù)層的構(gòu)建, 為后續(xù)關(guān)聯(lián)數(shù)據(jù)發(fā)布提供數(shù)據(jù)支撐。

      4.2發(fā)布模型的數(shù)據(jù)網(wǎng)絡(luò)層構(gòu)建——文學(xué)類古籍資源關(guān)聯(lián)組織模型設(shè)計(jì)

      數(shù)據(jù)網(wǎng)絡(luò)層的核心為文學(xué)類古籍關(guān)聯(lián)組織模型的設(shè)計(jì)與構(gòu)建, 從而使數(shù)據(jù)層中的數(shù)據(jù)轉(zhuǎn)為機(jī)器可識(shí)別的RDF 形式。目前本體構(gòu)建常用方法有骨架法、七步法、TOVE 法等, 本文主要參照七步法構(gòu)建文學(xué)類古籍資源本體模型, 以本體復(fù)用與自建詞表相結(jié)合的方式設(shè)計(jì)本體模型框架, 提高其描述能力和精確度, 進(jìn)而描述文學(xué)類古籍資源概念、概念間的關(guān)系[37] 。本文復(fù)用的本體有都柏林核心元素集(Dublin Core Element Set, DC)[38] 、人物社交網(wǎng)絡(luò)本體詞表FOAF[39] 、GeoNames[40] 、上海圖書館開(kāi)放數(shù)據(jù)平臺(tái)等。其中, 上海圖書館開(kāi)放數(shù)據(jù)平臺(tái)中的中國(guó)歷史紀(jì)年表對(duì)我國(guó)歷史紀(jì)年的相關(guān)屬性進(jìn)行較為詳細(xì)的描述與規(guī)范, 平臺(tái)中有成熟的古籍本體表, 因此本文主要在此本體表基礎(chǔ)上進(jìn)行拓展, 參照前人處理方式, 將中國(guó)歷史紀(jì)年中的朝代與公元紀(jì)年中的具體時(shí)間節(jié)點(diǎn)視為包含與被包含關(guān)系[41] ,如“清” 包含“1687”。根據(jù)文學(xué)類古籍資源實(shí)體及屬性, 構(gòu)建LBR(Literature Books Resource)詞表對(duì)實(shí)體屬性描述進(jìn)行補(bǔ)充, 結(jié)合相關(guān)專家意見(jiàn)進(jìn)行調(diào)整后, 最終確定4 個(gè)類與40 個(gè)屬性, 數(shù)據(jù)屬性與對(duì)象屬性如表1、表2 所示。

      對(duì)文學(xué)類古籍資源中的實(shí)體設(shè)定符合自身特點(diǎn)的屬性后, 借助Protégé 軟件進(jìn)行工程化建模, 形成標(biāo)識(shí)為http:/ / www.w3.org/2002/07/ owl#的LBR關(guān)聯(lián)數(shù)據(jù)庫(kù)URI, 完成對(duì)文學(xué)類古籍資源知識(shí)的細(xì)粒度組織, 也是本文對(duì)于文學(xué)古籍資源數(shù)字化研究的創(chuàng)新點(diǎn)與特色。同時(shí), 梳理文學(xué)類古籍知識(shí)間的邏輯結(jié)構(gòu), 進(jìn)一步細(xì)化各知識(shí)單元的內(nèi)在關(guān)聯(lián), 最終構(gòu)建了文學(xué)類古籍資源關(guān)聯(lián)組織模型, 該模型涵蓋了大部分文學(xué)類古籍資源中的實(shí)體及屬性要素,基本可以描述文學(xué)類古籍資源的共同屬性, 具有一定的通用性與普適性, 如圖5所示。

      4.3發(fā)布模型的數(shù)據(jù)融合層構(gòu)建——文學(xué)類古籍關(guān)聯(lián)數(shù)據(jù)的發(fā)布

      為實(shí)現(xiàn)文學(xué)類古籍知識(shí)的可查找、可訪問(wèn)、可交互與可再用(FAIR 原則)的目標(biāo)[15] , 本文主要使用CCK 模塊、evoc 模塊與RDFUI 模塊完成數(shù)據(jù)融合層的構(gòu)建。首先借助CCK 模塊新建“人物” “時(shí)間” “地點(diǎn)” “文章” 4 個(gè)內(nèi)容類型并設(shè)置相應(yīng)的字段。以時(shí)間內(nèi)容類型為例, 添加“field_hasbegin?ning” “field_hasend” 等字段方便后續(xù)完成中國(guó)歷史紀(jì)年與中國(guó)公元紀(jì)年的映射。其次, 根據(jù)文學(xué)類古籍資源關(guān)聯(lián)組織模型中的數(shù)據(jù)屬性與對(duì)象屬性,借助Node Reference 模塊設(shè)置節(jié)點(diǎn)關(guān)聯(lián)字段, 其余字段類型根據(jù)其特點(diǎn)進(jìn)行一一設(shè)置。Drupal 站點(diǎn)中已內(nèi)化了content、dc、foaf 等元數(shù)據(jù)詞匯集, 因此在RDF 數(shù)據(jù)映射過(guò)程中只需通過(guò)evoc 模塊導(dǎo)入SHL、GeoNames、LBR 等本體URI,根據(jù)文學(xué)類古籍資源關(guān)聯(lián)組織模型, 通過(guò)RDFUI 模塊建立平臺(tái)內(nèi)部屬性與外部詞表的映射關(guān)系, 將RDF 數(shù)據(jù)全部映射到Druapl 站點(diǎn)并存儲(chǔ)。

      將《聊齋志異·司文郎》本地?cái)?shù)據(jù)集導(dǎo)入平臺(tái)后, 形成如圖6 所示文學(xué)類古籍資源關(guān)聯(lián)化實(shí)例圖。從圖6 可以看出, 人物、時(shí)間、地點(diǎn)、文章部分實(shí)現(xiàn)了一定程度上的互聯(lián)互通, 其內(nèi)部實(shí)體也存在相互間的關(guān)聯(lián)性, 通過(guò)對(duì)這4 個(gè)部分的數(shù)據(jù)信息整合,基本可以展現(xiàn)出一篇故事中的資源信息, 可對(duì)文學(xué)類古籍資源知識(shí)進(jìn)行全面、具體的呈現(xiàn)。

      4.4發(fā)布模型的應(yīng)用層與表現(xiàn)層構(gòu)建——文學(xué)類古籍關(guān)聯(lián)數(shù)據(jù)發(fā)布平臺(tái)的呈現(xiàn)

      根據(jù)圖6所示的關(guān)聯(lián)化實(shí)例, 結(jié)合應(yīng)用層對(duì)專業(yè)用戶與普通用戶的文學(xué)類古籍資源知識(shí)需求分析結(jié)果, 在關(guān)聯(lián)數(shù)據(jù)發(fā)布平臺(tái)頁(yè)面中添加搜索框、分類目錄等模塊完成表現(xiàn)層的構(gòu)建, 實(shí)現(xiàn)實(shí)例化關(guān)聯(lián)數(shù)據(jù)發(fā)布平臺(tái)的呈現(xiàn)。

      1) 在知識(shí)數(shù)據(jù)展示方面,平臺(tái)頁(yè)面中可直觀瀏覽此篇文章中的題目、版本等屬性信息, 將文言文與白話文數(shù)據(jù)同一頁(yè)面展現(xiàn), 輔助以相關(guān)文章、相關(guān)人物等知識(shí)節(jié)點(diǎn)鏈接, 減少普通用戶閱讀障礙,快速概覽此篇文章包含知識(shí)。

      2) 在知識(shí)關(guān)聯(lián)化呈現(xiàn)方面, 用戶可以通過(guò)點(diǎn)擊某一頁(yè)面節(jié)點(diǎn)跳轉(zhuǎn)至相關(guān)頁(yè)面, 瀏覽此節(jié)點(diǎn)信息的相關(guān)知識(shí), 如在文章內(nèi)容類型“司文郎” 的可視化展示頁(yè)面點(diǎn)擊地點(diǎn)“南京” 可跳轉(zhuǎn)至地點(diǎn)內(nèi)容類型“南京” 的可視化展示頁(yè)面, 在該頁(yè)面中展示南京的現(xiàn)名、古名等屬性信息, 同時(shí)也可直觀看到與“南京” 相關(guān)的人物與文章, 滿足專業(yè)用戶系統(tǒng)化獲取知識(shí)需要的同時(shí)方便普通用戶利用較短時(shí)間了解、獲取某一特定知識(shí)節(jié)點(diǎn)的知識(shí)網(wǎng)絡(luò)。

      3) 在知識(shí)檢索方面, 平臺(tái)右側(cè)設(shè)置檢索欄與“人物”“地點(diǎn)”“文章”“時(shí)間”4個(gè)基本類目模塊, 專業(yè)用戶與普通用戶均可根據(jù)自身需求, 從某一特定屬性信息出發(fā)了解與該屬性信息相關(guān)的所有文學(xué)類古籍知識(shí)信息, 通過(guò)點(diǎn)擊任意基本類目模塊訪問(wèn)該類目下的所有實(shí)體目錄, 可迅速掌握某一基本類目概貌, 滿足用戶的知識(shí)查詢需求。因網(wǎng)頁(yè)在電腦端呈現(xiàn)大小有限, 本文截取部分知識(shí)服務(wù)平臺(tái)內(nèi)容, 可視化展示效果如圖7、圖8 所示。

      通過(guò)此實(shí)例, 平臺(tái)在一定程度上實(shí)現(xiàn)了對(duì)文學(xué)類古籍資源知識(shí)的全面、直觀呈現(xiàn), 揭示文學(xué)類古籍資源知識(shí)內(nèi)涵的同時(shí), 實(shí)現(xiàn)了各實(shí)體屬性信息之間的關(guān)聯(lián)互訪性, 驗(yàn)證了本文提出的文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布模型的可行性, 完成了基于關(guān)聯(lián)數(shù)據(jù)技術(shù)對(duì)文學(xué)類古籍資源關(guān)聯(lián)組織與數(shù)字化實(shí)踐研究的實(shí)驗(yàn)性探索, 為文學(xué)類古籍資源知識(shí)發(fā)現(xiàn)提供了潛在關(guān)聯(lián)關(guān)系發(fā)現(xiàn)、知識(shí)網(wǎng)絡(luò)化表達(dá)研究的新視角。

      5研究結(jié)論

      本文研究結(jié)果表明,以文學(xué)類古籍關(guān)聯(lián)組織模型為基礎(chǔ), 以GPT 技術(shù)、用戶需求分析與關(guān)聯(lián)數(shù)據(jù)技術(shù)為支撐進(jìn)行關(guān)聯(lián)數(shù)據(jù)發(fā)布的思路, 能夠滿足文學(xué)類古籍資源知識(shí)服務(wù)平臺(tái)的構(gòu)建需求, 能夠在一定程度上支撐和引導(dǎo)文學(xué)類古籍資源向語(yǔ)義化、實(shí)用化方向進(jìn)行組織。

      本文主要有3個(gè)創(chuàng)新點(diǎn): 一是選取文學(xué)類古籍資源作為研究對(duì)象, 運(yùn)用大語(yǔ)言模型結(jié)合其結(jié)構(gòu)要素特征對(duì)其數(shù)字化實(shí)踐研究做出探索, 通過(guò)實(shí)例進(jìn)行驗(yàn)證, 實(shí)現(xiàn)文學(xué)類古籍資源的關(guān)聯(lián)組織與關(guān)聯(lián)發(fā)布。二是改進(jìn)、完善了現(xiàn)有的關(guān)聯(lián)發(fā)布框架, 提出包含數(shù)據(jù)層、數(shù)據(jù)網(wǎng)絡(luò)層、數(shù)據(jù)融合層、應(yīng)用層以及表現(xiàn)層5個(gè)層面的文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布模型, 設(shè)計(jì)包含4 個(gè)基本類目的文學(xué)類古籍關(guān)聯(lián)組織模型, 增大文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布模型的適配性。三是提出將GPT 技術(shù)、用戶需求分析與關(guān)聯(lián)數(shù)據(jù)技術(shù)相結(jié)合以提高文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布效果, 使發(fā)布的實(shí)例平臺(tái)更貼合實(shí)際需求,促進(jìn)應(yīng)用落地。與已有的關(guān)聯(lián)數(shù)據(jù)發(fā)布成果相比,本模型在數(shù)據(jù)整合上更全面, 在跨文本關(guān)聯(lián)、多維關(guān)聯(lián)上更完整, 實(shí)用性更強(qiáng)。此外, 從多維度劃分文學(xué)類古籍資源知識(shí)對(duì)其他古籍知識(shí)聚合與數(shù)字化實(shí)踐有一定啟發(fā)意義, 能夠促進(jìn)古籍的數(shù)字化服務(wù)模式, 滿足大眾對(duì)古籍文化的知識(shí)需求。

      本文研究局限性和不足在于: 第一,Drupal平臺(tái)數(shù)據(jù)量較大時(shí)需借助其他軟件和工具實(shí)現(xiàn)自動(dòng)連接, 且選擇的存儲(chǔ)模塊ARC2適用于小型的數(shù)據(jù)庫(kù),若數(shù)據(jù)量偏大且數(shù)據(jù)類型復(fù)雜時(shí), 需選用更為有效的轉(zhuǎn)換工具。第二, 本文的數(shù)據(jù)量偏小,以個(gè)案《聊齋志異·司文郎》進(jìn)行實(shí)證研究, 數(shù)據(jù)采集范圍有待進(jìn)一步擴(kuò)大,以實(shí)現(xiàn)從個(gè)案向全案拓展。后續(xù)研究將對(duì)文學(xué)類古籍資源內(nèi)部特征進(jìn)行深入挖掘,引入技術(shù)驅(qū)動(dòng)、人機(jī)結(jié)合的數(shù)據(jù)處理機(jī)制,多維度、細(xì)粒度地挖掘文學(xué)古籍人文性知識(shí), 探索文學(xué)類古籍資源的數(shù)字化應(yīng)用模式。

      隆德县| 广州市| 巴塘县| 宁津县| 盖州市| 绍兴县| 秭归县| 龙泉市| 龙游县| 榆社县| 根河市| 水富县| 建昌县| 江川县| 芷江| 驻马店市| 台东市| 闻喜县| 静宁县| 曲麻莱县| 高台县| 阿巴嘎旗| 汉沽区| 高密市| 钟山县| 锡林浩特市| 盐山县| 修武县| 沽源县| 通榆县| 建宁县| 东宁县| 青田县| 行唐县| 阿巴嘎旗| 明星| 司法| 社会| 镇巴县| 资阳市| 四会市|