• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向數(shù)字記憶開發(fā)利用的檔案檢索模型構(gòu)建研究*

      2021-02-14 03:52:28房小可
      數(shù)字圖書館論壇 2021年11期
      關(guān)鍵詞:檢索實(shí)體語義

      房小可

      (北京聯(lián)合大學(xué)應(yīng)用文理學(xué)院,北京 100191)

      自1994年美國記憶啟動(dòng)以來,數(shù)字記憶項(xiàng)目在全球范圍生長蔓延,建設(shè)主體和主題類型豐富多樣,很快形成繁茂景象[1]。不僅成立了國家記憶項(xiàng)目如美國記憶、中國記憶等,地區(qū)層面的記憶項(xiàng)目也層出不窮,如北京記憶、香港記憶等。更有泛在用戶參與的面向數(shù)字記憶建構(gòu)的檔案著錄工具ICA-AtoM(Access to memory)[2]。此外,在《中華人民共和國國民經(jīng)濟(jì)和社會發(fā)展第十四個(gè)五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》[3]中,也強(qiáng)調(diào)要加快數(shù)字化發(fā)展,建設(shè)數(shù)字中國。檔案學(xué)領(lǐng)域也開展了檔案與社會記憶、城市記憶、國家記憶之間的探索,提出并論證了“檔案記憶觀”理論[4]?!皺n案記憶觀”重要的內(nèi)核之一是“檔案具有記憶屬性”[5]。在數(shù)字記憶已成為研究重點(diǎn)的當(dāng)下,對檔案承載的記憶進(jìn)行構(gòu)建和挖掘,從而實(shí)現(xiàn)數(shù)字記憶的開發(fā)利用是值得研究的問題。對數(shù)字記憶開發(fā)利用比較普遍的方式是構(gòu)建數(shù)字記憶網(wǎng)站,如美國9·11數(shù)字檔案網(wǎng)站、佛羅里達(dá)州記憶網(wǎng)站等。信息檢索是檔案開發(fā)利用的關(guān)鍵方法,檔案檢索程度和質(zhì)量直接關(guān)系著檔案的開發(fā)利用程度和質(zhì)量[6],這些記憶網(wǎng)站均有在線分類瀏覽和檔案主題檢索的功能,用戶通過關(guān)鍵詞檢索可獲得匹配的檔案資源。然而,記憶是對過去的感知與再現(xiàn),每個(gè)故事均有一定的結(jié)構(gòu)特征,包括敘述者、情節(jié)、場景、人物、危機(jī)與結(jié)局,那些能夠記憶并再現(xiàn)出來的經(jīng)歷會成為故事所敘述的基本內(nèi)容[7]。在數(shù)字化轉(zhuǎn)型時(shí)代背景下,針對大量的數(shù)字記憶僅以數(shù)字化的檔案照片或文件的形式將檢索記憶結(jié)果反饋給用戶是不夠的,需要針對檔案所承載記憶的結(jié)構(gòu)特征,細(xì)粒度挖掘記憶要素,實(shí)現(xiàn)細(xì)粒度化的檔案檢索。本文正是以此為研究切入點(diǎn),將數(shù)字記憶網(wǎng)站中的檢索模塊單獨(dú)提出,面向數(shù)字記憶的開發(fā)利用來構(gòu)建檔案檢索模型,為數(shù)字記憶細(xì)粒度開發(fā)利用提供借鑒。

      1 國內(nèi)外研究現(xiàn)狀

      由于直接面向數(shù)字記憶開發(fā)利用而構(gòu)建檔案檢索模型的研究比較少,本文擬分別從檔案視角下數(shù)字記憶開發(fā)利用和檔案檢索兩部分來進(jìn)行梳理。

      1.1 檔案視角下數(shù)字記憶的開發(fā)利用研究現(xiàn)狀

      數(shù)字記憶的開發(fā)利用從開發(fā)視角上可分為三方面:一是數(shù)字記憶開發(fā)路徑研究,即從橫向開發(fā)主體到縱向信息資源采集、整理及利用的整體視角提出數(shù)字記憶開發(fā)方案。例如:霍艷芳等[8]用數(shù)字人文的理念與方法重新審視城市記憶資源建設(shè)模式,提出從資源采集到資源數(shù)據(jù)庫搭建的全流程來優(yōu)化傳統(tǒng)資源整合模式和開發(fā)路徑;Mina等[9]認(rèn)為數(shù)字轉(zhuǎn)型下文化傳統(tǒng)與城市生活密不可分,對此作者梳理當(dāng)?shù)匚幕夹g(shù)方面的舉措,并以歐洲數(shù)字圖書館為例,介紹文化數(shù)字化方面取得的主要成就。二是數(shù)字記憶平臺建設(shè)研究,即從資源采集到開發(fā)整體流程為主線,實(shí)現(xiàn)檔案開發(fā)利用的虛擬平臺。例如:馮惠玲等[10]在數(shù)字記憶理念下,以浙江臺州古村落為對象,對已有資料進(jìn)行數(shù)字化采集、加工,實(shí)現(xiàn)“記·憶高遷”網(wǎng)站平臺的建設(shè);Spagnoli[11]認(rèn)為“臨時(shí)展覽虛擬檔案”項(xiàng)目涉及開發(fā)在線檔案,從而能夠記錄、保存和提供與臨時(shí)展覽和文化活動(dòng)設(shè)計(jì)有關(guān)的數(shù)字材料,由此可將虛擬檔案館和博物館作為保存和記錄虛擬檔案的主體,從而在文化遺產(chǎn)價(jià)值等方面發(fā)揮作用。三是面向數(shù)字記憶開發(fā)利用的檔案資源建設(shè)研究,包括對檔案資源庫的建設(shè)、檔案異構(gòu)數(shù)據(jù)整合及檔案知識圖譜開發(fā)等。例如:牛力等[12]從異構(gòu)記憶資源整合對象、整合基礎(chǔ)、整合思路與整合技術(shù)四方面對異構(gòu)記憶資源整合的研究現(xiàn)狀進(jìn)行系統(tǒng)梳理并剖析當(dāng)前問題,提出解決對策;Hsieh等[13]針對我國臺灣地區(qū)體育事業(yè),將體育界重要人物的珍貴文物檔案數(shù)字化,并構(gòu)建數(shù)據(jù)庫,進(jìn)而通過線上線下開發(fā)提供體育文化多樣性展示。

      以檔案為視角的數(shù)字記憶開發(fā)利用,其研究更多是基于某些開發(fā)手段形成數(shù)字記憶的展示形式(如網(wǎng)站、展覽等),而未對檔案中記憶的故事性和敘事性內(nèi)容進(jìn)行深度挖掘,且對于數(shù)字記憶的進(jìn)一步檢索利用研究較少。

      1.2 檔案檢索研究現(xiàn)狀

      2000年以后,檔案檢索集中在以下三方面。一是檔案網(wǎng)站檢索研究,如趙屹等[14]以美國網(wǎng)絡(luò)檔案檢索系統(tǒng)ARC為例,從檔案源、著錄項(xiàng)、檢索途徑、檢索新功能、系統(tǒng)數(shù)據(jù)及檢索性能介紹NARA提供的檢索工具。二是信息描述與元數(shù)據(jù)研究,例如:Riley等[15]討論了可共享元數(shù)據(jù)原理及應(yīng)用于檔案描述所涉及的問題、工具和策略;王蘭成[16]從語義視角研究基于語義的檔案信息整合及基于XML、EAD異構(gòu)檔案信息組織及其本體方法的應(yīng)用。三是檔案檢索系統(tǒng)研究,例如:趙雪芹[17]通過分析現(xiàn)行檢索服務(wù)存在的弊端及用戶面臨檢索困境,提出將資源發(fā)現(xiàn)服務(wù)作為一種高效便捷的資源揭示和檢索系統(tǒng);Ricardo[18]在基于可擴(kuò)展標(biāo)記語言EAC-CPF(編碼檔案上下文)基礎(chǔ)上,提出用于檔案信息系統(tǒng)的協(xié)作框架,該框架支持輔助導(dǎo)航和主題映射,并提供語義豐富的訪問層以確保不同歸檔保存記錄的位置,改善了用戶與網(wǎng)絡(luò)的交互體驗(yàn)方式。

      上述研究可知,對檔案檢索的研究大體上是將檔案視為一種普通信息資源來處理,但檔案承載的記憶具有故事性。未對檔案承載的記憶特征進(jìn)行分析而直接實(shí)現(xiàn)檢索服務(wù),難以為用戶提供精準(zhǔn)的檔案服務(wù),影響檔案價(jià)值的挖掘與傳承。

      總的來說,數(shù)字記憶開發(fā)利用及檔案檢索具有開發(fā)針對性不夠明確、開發(fā)深度不足、展現(xiàn)形式缺乏細(xì)粒度化的問題。由此,本文針對數(shù)字記憶本身的特征,基于語義分析等方法,通過檢索模型實(shí)現(xiàn)數(shù)字記憶的細(xì)粒度敘事型展現(xiàn),支持?jǐn)?shù)字記憶的深度開發(fā)利用,發(fā)揮檔案所承載記憶的歷史及文化價(jià)值。

      2 數(shù)字記憶與檔案檢索的邏輯關(guān)系

      2.1 數(shù)字記憶開發(fā)利用與檔案檢索模型存在目標(biāo)統(tǒng)一性

      信息檢索模型是對文檔和查詢進(jìn)行表示以及對它們之間的相關(guān)性進(jìn)行描述的模型,實(shí)際上是為滿足用戶需求對信息資源進(jìn)行重組而設(shè)計(jì)的一套匹配模式。因此,檔案檢索模型的構(gòu)建目標(biāo)是為了滿足檔案用戶需求,從而促進(jìn)檔案價(jià)值的開發(fā)利用。數(shù)字記憶的概念最早由中國人民大學(xué)馮惠玲教授提出,其本身代表著數(shù)字技術(shù)和社會記憶的火花碰撞,隨著社會數(shù)字轉(zhuǎn)型,逐漸從成為社會記憶的主要形態(tài)。在馮惠玲教授所主持的“北京記憶”項(xiàng)目實(shí)踐中,將其初步定義為應(yīng)用數(shù)字技術(shù)對各種記憶資源進(jìn)行數(shù)字化組織與再現(xiàn),使之達(dá)到可解讀、可保存、可關(guān)聯(lián)、可再組、可傳播與共享,進(jìn)而支持?jǐn)?shù)字時(shí)代集體記憶的構(gòu)建與傳承[19]??梢?,數(shù)字記憶開發(fā)利用的目標(biāo)之一是對信息資源組織與再現(xiàn)從而滿足用戶的需求,實(shí)現(xiàn)共享利用。這種對于檔案資源的重組以滿足用戶的需求,二者的目標(biāo)具有統(tǒng)一性。

      2.2 檔案檢索是數(shù)字記憶得以有效利用的途徑

      數(shù)字記憶是否得到有效利用與是否滿足用戶需求緊密相關(guān)。筆者在前期研究梳理中發(fā)現(xiàn),檔案界主要是以檔案館為中心參與社會記憶構(gòu)建工作,通過編研、展覽、拍攝視頻等方式進(jìn)行社會記憶的傳播[20]。這些基本是從價(jià)值論層面來考慮數(shù)字記憶產(chǎn)品的提供利用問題,缺乏從需求論層面即直接從用戶需求的角度探討提供利用;檔案檢索是根據(jù)用戶提出顯性需求(如輸入查詢詞等方式)為用戶提供記憶資源,屬于需求論層面范疇。因此,在數(shù)字社會的當(dāng)下,檔案檢索不失為數(shù)字記憶有效利用的途徑之一。需要進(jìn)一步說明的是,隨著檔案數(shù)據(jù)化的不斷深入發(fā)展,需要將檔案進(jìn)行數(shù)據(jù)化處理,即以數(shù)據(jù)為起點(diǎn)進(jìn)行數(shù)字記憶構(gòu)建及開發(fā)利用,對此也有學(xué)者提出基于數(shù)字人文視角的社會記憶構(gòu)建[21]。從檔案粒度上看,可構(gòu)建檔案數(shù)據(jù)化范疇下的檔案檢索模型以支持?jǐn)?shù)字記憶的有效開發(fā)利用。

      2.3 數(shù)字記憶的呈現(xiàn)方式影響檔案檢索模型的信息組織粒度

      馮惠玲[1]根據(jù)記憶資源的呈現(xiàn)方式,將數(shù)字記憶粗略劃分為展陳型和敘事型。展陳型主要是將一定專題的記憶進(jìn)行系統(tǒng)化展示,以原生資源訴說記憶,體現(xiàn)為語義連續(xù)性。以往的數(shù)字記憶開發(fā)利用更多是此種展示形式。敘事型則主要是在該專題研究基礎(chǔ)上,用數(shù)字資源體系化、邏輯化、敘述式地呈現(xiàn)客體記憶,可以是語義分散式的檔案表達(dá)。由前文可知,檔案檢索是根據(jù)用戶提出顯性需求的方式為用戶提供記憶資源,檢索得到的記憶呈現(xiàn)形式既可以是客觀展示的粗粒度全文展示模式,也可以是邏輯化呈現(xiàn)的細(xì)粒度可視化展示模式。

      綜上,數(shù)字記憶和檔案檢索模型存在目標(biāo)統(tǒng)一、途徑相通、互為影響的內(nèi)在關(guān)聯(lián),因此從檔案檢索模型的角度呈現(xiàn)數(shù)字記憶并實(shí)現(xiàn)其開發(fā)利用是可行的,也是值得研究的。

      3 數(shù)字記憶開發(fā)利用視角下的檔案檢索模型構(gòu)建

      由前文可知,信息檢索模型有兩個(gè)重要要素,即信息表示和相關(guān)性匹配;數(shù)字記憶基本分為展陳型和敘事型兩種呈現(xiàn)方式。如何基于檔案信息表示和相關(guān)性匹配實(shí)現(xiàn)展陳型和敘事型兩種展現(xiàn)形式是本部分需要解決的問題。面向展陳型的檔案檢索與以往的檢索無差別,即基于著錄項(xiàng)目實(shí)現(xiàn)檢索結(jié)果的某種次序展現(xiàn)即可;需要說明的是,面向敘事型的檔案檢索,由文獻(xiàn)[7]可知,記憶是對過去的感知與再現(xiàn),每個(gè)故事均有一定的結(jié)構(gòu)特征,包括敘述者、情節(jié)、場景、人物、危機(jī)與結(jié)局,那些能夠記憶并再現(xiàn)出來的經(jīng)歷會成為故事所敘述的基本內(nèi)容。因此,呈現(xiàn)敘事型檢索結(jié)果的前提不只是依據(jù)著錄項(xiàng)目,更重要的是需要對檔案承載的記憶進(jìn)行記憶實(shí)體的挖掘和語義組織,即記憶要素的識別以及要素之間的關(guān)聯(lián)構(gòu)建。以此為依據(jù),本文構(gòu)建的面向數(shù)字記憶開發(fā)利用的檔案檢索模型如圖1所示。其中面向展陳型的檔案檢索模塊與當(dāng)前檔案檢索模式基本一致,即將檔案數(shù)字化并建立索引庫,實(shí)現(xiàn)基于案卷名、文件名、文件形成時(shí)間等著錄項(xiàng)目的檢索,獲取檔案數(shù)字化副本。面向敘事型的檔案檢索模塊構(gòu)建的前提是將檔案數(shù)據(jù)化,進(jìn)而根據(jù)敘事特征和需求提取數(shù)字記憶的敘事要素及其語義關(guān)聯(lián),通過建立要素索引獲取敘事網(wǎng)絡(luò),技術(shù)上實(shí)現(xiàn)語義檢索,服務(wù)上還原事件的來龍去脈。依據(jù)模型擬解決的關(guān)鍵問題,本部分著重闡述面向敘事型的檔案檢索模塊。

      圖1 數(shù)字記憶視角下檔案檢索模型

      3.1 檔案信息中數(shù)字記憶要素提取

      筆者以往的研究中,已對社會記憶要素進(jìn)行了分析和揭示,從歷史題材角度提取故事基本內(nèi)容的骨架元素,即為社會記憶要素[22],其元素應(yīng)包括時(shí)間、地點(diǎn)、人物、事件、主題五類要素。數(shù)字記憶作為社會記憶數(shù)字轉(zhuǎn)型的主要形態(tài),同樣應(yīng)包含這五類要素。時(shí)間要素和地點(diǎn)要素指該事件發(fā)生過程中出現(xiàn)的重要時(shí)間和重要地點(diǎn);人物要素包括事件中出現(xiàn)的真實(shí)人物、組織團(tuán)體或機(jī)構(gòu)等;事件要素即一次活動(dòng)或多次活動(dòng)的集合,體現(xiàn)在案卷題名或文件題名中;主題要素是整個(gè)事件的重要故事節(jié)點(diǎn)。

      數(shù)字記憶的各要素,時(shí)間、地點(diǎn)、人物、事件,從信息檢索學(xué)科角度看均屬于命名實(shí)體;而主題要素作為事件的主要內(nèi)容可通過主題模型或聚類等方式提取。因此,數(shù)字記憶要素提取工作可轉(zhuǎn)換為命名實(shí)體識別及主題挖掘兩項(xiàng)任務(wù)。

      3.1.1 基于規(guī)則方法的時(shí)間和地點(diǎn)命名實(shí)體識別

      命名實(shí)體識別的方法主要分為兩種,一是基于規(guī)則和字典的方法,二是基于統(tǒng)計(jì)的方法?;谝?guī)則的方法和基于字典的方法都是要構(gòu)建大量的規(guī)則集或字典,然后按照需求將需要識別的漢字串放入制定的規(guī)則集中或與所構(gòu)建的字典進(jìn)行匹配,經(jīng)過多次修正直到匹配成功。具有代表性的是Colllins等[23]提出先定義種子規(guī)則集Decision List,再根據(jù)語料對該集合進(jìn)行無監(jiān)督的訓(xùn)練迭代得到更多的規(guī)則,最終將規(guī)則集用于命名實(shí)體的分類?;谝?guī)則的實(shí)體識別比較適用于形勢比較固定、規(guī)則比較容易提取的命名實(shí)體,如時(shí)間、地名。由此,檔案數(shù)字記憶的時(shí)間和地點(diǎn)要素可基于規(guī)則的命名實(shí)體識別方法。

      3.1.2 基于統(tǒng)計(jì)的人物和事件命名實(shí)體識別

      基于統(tǒng)計(jì)的命名實(shí)體識別,目前比較有效的是序列化標(biāo)注方法,即對于文本中每個(gè)詞,可以有若干個(gè)候選的類別標(biāo)簽,這些標(biāo)簽對應(yīng)其在各類命名實(shí)體中所處的位置,對其進(jìn)行訓(xùn)練進(jìn)而實(shí)現(xiàn)分類。如GU等[24]運(yùn)用條件隨機(jī)場和知識庫,通過分析中文名字的特征,將中文人名的訓(xùn)練集進(jìn)行序列標(biāo)識,并對測試集進(jìn)行命名實(shí)體識別。

      檔案信息中數(shù)字記憶的人物要素和事件要素與時(shí)間和地點(diǎn)實(shí)體不同,表達(dá)形式一般為自然語言,但是也有規(guī)律可循。對于人名,其上文一般是“稱呼”“職銜”,下文一般是“先生”“同志”“說”之類的稱謂詞或動(dòng)詞,根據(jù)具體情況對數(shù)據(jù)集進(jìn)行序列標(biāo)識。以一份民國檔案文件“里昂中法大學(xué)寫給校董蔡元培先生的信件”作為分析,對于“蔡元培”這一人名要素名稱,人名前是“職銜”的稱呼,即“校董”,人名后是稱謂詞“先生”。如果對整個(gè)句子從人名內(nèi)部組成、上下文、無關(guān)詞進(jìn)行標(biāo)注,對整個(gè)句子進(jìn)行標(biāo)注的結(jié)果是:“里昂中法大學(xué)/RN 寫/RN 給/RN 校董/RQ 蔡/RX 元/RM 培/RM 先生/RH 的/RN 信件/RN”,其中RN表示與人名無關(guān)的語詞,RQ是人名上文的詞,RX是人名的姓氏,RM是人名的名字,RH是人名后文的詞。然后通過基于Viterbi算法的自動(dòng)標(biāo)注和識別得到人名實(shí)體。事件要素同理,這里不再贅述。因此檔案數(shù)字記憶中人物要素和事件要素可考慮基于統(tǒng)計(jì)的命名實(shí)體識別方法。

      3.1.3 主題要素的提取

      Blei等[25]于2003年提出了隱含狄利克雷分配(Latent Dirichlet Allocation,LDA)模型,該模型對參數(shù)自身提出了先驗(yàn)假設(shè),屬于完全概率生成模型,因此是一個(gè)三層貝葉斯模型。與PLSA相同,LDA假設(shè)文檔表示為主題的概率分布,而主題表示為詞語的概率分布,是目前應(yīng)用廣泛的模型之一。學(xué)者基于研究對象的不同,對LDA主題模型進(jìn)行了拓展和改良,最具有代表性的改良LDA模型包括:基于ATM(AuthorTopic Model)的主題建模、Twitter-LDA主題建模和基于Labeled LDA的主題建模等。本文選用LDA模型實(shí)現(xiàn)主題挖掘。

      基于LDA的檔案信息主題挖掘的主要思想是,認(rèn)為每份文件是若干主題的混合分布,而每個(gè)主題又是由若干詞匯(包含命名實(shí)體)組成的概率分布。因此可以將每份文件表示為這些隱含主題的概率分布(file-topic),而每個(gè)隱含主題可表示為詞匯的概率分布(topic-word)。主題要素豐富了記憶的敘事性,是數(shù)字記憶不可缺少的再現(xiàn)情境。

      3.2 數(shù)字記憶要素語義關(guān)聯(lián)抽取

      數(shù)字記憶要素語義關(guān)聯(lián)抽取實(shí)際上分為兩種類型的關(guān)系抽取:一是實(shí)體關(guān)系抽取,如人物-地點(diǎn)、人物-事件,或者要素內(nèi)部實(shí)體如人名-機(jī)構(gòu)名、事件1-事件2等;二是主題之間的語義關(guān)系抽取。

      對于實(shí)體關(guān)系抽取,已有的方法主要是從語料信息中提取詞性、句法結(jié)構(gòu)、語義依存關(guān)系等表面特征和結(jié)構(gòu)化特征,并用模式匹配、特征向量和基于核函數(shù)的方法對實(shí)體對之間的關(guān)系進(jìn)行分類[26]。這些實(shí)體關(guān)系抽取方法前期對自然語言處理工具具有較強(qiáng)的依賴性,因此受到自然語言工具處理結(jié)果的影響。深度學(xué)習(xí)的概念最早是在2006年由Hinton等[27]正式提出?;谏疃葘W(xué)習(xí)的實(shí)體抽取方法能夠自動(dòng)提取特征,減少對人工的依賴,且具有良好的泛化能力,可用于抽取大規(guī)模文本數(shù)據(jù)。其中,CNN和RNN是實(shí)體關(guān)系抽取中應(yīng)用比較廣泛的網(wǎng)絡(luò)模型,考慮兩種模型對文本處理的效果,本文選擇RNN作為實(shí)體關(guān)系抽取模型,并引入注意力機(jī)制為每個(gè)實(shí)體計(jì)算一個(gè)關(guān)系權(quán)重,以此提取數(shù)字記憶基因鏈,為后續(xù)數(shù)字記憶檢索敘事化呈現(xiàn)提供數(shù)據(jù)支持。

      對于主題之間的語義關(guān)系抽取,可根據(jù)向量之間的相似度抽取主題之間的語義強(qiáng)弱關(guān)系。由前文可知,每個(gè)主題由若干個(gè)有實(shí)際意義的詞匯組成,若干詞匯概率形成概率分布,因此每個(gè)主題可用一系列具備概率權(quán)值的詞向量表示。運(yùn)用主題向量之間的余弦相似性計(jì)算可得到每個(gè)主題之間的相似度值,值越大說明兩個(gè)主題越相關(guān),反之越不相關(guān)。

      3.3 索引庫建立及檔案信息匹配

      索引款目是有關(guān)信息資源所涉及的主題、事物及其他特征的信息單元,并指向其地址的一條記錄[28]。因此,對于數(shù)字記憶中的索引庫除了包含構(gòu)建以原有著錄項(xiàng)目中的關(guān)鍵詞索引,還應(yīng)構(gòu)建數(shù)字記憶要素索引,即人物要素包含的人名索引、機(jī)構(gòu)索引,以及其他要素中包含的時(shí)間索引、地名索引、事件索引和主題索引。索引地址指向與索引詞具有語義關(guān)聯(lián)的重要數(shù)字記憶要素,呈現(xiàn)實(shí)體語義關(guān)聯(lián),體現(xiàn)數(shù)字記憶基因鏈,還原事件來龍去脈和歷史原貌。

      模型根據(jù)用戶輸入查詢詞提取用戶需求,形成布爾邏輯表達(dá)式,如果表達(dá)式提取后只對應(yīng)一個(gè)語詞,可以直接將提取的語詞與索引進(jìn)行匹配,一方面可得到以該語詞為關(guān)鍵詞的展陳型數(shù)字化檔案;另一方面提取包含該語詞的事件基因鏈。例如,在含有北京聯(lián)合大學(xué)校址記憶的檔案信息中,用戶輸入詞為“北京聯(lián)合大學(xué)應(yīng)用文理學(xué)院”,則可基于關(guān)鍵詞的全文檢索獲取該詞所在的數(shù)字化文件或資料,得到展陳型的檢索結(jié)果;進(jìn)一步地,依據(jù)已有的事件的語義關(guān)聯(lián),獲取從實(shí)體到實(shí)體的發(fā)展鏈條,如從“中國人民大學(xué)二分?!钡健氨本┞?lián)合大學(xué)應(yīng)用文理學(xué)院”的關(guān)系鏈條,以及在這一發(fā)展鏈條中所發(fā)生的歷史故事的來龍去脈。

      4 實(shí)證分析

      本研究的實(shí)驗(yàn)部分以北京聯(lián)合大學(xué)編著的《校址的故事》為數(shù)據(jù)源。該書在學(xué)校前黨委書記韓憲洲的親自指導(dǎo)下,由檔案(校史)館牽頭編寫,編寫過程中小組成員不斷挖掘館藏檔案,赴國家檔案局、北京市檔案局、北京市方志館、平谷區(qū)檔案館等地查詢確認(rèn)每個(gè)信息點(diǎn),歷時(shí)2年多,記錄了大學(xué)分校時(shí)期至今的校址變遷。以《校址的故事》為研究對象,通過本文提出的方法,即命名實(shí)體識別、實(shí)體關(guān)聯(lián)挖掘還原事件的來龍去脈。為了清楚展示效果,采用微軟開發(fā)的跨平臺開放工具Visual Studio Code,選用jQuery作為優(yōu)化HTML的輔助工具,其他前端可視化工具包括HTML、CSS、JS、Layer和G6。校址檢索選擇界面見圖2。

      圖2中左邊一欄中選擇任何一個(gè)校址,即可顯示介紹、時(shí)間線、主題、人名、機(jī)構(gòu)名、關(guān)系圖6個(gè)模塊。介紹模塊主要是對該校址的整體說明;時(shí)間線模塊是對該校址的重要時(shí)間及其對應(yīng)的事件進(jìn)行梳理,可基于規(guī)則的方式提取時(shí)間實(shí)體;人名、機(jī)構(gòu)名模塊分別基于統(tǒng)計(jì)的命名實(shí)體識別得到;主題模塊基于LDA提取得到。

      圖2 校址檢索選擇界面

      以“西城區(qū)西四豐盛胡同13號”為例,時(shí)間上從1978—2012年,共經(jīng)歷了9個(gè)校址,包括中國人民大學(xué)第二分校校址、北京聯(lián)合大學(xué)文法學(xué)院院址等?;贚DA實(shí)現(xiàn)主題挖掘,經(jīng)測試主題數(shù)為7效果較好:一是校舍的建立和設(shè)計(jì),二是該地址所在校區(qū)硬件設(shè)施的建設(shè),三是軟件設(shè)施籌備,四是首次招生活動(dòng),五是專業(yè)設(shè)置,六是檔案學(xué)專業(yè)的成立,最后是其他方面的支持,通過主題挖掘能較清晰的反映出有關(guān)該校址闡述的主要環(huán)節(jié)和內(nèi)容;最終,通過實(shí)體之間的關(guān)系深化用戶對該校址的理解,從顯性的實(shí)體展示過渡到隱性的實(shí)體之間的關(guān)系。

      5 總結(jié)

      當(dāng)前的檔案檢索模型更多將檔案作為普通信息進(jìn)行處理,然而檔案承載的記憶具有一定的結(jié)構(gòu)特征,包括敘述者、情節(jié)、場景、人物、危機(jī)與結(jié)局等,因此需要針對記憶特征實(shí)現(xiàn)檢索及記憶結(jié)果呈現(xiàn)。數(shù)字記憶的呈現(xiàn)方式主要有展陳型和敘事型兩種方式,對于面向敘事型的數(shù)字記憶開發(fā)利用當(dāng)前研究尚且不足。由此,本文剖析數(shù)字記憶與檔案檢索的邏輯關(guān)聯(lián),針對展陳型和敘事型兩種呈現(xiàn)方式,構(gòu)建面向數(shù)字記憶開發(fā)利用的檔案檢索模型,并細(xì)致闡述針對敘事型檢索模型的構(gòu)建過程和關(guān)鍵點(diǎn)。由于數(shù)據(jù)源的限制,本文的實(shí)證部分是對一次文獻(xiàn)的二次開發(fā)和重組,未來的研究會增加數(shù)據(jù)量及不同檔案數(shù)據(jù)類型,完善本文提出的方法。

      猜你喜歡
      檢索實(shí)體語義
      語言與語義
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      中國外匯(2019年18期)2019-11-25 01:41:54
      2019年第4-6期便捷檢索目錄
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      兩會進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      認(rèn)知范疇模糊與語義模糊
      語義分析與漢俄副名組合
      方正县| 灵寿县| 金湖县| 松滋市| 桐乡市| 黎川县| 同德县| 蕲春县| 崇州市| 农安县| 巢湖市| 芜湖市| 绍兴市| 紫金县| 青川县| 南溪县| 盐津县| 荔波县| 施甸县| 蒙山县| 郧西县| 吐鲁番市| 陕西省| 榕江县| 娄底市| 太仓市| 柯坪县| 县级市| 云和县| 台中县| 万源市| 嘉善县| 临沭县| 左权县| 古丈县| 长寿区| 大关县| 特克斯县| 贵德县| 临夏县| 泰顺县|