李菁 黃仁彥 徐鴻飛
摘 要:信息技術(shù)與經(jīng)濟(jì)的交匯融合使高校檔案數(shù)據(jù)迅猛增長(zhǎng),數(shù)據(jù)資源已成為基礎(chǔ)性資源。隨著知識(shí)圖譜的研究和應(yīng)用逐步深入,在檔案專業(yè)領(lǐng)域的應(yīng)用也在進(jìn)一步的研究和探索中。我們需要充分認(rèn)識(shí)知識(shí)圖譜技術(shù)的優(yōu)勢(shì),利用先進(jìn)的科技進(jìn)行數(shù)據(jù)資源管理和利用上的改革創(chuàng)新,構(gòu)建具高校特色的檔案知識(shí)庫(kù)模型,提高數(shù)據(jù)管理和利用效率,更好地為高校的管理和發(fā)展服務(wù)。
關(guān)鍵詞:知識(shí)圖譜;檔案知識(shí)化;高校檔案
一、引言
隨著計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)的發(fā)展,信息的獲取與傳播發(fā)生本質(zhì)變革,推動(dòng)著互聯(lián)網(wǎng)向語(yǔ)義網(wǎng)絡(luò)的高速發(fā)展,奠定現(xiàn)代信息社會(huì)知識(shí)構(gòu)成的基礎(chǔ)。在這一發(fā)展過(guò)程中,將前沿技術(shù)的深耕實(shí)踐與檔案資源的整合挖掘和深化利用相結(jié)合,為檔案資源知識(shí)化提供了新的思路和發(fā)展方向。加拿大著名檔案專家特里·庫(kù)克(Terry Cook)在1994 年提出,檔案工作者應(yīng)該“由實(shí)體保管員向知識(shí)提供者過(guò)渡”,需要“從建立數(shù)據(jù)庫(kù)到建立知識(shí)庫(kù)”。美國(guó)在2005年啟動(dòng)ERA(Electronic Records Archives)項(xiàng)目,主要研究數(shù)字檔案資源結(jié)構(gòu)建立,從而進(jìn)行長(zhǎng)期保管;2012年啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃”(Big Data Research and Development Initiative),大力推進(jìn)從大量的、復(fù)雜的數(shù)據(jù)集合中獲取知識(shí)和洞見的能力;在此基礎(chǔ)上,2016年發(fā)布“聯(lián)邦大數(shù)據(jù)研發(fā)戰(zhàn)略計(jì)劃”(The Federal Big Data Research and Development Strategic Plan)對(duì)2012年的計(jì)劃做了補(bǔ)充和完善,強(qiáng)調(diào)通過(guò)優(yōu)化大數(shù)據(jù)分析和信息提取,提高做出決策和發(fā)現(xiàn)的能力。
從美國(guó)等國(guó)外的數(shù)字檔案資源發(fā)展路徑來(lái)看,最近幾年,利用人工智能和大數(shù)據(jù)技術(shù),促進(jìn)資源的知識(shí)化,加強(qiáng)信息分析,提高決策能力成為檔案資源的重要研究方向之一。知識(shí)圖譜(Knowledge Graph)技術(shù)是新興人工智能技術(shù)的重要組成部分之一,具有強(qiáng)大的語(yǔ)義處理和開放互聯(lián)組織能力,是一種應(yīng)用十分廣泛的知識(shí)化組織和智能應(yīng)用的工具,或許可以成為將來(lái)數(shù)字檔案資源知識(shí)化的有力工具之一。本文以知識(shí)圖譜技術(shù)為工具,研究高校數(shù)字檔案資源的知識(shí)組織和知識(shí)服務(wù)問(wèn)題,通過(guò)高校檔案資源的知識(shí)化,實(shí)現(xiàn)對(duì)高校教職員工和學(xué)生的思想行為常態(tài)化管理,及時(shí)反饋學(xué)校的管理、教學(xué)、科研等各項(xiàng)信息,動(dòng)態(tài)了解學(xué)生的各種動(dòng)態(tài)及熱點(diǎn)情況,為高校領(lǐng)導(dǎo)提供決策、育人等輔助功能,最終為學(xué)校制定科學(xué)的管理策略,為維護(hù)學(xué)校安全穩(wěn)定提供保障。
二、知識(shí)圖譜應(yīng)用于高校數(shù)字檔案資源知識(shí)化的可行性
知識(shí)圖譜概念由Google公司2012年提出,Google公司的工程師阿米特·辛格(Amit Singhal)是這樣介紹知識(shí)圖譜的:“The world is not made of strings , but is made of things”,就是說(shuō),知識(shí)圖譜實(shí)際就是一張巨大的語(yǔ)義網(wǎng)絡(luò)圖,由真實(shí)世界中存在的各種實(shí)體或概念及其關(guān)系構(gòu)成,節(jié)點(diǎn)表示實(shí)體或概念,邊則由屬性或關(guān)系構(gòu)成。知識(shí)圖譜的提出是與互聯(lián)網(wǎng)上網(wǎng)絡(luò)資源內(nèi)容呈現(xiàn)爆炸式增長(zhǎng)的態(tài)勢(shì)密不可分的。由于互聯(lián)網(wǎng)內(nèi)容逐步呈現(xiàn)的大數(shù)據(jù)特點(diǎn)(體量巨大、類型繁多、處理速度快、組織結(jié)構(gòu)松散等),對(duì)人們有效獲取信息提出了挑戰(zhàn)。知識(shí)圖譜正是在此背景下逐步形成和發(fā)展,以“實(shí)體(Entity)-關(guān)系(Relationship)-實(shí)體(Entity)”構(gòu)成的RDF三元組結(jié)構(gòu)為基礎(chǔ)和核心來(lái)描述不同對(duì)象(包括屬性)以及他們之間的關(guān)系,如圖1。
1.知識(shí)圖譜將進(jìn)一步深化高校數(shù)字檔案資源的知識(shí)組織。隨著檔案數(shù)字化進(jìn)程的深入,資源數(shù)量浩大、形式異構(gòu)、內(nèi)容繁雜與高效處理的矛盾逐漸顯現(xiàn)。尤其是高校檔案,紙質(zhì)檔案數(shù)字化基本完成,海量照片、視頻等日益增加,與學(xué)校OA系統(tǒng)、教務(wù)系統(tǒng)等諸多系統(tǒng)的接口獲取大量數(shù)字資源,對(duì)數(shù)字檔案資源的管理能力和利用能力提出了很高的要求。利用知識(shí)圖譜的三元組結(jié)構(gòu),可以對(duì)數(shù)字檔案資源進(jìn)行知識(shí)化整理和信息處理,提高檔案利用的查詢速度和效率,解決數(shù)據(jù)結(jié)構(gòu)復(fù)雜問(wèn)題,最終能構(gòu)成一個(gè)語(yǔ)義化的知識(shí)網(wǎng)絡(luò)。
2.從技術(shù)實(shí)現(xiàn)看,知識(shí)圖譜已經(jīng)應(yīng)用于很多知名度較高的大規(guī)模知識(shí)庫(kù),是一種比較成熟的工具技術(shù)。比如LOD(linked open data)項(xiàng)目中的Freebase大規(guī)模知識(shí)庫(kù)網(wǎng)站,該知識(shí)庫(kù)網(wǎng)站由Metaweb創(chuàng)建,2010年谷歌收購(gòu)Metaweb,在Freebase的基礎(chǔ)上建立Google知識(shí)圖譜。到2014年,F(xiàn)reebase在知識(shí)圖譜里引入6800萬(wàn)個(gè)實(shí)體,建立約10億條關(guān)系,構(gòu)造超過(guò)24億條三元組。最近幾年,知識(shí)圖譜也逐漸深入各個(gè)不用的專門行業(yè)領(lǐng)域的數(shù)據(jù)分析和挖掘,其中不乏檔案資源方面的案例。清華大學(xué)研發(fā)的AMiner學(xué)術(shù)知識(shí)服務(wù)平臺(tái),集成了學(xué)術(shù)大數(shù)據(jù)融合、專家檔案智能抽取、專家智能搜索等研究成果,在論文文獻(xiàn)搜索以外,提供了針對(duì)研究者信息的強(qiáng)大搜索能力。
三、知識(shí)圖譜應(yīng)用于高校數(shù)字檔案資源知識(shí)化實(shí)現(xiàn)的總體設(shè)計(jì)
1.總體設(shè)計(jì)目標(biāo)
利用知識(shí)圖譜技術(shù), 對(duì)黨群類、行政類、學(xué)生類、教學(xué)類、科研類、基本建設(shè)類、儀器設(shè)備類、產(chǎn)品生產(chǎn)類、出版物類、外事類等基礎(chǔ)數(shù)據(jù)庫(kù)以及其他數(shù)據(jù)資源庫(kù)等關(guān)系數(shù)據(jù)庫(kù),運(yùn)用知識(shí)抽取技術(shù)對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行知識(shí)化和融合, 實(shí)現(xiàn)對(duì)各類實(shí)體的抽取、語(yǔ)義組織和關(guān)聯(lián), 再借助大數(shù)據(jù)深度挖掘和融合技術(shù)將基礎(chǔ)數(shù)據(jù)和其他來(lái)源數(shù)據(jù)進(jìn)行數(shù)據(jù)融合和數(shù)據(jù)增值, 構(gòu)建高校檔案領(lǐng)域的知識(shí)圖譜,最終以可視化知識(shí)圖譜為核心,構(gòu)建基于高校檔案數(shù)字資源的可視化智能搜索平臺(tái)。該平臺(tái)可以提供強(qiáng)大的知識(shí)索引和校級(jí)領(lǐng)導(dǎo)決策分析服務(wù),滿足語(yǔ)義網(wǎng)和知識(shí)網(wǎng)絡(luò)時(shí)代用戶的新需求。
2.數(shù)字檔案資源的知識(shí)單元化是知識(shí)圖譜的實(shí)現(xiàn)的基礎(chǔ)。
知識(shí)圖譜描述的是真實(shí)世界中存在的各種實(shí)體或概念及其關(guān)系。實(shí)體是指具有可區(qū)別性且獨(dú)立存在的某種事物,如某一個(gè)人、某一個(gè)城市、某一種商品等等。對(duì)高校的數(shù)字檔案資源而言,實(shí)體應(yīng)是組成檔案結(jié)構(gòu)和內(nèi)容的基本要素,是表達(dá)一個(gè)檔案文件的完整內(nèi)容的最小單位。知識(shí)單元的特點(diǎn)是:第一,知識(shí)單元具有唯一性和獨(dú)立性,知識(shí)單元是每個(gè)實(shí)體的唯一代表和表示,用于描述共同認(rèn)可的知識(shí)實(shí)體。與常用的概念或定義不同,知識(shí)單元必須是原始檔案文件中存在的、不可分割的知識(shí)表達(dá)。第二,知識(shí)單元具有共享性。檔案資源從文獻(xiàn)資料的形式轉(zhuǎn)化為供他人傳遞和利用的知識(shí)時(shí),不同知識(shí)中的同一實(shí)體需要指向同一知識(shí)單元。知識(shí)單元是知識(shí)結(jié)構(gòu)網(wǎng)絡(luò)中的一個(gè)個(gè)節(jié)點(diǎn),通過(guò)點(diǎn)和點(diǎn)之間的關(guān)系構(gòu)成了巨大的知識(shí)網(wǎng)鏈。
3.知識(shí)圖譜實(shí)現(xiàn)的總體架構(gòu)
基于高校數(shù)字檔案資源的知識(shí)圖譜的體系架構(gòu)如圖2所示,以檔案數(shù)據(jù)和其他來(lái)源數(shù)據(jù)作為知識(shí)圖譜的數(shù)據(jù)基礎(chǔ),利用大數(shù)據(jù)挖掘各項(xiàng)技術(shù),完成對(duì)數(shù)字檔案資源的抽取和知識(shí)原型的分析。同時(shí)通過(guò)對(duì)檔案資源的知識(shí)化網(wǎng)絡(luò)構(gòu)建,完成檔案資源知識(shí)圖譜庫(kù)的構(gòu)建,實(shí)現(xiàn)從檔案文件檢索到檔案知識(shí)檢索的方式轉(zhuǎn)變,優(yōu)化海量檔案資源的檢索,真正實(shí)現(xiàn)檔案資源實(shí)體關(guān)聯(lián)導(dǎo)航。
四、知識(shí)圖譜應(yīng)用于高校數(shù)字檔案資源知識(shí)化的體系構(gòu)成
1.數(shù)據(jù)資源平臺(tái)
主要采用基礎(chǔ)數(shù)據(jù)資源庫(kù)和檔案知識(shí)庫(kù)的雙庫(kù)設(shè)計(jì)來(lái)實(shí)現(xiàn)數(shù)據(jù)資源平臺(tái)的搭建,兩庫(kù)協(xié)同作業(yè),以基礎(chǔ)數(shù)據(jù)資源庫(kù)為數(shù)據(jù)資源,以知識(shí)庫(kù)為利用服務(wù)的數(shù)據(jù)來(lái)源,充分挖掘檔案文件的內(nèi)容關(guān)聯(lián),提高檔案資源的利用效率。
目前高校檔案館已基本完成檔案數(shù)字化,數(shù)字資源的數(shù)量龐大,同時(shí)每年新增的數(shù)字檔案資源和其他非結(jié)構(gòu)化數(shù)字資源也在不斷遞增,因此,首先需要保證大數(shù)據(jù)平臺(tái)下的數(shù)據(jù)的可靠性和準(zhǔn)確性。為保證數(shù)字檔案資源的質(zhì)量,保證來(lái)源數(shù)據(jù)的安全可靠,需要按規(guī)范采集和組織檔案數(shù)據(jù)資源,為檔案工作人員進(jìn)行檔案的加工處理和利用檢索提供有力的數(shù)據(jù)支撐,通過(guò)對(duì)這些海量的結(jié)構(gòu)、非結(jié)構(gòu)或半結(jié)構(gòu)化數(shù)據(jù)的標(biāo)準(zhǔn)化存儲(chǔ)和管理,實(shí)現(xiàn)數(shù)據(jù)管理的高容錯(cuò)性和擴(kuò)展性,使數(shù)據(jù)得到高效利用。
當(dāng)今語(yǔ)義網(wǎng)和知識(shí)經(jīng)濟(jì)的大背景下,檔案信息以內(nèi)容和形式特征為基本組織模式已經(jīng)不能適應(yīng)檔案資源搜索的新需求,因此,用最便捷的方式提供信息和知識(shí)的高校檔案知識(shí)庫(kù)是本平臺(tái)的另一個(gè)十分重要的數(shù)據(jù)資源庫(kù)。檔案知識(shí)化的整個(gè)過(guò)程就是對(duì)檔案數(shù)字資源的知識(shí)提煉過(guò)程,通過(guò)對(duì)知識(shí)層面的概念和邏輯關(guān)系的提煉,知識(shí)庫(kù)提供給用戶的不是單獨(dú)的檔案文件的內(nèi)容,而是一個(gè)完整、結(jié)構(gòu)化的知識(shí)鏈網(wǎng),有利于對(duì)檔案的準(zhǔn)確定位,提高檔案利用的效率。檔案知識(shí)庫(kù)以知識(shí)的特點(diǎn)和結(jié)構(gòu)為存儲(chǔ)方式,可以為用戶提供便捷的知識(shí)搜索和發(fā)現(xiàn),并且通過(guò)檔案知識(shí)庫(kù)和基礎(chǔ)數(shù)據(jù)資源庫(kù)的互聯(lián)和數(shù)據(jù)傳輸,充分挖掘檔案的內(nèi)在價(jià)值,為檔案的利用提供精準(zhǔn)、智能和高效的服務(wù)。
2.檔案數(shù)據(jù)資源挖掘平臺(tái)
對(duì)于檔案數(shù)據(jù)資源的挖掘,主要目標(biāo)是要對(duì)基礎(chǔ)數(shù)據(jù)資源庫(kù)進(jìn)行信息抽取、信息融合和加強(qiáng),確定數(shù)字檔案資源這一專門領(lǐng)域的大量的實(shí)體、實(shí)體屬性和實(shí)體之間的關(guān)系,并在此基礎(chǔ)上形成本體化的知識(shí)表達(dá),構(gòu)成高校檔案這一特定領(lǐng)域的知識(shí)模型。通過(guò)模型的構(gòu)建,可以有效地對(duì)檔案資源進(jìn)行開發(fā),深度挖掘語(yǔ)義本體的組織結(jié)構(gòu)和關(guān)系,為用戶提供準(zhǔn)確有效的知識(shí)或信息。本平臺(tái)主要采用基于本體模型的知識(shí)單元分析技術(shù),按照知識(shí)組織的規(guī)則和要求,解析檔案資源中的各類實(shí)體(知識(shí)單元),并發(fā)掘蘊(yùn)藏其中各類隱性因子,將數(shù)字檔案資源中的知識(shí)關(guān)系更加顯化,實(shí)現(xiàn)知識(shí)的聚合,使檔案知識(shí)的層次結(jié)構(gòu)更加清晰,從而為檔案資源的智能化搜索建立全面的“知識(shí)網(wǎng)”基礎(chǔ)。
在檔案數(shù)據(jù)資源挖掘中引入知識(shí)提取等大數(shù)據(jù)挖掘技術(shù),能快速定位檔案資源搜索目標(biāo)。而知識(shí)模型可以通過(guò)檔案資源實(shí)體和之間的關(guān)系為實(shí)際應(yīng)用中的推理提供基本規(guī)則和依據(jù),實(shí)現(xiàn)信息瀏覽及檢索等功能。通過(guò)知識(shí)模型,還可以“通過(guò)計(jì)算概念之間的相關(guān)度,來(lái)量化概念間的語(yǔ)義距離,以選取最相近的概念;或者在語(yǔ)義模型中預(yù)先定義的一些關(guān)系上進(jìn)行推理檢索”。通過(guò)各個(gè)檔案本體的顯性和隱性聯(lián)系和關(guān)聯(lián),將教職員工和學(xué)生的多維信息進(jìn)行聚合,全面展現(xiàn)多視角全方位的個(gè)人“畫像”信息資源,從大數(shù)據(jù)的角度對(duì)行為信息進(jìn)行挖掘處理和分析,通過(guò)探究校園行為規(guī)律,準(zhǔn)確掌握思想行為動(dòng)向,為學(xué)校的管理提供決策和依據(jù)。
3.檔案數(shù)據(jù)資源可視化平臺(tái)
檔案數(shù)據(jù)資源可視化平臺(tái)是借助圖形、圖像處理、計(jì)算機(jī)視覺等技術(shù),將知識(shí)模型等語(yǔ)義概念通過(guò)圖像或者圖形的方式在計(jì)算機(jī)、手機(jī)等終端的頁(yè)面上展現(xiàn)的過(guò)程。檔案知識(shí)模型的可視化可以提供清晰的溝通方式,使用戶可以能夠更快地理解和處理相關(guān)信息,提高檔案資源的服務(wù)效率和精確性,同時(shí),隨著時(shí)間的變化,知識(shí)的實(shí)時(shí)信息也隨之變化,使信息能得到更快的傳遞和識(shí)別;通過(guò)收集到的行為習(xí)慣的數(shù)據(jù)信息,可以提供一些管理和監(jiān)控的關(guān)鍵性指標(biāo),可以使學(xué)校的管理人員更容易發(fā)現(xiàn)各種大數(shù)據(jù)集的變化趨勢(shì)。
五、結(jié)論
在當(dāng)今大數(shù)據(jù)的背景下,隨著技術(shù)發(fā)展的不斷深化,對(duì)檔案數(shù)據(jù)資源進(jìn)行大數(shù)據(jù)管理和深度挖掘?qū)⒊蔀闄n案學(xué)的發(fā)展方向之一。通過(guò)知識(shí)圖譜構(gòu)建、知識(shí)融合、可視化等大數(shù)據(jù)技術(shù)的引入,為高校檔案信息資源的科學(xué)管理,以及檔案數(shù)據(jù)精細(xì)化的進(jìn)一步發(fā)展提供了可能。通過(guò)知識(shí)抽取,將檔案資源從傳統(tǒng)檔案的文件級(jí)數(shù)據(jù)粒度降低到數(shù)據(jù)級(jí),構(gòu)建結(jié)構(gòu)化的語(yǔ)義模型,從而來(lái)描述高校檔案領(lǐng)域中的概念及其相互關(guān)系。高校檔案資源的知識(shí)化,能實(shí)現(xiàn)知識(shí)的快速響應(yīng),及時(shí)跟進(jìn)個(gè)人檔案資源的變化,能提供對(duì)個(gè)人習(xí)慣和方式精準(zhǔn)推理和分析,提高檔案的利用效率和服務(wù)水平,為高校教學(xué)、科研等業(yè)務(wù)的有效管理提供有力保障,同時(shí)也能為領(lǐng)導(dǎo)決策和管理提供全面深入的數(shù)據(jù)支持。
參考文獻(xiàn):
[1]Terry Cook. Electronic Records,Paper Minds:The Revolution in Information Management and Archives in the Post-Custodial and Post-Modernist Era[J].Archives and Manuscripts,1994
[2]Electronic Records Archives.[EB/OL].[2019-8-22].http://www.archives.gov/era/.
[3]The Federal Big Data Research And Development Strategic Plan.[EB/OL].[2019-8-22].https://obamawhitehouse.archives.gov/sites/default/files/microsites/ostp/NSTC/bigdatardstrategicplan-nitrd_final-051916.pdf.
[4] Tang J, Zhang J, Yao L M, et al. AMiner: Extraction and Mining of Academic Social Networks[C]//Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD2008). 2008
[5]楊茜雅.中國(guó)聯(lián)通電子檔案數(shù)據(jù)挖掘與智能利用的研究[J].檔案學(xué)通訊,2018
基金項(xiàng)目:本文系上海市檔案局科技項(xiàng)目《基于知識(shí)圖譜的高校數(shù)字檔案資源數(shù)據(jù)挖掘?qū)崿F(xiàn)研究》(項(xiàng)目編號(hào):滬檔科1914)的研究成果之一。
作者簡(jiǎn)介:李菁(1975-),女,漢族,浙江平湖人,館員,碩士,單位:上海師范大學(xué)檔案館,研究方向:數(shù)字檔案管理,聲像檔案管理;黃仁彥(1982-),男,漢族,上海人,工程師,碩士,單位:上海師范大學(xué)檔案館,研究方向:檔案管理;徐鴻飛(1985-),男,漢族,山東人,工程師,碩士,單位:上海師范大學(xué)檔案館,研究方向:檔案管理。