陳光儀,陳義明,吳小慧
(湖南農(nóng)業(yè)大學(xué)信息與智能科學(xué)技術(shù)學(xué)院,長沙 410128)
語義網(wǎng)絡(luò)作為人工智能的重要應(yīng)用領(lǐng)域之一,可以給用戶提供一個更加準(zhǔn)確、更加智能的知識獲取環(huán)境。而知識圖譜是實現(xiàn)語義網(wǎng)絡(luò)的技術(shù)基礎(chǔ),是通向語義網(wǎng)絡(luò)環(huán)境的鮮明道路。在智慧學(xué)習(xí)的大環(huán)境下,疊加近年來新冠疫情的防控需求,在線閱讀已越來越多地成為廣大讀者的首選閱讀方式。如果能夠有效獲取讀者的閱讀行為并構(gòu)建對應(yīng)的知識圖譜,對于圖書館而言,可以及時了解其在閱讀過程中的實際需求,繼而進(jìn)行針對性的閱讀指導(dǎo)并為讀者推薦個性化的閱讀內(nèi)容;對于出版商而言,可以及時調(diào)整、改進(jìn)電子出版物的內(nèi)容編排及后續(xù)再版工作,以更好地適應(yīng)目標(biāo)讀者群體的實際需求。因而,此項研究工作對于進(jìn)一步提升讀者的閱讀學(xué)習(xí)效果,完善圖書館的智慧化閱讀服務(wù),推動促進(jìn)全社會形成良好的智慧學(xué)習(xí)環(huán)境大有裨益。
構(gòu)建知識圖譜有自頂向下和自底向上兩種方式。前者通常是指基于百科類網(wǎng)站等高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)源,從中提取本體和模式信息后再加入到知識庫中,因而適用于那些內(nèi)容明確、關(guān)系清晰的領(lǐng)域知識圖譜構(gòu)建;而后者是指通過借助特定的技術(shù)手段從公開采集的數(shù)據(jù)中提取模式信息,選擇其中置信度較高的新模式,經(jīng)人工審核后再加入到知識庫中。目前大部分知識圖譜的構(gòu)建都采用自底向上的方式,其層次架構(gòu)按照知識獲取的過程可分為信息抽取、知識融合和知識加工。
信息抽取是指從多源異構(gòu)的數(shù)據(jù)源中提取出實體、屬性以及實體之間的關(guān)系,在此基礎(chǔ)上形成本體化的知識表達(dá),它是知識圖譜構(gòu)建技術(shù)的關(guān)鍵。早期信息抽取主要是基于預(yù)定規(guī)則的抽取技術(shù),工作量龐大且僅適用于特定的專業(yè)領(lǐng)域,后來人們開始嘗試使用統(tǒng)計機器學(xué)習(xí)的方法,通過標(biāo)注部分?jǐn)?shù)據(jù)得到訓(xùn)練集,在此基礎(chǔ)上再使用均方根誤差算法(root mean squared error,RMSE)或多項式回歸算法(polynomial regression,PR)等有監(jiān)督學(xué)習(xí)算法識別命名實體。
從開放領(lǐng)域中抽取信息所得到的結(jié)果,可能具有較高的數(shù)據(jù)冗余度且包含大量錯誤內(nèi)容,數(shù)據(jù)內(nèi)在的層次性和邏輯性也缺失嚴(yán)重,這就需要通過有效的知識融合技術(shù)來清洗并整合數(shù)據(jù),主要工作包括實體對齊和知識合并等。
經(jīng)過融合處理后,所得到的數(shù)據(jù)、信息或事實表達(dá)還必須經(jīng)過進(jìn)一步的知識加工才能形成最終結(jié)構(gòu)化、網(wǎng)絡(luò)化的知識體系。此過程中涉及的主要技術(shù)包括本體構(gòu)建、知識推理和質(zhì)量評估。
上述層次架構(gòu)可用圖1所示的模型來表示。
圖1 自底向上構(gòu)建知識圖譜的層次架構(gòu)
就本文所研究的讀者閱讀行為知識圖譜構(gòu)建而言,采用自底向上的方法更為合適。這種方法將知識圖譜的構(gòu)建過程分為四步:知識獲取、知識表示、知識存儲和知識可視化錯誤!未找到引用源。。
結(jié)合項目的實際需求,本文設(shè)計出閱讀行為知識圖譜構(gòu)建系統(tǒng)的實現(xiàn)流程如下:首先從存檔的電子出版物中抽取出讀者的閱讀行為數(shù)據(jù),然后對數(shù)據(jù)進(jìn)行清洗并進(jìn)行格式調(diào)整,再將數(shù)據(jù)加載到圖數(shù)據(jù)庫中,創(chuàng)建知識節(jié)點及節(jié)點之間的關(guān)系以得到完整的知識圖譜,最后使用圖數(shù)據(jù)庫操縱語言對知識進(jìn)行查詢推理,并將結(jié)果可視化地呈現(xiàn)在頁面上。完整流程如圖2所示。
圖2 閱讀行為知識圖譜構(gòu)建流程
構(gòu)建知識圖譜的首要任務(wù)是獲取知識。從各種類型的數(shù)據(jù)源中提取出實體(概念)、屬性以及實體之間的相互關(guān)系,在此基礎(chǔ)上形成本體化的知識表達(dá)。
本文構(gòu)建閱讀行為知識圖譜所需的數(shù)據(jù)主要來源于讀者在閱讀過程中所生成的各種標(biāo)注和注釋信息,這是一種簡明且方便獲取的、用以了解讀者閱讀行為的數(shù)據(jù)。讀者在閱讀電子出版物的過程中,會隨手在文檔中添加一些附注、標(biāo)記和注釋信息,這些信息真實準(zhǔn)確地反映了讀者個人的閱讀習(xí)慣,及其對所閱讀內(nèi)容的認(rèn)識、理解和掌握程度。為保證數(shù)據(jù)來源的隨機性和真實性,本文收集整理了數(shù)十位學(xué)生讀者在閱讀不同類型電子出版物后所形成的文檔材料,編寫程序自動提取出其中所包含的讀者閱讀行為數(shù)據(jù)。部分原始數(shù)據(jù)如圖3所示。
圖3 閱讀行為原始數(shù)據(jù)局部
自動提取的原始數(shù)據(jù)中往往會包含一些信息噪音。因而本文設(shè)計了專門的數(shù)據(jù)清
洗程序以去除其中的噪音,然后再將數(shù)據(jù)格式化為知識表示的形式。具體過程為:
(1)首次清洗。構(gòu)造如下正則表達(dá)式,對抽取的數(shù)據(jù)進(jìn)行完整清洗,去除價值密度低的數(shù)據(jù),保留重要的標(biāo)記注釋文本、生成時間和創(chuàng)建位置等內(nèi)容。
(2)再次清洗。將元組轉(zhuǎn)換為列表數(shù)據(jù),構(gòu)造正則表達(dá)式,采用循環(huán)掃描的方式對數(shù)據(jù)進(jìn)行再次清洗。其中的少部分?jǐn)?shù)據(jù)可能發(fā)生錯置現(xiàn)象,需要抽取相應(yīng)數(shù)據(jù)并重載至正確位置。
(3)格式化數(shù)據(jù)。構(gòu)造正則表達(dá)式,整理清洗后的數(shù)據(jù),對它們進(jìn)行適當(dāng)?shù)那蟹趾秃喜ⅲ詈髮⑺袛?shù)據(jù)格式化為知識表示的形式。
關(guān)系型數(shù)據(jù)庫在結(jié)構(gòu)化數(shù)據(jù)的存儲和處理方面擁有絕對優(yōu)勢,但對知識存儲及語義檢索的支持卻不夠友好。而以圖論為基礎(chǔ)的圖數(shù)據(jù)庫在這些方面卻恰好擁有與生俱來的長處,尤其在保持?jǐn)?shù)據(jù)語義及處理復(fù)雜關(guān)系等方面,圖數(shù)據(jù)庫明顯優(yōu)于關(guān)系型數(shù)據(jù)庫。目前在學(xué)術(shù)研究和商業(yè)領(lǐng)域,主要的圖數(shù)據(jù)庫產(chǎn)品包括ArangoDB、FlockDB和Neo4j等。根 據(jù)DBEngine排名,其中最為活躍的當(dāng)屬開源產(chǎn)品Neo4j,它不僅支持嚴(yán)格的事務(wù)處理,還提供強大的圖搜索能力和極好的橫向擴展能力。
本文通過編寫程序,實現(xiàn)了將格式化后的讀者閱讀行為數(shù)據(jù)自動加載到Neo4j圖數(shù)據(jù)庫中的功能。程序能根據(jù)格式化數(shù)據(jù)的結(jié)構(gòu)創(chuàng)建相應(yīng)節(jié)點,添加屬性并標(biāo)注關(guān)系,自動完成知識圖譜的存儲和構(gòu)建。
Neo4j數(shù)據(jù)庫支持強大的圖操縱語言Cypher,可以快捷高效地實現(xiàn)知識圖譜的查詢和推理。在配置好所需模塊后,調(diào)用瀏覽器打開圖數(shù)據(jù)庫,輸入相應(yīng)Cypher命令便能查詢所需內(nèi)容并將結(jié)果可視化呈現(xiàn)在頁面上。本文所創(chuàng)建的讀者閱讀行為知識圖譜的部分查詢結(jié)果如圖4所示。
圖4 讀者閱讀行為知識圖譜局部
本文介紹了讀者閱讀行為知識圖譜的完整構(gòu)建過程,設(shè)計并實現(xiàn)了一個自動化的開放知識圖譜構(gòu)建系統(tǒng)。測試結(jié)果表明:本文所得成果能正確高效地實現(xiàn)對讀者閱讀行為數(shù)據(jù)的自動提取、清洗、篩選和格式化,并能在此基礎(chǔ)上將融合后的數(shù)據(jù)表達(dá)為知識再存儲到圖數(shù)據(jù)庫中。后續(xù)研究工作重點在于:一方面對獲取的閱讀行為數(shù)據(jù)和讀者閱讀習(xí)慣、閱讀情感之間的關(guān)聯(lián)性進(jìn)行深入研究;另一方面對如何將所構(gòu)建的知識圖譜用于幫助圖書館提供更好的智慧閱讀服務(wù)進(jìn)行分析。作者將從這兩個方面著手,扎實開展后期的理論研究和實踐創(chuàng)新工作,以期取得更有價值的成果,為推動全社會形成良好的智慧學(xué)習(xí)環(huán)境添磚加瓦。