基于人工智能技術(shù)的圖書(shū)館信息檢索模型

2021-07-30 07:57:40布艷艷

電子設(shè)計(jì)工程 2021年14期

布艷艷

（西安科技大學(xué)高新學(xué)院圖書(shū)館，陜西西安 710109）

圖書(shū)館已趨于數(shù)字化，圖書(shū)館將眾多高科技應(yīng)用于信息資源中，實(shí)現(xiàn)信息資源的管理[1-3]。數(shù)字圖書(shū)館存在檢索信息與用戶所輸入檢索詞相關(guān)度較低，無(wú)法滿足用戶需求的缺陷[4-5]。以往圖書(shū)館信息檢索模型僅將關(guān)鍵詞作為搜索的主要元素，未考慮文獻(xiàn)間的關(guān)聯(lián)，無(wú)法體現(xiàn)檢索信息間的語(yǔ)義關(guān)系，導(dǎo)致查詢結(jié)果具有較高的誤檢率以及漏檢率。程煜華等人研究基于D-S 證據(jù)理論的信息檢索模型[6-7]，利用D-S 證據(jù)理論建立信息檢索模型，存在檢索信息相關(guān)性較差的缺陷；李莉研究基于多Agent 技術(shù)的數(shù)字圖書(shū)館個(gè)性化信息服務(wù)檢索模型，可有效提升檢索精度，但檢索實(shí)時(shí)性較差[8-10]。

人工智能技術(shù)包含機(jī)器學(xué)習(xí)、自然語(yǔ)言處理與自動(dòng)化、機(jī)器視覺(jué)、語(yǔ)義網(wǎng)、貝葉斯網(wǎng)絡(luò)等，為了提高圖書(shū)館信息檢索正確率，提出了基于人工智能技術(shù)的圖書(shū)館信息檢索模型，為圖書(shū)館信息實(shí)時(shí)檢索提供理論依據(jù)。

1 圖書(shū)館信息檢索模型具體設(shè)計(jì)

1.1 圖書(shū)館信息檢索模型

基于人工智能技術(shù)的語(yǔ)義網(wǎng)建立圖書(shū)館信息檢索模型，如圖1 所示。從圖1 可以看出，所建立圖書(shū)館信息檢索模型包括用戶請(qǐng)求模塊、信息檢索處理模塊以及資源庫(kù)3 部分。用戶輸入關(guān)鍵詞或語(yǔ)句等查詢請(qǐng)求后發(fā)送至信息檢索模塊，資源庫(kù)利用圖書(shū)館信息資源通過(guò)標(biāo)準(zhǔn)化以及規(guī)劃化表達(dá)方式和工作步驟創(chuàng)建本體，信息檢索處理模塊選取貝葉斯網(wǎng)絡(luò)作為推理機(jī)，通過(guò)語(yǔ)義邏輯推理、語(yǔ)義抽取以及語(yǔ)義查詢處理用戶所輸入關(guān)鍵詞或語(yǔ)句，獲取邏輯表達(dá)式，從知識(shí)庫(kù)中尋找理想結(jié)果，將檢索結(jié)果排序后輸出結(jié)果至用戶界面。

圖1 圖書(shū)館信息檢索模型

通過(guò)語(yǔ)義網(wǎng)處理海量圖書(shū)館信息資源，獲取理想的信息檢索結(jié)果。利用語(yǔ)義網(wǎng)的概念檢索技術(shù)及資源標(biāo)注技術(shù)與語(yǔ)義字典等工具結(jié)合，建立可體現(xiàn)圖書(shū)館信息資源領(lǐng)域知識(shí)的領(lǐng)域本體模型。建立領(lǐng)域本體模型過(guò)程中需充分利用領(lǐng)域?qū)＜业慕?jīng)驗(yàn)及知識(shí)來(lái)獲取該領(lǐng)域內(nèi)詞匯，依據(jù)形式化模式獲取不同詞匯關(guān)系的具體定義，所獲取領(lǐng)域本體可實(shí)現(xiàn)資源庫(kù)內(nèi)文檔的標(biāo)引[11-12]。利用本體更新器依據(jù)資源庫(kù)內(nèi)信息變化擴(kuò)展領(lǐng)域本體，更新器可依據(jù)網(wǎng)絡(luò)信息更新本體知識(shí)，并將不需要的知識(shí)進(jìn)行實(shí)時(shí)刪除以及修改。

1.2 本體創(chuàng)建

通過(guò)標(biāo)準(zhǔn)化以及規(guī)范化表達(dá)方式和工作步驟建立模型本體，依據(jù)待建立本體的層次、原則、用途、評(píng)價(jià)標(biāo)準(zhǔn)選取建立本體所需的描述語(yǔ)言和建立模式[13]。選取中國(guó)圖書(shū)分類法構(gòu)建圖書(shū)館信息檢索模型知識(shí)本體，利用OWL 語(yǔ)言作為建立本體的描述語(yǔ)言，OWL 語(yǔ)言是語(yǔ)義互聯(lián)網(wǎng)內(nèi)的本體描述語(yǔ)言標(biāo)準(zhǔn)，利用斯坦福大學(xué)開(kāi)發(fā)的本體開(kāi)發(fā)工具Protégé軟件建立本體，本體開(kāi)發(fā)過(guò)程以及生命周期如圖2 所示。利用領(lǐng)域?qū)＜逸o助建立包括本體目的、范圍、實(shí)現(xiàn)本體形式化程度的規(guī)格說(shuō)明書(shū)，利用中國(guó)圖書(shū)分類法獲取不同信息間的關(guān)聯(lián)知識(shí)，利用不同信息資源關(guān)聯(lián)知識(shí)建立概念模型，通過(guò)識(shí)別領(lǐng)域詞匯表呈現(xiàn)問(wèn)題，并提出相應(yīng)解決方案，實(shí)現(xiàn)模型本體創(chuàng)建。

圖2 本體開(kāi)發(fā)以及生命周期

1.3 貝葉斯網(wǎng)絡(luò)推理與檢索

1.3.1 擴(kuò)展貝葉斯網(wǎng)絡(luò)

選取雙術(shù)語(yǔ)層體現(xiàn)術(shù)語(yǔ)節(jié)點(diǎn)內(nèi)的關(guān)聯(lián)。設(shè)R與Ri分別表示原始術(shù)語(yǔ)層以及術(shù)語(yǔ)節(jié)點(diǎn)，將存在于原始術(shù)語(yǔ)層R內(nèi)的全部術(shù)語(yǔ)節(jié)點(diǎn)Ri復(fù)制，所獲取的術(shù)語(yǔ)節(jié)點(diǎn)用來(lái)建立新術(shù)語(yǔ)層，用R′表示。不同層次內(nèi)術(shù)語(yǔ)節(jié)點(diǎn)間弧的指向用基于本體關(guān)聯(lián)的術(shù)語(yǔ)節(jié)點(diǎn)間聯(lián)系獲取[14]，其過(guò)程如下：

1.3.2 概率估計(jì)

設(shè)為隨機(jī)存在的根術(shù)語(yǔ)節(jié)點(diǎn)，需明確與該根術(shù)語(yǔ)節(jié)點(diǎn)相關(guān)的邊緣概率，設(shè)給定集合內(nèi)全部術(shù)語(yǔ)節(jié)點(diǎn)的概率相同，可得根術(shù)語(yǔ)節(jié)點(diǎn)相關(guān)邊緣概率為：

式中，M表示集合內(nèi)術(shù)語(yǔ)節(jié)點(diǎn)總數(shù)。

根術(shù)語(yǔ)節(jié)點(diǎn)不相關(guān)概率公式如下：

貝葉斯網(wǎng)絡(luò)內(nèi)節(jié)點(diǎn)的父節(jié)點(diǎn)決定隨機(jī)非根節(jié)點(diǎn)的概率，設(shè)Ri為集合內(nèi)隨機(jī)非根術(shù)語(yǔ)節(jié)點(diǎn)，pa(Ri)內(nèi)各術(shù)語(yǔ)變量相關(guān)與不相關(guān)取值組合也用pa(Ri)表示，以此得到一般正則模型概率函數(shù)，計(jì)算公式如下：

其中，vij表示術(shù)語(yǔ)影響術(shù)語(yǔ)Ri的權(quán)重。

當(dāng)術(shù)語(yǔ)Ri存在眾多父節(jié)點(diǎn)時(shí)，可得權(quán)重vij為：

其中，η與Srd分別表示調(diào)節(jié)參數(shù)以及術(shù)語(yǔ)節(jié)點(diǎn)集合內(nèi)術(shù)語(yǔ)本體關(guān)聯(lián)度之和。

術(shù)語(yǔ)本體關(guān)聯(lián)度之和的最大值為：

術(shù)語(yǔ)相關(guān)詞對(duì)術(shù)語(yǔ)影響之和小于術(shù)語(yǔ)對(duì)自身的影響[15-16]，當(dāng)i=j，0.5 ≤η≤1.0 時(shí)，表現(xiàn)明顯。

設(shè)Bj表示集合內(nèi)存在的文檔，得其條件概率為：

其中，pa(Bj)與wij分別表示pa(Bj)內(nèi)各術(shù)語(yǔ)變量相關(guān)以及不相關(guān)取值的組合以及文檔Bj的索引術(shù)語(yǔ)Rj的權(quán)重。以上公式需滿足wij≥0(?i,j)，。當(dāng)ri∈pa(Bj)時(shí)，表示pa(Bj)內(nèi)相關(guān)術(shù)語(yǔ)權(quán)重之和。

Bj的相關(guān)概率值在pa(Bj)內(nèi)相關(guān)術(shù)語(yǔ)越多時(shí)越高。選取TF-IDF 算法計(jì)算wij，如式（7）所示：

其中，γ為時(shí)的規(guī)格化常數(shù)，且滿足?Bj∈B，rfij與ibfi分別表示術(shù)語(yǔ)頻度以及倒排文檔頻度。

1.3.3 推理與檢索

設(shè)Q為用戶查詢以及提交的信息，相關(guān)度P(Bj|Q)表示查詢Q時(shí)獲取文檔Bj的條件概率，獲取相關(guān)度步驟如下：

1）屬于Q術(shù)語(yǔ)的邊緣概率在用戶提交查詢信息Q時(shí)，被實(shí)例化。當(dāng)∈Q以及?Q時(shí)，分別獲取結(jié)果為。

2）依據(jù)以下公式獲取隨機(jī)術(shù)語(yǔ)Ri在術(shù)語(yǔ)層R內(nèi)的后驗(yàn)概率：

3）通過(guò)以下公式計(jì)算查詢信息Q與文檔Bj間相關(guān)度P(Bj|Q)，即文檔Bj最終后驗(yàn)概率：

所獲取與查詢信息Q相關(guān)度最高的文檔Bj即為與用戶所查詢信息最相關(guān)文檔，即用戶所需文檔，通過(guò)以上過(guò)程實(shí)現(xiàn)圖書(shū)館信息檢索。

2 模型性能的測(cè)試

2.1 測(cè)試樣本

選取Cornell 大學(xué)的SMART 11.0 系統(tǒng)測(cè)試文中所建立模型檢索信息的有效性，該系統(tǒng)是利用向量空間模型建立的信息檢索仿真系統(tǒng)，通過(guò)該系統(tǒng)可評(píng)價(jià)不同模型索引以及檢索功能，是研究信息檢索功能的實(shí)用平臺(tái)。選取常用于信息檢索測(cè)試的citeseer 圖書(shū)館科學(xué)標(biāo)準(zhǔn)數(shù)據(jù)集作為實(shí)驗(yàn)樣本，該樣本包含2 564 篇文檔、6 854 個(gè)術(shù)語(yǔ)索引項(xiàng)、10 854 個(gè)詞以及56 個(gè)查詢。數(shù)據(jù)集內(nèi)包含數(shù)據(jù)挖掘、人工智能、科學(xué)計(jì)算、地理等眾多領(lǐng)域內(nèi)容，選取大數(shù)據(jù)分析、模式識(shí)別、支持向量機(jī)、圖像特征、神經(jīng)網(wǎng)絡(luò)、電磁波衰減作為測(cè)試詞語(yǔ)。

2.2 測(cè)試指標(biāo)

測(cè)試圖書(shū)館信息檢索模型檢索性能的指標(biāo)眾多，選取檢索相關(guān)度、檢索精度、查全率、查準(zhǔn)率、查全率/查準(zhǔn)率曲線作為模型檢索性能測(cè)試指標(biāo)。用Q與R分別表示用戶查詢信息以及相關(guān)文檔集，|R|與A分別表示集合內(nèi)文檔數(shù)量以及檢索后返回的文檔集合，|A|與|Ra|分別表示文檔集合的總數(shù)量以及文檔集合R與文檔集合A內(nèi)存在相同文檔的數(shù)量，可得查全率B以及查準(zhǔn)率C，公式如下：

查準(zhǔn)率/查全率曲線是指查全率以及查準(zhǔn)率分別為橫軸以及縱軸時(shí)所獲取的曲線。檢索精度是指實(shí)際檢索相關(guān)文檔數(shù)與全部檢索獲取文檔總數(shù)之比。

2.3 測(cè)試結(jié)果

輸入測(cè)試詞語(yǔ)時(shí)，統(tǒng)計(jì)所獲取檢索結(jié)果與測(cè)試詞語(yǔ)相關(guān)度，并將該文模型與D-S 證據(jù)理論模型(參考文獻(xiàn)[6])以及多Agent 模型(參考文獻(xiàn)[7])對(duì)比，統(tǒng)計(jì)結(jié)果如圖3 所示。通過(guò)圖3 測(cè)試結(jié)果可以看出，采用該文模型檢索信息所獲取文檔的相關(guān)度明顯高于采用D-S 證據(jù)理論模型以及多Agent 模型檢索信息所獲取文檔的相關(guān)度，有效說(shuō)明采用該文模型檢索所獲取結(jié)果與測(cè)試詞語(yǔ)相關(guān)度較高，具有較高的檢索性能。

圖3 檢索相關(guān)度對(duì)比

統(tǒng)計(jì)不同模型檢索測(cè)試詞語(yǔ)的檢索精度，對(duì)比結(jié)果如圖4 所示。通過(guò)圖4 測(cè)試結(jié)果可以看出，采用文中模型檢索測(cè)試詞語(yǔ)的檢索精度明顯高于采用D-S 證據(jù)理論模型以及多Agent 模型檢索精度，文中模型的檢索精度高達(dá)99%以上，有效驗(yàn)證了文中模型具有較高的檢索精度。

圖4 檢索精度對(duì)比

統(tǒng)計(jì)不同模型檢索測(cè)試詞語(yǔ)的查全率，對(duì)比結(jié)果如圖5 所示。由圖5 測(cè)試結(jié)果可以看出，輸入不同測(cè)試詞語(yǔ)后該文模型檢索的查全率明顯高于D-S 證據(jù)理論模型以及多Agent 模型，驗(yàn)證了該文模型具有較高的查全性能。

圖5 不同模型查全率對(duì)比

統(tǒng)計(jì)不同模型檢索測(cè)試詞語(yǔ)的查準(zhǔn)率，對(duì)比結(jié)果如圖6 所示。由圖6 測(cè)試結(jié)果可以看出，采用該文模型檢索測(cè)試詞語(yǔ)獲取的查準(zhǔn)率明顯高于D-S證據(jù)理論模型以及多Agent 模型，有效說(shuō)明了采用該文模型檢索測(cè)試詞語(yǔ)的準(zhǔn)確性高于另兩種模型。

圖6 不同模型查準(zhǔn)率對(duì)比

依據(jù)以上測(cè)試結(jié)果繪制不同模型的查全率/查準(zhǔn)率曲線圖，如圖7 所示。由圖7 測(cè)試結(jié)果可以看出，當(dāng)查全率為10%以及20%時(shí)，3 種模型查準(zhǔn)率相差較小，主要原因是查全率較低時(shí)，3 種模型可檢索文檔數(shù)量較少，所檢索文檔相關(guān)度較高，因此查準(zhǔn)率相差不大。隨著查全率不斷提升，該文模型的查全率明顯高于另兩種模型，所檢索文檔數(shù)量也高于另兩種模型，因此具有較高的查準(zhǔn)率。

圖7 查全率/查準(zhǔn)率曲線

查全率、查準(zhǔn)率以及檢索精度是檢測(cè)信息檢索性能的重要指標(biāo)，從以上測(cè)試結(jié)果可以看出，該文模型不僅具有較高的檢索精度，且檢索不同測(cè)試詞語(yǔ)所獲取的查全率以及查準(zhǔn)率均明顯高于另兩種模型，有效驗(yàn)證了該文模型具有優(yōu)越的檢索性能。

3 結(jié)束語(yǔ)

大數(shù)據(jù)背景下圖書(shū)館信息檢索需求有所提升，將人工智能技術(shù)應(yīng)用于圖書(shū)館信息檢索中具有較高的應(yīng)用性。人工智能技術(shù)可符合用戶信息采集需求，提升圖書(shū)館信息檢索效率，推動(dòng)數(shù)字化圖書(shū)館的不斷進(jìn)步及穩(wěn)定發(fā)展。圖書(shū)館作為用戶提供信息服務(wù)的載體，需充分考慮用戶需求，知識(shí)化以及智能化集成數(shù)字信息資源和服務(wù)是數(shù)字化圖書(shū)館的重要發(fā)展方向。文中所采用的語(yǔ)義網(wǎng)技術(shù)可通過(guò)語(yǔ)義層次實(shí)現(xiàn)用戶的信息檢索需求，為數(shù)字圖書(shū)館智能化發(fā)展提供理論基礎(chǔ)。