布艷艷
(西安科技大學(xué)高新學(xué)院圖書(shū)館,陜西西安 710109)
圖書(shū)館已趨于數(shù)字化,圖書(shū)館將眾多高科技應(yīng)用于信息資源中,實(shí)現(xiàn)信息資源的管理[1-3]。數(shù)字圖書(shū)館存在檢索信息與用戶所輸入檢索詞相關(guān)度較低,無(wú)法滿足用戶需求的缺陷[4-5]。以往圖書(shū)館信息檢索模型僅將關(guān)鍵詞作為搜索的主要元素,未考慮文獻(xiàn)間的關(guān)聯(lián),無(wú)法體現(xiàn)檢索信息間的語(yǔ)義關(guān)系,導(dǎo)致查詢結(jié)果具有較高的誤檢率以及漏檢率。程煜華等人研究基于D-S 證據(jù)理論的信息檢索模型[6-7],利用D-S 證據(jù)理論建立信息檢索模型,存在檢索信息相關(guān)性較差的缺陷;李莉研究基于多Agent 技術(shù)的數(shù)字圖書(shū)館個(gè)性化信息服務(wù)檢索模型,可有效提升檢索精度,但檢索實(shí)時(shí)性較差[8-10]。
人工智能技術(shù)包含機(jī)器學(xué)習(xí)、自然語(yǔ)言處理與自動(dòng)化、機(jī)器視覺(jué)、語(yǔ)義網(wǎng)、貝葉斯網(wǎng)絡(luò)等,為了提高圖書(shū)館信息檢索正確率,提出了基于人工智能技術(shù)的圖書(shū)館信息檢索模型,為圖書(shū)館信息實(shí)時(shí)檢索提供理論依據(jù)。
基于人工智能技術(shù)的語(yǔ)義網(wǎng)建立圖書(shū)館信息檢索模型,如圖1 所示。從圖1 可以看出,所建立圖書(shū)館信息檢索模型包括用戶請(qǐng)求模塊、信息檢索處理模塊以及資源庫(kù)3 部分。用戶輸入關(guān)鍵詞或語(yǔ)句等查詢請(qǐng)求后發(fā)送至信息檢索模塊,資源庫(kù)利用圖書(shū)館信息資源通過(guò)標(biāo)準(zhǔn)化以及規(guī)劃化表達(dá)方式和工作步驟創(chuàng)建本體,信息檢索處理模塊選取貝葉斯網(wǎng)絡(luò)作為推理機(jī),通過(guò)語(yǔ)義邏輯推理、語(yǔ)義抽取以及語(yǔ)義查詢處理用戶所輸入關(guān)鍵詞或語(yǔ)句,獲取邏輯表達(dá)式,從知識(shí)庫(kù)中尋找理想結(jié)果,將檢索結(jié)果排序后輸出結(jié)果至用戶界面。
圖1 圖書(shū)館信息檢索模型
通過(guò)語(yǔ)義網(wǎng)處理海量圖書(shū)館信息資源,獲取理想的信息檢索結(jié)果。利用語(yǔ)義網(wǎng)的概念檢索技術(shù)及資源標(biāo)注技術(shù)與語(yǔ)義字典等工具結(jié)合,建立可體現(xiàn)圖書(shū)館信息資源領(lǐng)域知識(shí)的領(lǐng)域本體模型。建立領(lǐng)域本體模型過(guò)程中需充分利用領(lǐng)域?qū)<业慕?jīng)驗(yàn)及知識(shí)來(lái)獲取該領(lǐng)域內(nèi)詞匯,依據(jù)形式化模式獲取不同詞匯關(guān)系的具體定義,所獲取領(lǐng)域本體可實(shí)現(xiàn)資源庫(kù)內(nèi)文檔的標(biāo)引[11-12]。利用本體更新器依據(jù)資源庫(kù)內(nèi)信息變化擴(kuò)展領(lǐng)域本體,更新器可依據(jù)網(wǎng)絡(luò)信息更新本體知識(shí),并將不需要的知識(shí)進(jìn)行實(shí)時(shí)刪除以及修改。
通過(guò)標(biāo)準(zhǔn)化以及規(guī)范化表達(dá)方式和工作步驟建立模型本體,依據(jù)待建立本體的層次、原則、用途、評(píng)價(jià)標(biāo)準(zhǔn)選取建立本體所需的描述語(yǔ)言和建立模式[13]。選取中國(guó)圖書(shū)分類法構(gòu)建圖書(shū)館信息檢索模型知識(shí)本體,利用OWL 語(yǔ)言作為建立本體的描述語(yǔ)言,OWL 語(yǔ)言是語(yǔ)義互聯(lián)網(wǎng)內(nèi)的本體描述語(yǔ)言標(biāo)準(zhǔn),利用斯坦福大學(xué)開(kāi)發(fā)的本體開(kāi)發(fā)工具Protégé軟件建立本體,本體開(kāi)發(fā)過(guò)程以及生命周期如圖2 所示。利用領(lǐng)域?qū)<逸o助建立包括本體目的、范圍、實(shí)現(xiàn)本體形式化程度的規(guī)格說(shuō)明書(shū),利用中國(guó)圖書(shū)分類法獲取不同信息間的關(guān)聯(lián)知識(shí),利用不同信息資源關(guān)聯(lián)知識(shí)建立概念模型,通過(guò)識(shí)別領(lǐng)域詞匯表呈現(xiàn)問(wèn)題,并提出相應(yīng)解決方案,實(shí)現(xiàn)模型本體創(chuàng)建。
圖2 本體開(kāi)發(fā)以及生命周期
1.3.1 擴(kuò)展貝葉斯網(wǎng)絡(luò)
選取雙術(shù)語(yǔ)層體現(xiàn)術(shù)語(yǔ)節(jié)點(diǎn)內(nèi)的關(guān)聯(lián)。設(shè)R與Ri分別表示原始術(shù)語(yǔ)層以及術(shù)語(yǔ)節(jié)點(diǎn),將存在于原始術(shù)語(yǔ)層R內(nèi)的全部術(shù)語(yǔ)節(jié)點(diǎn)Ri復(fù)制,所獲取的術(shù)語(yǔ)節(jié)點(diǎn)用來(lái)建立新術(shù)語(yǔ)層,用R′表示。不同層次內(nèi)術(shù)語(yǔ)節(jié)點(diǎn)間弧的指向用基于本體關(guān)聯(lián)的術(shù)語(yǔ)節(jié)點(diǎn)間聯(lián)系獲取[14],其過(guò)程如下:
1.3.2 概率估計(jì)
設(shè)為隨機(jī)存在的根術(shù)語(yǔ)節(jié)點(diǎn),需明確與該根術(shù)語(yǔ)節(jié)點(diǎn)相關(guān)的邊緣概率,設(shè)給定集合內(nèi)全部術(shù)語(yǔ)節(jié)點(diǎn)的概率相同,可得根術(shù)語(yǔ)節(jié)點(diǎn)相關(guān)邊緣概率為:
式中,M表示集合內(nèi)術(shù)語(yǔ)節(jié)點(diǎn)總數(shù)。
根術(shù)語(yǔ)節(jié)點(diǎn)不相關(guān)概率公式如下:
貝葉斯網(wǎng)絡(luò)內(nèi)節(jié)點(diǎn)的父節(jié)點(diǎn)決定隨機(jī)非根節(jié)點(diǎn)的概率,設(shè)Ri為集合內(nèi)隨機(jī)非根術(shù)語(yǔ)節(jié)點(diǎn),pa(Ri)內(nèi)各術(shù)語(yǔ)變量相關(guān)與不相關(guān)取值組合也用pa(Ri)表示,以此得到一般正則模型概率函數(shù),計(jì)算公式如下:
其中,vij表示術(shù)語(yǔ)影響術(shù)語(yǔ)Ri的權(quán)重。
當(dāng)術(shù)語(yǔ)Ri存在眾多父節(jié)點(diǎn)時(shí),可得權(quán)重vij為:
其中,η與Srd分別表示調(diào)節(jié)參數(shù)以及術(shù)語(yǔ)節(jié)點(diǎn)集合內(nèi)術(shù)語(yǔ)本體關(guān)聯(lián)度之和。
術(shù)語(yǔ)本體關(guān)聯(lián)度之和的最大值為:
術(shù)語(yǔ)相關(guān)詞對(duì)術(shù)語(yǔ)影響之和小于術(shù)語(yǔ)對(duì)自身的影響[15-16],當(dāng)i=j,0.5 ≤η≤1.0 時(shí),表現(xiàn)明顯。
設(shè)Bj表示集合內(nèi)存在的文檔,得其條件概率為:
其中,pa(Bj)與wij分別表示pa(Bj)內(nèi)各術(shù)語(yǔ)變量相關(guān)以及不相關(guān)取值的組合以及文檔Bj的索引術(shù)語(yǔ)Rj的權(quán)重。以上公式需滿足wij≥0(?i,j),。當(dāng)ri∈pa(Bj)時(shí),表示pa(Bj)內(nèi)相關(guān)術(shù)語(yǔ)權(quán)重之和。
Bj的相關(guān)概率值在pa(Bj)內(nèi)相關(guān)術(shù)語(yǔ)越多時(shí)越高。選取TF-IDF 算法計(jì)算wij,如式(7)所示:
其中,γ為時(shí)的規(guī)格化常數(shù),且滿足?Bj∈B,rfij與ibfi分別表示術(shù)語(yǔ)頻度以及倒排文檔頻度。
1.3.3 推理與檢索
設(shè)Q為用戶查詢以及提交的信息,相關(guān)度P(Bj|Q)表示查詢Q時(shí)獲取文檔Bj的條件概率,獲取相關(guān)度步驟如下:
1)屬于Q術(shù)語(yǔ)的邊緣概率在用戶提交查詢信息Q時(shí),被實(shí)例化。當(dāng)∈Q以及?Q時(shí),分別獲取結(jié)果為。
2)依據(jù)以下公式獲取隨機(jī)術(shù)語(yǔ)Ri在術(shù)語(yǔ)層R內(nèi)的后驗(yàn)概率:
3)通過(guò)以下公式計(jì)算查詢信息Q與文檔Bj間相關(guān)度P(Bj|Q),即文檔Bj最終后驗(yàn)概率:
所獲取與查詢信息Q相關(guān)度最高的文檔Bj即為與用戶所查詢信息最相關(guān)文檔,即用戶所需文檔,通過(guò)以上過(guò)程實(shí)現(xiàn)圖書(shū)館信息檢索。
選取Cornell 大學(xué)的SMART 11.0 系統(tǒng)測(cè)試文中所建立模型檢索信息的有效性,該系統(tǒng)是利用向量空間模型建立的信息檢索仿真系統(tǒng),通過(guò)該系統(tǒng)可評(píng)價(jià)不同模型索引以及檢索功能,是研究信息檢索功能的實(shí)用平臺(tái)。選取常用于信息檢索測(cè)試的citeseer 圖書(shū)館科學(xué)標(biāo)準(zhǔn)數(shù)據(jù)集作為實(shí)驗(yàn)樣本,該樣本包含2 564 篇文檔、6 854 個(gè)術(shù)語(yǔ)索引項(xiàng)、10 854 個(gè)詞以及56 個(gè)查詢。數(shù)據(jù)集內(nèi)包含數(shù)據(jù)挖掘、人工智能、科學(xué)計(jì)算、地理等眾多領(lǐng)域內(nèi)容,選取大數(shù)據(jù)分析、模式識(shí)別、支持向量機(jī)、圖像特征、神經(jīng)網(wǎng)絡(luò)、電磁波衰減作為測(cè)試詞語(yǔ)。
測(cè)試圖書(shū)館信息檢索模型檢索性能的指標(biāo)眾多,選取檢索相關(guān)度、檢索精度、查全率、查準(zhǔn)率、查全率/查準(zhǔn)率曲線作為模型檢索性能測(cè)試指標(biāo)。用Q與R分別表示用戶查詢信息以及相關(guān)文檔集,|R|與A分別表示集合內(nèi)文檔數(shù)量以及檢索后返回的文檔集合,|A|與|Ra|分別表示文檔集合的總數(shù)量以及文檔集合R與文檔集合A內(nèi)存在相同文檔的數(shù)量,可得查全率B以及查準(zhǔn)率C,公式如下:
查準(zhǔn)率/查全率曲線是指查全率以及查準(zhǔn)率分別為橫軸以及縱軸時(shí)所獲取的曲線。檢索精度是指實(shí)際檢索相關(guān)文檔數(shù)與全部檢索獲取文檔總數(shù)之比。
輸入測(cè)試詞語(yǔ)時(shí),統(tǒng)計(jì)所獲取檢索結(jié)果與測(cè)試詞語(yǔ)相關(guān)度,并將該文模型與D-S 證據(jù)理論模型(參考文獻(xiàn)[6])以及多Agent 模型(參考文獻(xiàn)[7])對(duì)比,統(tǒng)計(jì)結(jié)果如圖3 所示。通過(guò)圖3 測(cè)試結(jié)果可以看出,采用該文模型檢索信息所獲取文檔的相關(guān)度明顯高于采用D-S 證據(jù)理論模型以及多Agent 模型檢索信息所獲取文檔的相關(guān)度,有效說(shuō)明采用該文模型檢索所獲取結(jié)果與測(cè)試詞語(yǔ)相關(guān)度較高,具有較高的檢索性能。
圖3 檢索相關(guān)度對(duì)比
統(tǒng)計(jì)不同模型檢索測(cè)試詞語(yǔ)的檢索精度,對(duì)比結(jié)果如圖4 所示。通過(guò)圖4 測(cè)試結(jié)果可以看出,采用文中模型檢索測(cè)試詞語(yǔ)的檢索精度明顯高于采用D-S 證據(jù)理論模型以及多Agent 模型檢索精度,文中模型的檢索精度高達(dá)99%以上,有效驗(yàn)證了文中模型具有較高的檢索精度。
圖4 檢索精度對(duì)比
統(tǒng)計(jì)不同模型檢索測(cè)試詞語(yǔ)的查全率,對(duì)比結(jié)果如圖5 所示。由圖5 測(cè)試結(jié)果可以看出,輸入不同測(cè)試詞語(yǔ)后該文模型檢索的查全率明顯高于D-S 證據(jù)理論模型以及多Agent 模型,驗(yàn)證了該文模型具有較高的查全性能。
圖5 不同模型查全率對(duì)比
統(tǒng)計(jì)不同模型檢索測(cè)試詞語(yǔ)的查準(zhǔn)率,對(duì)比結(jié)果如圖6 所示。由圖6 測(cè)試結(jié)果可以看出,采用該文模型檢索測(cè)試詞語(yǔ)獲取的查準(zhǔn)率明顯高于D-S證據(jù)理論模型以及多Agent 模型,有效說(shuō)明了采用該文模型檢索測(cè)試詞語(yǔ)的準(zhǔn)確性高于另兩種模型。
圖6 不同模型查準(zhǔn)率對(duì)比
依據(jù)以上測(cè)試結(jié)果繪制不同模型的查全率/查準(zhǔn)率曲線圖,如圖7 所示。由圖7 測(cè)試結(jié)果可以看出,當(dāng)查全率為10%以及20%時(shí),3 種模型查準(zhǔn)率相差較小,主要原因是查全率較低時(shí),3 種模型可檢索文檔數(shù)量較少,所檢索文檔相關(guān)度較高,因此查準(zhǔn)率相差不大。隨著查全率不斷提升,該文模型的查全率明顯高于另兩種模型,所檢索文檔數(shù)量也高于另兩種模型,因此具有較高的查準(zhǔn)率。
圖7 查全率/查準(zhǔn)率曲線
查全率、查準(zhǔn)率以及檢索精度是檢測(cè)信息檢索性能的重要指標(biāo),從以上測(cè)試結(jié)果可以看出,該文模型不僅具有較高的檢索精度,且檢索不同測(cè)試詞語(yǔ)所獲取的查全率以及查準(zhǔn)率均明顯高于另兩種模型,有效驗(yàn)證了該文模型具有優(yōu)越的檢索性能。
大數(shù)據(jù)背景下圖書(shū)館信息檢索需求有所提升,將人工智能技術(shù)應(yīng)用于圖書(shū)館信息檢索中具有較高的應(yīng)用性。人工智能技術(shù)可符合用戶信息采集需求,提升圖書(shū)館信息檢索效率,推動(dòng)數(shù)字化圖書(shū)館的不斷進(jìn)步及穩(wěn)定發(fā)展。圖書(shū)館作為用戶提供信息服務(wù)的載體,需充分考慮用戶需求,知識(shí)化以及智能化集成數(shù)字信息資源和服務(wù)是數(shù)字化圖書(shū)館的重要發(fā)展方向。文中所采用的語(yǔ)義網(wǎng)技術(shù)可通過(guò)語(yǔ)義層次實(shí)現(xiàn)用戶的信息檢索需求,為數(shù)字圖書(shū)館智能化發(fā)展提供理論基礎(chǔ)。