張小娟 張永恒 楊斐
摘 要: 傳統(tǒng)方法評(píng)價(jià)結(jié)果高于MAP@all標(biāo)準(zhǔn)值,為了解決這一問(wèn)題,提出了基于Hadoop技術(shù)的高校數(shù)字圖書(shū)館文獻(xiàn)檢索方法。運(yùn)用Hadoop算法提取語(yǔ)義關(guān)鍵詞,再根據(jù)文獻(xiàn)檢索關(guān)鍵詞計(jì)算流程計(jì)算語(yǔ)義相似度。完成上述工作后,運(yùn)用快速匹配法,獲得每個(gè)主題關(guān)鍵字比重權(quán)值??紤]不同主題生成文檔權(quán)值不同,構(gòu)建文獻(xiàn)檢索模型,實(shí)現(xiàn)高效數(shù)字圖書(shū)館文獻(xiàn)檢索。由此,完成基于Hadoop技術(shù)的高校數(shù)字圖書(shū)館文獻(xiàn)檢索方法的設(shè)計(jì)。實(shí)驗(yàn)中,在ACM數(shù)字圖書(shū)館中選取數(shù)據(jù) 40 000篇文獻(xiàn),用于評(píng)價(jià)兩種方法的MAP@all值。實(shí)驗(yàn)結(jié)果表明,所提方法MAP@all值小于0.004 0,傳統(tǒng)方法MAP@all值高于0.004 0。由此可知,所提方法的漏查率較低,符合設(shè)計(jì)需求。
關(guān)鍵詞: Hadoop技術(shù); 高校數(shù)字圖書(shū)館; 文獻(xiàn)檢索; 語(yǔ)義相似度; 文本向量; 先驗(yàn)概率; 相似度矩陣
中圖分類號(hào): TP 391文獻(xiàn)標(biāo)志碼: A
Research and Design of Document Retrieval Method of University
Digital Library Based on Hadoop Technology
ZHANG Xiaojuan, ZHANG Yongheng, YANG Fei
(School of Information Engineering, Yulin University, Yulin, Shanxi 719000, China)
Abstract: The evaluation results of traditional methods are higher than the MAP@ all standard value. In order to solve this problem, this paper proposes the document retrieval of university digital library based on Hadoop technology. The method uses Hadoop algorithm to extract semantic keywords, and then calculate semantic similarity according to the process of keyword calculation. After completing the above work, we use the fast matching method to obtain the proportion weight of each subject key. Considering the different weight of documents generated by different topics, a document retrieval model is constructed to realize efficient document retrieval in digital library. Therefore, the design of document retrieval method of university digital library based on Hadoop technology is completed. In the experiment, 40 000 documents were selected from ACM digital library to evaluate the MAP @ all value of the two methods. The experimental results show that the MAP @ all value of the proposed method is less than 0.004 0, and the MAP@ all value of the traditional method is higher than 0.004 0. It can be seen that the miss rate of the proposed method is low, and it meets the design requirements.
Key words: Hadoop technology; university digital library; document retrieval; semantic similarity; text vector; prior probability; similarity matrix
0 引言
在1995年美國(guó)數(shù)字圖書(shū)館就已經(jīng)走在世界各國(guó)的前列。當(dāng)前,國(guó)內(nèi)的圖書(shū)館資料大多是以紙質(zhì)為主,要實(shí)現(xiàn)數(shù)字圖書(shū)館就需要將紙質(zhì)材料信息化。并在現(xiàn)有的電子文檔和視頻資源基礎(chǔ)上,構(gòu)建數(shù)字圖書(shū)館的資料庫(kù)[1]。據(jù)報(bào)道大部分學(xué)校都建立了中國(guó)期刊網(wǎng)站點(diǎn),維普中文科技期刊數(shù)據(jù)庫(kù)和萬(wàn)方數(shù)據(jù)庫(kù)都已被廣泛采用。
傳統(tǒng)文獻(xiàn)檢索方法運(yùn)用分層次檢索模型判斷信息,這對(duì)用戶所輸入的檢索字段準(zhǔn)確性要求很高,導(dǎo)致返回結(jié)果出現(xiàn)很多無(wú)關(guān)數(shù)據(jù)。為了解決這一問(wèn)題,提出基于Hadoop技術(shù)的高校數(shù)字圖書(shū)館文獻(xiàn)檢索方法。Hadoop技術(shù)是基于Map 編程思想的分布式計(jì)算環(huán)境。運(yùn)行原理:將一個(gè)任務(wù)分解成多個(gè)子任務(wù)。這些子任務(wù)會(huì)被分配到不同服務(wù)器計(jì)算。Hadoop能夠保證每一次運(yùn)算結(jié)果的可靠性,當(dāng)Hadoop在同一時(shí)間維護(hù)了多個(gè)工作數(shù)據(jù)副本,就會(huì)重新分配計(jì)算任務(wù),保證文獻(xiàn)檢索的準(zhǔn)確性。基于Hadoop技術(shù)的高效數(shù)字圖書(shū)館文獻(xiàn)檢索方法的具體實(shí)現(xiàn)過(guò)程如下。
1 文獻(xiàn)檢索語(yǔ)義關(guān)鍵詞提取
先處理輸入文本,刪除文本中的數(shù)字和標(biāo)點(diǎn)符號(hào),再根據(jù)Hadoop算法對(duì)文本進(jìn)行分詞。分詞后,刪除不符合的關(guān)鍵詞[2]。在語(yǔ)義分析的過(guò)程中,字詞不是處理目標(biāo),詞義才是處理對(duì)象。當(dāng)一個(gè)文本中出現(xiàn)單個(gè)詞或者組合詞時(shí),要在WORDNET中尋找,詞義分析表達(dá)式為式(1)。
其中,s表示詞義,t表示處理對(duì)象,k表示組合詞。
運(yùn)用公式(1)即可在WORDNET中尋找對(duì)應(yīng)的含義。為了更精準(zhǔn)的獲取候選詞的詞義,要消除歧義,分析語(yǔ)句消歧詞的語(yǔ)句,運(yùn)用Hadoop技術(shù)得到候選詞詞義[3]。計(jì)算式為式(2)。
其中,k表示語(yǔ)句,用SenseScore函數(shù)計(jì)算s詞義相關(guān)度,c表示所有詞集合。
分析上下文集合c的語(yǔ)句時(shí),要先消歧s,若s可以直接在語(yǔ)義表內(nèi)找到對(duì)應(yīng)候選詞,即可運(yùn)用(2)進(jìn)行消歧處理[3]。在計(jì)算的過(guò)程中,要迭代計(jì)算詞s和c中所有詞的相關(guān)度大小。通過(guò)比較每個(gè)詞義相關(guān)度,提取關(guān)鍵詞。排序結(jié)果最大的候選詞就是正確的詞義。
2 文獻(xiàn)檢索語(yǔ)義相似度計(jì)算
在提取文獻(xiàn)檢索語(yǔ)義關(guān)鍵詞后,考慮到文獻(xiàn)所包含的語(yǔ)義與關(guān)鍵字的語(yǔ)義會(huì)出現(xiàn)模糊問(wèn)題,在方法的計(jì)算思路上,選擇Hadoop算法計(jì)算文獻(xiàn)檢索語(yǔ)義相似度[4]。計(jì)算過(guò)程展示如下。
文獻(xiàn)檢索關(guān)鍵詞計(jì)算流程,如圖1所示。
圖1中的wn為計(jì)算的關(guān)鍵字樣本1和樣本2的潛在的n個(gè)關(guān)鍵詞分向量[5]。
基于Hadoop的文本向量為d=(w1,w2,w3,…,wn),n為潛在主題數(shù)目。兩個(gè)文本的相似度計(jì)算公式為式(3):
其中,d1,d2表示待計(jì)算的兩個(gè)文本向量,θ表示這兩個(gè)文本向量的夾角,d1wi表示d1文本的第
wi個(gè)分向量。運(yùn)用公式(3)即可避免模糊問(wèn)題[6]。
在計(jì)算的過(guò)程中,要使用關(guān)鍵字作為文本分量,根據(jù)表1填充文本相似度矩陣的行和列,如表1所示。
運(yùn)用表1時(shí),要注意以下幾點(diǎn);
(1) 矩陣不是對(duì)稱,在兩個(gè)矩陣單元的文本關(guān)鍵字相似度計(jì)算時(shí),不同主題下的關(guān)鍵字計(jì)算結(jié)果不同,但這不是一個(gè)對(duì)稱矩陣[7]。
(2) 計(jì)算過(guò)程復(fù)雜,當(dāng)文本中包含很多關(guān)鍵字時(shí),不同關(guān)鍵字可能處于不同主題下,計(jì)算過(guò)程較為復(fù)雜,需要在后續(xù)數(shù)據(jù)挖掘的過(guò)程中不斷改進(jìn)[8]。
3 文獻(xiàn)檢索設(shè)計(jì)
先提取文獻(xiàn)檢索關(guān)鍵詞,再計(jì)算語(yǔ)義相似度[9]。為了更好的滿足高校學(xué)生的需求,運(yùn)用快速匹配法,獲得每個(gè)主題關(guān)鍵字的比重權(quán)值,計(jì)算式為式(4)。
其中,T表示關(guān)鍵詞總數(shù),freq(keyi)表示關(guān)鍵詞key次數(shù),p表示輸入文字[10]。
運(yùn)用公式(4)計(jì)算每個(gè)關(guān)鍵詞出現(xiàn)的次數(shù),即為關(guān)鍵字在輸入文字p中的權(quán)重。
考慮不同主題生成的文檔權(quán)值不同,需要構(gòu)建文獻(xiàn)檢索模型[11]。基于Hadoop技術(shù)的高校數(shù)字圖書(shū)館文獻(xiàn)檢索模型,如圖2所示。
當(dāng)文本在處理階段時(shí),需要預(yù)先處理文本數(shù)據(jù)源,利用Hadoop算法逐一計(jì)算,得到關(guān)鍵詞下文獻(xiàn)的權(quán)重。利用文獻(xiàn)間的引用關(guān)系構(gòu)建應(yīng)用網(wǎng)絡(luò)[12]。網(wǎng)絡(luò)中的每個(gè)頂點(diǎn)代表一篇文獻(xiàn),每條邊代表一個(gè)引文上下文。運(yùn)用Hadoop技術(shù)得到一個(gè)有向網(wǎng)絡(luò)圖,用于改變不同主題下的先驗(yàn)概率分布情況。其次,當(dāng)用戶生成查詢時(shí),用戶檢索詞可以是一段上下文信息的文本。當(dāng)文本處于匹配查找階段,系統(tǒng)會(huì)預(yù)先處理輸入長(zhǎng)文本,將涉及到的主體關(guān)鍵字進(jìn)行基于Hadoop技術(shù)的匹配查詢工作[13]。考慮到不同關(guān)鍵字下文獻(xiàn)相對(duì)權(quán)重不同,需要根據(jù)用戶需求計(jì)算每一篇文獻(xiàn)的先驗(yàn)概率。
在完成文獻(xiàn)檢索模型構(gòu)建后,需要對(duì)提出的基于Hadoop技術(shù)的高校數(shù)字圖書(shū)館文獻(xiàn)檢索模型進(jìn)行評(píng)價(jià)[14]。研究中,采用常用的評(píng)價(jià)指標(biāo),選取準(zhǔn)則為,要選取一定量已知摘要,輸入這部分文字,將文獻(xiàn)已知的引用信息作為評(píng)價(jià)標(biāo)準(zhǔn),用于比對(duì)文獻(xiàn)推薦結(jié)果和標(biāo)準(zhǔn)結(jié)果。在NDCG評(píng)價(jià)指標(biāo)過(guò)程中,要先劃分每個(gè)數(shù)據(jù)的權(quán)重,劃分原則為,測(cè)試數(shù)據(jù)中的文獻(xiàn)若被引用 ,權(quán)值應(yīng)大于0.若測(cè)試數(shù)據(jù)中的文獻(xiàn)未被引用,權(quán)值應(yīng)為0。對(duì)于已經(jīng)引用的測(cè)試數(shù)據(jù)應(yīng)根據(jù)被引次數(shù)確定權(quán)值,權(quán)值應(yīng)為1-4。若被測(cè)數(shù)據(jù)引用過(guò)1次,權(quán)值應(yīng)為1。若被測(cè)數(shù)據(jù)引用次數(shù)大于4次,權(quán)值應(yīng)為4[15]。
基于Hadoop技術(shù)的高校數(shù)字圖書(shū)館文獻(xiàn)檢索方法實(shí)現(xiàn),具體檢索流程如下;
Step1,輸入任意長(zhǎng)度文本,系統(tǒng)會(huì)根據(jù)給定的信息找出有關(guān)輸入對(duì)象的相關(guān)文獻(xiàn),并以相似度大小的排序結(jié)果給出。
Step2,在輸入文本信息后,會(huì)直接給出相關(guān)文獻(xiàn)檢索結(jié)果。
Step3 ,點(diǎn)擊每條文獻(xiàn)給定的連接,從高校官方網(wǎng)站中瀏覽文獻(xiàn)的詳細(xì)信息。
Step4,系統(tǒng)提供高級(jí)檢索,可以調(diào)整相關(guān)參數(shù),得到不同檢索結(jié)果。
Step5,參數(shù)值會(huì)影響檢索結(jié)果,若用戶在意文本相似度,參數(shù)1應(yīng)該取值更大。若用戶更關(guān)注特定主題下的結(jié)果,參數(shù)2應(yīng)該取值更大。若用戶更關(guān)注近幾年發(fā)表的文獻(xiàn),參數(shù)3應(yīng)該取值更大。
由此,完成基于Hadoop技術(shù)的高校數(shù)字圖書(shū)館文獻(xiàn)檢索方法的設(shè)計(jì)。
4 仿真測(cè)試析
4.1 實(shí)驗(yàn)數(shù)據(jù)及實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)針對(duì)基于Hadoop技術(shù)的高校數(shù)字圖書(shū)館文獻(xiàn)檢索方法設(shè)計(jì)的關(guān)鍵要素設(shè)置實(shí)驗(yàn)環(huán)境。首先,采用MATLAB仿真軟件作為實(shí)驗(yàn)平臺(tái),在ACM數(shù)字圖書(shū)館中選取數(shù)據(jù) 40 000篇文獻(xiàn),計(jì)算這些文獻(xiàn)在3 500個(gè)主題下的權(quán)值。主題個(gè)數(shù)是由Hadoop技術(shù)訓(xùn)練得到的。涵蓋了ACM數(shù)據(jù)集中使用頻率最高的關(guān)鍵詞。全部文獻(xiàn)的權(quán)重之和為1。運(yùn)用這些數(shù)據(jù),構(gòu)成文獻(xiàn)檢索的訓(xùn)練數(shù)據(jù)。為了評(píng)價(jià)傳統(tǒng)方法和基于Hadoop技術(shù)的高校數(shù)字圖書(shū)館文獻(xiàn)檢索方法的效率,選取200篇文獻(xiàn),分別采用傳統(tǒng)方法和基于Hadoop技術(shù)的高校數(shù)字圖書(shū)館文獻(xiàn)檢索方法對(duì)200篇文獻(xiàn)進(jìn)行檢索。實(shí)驗(yàn)數(shù)據(jù)具有以下特點(diǎn);
(1) 第一,這200篇文獻(xiàn)都可以獲取全文信息。其中,摘要的字?jǐn)?shù)長(zhǎng)度為200字左右,全文信息長(zhǎng)度為1 000字左右。
(2) 可以保證檢驗(yàn)數(shù)據(jù)的準(zhǔn)確性。
(3) 這200篇文獻(xiàn)都包含20條文獻(xiàn)。這些文獻(xiàn)是指定的。
(4) 文獻(xiàn)貢獻(xiàn)值較高。
以MAP@all值作為實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn),MAP@all值表示文獻(xiàn)檢索中所有類別漏查率的平均值。MAP@all的標(biāo)準(zhǔn)值為0.004 0。
4.2 結(jié)果與分析
傳統(tǒng)方法和本文方法評(píng)價(jià)結(jié)果如表2和表3所示。
由表2和表3可知,使用傳統(tǒng)方法的評(píng)價(jià)結(jié)果較差。出現(xiàn)這樣的原因是因?yàn)樵谖墨I(xiàn)檢索時(shí),沒(méi)有考慮到被檢索的文本信息?;贖adoop技術(shù)的高校數(shù)字圖書(shū)館文獻(xiàn)檢索方法的評(píng)價(jià)結(jié)果在0.003 0左右,低于標(biāo)準(zhǔn)值,漏查率較低,符合設(shè)計(jì)需求。由此,證明所建的基于Hadoop技術(shù)的高校數(shù)字圖書(shū)館文獻(xiàn)檢索方法符合設(shè)計(jì)需求。
5 總結(jié)
針對(duì)傳統(tǒng)方法存在的問(wèn)題,提出基于Hadoop技術(shù)的高校數(shù)字圖書(shū)館文獻(xiàn)檢索方法。先提取文獻(xiàn)檢索關(guān)鍵詞,再計(jì)算文獻(xiàn)語(yǔ)義相似度,完成上述工作后,構(gòu)建高效數(shù)字圖書(shū)館文獻(xiàn)檢索模型的構(gòu)建,實(shí)現(xiàn)文獻(xiàn)檢索。由此,完成本次設(shè)計(jì)。
上接第13頁(yè))
參考文獻(xiàn)
[1] 谷參. 基于分布式結(jié)構(gòu)的圖書(shū)館信息檢索服務(wù)系統(tǒng)研究[J]. 現(xiàn)代電子技術(shù), 2017, 40(1):83-85.
[2] 徐彤陽(yáng), 任浩然. 數(shù)字圖書(shū)館圖像資源檢索框架的構(gòu)建與實(shí)現(xiàn)——基于非下采樣的Contourlet變換[J]. 現(xiàn)代情報(bào), 2017, 37(6):55-60.
[3] 魏曉萍, 李紅培. 基于RFID的低利用率文獻(xiàn)高密度存儲(chǔ)——上海大學(xué)圖書(shū)館RFID密集庫(kù)建設(shè)實(shí)踐[J]. 圖書(shū)館理論與實(shí)踐, 2017.22(10):88-91.
[4] 劉飛. 基于4I營(yíng)銷原則的高校圖書(shū)館閱讀推廣研究[J]. 圖書(shū)館工作與研究, 2017, 1(9):36-39.
[5] 王翠英. 基于經(jīng)典扎根理論的我國(guó)高校圖書(shū)館FOLKSONOMY實(shí)施機(jī)制實(shí)證研究[J]. 情報(bào)科學(xué), 2017, 35(1):90-102.
[6] 顧海兵, 朱凱. 國(guó)家經(jīng)濟(jì)安全指標(biāo)確定和修正的文獻(xiàn)檢索法:方法論與案例[J]. 南京社會(huì)科學(xué), 2017.32(3):26-33.
[7] 張聰, 趙怡晴. 基于Hadoop技術(shù)的突水治理平臺(tái)的云服務(wù)及實(shí)現(xiàn)[J]. 工業(yè)安全與環(huán)保, 2017, 43(12):16-20.
[8] 韓平平, 張祥民. Hadoop數(shù)據(jù)存儲(chǔ)分析技術(shù)在風(fēng)電并網(wǎng)系統(tǒng)中的應(yīng)用[J]. 電力系統(tǒng)及其自動(dòng)化學(xué)報(bào), 2018, 30(1):43-50.
[9] 蒙杰, 楊生舉. 基于Hadoop的海量科技信息資源管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 科技管理研究, 2017, 37(13):181-186.
[10] 于萬(wàn)鈞, 沈斌. 基于角色與信任的訪問(wèn)控制及其在Hadoop上的實(shí)現(xiàn)[J]. 現(xiàn)代電子技術(shù), 2017, 40(24):9-11.
[11] 高玉平. 海量圖書(shū)檢索信息的快速查詢系統(tǒng)優(yōu)化設(shè)計(jì)研究[J]. 現(xiàn)代電子技術(shù), 2017, 40(6):13-17.
[12] 韓正彪, 羅瑞. 學(xué)術(shù)用戶情感控制與心智模型對(duì)信息檢索績(jī)效影響的實(shí)驗(yàn)研究[J]. 情報(bào)理論與實(shí)踐, 2017, 40(1):59-64.
[13] 周棟, 趙文玉. 個(gè)性化跨語(yǔ)言信息檢索中結(jié)果重排序研究[J]. 計(jì)算機(jī)工程與科學(xué), 2017, 39(10):1922-1929.
[14] 江小燕, 王明輝. 基于本體的PPP項(xiàng)目風(fēng)險(xiǎn)信息建模與檢索[J]. 土木工程與管理學(xué)報(bào), 2018, 35(1):66-72.
[15] 袁敏, 段景輝. 基于云計(jì)算環(huán)境下的信息檢索及智能融合的研究[J]. 現(xiàn)代電子技術(shù), 2018, 41(6):162-164.
(收稿日期: 2019.12.12)
基金項(xiàng)目:陜西省教育科學(xué)規(guī)劃課題(編號(hào):SGH18H418);陜西省教育廳科學(xué)研究項(xiàng)目(編號(hào):18JK0909);陜西省教育科學(xué)規(guī)劃課題(編號(hào): SGH17H282)
作者簡(jiǎn)介:
張小娟(1981-),女,碩士,講師,研究方向:信息組織與檢索、云計(jì)算、知識(shí)圖譜與大數(shù)據(jù)分析。
張永恒(1968-),男,碩士,教授,研究方向:計(jì)算機(jī)應(yīng)用與技術(shù)、云計(jì)算、農(nóng)業(yè)大數(shù)據(jù)等。
楊斐(1982-),男,碩士,副教授,研究方向:大數(shù)據(jù)、電子商務(wù)等。