夏 斌,丁 立,喬紅波,高 瑞
(河南農(nóng)業(yè)大學(xué)信息與管理科學(xué)學(xué)院,河南鄭州 450002)
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)上的信息量正在以幾何級數(shù)的速度增長,搜索引擎的出現(xiàn)解決了海量互聯(lián)網(wǎng)資源的快速定位和檢索,成為僅次于電子郵件的第二大網(wǎng)上服務(wù).但通用搜索引擎因為其龐大的數(shù)據(jù)量和寬泛的主題越來越無法滿足用戶對某一專業(yè)領(lǐng)域信息精確查找的需求,所以垂直搜索引擎的建立顯得非常迫切和必要.所謂“垂直搜索引擎”,就是只針對特定主題范圍內(nèi)的信息進行檢索,檢索效率更高[1].目前,網(wǎng)絡(luò)上的農(nóng)業(yè)信息資源極大豐富,廣大農(nóng)村、農(nóng)民、農(nóng)業(yè)工作者急需能夠快速有效地尋找到適合他們的專業(yè)化、時效性強的農(nóng)業(yè)知識資源和信息,中文農(nóng)業(yè)信息垂直搜索引擎正是在這種背景下應(yīng)運而生.本研究以用戶對農(nóng)業(yè)信息搜索需求為研究背景,結(jié)合現(xiàn)今流行的垂直搜索理念和技術(shù),以國內(nèi)互聯(lián)網(wǎng)上的農(nóng)業(yè)信息為特定的抓取對象,進行自動采集,來實現(xiàn)農(nóng)業(yè)信息的搜索功能.該系統(tǒng)采用向量空間模型對農(nóng)業(yè)主題進行識別,在鏈接分析的基礎(chǔ)上加入了網(wǎng)頁內(nèi)容相關(guān)性的判斷,使排序結(jié)果更加合理,從而提高了信息檢索的效率和準確率.
搜索引擎是指根據(jù)一定的策略在 Web上搜集和發(fā)現(xiàn)信息,在對信息進行處理和組織后,為用戶提供 Web信息查詢服務(wù)的系統(tǒng)[2].通用搜索引擎系統(tǒng)主要由搜集器、索引器、檢索器、用戶接口等部分組成.體系結(jié)構(gòu)見文獻[2].
搜集器又叫網(wǎng)絡(luò)爬蟲,負責(zé)從互聯(lián)網(wǎng)上搜集網(wǎng)頁,并對所搜集的網(wǎng)頁進行分析處理;索引器負責(zé)組織搜集器搜索到的網(wǎng)頁,并進行提取、分詞等預(yù)處理操作,從中提取出索引項,生成索引表;檢索器根據(jù)用戶的查詢要求從索引庫中快速檢索信息,并把結(jié)果排序后反饋給用戶,同時搜集用戶信息,改進檢索質(zhì)量[2];用戶接口主要是人機交互界面,輸入查詢并顯示查詢結(jié)果.
中文農(nóng)業(yè)信息垂直搜索引擎[3]是面向農(nóng)業(yè)主題的 Web信息檢索系統(tǒng),其目的是從互聯(lián)網(wǎng)海量信息中獲取農(nóng)業(yè)信息,并通過對這些信息的分析處理,提高農(nóng)業(yè)信息資源的利用率.它的工作原理與通用搜索引擎工作原理基本相同,所不同的是它為了實現(xiàn)查詢結(jié)果與農(nóng)業(yè)主題相關(guān),還需增加農(nóng)業(yè)主題識別器和建立農(nóng)業(yè)主題特征詞表,利用農(nóng)業(yè)主題識別器從農(nóng)業(yè)主題特征詞表中選擇與農(nóng)業(yè)主題相關(guān)的 URL,并對其進行分類和確定優(yōu)先級別.中文農(nóng)業(yè)信息垂直搜索引擎的系統(tǒng)結(jié)構(gòu)如圖 1所示.
圖1 中文農(nóng)業(yè)信息垂直搜索引擎的系統(tǒng)結(jié)構(gòu)Fig.1 The frame for vertical search engine of chinese agricultural science information
農(nóng)業(yè)信息采集模塊負責(zé)采集與農(nóng)業(yè)相關(guān)的網(wǎng)頁.搜集器采用先寬搜索的方式對互聯(lián)網(wǎng)上的站點進行訪問,獲取網(wǎng)站列表,以保證網(wǎng)頁的覆蓋率和重要性.解析器解析獲取的頁面信息,提取出網(wǎng)頁信息和新的 URL送到主題識別器做進一步分析[4].農(nóng)業(yè)主題識別器根據(jù)農(nóng)業(yè)主題特征詞庫[5]中的特征項判斷已經(jīng)解析出的頁面內(nèi)容是否與農(nóng)業(yè)主題相關(guān),保留與農(nóng)業(yè)相關(guān)的網(wǎng)頁信息;保留下來的網(wǎng)頁信息和新的 URL送入主題過濾器進行過濾,過濾掉與農(nóng)業(yè)主題無關(guān)的網(wǎng)頁和 URL,把相關(guān)鏈接保存到 URL爬行庫.
農(nóng)業(yè)信息預(yù)處理模塊負責(zé)對采集的網(wǎng)頁進行相關(guān)的分析,根據(jù)采集出的網(wǎng)頁內(nèi)容的關(guān)鍵詞建立倒排索引.索引只能處理文本信息,而搜集器抓取的原始頁面大多是以 HTML格式存在,具有大量的標(biāo)簽信息以及無用符號,需要把網(wǎng)頁中的文本信息提取出來,過濾掉無用信息,經(jīng)過進一步的處理才能用于后面的模塊使用.
農(nóng)業(yè)信息檢索[6]模塊把用戶的查詢條件經(jīng)過中文分詞轉(zhuǎn)換成關(guān)鍵詞,按照關(guān)鍵詞在索引庫中快速檢索出文檔,進行文檔與查詢條件的相關(guān)度評價,把相關(guān)度較高的前 k篇文檔返回給用戶.為了使返回的結(jié)果更符合用戶需要,本系統(tǒng)在相關(guān)度排序方面采用了著名的 HITS算法,并在其鏈接分析的基礎(chǔ)上結(jié)合了網(wǎng)頁內(nèi)容,網(wǎng)頁內(nèi)容分析給信息源賦予了主題相關(guān)度權(quán)重,并運用加權(quán)的 I/O操作進行鏈接分析,使主題相關(guān)度較高的信息源得到較高的排序分值,進一步保證了主題精選結(jié)果是真正的查詢主題下的權(quán)威/中心源.
農(nóng)業(yè)主題特征詞庫是用來存儲農(nóng)業(yè)領(lǐng)域相關(guān)特征詞及相關(guān)聯(lián)領(lǐng)域特征詞的專業(yè)詞庫,直接影響著信息檢索的準確性.在本系統(tǒng)中,主題詞庫被設(shè)計成若干層.在較高層次上設(shè)計主題范圍內(nèi)顆粒較大的詞匯,較低層次上設(shè)計主題范圍內(nèi)顆粒較小的詞匯.如圖 2所示.
圖2 農(nóng)業(yè)主題特征詞庫示例Fig.2 Examples of agricultural area's characteristic dictionary
農(nóng)業(yè)信息垂直搜索引擎只保存與農(nóng)業(yè)主題相關(guān)的網(wǎng)頁,因此需要對采集到的網(wǎng)頁進行過濾[7].本系統(tǒng)把網(wǎng)頁信息和主題詞庫都用向量表示,使用向量空間模型(VSM)來判斷網(wǎng)頁信息是否與農(nóng)業(yè)主題相關(guān).在向量空間模型中,把文檔和查詢式表示成向量形式.文檔看成是由相互的若干詞條[8](term)(t1,t2,…,tn)組成,對于每個詞條 ti,根據(jù)詞條在文檔中隱含的語義及重要程度賦以一定的權(quán)值 wtj.則文檔的特征向量為(wt1,wt2,…,wtn).利用 TF-IDF[9]定義每個特征項的權(quán)重.TF-IDF算法是常用的權(quán)值計算方法,把文字內(nèi)容抽象成幾何模型.TF-IDF公式為:
其中 tf(tp)為項(索引詞)在文檔 p中出現(xiàn)的次數(shù),N為文檔總數(shù),nt為包含項 t的文檔數(shù).TF-IDF方法保證了出現(xiàn)頻率較低的索引詞具有較高的權(quán)重.
當(dāng)我們把 Web節(jié)點和查詢主題都表示成向量時,就可以用向量間的余弦相似度來計算 Web節(jié)點和查詢主題的相關(guān)度,并把該相似度作為權(quán)重賦予每一個相應(yīng)的節(jié)點.設(shè)向量 vi=(w1i,w2i,…,wti)∈ Rt,vj=(w1j,w2j,…,wtj)∈ Rt,則 vi和 vj之間的余弦相似度可按如下公式來計算:
信息檢索階段采用排序技術(shù)[10]對查詢結(jié)果進行排序,能夠把用戶最需要的信息排在返回結(jié)果列表的前面,提高查詢的準確性和查詢效率.HITS算法是目前主流的排序算法,通過挖掘 Web鏈接結(jié)構(gòu),分析 Web間的鏈接關(guān)系,找出 Web集合中的authority網(wǎng)頁和 hub網(wǎng)頁.為每個網(wǎng)頁定義 2個度量值:權(quán)威權(quán)重(Authority weight)和中心權(quán)重(Hub weight),通過這 2個權(quán)重來判定該網(wǎng)頁對特定主題的重要性.但 HITS算法基于純鏈接分析,容易發(fā)生主題偏移,產(chǎn)生不合理的結(jié)果.該系統(tǒng)在 HITS算法的基礎(chǔ)上,忽略同一站點的內(nèi)部鏈接,排除無效鏈接,賦予文檔作者平等的影響權(quán)重,同時結(jié)合內(nèi)容分析,給信息源賦予不同的影響權(quán)重,并對權(quán)重低于閾值的信息源進行排除,使排序的結(jié)果更加客觀合理.
專業(yè)化、行業(yè)化的垂直搜索引擎將是信息檢索技術(shù)發(fā)展的主要趨勢,本研究以用戶對農(nóng)業(yè)信息搜索需求為研究背景,在中國農(nóng)業(yè)信息化日益發(fā)展之際,結(jié)合現(xiàn)今流行的垂直搜索理念和技術(shù),設(shè)計實現(xiàn)了 1個中文農(nóng)業(yè)信息垂直搜索引擎,闡述了搜索引擎的基本原理以及垂直搜索的關(guān)鍵技術(shù).該系統(tǒng)采用向量空間模型對農(nóng)業(yè)主題進行識別,在鏈接分析的基礎(chǔ)上加入了網(wǎng)頁內(nèi)容相關(guān)性的判斷,使排序結(jié)果更加合理,從而提高了信息檢索的效率和準確率.但是農(nóng)業(yè)信息涉及范圍較廣,特征詞的選取相當(dāng)復(fù)雜,農(nóng)業(yè)主題特征詞表的好壞直接影響搜索引擎的查詢效果,因此,本設(shè)計方案還需要對農(nóng)業(yè)主題特征詞表的建設(shè)進一步完善.
[1] 劉 暢.綜合搜索引擎與垂直搜索引擎的比較研究[J].情報科學(xué),2007,25(1):97-102.
[2] 李曉明,閆宏飛,王繼民.搜索引擎——原理、技術(shù)與系統(tǒng)[M].北京:科學(xué)出版社,2005.
[3] 閆俊英.垂直搜索引擎的研究與實現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學(xué)計算機學(xué)院,2004.
[4] 劉艷敏,劉 飚,封化民.Web頁面主題信息抽取研究與實現(xiàn)[J].計算機工程與應(yīng)用,2006,42(21):146-148.
[5] 佳 鶴,王秀坤,劉亞欣.基于語義分析的主題信息采集系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機應(yīng)用,2007,27:406-408.
[6] 彭 波.大規(guī)模搜索引擎檢索系統(tǒng)框架與實現(xiàn)要點[J].計算機工程與科學(xué),2006,28(3):1-4.
[7] 蘇曉珂.基于 Nutch的主題爬蟲的研究與實現(xiàn)[D].昆明:昆明理工大學(xué),2007.
[8] 劉 遷,賈惠波.中文信息處理中自動分詞技術(shù)的研究與展望[J].計算機工程與應(yīng)用,2006(3):175-182.
[9] MEHMED.數(shù)據(jù)挖掘——概念、模型、方法和算法[M].閃四清,陳 茵,程 雁,等譯.北京:清華大學(xué)出版社,2003.
[10]原福永,張園園.基于鏈接分析的相關(guān)排序方法的研究和改進[J].計算機工程與設(shè)計,2007,28(7):1630-1631.