孔盛球,馮 鈞,杜丙帥
(河海大學 計算機與信息學院,江蘇 南京 211100)
水利元數(shù)據(jù)動態(tài)分面搜索引擎的設計與實現(xiàn)
孔盛球,馮 鈞,杜丙帥
(河海大學 計算機與信息學院,江蘇 南京 211100)
針對大量水利元數(shù)據(jù)共享需要構建搜索引擎的問題,普通用戶對水利元數(shù)據(jù)領域知識的認知存在缺陷,需要引入一種探索式的訪問技術準確地表達出檢索請求,以實現(xiàn)元數(shù)據(jù)檢索功能。分面搜索是一種探索式的檢索方式,根據(jù)物體的多維屬性,對搜索結果進行聚類,所以用戶可以選擇分面值對搜索結果篩選過濾。隨著水利元數(shù)據(jù)的增加及水利元數(shù)據(jù)異構化程度的提高,分面的數(shù)量也不斷增加。如果把所有的分面都顯示給用戶,容易給用戶選擇分面帶來困難。為了將探索式的檢索方式運用于水利元數(shù)據(jù)搜索領域,針對水利元數(shù)據(jù)分面過多的問題,提出了一種基于保持率的分面推薦算法,設計和實現(xiàn)了水利元數(shù)據(jù)的動態(tài)分面搜索引擎。實驗結果表明,所提出的算法能夠有效地提高用戶的檢索效率。
水利元數(shù)據(jù);分面搜索;保持率;分面推薦
隨著水利信息化的發(fā)展,各級部門都積累了大量的水利信息數(shù)據(jù)。為了更好地共享水利信息數(shù)據(jù),以元數(shù)據(jù)的形式對其進行描述。通過對水利信息數(shù)據(jù)的整合,構建元數(shù)據(jù)信息的發(fā)布、發(fā)現(xiàn)的目錄服務,實現(xiàn)水利信息資源的高效共享[1]。
傳統(tǒng)的數(shù)據(jù)檢索以關鍵字檢索為主,但是在水利元數(shù)據(jù)檢索領域,引入一種探索式的檢索方式有助于用戶表達正確的檢索請求。分面檢索也被稱為引導的導航式搜索,是一種流行的和直觀的交互模式,通過多維的數(shù)據(jù)讓用戶理解、分析和導航以發(fā)現(xiàn)和挖掘應用[2]。分面是指事物的維度,一個物體是多維的,比如一本書有主題、價格、作者等維度,從不同的維度看一個物體將會得到不同的結果。用戶通過輸入關鍵字得到初步搜索結果集,系統(tǒng)從不同的維度對搜索結果進行聚類,并將聚類結果以分面術語的形式展示給用戶。分面搜索能夠?qū)⒈凰阉鲗ο蟮年P鍵屬性(分面術語)返回給用戶,引導用戶選擇分面,過濾搜索結果。
水利行業(yè)各級部門都產(chǎn)生了大量的水利業(yè)務數(shù)據(jù),數(shù)據(jù)是寶貴的資源,如何對日益增長的水利數(shù)據(jù)資源進行高效的管理和利用已成為水利信息化必須解決的問題[3]。水利元數(shù)據(jù)動態(tài)分面搜索引擎能夠很好地實現(xiàn)水利信息資源的共享。對各級部門采集的水利元數(shù)據(jù)進行匯總,將水利元數(shù)據(jù)以對象的形式存儲于倒排索引,通過分面對水利元數(shù)據(jù)進行劃分,能夠有效地提高用戶的檢索效率。傳統(tǒng)的水利信息資源檢索以關鍵字檢索為主,但是這種方式的分類效果不明顯。當用戶輸入某個關鍵字時,系統(tǒng)會將包含這個關鍵字的所有檢索結果都返回給用戶,而用戶查詢目的可能很明確,僅僅只需要查詢某個“負責單位”下包含這個關鍵字的水利元數(shù)據(jù),因此關鍵字檢索需要一種輔助的檢索手段來提高檢索效率。分面檢索以關鍵字檢索為基礎,能夠很好地引導用戶對搜索結果進行篩選,讓用戶根據(jù)自己的檢索意圖更好地向系統(tǒng)表達檢索請求,提升用戶的檢索體驗。
文中將導航式的搜索方式-分面搜索引入水利元數(shù)據(jù)檢索領域,針對水利元數(shù)據(jù)異構程度大而引發(fā)的分面過多的問題,提出一種基于保持率的分面推薦算法,并通過實驗驗證該方法的有效性。
分面檢索(Faceted Search,分面搜索)最初是一種在圖書館管理領域中常用的將多維信息空間進行正交劃分的分類體系[4-6],后逐漸發(fā)展為在結構化數(shù)據(jù)集上的探索式檢索技術[7]。用戶通過發(fā)送檢索請求使系統(tǒng)產(chǎn)生初步搜索結果集,從不同的維度對初步檢索結果集進行聚類產(chǎn)生分面與分面值,通過分面推薦算法為用戶推薦最理想的分面術語。分面術語能夠引導用戶表達正確的檢索請求,用戶通過選擇分面來找到預期的檢索結果。由于它的便捷性,在電子商務[8]、圖書館、音樂、電影等眾多領域應用廣泛。例如,馬蒂·赫斯特研究的Flamenco(弗拉明戈)項目[9]成功地運用了層次分面的技術,具有瀏覽和檢索相結合的界面。文獻[10]介紹了分面搜索在軟件開發(fā)領域的應用。還有像RELATION BROWSER、Freebase Parallax、mSpace、Dynacet[11]等都是成功運用分面檢索的例子。
分面檢索中有兩個重要的概念:分面和分面值,分面和分面值統(tǒng)稱為分面術語。分面指對象的維度,比如在水利元數(shù)據(jù)中有單位和聯(lián)系人兩個維度,這兩個維度是水利元數(shù)據(jù)的關鍵屬性,可以將它們作為水利元數(shù)據(jù)的分面。分面能夠通過物體的重要屬性對物體進行分類[12]。分面下具體的值稱為分面值,如聯(lián)系人這個分面下有個值叫張三,那么張三就叫分面“聯(lián)系人”下的分面值。分面搜索就是指對初步搜索結果集聚類,生成分面和分面值,用戶通過選定分面和分面值,或者去除已選分面和分面值來縮小或擴大搜索結果范圍,找到用戶想要的搜索結果。
為了給用戶推薦合適的分面,需要使用合理的分面推薦算法。結合國內(nèi)外相關文獻,分面推薦算法主要有以下幾種:選取覆蓋率高的分面進行推薦、選取信息熵大的分面進行推薦、選取相關性高的分面進行推薦。
2.1基于覆蓋率的分面推薦算法
基于覆蓋率的分面推薦算法在分面檢索系統(tǒng)中比較常用。當用戶輸入關鍵字或其他查詢請求時,系統(tǒng)將返回初步檢索結果集。將初步檢索結果集聚類到多個分面中,每個分面下都有搜索結果的數(shù)量。如果一個分面包含的搜索結果數(shù)量越高,用戶所需要的搜索結果在這個分面下的概率也將會越高。由于初步檢索結果集是由用戶提交的檢索請求得到的,如果一個分面下覆蓋的初步檢索結果集越大,這個分面可能與用戶提交的初步檢索請求關聯(lián)越緊密;并且將搜索結果集大的分面推薦給用戶可以避免用戶選擇分面后搜索結果為空的現(xiàn)象。綜上,將覆蓋搜索結果集大的分面推薦給用戶是比較合理的??梢酝ㄟ^覆蓋率來衡量分面下覆蓋的初步檢索結果集的大小,公式如下:
(1)
其中,f(B)表示分面B的覆蓋率;hits(B)表示分面B下覆蓋初步檢索結果集的數(shù)量;hits表示總的初步搜索結果集的數(shù)量。
通過式(1)計算出每個分面的覆蓋率,然后將覆蓋率高的前幾個分面推薦給用戶。
2.2基于信息熵的分面推薦算法
Cubranic D等開發(fā)了Polestar分面檢索系統(tǒng),提出了一種基于統(tǒng)計的分面導航模型[13],在這個模型中提到了所推薦的分面能對檢索空間進行有效劃分。能夠?qū)z索空間進行有效劃分,要求檢索結果均勻地分布在分面的每個分面值當中,可以通過信息熵來衡量:
Hc=∑p(ci)logp(ci)
(2)
其中,Hc表示分面C的信息熵;p(ci)表示分面值ci的覆蓋率,指分面值ci下的搜索結果總數(shù)占分面C下搜索結果總數(shù)的比率。
2.3基于相關性的分面推薦算法
在用戶輸入關鍵字后,系統(tǒng)將返回初步檢索結果集和推薦的分面。用戶通過選擇分面縮小檢索結果集的范圍,同時也要刷新被推薦的分面。當用戶選擇某個分面后,下一步被推薦的分面應該是與用戶所選擇的分面最相關的前幾個分面。文獻[9]認為,分面與分面之間是存在相關性的,而且這個相關性可以度量。對于半結構化文件XML,節(jié)點以樹狀形式呈現(xiàn),主節(jié)點與父節(jié)點存在一定的關系,同樣父節(jié)點與子節(jié)點也存在一定的關聯(lián)關系。分面其實與XML文件中的節(jié)點相似,因此可以類推出分面與分面之間也存在一定的關聯(lián)關系。文獻[9]認為分面之間的相關性可以用式(3)度量:
(3)
其中,xsd表示分面i與分面j的相關性;Xi表示分面i下的搜索結果數(shù)量;Yj表示分面j下的搜索結果數(shù)量;XiYj表示同時在分面i和分面j下的搜索結果數(shù)量。
從式(3)可以看出,當XiYj越大,計算出的分面相關性就越高,所以式(3)的核心思想是如果兩個分面中共有的搜索結果數(shù)量越多,那么這兩個分面的相關性就越高。
現(xiàn)有的分面推薦算法基本上是從覆蓋率、信息熵或者相關性這幾個角度出發(fā)。文獻[14]描述了一種基于檢索樹的分面推薦算法;文獻[15]通過對用戶的檢索日志分析來推薦分面。由于水利元數(shù)據(jù)異構程度大,數(shù)據(jù)類型復雜,僅使用現(xiàn)有的分面推薦算法不能獲得很好的推薦效果。在傳統(tǒng)分面推薦算法的基礎上提出一種基于保持率的分面推薦算法。在用戶分面檢索的過程中,當用戶選定A分面時,會出現(xiàn)兩種情況,某些分面下的搜索結果數(shù)量將迅速減少,某些分面下的搜索結果數(shù)量幾乎保持不變。對于第一種情況,認為這類分面相對于分面A的保持率較低;第二種情況則認為這類分面相對于分面A的保持率較高。
通過保持率來衡量用戶所選分面與待推薦分面的關聯(lián)程度。當用戶選擇分面A,這時待推薦分面中有兩個分面,分面B和分面C,其中分面B對于分面A的保持率較高,而分面C則較低。用戶選定分面A沒有對分面B產(chǎn)生很大的影響,由此可見分面A與分面B這兩個篩選條件比較接近,所以相關性較高;相反用戶選定分面A對分面C產(chǎn)生了很大的影響,分面A和分面C這兩個篩選條件存在很大的區(qū)別,所以分面A與分面C的相關性應該較低。在分面檢索過程中,當用戶選定分面A時,計算所有待推薦分面相對于分面A的保持率,將保持率高的分面推薦給用戶。分面B相對于分面A的保持率計算如下:
(4)
其中,C(B)表示分面B下的搜索結果數(shù)量;C(B/A=ai)表示當用戶選定分面A并且選擇分面A下的分面值ai時分面B下的搜索結果數(shù)量。
使用保持率推薦分面,能夠在大量的異構數(shù)據(jù)中計算分面之間的相關性。但是分面A保持率高,其包含的搜索結果數(shù)量不一定大。如果把搜索結果數(shù)量少的分面推薦給用戶會影響用戶的檢索體驗,因此提出分面推薦算法將保持率與覆蓋率相結合:
(5)
其中,第一部分表示分面B的覆蓋率,用α表示其權重;第二部分是保持率,用β表示其權重;α與β的取值由被搜索的數(shù)據(jù)特征決定,可以通過實驗獲得。
基于保持率和覆蓋率的分面推薦算法流程如下:
Facets推薦算法。
輸入:用戶所選分面值;
輸出:被推薦的分面集。
用戶輸入關鍵詞k,產(chǎn)生初步檢索結果集D
按覆蓋率推薦第一組分面集R
IF(用戶選擇分面A下的分面值ai)
FOR(i=0;i 計算Score(Bi); ENDFOR 對分面Bi從高到低排序,推薦前4個分面 ENDIF 第一次分面推薦依據(jù)分面的覆蓋率,后續(xù)的分面檢索過程中,用戶選定分面A下的分面值ai,通過上述算法計算所有待推薦分面B的Score(Bi),并將分值最高的前4個分面推薦給用戶。 一個分面檢索系統(tǒng)為一個物體分配了多個分類模式,并且用多種方式來表現(xiàn)這個物體,而不是對一個物體用預定義和簡單的方式來組織[16]。有些分面檢索系統(tǒng)將分面固定為常用的幾個,分面是不會發(fā)生變化的,隨著用戶的選擇,顯示給用戶的分面將會越來越少。動態(tài)分面檢索系統(tǒng)是針對被搜索對象存在大量分面而設計的,用戶每選定一個分面都會重新推薦最合適的四個分面。相對于靜態(tài)分面檢索系統(tǒng)而言,動態(tài)分面檢索系統(tǒng)對異構數(shù)據(jù)資源有很好的處理效果。 圖1為面向水利元數(shù)據(jù)動態(tài)分面搜索引擎系統(tǒng)的結構框架圖,劃分為索引模塊、檢索模塊和結果顯示模塊。以Lucene為開源搜索框架,對水利元數(shù)據(jù)進行索引,從索引中取出分面術語,通過分面推薦算法為用戶推薦分面。在用戶檢索過程中,使用向量空間模型對搜索結果進行排序。 圖1 分面檢索系統(tǒng)結構框架 4.1水利元數(shù)據(jù) 元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),水利元數(shù)據(jù)指描述水利對象的數(shù)據(jù)。水利信息資源元數(shù)據(jù)包含了對水利信息資源描述的全集,對水利信息行業(yè)各單位的水利信息資源進行匯總,將水利信息資源以水利元數(shù)據(jù)的形式描述,使用半結構化數(shù)據(jù)XML作為水利元數(shù)據(jù)的載體。使用水利元數(shù)據(jù)描述水利信息資源具有結構統(tǒng)一、易于存儲等優(yōu)勢。 水利元數(shù)據(jù)是對水利信息資源的抽象提取,使用半結構化數(shù)據(jù)XML作為水利元數(shù)據(jù)的載體,整個XML文檔可以抽象為一棵節(jié)點樹,每個節(jié)點帶有一定的語義關系。水利元數(shù)據(jù)的屬性值存放在葉子節(jié)點,通過對應的路徑能夠查找到對應的水利元數(shù)據(jù)的屬性值。在分面檢索系統(tǒng)中,通過對應的路徑把元數(shù)據(jù)的相關屬性提取出來,封裝成一個對象,建立到索引中。 4.2分面推薦模塊 動態(tài)分面檢索系統(tǒng)對異構數(shù)據(jù)資源有很好的處理效果,并且能夠給用戶提供良好的體驗。靜態(tài)分面檢索將分面固定于檢索頁面,顯示給用戶的分面是固定的,并且隨著用戶對分面的選擇,固定于檢索頁面上的分面數(shù)量也會不斷減少。動態(tài)分面檢索系統(tǒng)中,前臺顯示給用戶的分面是不固定的,每次給用戶顯示N個分面,隨著用戶的選擇,只要系統(tǒng)后臺分面?zhèn)€數(shù)足夠,前臺顯示給用戶的分面?zhèn)€數(shù)還是N個。針對異構數(shù)據(jù)資源產(chǎn)生分面過多的現(xiàn)象,可以使用動態(tài)分面技術為用戶推薦最合適的前幾個分面,而其他分面則隱藏在后臺不予顯示。 動態(tài)分面搜索引擎關鍵在于如何實現(xiàn)分面推薦。每次系統(tǒng)為用戶顯示搜索結果時,都會對搜索結果進行聚類,聚類后可能會產(chǎn)生多個分面。而動態(tài)分面搜索引擎要求每次搜索結果的刷新都需要對分面也進行刷新,而且被推薦的分面是最適合用戶的前幾個分面。分面推薦模塊的流程如圖2所示。 使用Lucene作為檢索框架,Lucene作為Apache開源檢索框架,提供了全文檢索功能。Lucene支持將文本信息建立成倒排索引,同時能夠在前臺對索引進行檢索。在建立索引時,需要對被設定為分面的元數(shù)據(jù)屬性進行標記。由于動態(tài)分面搜索引擎包含的分面數(shù)量較大,而且隨著水利元數(shù)據(jù)源源不斷地加入到索引,分面數(shù)量還會不斷增長。雖然動態(tài)分面檢索系統(tǒng)能夠很好地為用戶推薦合適的分面,但隨著分面數(shù)量的過多增加,將導致系統(tǒng)檢索效率的降低,影響用戶的檢索體驗。為此,需要對索引中被標記的分面設置一個上限值,并且對所有不同種類水利元數(shù)據(jù)進行統(tǒng)一分析,抽取出關鍵屬性設置為分面。 圖2 分面推薦流程 4.3動態(tài)分面搜索引擎系統(tǒng)實現(xiàn) 將文中算法運用于實際項目中,開發(fā)了面向水利元數(shù)據(jù)的動態(tài)分面搜索引擎,系統(tǒng)截圖如圖3所示。 從圖3可以看出,左邊為分面檢索欄。用戶在輸入“水庫工程”關鍵字后得到初步檢索結果集,并且在分面檢索欄顯示被推薦的分面。用戶可以選擇分面檢索欄中的具體分面值對檢索結果集進行過濾,同時刷新分面檢索欄,重新推薦分面,直到用戶找到滿意的搜索結果為止。 將文中算法使用在面向水利元數(shù)據(jù)動態(tài)分面搜索引擎中。通過實驗并且基于用戶的反饋,發(fā)現(xiàn)動態(tài)分面搜索引擎能夠有效地提高檢索效率。被推薦的分面大部分都是用戶所需要的,因此該算法在系統(tǒng)中起到了很大的作用。 通過實驗來驗證該算法的有效性。在此,挑選了水利對象的七個屬性作為分面,分別是:“衛(wèi)星名”、“負責單位”、“地址”、“傳感器”、“負責人”、“元數(shù)據(jù)標準名”、“職務”。分面欄只顯示四個分面供用戶選擇,雖然系統(tǒng)中一共存在七個分面,但是每次只給用戶推薦四個。根據(jù)實驗數(shù)據(jù)的特征,實驗過程中對分面評分式(5)中的α取值為1,β取值為0。 圖3 分面檢索頁 整個實驗過程的描述如下所示: (1)用戶在關鍵字搜索框中輸入“北京”,系統(tǒng)推薦了四個分面顯示在分面搜索欄中,這四個分面為:地址、負責單位、傳感器、負責人。 (2)用戶選擇“負責單位”下的“水利部水利信息中心”分面值,系統(tǒng)過濾搜索結果,并重新推薦分面:傳感器、負責人、地址、衛(wèi)星名。 (3)用戶選擇“傳感器”下的“MODIS”分面值,用戶在第一條搜索記錄中找到所需要的搜索結果。 對上述實驗所采集的數(shù)據(jù)進行分析,發(fā)現(xiàn)當用戶輸入“北京”關鍵字后,系統(tǒng)檢索出初步檢索結果集。對檢索結果集聚類后一共得出5個分面,另外2個分面中不包含檢索結果。如果根據(jù)覆蓋率利用式(1)為每個分面計算得分,結果如圖4所示。 圖4 分面覆蓋率條形圖 從圖中可以看出,如果僅使用覆蓋率作為分面推薦的依據(jù),5個分面得分情況將一致,所以系統(tǒng)將推薦前4個分面給用戶。 當用戶選擇分面“負責單位”下的“水利部水利信息中心”分面值時,通過該算法得出各分面分值如圖5所示。 如圖5所示,系統(tǒng)將優(yōu)先推薦分值高的“傳感器”與“負責人”兩個分面給用戶,并且用戶在后續(xù)的分面檢索中選定傳感器這個分面時,找到了所需的檢索結果。通過分析,可以得出系統(tǒng)所推薦的分面大部分是用戶所需的,因此該算法在實踐應用中有很大的作用。 圖5 分面計算分值條形圖 針對大量水利元數(shù)據(jù),通過構建動態(tài)分面搜索引擎實現(xiàn)水利元數(shù)據(jù)的共享。在現(xiàn)有分面推薦算法的基礎上,提出了基于保持率的分面推薦算法。將該算法運用在實際項目中,雖然取得了較好的效果,但仍然存在諸多不足。比如在算法效率上,需要為每個分面計算分值,會浪費大量的時間;在分面推薦因素上缺乏考慮熱搜分面的影響。為了提高系統(tǒng)運行的效率,后續(xù)工作中可以在用戶檢索前嘗試構建一個分面圖,以記載每兩個分面之間的保持率,在檢索時可以不用每次都計算分面的保持率而直接遍歷這個圖。同時對于那些被用戶經(jīng)常點擊的分面也應該優(yōu)先推薦,使被推薦的分面更合理。 [1] 馮 鈞,唐志賢,黃如春,等.水利信息資源元數(shù)據(jù)管理方法研究[J].水利信息化,2011(5):1-4. [2] Liberman S,Lempel R.Approximately optimal facet value selection[J].Science of Computer Programming,2014,94(1):18-31. [3] 成建國,馮 鈞,楊 鵬,等.水利數(shù)據(jù)資源目錄服務關鍵技術研究[J].水利信息化,2014(6):18-21. [4] Hai Z,Wilks Y.Faceted search,social networking and interactive semantics[J].World Wide Web,2014,17(4):589-593. [5] Goh Y M,Giess M,McMahon C,et al.From faceted classification to knowledge discovery of semi-structured text records[M]//Foundations of computational intelligence volume 6.Berlin:Springer,2009:151-169. [6] Wang Q,Ramírez G,Marx M,et al.Overview of the INEX 2011 data-centric track[C]//International workshop of the initiative for the evaluation of XML retrieval.[s.l.]:[s.n.],2011:118-137. [7] 王 莉,高仲利.基于分面導航理論的RDF數(shù)據(jù)的持久化研究[J].計算機工程與應用,2010,46(9):130-133. [8] 劉逸青.基于用戶體驗的網(wǎng)站多面搜索導航研究[D].上海:上海交通大學,2010. [9] 郭力潔.XML分面搜索的關鍵技術研究[D].保定:華北電力大學,2012. [10] Niu N,Mahmoud A,Yang X.Faceted navigation for software exploration[C]//19th international conference on program comprehension.[s.l.]:IEEE,2011:193-196. [11] Roy S B,Wang H,Nambiar U,et al.Dynacet:building dynamic faceted search systems over databases[C]//25th international conference on data engineering.[s.l.]:IEEE,2009:1463-1466. [12] Wang S Y,Zhong L,Jiang D S,et al.Facet description and searching of component resource[C]//International conference on computer science and software engineering.[s.l.]:IEEE,2008:24-32. [13] Dennis B M,Healey C G.Assisted navigation of complex information spaces[C]//IEEE visualization conference.[s.l.]:IEEE,2002. [14] 杜丙帥,李士進,馮 鈞,等.基于水利對象分類標簽的分面推薦方法研究[J].計算機與現(xiàn)代化,2015(12):90-94. [15] Zwol R V,Sigurbjornsson B,Adapala R,et al.Faceted exploration of image search results[C]//Proceedings of the 19th international conference on world wide web.Raleigh,North Carolina,USA:[s.n.],2010:961-970. [16] Jin C,Hou H,Wu M,et al.Finding facet content on web by position inverted index[C]//Proceedings of the 2012 IEEE 14th international conference on high performance computing and communication & 2012 IEEE 9th international conference on embedded software and systems.[s.l.]:IEEE,2012:1699-1703. DesignandImplementationofDynamicFacetedSearchEngineforWaterConservancyMetadata KONG Sheng-qiu,F(xiàn)ENG Jun,DU Bing-shuai (College of Computer and Information,Hohai University,Nanjing 211100,China) Aiming at the problem that sharing of lots of water conservancy metadata needs to build a search engine,since the defects of knowledge in the field of water conservancy metadata for ordinary users,it is necessary to introduce an exploratory access technology for users to express retrieval requests exactly to realize the function of metadata retrieval.Faceted search is an exploratory way of retrieval.According to the multi-dimensional attributes of the objects,the system clusters the search results,therefore users can choose facet values to filter them.With the increase of water conservancy metadata and the isomerization of the metadata,the number of facets is also increasing.If all the facets are displayed to users,it is difficult for them to select facets.In order to use exploratory ways of retrieval in the field of water conservancy metadata searching,aiming at the problem of too many facets of water conservancy metadata,a faceted recommendation algorithm based on retention rate is proposed,and the dynamic faceted search engine of water conservancy metadata is designed and implemented.Experimental results show that it can efficiently improve the retrieval efficiency of users. water conservancy metadata;faceted search;retention rate;faceted recommendation TP301.6 A 1673-629X(2017)10-0151-05 2016-11-18 2017-03-09 < class="emphasis_bold">網(wǎng)絡出版時間 時間:2017-07-19 國家自然科學基金面上項目(61370091);國家科技支撐計劃課題(2015BAB07B01);水資源高效開發(fā)利用重點專項經(jīng)費資助項目(2016YFC0402710) 孔盛球(1993-),男,碩士研究生,研究方向為信息檢索;馮 鈞,博士,教授,研究方向為時空間數(shù)據(jù)管理、智能數(shù)據(jù)處理與數(shù)據(jù)挖掘、水利信息化。 http://kns.cnki.net/kcms/detail/61.1450.TP.20170719.1112.074.html 10.3969/j.issn.1673-629X.2017.10.0324 面向水利元數(shù)據(jù)動態(tài)分面搜索引擎系統(tǒng)設計
5 實驗分析
6 結束語