吳 芳
(沈陽理工大學圖書館,遼寧 沈陽 110159)
隨著用戶個性化信息需求的增加,用戶信息搜索的目的性和針對性越來越明顯,搜索的深度和專業(yè)性越來越強,搜索的復雜性和層次性越來越凸顯。這些變化對搜索引擎提出了更高的要求,搜索引擎必須能夠根據(jù)用戶的個性、學習、教育等不同的特性為用戶提供客觀、準確、及時、深入的個性化信息,使用戶更多地參與到搜索流程中。這是未來搜索引擎發(fā)展的必然趨勢。
搜索引擎是用戶在Internet上查找相關信息時最常用的一種工具。隨著網(wǎng)絡資源的增加,用戶對網(wǎng)絡搜索引擎的要求越來越高。在信息檢索過程中,搜索引擎必須在查詢的目的性、查詢的準確性、查詢式的易于表達性和查詢結果的選擇性之間作出適當?shù)臋嗪?,從而將具有高度相關性的網(wǎng)頁內容返回給用戶。當今現(xiàn)有的搜索引擎還不完善,具體表現(xiàn)在以下幾個方面:(1)用戶在利用搜索引擎進行檢索時,因檢索式表達的含義比較模糊,搜索引擎返回的檢索結果也不盡如人意,雖然附加的檢索術語有助于對檢索式更進一步的限定,但即便是很有經驗的檢索者選擇最佳的檢索術語也很難準確地檢索到其所需要的信息;(2)當前,許多大型搜索引擎仍在盲目追求數(shù)據(jù)庫規(guī)模,在利用大型數(shù)據(jù)庫的基礎上提供信息檢索服務,其檢索功能基本上還停留在數(shù)據(jù)庫基礎建設和流程挖掘層面,所返回的檢索結果只是基于簡單的關鍵詞匹配,即搜索輸出處于一種對搜索結果的初加工狀態(tài),并沒有考慮到用戶在特定時期內特殊的信息需求;(3)事物是普遍聯(lián)系的。用戶提交給搜索引擎的關鍵詞之間總是存在著一定的關系,而在搜索引擎進行檢索的過程中卻無法識別這種關系的存在,致使檢索結果中出現(xiàn)了大量的缺乏關鍵詞之間關系的網(wǎng)頁。
據(jù)估計,在現(xiàn)有的網(wǎng)絡資源中,83%的網(wǎng)站含有商業(yè)廣告,只有6%的網(wǎng)站含有科學和教育的內容。對于用戶而言,其在搜索流程中的識別和控制作用還相對薄弱。因此,須加強搜索基礎建設,加強用戶搜索目的的分析,在搜索引擎檢索過程中融入用戶的情境信息,從而實現(xiàn)全新的高匹配性搜索服務。
收集用戶情境信息的目的是為了了解用戶搜索喜好、習慣、目標、心理、個性、知識、行為、專業(yè)、交往、創(chuàng)作等方面的基礎信息。建立用戶情境模型,分析用戶的短期興趣、長期興趣及其動態(tài)的興趣變化,對其進行存儲、表示和描述,并將此模型結構與現(xiàn)有的搜索引擎集成在一起,確定更加個性化的搜索指向、搜索輸出項、輸出界面、搜索所進入的分類數(shù)據(jù)庫、搜索的性質界定、搜索結果的定量定性等,從而實現(xiàn)以用戶為中心的個性化信息檢索模式,真正實現(xiàn)搜索引擎面向用戶而非面向主題的檢索。
圖1 用戶情境模型的框架結構
圖1為所建立的用戶情境模型的框架結構。如圖1所示,此結構由“特征收集器”和“情境管理器”兩個模型組成,包括三個層次:接口層、知識管理層、數(shù)據(jù)資源/搜索引擎層。每層都存在一些獨立的專用的代理完成特定的功能。這些代理支持交互式的監(jiān)控,獲取用戶的行為、偏好。查詢規(guī)范和查詢處理既要對情境特征進行收集和歸類,還要對相關的結果進行表達。此種結構是通用的、模塊化的,很容易與新的類目、本體和搜索引擎結合在一起,同時也具備可配置的特性,能夠對用戶情境特征的演化與轉變進行存儲。
圖2描述了上述結構與搜索引擎集成在一起的過程。其中,特征收集器存在于用戶的計算機中,情境管理器存在于搜索引擎服務器中。
圖2 用戶情境模型結構與搜索引擎的集成
2.2.1 特征收集器模型
特征收集器模型有兩個代理,即自適應代理和喜好代理,它們存在于用戶的臺式機中,扮演著前端經紀人的角色,主要負責搜集用戶基本的個人信息。自適應代理通過監(jiān)控用戶在臺式機上的活動獲取用戶的行為信息,從而保持用戶最新的情境特征。喜好代理除和自適應代理發(fā)生交互外,還和情境知識代理發(fā)生交互作用,為用戶提出最適合的建議。喜好代理根據(jù)經驗和用戶以前檢索過程中相關的反饋信息得知用戶的偏好。
2.2.2 情境管理器模型
情境管理器模型包含四個代理:情境收集器代理、情境知識代理、查詢過程代理和集成代理。由于情境收集器代理要和數(shù)以百萬計的計算機發(fā)生交互作用來收集用戶的情境特征,因此,它是最薄弱的一個代理。情境管理器提供了一個可配置的特性,這樣就使用戶能夠自行定義他們的情境特征存儲在本地機上,也可存儲在搜索引擎服務器中。若存儲在搜索引擎服務器中,用戶須進行注冊或者明確其所訂閱的情境收集服務,以便在服務器中存儲他們的情境特征。
情境收集器代理又依次分為管理人代理、中級代理、服務代理。管理人代理是決定的簽署者;中級代理是管理人代理和服務代理之間的使者;服務代理從數(shù)以百萬計的機器中收集用戶的情境特征。每一層代理都具有明確的任務,協(xié)作完成用戶情境特征的收集。情境收集器代理是一種重要的情境收集方式,它將成為未來搜索引擎建設中的一個重要組成部分。
情境知識代理是最復雜的一個代理,它處理數(shù)以百萬計的情境特征,建立并維護知識庫,查詢各種公用的本體領域。如圖3所示,此代理應用了情境處理器代理、查詢本體代理、知識管理代理來執(zhí)行上述三個任務。
圖3 情境知識代理
情境處理器代理從每個情境特征中處理并獲取相關的關鍵詞。查詢本體代理應用這些關鍵詞在用戶應用之間創(chuàng)建共享的概念理解。知識管理代理將這些信息轉換成組織良好的、直觀的分類體系并加以保存以便將來應用,如為用戶提供相關的反饋和建議并改善檢索式。
查詢過程代理負責查詢式的構造和檢索結果的處理。查詢式的構造任務是完成情境查詢的創(chuàng)建、操作、擴充、執(zhí)行、持續(xù)保存和再利用。結果處理任務包括對返回的查詢結果進行分析、過濾,相關信息的匹配以及檢索結果的重組排列。
一個查詢式可以由用戶提供的一個或多個術語來創(chuàng)建,查詢過程代理參考情境知識代理來分析用戶查詢式的句法和語義,然后將此查詢式分解成若干個子情境檢索式。這其中又包含了各種處理過程:基于概念的匹配、字句含糊意義的消除、詞匯參照、查詢式的優(yōu)化等待。用戶也可以從喜好代理中選擇所建議的一個或多個主題開始查詢。查詢過程代理為搜索引擎提供情境子檢索式或者用戶偏好檢索,一旦搜索引擎的檢索結果被返回,此代理就根據(jù)用戶的情境特征對結果進行處理,然后再將處理后的結果發(fā)送給用戶。
集成代理是一個相對簡單的代理,主要管理各種公用的本體和搜索引擎,并與查詢過程代理和情境知識代理進行交流以提供相關的信息來支持整個情境信息的檢索過程。
用戶情境模型與搜索引擎集成在一起,大大加強了信息檢索服務中對用戶情境信息的分析與利用,從而使得搜索引擎的搜索結果從目前輸出項的千篇一律向多樣化轉變,使搜索起點從共用大型抓取數(shù)據(jù)庫向復雜分類數(shù)據(jù)庫和搜索過程數(shù)據(jù)庫轉變,使搜索內容從知識信息的簡單構成向知識、信息、關系、邏輯、技術等方面的復雜構成轉變。
語義網(wǎng)是對當前WWW的一個擴展,能夠很好地使計算機和人類合作完成工作。語義網(wǎng)采用多層次的表示框架XML,并引入文檔模式描述文檔結構,但XML沒有對結構本身的語義進行描述。如果不知XML元素的語義,計算機仍不能理解信息。因此,需一個更高的層次來描述結構的語義,即RDF。RDF定義了元素之間的關系,表現(xiàn)為三元組集(類似于句子的主體、動詞、客體)。XML加上RDF相當于人工智能中的語義網(wǎng)絡,可進行簡單推理。要計算機相互理解信息,還需要有一套共同的標準的概念體系,即本體(Ontology)。本體主要使用網(wǎng)絡本體語言OWL來進行描述,OWL是RDF的子集。XML+RDF+Ontology構成了計算機相互理解的基礎。在Ontology層之上還可以有更高的為各種Ontology進行通信提供支持的描述層次。語義網(wǎng)每加一個層次,計算機在知識處理上就多一份能力。
在用戶情境模型與搜索引擎集成在一起的結構中,應用語義網(wǎng)和本體技術對所收集到的用戶情境信息進行處理,對情境信息的結構和特征進行形式化的描述,將其轉化為計算機可理解的形式,并為搜索引擎所使用。同時也便于各實體間對情境信息達成共同的語義理解,從而能夠利用已存在的本體對情境信息進行推理,推導出從當前環(huán)境中不能直接收集到的情境信息,用于搜索引擎檢索結果的過濾、選取與推薦。
由于用戶提交給搜索引擎的關鍵詞之間存在一定關系,為了使搜索引擎能夠識別這種關系,我們需要利用語義網(wǎng)中的相關技術來明確定義關鍵詞之間的關聯(lián)信息。即當用戶輸入某些關鍵詞進行檢索時,我們應用語義網(wǎng)中的RDF來描述關鍵詞之間的關系,并用OWL對這個關系進行解釋,從而實現(xiàn)對關鍵詞之間語義信息的理解,并以RDF三元組的形式將此關系存儲在本體中,以語義標識的形式嵌入到網(wǎng)頁內容中。這樣,搜索引擎所處理的就不是單一的關鍵詞,而是包含了關鍵詞及其之間關聯(lián)信息的統(tǒng)一整體。
在搜索引擎檢索過程中,情境管理器選擇情境信息中那些有限的前向鏈接,即用戶的檢索歷史,作為搜索引擎可能要擴充的敘詞表,以此來對檢索結果進行限定和過濾。同時,通過對關鍵詞之間關聯(lián)信息的處理,將關鍵詞獨立的網(wǎng)頁從檢索結果中過濾掉,即對檢索結果中只包含關鍵詞而沒包含其關系的那些網(wǎng)頁過濾掉,只將那些既包含了關鍵詞又包含了其關系的網(wǎng)頁返回給用戶,達到檢索結果集的少而準,為用戶提供其真正所需的信息資源。
在對用戶未來的情境進行復雜推理時,情境知識代理將利用本體技術生成一個部分證明樹,并產生一個可在網(wǎng)絡中查詢到的語義標記的描述,把用戶的局部情境知識庫用到盡可能大的范圍內,從而挖掘出用戶未來可能存在的部分情境信息,并以此為依據(jù)為用戶推薦其可能需要的相關信息資源 。另外,還要積極建立各種公用的領域本體,加強搜索引擎對自然語言的理解能力,應用語義網(wǎng)及本體技術對網(wǎng)站網(wǎng)頁的標引進行統(tǒng)一規(guī)范,各搜索引擎關鍵詞檢索統(tǒng)一采用OWL—和RDF的符號及其含義,分類檢索所建立的類目體系及使用規(guī)則也都采用OWL和DAML+OIL等相關語言,從而在網(wǎng)頁構建和搜索引擎檢索與標引方面達到統(tǒng)一。
本文從搜索引擎現(xiàn)狀出發(fā),提出了應用用戶情境模型及語義網(wǎng)技術對現(xiàn)有的搜索引擎進行改進,從而實現(xiàn)深層次的知識挖掘,實現(xiàn)個性化的網(wǎng)絡檢索。筆者認為,當前的工作主要集中在對所提出的框架結構進行調研、規(guī)劃、設計和測試上。此課題的研究對網(wǎng)絡搜索引擎的發(fā)展將起到至關重要的作用,也將提升此類搜索引擎在同類產品中的競爭優(yōu)勢。
[1] 吳祐昕,順風.網(wǎng)絡搜索引擎的發(fā)展趨勢分析[J].當代傳播,2007(3):73-74.
[2] 宋迪,呂英杰,李一軍.基于用戶偏好的搜索引擎指標分析與評價[J].圖書情報工作,2007(1):122-125.
[3] 袁穎,趙捧未.基于語義網(wǎng)的數(shù)字圖書館信息檢索模型研究[J].科技情報開發(fā)與經濟,2010(7):1-3.
[4] 儲荷婷.語義網(wǎng)與信息檢索[J].圖書情報知識,2009(127):30-32.
[5] 杜國芳.搜索引擎技術的突破——知識化搜索[J].現(xiàn)代情報,2005(4):155-156.
[6] 孔為民,涂中群.語義網(wǎng)的技術及其應用[J].農業(yè)圖書情報學刊,2010(1):54-56.