葉承斌,李宏亨
(廣西醫(yī)科大學信息與管理學院,廣西 南寧 530021)
現(xiàn)階段,所應(yīng)用的信息檢索技術(shù)使得用戶檢索質(zhì)量有所提高,但是對于用戶檢索結(jié)果的有效性以及準確性卻沒有更深入的研究。因此,對于如何提高用戶檢索信息的有效性成為了亟待解決的難題之一。
為此,相關(guān)學者進行了相關(guān)方面的研究。文獻[1]通過觀察用戶的網(wǎng)頁瀏覽習慣獲得用戶隱式反饋信息,根據(jù)這些信息建立用戶行為特征模型,利用向量為用戶瀏覽的每個網(wǎng)頁設(shè)置了權(quán)值,以此來推算用戶對某一類文檔的愛好程度,并對用戶行為特征模型進行實時更新,以此來完成用戶瀏覽隱式反饋信息的檢索。但是該方法在查全率方面表現(xiàn)較差,需要進一步深入研究。文獻[2]提出了一種基于分布式集群的網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析平臺,通過大數(shù)據(jù)分析平臺將分布式計算機系統(tǒng)Spark與HDFS技術(shù)相結(jié)合,分布式用戶的網(wǎng)絡(luò)瀏覽數(shù)據(jù)被存儲到HDFS中,再利用Spark進行數(shù)據(jù)挖掘,并結(jié)合決策樹ID3算法準確計算出用戶的文檔愛好程度。但該方法對大數(shù)據(jù)的分析能力較差,對用戶的瀏覽行為管理效率較低。
為此,在LDAP的基礎(chǔ)上,提出了大數(shù)據(jù)瀏覽隱式反饋信息檢索仿真方法。為獲取到更精準的用戶瀏覽行為特征信息,構(gòu)建了LDAP目錄服務(wù)架構(gòu)體系,為后續(xù)構(gòu)建用戶行為特征模型提供數(shù)據(jù)支持。用戶行為特征模型將元搜索引擎與Agent技術(shù)相結(jié)合,利用InfoAgent系統(tǒng)來實現(xiàn),最大限度地展現(xiàn)用戶需求。通過仿真結(jié)果表明,所提方法具有較高的檢索精度和查全率。
LDAP通常被用作地址簿[3]來使用,支持用戶檢索信息,其中可有單個或多個服務(wù)器,它是在TCP/IP上運行的一種應(yīng)用層協(xié)議,主要運行過程是一個客戶機連接一個服務(wù)器,并向服務(wù)器發(fā)送指令[4],以此構(gòu)成的客戶機/服務(wù)器模式是LDAP目錄的基礎(chǔ),服務(wù)器在接收到指令后在目錄上完成指令上的操作。當服務(wù)器完成指令操作后,將結(jié)果或錯誤應(yīng)答反饋給LDAP客戶機,或者采用Referral重定向機制向其它LDAP服務(wù)器發(fā)送請求以此來完成客戶機的指令,Referral可擴大無法完成的目錄服務(wù)至最大范圍。無論客戶機與哪一個服務(wù)器連接,接收到的內(nèi)容都是一樣的。表1為LDAP最常用的Web服務(wù),將LDAP應(yīng)用到Web已有的關(guān)系數(shù)據(jù)[5]中,實現(xiàn)其功能。
表1 LDAP在Web中實現(xiàn)的功能
LDAP客戶機可由LDAP服務(wù)器管控,或者由集成了LDAP的應(yīng)用程序管理。圖1為LDAP的總體框架結(jié)構(gòu),展現(xiàn)了各類設(shè)備與服務(wù)器在LDAP服務(wù)目錄中進行訪問存儲的過程。
圖1 LDAP框架
對LDAP目錄服務(wù)器中存儲的信息進行訪問可通過LDAP協(xié)議相關(guān)的服務(wù)器和設(shè)備來實現(xiàn),通過分析該框架可知,目錄的主要功能是為數(shù)據(jù)提供存儲的地方,擔任著數(shù)據(jù)庫的角色,并可對存儲在LDAP目錄服務(wù)中的數(shù)據(jù)進行管理,它與基于XML的數(shù)據(jù)表示是非常重要的兩個組件。
通過觀察用戶瀏覽網(wǎng)頁時的瀏覽習慣來獲取用戶瀏覽興趣信息,并根據(jù)這些信息建立用戶特征行為模型。
首先,對用戶建立各自的統(tǒng)計文檔,然后依次瀏覽每個文檔,以各個瀏覽文本描述的特定詞的集合方式建立文檔的索引方式。為了表示特定詞在文檔中所占比例的大小,將用戶瀏覽文本空間內(nèi)的所有詞添加一個數(shù)值權(quán)。數(shù)值權(quán)也可看作為文檔d中的詞在文檔空間[6]內(nèi)的坐標信息,即將用戶瀏覽的某一個文檔d看作是文檔空間中的任意一個坐標點,這樣就可以將d描述為從文檔空間中初始點到任意一點的向量。對描述文檔的詞添加權(quán)值是文檔表示法中的關(guān)鍵。
目前比較常用的添加權(quán)值的方法是t*A加權(quán)方案。t表示某個特定詞在Web文檔中出現(xiàn)的次數(shù),因為每個文檔的內(nèi)容不同,所以t的值在每個文檔中也有所不同。t的主要作用是判定該特定詞在Web文檔中的重要程度。A表示全局統(tǒng)計數(shù)據(jù),參考A的值可以判斷出特定詞在整個Web文檔中的分布規(guī)律。A設(shè)定為In(N/n),N表示W(wǎng)eb文檔集合中包含的文檔數(shù)量,n表示含有某個特定詞的文檔數(shù)量[7]。含有某個特定詞的文檔數(shù)量與A的值呈負相關(guān),即含有特定詞的文檔數(shù)量越多,A的值則越小,當Web文檔集合中的所有文檔都包含特定詞,則A的值為0。
對于用戶瀏覽的網(wǎng)頁文檔信息,采用基于向量的方法進行描述,文檔d的描述向量V對應(yīng)的第i個元素可利用式(1)計算
w(d,i)=t(i,d)*A(i)
(1)
式(1)中,t(i,d)表示詞頻統(tǒng)計數(shù)據(jù)結(jié)果,即詞wi在網(wǎng)頁文檔d中出現(xiàn)的次數(shù)為
A(i)=In(N/n)
(2)
在網(wǎng)絡(luò)大數(shù)據(jù)系統(tǒng)中,如果直接獲取到用戶對檢索結(jié)果的評價反饋,稱之為顯式反饋。這種反饋結(jié)果獲取途徑較為廣泛,但是這種方法使用戶無法客觀[8]的評價網(wǎng)頁瀏覽結(jié)果,很難為后續(xù)構(gòu)建用戶行為特征模型提供客觀數(shù)據(jù),降低了整個網(wǎng)絡(luò)大數(shù)據(jù)系統(tǒng)的可用性。隱式反饋則只對用戶瀏覽過的文檔作出可用性評價,這種方式不會影響用戶的網(wǎng)頁瀏覽行為,只根據(jù)用戶的瀏覽行為來判斷用戶的瀏覽習慣,所以結(jié)果精準度較高。
用戶的瀏覽行為[9]體現(xiàn)了對目標文檔的感興趣程度,可采集這些信息建立用戶行為特征模型。用戶的瀏覽行為分為:審查行為:滑動滾動條(s)、網(wǎng)頁瀏覽時間(r);參考類型:追隨超鏈接;存留類型:存留網(wǎng)頁文檔(g)、打印網(wǎng)頁文檔(b)、添加標簽(p)等。通過分析以上幾種用戶的瀏覽行為,即可判定出用戶對當前頁面的感興趣程度。為了更準確的區(qū)分這些瀏覽行為體現(xiàn)的用戶的感興趣程度[10],對每一種瀏覽行為v都賦予一個相應(yīng)的權(quán)值Cv,通過計算權(quán)值的大小來推斷用戶對當前頁面的感興趣程度,計算公式如式(3)所示
(3)
2.3.1 InfoAgent特征模型整體架構(gòu)
InfoAgent是以VSN模型和用戶行為特征為依據(jù),將元搜索引擎和Agent技術(shù)相結(jié)合,共同開發(fā)的用戶個人信息檢索系統(tǒng)。構(gòu)建用戶行為特征模型,確保該模型反映的信息最接近用戶的需求,從而提高整個特征模型提供的資料精度,加快檢索效率。具體如圖2所示。
圖2 InfoAgent整體架構(gòu)圖
InfoAgent實現(xiàn)精準檢索的步驟:
1)根據(jù)用戶的瀏覽習慣創(chuàng)建用戶行為特征模型q并保存,根據(jù)用戶不同的瀏覽行為實時更新模型中的內(nèi)容。
2)將用戶行為特征模型q中所有權(quán)值不為零的特征項篩選出來并傳送給元搜索agent,作為檢索關(guān)鍵詞。
3)元搜索agent接收到特征項后,同時向其它信息搜索系統(tǒng)發(fā)出查詢請求,將所有符合條件的特征項添加到URL列表中。
4)對添加到URL列表中的所有文獻進行特征項提取,以此構(gòu)成文獻的特征向量。
5)將提取出的特征向量與用戶行為特征模型q進行模式匹配,并進行相關(guān)度計算。
6)將特征向量與用戶行為特征模型q的相關(guān)度與規(guī)定的最小相關(guān)度Rmin進行比較,如果相關(guān)度的值大于Rmin,則以URL為起點,對機器人Rmin下達指令對模型進行啟發(fā)式搜索,對所有文獻進行模式匹配。
7)將搜索結(jié)果與用戶行為特征模型q最匹配的文獻d展現(xiàn)給用戶。
8)持續(xù)觀察用戶的瀏覽行為,并根據(jù)式(4)計算出用戶的相關(guān)反饋值
(4)
式(4)中,0≤fb(d)≤1,B={r,b,l,p,s},cb表示反饋行為的加權(quán)因子。
9)根據(jù)式(5),實時更新用戶行為特征模型。重復操作步驟2),直到用戶檢索完成為止。
wqk←wqk+β·f(d)·wik
(5)
式(5)中,f(d)表示用戶對d的反饋結(jié)果,wik表示i的第k個特征值的權(quán)值,wqk表示q中第k個特征值的權(quán)值,β為學習因子。
2.3.2 檢索參數(shù)調(diào)整
用戶行為特征模型是InfoAgent系統(tǒng)的重要組成部分,可對元搜索和機器人下達指令,并通過學習agent更新信息。q中包含了1~N個行為特征模型,每個行為特征模型都反映了一種用戶感興趣的內(nèi)容,可以表示為:Wq=(wq1,wq2,…,wqk,…,wqu),其中u表示用戶行為特征模型庫中特征項的個數(shù)。
InfoAgent系統(tǒng)在用戶的瀏覽頁面設(shè)置了Web瀏覽器窗口,用戶在瀏覽網(wǎng)頁時可獲得用戶的瀏覽行為信息。將這些信息提供給學習agent,學習agent,對這些信息進行分析整理,并更新q中的內(nèi)容。隱式反饋值f(d)可以通過計算式(4)得到,q的特征項的權(quán)值wqk可通過式(5)進行修改。為了將其它因素的影響降到最低,每完成一次信息反饋后,q自動進行歸一化處理,將所有d的特征項的權(quán)值小于閾值wmin的進行歸零處理。
2.3.3 特征提取和模式匹配
在VSM模型中,d可以以向量的形式表示為
(6)
式(6)中,Z表示d中q的特征項出現(xiàn)的次數(shù),uk表示q的特征項在已經(jīng)完成檢索的d中出現(xiàn)的次數(shù)。
信息檢索系統(tǒng)通常處理的文檔為HTML文獻,而HTML文獻中含有大量的標記信息。這些標記信息作為文獻的概括,可直接對標記信息進行特征提取,利用加權(quán)因子γc對HTML標記信息中的q的特征項調(diào)整權(quán)值。
d與q的相關(guān)度計算如式(7)
(7)
2.3.4 基于強化學習算法的啟發(fā)式機器人智能檢索
由于機器人agent在文獻中的運動是沒有規(guī)律、沒有方向的,若用戶一直沒有檢索到滿意的文獻,則會花費大量的網(wǎng)絡(luò)資源來傳輸資源,降低了系統(tǒng)的有效性。因此需要對機器人agent做進一步優(yōu)化,使檢索的目標相關(guān)度更高。利用強化學習算法,對機器人agent的選擇路徑作出改進,使檢索的目標更接近于用戶行為特征模型q。對匹配到的相關(guān)文獻,進行特征提取并與q進行模式匹配,如果d相關(guān)度的值大于Rmin,將會加入推薦列表中。
為驗證所提出的基于LDAP的大數(shù)據(jù)瀏覽隱式反饋信息檢索仿真方法是否合理,將所提方法與文獻[1]、文獻[2]方法在查全率、查準率及穩(wěn)定性方面進行仿真對比。實驗環(huán)境為Windows10系統(tǒng),3.5GHz主頻,8GB內(nèi)存,借助ImageMatch軟件平臺進行實驗。實驗數(shù)據(jù)來源于中文文本信息資料集SPAN2012,從中抽取120個檢索信息構(gòu)成候選檢索信息集。
將所提方法與文獻[1]、文獻[2]方法在查準率和穩(wěn)定性方面進行實驗對比,結(jié)果如圖3、圖4所示。
圖3 三種方法查準率對比
圖4 三種方法穩(wěn)定性對比
從圖3和圖4中可以看出,由于所提方法根據(jù)用戶的瀏覽行為構(gòu)建了用戶行為特征模型,并通過計算特征項的權(quán)值調(diào)整了檢索參數(shù),使得在信息檢索查準率和穩(wěn)定性方面均高于其它兩種方法。
還需對三種方法對文獻的檢索精度進行仿真對比,建立了20個用戶行為特征模型,經(jīng)過用戶瀏覽行為的增加和時間的推移,三種方法的檢索精度如表2所示。
表2 三種方法檢索結(jié)果對比
從表中可知,在檢索初期,三種方法檢索精度相差不大,但是隨著時間的推移,用戶的瀏覽行為越來越多,用戶行為特征模型不斷被精化,檢索精度也參差不齊。由于所提方法將強化學習算法應(yīng)用其中,使推薦的文獻更接近于用戶的需求,所以在檢索精度上所提方法效果最優(yōu)。
基于LDAP的大數(shù)據(jù)瀏覽隱式反饋信息檢索仿真方法。借助LDAP的目錄服務(wù),獲取到用戶的瀏覽隱式反饋信息,通過分析用戶對某一種類型文檔的感興趣程度來構(gòu)建用戶行為特征模型,通過不同的算法使得用戶行為特征模型能夠最大限度地滿足用戶需求。通過仿真結(jié)果表明,所提方法較傳統(tǒng)方法相比有著較高的準確率和檢索效率,但是對于所提方法的信息檢索的性能還需做進一步提高,以此為研究方向?qū)⒗^續(xù)更深層次的研究。