方 鋮 王 琦
摘要:介紹了用于網(wǎng)頁智能搜索的數(shù)據(jù)挖掘技術(shù)以及如何創(chuàng)建多維的網(wǎng)頁語義數(shù)據(jù)庫(kù)。
關(guān)鍵詞:智能搜索語義結(jié)構(gòu)數(shù)據(jù)挖掘
網(wǎng)頁搜索引擎的基礎(chǔ)是基于關(guān)鍵字的索引,而將數(shù)據(jù)挖掘用于網(wǎng)頁分類則是對(duì)基于關(guān)鍵字索引的一個(gè)有力的補(bǔ)充。數(shù)據(jù)挖掘可以幫助網(wǎng)頁搜索引擎發(fā)現(xiàn)更高質(zhì)量的網(wǎng)頁,并且提高網(wǎng)頁點(diǎn)擊流的分析質(zhì)量。然而,為了使網(wǎng)頁發(fā)揮它的最大潛能,我們必須改進(jìn)它的服務(wù),使它更加方便理解,并且增加它的可用性。
1設(shè)計(jì)難點(diǎn)
如何設(shè)計(jì)智能化的網(wǎng)頁是主要難題之一,需要解決兩個(gè)基本問題:在抽象層上,用來訪問網(wǎng)頁上的海量數(shù)據(jù)的傳統(tǒng)模式面向的是基于文本、基于關(guān)鍵字的網(wǎng)頁視圖,而我們認(rèn)為面向數(shù)據(jù)的網(wǎng)頁視圖將更加有效;第二:在服務(wù)層次上,我們必須用能夠遍歷整個(gè)網(wǎng)絡(luò)的更加全面的訪問模式來取代現(xiàn)有的原始的訪問模式。
2網(wǎng)頁數(shù)據(jù)挖掘工作任務(wù)
如果我們想要有效地利用數(shù)據(jù)挖掘技術(shù)來開發(fā)網(wǎng)頁搜索智能,就必須完成如下幾個(gè)工作任務(wù)。
(1)對(duì)網(wǎng)頁搜索引擎數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘
基于索引的網(wǎng)頁搜索引擎在網(wǎng)絡(luò)上運(yùn)行,對(duì)網(wǎng)頁創(chuàng)建索引,創(chuàng)建并且存儲(chǔ)大量的基于關(guān)鍵字的索引,以幫助定位包含某些特定關(guān)鍵字的網(wǎng)頁。
基于關(guān)鍵字的搜索引擎存在如下二個(gè)缺陷:第一,一個(gè)范圍稍微大一些的主題會(huì)包含數(shù)十萬個(gè)結(jié)果文檔。這樣搜索引擎會(huì)返回大量的文檔,其中很多與主題關(guān)系不大,包含的有用信息很少;第二,很多高度相關(guān)的文檔可能并不顯式地包含關(guān)鍵字,這種現(xiàn)象可能是一詞多義引起的。
基于以上這些因素,可以把數(shù)據(jù)挖掘和網(wǎng)頁搜索引擎結(jié)合起來,這樣能提高網(wǎng)頁搜索質(zhì)量。網(wǎng)頁鏈接和網(wǎng)頁動(dòng)態(tài)分析為如何發(fā)現(xiàn)高質(zhì)量的文檔提供了基礎(chǔ)。
(2)分析網(wǎng)頁鏈接結(jié)構(gòu)
權(quán)威頁面的秘密隱藏在網(wǎng)頁鏈接中。這些超鏈接包含了大量的最新的人們對(duì)網(wǎng)頁所做的標(biāo)記,它們能夠幫助網(wǎng)頁搜索自動(dòng)地找到權(quán)威的頁面,當(dāng)一個(gè)網(wǎng)頁的作者創(chuàng)建了一個(gè)指向另一個(gè)頁面的超鏈接的時(shí)候,這一行為可以認(rèn)為是對(duì)另一個(gè)頁面的認(rèn)可。如果不同的作者都認(rèn)可同一個(gè)頁面,這就表示這個(gè)頁面很重要,這樣自然就產(chǎn)生了權(quán)威的頁面。所以說網(wǎng)頁的超鏈接數(shù)據(jù)提供了一個(gè)非常豐富的用于網(wǎng)頁搜索數(shù)據(jù)挖掘的數(shù)據(jù)源。然而不是每個(gè)超鏈接都表示對(duì)該頁面的認(rèn)可,頁面作者有時(shí)候會(huì)出于其它的目的創(chuàng)建超鏈接,例如做廣告,但是,從整體上來說,如果大多數(shù)的超鏈接都代表一種認(rèn)可的話,那么集體的意見還是能占主流。另外屬于商業(yè)性質(zhì)或者帶有競(jìng)爭(zhēng)目的的網(wǎng)頁很少會(huì)有指向其競(jìng)爭(zhēng)對(duì)手的超鏈接。權(quán)威的頁面也很少會(huì)有說明式描述。
網(wǎng)絡(luò)鏈接結(jié)構(gòu)的這些特點(diǎn),研究者們開始考慮另一種重要的網(wǎng)頁類型:Hub頁面。Hub頁面指的是一組網(wǎng)頁,它們包含了指向一組權(quán)威網(wǎng)頁的超鏈接。也許這些Hub頁面并不是很重要,也只有很少幾個(gè)超鏈接引用到它們,然而它們卻提供了指向有關(guān)于某個(gè)主題的一組關(guān)鍵網(wǎng)站的鏈接。
通常,一個(gè)好的Hub網(wǎng)頁指向很多好的權(quán)威的網(wǎng)頁,反過來,一個(gè)網(wǎng)頁被多個(gè)Hub網(wǎng)頁引用,則可以認(rèn)為它是一個(gè)好的權(quán)威網(wǎng)頁。Hub頁面和權(quán)威頁面之間這種相互確認(rèn)的關(guān)系可以幫助用戶對(duì)權(quán)威網(wǎng)頁進(jìn)行數(shù)據(jù)挖掘,從而自動(dòng)地發(fā)現(xiàn)高質(zhì)量的網(wǎng)頁結(jié)構(gòu)和資源。
研究者們依據(jù)這種辨別權(quán)威網(wǎng)頁和Hub網(wǎng)頁的方法開發(fā)了PageRankPl和HITSl31算法。一些商業(yè)網(wǎng)頁搜索引擎,例如Coogle,就是用這些方法構(gòu)建的。通過分析網(wǎng)頁鏈接和上下文信息,這些系統(tǒng)能夠產(chǎn)生更高質(zhì)量的搜索結(jié)果。
(3)自動(dòng)給網(wǎng)頁文檔分類
類,我們還是希望能夠自動(dòng)進(jìn)行分類。典型的分類方法利用正面和反面的例子作為訓(xùn)練集,然后給每個(gè)文檔分配一個(gè)類別標(biāo)簽,這些標(biāo)簽來自于基于預(yù)先分類的文檔示例的一組預(yù)定義的主題分類。
與其他的分類模式不同,自動(dòng)分類模式通常不能定義反面的示例。如,我們只知道某個(gè)預(yù)分類好的文檔屬于哪個(gè)類別,但不知道某個(gè)類別不包含哪些文檔。因此,網(wǎng)頁分類模式通常不需要顯式地標(biāo)注反面的示例。
(4)網(wǎng)頁語義結(jié)構(gòu)和頁面內(nèi)容數(shù)據(jù)挖掘
目前,對(duì)自然語言進(jìn)行自動(dòng)解析還存在種種限制,全自動(dòng)地抽取網(wǎng)頁結(jié)構(gòu)和語義內(nèi)容還是很困難的,然而,半自動(dòng)的方法已經(jīng)能夠識(shí)別大部分的網(wǎng)頁語義結(jié)構(gòu)。專家可能還需要定義一種特定的頁面類型包含哪些類型的結(jié)構(gòu)和語義內(nèi)容。接著,頁面結(jié)構(gòu)抽取系統(tǒng)就可以分析網(wǎng)頁看看它的一個(gè)片斷的內(nèi)容是否能夠套用某個(gè)語義結(jié)構(gòu)。開發(fā)者還可以測(cè)試用戶反饋來提高訓(xùn)練和測(cè)試的過程并且改進(jìn)所抽取的網(wǎng)頁結(jié)構(gòu)和語義內(nèi)容的質(zhì)量。
(5)網(wǎng)頁動(dòng)態(tài)性數(shù)據(jù)挖掘
網(wǎng)頁數(shù)據(jù)挖掘也能夠發(fā)現(xiàn)網(wǎng)頁的動(dòng)態(tài)性一網(wǎng)頁的內(nèi)容、結(jié)構(gòu)和訪問方式如何發(fā)生變化。存儲(chǔ)與網(wǎng)頁搜索數(shù)據(jù)挖掘參數(shù)相關(guān)的歷史信息能夠幫助發(fā)現(xiàn)網(wǎng)頁內(nèi)容和鏈接的變化。我們可以比較不同時(shí)間的鏡像來發(fā)現(xiàn)網(wǎng)頁有哪些更新。與關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)不同,網(wǎng)頁涉及面很廣,存儲(chǔ)了海量的信息,基本不可能系統(tǒng)地存儲(chǔ)歷史鏡像或者是更新日志。這些限制使得發(fā)現(xiàn)網(wǎng)頁的動(dòng)態(tài)變化幾乎不可行。而另一方面,對(duì)網(wǎng)頁訪問活動(dòng)進(jìn)行數(shù)據(jù)挖掘則是可行的,而且在很多應(yīng)用中,它也是有用的。
有了這項(xiàng)技術(shù),用戶可以對(duì)網(wǎng)頁的日志記錄進(jìn)行數(shù)據(jù)挖掘,從而發(fā)現(xiàn)網(wǎng)頁訪問模式。分析網(wǎng)頁日志記錄中的規(guī)律性可以提高互聯(lián)網(wǎng)信息服務(wù)質(zhì)量,并幫助把這些信息傳遞到終端用戶,改善網(wǎng)頁服務(wù)器系統(tǒng)的性能,并且識(shí)別出電子商務(wù)潛在的客戶。
研究者們已經(jīng)利用這些網(wǎng)頁日志文件來分析系統(tǒng)性能,通過網(wǎng)頁高速緩沖、網(wǎng)頁預(yù)取和交換來改進(jìn)系統(tǒng)設(shè)計(jì),確定網(wǎng)頁吞吐量,評(píng)估用戶對(duì)網(wǎng)站設(shè)計(jì)的認(rèn)可度。
網(wǎng)頁日志分析還可以幫助為每個(gè)用戶構(gòu)建可定制的網(wǎng)頁服務(wù)。由于網(wǎng)頁日志數(shù)據(jù)提供了關(guān)于某些特定網(wǎng)頁的流行程度和訪問方法的信息,這些信息可以和網(wǎng)頁內(nèi)容和鏈接結(jié)構(gòu)信息結(jié)合起來,對(duì)它們進(jìn)行數(shù)據(jù)挖掘,能夠幫助給網(wǎng)頁定級(jí)、給網(wǎng)頁文檔分類,并構(gòu)建一個(gè)多層次的網(wǎng)頁信息庫(kù)。
(6)創(chuàng)建多層次、多維的網(wǎng)頁
通過如下三個(gè)主要步驟來創(chuàng)建并且使用多維網(wǎng)頁:
第一步,系統(tǒng)分析一組網(wǎng)頁,包括對(duì)網(wǎng)頁內(nèi)容、結(jié)構(gòu)、鏈接和使用模式的分析,進(jìn)行分析的目的是:將一組高度相關(guān)的本地頁面組成一個(gè)集群,稱為語義網(wǎng)頁;如果一個(gè)單獨(dú)的網(wǎng)頁組成一個(gè)獨(dú)立的集群,則把這一個(gè)網(wǎng)頁作為語義網(wǎng)頁。分析完成后,會(huì)為每個(gè)語義網(wǎng)頁產(chǎn)生一個(gè)描述符,包含了創(chuàng)建網(wǎng)頁目錄時(shí)需要用到的一組關(guān)鍵的特性。
第二步,基于專家提供的本體和網(wǎng)頁語義描述符數(shù)據(jù)庫(kù),構(gòu)造一個(gè)基于語義的、自適應(yīng)的、多層次的多維的網(wǎng)頁信息目錄??梢岳眠@個(gè)目錄系統(tǒng)來提供查詢和信息服務(wù)、信息分析和數(shù)據(jù)挖掘,構(gòu)建一個(gè)多層次的網(wǎng)頁信息庫(kù)來方便互聯(lián)網(wǎng)上的資源發(fā)現(xiàn),多維分析和數(shù)據(jù)挖掘。
3結(jié)束語
網(wǎng)頁智能搜索的數(shù)據(jù)挖掘?qū)⒊蔀榫W(wǎng)頁技術(shù)的一個(gè)重要研究方向,全面的利用網(wǎng)絡(luò)上的海量信息,才能把網(wǎng)頁變成我們很容易共享的更豐富、更友好也更智能的數(shù)據(jù)源。