胡秀
摘要:隨著因特網(wǎng)的迅速發(fā)展,數(shù)據(jù)資源量越來(lái)越龐大,為從這些資源里迅速、準(zhǔn)確找到需要的知識(shí),數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。介紹了基于Web的數(shù)據(jù)挖掘技術(shù),闡述了該技術(shù)的特征并分類(lèi)作了介紹,對(duì)數(shù)據(jù)挖掘技術(shù)的幾大研究方向作了展望。
關(guān)鍵詞:Web;數(shù)據(jù)挖掘技術(shù);XML
DOIDOI:10.11907/rjdk.143785
中圖分類(lèi)號(hào):TP392
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào)文章編號(hào):16727800(2015)001014902
1 Web挖掘簡(jiǎn)述
數(shù)據(jù)挖掘指從隨機(jī)又模糊的龐大數(shù)據(jù)里,把那些潛在但很實(shí)用的信息、趨勢(shì)或模式提取出來(lái)。
被視為新興領(lǐng)域的Web挖掘,實(shí)質(zhì)是數(shù)據(jù)挖掘的升級(jí)版。Web信息有著極為特殊之處,這樣在數(shù)據(jù)挖掘上必須添加匹配的新特性。這些特性包含:①在挖掘?qū)ο笊?,Web挖掘的數(shù)據(jù)源全部是異構(gòu)的;② Web文檔是機(jī)器理解不到或者沒(méi)有結(jié)構(gòu)、半結(jié)構(gòu)的語(yǔ)義。
2 Web挖掘特性
2.1 缺乏智能化理解
Web中的數(shù)據(jù)的格式幾乎都是HTML,與主題相關(guān)的信息往往雜亂地在Web站點(diǎn)的目錄下散布開(kāi)來(lái)。因此,必須有非常強(qiáng)大的一個(gè)搜索引擎,通過(guò)對(duì)關(guān)鍵字查找,實(shí)現(xiàn)對(duì)超文本位置的定位。數(shù)據(jù)格式不盡相同,必須有一個(gè)智能化的系統(tǒng)對(duì)自然語(yǔ)言陳述的數(shù)據(jù)作理解。然而,當(dāng)下自然語(yǔ)言理解的有關(guān)技術(shù)還不成熟,所以很難對(duì)所有數(shù)據(jù)都理解到位。另外,數(shù)據(jù)源冗余或極為矛盾等問(wèn)題也對(duì)此產(chǎn)生影響。
2.2 數(shù)據(jù)源過(guò)于龐大
Web對(duì)于有效的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘而言似乎太大了[1]。目前在計(jì)算上,Web數(shù)據(jù)已經(jīng)達(dá)到用幾百兆字節(jié)來(lái)表示的地步,并朝著更大單位來(lái)表示的趨勢(shì)發(fā)展,有兩點(diǎn)特別明顯:
(1)動(dòng)態(tài)性強(qiáng)。因特網(wǎng)時(shí)時(shí)刻刻都在變化、更新中,于是需要借用某些數(shù)據(jù)倉(cāng)庫(kù)技術(shù),才能保留Web上已更新過(guò)的數(shù)據(jù)。
(2)多樣性。過(guò)濾后的Web數(shù)據(jù)包含4種:①以實(shí)型、整型為實(shí)例的數(shù)值型;②布爾型;③描述數(shù)據(jù)及分類(lèi)數(shù)據(jù);④郵箱地址、網(wǎng)址等僅為Web所有的數(shù)據(jù)型。新的數(shù)據(jù)類(lèi)型有新的特征,原先的挖掘方式行不通,必須對(duì)原有方式作擴(kuò)充、改進(jìn)。
2.3 用戶(hù)目標(biāo)極為模糊
在基于因特網(wǎng)下作數(shù)據(jù)挖掘,用戶(hù)往往對(duì)挖掘主題認(rèn)識(shí)很粗淺,說(shuō)不出特別準(zhǔn)確的目標(biāo)。因此,數(shù)據(jù)挖掘系統(tǒng)必須具備學(xué)習(xí)機(jī)制及智能化特征,對(duì)用戶(hù)的興趣不斷跟蹤,才能詳細(xì)、清晰地對(duì)挖掘結(jié)果做出闡述。它涵蓋Web的結(jié)構(gòu)、存取模式及動(dòng)態(tài)查找,由此表明Web挖掘極具挑戰(zhàn)性。
3 Web挖掘分類(lèi)
3.1 基于內(nèi)容的Web挖掘
指在Web文件內(nèi)容、描述信息中,取得潛在但實(shí)用的知識(shí)、模式的過(guò)程,分為文本挖掘、多媒體挖掘。
(1)文本挖掘。特指對(duì)文本文檔的挖掘。在Web龐大文檔里,可對(duì)內(nèi)容作出分類(lèi)別、總結(jié)、關(guān)聯(lián)性分析及趨勢(shì)分析等。
(2)多媒體挖掘。指對(duì)多媒體文檔的挖掘,即對(duì)Web上圖像、音視頻預(yù)處理,利用挖掘技術(shù)對(duì)有意義的、潛在信息及模式作挖掘的一個(gè)過(guò)程。提取特征不同是多媒體與文本挖掘最不一樣的地方。在挖掘時(shí),對(duì)文件或者視頻的鍵值表、文件名、顏色向量及類(lèi)型等進(jìn)行提取。
3.2 基于結(jié)構(gòu)的Web挖掘
在結(jié)構(gòu)上,Web包括超鏈接結(jié)構(gòu)、樹(shù)形結(jié)構(gòu)及目錄路徑結(jié)構(gòu)等[2]。這樣,在結(jié)構(gòu)上,可用有向圖對(duì)Web進(jìn)行表示,有向圖中點(diǎn)對(duì)應(yīng)的是頁(yè)面,有向圖中邊對(duì)應(yīng)的是超級(jí)鏈接。用此方法可得到站點(diǎn)的主頁(yè)到任一定點(diǎn)的最短路徑,也就是用較小代價(jià)獲取最多文檔。
(1)HITS算法。對(duì)一給定的話(huà)題進(jìn)行搜索,往往不只期望獲取相關(guān)聯(lián)的Web頁(yè),還期望被檢索出的頁(yè)面質(zhì)量高且具權(quán)威性。而Web不只包含頁(yè)面,還包含超鏈接。超鏈接簡(jiǎn)單說(shuō)就是一個(gè)頁(yè)面向另一個(gè)頁(yè)面指向。若作者先建立一個(gè)頁(yè)面,接著又讓該頁(yè)面向另一頁(yè)面指向,就可認(rèn)為作者對(duì)另一頁(yè)面持認(rèn)可態(tài)度。同一頁(yè)面,收集源自不同作者的不同注解,便能反映此頁(yè)面的重要性,而且可非常自然地用作權(quán)威頁(yè)面。可是在鏈接結(jié)構(gòu)上,Web有一定的局限:①并非每個(gè)超鏈接都認(rèn)可此尋找;②商業(yè)競(jìng)爭(zhēng)中,不可能有Web頁(yè)面與自家競(jìng)爭(zhēng)的頁(yè)面指向;③難有權(quán)威頁(yè)面具備特別性描述。鑒于以上情形,研究者不得不提出另一種Web頁(yè)面(俗名Hub頁(yè)面)。一個(gè)Hub頁(yè)面可代替一個(gè)或多個(gè)Web頁(yè)面,提供的是集合性鏈接。同時(shí),任何話(huà)題,Hub頁(yè)面都向著最顯眼的鏈接指向。
(2)PageRank算法。Web超鏈接有下列幾種假設(shè):①網(wǎng)頁(yè)A的作者向網(wǎng)頁(yè)B推薦;②網(wǎng)頁(yè)A、B在主題相同時(shí),超鏈接便把兩個(gè)網(wǎng)頁(yè)連接;③基于前兩種,某頁(yè)面數(shù)次被引用,說(shuō)明此頁(yè)面也許特別重要;④某頁(yè)面雖然未被數(shù)次引用,但卻被某重要頁(yè)面引用,說(shuō)明它也很重要。此算法便是針對(duì)上述4種情形做的專(zhuān)門(mén)研發(fā)。
3.3 基于訪(fǎng)問(wèn)的Web挖掘
網(wǎng)頁(yè)點(diǎn)擊數(shù)、瀏覽量、獨(dú)立IP 等是顯示網(wǎng)站訪(fǎng)問(wèn)情形的核心指標(biāo)[3]??杉?xì)致分析網(wǎng)站關(guān)聯(lián)的LOG文件,取得關(guān)系訪(fǎng)問(wèn)情形的詳盡數(shù)據(jù),這種挖掘歸屬于靜態(tài)訪(fǎng)問(wèn),這對(duì)完善網(wǎng)站極為有益。譬如:對(duì)訪(fǎng)問(wèn)者來(lái)源細(xì)致分析,可使網(wǎng)站內(nèi)容更有針對(duì)性;對(duì)在不同時(shí)段訪(fǎng)問(wèn)者人數(shù)的細(xì)致分析,可依據(jù)時(shí)段來(lái)更新,這種Web挖掘利用極為廣泛。不只是靜態(tài)研究,動(dòng)態(tài)訪(fǎng)問(wèn)研究也很熱門(mén)。
4 Web挖掘研究方向
4.1 搜索引擎挖掘
當(dāng)下的搜索引擎幾乎全是基于關(guān)鍵字,搜出的文檔數(shù)量極大,高質(zhì)量的內(nèi)容卻極少。加上某些文檔跟話(huà)題是關(guān)聯(lián)的,但關(guān)鍵詞:找不出來(lái),這就使得搜索結(jié)果不全面。針對(duì)這種情形,某些專(zhuān)家提出用概念層或多義字的辦法對(duì)文檔進(jìn)行搜索。
4.2 日志挖掘
對(duì)日志文件(Web服務(wù)器)細(xì)致分析,會(huì)發(fā)現(xiàn)用戶(hù)訪(fǎng)問(wèn)網(wǎng)站所用的瀏覽模式,這對(duì)有效改進(jìn)網(wǎng)站提供了信息。信息包含:對(duì)系統(tǒng)設(shè)計(jì)作改進(jìn)、對(duì)導(dǎo)航功能作改善等。日志挖掘有3個(gè)階段:①預(yù)處理數(shù)據(jù);②挖掘數(shù)據(jù);③分析模式。由于存在代理服務(wù)器及防火墻,使得日志數(shù)據(jù)難以準(zhǔn)確,所以在第一階段便必須做用戶(hù)識(shí)別、數(shù)據(jù)凈化、路徑補(bǔ)充、會(huì)話(huà)識(shí)別工作。挖掘階段指依據(jù)語(yǔ)義,將用戶(hù)的會(huì)話(huà)作分割,形成一項(xiàng)項(xiàng)事務(wù),利用挖掘算法,對(duì)識(shí)別結(jié)果作出規(guī)則、模式。
4.3 XML結(jié)合Web挖掘
4.3.1 XML簡(jiǎn)述
XML由萬(wàn)維網(wǎng)協(xié)會(huì)設(shè)計(jì),是特別為Web應(yīng)用服務(wù)做的一個(gè)分支[4]。XML是一種典型的中介標(biāo)識(shí)語(yǔ)言,它為結(jié)構(gòu)化資料提供對(duì)應(yīng)的格式。
半結(jié)構(gòu)化是Web數(shù)據(jù)所有特征中最顯著的一點(diǎn),因?yàn)橹挥邪寻虢Y(jié)構(gòu)化對(duì)應(yīng)的抽取技術(shù)作為前提,才能面向Web做需求的數(shù)據(jù)挖掘。新生代的www環(huán)境把XML作為基礎(chǔ),它可直接面向Web 數(shù)據(jù)。一方面兼容已有的Web應(yīng)用,另一方面對(duì)Web中的信息更好地交換、共享。XML可看作是半結(jié)構(gòu)化下的數(shù)據(jù)模型,所以它能把屬性(關(guān)系數(shù)據(jù)庫(kù))與文檔描述一一對(duì)應(yīng),實(shí)施模型抽取、精確查詢(xún)。
4.3.2 XML應(yīng)用
XML已經(jīng)成為正式規(guī)范[5]。開(kāi)發(fā)時(shí),XML格式可當(dāng)作數(shù)據(jù)標(biāo)記。在三層架構(gòu)情況下,用XML對(duì)數(shù)據(jù)處理是最好的方法。運(yùn)用XML,設(shè)計(jì)員不僅能對(duì)文字、圖形進(jìn)行創(chuàng)建,還可對(duì)數(shù)據(jù)樹(shù)、超鏈接結(jié)構(gòu)、樣式表、元數(shù)據(jù)等進(jìn)行構(gòu)建。
Web數(shù)據(jù)挖掘是非常復(fù)雜的一項(xiàng)技術(shù),因XML的出現(xiàn),使Web挖掘中遇到的問(wèn)題迎刃而解。因?yàn)閄ML可以讓來(lái)源不同的結(jié)構(gòu)化數(shù)據(jù)輕松地結(jié)合在一起,讓不兼容的多樣數(shù)據(jù)庫(kù)搜索變成可能。由于XML具備靈活性、可擴(kuò)展性,因此對(duì)不同類(lèi)型應(yīng)用軟件中的數(shù)據(jù)XML都能描述,從而對(duì)Web中的各種數(shù)據(jù)記錄也能描述;再加上XML下的數(shù)據(jù)全為自我描述,所以即使在內(nèi)部描述數(shù)據(jù)完全缺乏時(shí),處理、交換一樣可實(shí)現(xiàn)。
4.4 未來(lái)趨勢(shì)
目前, Web挖掘研究處于初始階段,有價(jià)值的幾大研究方向是:①動(dòng)態(tài)更新;②Web知識(shí)庫(kù)維護(hù);③內(nèi)在機(jī)制研究;④專(zhuān)注多媒體挖掘,研發(fā)出高效算法;⑤圖像、文本對(duì)應(yīng)的挖掘算法(結(jié)構(gòu)、半結(jié)構(gòu)下);⑥搭建自組織網(wǎng)站時(shí),對(duì)序列模式、關(guān)聯(lián)規(guī)則進(jìn)行細(xì)致研究。
參考文獻(xiàn):
[1] 李澤文.基于Web的數(shù)據(jù)挖掘技術(shù)[J].現(xiàn)代計(jì)算機(jī),2011,3(15):5158.
[2] 陳二忠.基于Web的數(shù)據(jù)挖掘技術(shù)[D].沈陽(yáng):東北財(cái)經(jīng)大學(xué),2012.
[3] 姜麗華.基于Web的數(shù)據(jù)挖掘技術(shù)[J].微機(jī)發(fā)展,2012,8(12):3142.
[4] 史秦格.基于Web的數(shù)據(jù)挖掘技術(shù)研究[D].西安:西安工業(yè)大學(xué),2012.
[5] 馬麗娜.基于Web的數(shù)據(jù)挖掘技術(shù)應(yīng)用[D].濟(jì)南:山東師范大學(xué),2012.