• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向語義文本的WEB數(shù)據(jù)挖掘研究

      2009-09-29 08:58:18
      新媒體研究 2009年14期

      王 靜

      [摘要]針對傳統(tǒng)的面向語義文本的WEB數(shù)據(jù)挖掘研究集中在文本信息特征處理方面而忽略了文本信息預(yù)處理的現(xiàn)狀,結(jié)合語義文本的WEB挖掘流程,采用最大匹配法對語義文本進行預(yù)處理,通過建立語義文本的索引機制減少對數(shù)據(jù)庫的訪問,從而提高文本W(wǎng)EB挖掘的效率,對于語義文本的WEB挖掘優(yōu)化研究具有一定的借鑒意義。

      [關(guān)鍵詞]語義化 WEB挖掘 算法研究

      中圖分類號:TP3 文獻標識碼:A 文章編號:1671-7597(2009)0720053-01

      一、引言

      隨著網(wǎng)絡(luò)的飛速發(fā)展,傳統(tǒng)Web在信息顯示和處理上的不足之處也更加顯著,而語義網(wǎng)作為一種新型的網(wǎng)絡(luò)結(jié)構(gòu),較好地克服了這些問題,而基于語義的Web挖掘作為與這一趨勢相適應(yīng)的技術(shù),也必將成為Web挖掘研究的新熱點。

      Web文本數(shù)據(jù)的挖掘是對Web頁面上的數(shù)據(jù)內(nèi)容進行挖掘,它是從WWW的組織結(jié)構(gòu)和鏈接關(guān)系中推導知識。Web內(nèi)容挖掘通過分析一個網(wǎng)頁上的內(nèi)容,建立數(shù)據(jù)庫,通過不同的數(shù)據(jù)庫之間的元記錄之間的關(guān)聯(lián)性獲得有關(guān)不同頁面間相似度和關(guān)聯(lián)度的信息規(guī)則,從而實現(xiàn)對WEB網(wǎng)頁上的語義內(nèi)容的挖掘。

      二、面向語義化的WEB文本挖掘分析

      (一)挖掘流程。文本的WEB挖掘并不是一件容易的事情,尤其是在分析方法方面還有很多需要研究的專題。面向語義化的WEB文本挖掘一般可以分為以下幾個流程:

      1.特征的抽取建立。與數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)相比,文檔無法直接提取結(jié)構(gòu),此外,現(xiàn)有的數(shù)據(jù)挖掘技術(shù)無法直接應(yīng)用于文本數(shù)據(jù),因此,需要對文本進行特征抽取,抽取代表其特征的元數(shù)據(jù),這些特征可以用結(jié)構(gòu)化的形式保存,作為文檔的中間表示形式。

      2.特征集的縮減。當我們將文檔轉(zhuǎn)化為一種類似于關(guān)系數(shù)據(jù)庫中記錄的較規(guī)整且能反映文檔內(nèi)容特征的表示文檔特征向量后,我們會發(fā)現(xiàn)一個不合人意的地方:文檔特征向量具有驚人的維數(shù),使得特征集的縮減成為文本數(shù)據(jù)挖掘中必不可少的一步。

      3.學習與知識模式的提取。完成文檔特征向量維數(shù)的縮減后,便可利用機器學習的各種方法來提取面向特定應(yīng)用目的的知識模式。

      4.模型質(zhì)量的評價。對所獲取的知識模型進行質(zhì)量評價,若評價的結(jié)果滿足一定的要求,則存儲該知識模式,否則返回到以前的某個環(huán)節(jié)分析改進后進行新一輪的挖掘工作。

      (二)文本信息處理的優(yōu)化設(shè)計。目前對于面向語義的文本W(wǎng)EB挖掘研究的較多,但是大多是面向如何提高特征的抽取效率及特征集的縮減而設(shè)計不同的算法,將算法集中在文本的特征抽取和特征集的建立上,對于文本內(nèi)容的預(yù)處理方面,幾乎很少涉及,忽略了文本信息的索引機制,這也是造成目前面向語義文本的WEB挖掘算法效率偏低的主要原因。

      在對文檔進行特征提取前,需要先進行文本信息的預(yù)處理,主要包括英文文本的stemming處理和中文文本的詞條切分。

      在本論文中對中文自動分詞采用最大匹配算法。最大匹配法的思想是:從輸入流中取最大長度(本系統(tǒng)中取6)字符串,在詞典中進行查找,匹配則輸出,繼續(xù)取,否則,回溯,繼續(xù)查找,直到長度為1,此時需在輸入流中前進一格,此過程進行到取完輸入流。由此可以看出,此方法的思想簡單明了,便于實現(xiàn),但該算法效率不會很高,因為需要頻繁進行數(shù)據(jù)庫查找。若能在匹配過程中減少數(shù)據(jù)庫操作,則有可能使效率提高。

      我們在實現(xiàn)最大匹配法時,作了如下考慮:

      Step1:對詞典建索引,并將輸入流放入字符串變量中;

      Step2:取輸入流的當前字符,查找詞典將以當前字符開頭的詞條取出,放入記錄集變量中;

      Step3:按照傳統(tǒng)的算法,在記錄集變量中進行匹配,并根據(jù)匹配情況將輸入流移動;

      Step4:重復(fù)第2步,直至輸入流結(jié)束,退出。

      由上面的處理過程可以看出,通過對詞典建索引,并將匹配操作均在記錄集中進行,從而避免了最大匹配法頻繁查找詞典的缺陷。這樣在允許一定的分詞錯誤率的情況下,通過減少查找數(shù)據(jù)庫的時間(特別是在詞典龐大的情況下),能使分詞速度提高。

      文本信息經(jīng)過上述的預(yù)處理,再采用目前主流的特征抽取算法及特征集的分類算法,即可實現(xiàn)面向語義文本的WEB快速挖掘。

      (三)挖掘算法性能測試。為了比較本論文所提出的面向語義文本的預(yù)處理方法的有效性,將該方法與傳統(tǒng)的采用Apriori算法進數(shù)據(jù)挖掘的方法進行了對比仿真。用VisualC++在內(nèi)存為512MB的C41.7G計算機上實現(xiàn)了Apriori算法與本論文提出的文本挖掘方法的性能比較。測試數(shù)據(jù)集共包括2個數(shù)據(jù)層各含有5個屬性,每個屬性泛化后有2~10個屬性值,采用的元模式形如P(t,x)∧Q(t,y)→R(t,z),而各層的最低支持度均為12%,最低信任均為50%。

      測試了算法的隨記錄的增加時間的變化(時間復(fù)雜性),將測試數(shù)據(jù)庫的元組數(shù)從1000開始,逐漸遞增到5000。兩算法的時間復(fù)雜性數(shù)據(jù)曲線如圖1所示,從圖中可以發(fā)現(xiàn),兩個算法的時間復(fù)雜性均較好,不過隨數(shù)據(jù)庫規(guī)模的增大,本論文所采用的挖掘方法,由于對文本信息進行了預(yù)處理,因而在執(zhí)行時間更為迅速,而且在時間的增長上更為平緩一些,所以本論文提出的挖掘方法是可行的。

      三、結(jié)語

      語義Web上的數(shù)據(jù)挖掘算法可以應(yīng)用于各種領(lǐng)域。例如當前Web上的搜索引擎主要是使用基于關(guān)鍵詞的查找策略,這使得查找效率非常低下,本研究課題通過運用對語義化的內(nèi)容進行預(yù)處理實現(xiàn)了語義化的WEB快速挖掘,從而大大提高了Web搜索的工作效率。下一步的研究重點是在Web挖掘中如何利用語義Web上的本體知識,從而從本質(zhì)上大大改進Web挖掘的結(jié)果和提高Web挖掘的效率。

      參考文獻:

      [1]Wang Jicheng,Huang Yuan,Wu Gangshan,Zhang Fuyan.Web mining:knowledge discovery on the Web Systems[C].Man,and Cybernetics,1999.IEEE SMC'99 Conference Proceedings.1999,116-121.

      [2]T.R.Gruber.Towards Principles for the Design of Ontologies used for Knowledge Sharing[J].International Journal of Human-Computer Studies,1995,43:907-928.

      [3]Ying Ding,Dieter Fensel.Ontology Library Systems:The Key to sueeessful Ontology Reuse.In The First Semantie Web Working SymPosium[C].Stanford University,California,USA,2001,(l):104-111.

      [4]Chen J P,Bian F L,Fu Z L,et al.An Imp roved Algorithm of Apriori[J].Geomatics and Information Science of Wuhan University,2003,(1):94-99.

      作者簡介:

      王靜,女,北京人,長春理工大學光電信息學院-信息工程分院,助教。

      揭阳市| 涞源县| 许昌市| 安塞县| 汝南县| 沙田区| 比如县| 楚雄市| 旬阳县| 张掖市| 南华县| 宁明县| 四会市| 莆田市| 武穴市| 焦作市| 新野县| 南昌市| 苏尼特左旗| 新泰市| 瓦房店市| 景东| 绥江县| 崇阳县| 额尔古纳市| 淮滨县| 闸北区| 延川县| 左云县| 贵定县| 易门县| 石门县| 克什克腾旗| 黄陵县| 清苑县| 浦县| 浑源县| 大城县| 博兴县| 墨脱县| 阿坝|