• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      Web文本挖掘在智能分類(lèi)中的應(yīng)用

      2013-08-16 06:19:32張黎黎
      山東工業(yè)技術(shù) 2013年11期
      關(guān)鍵詞:外觀類(lèi)別文檔

      張黎黎

      (長(zhǎng)春工程學(xué)院,吉林 長(zhǎng)春130012)

      1 文本挖掘概述

      文本挖掘,又稱(chēng)為“文本數(shù)據(jù)挖掘”或“文本知識(shí)發(fā)現(xiàn)”,是從文本數(shù)據(jù)中抽取隱含的、未知的、潛在且有用信息的過(guò)程。它是個(gè)分析文本數(shù)據(jù)、抽取文本信息,進(jìn)而發(fā)現(xiàn)文本知識(shí)的過(guò)程。文本挖掘的出現(xiàn)為文本信息的整理、分析、挖掘提供了有效手段[1]。

      文本挖掘的主要目標(biāo)是獲得文本的主要內(nèi)容特征,如文本的主題、文本主題的類(lèi)屬、文本內(nèi)容的濃縮等。文本挖掘主要有特征抽取、文本分類(lèi)、聚類(lèi)等技術(shù)。從提取特征值作為起始點(diǎn),將自然語(yǔ)言文本自動(dòng)分配給預(yù)定義的類(lèi)別,利用文本特征向量對(duì)文本進(jìn)行分類(lèi),再將一個(gè)數(shù)據(jù)對(duì)象的集合分組成為多個(gè)類(lèi)或簇,從而產(chǎn)生類(lèi)標(biāo)記。

      2 Web 文本挖掘

      Web 文本挖掘是指使用中心詞匯來(lái)表示文檔的方法。利用給出求取中心文檔和中心詞匯的算法[2],對(duì)Web 上大量文檔集合的內(nèi)容進(jìn)行總結(jié)、分類(lèi)、聚類(lèi)和關(guān)聯(lián)分析,亦可利用Web 文檔進(jìn)行趨勢(shì)預(yù)測(cè)。

      Web 文本挖掘過(guò)程中[3],關(guān)注的是信息元素本身的內(nèi)容與意義,是以文本、圖片、音頻、視頻或者結(jié)構(gòu)記錄等信息內(nèi)容為對(duì)象,從中挖掘知識(shí)內(nèi)容和語(yǔ)義關(guān)聯(lián)模式。

      Web 文本挖掘是通過(guò)HTML 文檔進(jìn)行信息的采集,將分布在Web 服務(wù)器上的待挖掘文檔集成在本地文本庫(kù)中提取有用的Web 文本信息。然后,采用基于詞典的逐字二分查找方法自動(dòng)分詞。采用向量空間模型和語(yǔ)義檢索技術(shù)表示文本,采用評(píng)估函數(shù)X2統(tǒng)計(jì)法對(duì)文本的名稱(chēng)、類(lèi)型、大小等特征進(jìn)行提取。Web 文本挖掘流程如下圖所示:

      圖Web 文本挖掘的基本流程

      3 文本分類(lèi)常用算法

      文本分類(lèi)的算法有很多種,其中最常用到的是TFIDF 方法和Naive Bayes 算法。TFIDF 的主要思想是:如果某個(gè)詞或短語(yǔ)在一篇文章中出現(xiàn)的頻率高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語(yǔ)具有很好的類(lèi)別區(qū)分能力。TFIDF 方法傾向於過(guò)濾掉常見(jiàn)的詞語(yǔ),保留重要的詞語(yǔ)。

      Naive Bayes 算法是以闕值大小對(duì)文本數(shù)據(jù)進(jìn)行劃分[4]。利用:

      其中,χi指C 類(lèi)文檔第i 個(gè)特征,Pr(χi/d )是從C 類(lèi)文本中得到特征詞χi的概率,Pr(χi/d )是從文本d 中得到特征詞χi的概率,n 指d 中詞的個(gè)數(shù),m 是系統(tǒng)詞典的大小。若所得闕值大于預(yù)先設(shè)定的值,則認(rèn)為文本d 屬于C 類(lèi)別,否則不是。

      從概率的大小來(lái)研究,Naive Bayes 算法可描述為: 設(shè)文檔d 的文檔向量的分量為相應(yīng)的特征詞在該文檔中出現(xiàn)的頻度,則d 屬于C 類(lèi)文檔的概率公式為:

      4 實(shí)例說(shuō)明

      利用Naive Bayes 算法,通過(guò)對(duì)用戶(hù)提交信息的關(guān)鍵字的提取,對(duì)專(zhuān)利信息進(jìn)行智能歸類(lèi)。

      現(xiàn)假設(shè)已經(jīng)對(duì)用戶(hù)提交信息提取完畢,形成的樣本為: 發(fā)明、請(qǐng)求、權(quán)利。且已事先給定一組分好類(lèi)的文本作為訓(xùn)練數(shù)據(jù)(如表1),完成對(duì)新樣本的分類(lèi)。

      表1

      如上所述,該文本用屬性向量表示為d=(發(fā)明、請(qǐng)求、權(quán)利),類(lèi)別集合為Y={發(fā)明專(zhuān)利、外觀專(zhuān)利}。

      類(lèi)“發(fā)明專(zhuān)利”下總共有5 個(gè)詞語(yǔ),類(lèi)“外觀專(zhuān)利”下總共有3 個(gè)單詞,訓(xùn)練樣本單詞總數(shù)為8,因此P(發(fā)明專(zhuān)利)=5/8,P(外觀專(zhuān)利)=3/8。類(lèi)條件概率計(jì)算如下:

      P(發(fā)明|發(fā)明專(zhuān)利)=P(權(quán)利|發(fā)明專(zhuān)利)=P(請(qǐng)求|發(fā)明專(zhuān)利) =(1+1)/(5+)=2/8

      P(發(fā)明|外觀專(zhuān)利)=P(權(quán)利|外觀專(zhuān)利)=(0+1)/(3+)=1/6

      分母中的5,是指“發(fā)明專(zhuān)利”類(lèi)別下文本長(zhǎng)度,也即訓(xùn)練樣本的單詞總數(shù),3 是指訓(xùn)練樣本有:發(fā)明、請(qǐng)求、權(quán)利共3 個(gè)單詞,是指“外觀專(zhuān)利”類(lèi)下共有3 個(gè)單詞。

      有了以上類(lèi)條件概率,開(kāi)始計(jì)算后驗(yàn)概率:

      P(發(fā)明專(zhuān)利|d)=2/8×2/8×2/8×5/8=5/512≈0.0097656

      P(外觀專(zhuān)利|d)=1/6×1/6×2/6×3/8=2/1728≈0.0011574

      比較大小,即可知道這個(gè)文檔屬于“發(fā)明專(zhuān)利”類(lèi)別。即將專(zhuān)利信息都?xì)w屬到“發(fā)明專(zhuān)利”類(lèi)別下,從而減少了人工操作選擇。

      5 結(jié)束語(yǔ)

      Web 文本挖掘有利于文本特征項(xiàng)的提取和特征縮減,Web 的文本分類(lèi)算法對(duì)Web 文檔的自動(dòng)分類(lèi)有極高的參考價(jià)值,對(duì)Web 文本挖掘有一定的指導(dǎo)意義。然而,對(duì)Web 文本的智能分析涉及Web 數(shù)據(jù)自動(dòng)采集、Web 數(shù)據(jù)自動(dòng)分析、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘和人工智能以及復(fù)雜社會(huì)網(wǎng)絡(luò)等技術(shù),是一個(gè)復(fù)雜過(guò)程。

      [1]張群.文本挖掘技術(shù)及其在專(zhuān)利信息分析中的應(yīng)用[J].現(xiàn)代情報(bào),2006(3):209-21.

      [2]王繼成.Web 文本挖掘技術(shù)研究[J].大理學(xué)院學(xué)報(bào),2011(4):513-520.

      [3]張玉峰,何超.基于Web 挖掘的網(wǎng)絡(luò)輿情智能分析研究[J].實(shí)踐研究,2011(4):64-68.

      [4]王一蕾,林世平.Web 文本挖掘三種技術(shù)的比較[J].福建電腦,2003(12):20-21.

      猜你喜歡
      外觀類(lèi)別文檔
      外觀動(dòng)作自適應(yīng)目標(biāo)跟蹤方法
      A Shopping Story to Remember
      不論外觀還是聲音,它都很美 Yamaha(雅馬哈)A-S3200合并功放
      有人一聲不吭向你扔了個(gè)文檔
      方外觀遺跡舊照
      紫禁城(2017年6期)2017-08-07 09:22:52
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      服務(wù)類(lèi)別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      論類(lèi)別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      中醫(yī)類(lèi)別全科醫(yī)師培養(yǎng)模式的探討
      龙游县| 雅安市| 佛山市| 砀山县| 太白县| 洪江市| 隆子县| 榆中县| 沂南县| 信宜市| 祁东县| 阿图什市| 松滋市| 岫岩| 沐川县| 开鲁县| 黄浦区| 西盟| 平泉县| 桐城市| 瑞金市| 茌平县| 龙陵县| 崇明县| 清徐县| 清原| 乐平市| 九龙城区| 三原县| 常德市| 萨迦县| 舟山市| 柯坪县| 凤台县| 平山县| 湘阴县| 个旧市| 东乌珠穆沁旗| 舞阳县| 乌拉特前旗| 方城县|