• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      文本挖掘的方法及應(yīng)用研究

      2011-08-08 12:48:26張曉艷華英
      電腦與電信 2011年12期
      關(guān)鍵詞:關(guān)聯(lián)分析

      張曉艷 華英

      (蘇州市職業(yè)大學(xué)計(jì)算機(jī)工程系,江蘇 蘇州 215104)

      1.引 言

      傳統(tǒng)的數(shù)據(jù)挖掘主要針對(duì)結(jié)構(gòu)化的數(shù)據(jù),如關(guān)系的、事務(wù)的和數(shù)據(jù)倉庫數(shù)據(jù)。但隨著互聯(lián)網(wǎng)應(yīng)用的興起和普及,涌現(xiàn)出巨量的電子信息,如電子文檔、電子出版物、萬維網(wǎng)等,其中以文本形式的信息占比最大。這些文本信息存儲(chǔ)在文本數(shù)據(jù)庫中,屬于半結(jié)構(gòu)化數(shù)據(jù)。文檔挖掘技術(shù)可幫助用戶比較非結(jié)構(gòu)化的文本信息,確定文檔的重要性和相關(guān)度,找出多個(gè)文檔的共通模式或趨勢(shì),成為數(shù)據(jù)挖掘中的一個(gè)重要研究方向。

      2.文本挖掘的處理過程

      文本挖掘從數(shù)據(jù)挖掘發(fā)展而來,但面向的是半結(jié)構(gòu)化或非結(jié)構(gòu)化的文本數(shù)據(jù),無確定形式并且缺乏機(jī)器可理解的語義;因此除采用數(shù)據(jù)挖掘的一些常見方法之外,還涉及到文本分析、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)可視化、數(shù)據(jù)庫、機(jī)器學(xué)習(xí)等技術(shù)的運(yùn)用。

      文本挖掘的處理過程主要包括對(duì)含有大量文檔集合的內(nèi)容進(jìn)行文本預(yù)處理、特征提取、結(jié)構(gòu)分析、文本摘要、文本分類、文本聚類、關(guān)聯(lián)分析、質(zhì)量評(píng)估、模式生成、結(jié)果輸出等,如圖1所示。

      圖1 文本挖掘的處理過程

      文本預(yù)處理的目的是選取任務(wù)相關(guān)的文本并將其轉(zhuǎn)化成文本挖掘工具可以處理的中間形式。特征提取一般會(huì)構(gòu)造一個(gè)評(píng)價(jià)函數(shù),對(duì)每個(gè)特征進(jìn)行評(píng)估,按分值高低排列,預(yù)定數(shù)目分?jǐn)?shù)最高的特征被選取。接著將進(jìn)行一系列分析挖掘步驟,利用機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘以及模式識(shí)別等方法提取面向特定應(yīng)用目標(biāo)的知識(shí)或模式。在最后挖掘結(jié)果輸出前,需根據(jù)已經(jīng)定義好的評(píng)估指標(biāo)對(duì)獲取的知識(shí)或模式進(jìn)行質(zhì)量評(píng)估。如果不符合要求,則要返回到前面的環(huán)節(jié)重新調(diào)整和改進(jìn)。

      3.文本挖掘主要方法分析

      從圖1可以看出,整個(gè)文本挖掘處理過程中,重點(diǎn)集中在一系列分析挖掘步驟上,這些步驟的操作對(duì)象是提取出來的關(guān)鍵詞、標(biāo)記或語義信息,其中最主要使用的方法有:關(guān)聯(lián)分析、文本分類和文本聚類。

      3.1 關(guān)聯(lián)分析

      關(guān)聯(lián)分析首先要對(duì)文本數(shù)據(jù)進(jìn)行分析、詞根處理、去除停用詞等預(yù)處理,再調(diào)用關(guān)聯(lián)挖掘算法,如Apriori算法。關(guān)聯(lián)挖掘算法多使用支持度—置信度框架,最小支持度和置信度閾值可排除大量無益的規(guī)則。在文本數(shù)據(jù)庫中,視每個(gè)文檔為一個(gè)事務(wù),文檔中關(guān)鍵詞的集合視作是事務(wù)中的項(xiàng)集。所以文本數(shù)據(jù)庫中關(guān)鍵詞關(guān)聯(lián)挖掘的問題就映射為事務(wù)數(shù)據(jù)庫中項(xiàng)的關(guān)聯(lián)挖掘。關(guān)聯(lián)挖掘過程有助于找出復(fù)合關(guān)聯(lián),即領(lǐng)域相關(guān)的術(shù)語或短語,如[西紅柿,蔬菜],也可找出非復(fù)合關(guān)聯(lián),如[基金,銀行,證券,投資]。這樣的關(guān)聯(lián)挖掘也被稱為“術(shù)語級(jí)關(guān)聯(lián)挖掘”,便于找出術(shù)語和關(guān)鍵詞間的關(guān)聯(lián)。具有無需人工標(biāo)記文本、極大減少算法的執(zhí)行時(shí)間和無意義結(jié)果的優(yōu)點(diǎn)。

      3.2 文本分類

      由于存在大量的文本,自動(dòng)對(duì)這些文本分類組織以便于檢索和分析,是文本挖掘至關(guān)重要的任務(wù)。文本分類是一種“有教師”的機(jī)器學(xué)習(xí)方法。首先要取一組預(yù)處理的文本特征向量集作為訓(xùn)練集,每個(gè)訓(xùn)練集有個(gè)類別編號(hào);然后選擇分類方法分析訓(xùn)練集并導(dǎo)出分類模式;再檢驗(yàn)這個(gè)分類模式以求精;最后用訓(xùn)練好的分類模型對(duì)其它待分類文本進(jìn)行分類。常用的文本分類方法有:

      (1)最鄰近分類法。將全部訓(xùn)練文本進(jìn)行簡(jiǎn)單索引,每個(gè)文本都關(guān)聯(lián)到對(duì)應(yīng)的類別編號(hào)。當(dāng)提交一個(gè)檢驗(yàn)文本時(shí),把它當(dāng)作查詢提交,并從訓(xùn)練集中檢索出與查詢最相似的n個(gè)文檔。檢驗(yàn)文檔的類別編號(hào)由它的n個(gè)最鄰近的類別編號(hào)的分布決定。這種方法需要相對(duì)其它分類方法會(huì)占用更多的存儲(chǔ)訓(xùn)練信息的空間和查找倒排索引所消耗的時(shí)間。

      (2)特征選擇分類法。向量空間模型可能會(huì)將大權(quán)重賦予某些稀有詞,而不管它的類分類特征如何,這些稀有詞的存在可能會(huì)導(dǎo)致無效的分類。此時(shí)可以使用特征選擇分類法刪除訓(xùn)練文本中與類別編號(hào)不相關(guān)或冗余的詞,其目的是找出最小特征集,使得數(shù)據(jù)類的概率分布盡可能接近使用所有特征得到的原分布。使用特征選擇刪除非特征詞后,產(chǎn)生的訓(xùn)練文本分類結(jié)果更有效。

      (3)貝葉斯分類法。這是一種統(tǒng)計(jì)學(xué)分類方法,因?yàn)槲谋痉诸惪梢钥醋魇怯?jì)算文本在特定類中的統(tǒng)計(jì)分布。貝葉斯分類器首先通過對(duì)每個(gè)類x計(jì)算文本y的生成的文本分布P(x|y)來訓(xùn)練模型,然后測(cè)試哪個(gè)類最可能產(chǎn)生檢驗(yàn)文本。貝葉斯分類可以預(yù)測(cè)類成員關(guān)系的可能性,適用于處理高維的數(shù)據(jù)集,準(zhǔn)確率和速度均較高。

      3.3 文本聚類

      文本聚類是一種“無教師”的機(jī)器學(xué)習(xí)方法。依據(jù)著名的聚類假設(shè):同類的文本相似度較大,不同類的文本相似度較小。它從給定的文本本身出發(fā),根據(jù)文檔特征詞向量,將相關(guān)者聚為一類。與分類不同,聚類由于不需要訓(xùn)練過程,也不需要預(yù)先對(duì)文本標(biāo)注類別,聚類要?jiǎng)澐值念愂俏粗?,因此靈活性和自動(dòng)化處理能力更強(qiáng)一些。常用的文本聚類方法有:

      1.光譜聚類法。先將原始數(shù)據(jù)運(yùn)行維度歸約(光譜嵌入),然后對(duì)維度歸約后的文本空間運(yùn)用k均值或k中心聚類算法。光譜聚類法因與微分幾何學(xué)聯(lián)系密切,便于發(fā)現(xiàn)文本空間中的流行結(jié)構(gòu),而具有處理高度非線性數(shù)據(jù)的能力。這種方法也有缺點(diǎn),對(duì)嵌入的學(xué)習(xí)要使用到所有的數(shù)據(jù)點(diǎn),如果數(shù)據(jù)集很大,那會(huì)消耗大量的時(shí)間,因此并不太適用于大型數(shù)據(jù)集。

      2.混合模型聚類方法。分為兩個(gè)步驟:①基于文本數(shù)據(jù)和附加的先驗(yàn)知識(shí)估計(jì)模型參數(shù);②基于估計(jì)的模型參數(shù)推斷聚類。這種方法通常涉及多項(xiàng)式支模型,能同時(shí)聚類詞和文本。概率潛在語義分析和潛在狄利克雷分配是經(jīng)常使用到的模型?;旌夏P途垲惙椒ǖ膬?yōu)勢(shì)是,可以對(duì)簇進(jìn)行設(shè)計(jì),更有利于文本的比較分析。

      4.文本挖掘的常見應(yīng)用

      (1)信息檢索。信息檢索關(guān)注的是基于大量文本的文檔信息的組織和檢索。信息檢索包括聯(lián)機(jī)圖書館目錄系統(tǒng)、聯(lián)機(jī)文檔管理系統(tǒng)和Web搜索引擎等。信息檢索的典型問題是根據(jù)用戶查詢,在文本集合時(shí)定位相關(guān)文檔。信息檢索系統(tǒng)的一般流程為:對(duì)文本集合建立倒排索引、分析用戶查詢請(qǐng)求、匹配文檔與查詢請(qǐng)求、對(duì)查詢結(jié)果進(jìn)行排序以及用戶相關(guān)度回饋。

      (2)自定義組織聯(lián)機(jī)文檔。對(duì)于聯(lián)機(jī)文檔,可以自行制定組織方案,利用文本分類對(duì)這些文檔進(jìn)行自動(dòng)編目。方便用戶不僅能夠?yàn)g覽文檔,并且還可以通過限制搜索范圍提高查找效率。

      (3)改進(jìn)搜索引擎的檢索結(jié)果。利用文本聚類方法,把搜索引擎的檢索結(jié)果分為若干簇,加以標(biāo)注,改善用戶查看檢索結(jié)果的方式,幫助用戶從無關(guān)聯(lián)的線性文檔列表轉(zhuǎn)為查看有規(guī)律的分類結(jié)果。

      (4)提升商務(wù)電子化的管理效率。實(shí)施電子商務(wù)的企業(yè)可通過對(duì)客戶訪問信息、商品訪問情況和銷售記錄情況等的文本挖掘,了解客戶的興趣與需求,跟蹤產(chǎn)品的市場(chǎng)反映,收集客戶的信譽(yù)度,幫助企業(yè)提升管理效率。

      5.結(jié)束語

      文本挖掘作為數(shù)據(jù)挖掘的研究分支,在對(duì)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)提取有效規(guī)律和規(guī)則方面有著明顯的優(yōu)勢(shì)。在處理不同數(shù)據(jù)集時(shí),應(yīng)根據(jù)數(shù)據(jù)集的維度和組織情況選擇最適用的挖掘分類方法。隨著文本挖掘研究的深入,其應(yīng)用領(lǐng)域還將不斷拓展。

      [1]阮忠,鄧春燕.Web文本挖掘的方法及其應(yīng)用研究[J].農(nóng)業(yè)網(wǎng)絡(luò)信息.2008,(9):27-29.

      [2]程顯毅,朱倩著.文本挖掘原理[M].北京:科學(xué)出版社,2010.

      [3]Bing Liu著,俞勇,薛貴榮,韓定一譯.Web數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社,2009.

      [4]白翎雁,才書訓(xùn).Web文本挖掘及相關(guān)技術(shù)研究[J].沈陽工程學(xué)院學(xué)報(bào)(自然科學(xué)版).2008,4(3):260-261.

      [5]謝冬,劉宏申.文本挖掘中若干關(guān)鍵問題的研究[J].電腦知識(shí)與技術(shù).2009,5(18):4773-4774.

      猜你喜歡
      關(guān)聯(lián)分析
      “鷹眼”大數(shù)據(jù)安全管控平臺(tái)的技術(shù)實(shí)現(xiàn)解析
      斑點(diǎn)叉尾MSTN基因4個(gè)SNP位點(diǎn)及其與生長(zhǎng)性狀的相關(guān)性
      1996年~2016年檔案學(xué)國家社科基金項(xiàng)目的文獻(xiàn)計(jì)量分析
      檔案管理(2017年2期)2017-02-25 20:41:58
      玉米骨干親本及其衍生系中基因的序列變異及與株高等性狀的關(guān)聯(lián)分析
      玉米骨干親本及其衍生系中基因的序列變異及與株高等性狀的關(guān)聯(lián)分析
      基于隨機(jī)函數(shù)Petri網(wǎng)的系統(tǒng)動(dòng)力學(xué)關(guān)聯(lián)分析模型
      關(guān)聯(lián)分析技術(shù)在學(xué)生成績(jī)分析中的應(yīng)用
      基于關(guān)聯(lián)分析的學(xué)生活動(dòng)參與度與高校社團(tuán)管理實(shí)證研究
      科技視界(2016年15期)2016-06-30 12:43:00
      精準(zhǔn)扶貧背景下廣東省有戶籍人口海島灰色聚類分析研究
      不同的數(shù)據(jù)挖掘方法分類對(duì)比研究
      韶山市| 太和县| 昆明市| 米易县| 漳浦县| 衡水市| 涟源市| 鸡东县| 台东县| 绥芬河市| 基隆市| 英山县| 阜新市| 武清区| 金阳县| 原阳县| 新竹市| 马尔康县| 中阳县| 红安县| 定襄县| 中江县| 隆德县| 开原市| 庄浪县| 秦皇岛市| 金门县| 新蔡县| 同仁县| 东光县| 徐汇区| 苏州市| 镇江市| 龙江县| 兰溪市| 井冈山市| 青州市| 云和县| 伊春市| 长沙市| 大余县|