• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      文本數(shù)據(jù)挖掘系統(tǒng)原型方案研究

      2008-07-14 10:05奠石鎂
      電腦知識(shí)與技術(shù) 2008年18期
      關(guān)鍵詞:系統(tǒng)

      奠石鎂

      摘要:本文在研究文本數(shù)據(jù)挖掘技術(shù)發(fā)展基礎(chǔ)上,對(duì)文本數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)進(jìn)行深入分析,在此基礎(chǔ)上,論文設(shè)計(jì)實(shí)現(xiàn)文本數(shù)據(jù)挖掘系統(tǒng)原型方案,該方案將文本分析、數(shù)據(jù)庫(kù)和文本數(shù)據(jù)挖掘技術(shù)有機(jī)地結(jié)合起來(lái),實(shí)現(xiàn)了文本特征值提取、特征值清理入庫(kù)和關(guān)聯(lián)規(guī)則挖掘等功能。

      關(guān)鍵詞:文本數(shù)據(jù)挖掘;系統(tǒng);原型方案

      中圖分類(lèi)號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2008)18-20ppp-0c

      The Study on Text Data Mining Antetype Solution

      DIAN Shi-mei

      (Yunnan Medical College, Yunnan 650031, China)

      Abstract: Based on the analysis of text data mining technology, the paper makes deep study about text data mining system design. Then the paper puts forward and designs a text miner antetype solution , which combines text analysis, data base and text data mining technology and realizes such functions as text eigenvalue extraction ,association rule mining and so on.

      Key words: text data mining; system; antetype solution

      1 引言

      文本數(shù)據(jù)挖掘是近幾年才引起大家的關(guān)注并發(fā)展起來(lái)的一個(gè)數(shù)據(jù)挖掘領(lǐng)域的新興分支,與機(jī)器學(xué)習(xí)、統(tǒng)計(jì)、模式識(shí)別等前緣理論方法密切相關(guān)。面對(duì)這樣的挑戰(zhàn),數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)技術(shù)應(yīng)運(yùn)而生,并得以蓬勃發(fā)展,越來(lái)越顯示出其強(qiáng)大的生命力,成為數(shù)據(jù)庫(kù)研究的一個(gè)新領(lǐng)域。文本數(shù)據(jù)挖掘是通過(guò)自動(dòng)提取文本信息在大量文本數(shù)據(jù)中發(fā)現(xiàn)未知的知識(shí)的過(guò)程,與自然語(yǔ)言密切相關(guān),其關(guān)鍵是把提取的信息組合起來(lái)發(fā)現(xiàn)未知知識(shí)。文本數(shù)據(jù)挖掘不同于Web搜索,Web搜索是人們事先己知要查找什么,而文本數(shù)據(jù)挖掘是發(fā)現(xiàn)未知知識(shí),事先可能并不存在。文本數(shù)據(jù)挖掘也不同于常規(guī)意義上的數(shù)據(jù)挖掘,常規(guī)數(shù)據(jù)挖掘是在數(shù)據(jù)庫(kù)中發(fā)現(xiàn)感興趣的模式,而文本數(shù)據(jù)挖掘是從自然語(yǔ)言文本中發(fā)現(xiàn)模式。

      2 文本數(shù)據(jù)挖掘技術(shù)發(fā)展研究

      文本數(shù)據(jù)挖掘可分為基于單文檔的數(shù)據(jù)挖掘和基于文檔集的數(shù)據(jù)挖掘閣。單文檔數(shù)據(jù)挖掘?qū)ξ臋n的分析不涉及其它文檔,主要挖掘方向有文本自動(dòng)摘要、文檔知識(shí)總結(jié)發(fā)現(xiàn)、信息提取。信息提取又包括名字提取、短語(yǔ)提取和關(guān)系提取等,涉及到較深的語(yǔ)言學(xué)的知識(shí)。文檔集數(shù)據(jù)挖掘?qū)Υ笠?guī)模的文檔數(shù)據(jù)進(jìn)行模式抽取,既可以文本自動(dòng)摘要、文檔總結(jié),又可以進(jìn)行文本分類(lèi)、文本聚類(lèi)、相似性分析、個(gè)性化文本過(guò)濾和信息檢索。文本數(shù)據(jù)挖掘目前主要運(yùn)用特征信息提取、聚類(lèi)分析方法對(duì)文本進(jìn)行分類(lèi),主要應(yīng)用在信息學(xué)和圖書(shū)信息檢索方面提高信息檢索效率,有少部分運(yùn)用語(yǔ)言學(xué)的語(yǔ)法結(jié)構(gòu)知識(shí)來(lái)分析文本內(nèi)容,但進(jìn)展緩慢不大。

      傳統(tǒng)數(shù)據(jù)挖掘所處理的數(shù)據(jù)是結(jié)構(gòu)化的,如關(guān)系的、事務(wù)的數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù),其特征項(xiàng)數(shù)目相對(duì)較少且結(jié)構(gòu)單一;而文本數(shù)據(jù)沒(méi)有結(jié)構(gòu),轉(zhuǎn)換為特征矢量后特征項(xiàng)數(shù)目達(dá)到幾萬(wàn)甚至十幾萬(wàn)個(gè)。隨著信息技術(shù)的發(fā)展,需要處理的文本信息也日益增加,傳統(tǒng)的信息檢索和處理技術(shù)已經(jīng)不能滿(mǎn)足大數(shù)據(jù)量文本處理的需要。文本數(shù)據(jù)挖掘既融合了很多傳統(tǒng)數(shù)據(jù)挖掘的技術(shù),如挖掘算法思想、挖掘流程構(gòu)架等,又有自己獨(dú)特的處理方法,表現(xiàn)在數(shù)據(jù)抽取、清洗及巨量數(shù)據(jù)挖掘算法的改進(jìn)等方面。

      文本可分為純文本和超文本,超文本不僅有純文本的性質(zhì),還含有各種標(biāo)記和鏈接引入的結(jié)構(gòu)對(duì)象(如聲音、圖片甚至應(yīng)用程序等)。對(duì)純文本和超文本中純文本部分都可以進(jìn)行內(nèi)容挖掘。文本內(nèi)容挖掘又可分為有背景知識(shí)挖掘和無(wú)背景知識(shí)挖掘。有背景知識(shí)挖掘是通過(guò)分析文本的語(yǔ)法特征和少量語(yǔ)義特征來(lái)進(jìn)行挖掘,使用的背景知識(shí)主要是自然語(yǔ)言知識(shí),如主謂賓及修飾性詞句語(yǔ)法分析、通過(guò)輔助詞進(jìn)行語(yǔ)義分析等,主要挖掘結(jié)果是文本的語(yǔ)法結(jié)構(gòu)性和語(yǔ)義性特征。無(wú)背景知識(shí)挖掘則主要是通過(guò)統(tǒng)計(jì)方法提取文本特征數(shù)據(jù),再對(duì)這些提取出的數(shù)據(jù)進(jìn)行挖掘,挖掘的數(shù)據(jù)主要是文本的描述性特征,挖掘的結(jié)果根據(jù)業(yè)務(wù)需求千差萬(wàn)別,如可以通過(guò)比較提取出的特征數(shù)據(jù)的相似程度對(duì)文本進(jìn)行分類(lèi),可以在文件檢索中提供給檢索者相關(guān)特征詞的文件,還可以對(duì)文本進(jìn)行自動(dòng)文檔摘要處理等。

      文本數(shù)據(jù)挖掘與目前數(shù)據(jù)挖掘熱點(diǎn)Web數(shù)據(jù)挖掘也有較大的差別。Web數(shù)據(jù)挖掘?qū)儆邳c(diǎn)擊流數(shù)據(jù)挖掘,主要關(guān)注網(wǎng)頁(yè)的鏈接,如Google用“PageRank”來(lái)度量網(wǎng)頁(yè)重要(興趣)程度,還對(duì)網(wǎng)頁(yè)使用者的個(gè)人信息、使用習(xí)性等進(jìn)行挖掘,以更好的檢索信息、改進(jìn)Web內(nèi)容結(jié)構(gòu)等,從理論上講還包括文本數(shù)據(jù)挖掘,但在目前應(yīng)用中還對(duì)文本數(shù)據(jù)內(nèi)容本身關(guān)注較少。文本數(shù)據(jù)挖掘主要關(guān)注于文本內(nèi)容本身,先對(duì)文本信息進(jìn)行結(jié)構(gòu)化處理,再利用挖掘算法發(fā)現(xiàn)文本中的未知知識(shí)或找出文本之間的關(guān)聯(lián)信息等。文本數(shù)據(jù)挖掘也與Web搜索不同,Web搜索是查找事先已知的內(nèi)容,而文本數(shù)據(jù)挖掘則是發(fā)現(xiàn)文本中的相關(guān)知識(shí),這些相關(guān)知識(shí)是事先未知的。

      3 文本數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)分析

      文本數(shù)據(jù)是一種僅具有有限結(jié)構(gòu)甚至是根本沒(méi)有結(jié)構(gòu)的數(shù)據(jù)體,文本的格式可能存在著段落、縮進(jìn)以及正文與圖形表格等形式的差別,但對(duì)內(nèi)容而言是完全不同的。對(duì)一個(gè)純文本進(jìn)行無(wú)背景知識(shí)關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘第一步是通過(guò)完全統(tǒng)計(jì)文本中二字詞、三字詞、……、n字短語(yǔ)出現(xiàn)的頻率提取文本中的特征數(shù)據(jù)。所謂“特征數(shù)據(jù)”在中文文本中主要指按字?jǐn)?shù)分詞處理后得到的詞匯。其前提依據(jù)是出現(xiàn)的頻率越高,這些特征詞就對(duì)該文本越具有文本語(yǔ)義上的特征描述性,這些高頻率的詞就在一定程度上代表全文的主題思想。通過(guò)分析還發(fā)現(xiàn)文本數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)方面,每個(gè)漢字和標(biāo)點(diǎn)符號(hào)等文本數(shù)據(jù)占兩個(gè)字節(jié),而文本中的英文字符則占一個(gè)字節(jié):漢字和標(biāo)點(diǎn)符號(hào)文本數(shù)據(jù)之間沒(méi)有間隔符,而每個(gè)英文單詞的文本數(shù)據(jù)之間則有間隔符來(lái)分隔。由于文本數(shù)據(jù)之間的這些特性造成了對(duì)中文文本文件數(shù)據(jù)進(jìn)行無(wú)背景知識(shí)統(tǒng)計(jì)分析容易引入一些亂碼,這些亂碼一方面可以通過(guò)頻率值門(mén)限值清除,另一方面還要通過(guò)數(shù)據(jù)清理清除。文本數(shù)據(jù)挖掘的第二步就是要對(duì)統(tǒng)計(jì)出的數(shù)據(jù)進(jìn)行清理,把亂碼數(shù)據(jù)和一些達(dá)到統(tǒng)計(jì)頻率門(mén)限值的特征數(shù)據(jù)清除掉,保證提取出的特征數(shù)據(jù)既能表達(dá)文本的特征信息,又能保證數(shù)據(jù)挖掘數(shù)據(jù)正確性的要求,最后把提取出的特征數(shù)據(jù)加入到數(shù)據(jù)庫(kù)中。

      文本特征值提取是文本關(guān)聯(lián)挖掘系統(tǒng)中的一個(gè)關(guān)鍵步驟,而文本關(guān)聯(lián)挖掘系統(tǒng)的困難之一便是特征值空間的維數(shù)過(guò)高,特征值的維數(shù)對(duì)應(yīng)著文本中不同詞匯的個(gè)數(shù)。數(shù)量巨大的特征值維數(shù)一方面導(dǎo)致挖掘算法的代價(jià)過(guò)高,另一方面導(dǎo)致無(wú)法準(zhǔn)確地提取文檔的特征信息,造成挖掘效果不佳。需要在不犧牲提取特征質(zhì)量的前提下盡可能地降低特征項(xiàng)空間的維數(shù)?!疤卣鬟x取”的任務(wù)就是要將信息量小、“不重要”的詞匯從特征項(xiàng)空間中刪除,從而減少特征項(xiàng)的個(gè)數(shù)。特征值提取是一個(gè)維數(shù)歸約的過(guò)程,即刪除不重要的特征值從而減少特征空間的維數(shù)。文本特征值提取中,不同的詞在文本文件中出現(xiàn)的次數(shù)是不相等的,對(duì)文本內(nèi)容的貢獻(xiàn)也就有大有小,因此還要考慮詞在文本中的權(quán)重。把文本特征數(shù)據(jù)提取出來(lái)并加載到數(shù)據(jù)庫(kù)以后,就要對(duì)這些特征數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘以發(fā)現(xiàn)這些特征數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘是通過(guò)以每個(gè)文件名作為標(biāo)識(shí)號(hào),以文本的特征數(shù)據(jù)及其權(quán)重值作為文件名標(biāo)識(shí)號(hào)下的數(shù)據(jù)項(xiàng),對(duì)這些數(shù)據(jù)項(xiàng)進(jìn)行關(guān)聯(lián)分析可以發(fā)現(xiàn)文本中隱含的信息和這一組文本文件之間的一些關(guān)系。關(guān)聯(lián)分析算法通過(guò)統(tǒng)計(jì)交易數(shù)據(jù)庫(kù)中每項(xiàng)交易記錄中每個(gè)候選集出現(xiàn)的次數(shù)作為該項(xiàng)集的支持計(jì)數(shù),然后比較支持計(jì)數(shù)和其支持度期望,得到頻繁項(xiàng)集,最后生成關(guān)聯(lián)規(guī)則。本系統(tǒng)原型采用加權(quán)關(guān)聯(lián)規(guī)則算法。這些挖掘結(jié)果既可以用于單文檔的自動(dòng)關(guān)鍵字提取:還可用于信息關(guān)聯(lián)檢索,提供給用戶(hù)信息檢索時(shí)更廣闊的密切相關(guān)的信息,幫助人們提高處理大量文本數(shù)據(jù)的效率;以及發(fā)現(xiàn)隱藏在文本文件之間的語(yǔ)義內(nèi)容知識(shí)。

      4 文本數(shù)據(jù)挖掘系統(tǒng)原型方案

      本文在對(duì)分析文本數(shù)據(jù)挖掘相關(guān)理論算法基礎(chǔ)之上,設(shè)計(jì)實(shí)現(xiàn)文本數(shù)據(jù)挖掘系統(tǒng)原型TextMiner方案。TextMiner將文本分析、數(shù)據(jù)庫(kù)和文本數(shù)據(jù)挖掘技術(shù)有機(jī)地結(jié)合起來(lái),實(shí)現(xiàn)了文本特征值提取、特征值清理入庫(kù)和關(guān)聯(lián)規(guī)則挖掘等功能。TextMiner主要由數(shù)據(jù)抽取、特征值清理、特征值入庫(kù)、關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘和規(guī)則應(yīng)用幾部分構(gòu)成。

      (1)確定目標(biāo)樣本:由用戶(hù)選擇確定挖掘目標(biāo)的文本樣本,用于數(shù)據(jù)抽取模塊進(jìn)行文本特征值的提取。

      (2)數(shù)據(jù)抽取:對(duì)用戶(hù)指定的純文本文檔集,按照用戶(hù)指定的特征值最低統(tǒng)計(jì)計(jì)數(shù)提取文本中的特征值。特征值抽取是采用無(wú)背景知識(shí)的抽取方法,對(duì)文本的二字詞組、三字詞組、……、n字詞組出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì),若出現(xiàn)次數(shù)超過(guò)指定的最低計(jì)數(shù)則把這個(gè)詞組作為該文本的一個(gè)特征值。

      (3)特征值清理:對(duì)數(shù)據(jù)抽取得到的特征值進(jìn)行清洗。文本文件的抽取是在文本中按位置讀出,一些位置上出現(xiàn)一些無(wú)自然語(yǔ)義的控制符也被讀入形成無(wú)意義的亂碼,若這些亂碼超過(guò)最低統(tǒng)計(jì)計(jì)數(shù),則也被加入到特征值中,所以有必要對(duì)特征值中這些無(wú)意義的亂碼進(jìn)行清洗,以保證數(shù)據(jù)庫(kù)中數(shù)據(jù)的一致性和準(zhǔn)確性。

      (4)特征值入庫(kù):把數(shù)據(jù)清理后的特征值加入到數(shù)據(jù)庫(kù)中,同時(shí)入庫(kù)的還有文本文件的相關(guān)屬性值,如文件名、文件路徑、創(chuàng)建時(shí)間、最后修改日期、入庫(kù)時(shí)間等。

      (5)關(guān)聯(lián)規(guī)則挖掘:特征值裝載入數(shù)據(jù)庫(kù)后,每一個(gè)文本文件對(duì)應(yīng)一個(gè)特征值向量,與商品交易數(shù)據(jù)庫(kù)中交易標(biāo)識(shí)號(hào)和交易記錄類(lèi)似。運(yùn)用加權(quán)關(guān)聯(lián)規(guī)則算法對(duì)這些特征值向量進(jìn)行關(guān)聯(lián)挖掘,得到關(guān)聯(lián)規(guī)則。

      (6)應(yīng)用:TextMiner主要考慮把系統(tǒng)挖掘出的關(guān)聯(lián)規(guī)則用于未知知識(shí)發(fā)現(xiàn)、文本內(nèi)容檢索,其它擴(kuò)展應(yīng)用還有文本聚類(lèi)、自動(dòng)文本關(guān)鍵字提取、自動(dòng)文本摘要等。

      圖1 文本數(shù)據(jù)挖掘系統(tǒng)原型方案

      5 結(jié)束語(yǔ)

      文本內(nèi)容挖掘才剛剛起步,其前景十分廣闊,將成為信息檢索和情報(bào)分析中的一個(gè)重要課題,同時(shí)把文本內(nèi)容挖掘的研究成果應(yīng)用到搜索技術(shù)中將為人們提供更準(zhǔn)確的有價(jià)值的搜索結(jié)果。

      參考文獻(xiàn):

      [1] 鐘艷花,余偉紅,余永權(quán).web文本挖掘系統(tǒng)及其關(guān)鍵技術(shù)研究[J].計(jì)算機(jī)工程與應(yīng)用,2006(34):167.

      [2] 湛燕,陳昊,袁方.文本挖掘研究進(jìn)展[J].河北大學(xué)學(xué)報(bào)(白然科學(xué)版).2005,23(2):221.

      [3] 薛為民,陸玉昌.文本挖掘技術(shù)研究[J].北京聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版),2005,19(4).

      [4] 范亞芹,劉穎,李興男.web數(shù)據(jù)挖掘原理及實(shí)現(xiàn)[J].吉林大學(xué)學(xué)報(bào),2004(21).

      [5] 高潔,吉根林.文本分類(lèi)技術(shù)研究[J].計(jì)算機(jī)應(yīng)用研究.2006.7.

      收稿日期:2008-04-13

      猜你喜歡
      系統(tǒng)
      Smartflower POP 一體式光伏系統(tǒng)
      WJ-700無(wú)人機(jī)系統(tǒng)
      基于PowerPC+FPGA顯示系統(tǒng)
      基于UG的發(fā)射箱自動(dòng)化虛擬裝配系統(tǒng)開(kāi)發(fā)
      半沸制皂系統(tǒng)(下)
      FAO系統(tǒng)特有功能分析及互聯(lián)互通探討
      連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
      一德系統(tǒng) 德行天下
      PLC在多段調(diào)速系統(tǒng)中的應(yīng)用
      重訪 Duffing 系統(tǒng)中的對(duì)稱(chēng)破裂分岔與激變
      肃宁县| 游戏| 亳州市| 青川县| 新津县| 留坝县| 奎屯市| 华蓥市| 梧州市| 安庆市| 绩溪县| 福鼎市| 格尔木市| 大新县| 民和| 宜城市| 七台河市| 威宁| 明溪县| 通海县| 池州市| 长顺县| 兴和县| 南康市| 文水县| 嵩明县| 林芝县| 海兴县| 隆昌县| 沁水县| 长子县| 大洼县| 息烽县| 无为县| 巴林左旗| 吴桥县| SHOW| 乐亭县| 台中县| 三原县| 定南县|