彭梅
摘 要: 文本信息挖掘有利于提高文本信息的查找和利用效率,針對傳統(tǒng)方法存在的問題,提出文本信息挖掘方法。首先提取文本信息術語,估計信息內(nèi)容與文本類別間的余弦距離,結合模糊規(guī)則推理和余弦距離得到隸屬度,然后根據(jù)均值密度的中心估計方法得到文本數(shù)據(jù)集合的平均密度,確定文本信息聚類中心,刪除遠離文本信息聚類中心的奇異數(shù)據(jù)點,實現(xiàn)大數(shù)據(jù)環(huán)境下文本信息挖掘。實驗結果表明,該方法能夠有效提高文本信息挖掘的查準率,而且具有較強的可擴展性。
關鍵詞: 大數(shù)據(jù); 文本信息; 信息挖掘; 查準率
中圖分類號: TN911.1?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2017)23?0123?04
Abstract: The text information mining is helpful to improve the efficiency of text information retrieval and utilization. Aiming at the problems existing in the traditional methods, a text information mining method is proposed. The term of text information is extracted to estimate the information content and the cosine distance between test categories. The fuzzy rules reasoning and cosine distance are combined to obtain the membership. And then the central estimation method based on mean value density is used to get the average density of the text dataset, determine the clustering center of text information, delete the singularity data point far away from the clustering center of text information, and realize the text information mining in big data environment. The experimental results show this method can improve the precision ratio of text information mining effectively, and has strong scalability.
Keywords: big data; text information; information mining; precision ratio
0 引 言
在當今社會中人們獲取外界信息的渠道更加豐富且獲取方式更加簡單,使得人們每天需要瀏覽以及面對大量的各色信息[1?2]。因此,需要對用戶進行文本信息的篩選,挖掘出用戶真正感興趣的文本信息。
現(xiàn)階段的文本信息挖掘技術不能根據(jù)用戶查詢目的有效地對查詢內(nèi)容進行擴展,且沒有考慮用戶的興趣愛好以及用戶的技術層次等差別,不能為用戶提供具有個性化需求的動態(tài)服務。導致文本信息挖掘對知識理解能力和處理能力較差的問題,致使文本信息挖掘的精度不高以及文本信息過載和淹沒[3?4]。在這種情況下,如何有效、快速地從海量信息中挖掘出用戶真正需要的信息,成為業(yè)內(nèi)人士亟需解決的重要技術難題,受到許多有關專家學者的高度關注[5?6]。文獻[7]提出基于用戶興趣的大數(shù)據(jù)環(huán)境下文本信息挖掘方法,該方法挖掘能力的準確性較高,但存在計算過程消耗時間較長的問題。文獻[8]提出基于句法規(guī)則的文本信息挖掘方法,該方法計算過程較為簡單,但存在文本信息挖掘過程受控于核函數(shù)選擇的問題。文獻[9]提出基于決策樹的大數(shù)據(jù)環(huán)境下文本信息挖掘方法。該方法可以從側面了解用戶感興趣的文本信息,但存在挖掘能力局限性較大的問題[10?11]。
針對上述問題,本文提出文本信息挖掘方法,結果表明,該方法能夠有效提高文本信息挖掘的查準率,同時具有較強的可擴展性。
1 大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
2 實驗結果與分析
為了證明提出大數(shù)據(jù)環(huán)境下文本信息挖掘方法的有效性,在Eclipse Standard 4.3.2下搭建大數(shù)據(jù)環(huán)境下文本信息挖掘實驗平臺,實驗數(shù)據(jù)來源于UCI語料集。分別利用模糊規(guī)則方法和支持向量機方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘實驗。將兩種不同方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘的精確度對比,采用查準率[P](%)作為度量不同方法下文本信息挖掘精度的結果:
通過對表1進行分析可知,利用模糊規(guī)則方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘的查準率要高于支持向量機方法,這主要是因為在利用模糊規(guī)則方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘過程中,先對文本信息進行術語提取,計算出新的文本信息內(nèi)容與文本類別之間的余弦距離,結合模糊規(guī)則推理和余弦距離對文本信息進行分類,得到文本信息的數(shù)據(jù)樣本與原型之間的隸屬度。再根據(jù)均值密度的中心估計方法計算出文本信息原始數(shù)據(jù)集合的平均密度,在此基礎上通過對文本信息聚類中心的確定,對文本信息中原始數(shù)據(jù)集合中遠離聚類中心周圍的稀疏數(shù)據(jù)的奇異點進行刪除,使得利用模糊規(guī)則方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘的挖掘精度較高。
分別利用模糊規(guī)則方法和支持向量機方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘實驗。對比兩種不同方法進行文本信息挖掘的召回率(%),召回率是指自動挖掘與用戶搜索相一致的文本信息占用戶搜索信息總數(shù)的比率,體現(xiàn)了文本信息挖掘結果的完備性。利用對比結果來比較兩種不同方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘的召回率:endprint
通過對表2進行分析可知,利用模糊規(guī)則方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘的召回率要高于支持向量機方法,這主要是因為在利用模糊規(guī)則方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘過程中,先結合數(shù)據(jù)空間中距離累積函數(shù)計算出大數(shù)據(jù)環(huán)境下文本信息的潛力,再利用余弦距離公式計算出不同文本信息樣本擁有不同數(shù)量的屬性,在此基礎上通過計算文本信息數(shù)據(jù)聚類中心,結合布爾加權法對文本信息的挖掘方法進行定義,得到詞語在文本信息中的加權,使得利用模糊規(guī)則方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘的召回率較高。
利用對比結果來衡量不同方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘的綜合有效性,對比結果如圖1所示。
通過對圖1進行分析可知,利用模糊規(guī)則方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘的綜合性能要高于支持向量機方法,這主要是因為在利用模糊規(guī)則方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘過程中,先對文本信息潛力進行遞歸,創(chuàng)建出文本信息的新原型,得到文本信息的數(shù)據(jù)樣本與原型之間的隸屬度,在此基礎上通過計算沒有被存儲的所有文本信息的分散性,得到以文本信息中所有數(shù)據(jù)點為中心的密度集合,再通過計算文本信息原始數(shù)據(jù)集合的平均密度,對文本信息中原始數(shù)據(jù)集合中遠離聚類中心周圍的稀疏數(shù)據(jù)的奇異點進行刪除,使得利用模糊規(guī)則方法進行大數(shù)據(jù)環(huán)境下文本信息挖掘的綜合性能較優(yōu)。
3 結 語
針對當前方法進行文本信息挖掘過程中難以對文本信息中奇異點進行刪除,存在文本信息分類特征的準確性較差,聚類中心迭代初值的選擇較為隨機的問題,提出一種基于模糊規(guī)則的大數(shù)據(jù)環(huán)境下文本信息挖掘方法。實驗結果表明,所提方法能夠有效提高文本信息挖掘的查準率,同時具有較強的可擴展性。
參考文獻
[1] 潘大勝,陳志福,覃煥昌.基于模糊關聯(lián)迭代分區(qū)的挖掘優(yōu)化方法研究[J].科學技術與工程,2016,16(24):235?238.
[2] 陳暉.旋轉機械振動故障相似性系數(shù)的優(yōu)化挖掘方法[J].科技通報,2016,32(4):126?129.
[3] 李尚昊,朝樂門.文本挖掘在中文信息分析中的應用研究述評[J].情報科學,2016, 34(8):153?159.
[4] 胡海斌.引入特征傾向性的高效網(wǎng)絡文本數(shù)據(jù)挖掘[J].計算機仿真,2015,32(5):436?440.
[5] 朱賀軍,馬丁.海量短文本實時挖掘方法的研究與仿真[J].計算機仿真,2015,32(12):442?446.
[6] 張世玉,王偉,于躍,等.基于文本挖掘技術的技術層面專利組合分析方法優(yōu)化[J].情報理論與實踐,2015,38(10):127?129.
[7] 任高舉,白亞男.多媒體智能教學中特定數(shù)據(jù)挖掘方法研究[J].電子設計工程,2016,24(11):4?7.
[8] 邱劍,王慧芳,應高亮,等.文本信息挖掘技術及其在斷路器全壽命狀態(tài)評價中的應用[J].電力自動化,2016,40(6):107?112.
[9] 韓文智.計算機文本信息挖掘技術在網(wǎng)絡安全中的應用[J].華僑大學學報(自然科學版),2016,37(1):67?70.
[10] 史玉珍,單冬紅.基于子主題選擇與三級分層結構的Web文本挖掘方法[J].電信科學,2016,32(5):96?104.
[11] 溫浩,溫有奎,王民.基于模式識別的文本知識點深度挖掘方法[J].計算機科學,2016,43(3):279?284.endprint