• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于數(shù)據(jù)挖掘的業(yè)務系統(tǒng)元數(shù)據(jù)文檔自動更新模型

      2022-09-02 06:25:24蕭展輝孫剛鄒文景
      電子設計工程 2022年16期
      關鍵詞:文檔數(shù)據(jù)挖掘檢索

      蕭展輝,孫剛,鄒文景

      (南方電網(wǎng)數(shù)字電網(wǎng)研究院有限公司,廣東廣州 510000)

      業(yè)務系統(tǒng)的應用發(fā)展會受到兩大因素的阻礙,一是與業(yè)務領域相關的分析模型比較復雜,用戶在應用時不知道如何采用智能手段對業(yè)務進行持續(xù)改進;二是業(yè)務系統(tǒng)中的元數(shù)據(jù)質量較低,無法保證用戶獲取到的元數(shù)據(jù)文檔是準確無誤的[1]。業(yè)務系統(tǒng)中的元數(shù)據(jù)文檔質量問題逐漸受到了社會各界的廣泛重視,基于此,要加大力度讓更多人認識到元數(shù)據(jù)文檔在管理與應用中的重要性。在業(yè)務系統(tǒng)中,元數(shù)據(jù)文檔自動更新處于整個系統(tǒng)結構的核心部分[2]。元數(shù)據(jù)文檔貫穿于業(yè)務系統(tǒng)中整個數(shù)據(jù)流動的全過程,只有對元數(shù)據(jù)文檔進行自動更新,才能為業(yè)務系統(tǒng)提供一個全局視圖,把握好業(yè)務系統(tǒng)元數(shù)據(jù)文檔的組成、轉換以及來龍去脈,從而對元數(shù)據(jù)文檔的質量進行有效管理[3]。目前,在業(yè)務系統(tǒng)中元數(shù)據(jù)文檔自動更新是對其進行集中且統(tǒng)一管理的新課題,可以從根本上解決業(yè)務系統(tǒng)元數(shù)據(jù)文檔在數(shù)據(jù)管理上的難題。

      針對動態(tài)摘要信息缺乏、冗余嚴重的問題,文獻[4]提出了一種自動更新動態(tài)摘要的方法,根據(jù)動態(tài)摘要的認證方案,對動態(tài)摘要信息的多樣性和主題代表性進行綜合評價,并利用所提出的主題簽名模型來評價動態(tài)摘要的新奇程度,動態(tài)摘要生成策略可以減少更新方案實現(xiàn)的復雜度,實驗結果表明,張禎等人提出的更新方法不需要進行語言匹配和模型訓練,大大降低了實現(xiàn)的復雜度,提高了提取動態(tài)摘要的效率;考慮到云計算數(shù)據(jù)在網(wǎng)絡應用中經(jīng)常遭到非法竊取,文獻[5]利用密文策略屬性提出了動態(tài)更新操作加密方案,通過線性分段的方式將云計算數(shù)據(jù)分成數(shù)據(jù)塊,利用密文策略屬性的加密技術對每一塊云計算數(shù)據(jù)進行加密,實現(xiàn)云數(shù)據(jù)的動態(tài)更新,結果顯示,提出的更新方案可以有效減少云數(shù)據(jù)更新的時間開銷。

      基于以上研究背景,提出基于數(shù)據(jù)挖掘的業(yè)務系統(tǒng)元數(shù)據(jù)文檔自動更新模型,將數(shù)據(jù)挖掘應用到業(yè)務系統(tǒng)元數(shù)據(jù)文檔的自動更新模型設計中,從而提高業(yè)務系統(tǒng)元數(shù)據(jù)文檔自動更新性能。

      1 業(yè)務系統(tǒng)元數(shù)據(jù)文檔自動更新模型設計

      1.1 優(yōu)化設計業(yè)務系統(tǒng)元數(shù)據(jù)文檔存儲結構

      在對業(yè)務系統(tǒng)元數(shù)據(jù)文檔的存儲結構進行優(yōu)化設計的過程中,存儲結構的基礎是采集與觸發(fā)業(yè)務系統(tǒng)元數(shù)據(jù),通過觸發(fā)業(yè)務系統(tǒng)建立緩沖區(qū),利用系統(tǒng)中的預處理模塊將元數(shù)據(jù)文檔發(fā)送到主控計算機[6],通過對元數(shù)據(jù)文檔進行聚類處理,分析緩沖區(qū)元數(shù)據(jù)文檔的頻譜,結合抗干擾操作,保證業(yè)務系統(tǒng)元數(shù)據(jù)文檔在存儲過程中的負載均衡性。業(yè)務系統(tǒng)元數(shù)據(jù)文檔存儲結構如圖1 所示。

      圖1 業(yè)務系統(tǒng)元數(shù)據(jù)文檔存儲結構

      對于業(yè)務系統(tǒng)元數(shù)據(jù)文檔而言,先采用非線性時間序列重組的方式[7],對業(yè)務系統(tǒng)中的元數(shù)據(jù)文檔進行重組,假設元數(shù)據(jù)文檔在業(yè)務系統(tǒng)中的任意兩個聚類簇為Ki和Kj,采用分布式自適應篩選的方式,壓縮業(yè)務系統(tǒng)元數(shù)據(jù)文檔的特征,過濾并刪除冗余數(shù)據(jù)文檔,建立元數(shù)據(jù)文檔特征壓縮器,表示為:

      式中,Ai表示業(yè)務系統(tǒng)元數(shù)據(jù)文檔的幅值,θi(t)表示相位。

      根據(jù)業(yè)務系統(tǒng)中元數(shù)據(jù)冗余數(shù)據(jù)具有的丟失文檔特征,采用特征壓縮器得到一個最優(yōu)函數(shù)[8],對元數(shù)據(jù)文檔特征進行匹配,得到壓縮處理后的元數(shù)據(jù)文檔分塊輸出結果,表示為:

      采用以上步驟對元數(shù)據(jù)文檔進行處理后,可以降低業(yè)務系統(tǒng)的存儲開銷,采用數(shù)據(jù)挖掘算法對元數(shù)據(jù)文檔進行聚類操作,優(yōu)化元數(shù)據(jù)文檔的存儲結構[9]。數(shù)據(jù)挖掘算法的輸出函數(shù)表示為:

      式中,Gh表示元數(shù)據(jù)文檔在計算過程中的開銷負載量,φ表示權重值,Hi表示沖擊響應函數(shù),m×n表示元數(shù)據(jù)文檔的幅值。

      元數(shù)據(jù)文檔的聚類屬性特征產(chǎn)生之后,需要對其進行聚類,為了減少元數(shù)據(jù)文檔在存儲過程中的冗余,令元數(shù)據(jù)文檔在存儲空間中的存儲介質性能衰減函數(shù)為:

      式中,k表示元數(shù)據(jù)文檔的特征融合中心,那么得到元數(shù)據(jù)文檔的融合集合為:

      式中,q1、q2,…,qm分別表示元數(shù)據(jù)文檔在融合時的嵌入維度系數(shù)。

      假設X=[X1,X2,…,Xk,…,XN]T表示業(yè)務系統(tǒng)中元數(shù)據(jù)文檔分布的訓練樣本集,采用數(shù)據(jù)挖掘算法對元數(shù)據(jù)文檔進行處理[10],得到業(yè)務系統(tǒng)對元數(shù)據(jù)文檔的存儲區(qū)域函數(shù),表示為:

      式中,Qfi表示元數(shù)據(jù)文檔在挖掘時的聚類中心,N表示元數(shù)據(jù)文檔的采集頻率,ui表示數(shù)據(jù)挖掘的模糊隸屬函數(shù)。

      利用以上步驟,完成業(yè)務系統(tǒng)元數(shù)據(jù)文檔存儲結構的優(yōu)化設計。

      1.2 檢索業(yè)務系統(tǒng)元數(shù)據(jù)文檔

      通過對業(yè)務系統(tǒng)元數(shù)據(jù)文檔存儲結構進行優(yōu)化設計,可以將原始的元數(shù)據(jù)文檔過濾,但是往往忽略了業(yè)務系統(tǒng)包含的元數(shù)據(jù)文檔[11]??梢酝ㄟ^采用數(shù)據(jù)挖掘算法確定業(yè)務系統(tǒng)元數(shù)據(jù)文檔的重要性,判斷元數(shù)據(jù)文檔在檢索時的優(yōu)先級順序,對元數(shù)據(jù)文檔進行檢索。

      假設B和Bi分別表示業(yè)務系統(tǒng)元數(shù)據(jù)文檔的頁面,在Bi中存在一個指向B的連接,這就說明Bi的擁有者認為B是重要的,將Bi的一部分重要性賦予給B,記做,其中,P(B)表示元數(shù)據(jù)文檔頁面B的PageRank 值,C(Bi)表示元數(shù)據(jù)文檔頁面Bi中的出鏈數(shù)量,P(B)的計算公式為:

      式中,S表示阻尼系數(shù),通過調節(jié)S的大小可以調節(jié)業(yè)務系統(tǒng)中其他元數(shù)據(jù)文檔頁面對B的重要性。

      在業(yè)務系統(tǒng)中,從錨文本和URL 地址兩個方面,分析元數(shù)據(jù)文檔的主題與鏈接的相關性,計算公式為:

      式中,M表示特征詞總數(shù)。

      對R1和R2進行加權平均運算[12],可以得到元數(shù)據(jù)文檔的主題相關度計算公式,即:

      根據(jù)式(10)的計算,可以得到PageRank 值,通過判斷元數(shù)據(jù)文檔在檢索過程中的優(yōu)先級順序,對元數(shù)據(jù)文檔進行檢索,完成業(yè)務系統(tǒng)元數(shù)據(jù)文檔的檢索。

      1.3 構建業(yè)務系統(tǒng)元數(shù)據(jù)文檔自動更新模型

      基于業(yè)務系統(tǒng)元數(shù)據(jù)文檔的檢索,可以通過以下過程對業(yè)務系統(tǒng)元數(shù)據(jù)文檔進行更新。業(yè)務系統(tǒng)元數(shù)據(jù)文檔在更新前,需要提取出元數(shù)據(jù)文檔,將更新前和更新后的相同數(shù)量元數(shù)據(jù)文檔進行疊置并比較,實現(xiàn)元數(shù)據(jù)文檔的增量式更新[13]。

      令元數(shù)據(jù)文檔在更新之前的集合為A′,表示為:

      式中,m表示更新之前的元數(shù)據(jù)文檔對象。更新之后的元數(shù)據(jù)文檔集合為B′,表示為:

      式中,v表示更新之后的元數(shù)據(jù)文檔對象。將A′與B′合并,得到集合C′,表示為:

      綜上,可以得到元數(shù)據(jù)文檔的增加集合,表示為:

      元數(shù)據(jù)文檔的刪除集合,表示為:

      根據(jù)以上過程得到的元數(shù)據(jù)增量文檔就是增加部分和刪除部分,需要將其分別儲存在增加表和刪除表中[14],便于后續(xù)的更新。

      業(yè)務系統(tǒng)中元數(shù)據(jù)文檔的增量融合是更新環(huán)節(jié)中最重要的一步,其將元數(shù)據(jù)的增量文檔寫到目標數(shù)據(jù)庫中,對元數(shù)據(jù)文檔進行更新[15]。由于元數(shù)據(jù)文檔在增量識別過程中已經(jīng)將其劃分為增加和刪除兩部分,因此對元數(shù)據(jù)文檔的增量融合就是其處理過程。對于增加元數(shù)據(jù)文檔中的增加表來說,文檔的處理過程比較簡單,只需要將元數(shù)據(jù)文檔增加表中的要素轉移到目標層[16]。

      在元數(shù)據(jù)文檔的識別與融合過程中,通過數(shù)據(jù)挖掘算法實現(xiàn)業(yè)務系統(tǒng)的同步更新,實現(xiàn)元數(shù)據(jù)文檔的自動更新。綜上所述,通過優(yōu)化設計業(yè)務系統(tǒng)元數(shù)據(jù)文檔存儲結構,檢索了業(yè)務系統(tǒng)元數(shù)據(jù)文檔,結合業(yè)務系統(tǒng)元數(shù)據(jù)文檔自動更新模型的構建,實現(xiàn)了業(yè)務系統(tǒng)元數(shù)據(jù)文檔的自動更新。

      2 實驗對比分析

      為了驗證基于數(shù)據(jù)挖掘的業(yè)務系統(tǒng)元數(shù)據(jù)文檔自動更新模型的性能,引入文獻[4]和文獻[5]的元數(shù)據(jù)文檔自動更新模型進行對比,從自動更新召回率、更新效率兩個方面進行測試,3 個模型的召回率測試結果如圖2 所示。

      從圖2 的結果可以看出,隨著元數(shù)據(jù)文檔數(shù)量的增加,3 個元數(shù)據(jù)文檔自動更新模型的召回率都在逐漸增加。該文模型的召回率增加較快,當元數(shù)據(jù)文檔數(shù)量達到500 個時,召回率達到了90.5%,當元數(shù)據(jù)文檔數(shù)量達到3 000 個時,召回率達到了91.5%,而其他兩個元數(shù)據(jù)文檔自動更新模型的召回率還不到82%,說明基于數(shù)據(jù)挖掘的業(yè)務系統(tǒng)元數(shù)據(jù)文檔自動更新模型在召回率方面具有明顯的優(yōu)勢。

      圖2 不同模型召回率測試結果

      3 個元數(shù)據(jù)文檔自動更新模型的更新效率測試結果如圖3 所示,采用更新耗時來衡量元數(shù)據(jù)文檔的自動更新效率。

      圖3 不同模型元數(shù)據(jù)文檔自動更新效率測試結果

      從圖3 的結果可以看出,基于數(shù)據(jù)挖掘的業(yè)務系統(tǒng)元數(shù)據(jù)文檔自動更新模型在對元數(shù)據(jù)文檔進行自動更新時,更新的時間是最短的,由于該更新模型在業(yè)務系統(tǒng)中可以對元數(shù)據(jù)文檔的存儲結構進行優(yōu)化設計,并利用數(shù)據(jù)挖掘算法減少業(yè)務系統(tǒng)中的元數(shù)據(jù)文檔傳輸量,減少了元數(shù)據(jù)文檔自動更新的用時,提高了業(yè)務系統(tǒng)元數(shù)據(jù)文檔的自動更新效率。

      3 結束語

      該文提出了基于數(shù)據(jù)挖掘的業(yè)務系統(tǒng)元數(shù)據(jù)文檔自動更新模型,采用數(shù)據(jù)挖掘算法對元數(shù)據(jù)文檔的存儲結構進行了優(yōu)化設計,通過檢索業(yè)務系統(tǒng)元數(shù)據(jù)文檔,構建了業(yè)務系統(tǒng)元數(shù)據(jù)文檔自動更新模型,實現(xiàn)了元數(shù)據(jù)文檔的自動更新。結果顯示,該更新模型在召回率和更新效率方面具有更好的性能。

      猜你喜歡
      文檔數(shù)據(jù)挖掘檢索
      有人一聲不吭向你扔了個文檔
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      2019年第4-6期便捷檢索目錄
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
      電力與能源(2017年6期)2017-05-14 06:19:37
      基于RI碼計算的Word復制文檔鑒別
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      不讓他人隨意下載Google文檔
      電腦迷(2012年4期)2012-04-29 06:12:13
      湟中县| 宕昌县| 秭归县| 读书| 宕昌县| 两当县| 四川省| 盘锦市| 济南市| 东阿县| 和静县| 双峰县| 新乡市| 临潭县| 伽师县| 汉沽区| 屯留县| 邵阳县| 永寿县| 长丰县| 横峰县| 南和县| 武乡县| 都江堰市| 台北市| 萨嘎县| 天镇县| 寿阳县| 天全县| 灌阳县| 武汉市| 宁安市| 隆尧县| 从江县| 三门峡市| 潜山县| 宾川县| 边坝县| 鹤壁市| 民勤县| 五莲县|