• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      試論大數(shù)據(jù)庫的相似記錄檢測方法

      2019-03-30 04:01:30王艷喜
      中國新通信 2019年21期

      王艷喜

      【摘要】? ? 在現(xiàn)階段的大數(shù)據(jù)庫相似記錄檢測中,存在著誤差相對較大的問題。基于此,本文對二次模糊評判進行了改進,并提出了一種優(yōu)化后的大數(shù)據(jù)庫相似記錄檢測方法。經(jīng)過與基于決定屬性值聚類算法的大數(shù)據(jù)庫相似記錄檢測方法的實驗對比,證實了該檢測方法的優(yōu)越性。

      【關鍵詞】? ? 大數(shù)據(jù)庫? ? 相似記錄檢測方法? ? 二次模糊評判

      引言:

      現(xiàn)階段,大數(shù)據(jù)庫被廣泛應用于各個行業(yè)領域匯中,在決策型形成、總結與分析等方面發(fā)發(fā)揮著重要作用。但是,在大數(shù)據(jù)庫的實際使用中,常存在相似或重復記錄,造成數(shù)據(jù)冗余,導致了數(shù)據(jù)存儲空間的浪費?;谶@樣的情況,開發(fā)一種大數(shù)據(jù)庫相似記錄檢測方法極為重要。

      一、大數(shù)據(jù)庫相似記錄檢測方法的原理分析

      在進行大數(shù)據(jù)庫相似記錄檢測時,需要完成部分記錄對的采集,并提取記錄字段相似的特征函數(shù),形成訓練樣本集,最終構建起該大數(shù)據(jù)庫的相似記錄檢測模型。在該模型的支持下,能夠完成數(shù)據(jù)庫中記錄相似度的計算,并確定一個閾值。通過比較記錄相似度數(shù)值與閾值,實現(xiàn)了該大數(shù)據(jù)庫相似記錄的檢測[1]。

      但是,在該方法中,難以消除大數(shù)據(jù)庫中的非常重要數(shù),導致相似記錄檢測的實際效率降低?;谶@樣的情況,筆者對二次模糊評判進行改進,提出了一種優(yōu)化后的大數(shù)據(jù)庫相似記錄檢測方法。

      二、大數(shù)據(jù)庫相似記錄檢測方法的優(yōu)化探究

      2.1數(shù)據(jù)屬性的二次模糊評判

      在大數(shù)據(jù)庫中,不同的記錄均對應著一個重要程度存在差異的實體屬性。這就需要利用用戶對記錄中不同屬性展開模糊的綜合評價,對部分非重要屬性記性消除,確定重要屬性向量集,并搭建起屬性評價因素表。同時,結合用戶的自身經(jīng)驗,完成該屬性評價因素表的二次評價,形成用戶屬性因素評價表,完成大數(shù)據(jù)庫中不同記錄重要屬性權值的確定[2]。

      此時,利用公式能夠完成屬性因素最終重要等級值的確定,其中,N為用戶數(shù)量、k為大數(shù)據(jù)庫中數(shù)據(jù)集的屬性數(shù)量、G為屬性等級集合。此時,主要從屬性類型、語義、寬度、排列位置完成數(shù)據(jù)庫中數(shù)據(jù)屬性的評價,利用公式能夠完成比重向量的計算,其中,p為所有屬性中重要屬性的占比、F`為依照Ti形成的重要屬性向量集。需要多個用戶完成保留重要屬性的二次評價,利用公式能夠完成用戶對重要屬性中某因素的評判結果計算,其中,(1~m)為各個屬性等級;1為評價重要性最低;m為評價重要性最高、pij為某用戶(j)對重要屬性的第i個評價因素的評價等級。

      利用表達式能夠完成某屬性的用戶評價等級的計算,其中,f為屬性因素類型、p為用戶對屬性x的評價等級。使用公式能夠完數(shù)據(jù)屬性評價結果的均衡,其中,Pj為客觀屬性取值種類數(shù)的向量。

      完成上述計算后,需要將該數(shù)據(jù)庫中的所有數(shù)據(jù)集內(nèi)部的各個屬性重要性等級展開統(tǒng)一的轉(zhuǎn)換,完成權值確定。

      此時,使用公式能夠權值的計算。使用公式可以實現(xiàn)記錄屬性權值的重新賦值。使用公式能夠?qū)崿F(xiàn)對數(shù)據(jù)庫中所有數(shù)據(jù)記錄屬性的分組。其中,ξ為最終生成屬性取值種類數(shù)的向量、θ`為所有數(shù)據(jù)的主觀等級向量。

      總體來說,在大數(shù)據(jù)庫相似記錄優(yōu)化檢測的過程中,需要先完成數(shù)據(jù)庫中所有數(shù)據(jù)屬性的一次評判,對數(shù)據(jù)庫中的非重要數(shù)據(jù)屬性展開消除,并落實其余數(shù)據(jù)的二次模糊評判,獲取數(shù)據(jù)屬性的評判結果。同時,以此為基礎,完成所有數(shù)據(jù)屬性的分組,為相似檢測提供支持。

      2.2特征向量指導下的數(shù)據(jù)庫相似記錄檢測

      對于大數(shù)據(jù)庫中的相似記錄來說,其差異主要是由字符串造成的。所以,在進行大數(shù)據(jù)庫相似記錄檢測的過程中,需要重點完成記錄字段的相似度計算。在這一過程中,可以將完成分組后的數(shù)據(jù)記錄屬性作為基礎,結合隨意兩個記錄之間的共有字符順序、數(shù)量,完成兩個記錄之間的字符相似度計算,實現(xiàn)對相似度特征向量的提取。

      在這一過程中,可以使用公式完成記錄之間字符相似度的計算;完成權值V(w,s`)的確定后,可以使用完成字符間匹配窗口的計算,其中,當字符相似度小于等于該數(shù)值,則能夠說明兩記錄字符相似。利用公式以及,能夠?qū)崿F(xiàn)全部記錄字段相似度特征向量的確定。以此為基礎,能夠構建起大數(shù)據(jù)庫中相似記錄的檢測模型,并完成相似記錄分析。

      2.3仿真結果分析

      為了保證本研究的科學性以及該模型的合理性,筆者進一步展開了仿真分析。在這一過程中,主要使用了基于決定屬性值聚類算法的大數(shù)據(jù)庫相似記錄檢測方法與該方法進行實驗對比。主要依照結果的查全率、查準率、運行時間完成判定。實驗結果顯示,本文提出的相似記錄檢測方法查全率、查準率明顯高于對比方法,運行時間約為對比方法的二分之一。由此能夠證實,該方法整體有效,具備較高的使用價值與科學性。

      三、總結

      綜上所述,本文對二次模糊評判進行改進,提出了一種優(yōu)化后的大數(shù)據(jù)庫相似記錄檢測方法。經(jīng)過仿真對比實驗顯示,優(yōu)化后的檢測方法在查全率、查準率方面明顯優(yōu)于傳統(tǒng)方法,且運行時間更短,具備實用性與科學性。

      參? 考? 文? 獻

      [1]李莉,張曉雯.基于劃分的海量數(shù)據(jù)相似重復記錄檢測[J].計算機系統(tǒng)應用, 2019, 28(03):172-178.

      [2]涂靜文.大數(shù)據(jù)庫的相似記錄檢測方法研究[J].計算機仿真, 2017,34(03):410-413.

      平遥县| 哈巴河县| 玉溪市| 丽江市| 安吉县| 敦化市| 左云县| 石渠县| 西平县| 凤冈县| 铁力市| 临潭县| 金沙县| 孝感市| 江安县| 军事| 沈阳市| 九江县| 常德市| 鹤庆县| 三江| 台南县| 江华| 高邑县| 房山区| 北川| 嘉禾县| 临清市| 罗山县| 竹溪县| 诸城市| 姜堰市| 平湖市| 蒙阴县| 太仓市| 昌平区| 砚山县| 宁武县| 甘德县| 璧山县| 高青县|