王艷喜
【摘要】? ? 在現(xiàn)階段的大數(shù)據(jù)庫相似記錄檢測中,存在著誤差相對較大的問題。基于此,本文對二次模糊評判進行了改進,并提出了一種優(yōu)化后的大數(shù)據(jù)庫相似記錄檢測方法。經(jīng)過與基于決定屬性值聚類算法的大數(shù)據(jù)庫相似記錄檢測方法的實驗對比,證實了該檢測方法的優(yōu)越性。
【關鍵詞】? ? 大數(shù)據(jù)庫? ? 相似記錄檢測方法? ? 二次模糊評判
引言:
現(xiàn)階段,大數(shù)據(jù)庫被廣泛應用于各個行業(yè)領域匯中,在決策型形成、總結與分析等方面發(fā)發(fā)揮著重要作用。但是,在大數(shù)據(jù)庫的實際使用中,常存在相似或重復記錄,造成數(shù)據(jù)冗余,導致了數(shù)據(jù)存儲空間的浪費?;谶@樣的情況,開發(fā)一種大數(shù)據(jù)庫相似記錄檢測方法極為重要。
一、大數(shù)據(jù)庫相似記錄檢測方法的原理分析
在進行大數(shù)據(jù)庫相似記錄檢測時,需要完成部分記錄對的采集,并提取記錄字段相似的特征函數(shù),形成訓練樣本集,最終構建起該大數(shù)據(jù)庫的相似記錄檢測模型。在該模型的支持下,能夠完成數(shù)據(jù)庫中記錄相似度的計算,并確定一個閾值。通過比較記錄相似度數(shù)值與閾值,實現(xiàn)了該大數(shù)據(jù)庫相似記錄的檢測[1]。
但是,在該方法中,難以消除大數(shù)據(jù)庫中的非常重要數(shù),導致相似記錄檢測的實際效率降低?;谶@樣的情況,筆者對二次模糊評判進行改進,提出了一種優(yōu)化后的大數(shù)據(jù)庫相似記錄檢測方法。
二、大數(shù)據(jù)庫相似記錄檢測方法的優(yōu)化探究
2.1數(shù)據(jù)屬性的二次模糊評判
在大數(shù)據(jù)庫中,不同的記錄均對應著一個重要程度存在差異的實體屬性。這就需要利用用戶對記錄中不同屬性展開模糊的綜合評價,對部分非重要屬性記性消除,確定重要屬性向量集,并搭建起屬性評價因素表。同時,結合用戶的自身經(jīng)驗,完成該屬性評價因素表的二次評價,形成用戶屬性因素評價表,完成大數(shù)據(jù)庫中不同記錄重要屬性權值的確定[2]。
此時,利用公式能夠完成屬性因素最終重要等級值的確定,其中,N為用戶數(shù)量、k為大數(shù)據(jù)庫中數(shù)據(jù)集的屬性數(shù)量、G為屬性等級集合。此時,主要從屬性類型、語義、寬度、排列位置完成數(shù)據(jù)庫中數(shù)據(jù)屬性的評價,利用公式能夠完成比重向量的計算,其中,p為所有屬性中重要屬性的占比、F`為依照Ti形成的重要屬性向量集。需要多個用戶完成保留重要屬性的二次評價,利用公式能夠完成用戶對重要屬性中某因素的評判結果計算,其中,(1~m)為各個屬性等級;1為評價重要性最低;m為評價重要性最高、pij為某用戶(j)對重要屬性的第i個評價因素的評價等級。
利用表達式能夠完成某屬性的用戶評價等級的計算,其中,f為屬性因素類型、p為用戶對屬性x的評價等級。使用公式能夠完數(shù)據(jù)屬性評價結果的均衡,其中,Pj為客觀屬性取值種類數(shù)的向量。
完成上述計算后,需要將該數(shù)據(jù)庫中的所有數(shù)據(jù)集內(nèi)部的各個屬性重要性等級展開統(tǒng)一的轉(zhuǎn)換,完成權值確定。
此時,使用公式能夠權值的計算。使用公式可以實現(xiàn)記錄屬性權值的重新賦值。使用公式能夠?qū)崿F(xiàn)對數(shù)據(jù)庫中所有數(shù)據(jù)記錄屬性的分組。其中,ξ為最終生成屬性取值種類數(shù)的向量、θ`為所有數(shù)據(jù)的主觀等級向量。
總體來說,在大數(shù)據(jù)庫相似記錄優(yōu)化檢測的過程中,需要先完成數(shù)據(jù)庫中所有數(shù)據(jù)屬性的一次評判,對數(shù)據(jù)庫中的非重要數(shù)據(jù)屬性展開消除,并落實其余數(shù)據(jù)的二次模糊評判,獲取數(shù)據(jù)屬性的評判結果。同時,以此為基礎,完成所有數(shù)據(jù)屬性的分組,為相似檢測提供支持。
2.2特征向量指導下的數(shù)據(jù)庫相似記錄檢測
對于大數(shù)據(jù)庫中的相似記錄來說,其差異主要是由字符串造成的。所以,在進行大數(shù)據(jù)庫相似記錄檢測的過程中,需要重點完成記錄字段的相似度計算。在這一過程中,可以將完成分組后的數(shù)據(jù)記錄屬性作為基礎,結合隨意兩個記錄之間的共有字符順序、數(shù)量,完成兩個記錄之間的字符相似度計算,實現(xiàn)對相似度特征向量的提取。
在這一過程中,可以使用公式完成記錄之間字符相似度的計算;完成權值V(w,s`)的確定后,可以使用完成字符間匹配窗口的計算,其中,當字符相似度小于等于該數(shù)值,則能夠說明兩記錄字符相似。利用公式以及,能夠?qū)崿F(xiàn)全部記錄字段相似度特征向量的確定。以此為基礎,能夠構建起大數(shù)據(jù)庫中相似記錄的檢測模型,并完成相似記錄分析。
2.3仿真結果分析
為了保證本研究的科學性以及該模型的合理性,筆者進一步展開了仿真分析。在這一過程中,主要使用了基于決定屬性值聚類算法的大數(shù)據(jù)庫相似記錄檢測方法與該方法進行實驗對比。主要依照結果的查全率、查準率、運行時間完成判定。實驗結果顯示,本文提出的相似記錄檢測方法查全率、查準率明顯高于對比方法,運行時間約為對比方法的二分之一。由此能夠證實,該方法整體有效,具備較高的使用價值與科學性。
三、總結
綜上所述,本文對二次模糊評判進行改進,提出了一種優(yōu)化后的大數(shù)據(jù)庫相似記錄檢測方法。經(jīng)過仿真對比實驗顯示,優(yōu)化后的檢測方法在查全率、查準率方面明顯優(yōu)于傳統(tǒng)方法,且運行時間更短,具備實用性與科學性。
參? 考? 文? 獻
[1]李莉,張曉雯.基于劃分的海量數(shù)據(jù)相似重復記錄檢測[J].計算機系統(tǒng)應用, 2019, 28(03):172-178.
[2]涂靜文.大數(shù)據(jù)庫的相似記錄檢測方法研究[J].計算機仿真, 2017,34(03):410-413.