試論大數(shù)據(jù)庫的相似記錄檢測方法

2019-03-30 04:01:30王艷喜

中國新通信 2019年21期

王艷喜

【摘要】? ? 在現(xiàn)階段的大數(shù)據(jù)庫相似記錄檢測中，存在著誤差相對較大的問題。基于此，本文對二次模糊評判進行了改進，并提出了一種優(yōu)化后的大數(shù)據(jù)庫相似記錄檢測方法。經(jīng)過與基于決定屬性值聚類算法的大數(shù)據(jù)庫相似記錄檢測方法的實驗對比，證實了該檢測方法的優(yōu)越性。

【關鍵詞】? ? 大數(shù)據(jù)庫? ? 相似記錄檢測方法? ? 二次模糊評判

引言：

現(xiàn)階段，大數(shù)據(jù)庫被廣泛應用于各個行業(yè)領域匯中，在決策型形成、總結與分析等方面發(fā)發(fā)揮著重要作用。但是，在大數(shù)據(jù)庫的實際使用中，常存在相似或重復記錄，造成數(shù)據(jù)冗余，導致了數(shù)據(jù)存儲空間的浪費?；谶@樣的情況，開發(fā)一種大數(shù)據(jù)庫相似記錄檢測方法極為重要。

一、大數(shù)據(jù)庫相似記錄檢測方法的原理分析

在進行大數(shù)據(jù)庫相似記錄檢測時，需要完成部分記錄對的采集，并提取記錄字段相似的特征函數(shù)，形成訓練樣本集，最終構建起該大數(shù)據(jù)庫的相似記錄檢測模型。在該模型的支持下，能夠完成數(shù)據(jù)庫中記錄相似度的計算，并確定一個閾值。通過比較記錄相似度數(shù)值與閾值，實現(xiàn)了該大數(shù)據(jù)庫相似記錄的檢測[1]。

但是，在該方法中，難以消除大數(shù)據(jù)庫中的非常重要數(shù)，導致相似記錄檢測的實際效率降低?；谶@樣的情況，筆者對二次模糊評判進行改進，提出了一種優(yōu)化后的大數(shù)據(jù)庫相似記錄檢測方法。

二、大數(shù)據(jù)庫相似記錄檢測方法的優(yōu)化探究

2.1數(shù)據(jù)屬性的二次模糊評判

在大數(shù)據(jù)庫中，不同的記錄均對應著一個重要程度存在差異的實體屬性。這就需要利用用戶對記錄中不同屬性展開模糊的綜合評價，對部分非重要屬性記性消除，確定重要屬性向量集，并搭建起屬性評價因素表。同時，結合用戶的自身經(jīng)驗，完成該屬性評價因素表的二次評價，形成用戶屬性因素評價表，完成大數(shù)據(jù)庫中不同記錄重要屬性權值的確定[2]。

此時，利用公式能夠完成屬性因素最終重要等級值的確定，其中，N為用戶數(shù)量、k為大數(shù)據(jù)庫中數(shù)據(jù)集的屬性數(shù)量、G為屬性等級集合。此時，主要從屬性類型、語義、寬度、排列位置完成數(shù)據(jù)庫中數(shù)據(jù)屬性的評價，利用公式能夠完成比重向量的計算，其中，p為所有屬性中重要屬性的占比、F`為依照Ti形成的重要屬性向量集。需要多個用戶完成保留重要屬性的二次評價，利用公式能夠完成用戶對重要屬性中某因素的評判結果計算，其中，（1～m）為各個屬性等級;1為評價重要性最低;m為評價重要性最高、pij為某用戶（j）對重要屬性的第i個評價因素的評價等級。

利用表達式能夠完成某屬性的用戶評價等級的計算，其中，f為屬性因素類型、p為用戶對屬性x的評價等級。使用公式能夠完數(shù)據(jù)屬性評價結果的均衡，其中，Pj為客觀屬性取值種類數(shù)的向量。

完成上述計算后，需要將該數(shù)據(jù)庫中的所有數(shù)據(jù)集內(nèi)部的各個屬性重要性等級展開統(tǒng)一的轉(zhuǎn)換，完成權值確定。

此時，使用公式能夠權值的計算。使用公式可以實現(xiàn)記錄屬性權值的重新賦值。使用公式能夠?qū)崿F(xiàn)對數(shù)據(jù)庫中所有數(shù)據(jù)記錄屬性的分組。其中，ξ為最終生成屬性取值種類數(shù)的向量、θ`為所有數(shù)據(jù)的主觀等級向量。

總體來說，在大數(shù)據(jù)庫相似記錄優(yōu)化檢測的過程中，需要先完成數(shù)據(jù)庫中所有數(shù)據(jù)屬性的一次評判，對數(shù)據(jù)庫中的非重要數(shù)據(jù)屬性展開消除，并落實其余數(shù)據(jù)的二次模糊評判，獲取數(shù)據(jù)屬性的評判結果。同時，以此為基礎，完成所有數(shù)據(jù)屬性的分組，為相似檢測提供支持。

2.2特征向量指導下的數(shù)據(jù)庫相似記錄檢測

對于大數(shù)據(jù)庫中的相似記錄來說，其差異主要是由字符串造成的。所以，在進行大數(shù)據(jù)庫相似記錄檢測的過程中，需要重點完成記錄字段的相似度計算。在這一過程中，可以將完成分組后的數(shù)據(jù)記錄屬性作為基礎，結合隨意兩個記錄之間的共有字符順序、數(shù)量，完成兩個記錄之間的字符相似度計算，實現(xiàn)對相似度特征向量的提取。

在這一過程中，可以使用公式完成記錄之間字符相似度的計算;完成權值V（w，s`）的確定后，可以使用完成字符間匹配窗口的計算，其中，當字符相似度小于等于該數(shù)值，則能夠說明兩記錄字符相似。利用公式以及，能夠?qū)崿F(xiàn)全部記錄字段相似度特征向量的確定。以此為基礎，能夠構建起大數(shù)據(jù)庫中相似記錄的檢測模型，并完成相似記錄分析。

2.3仿真結果分析

為了保證本研究的科學性以及該模型的合理性，筆者進一步展開了仿真分析。在這一過程中，主要使用了基于決定屬性值聚類算法的大數(shù)據(jù)庫相似記錄檢測方法與該方法進行實驗對比。主要依照結果的查全率、查準率、運行時間完成判定。實驗結果顯示，本文提出的相似記錄檢測方法查全率、查準率明顯高于對比方法，運行時間約為對比方法的二分之一。由此能夠證實，該方法整體有效，具備較高的使用價值與科學性。

三、總結

綜上所述，本文對二次模糊評判進行改進，提出了一種優(yōu)化后的大數(shù)據(jù)庫相似記錄檢測方法。經(jīng)過仿真對比實驗顯示，優(yōu)化后的檢測方法在查全率、查準率方面明顯優(yōu)于傳統(tǒng)方法，且運行時間更短，具備實用性與科學性。

參? 考? 文? 獻

[1]李莉，張曉雯.基于劃分的海量數(shù)據(jù)相似重復記錄檢測[J].計算機系統(tǒng)應用， 2019， 28（03）：172-178.

[2]涂靜文.大數(shù)據(jù)庫的相似記錄檢測方法研究[J].計算機仿真， 2017，34（03）：410-413.

中國新通信2019年21期

中國新通信的其它文章: 建筑弱電工程施工中常見問題分析; 水聲聲管測試中背襯對吸聲結構性能的影響; 關于電能計量的采集與運維工作的若干思考; 高速公路收費站入口治超方案探討; 新生兒疾病編碼常見問題與處理; 如何加強用電檢查反竊電工作的建議

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

試論大數(shù)據(jù)庫的相似記錄檢測方法