胡小琴
(泉州信息工程學(xué)院 軟件學(xué)院,福建 泉州 362000)
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,人們迎來(lái)了大數(shù)據(jù)時(shí)代,大數(shù)據(jù)時(shí)代的來(lái)臨使得數(shù)據(jù)資料的規(guī)模得到巨大的統(tǒng)計(jì)與整理,借助大數(shù)據(jù)相關(guān)技術(shù)可以實(shí)現(xiàn)海量數(shù)據(jù)的提取、管理與處理等操作.大數(shù)據(jù)具有存儲(chǔ)數(shù)據(jù)量大、數(shù)據(jù)種類多、實(shí)用性強(qiáng)以及蘊(yùn)藏價(jià)值大等特征,由于大數(shù)據(jù)獨(dú)特且多元的特征特點(diǎn),使得大數(shù)據(jù)在運(yùn)行操作過程中可能出現(xiàn)沖突問題[1].當(dāng)大數(shù)據(jù)庫(kù)中的數(shù)據(jù)存在一定的差異時(shí),就會(huì)產(chǎn)生沖突.大數(shù)據(jù)中的特征集成的沖突指的是不同主體對(duì)同一個(gè)數(shù)據(jù)客觀對(duì)象在空間及屬性上的看法的不一致性,這種不一致性使得數(shù)據(jù)信息產(chǎn)生差異.一般情況下,大數(shù)據(jù)特征沖突具有必然性、可視性、局限性以及積極性等沖突特點(diǎn),依據(jù)沖突數(shù)據(jù)的空間特征集成以及沖突產(chǎn)生的原因,可以將沖突劃分成為幾何沖突和屬性沖突兩大類,在進(jìn)行具體的研究與檢測(cè)過程中需要從這兩個(gè)方面進(jìn)行具體的研究.由于大數(shù)據(jù)庫(kù)中的數(shù)據(jù)量較大,一旦出現(xiàn)數(shù)據(jù)特征沖突,就可能引發(fā)數(shù)據(jù)運(yùn)行延時(shí)、擁塞等問題,嚴(yán)重時(shí)可能會(huì)引發(fā)數(shù)據(jù)運(yùn)行癱瘓.因此需要定期對(duì)大數(shù)據(jù)進(jìn)行檢測(cè),以此來(lái)保證大數(shù)據(jù)特征集成運(yùn)行安全[2].與此同時(shí)大數(shù)據(jù)特征集成沖突檢測(cè)的結(jié)果也可以作為理論依據(jù),從而提出具有針對(duì)性的沖突處理方案,實(shí)現(xiàn)數(shù)據(jù)沖突的消除.
現(xiàn)階段已經(jīng)存在的沖突檢測(cè)方法包括:基于空間矢量的數(shù)據(jù)沖突檢測(cè)方法、基于編碼規(guī)則的數(shù)據(jù)沖突檢測(cè)方法以及基于函數(shù)依賴的數(shù)據(jù)沖突檢測(cè)方法等.其中空間矢量方法下的數(shù)據(jù)沖突檢測(cè)主要針對(duì)數(shù)據(jù)沖突中的幾何沖突進(jìn)行檢測(cè),而基于編碼規(guī)則和函數(shù)依賴的數(shù)據(jù)沖突檢測(cè)方法僅僅對(duì)于屬性沖突具有良好的檢測(cè)效果.經(jīng)過長(zhǎng)時(shí)間的研究發(fā)現(xiàn),傳統(tǒng)檢測(cè)方法在應(yīng)用過程中具有較大的局限性,且存在檢測(cè)周期長(zhǎng)、檢測(cè)精度低的問題.為了解決傳統(tǒng)方法中存在的問題,引入Hough變換的概念,Hough變換也被稱為霍夫變換.霍夫變換是一種特征檢測(cè),通常被應(yīng)用在圖像分析或者電腦視覺當(dāng)中,該變換方法可以精準(zhǔn)的檢測(cè)出待檢測(cè)物體的特征[3].將這種變換方式應(yīng)用到檢測(cè)方法當(dāng)中,構(gòu)建檢測(cè)模型進(jìn)行優(yōu)化設(shè)計(jì),能夠在一定程度上降低檢測(cè)周期,同時(shí)提高檢測(cè)精度.
圖1 大數(shù)據(jù)特征集成沖突檢測(cè)模型構(gòu)建流程圖
使用大數(shù)據(jù)特征數(shù)據(jù)挖掘算法,獲取待檢測(cè)的部分?jǐn)?shù)據(jù)庫(kù)中的特征數(shù)據(jù).在特定的檢測(cè)搜索區(qū)域內(nèi),選定一個(gè)數(shù)據(jù)節(jié)點(diǎn)作為特征數(shù)據(jù)采集的起點(diǎn),在數(shù)據(jù)挖掘采集的過程中以采集起點(diǎn)為中心,逐漸向其鄰域擴(kuò)展進(jìn)行查詢檢測(cè),運(yùn)用所確定的信息優(yōu)化鄰近對(duì)象的查詢操作,獲取初步的沖突特征數(shù)據(jù)[4].假設(shè)數(shù)據(jù)采集起點(diǎn)為a,每一次數(shù)據(jù)采集的距離為r.定義一個(gè)隨機(jī)的自然數(shù)為k,且定義p的k-距離為(k-distance(p)).計(jì)算對(duì)象p的k-距離鄰域用(Nk-distance)來(lái)表示,假設(shè)式中k的值為5,則公式1中的關(guān)系式成立.
Nk-distance(a)={b,c,d,e,f}.
(1)
公式1中a為沖突特征數(shù)據(jù)采集的起點(diǎn),而b-f表示的是采集鄰域范圍內(nèi)的沖突特征采集目標(biāo)數(shù)據(jù).在初始采集區(qū)域內(nèi)未被采集的數(shù)據(jù)對(duì)象用集合o表示,接著對(duì)公式2中表示的范圍進(jìn)行進(jìn)一步數(shù)據(jù)采集.
dist(a,s)≤2·d(a,o)+k-distanace(a).
(2)
將未被采集的數(shù)據(jù)重新與鄰域采集區(qū)域結(jié)合在一起,對(duì)此進(jìn)行重復(fù)查詢采集流程,當(dāng)查詢范圍內(nèi)沖突特征數(shù)據(jù)超過采集闕值時(shí),重復(fù)一次操作,最終獲取數(shù)據(jù)沖突中的初步?jīng)_突特征數(shù)據(jù)集.
采用去一劃分的方法計(jì)算采集的沖突特征數(shù)據(jù)的離群性權(quán)值量化,使用信息熵作為數(shù)據(jù)權(quán)值量化的介質(zhì).假設(shè)獲取初步?jīng)_突特征數(shù)據(jù)集為X={x1,x2,…,xn},以集合中的任意一個(gè)變量xn為例,假設(shè)其取值集合為S(x)[5].那么可以通過公式3計(jì)算特征沖突數(shù)據(jù)的信息熵.
(3)
式中函數(shù)p(x)代表任意變量xn的幾率函數(shù).計(jì)算連續(xù)數(shù)據(jù)變量的信息熵,利用相鄰變量計(jì)算出的信息熵得出信息熵增量的結(jié)果[6].以信息熵增量為依據(jù)將取值集合為S(x)劃分為兩個(gè)區(qū)域,并以公式4的方式進(jìn)行記錄.
(4)
對(duì)兩個(gè)劃分區(qū)域的信息熵進(jìn)行計(jì)算,并相減得出信息熵的增量Δx.將大數(shù)據(jù)沖突數(shù)據(jù)的屬性看做一個(gè)集合,用Δx對(duì)集合中對(duì)象的屬性權(quán)值做詳細(xì)的量化.權(quán)值量化公式如公式5所示.
1.1 背景資料 試題的題干: 水稻是我國(guó)最重要的糧食作物。稻瘟病是由稻瘟病菌(Mp)侵染水稻引起的病害,嚴(yán)重危害糧食生產(chǎn)安全。與使用農(nóng)藥相比,抗稻瘟病基因的利用是控制稻瘟病更加有效、安全和經(jīng)濟(jì)的措施。
(5)
式中f(p)與f(q)表示的是第i維屬性的值,p與q是集合S中的任意一個(gè)數(shù)據(jù),d(p,q)表示屬性的加權(quán)距離.通過公式得到歸一化處置完成的權(quán)值量化結(jié)果.
按照量化的大數(shù)據(jù)特征沖突權(quán)值,對(duì)采集的初始沖突特征采集數(shù)據(jù)進(jìn)行特征集成,特征集成過程如圖2所示.
按照?qǐng)D中的特征集成流程,通過限定數(shù)據(jù)特征序列、特征表達(dá)以及Hough變換處理三個(gè)步驟實(shí)現(xiàn)數(shù)據(jù)特征集成,且經(jīng)過Hough變換處理后,可以確保集成的數(shù)據(jù)具有較高的特征精度[7].
1.3.1 選定大數(shù)據(jù)特征序列
參考量化后的特征沖突權(quán)值,選定大數(shù)據(jù)的特征序列,選定的過程如圖3所示.
圖2 大數(shù)據(jù)特征集成流程圖圖3 選定特征序列示意圖
由于大數(shù)據(jù)中數(shù)據(jù)的復(fù)雜度較高會(huì)影響特征表達(dá)結(jié)果,選定大數(shù)據(jù)特征序列的過程中,首先按照量化的權(quán)值進(jìn)行特征跟蹤,根據(jù)特征的跟蹤結(jié)果對(duì)其他普通數(shù)據(jù)進(jìn)行特征忽略,突變特征進(jìn)行集中時(shí)間性排列[8].分別進(jìn)行兩次特征特征跟蹤與排列,最終將多個(gè)特征選定結(jié)果重疊在一起,最終在不發(fā)生插入序列的情況下,以定式序列為大數(shù)據(jù)的特征序列.
1.3.2 大數(shù)據(jù)特征表達(dá)
在選定特征序列的階段下完成大數(shù)據(jù)多特征的表達(dá),通過提取方式獲得大數(shù)據(jù)沖突特征的基本表達(dá)元素.數(shù)據(jù)特征表達(dá)分為兩個(gè)步驟,首先進(jìn)行大數(shù)據(jù)的全局特征表達(dá),接著進(jìn)行大數(shù)據(jù)的局部特征表達(dá)[9].在全局特征表達(dá)的過程中,對(duì)整個(gè)待測(cè)數(shù)據(jù)進(jìn)行特征計(jì)算與提取,而針對(duì)局部特征表達(dá)的過程僅需要反饋全局特征中的部分特征,進(jìn)而進(jìn)行統(tǒng)一表達(dá).
1.3.3 特征數(shù)據(jù)Hough變換處理
圖4 直線檢測(cè)中的Hough變換示意圖
將大數(shù)據(jù)特征表達(dá)結(jié)果集中在一起實(shí)現(xiàn)數(shù)據(jù)特征集成,然而在輸出數(shù)據(jù)特征集成結(jié)果之前,需要對(duì)特征數(shù)據(jù)進(jìn)行Hough變換處理,以此來(lái)提高數(shù)據(jù)特征集成沖突的檢測(cè)精度.基本檢測(cè)中的Hough變換處理情況如圖4所示.
在標(biāo)準(zhǔn)參數(shù)化方式下,大數(shù)據(jù)空間中的直線特征l的表達(dá)式為:
ρ=xcosθ-ysinθ,ρ≥0,0≤θ<π.
(6)
式中ρ表示的是直線特征l相對(duì)于數(shù)據(jù)采集起點(diǎn)的距離,θ表示的是直線特征l與橫向正方向上的交角[10].在大數(shù)據(jù)參數(shù)空間中,針對(duì)直線特征的檢測(cè)中,使用標(biāo)準(zhǔn)Hough變換可以表示為:
(7)
按照公式7中的表達(dá)式,若能確定參數(shù)空間中的起始點(diǎn),將起始點(diǎn)的坐標(biāo)代入到公式7當(dāng)中,便可以實(shí)現(xiàn)直線特征的檢測(cè).
大數(shù)據(jù)特征集成沖突檢測(cè)的關(guān)鍵在于大數(shù)據(jù)沖突判斷規(guī)則的確定,由現(xiàn)實(shí)大數(shù)據(jù)特征集成描述關(guān)系確定大數(shù)據(jù)與特征之間的關(guān)系集合,形成大數(shù)據(jù)特征對(duì)象間的判斷規(guī)則,用公式8來(lái)表示.
RAB={TR,SR,AR}.
(8)
圖5 沖突判斷示意圖
式中的集合元素分別表示的是大數(shù)據(jù)與特征集成之間的結(jié)構(gòu)約束集、關(guān)系約束集以及語(yǔ)義關(guān)系約束集.從公式8中的表達(dá)式來(lái)看,結(jié)構(gòu)約束集的規(guī)則是相對(duì)明確的,根據(jù)實(shí)際情況來(lái)確定對(duì)象間的合理與不合理的關(guān)系,從而確定沖突是否存在[11].根據(jù)數(shù)據(jù)與特征集成之間的關(guān)系產(chǎn)生的沖突判斷流程,如圖5所示.
根據(jù)大數(shù)據(jù)特征集成的沖突判斷待檢測(cè)大數(shù)據(jù)庫(kù)中存在沖突,則可以進(jìn)行進(jìn)一步的沖突分類處理.
大數(shù)據(jù)特征集成沖突大致可以分為,幾何空間特征沖突和屬性特征沖突兩種,其中幾何空間特征沖突主要指的是空間實(shí)體重要的特征沖突,進(jìn)行空間數(shù)據(jù)間的幾何沖突檢測(cè),需要對(duì)目標(biāo)對(duì)象的幾何特征做出定量和定性分析,并通過合理的方式進(jìn)行具體描述.在對(duì)空間要素點(diǎn)、線、面分析的基礎(chǔ)上,確定了對(duì)象間的空間關(guān)系的組合,如表1所示.
表1 幾何空間特征沖突關(guān)系
在對(duì)矢量數(shù)據(jù)自身拓?fù)溥壿嬚_性判定的基礎(chǔ)上對(duì)空間沖突關(guān)系、語(yǔ)義關(guān)系的進(jìn)一步判定可以確定數(shù)據(jù)沖突的存在性[12].屬性特征用于對(duì)現(xiàn)實(shí)事物或現(xiàn)象的描述決定了不同數(shù)據(jù)源對(duì)相同實(shí)體對(duì)象某種屬性的描述可能相同、相近或有差異.按照兩種沖突的定義實(shí)現(xiàn)大數(shù)據(jù)特征集成的沖突分類.
在大數(shù)據(jù)特征集成沖突分類處理完成后,從幾何沖突和屬性沖突兩個(gè)方面進(jìn)行沖突檢測(cè).在沖突檢測(cè)中,兩種沖突檢測(cè)相結(jié)合按照一定的順序進(jìn)行不同數(shù)據(jù)特征機(jī)場(chǎng)的沖突檢測(cè),具體的檢測(cè)過程如圖6所示.
圖6 大數(shù)據(jù)特征檢測(cè)模型
按照?qǐng)D中的檢測(cè)模型的流程,根據(jù)輸入的數(shù)據(jù)判斷數(shù)據(jù)類型,以不同的特征集成檢測(cè)方法.接著將其進(jìn)行相似度的計(jì)算與比較,確認(rèn)沖突類型輸出檢測(cè)結(jié)果.
為了驗(yàn)證設(shè)計(jì)的大數(shù)據(jù)特征集成沖突檢測(cè)模型的有效性,設(shè)計(jì)對(duì)比實(shí)驗(yàn).在實(shí)驗(yàn)中針對(duì)大數(shù)據(jù)特征集成沖突檢測(cè)的召回率和檢測(cè)準(zhǔn)確率作為實(shí)驗(yàn)的對(duì)比參數(shù),以此來(lái)判斷檢測(cè)模型的性能.
此次對(duì)比實(shí)驗(yàn)的實(shí)驗(yàn)環(huán)境選擇操作系統(tǒng)為Windows 7,Intel core i7 6700CPU,ROM內(nèi)存為8GB,且4核心8線程、3.4GHZ主頻的PC機(jī)作為對(duì)比實(shí)驗(yàn)的主要實(shí)驗(yàn)環(huán)境.選擇的實(shí)驗(yàn)對(duì)象來(lái)自于中國(guó)電子信息數(shù)據(jù)庫(kù)中編號(hào)A00-B12區(qū)間內(nèi)的數(shù)據(jù),總數(shù)據(jù)量為2 GB.
為了避免大數(shù)據(jù)特征集成沖突的偶然性影響實(shí)驗(yàn)結(jié)果,在對(duì)比實(shí)驗(yàn)中設(shè)置四次沖突檢測(cè),每一次的檢測(cè)方法相同.對(duì)四次沖突檢測(cè)的結(jié)果取平均值,作為實(shí)驗(yàn)的最終結(jié)果.為凸顯設(shè)計(jì)檢測(cè)模型的性能,在對(duì)比實(shí)驗(yàn)中設(shè)置傳統(tǒng)的沖突檢測(cè)模型作為實(shí)驗(yàn)的對(duì)比模型,兩種模型針對(duì)相同的實(shí)驗(yàn)對(duì)象數(shù)據(jù)進(jìn)行檢測(cè)和分析,在檢測(cè)過程中除了使用的檢測(cè)方法不同外,其他的參數(shù)數(shù)據(jù)均相同.對(duì)比實(shí)驗(yàn)啟動(dòng)后,首先向數(shù)據(jù)庫(kù)發(fā)布存儲(chǔ)以及調(diào)用的指令,使得數(shù)據(jù)庫(kù)可以正常的進(jìn)行日常運(yùn)作,在大數(shù)據(jù)庫(kù)運(yùn)行過程中將兩種檢測(cè)方法同時(shí)應(yīng)用到數(shù)據(jù)庫(kù)當(dāng)中.由于數(shù)據(jù)庫(kù)中的數(shù)據(jù)相同,發(fā)布的任務(wù)指令也相同,因此兩種檢測(cè)模型中產(chǎn)生的特征集成沖突也相同.設(shè)定兩個(gè)模型的檢測(cè)時(shí)間相同,在檢測(cè)終止后,輸出對(duì)應(yīng)的檢測(cè)結(jié)果數(shù)據(jù),進(jìn)行對(duì)比分析.
經(jīng)過對(duì)比實(shí)驗(yàn)步驟得出兩種沖突檢測(cè)模型的檢測(cè)結(jié)果,對(duì)檢測(cè)結(jié)果進(jìn)行統(tǒng)計(jì)與對(duì)比,得出實(shí)驗(yàn)對(duì)比結(jié)果如表2所示.
表2 實(shí)驗(yàn)結(jié)果數(shù)據(jù)對(duì)比
表2中的實(shí)驗(yàn)對(duì)比結(jié)果表明,兩種沖突檢測(cè)模型的平均檢測(cè)準(zhǔn)確率均在80%以上,具有較高的應(yīng)用價(jià)值.在檢測(cè)時(shí)間方面,設(shè)計(jì)的特征集成沖突檢測(cè)模型的平均檢測(cè)時(shí)間為3.1 min,比傳統(tǒng)檢測(cè)模型節(jié)省3.9 min.在檢測(cè)準(zhǔn)確率方面,比傳統(tǒng)檢測(cè)模型的平均準(zhǔn)確率提升了13.04%.
在大數(shù)據(jù)特征集成沖突檢測(cè)模型中引入Hough變換算法,在提升檢測(cè)準(zhǔn)確率的同時(shí),也加快檢測(cè)的速度.將該檢測(cè)模型應(yīng)用到實(shí)際的大數(shù)據(jù)研究工作當(dāng)中,也可以起到一定程度的積極作用.但是設(shè)計(jì)完成的大數(shù)據(jù)特征集成沖突檢測(cè)模型尚未對(duì)檢測(cè)出來(lái)的沖突進(jìn)行有效的處理,針對(duì)這一方面還等待進(jìn)一步研究.