摘 要: 針對網(wǎng)絡(luò)信息資源中冗余數(shù)據(jù)提取精度差、非線性冗余數(shù)據(jù)難以提取,導(dǎo)致冗余數(shù)據(jù)的檢測查全率及準(zhǔn)確率較低的問題,設(shè)計了網(wǎng)絡(luò)信息資源的冗余數(shù)據(jù)檢測算法。針對網(wǎng)絡(luò)信息資源中的線性冗余數(shù)據(jù),采用經(jīng)驗?zāi)B(tài)分解方法提取冗余數(shù)據(jù)特征,通過特征時間序列得出其狀態(tài)特征分布函數(shù),據(jù)此構(gòu)建線性冗余數(shù)據(jù)檢測模型;針對非線性冗余數(shù)據(jù)難以檢測的問題,重構(gòu)非線性冗余數(shù)據(jù)特征,采用高階累積特征后置聚焦搜索方法構(gòu)建特征時間序列的指向性波束模型,實現(xiàn)非線性冗余數(shù)據(jù)的準(zhǔn)確檢測。實驗結(jié)果表明,該算法能夠準(zhǔn)確檢測網(wǎng)絡(luò)信息資源冗余信息,對冗余數(shù)據(jù)的查全率為98%,檢測準(zhǔn)確率為95%,證明該算法性能優(yōu)異。
關(guān)鍵詞: 網(wǎng)絡(luò)信息資源; 冗余數(shù)據(jù); 檢測算法; 經(jīng)驗?zāi)B(tài)分解
中圖分類號: TP 311文獻標(biāo)志碼: A
Detection of Natural Gas Information Abuse in Public
Resource Network by redundant Model method
XIE Na
(College of Electronic Information, Xianyang Vocational and Technical College, Xianyang, Shanxi 712000,? China)
Abstract: Aiming at the problems of poor accuracy of redundant data extraction in network information resources and difficulty in extracting non-linear redundant data, which lead to low detection recall rate and accuracy of redundant data, a redundant data detection algorithm for network information resources is designed. For linear redundant data in network information resources, empirical mode decomposition method is used to extract redundant data features, and its state feature distribution function is obtained through feature time series, and a linear redundant data detection model is constructed accordingly. The problem of data is difficult to detect, reconstruct the characteristics of nonlinear redundant data, and we use the high-order cumulative feature post-focus search method to construct a directional beam model of feature time series to achieve accurate detection of nonlinear redundant data. Experimental results show that the algorithm can accurately detect redundant information of network information resources. The recall rate of redundant data is 98%, and the detection accuracy rate is 95%, which proves that the algorithm has excellent performance.
Key words: network information resources; redundant data; detection algorithm; empirical mode decomposition
0 引言
網(wǎng)絡(luò)信息資源以文本、圖像、音頻、視頻、軟件、數(shù)據(jù)庫等多種形式存在,網(wǎng)絡(luò)信息資源的開放性,導(dǎo)致數(shù)據(jù)存在重復(fù)的現(xiàn)象。冗余數(shù)據(jù)會占據(jù)網(wǎng)絡(luò)資源,對冗余數(shù)據(jù)檢測能夠使得網(wǎng)絡(luò)信息資源有更好的可擴展性,可以有效幫助資源網(wǎng)絡(luò)節(jié)省存儲空間,提高網(wǎng)絡(luò)帶寬利用率。網(wǎng)絡(luò)信息資源中冗余數(shù)據(jù)具有時變性和隨機性的特征,且非線性冗余數(shù)據(jù)更是難以檢測[1]。針對這一問題,相關(guān)學(xué)者對網(wǎng)絡(luò)信息資源的冗余數(shù)據(jù)檢測算法做出了研究。
馮慧芳等針對冗余數(shù)據(jù)的時變性現(xiàn)象,提出時序特征分析方法,解決了線性冗余數(shù)據(jù)難以檢測的難題。但是存在無法檢測非線性冗余數(shù)據(jù)的缺陷[2]。常志朋等提出高階Markov鏈方法,解決了非線性冗余數(shù)據(jù)難以檢測的難題,但是存在檢測查準(zhǔn)率較差的缺陷[3]。潘越偉提出基于高階譜分析的資源濫用行為預(yù)測和異常檢測模型,解決了冗余數(shù)據(jù)檢測準(zhǔn)確度較低的問題,但是未考慮非線性冗余數(shù)據(jù)檢測的問題[4]。
以上3種方法存在未考慮非線性冗余數(shù)據(jù)的問題,冗余數(shù)據(jù)檢測的查準(zhǔn)率及查全率還有待提高,因此本文針對以上問題,提出一種網(wǎng)絡(luò)信息資源的冗余數(shù)據(jù)檢測算法。對網(wǎng)絡(luò)信息資源中的冗余數(shù)據(jù)進行時間序列擬合和特征采樣,構(gòu)建冗余信息模型檢測線性冗余數(shù)據(jù);根據(jù)相空間重組方法重構(gòu)非線性冗余數(shù)據(jù)特征,在重構(gòu)后的相空間中提取高階累積特征,采用高階累積特征的后置聚焦搜索方法實現(xiàn)非線性冗余數(shù)據(jù)的準(zhǔn)確檢測[5]。最后通過仿真實驗驗證了所設(shè)計算法的有效性。
1 基于瞬態(tài)時序規(guī)則的冗余數(shù)據(jù)檢測算法設(shè)計
利用經(jīng)驗?zāi)B(tài)分解法提取冗余數(shù)據(jù)特征,分析冗余數(shù)據(jù)特征的時間序列,得到冗余數(shù)據(jù)的瞬態(tài)時序規(guī)則,據(jù)此構(gòu)建特征信息分布模型,根據(jù)冗余數(shù)據(jù)節(jié)點輸出信號模型及數(shù)據(jù)接收模型得到冗余數(shù)據(jù)的檢測模型,完成對冗余數(shù)據(jù)的檢測[6]。
1.1 網(wǎng)絡(luò)信息資源數(shù)據(jù)的瞬態(tài)時序規(guī)則
為準(zhǔn)確檢測網(wǎng)絡(luò)信息資源的冗余數(shù)據(jù),首先需要分析冗余數(shù)據(jù)的時間序列。冗余數(shù)據(jù)是一組非線性時間序列,將冗余特征序列分解重組,并分析、檢測冗余數(shù)據(jù)的特征。
在網(wǎng)絡(luò)信息資源的第i個通信節(jié)點,重組資源數(shù)據(jù)特征,得到冗余數(shù)據(jù)兩個時序節(jié)點之間的坐標(biāo)為(xs,ys),采用經(jīng)驗?zāi)B(tài)分解法,得到網(wǎng)絡(luò)信息資源的冗余數(shù)據(jù)特征模型為式(1)。
式中,T為數(shù)據(jù)重組次數(shù)。分析網(wǎng)絡(luò)信息資源冗余數(shù)據(jù)狀態(tài),得到冗余數(shù)據(jù)的狀態(tài)特征尺度為式(2)。
其中,P為資源數(shù)據(jù)的幅值調(diào)制,I為網(wǎng)絡(luò)資源的冗余數(shù)據(jù)振蕩衰減,t為冗余數(shù)據(jù)重組次數(shù)。
對網(wǎng)絡(luò)信息資源冗余數(shù)據(jù)輸出信號進行經(jīng)驗?zāi)B(tài)分解,將復(fù)雜的網(wǎng)絡(luò)冗余數(shù)據(jù)分解為一個多徑的IMF分量,得到冗余數(shù)據(jù)的狀態(tài)信息融合動態(tài)方程為式(3)。
上式中,rj(x)為網(wǎng)絡(luò)信息資源冗余數(shù)據(jù)的信息融合誤差,xi為IMF分量,s為網(wǎng)絡(luò)資源數(shù)據(jù)。
在網(wǎng)絡(luò)信息資源客戶端接收到的冗余數(shù)據(jù)狀態(tài)行為特征模型為g(t),結(jié)合冗余數(shù)據(jù)的狀態(tài)信息融合動態(tài)方程,得到網(wǎng)絡(luò)信息資源的冗余數(shù)據(jù)特征時間序列為式(4)。
設(shè)網(wǎng)絡(luò)信息資源冗余數(shù)據(jù)的狀態(tài)行為特征分布函數(shù)為式(5)。
其中,Wx(t,v)、Wy(t,v)分別表示橫、縱向行為特征分布函數(shù),t0為冗余數(shù)據(jù)起始重組點。此時,網(wǎng)絡(luò)信息資源冗余數(shù)據(jù)在時序范圍內(nèi)的瞬態(tài)時序規(guī)則為式(6)。
由式(6)實現(xiàn)冗余數(shù)據(jù)的時間序列分析,在此基礎(chǔ)上構(gòu)建網(wǎng)絡(luò)信息資源冗余數(shù)據(jù)檢測模型[7]。
1.2 網(wǎng)絡(luò)信息資源冗余數(shù)據(jù)檢測模型構(gòu)建
分析時間序列,得到冗余數(shù)據(jù)的瞬態(tài)時序規(guī)則后,構(gòu)建冗余數(shù)據(jù)的冗余信息檢測模型。冗余數(shù)據(jù)特征的信息分布模型為
式(7)。
式中,ue,k為信息分布序列,k為分布序列數(shù)量。采用冗余數(shù)據(jù)特征混疊譜分解方法,將uv,k按照uv和uk的組成原則時序特征分解,得到網(wǎng)絡(luò)信息資源的冗余數(shù)據(jù)群延遲特征分布為式(8)。
通常情況下,網(wǎng)絡(luò)信息資源中冗余數(shù)據(jù)特征信息的時間序列是時變非平穩(wěn)的,在非平穩(wěn)時變沖突過程中,采用相空間重構(gòu)方法,分解冗余數(shù)據(jù)的時變信息,根據(jù)經(jīng)驗?zāi)B(tài)特征得到資源分布信息的帶寬瞬態(tài)時序規(guī)則估計為式(9)。
式中,(t)為網(wǎng)絡(luò)信息資源冗余數(shù)據(jù)的均勻采樣的頻譜均值,ck為比特反饋系數(shù),τ為時間采樣步長,bk是多尺度分解的平均發(fā)生頻率,當(dāng)權(quán)系數(shù)滿足b0=0時,構(gòu)建網(wǎng)絡(luò)信息資源冗余數(shù)據(jù)節(jié)點輸出信號模型為式(10)。
式中,a(t)和θ(t)分別是網(wǎng)絡(luò)信息資源信道冗余的原始數(shù)據(jù)包絡(luò)和不穩(wěn)定節(jié)點輸出相位信息,a(t)和θ(t)與網(wǎng)絡(luò)信息資源傳遞數(shù)據(jù)信息通道的幅度和瞬時序規(guī)則有關(guān),通過擴展信道均衡設(shè)計,得到通信節(jié)點由N=2P個陣元組成,則信息資源的冗余數(shù)據(jù)接收模型為式(11)。
其中,si(t)為資源鏈路結(jié)構(gòu)模型中的第i個節(jié)點的接收到的網(wǎng)絡(luò)冗余信息[8]。冗余數(shù)據(jù)發(fā)生節(jié)點輸出的整個行為特征具有非平穩(wěn)性,采用非平穩(wěn)信號檢測方法,得到網(wǎng)絡(luò)信息資源的冗余數(shù)據(jù)的檢測模型表示為式(12)。
可見,網(wǎng)絡(luò)信息資源的冗余數(shù)據(jù)可以通過公式(12)模型檢測[9]。
綜上所述,得出基于瞬態(tài)時序規(guī)則的冗余數(shù)據(jù)檢測算法整體流程,如圖1所示。
分析圖1可知,構(gòu)建網(wǎng)絡(luò)信息資源的冗余數(shù)據(jù)特征模型,根據(jù)冗余數(shù)據(jù)的瞬態(tài)時序規(guī)則構(gòu)建信息特征分布模型,檢測冗余數(shù)據(jù)節(jié)點輸出信號,采用非平穩(wěn)信號檢測方法得到網(wǎng)絡(luò)信息資源冗余數(shù)據(jù)的檢測模型。
2 網(wǎng)絡(luò)信息資源冗余數(shù)據(jù)的檢測算法改進
在對冗余數(shù)據(jù)檢測的基礎(chǔ)上,針對非線性冗余數(shù)據(jù)難以檢測的問題,根據(jù)高階累積特征后置聚焦搜索方法,提取非線性冗余數(shù)據(jù)特征,構(gòu)建非線性冗余數(shù)據(jù)檢測模型,完成對非線性冗余數(shù)據(jù)的檢測。
2.1 非線性冗余數(shù)據(jù)特征提取
對網(wǎng)絡(luò)信息資源中的非線性冗余數(shù)據(jù)的非線性擬合和特征采樣,假設(shè)網(wǎng)絡(luò)信息資源非線性冗余數(shù)據(jù)輸出信號的標(biāo)量時間序列為
x(t),t=0,1,…,n-1,非線性冗余數(shù)據(jù)分布的頻譜特征為式(13)。
式中,j表示采樣發(fā)生頻率[10]。采用相空間重組方法,在重構(gòu)的相空間中提取得到非線性冗余數(shù)據(jù)高階累積分量為g=[g(0),g(1),…,g(N-1)]T,此時網(wǎng)絡(luò)信息資源非線性冗余數(shù)據(jù)的IMF分量之和為式(14)。
式中,ci代表各經(jīng)驗?zāi)B(tài)分解IMF分量,rn代表高階累積量。采用雙曲調(diào)頻母小波后置聚焦搜索,得到非線性冗余數(shù)據(jù)的冗余時間點τ為時間t的函數(shù),為式(15)。
式中,c為動態(tài)特征的時間窗口,構(gòu)建網(wǎng)絡(luò)信息資源的信道模型[11],描述為式(16)。
式中,an(t)為信道帶寬。在重構(gòu)的相空間中得到非線性冗余數(shù)據(jù)特征向量模型為式(17)。
式中,e為相空間重構(gòu)特征量。根據(jù)公式(17)提取非線性冗余數(shù)據(jù)特征向量,以此作為搜索目標(biāo)向量,進行非線性冗余數(shù)據(jù)的檢測。
2.2 非線性冗余數(shù)據(jù)的檢測
根據(jù)非線性冗余數(shù)據(jù)特征向量構(gòu)建一個微分方程[12],表達非線性冗余數(shù)據(jù)的信息流模型為式(18)。
式中,h[z(t0+nΔt)]為非線性用于數(shù)據(jù)時間序列函數(shù),ωn為非線性冗余數(shù)據(jù)時間序列測量誤差值。
采用后置聚焦搜索方法完成非線性冗余數(shù)據(jù)正交分布向量分解[13],為式(19)。
式中,n-(m-1)τ,表示非線性冗余數(shù)據(jù)時間序列的分布時滯,m為在相空間中的嵌入維數(shù)。
由此構(gòu)建網(wǎng)絡(luò)信息資源的非線性冗余數(shù)據(jù)時間序列的指向性波束模型[14-15],完成對網(wǎng)絡(luò)信息資源的非線性冗余數(shù)據(jù)的檢測,為式(20)。
式中,λ為數(shù)據(jù)采樣次數(shù)。根據(jù)上述算法,完成對冗余數(shù)據(jù)的檢測。
由此可得用于絡(luò)信息資源非線性冗余數(shù)據(jù)檢測的算法,如圖2所示。
分析圖2可知,針對非線性冗余數(shù)據(jù),首先提取其分布頻譜特征,據(jù)此構(gòu)建特征向量模型,利用后置聚焦搜索分解非線性冗余數(shù)據(jù)正交分布向量,構(gòu)建非線性冗余數(shù)據(jù)時間序列的指向性波束模型,完成非線性冗余數(shù)據(jù)檢測。
3 檢測實驗
3.1 實驗環(huán)境及實驗數(shù)據(jù)
為驗證所提方法對冗余數(shù)據(jù)特征檢測的有效性,設(shè)計了仿真實驗。采用MATLAB仿真軟件作為實驗平臺,利用C++編程實現(xiàn)網(wǎng)絡(luò)信息資源中冗余數(shù)據(jù)檢測算法的運行,以資源分布數(shù)據(jù)庫中的數(shù)據(jù)及資源網(wǎng)絡(luò)的中心交換機數(shù)據(jù)作為實驗原始數(shù)據(jù),選用1 024 MB網(wǎng)絡(luò)信息資源,其中包含20個冗余數(shù)據(jù),設(shè)置網(wǎng)絡(luò)信息資源的資源搜索和相關(guān)行為特征的采集時間間隔5 min,離散采樣發(fā)生頻率為fs=10*f0 Hz=10 KHz,采樣的樣本長度為1 024 MB,冗余數(shù)據(jù)的訓(xùn)練集為頻帶2~30 kHz、時寬5.6 ms的線性調(diào)頻時間序列。
采用文獻[2]、文獻[3]方法作為實驗對照組,測試三種方法檢測網(wǎng)絡(luò)信息資源冗余數(shù)據(jù)的查全率及準(zhǔn)確率。
3.2 冗余數(shù)據(jù)的檢測查全率評價
在冗余數(shù)據(jù)檢測的基礎(chǔ)上,測試三種方法對融數(shù)據(jù)檢測的及查全率,計算如式(21)。
式中,A為檢測到的冗余數(shù)據(jù),B為網(wǎng)絡(luò)信息資源。根據(jù)上述計算公式,對1 024 MB網(wǎng)絡(luò)信息資源共進行10次檢測并取每次檢測結(jié)果的均值,得到冗余數(shù)據(jù)的檢測查全率對比結(jié)果,如圖3所示。
從圖3結(jié)果得知,采用文獻[2]方法檢測冗余數(shù)據(jù)的查全率為89%,采用文獻[3]方法的查全率為86%,而采用所提方法對冗余數(shù)據(jù)檢測的查準(zhǔn)率查全率為98%。根據(jù)上述結(jié)果得出,所提方法對冗余數(shù)據(jù)檢測的查全率較高,說明所提方法的檢測性能較好。
3.3 冗余數(shù)據(jù)的檢測準(zhǔn)確率評價
測試采用3種方法檢測網(wǎng)絡(luò)信息資源冗余信息的準(zhǔn)確率,得到檢測準(zhǔn)確率的對比情況,如圖4所示。
由圖4可知,文獻[2]方法對網(wǎng)絡(luò)信息資源中冗余數(shù)據(jù)的檢測準(zhǔn)確率為60%,文獻[3]方法對冗余數(shù)據(jù)的檢測準(zhǔn)確率為75%,而所提方法對冗余數(shù)據(jù)的檢測準(zhǔn)確率為95%。由此可以得出,采用所提方法檢測冗余數(shù)據(jù)的準(zhǔn)確率較高。
4 總結(jié)
本文提出一種基于經(jīng)驗?zāi)B(tài)分解及高階累積特征后置聚焦搜索的網(wǎng)絡(luò)信息資源冗余數(shù)據(jù)檢測方法。采用經(jīng)驗?zāi)B(tài)分解方法,構(gòu)建冗余數(shù)據(jù)檢測模型,以此完成對網(wǎng)絡(luò)信息資源中線性冗余數(shù)據(jù)的檢測;采用相空間重組方法重構(gòu)非線性冗余數(shù)據(jù)特征,提取高階累積特征,根據(jù)高階累積特征的后置聚焦搜索方法構(gòu)建檢測模型,完成對非線性冗余數(shù)據(jù)的準(zhǔn)確檢測。實驗結(jié)果表明,所提算法能夠有效檢測到網(wǎng)絡(luò)信息資源中的冗余數(shù)據(jù),對冗余數(shù)據(jù)檢測的查準(zhǔn)率和查全率較高,能夠保障網(wǎng)絡(luò)信息資源的有效利用。
在保障公共網(wǎng)絡(luò)資源利用效率的基礎(chǔ)上,需要進一步保障網(wǎng)絡(luò)信息資源的安全性和穩(wěn)定性,未來將重點對這一方面做出進一步研究。
參考文獻
[1] 陳虹君, 羅福強, 趙力衡,等. 大數(shù)據(jù)下網(wǎng)絡(luò)信息資源丟失優(yōu)化識別仿真[J]. 計算機仿真, 2017, 34(9):358-361.
[2] 馮慧芳, 張俊鵬, 楊茂. 基于時序網(wǎng)絡(luò)的VANET拓?fù)涮卣鞣治鯷J]. 計算機應(yīng)用研究, 2017, 34(10):251-254.
[3] 常志朋, 劉小弟, 張世濤. 基于高階Markov鏈的重大決策社會風(fēng)險變權(quán)集對預(yù)測模型[J]. 控制與決策, 2018, 33(12):134-141.
[4] 潘越偉. 網(wǎng)絡(luò)中資源數(shù)據(jù)傳輸效率優(yōu)化數(shù)學(xué)模型仿真[J]. 計算機仿真, 2018, 35(2):144-147.
[5] 曾明, 王二紅, 趙明愿,等. 基于時間序列符號化模式表征的有向加權(quán)復(fù)雜網(wǎng)絡(luò)[J]. 物理學(xué)報, 2017, 66(21):265-275.
[6] 張超. 基于雙譜能量算子的碰摩轉(zhuǎn)子故障特征提取[J]. 中國工程機械學(xué)報, 2018(3):269-273.
[7] 周雪燕, 孔夢榮. 多尺度紋理圖像數(shù)據(jù)抗干擾信息映射方法研究[J]. 微電子學(xué)與計算機, 2017, 34(7):128-131.
[8] 朱飛燕. 大數(shù)據(jù)資源調(diào)度中多種類復(fù)雜信息智能定向檢索[J]. 自動化與儀器儀表, 2019, 232(02):124-127.
[9] 陳宏濤, 劉帆, 張靜. 結(jié)合多元經(jīng)驗?zāi)B(tài)分解和加權(quán)最小二乘濾波器的遙感圖像融合[J]. 光子學(xué)報, 2019, 48(5):123-125.
[10] 王猛, 譚躍生. 云計算平臺網(wǎng)絡(luò)公共資源應(yīng)急調(diào)度仿真研究[J]. 計算機仿真, 2018, 35(2):371-374.
[11] 湯建明, 寇小強. 海量網(wǎng)絡(luò)文本去重系統(tǒng)的設(shè)計與實現(xiàn)[J]. 計算機應(yīng)用與軟件, 2018, 35(12):39-43.
[12] 任智, 李秀峰, 王坤龍,等. 考慮節(jié)點多社區(qū)屬性的機會網(wǎng)絡(luò)高吞吐量路由算法[J]. 小型微型計算機系統(tǒng), 2018(8):1719-1724.
[13] 毛正雄, 趙志宇, 孫北寧. 基于Nginx的Web響應(yīng)加速優(yōu)化研究[J]. 自動化與儀器儀表, 2018(4): 31-34.
[14] 夏遠遠, 王宇. 基于HNC理論的社區(qū)問答系統(tǒng)問句檢索模型構(gòu)建[J]. 計算機應(yīng)用與軟件, 2018(8):98-101.
[15] 張仕學(xué). 大型文本數(shù)據(jù)庫中分布式數(shù)據(jù)去重備份方法[J]. 科學(xué)技術(shù)與工程, 2018, 018(004):310-315.
(收稿日期: 2020.03.28)
基金項目:咸陽市科學(xué)技術(shù)研究局攻關(guān)專項(2019k02-08)
作者簡介:謝娜(1982-),女,碩士,副教授,研究領(lǐng)域:計算機網(wǎng)絡(luò)技術(shù)等。