摘 要:本文首先分析了虛假數(shù)據(jù)注入攻擊的現(xiàn)狀,接下來詳細(xì)闡述了虛假趨勢(shì)時(shí)間序列分析,希望通過本文的分析研究,給行業(yè)內(nèi)人士以借鑒和啟發(fā)。
關(guān)鍵詞:虛假數(shù)據(jù);時(shí)間序列;趨勢(shì)性;隨機(jī)性分析;基函數(shù)
引言
虛假數(shù)據(jù)是為了達(dá)到一種預(yù)期目標(biāo)而人工偽造的帶有一定虛假價(jià)值的數(shù)據(jù),它的存在嚴(yán)重影響了數(shù)據(jù)分析結(jié)果,并給數(shù)據(jù)處理、信息安全、資源利用、控制決策等工作帶來了巨大威脅。隨著大數(shù)據(jù)時(shí)代的到來,信息資源的利用頻率急劇增長,虛假數(shù)據(jù)分析作為改善數(shù)據(jù)質(zhì)量、提高管控能力、增強(qiáng)安全性、提升數(shù)據(jù)價(jià)值的關(guān)鍵環(huán)節(jié)愈來愈被人們所重視,眾多學(xué)者更是從網(wǎng)絡(luò)服務(wù)、控制系統(tǒng)、多媒體信息等視角開展了虛假數(shù)據(jù)識(shí)別的研究。
一、虛假數(shù)據(jù)注入攻擊的現(xiàn)狀
虛假數(shù)據(jù)注入攻擊(FalseDataInjection,簡稱FDI)是通過劫持網(wǎng)絡(luò)節(jié)點(diǎn)或物理設(shè)備,向系統(tǒng)注入錯(cuò)誤的或無用但存在安全隱患的數(shù)據(jù)信息,破壞數(shù)據(jù)的完整性,導(dǎo)致系統(tǒng)失去系統(tǒng)穩(wěn)定性甚至崩潰的一種惡意網(wǎng)絡(luò)攻擊。與其他網(wǎng)絡(luò)攻擊相比,F(xiàn)DI更加的巧妙、復(fù)雜以及具有很高的隱蔽性,可以成功騙過普通的攻擊探測機(jī)制,進(jìn)而達(dá)到破壞系統(tǒng)的關(guān)鍵數(shù)據(jù)信息的目的。目前針對(duì)虛假數(shù)據(jù)注入攻擊下信息物理系統(tǒng)的安全控制問題的研究還存在很多的不足之處,所設(shè)計(jì)的攻擊檢測方法的檢測效率很低甚至無法判斷是否存在FDI攻擊入侵行為;而至于系統(tǒng)防御的安全控制策略都是以改變或者損害控制系統(tǒng)本身性能來抵御FDI攻擊,而且計(jì)算繁瑣,浪費(fèi)了有限的系統(tǒng)資源。
二、虛假趨勢(shì)時(shí)間序列分析
時(shí)間序列是按照時(shí)間順序記錄的社會(huì)經(jīng)濟(jì)、自然現(xiàn)象的數(shù)量指標(biāo),其數(shù)值隨時(shí)間發(fā)展變化,起伏不定,具備某種趨勢(shì)。通常時(shí)間序列可表示為xt*,t=0,1,...,n,并由長期趨勢(shì)量d*、季節(jié)變動(dòng)量s*、周期變動(dòng)量c*、隨機(jī)變動(dòng)量r*四個(gè)部分構(gòu)成,亦即xt* =f(dt*,st*,ct*,rt*),t=0,1,...,n當(dāng)被測對(duì)象依時(shí)間變化呈現(xiàn)某種上升或下降態(tài)勢(shì),且沒有明顯的季節(jié)波動(dòng)、周期變動(dòng)時(shí),時(shí)間序列簡化為一種趨勢(shì)時(shí)間序列,此時(shí)可構(gòu)造一個(gè)合適的函數(shù)曲線反映這種變化趨勢(shì)。虛假趨勢(shì)時(shí)間序列則是指為了到達(dá)商業(yè)欺詐、掩蓋事實(shí)等目的,由不誠信者在已知?dú)v史數(shù)據(jù)資料基礎(chǔ)上偽造的趨勢(shì)時(shí)間序列,以實(shí)現(xiàn)惡意的利益訴求。虛假趨勢(shì)時(shí)間序列類似趨勢(shì)時(shí)間序列,也包含長期趨勢(shì)量和隨機(jī)變動(dòng)量兩部分,但這兩部分中至少一部分是虛假的。對(duì)虛假趨勢(shì)時(shí)間序列進(jìn)行分析,就是探索該虛假序列的長期趨勢(shì)量和隨機(jī)變動(dòng)量的構(gòu)建動(dòng)機(jī)和方法,以便于通過相應(yīng)檢測手段予以甄別。虛假趨勢(shì)時(shí)間序列并不是觀測得到的真實(shí)數(shù)據(jù),而通常由偽造者按照某一企圖而構(gòu)建。為了便于區(qū)分不同偽造能力,此處將偽造者分為簡單偽造者和復(fù)雜偽造者兩類。其中,簡單偽造者大多對(duì)照歷史數(shù)據(jù)憑借個(gè)人經(jīng)驗(yàn)以及預(yù)期目標(biāo)估計(jì)出一系列虛假數(shù)值tx。受限于人工的編制效率和構(gòu)造能力,一般來說序列tx僅部分含有虛假隨機(jī)成分tr,因此主要體現(xiàn)為對(duì)虛假趨勢(shì)時(shí)間序列中隨機(jī)變動(dòng)量的一種簡單偽造。而復(fù)雜偽造者則運(yùn)用程序算法按照預(yù)期目標(biāo)構(gòu)造一個(gè)虛假趨勢(shì)td,然后再按照隨機(jī)生成規(guī)則構(gòu)造虛假隨機(jī)tr,并將其疊加到td上,因此體現(xiàn)為對(duì)虛假趨勢(shì)時(shí)間序列中長期趨勢(shì)量和隨機(jī)變動(dòng)量兩部分的復(fù)雜偽造。如圖1所示,依照來自美國加州米克斯灣(MeeksBay;經(jīng)緯度-120.11,39.05;編號(hào):10336645)水質(zhì)數(shù)據(jù)庫的水溫真實(shí)序列圖1(a),手工給出偽造目標(biāo)趨勢(shì)的關(guān)鍵點(diǎn)位并進(jìn)行樣條插值獲得一個(gè)虛假趨勢(shì)圖1(b),然后將均勻分布的隨機(jī)數(shù)據(jù)疊加到該虛假趨勢(shì)上,最后為了增強(qiáng)虛假數(shù)據(jù)的逼真性,對(duì)圖1(c)手工調(diào)整獲得最終偽造序列如圖1(d)。無論是簡單偽造者還是復(fù)雜偽造者,。然而由于真值通常未知或被隱藏,故而只能通過構(gòu)成虛假趨勢(shì)時(shí)間序列tx的虛假趨勢(shì)td和虛假隨機(jī)tr兩部分加以分析。(1)虛假趨勢(shì):虛假趨勢(shì)td是虛假趨勢(shì)時(shí)間序列中的長期趨勢(shì)量部分。它是由偽造者參考?xì)v史數(shù)據(jù)、背景信息、經(jīng)驗(yàn)估算、推演分析等,按照預(yù)期目標(biāo)建立且類似于真實(shí)的序列。通常在未知情況下難以辨別真?zhèn)?,而只有在虛假序列出現(xiàn)違背常理、突發(fā)跳躍等時(shí)可通過M-K等突變檢測加以判別,或者在特定滑動(dòng)窗口下通過與歷史數(shù)據(jù)之間的相似性分析來加以初判,因此采用虛假趨勢(shì)甄別序列的真?zhèn)尾⒉痪哂写硇浴#?)虛假隨機(jī):虛假隨機(jī)tr是虛假趨勢(shì)時(shí)間序列中的隨機(jī)變動(dòng)量部分。簡單偽造者往往通過簡單推理計(jì)算、數(shù)值估計(jì)形成帶有部分虛假隨機(jī)特性的虛假趨勢(shì)時(shí)間序列tx,由于其隨機(jī)變動(dòng)量部分偽造方法過于簡單,難以滿足自然的隨機(jī)特征,故可以通過隨機(jī)性檢測來判別真?zhèn)?。而?duì)于復(fù)雜偽造者而言,雖然可以通過各種算法構(gòu)造出滿足隨機(jī)規(guī)律的tr,但將其疊加到td后就必然導(dǎo)致了數(shù)據(jù)量的改變,原本的趨勢(shì)性受到tr的影響在部分時(shí)刻將無法保證預(yù)期目標(biāo),或呈現(xiàn)出不符合偽造者意圖的起伏變化,因此需要對(duì)疊加后的序列進(jìn)行手工調(diào)整,然而這種調(diào)整卻往往會(huì)打破序列的隨機(jī)性,故而可以通過分析該部分的隨機(jī)性檢測來判別趨勢(shì)時(shí)間序列的真?zhèn)巍?/p>
結(jié)語
虛假數(shù)據(jù)的檢測與分析一直在改善數(shù)據(jù)質(zhì)量、提高系統(tǒng)能力、保障信息安全等方面占據(jù)重要地位,并隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展和數(shù)據(jù)資源使用頻率的增加,成為了信息技術(shù)領(lǐng)域的研究熱點(diǎn)。
參考文獻(xiàn):
[1]任亞峰,姬東鴻,張紅斌,尹蘭.基于PU學(xué)習(xí)算法的虛假評(píng)論識(shí)別研究[J].計(jì)算機(jī)研究與發(fā)展,2015,52(03):639-648.
作者簡介:
劉然(1988—),對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)統(tǒng)計(jì)學(xué)院在職人員高級(jí)課程研修班學(xué)員,研究方向:大數(shù)據(jù)科學(xué)與應(yīng)用。