郄中洋 陳利剛 馬曉真 陳政
1. 江蘇省蘇州市公安局 2. 蘇州工業(yè)園區(qū)測(cè)繪地理信息有限公司
近年來(lái),我國(guó)大力推進(jìn)智能交通建設(shè),數(shù)據(jù)作為智能交通的重要資產(chǎn),其質(zhì)量水平直接決定了數(shù)據(jù)二次應(yīng)用的效能上限。以往交通領(lǐng)域的數(shù)據(jù)質(zhì)量評(píng)估方法常局限于單一的數(shù)據(jù)采集方式,模型的普適性較低。此外,傳統(tǒng)方法常忽略數(shù)據(jù)的真實(shí)應(yīng)用場(chǎng)景,而事實(shí)上,不同應(yīng)用場(chǎng)景對(duì)同一數(shù)據(jù)集的質(zhì)量要求往往不同。因此,本文圍繞客觀評(píng)價(jià)智能交通數(shù)據(jù)質(zhì)量主題,提出了一套基于應(yīng)用場(chǎng)景的多層級(jí)數(shù)據(jù)質(zhì)量評(píng)估框架并開展了應(yīng)用實(shí)踐。
面向智能交通的數(shù)據(jù)質(zhì)量評(píng)估框架包括需求準(zhǔn)備、特征提取、質(zhì)量評(píng)估、質(zhì)量改進(jìn)四個(gè)階段[1],如圖1所示。需求準(zhǔn)備階段需確定被評(píng)估的數(shù)據(jù)集和評(píng)估維度,依據(jù)實(shí)際應(yīng)用場(chǎng)景定義數(shù)據(jù)質(zhì)量需求;特征提取階段包括數(shù)據(jù)集分解、最小數(shù)據(jù)子集質(zhì)量特征提取、上層數(shù)據(jù)集質(zhì)量特征計(jì)算;質(zhì)量評(píng)估階段根據(jù)數(shù)據(jù)集質(zhì)量特征和評(píng)估標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估;質(zhì)量改進(jìn)階段分析數(shù)據(jù)質(zhì)量問(wèn)題并進(jìn)行干預(yù)。
1. 數(shù)據(jù)質(zhì)量評(píng)估維度
框架主要從數(shù)據(jù)完整性、有效性、準(zhǔn)確性、及時(shí)性、穩(wěn)定性5個(gè)維度[2~5]開展質(zhì)量評(píng)估:數(shù)據(jù)完整性主要考察數(shù)據(jù)對(duì)實(shí)體對(duì)象集的覆蓋度;數(shù)據(jù)有效性主要考察數(shù)據(jù)與有效性校驗(yàn)規(guī)則的符合程度;數(shù)據(jù)準(zhǔn)確性主要考察數(shù)據(jù)與實(shí)際值之間的差距;數(shù)據(jù)及時(shí)性主要考察數(shù)據(jù)獲取的快慢程度;數(shù)據(jù)穩(wěn)定性主要考察數(shù)據(jù)獲取的穩(wěn)定度。
2. 定義數(shù)據(jù)質(zhì)量需求
?
在開展數(shù)據(jù)質(zhì)量評(píng)估前,需要根據(jù)數(shù)據(jù)的實(shí)際應(yīng)用場(chǎng)景,定義數(shù)據(jù)質(zhì)量需求,產(chǎn)出物為《數(shù)據(jù)質(zhì)量需求定義文檔》,見(jiàn)表1。文檔應(yīng)明確被考察的數(shù)據(jù)資源、應(yīng)用場(chǎng)景、時(shí)空范圍、數(shù)據(jù)集分解規(guī)則以及5個(gè)維度的數(shù)據(jù)質(zhì)量需求。
質(zhì)量特征是數(shù)據(jù)的固有屬性[6],特征提取階段的目的是獲得數(shù)據(jù)集在5個(gè)維度上的質(zhì)量特征。具體過(guò)程如下:
1. 數(shù)據(jù)集分解
可將數(shù)據(jù)集按照時(shí)空特性、組織架構(gòu)等規(guī)則自上而下逐層分解,上層數(shù)據(jù)集被分解成至少一個(gè)數(shù)據(jù)子集,直到滿足終結(jié)條件。如圖2所示,Ci,j表 示數(shù)據(jù)集所屬實(shí)體對(duì)象,φi,j表示數(shù)據(jù)集的權(quán)重系數(shù),圖中第n-1層中的子集無(wú)法被再次分解,則定義該層的子集為最小數(shù)據(jù)子集,第n層為裸數(shù)據(jù)層,是最小數(shù)據(jù)子集所轄的實(shí)際觀測(cè)數(shù)據(jù)。
2. 質(zhì)量特征提取
(1)最小數(shù)據(jù)子集質(zhì)量特征提取
可知n-1層的數(shù)據(jù)集為最小數(shù)據(jù)子集,抽取其下第n層的裸數(shù)據(jù),可提取最小數(shù)據(jù)子集在5個(gè)維度上的質(zhì)量特征。
① 完整性
最小數(shù)據(jù)子集數(shù)據(jù)量如滿足數(shù)據(jù)量校驗(yàn),則完整性為1,否則為0。計(jì)算公式如(1)。
② 有效性
根據(jù)校驗(yàn)規(guī)則,計(jì)算最小數(shù)據(jù)子集中有效數(shù)據(jù)量與數(shù)據(jù)總量的比值,計(jì)算公式如(2)。
N為最小數(shù)據(jù)子集Mn-1,m的總數(shù)據(jù)量。
③ 準(zhǔn)確性
a. 連續(xù)型字段準(zhǔn)確性
連續(xù)型數(shù)據(jù)的準(zhǔn)確性計(jì)算公式如(3)。
為最小數(shù)據(jù)子集Mn-1,m中字段f記錄值與實(shí)際值差異的平均值,N為Mn-1,m的 有效數(shù)據(jù)量,為第n條記錄中字段f的記錄值,為相應(yīng)的實(shí)際值。
b. 離散型字段準(zhǔn)確性
離散型數(shù)據(jù)準(zhǔn)確性為校驗(yàn)通過(guò)的數(shù)據(jù)量與有效數(shù)據(jù)量的比值,計(jì)算公式如(4)。
為最小數(shù)據(jù)子集Mn-1,m中 字段f的準(zhǔn)確性,N為Mn-1,m的 有效數(shù)據(jù)量。為 第n條記錄中字段f的記錄值,為相應(yīng)的實(shí)際值。
④ 及時(shí)性
計(jì)算數(shù)據(jù)產(chǎn)生到獲取的時(shí)間差,計(jì)算公式如(5)。
Delayn-1,m表 示最小數(shù)據(jù)子集Mn-1,m的 及時(shí)性,tn,hap為第n條數(shù)據(jù)的產(chǎn)生時(shí)間,tn,use為 第n條數(shù)據(jù)獲取的時(shí)間,N為Mn-1,m的 有效數(shù)據(jù)量。
⑤ 穩(wěn)定性
穩(wěn)定性計(jì)算步驟如下:
a. 將數(shù)據(jù)時(shí)間范圍劃分成等長(zhǎng)的時(shí)間切片,根據(jù)數(shù)據(jù)生產(chǎn)特性將時(shí)間片分為N類,N可以為1;
b. 統(tǒng)計(jì)第i類時(shí)間片Ci,中 第j個(gè)時(shí)間片內(nèi)新增數(shù)據(jù)量xi,j;
c. 計(jì)算第i類時(shí)間片中各時(shí)間片內(nèi)新增數(shù)據(jù)量的均值μi和標(biāo)準(zhǔn)差σi;
d. 計(jì)算第i類時(shí)間片中各時(shí)間片內(nèi)新增數(shù)據(jù)量變異系數(shù)C·Vi,計(jì)算公式如(6);
e. 計(jì)算最小數(shù)據(jù)子集的穩(wěn)定性Stan-1,m,Stan-1,m越 小說(shuō)明數(shù)據(jù)集越穩(wěn)定,計(jì)算公式如(7)
(2)上層數(shù)據(jù)集質(zhì)量特征提取
以n-1層中最小數(shù)據(jù)子集的質(zhì)量特征為基礎(chǔ),自下而上遞歸計(jì)算上層數(shù)據(jù)集的質(zhì)量特征,步驟如下:
① 從n-2層開始自下而上依次選擇需要計(jì)算質(zhì)量特征的數(shù)據(jù)集Mn-i-1,m;
② 找出所選數(shù)據(jù)集的所有元素,元素為該數(shù)據(jù)集下層的數(shù)據(jù)子集;
③ 根據(jù)元素?cái)?shù)或元素所含數(shù)據(jù)量確定各元素的權(quán)重系數(shù)φn-i,k。
計(jì)算完整性權(quán)重時(shí),根據(jù)Mn-i-1,m包含的元素?cái)?shù)計(jì)算各元素權(quán)重系數(shù),計(jì)算公式如(8),φn-i,k表 示元素Mn-1,k的權(quán)重系數(shù),其中N表示Mn-i-1,m包含的元素?cái)?shù)。
計(jì)算其它4個(gè)維度的權(quán)重時(shí),根據(jù)各元素的數(shù)據(jù)量計(jì)算權(quán)重系數(shù),計(jì)算公式如(9),其中φn-i,k表 示元素Mn-1,k的權(quán)重系數(shù),Nn-1,k表 示元素Mn-1,k的 數(shù)據(jù)量,Nn-i-1,m表 示Mn-i-1,m的數(shù)據(jù)量。
④ 所選數(shù)據(jù)集的質(zhì)量特征為各元素質(zhì)量特征的加權(quán)平均值,計(jì)算公式如(10)
其中,a(n-i-1,m),a(n-i,k)分 別表示Mn-i-1,m及 其元素Mn-1,k某一維度的質(zhì)量特征,φ(n-i,k)為權(quán)重系數(shù)。
1. 各維度質(zhì)量特征評(píng)估標(biāo)準(zhǔn)
質(zhì)量評(píng)估階段利用特征提取階段輸出的數(shù)據(jù)集的質(zhì)量特征,根據(jù)質(zhì)量評(píng)估標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估,可得到數(shù)據(jù)集在任一層級(jí)上的數(shù)據(jù)質(zhì)量得分,得分可直觀反映數(shù)據(jù)質(zhì)量在實(shí)際應(yīng)用場(chǎng)景下的滿足程度。各維度評(píng)估方法如下:
(1)完整性評(píng)估
數(shù)據(jù)的完整性采用線性函數(shù)評(píng)估,計(jì)算公式如(11)。其中,Com為完整性特征,S為完整性得分。
(2)有效性評(píng)估
數(shù)據(jù)的有效性采用線性函數(shù)評(píng)估,計(jì)算公式如(12)。其中,Eff為有效性特征,S為有效性得分。
(3)準(zhǔn)確性評(píng)估
① 連續(xù)型字段
連續(xù)型字段的準(zhǔn)確性采用分段線性函數(shù)進(jìn)行評(píng)估,計(jì)算公式如(13)。其中,Acc為字段i準(zhǔn)確性特征,THR為閾值,Si為字段i的準(zhǔn)確性得分。
② 離散型字段
離散型字段的準(zhǔn)確性采用線性函數(shù)進(jìn)行評(píng)估,計(jì)算公式如(14)。其中,Acc為字段i準(zhǔn)確性特征,Si為字段i準(zhǔn)確性得分。
(4)及時(shí)性評(píng)估
數(shù)據(jù)的及時(shí)性采用分段線性函數(shù)進(jìn)行評(píng)估,計(jì)算公式如(15)。其中,Delay表示數(shù)據(jù)平均延時(shí),THR為閾值,S為及時(shí)性得分。
(5)穩(wěn)定性評(píng)估
數(shù)據(jù)的穩(wěn)定性采用分段線性函數(shù)進(jìn)行評(píng)估,計(jì)算公式如(16)。其中,Sta表示數(shù)據(jù)穩(wěn)定性特征,S為及時(shí)性得分。
2. 數(shù)據(jù)質(zhì)量評(píng)估報(bào)告
質(zhì)量評(píng)估階段的產(chǎn)出物為《數(shù)據(jù)質(zhì)量評(píng)估報(bào)告》,見(jiàn)表2。報(bào)告應(yīng)詳細(xì)記錄數(shù)據(jù)集在各層級(jí)、各質(zhì)量維度上的得分,便于自上而下快速定位存在問(wèn)題的數(shù)據(jù)子集,有針對(duì)性地開展質(zhì)量改進(jìn)工作。
?
當(dāng)數(shù)據(jù)集在某一維度的質(zhì)量得分低于期望值時(shí),認(rèn)為數(shù)據(jù)在該維度上不滿足應(yīng)用場(chǎng)景需求,需要進(jìn)行質(zhì)量改進(jìn)。實(shí)際操作可從感知設(shè)備、網(wǎng)絡(luò)傳輸、數(shù)據(jù)治理三個(gè)方面進(jìn)行問(wèn)題定位和質(zhì)量改進(jìn)。
1. 感知設(shè)備層改進(jìn)
檢測(cè)器設(shè)備受環(huán)境干擾、斷電或長(zhǎng)期缺乏維護(hù)等因素影響,可能導(dǎo)致數(shù)據(jù)不穩(wěn)定、缺失或錯(cuò)誤。定期巡檢并及時(shí)維護(hù)設(shè)備,能有效防止設(shè)備故障,從而提高數(shù)據(jù)質(zhì)量。
2. 網(wǎng)絡(luò)傳輸層改進(jìn)
網(wǎng)絡(luò)傳輸設(shè)備受到干擾、破壞會(huì)導(dǎo)致數(shù)據(jù)缺失、錯(cuò)誤或重復(fù)傳輸。加強(qiáng)網(wǎng)絡(luò)檢修,能有效防止網(wǎng)絡(luò)傳輸異常。
3. 數(shù)據(jù)治理層改進(jìn)
數(shù)據(jù)治理層面上,可以采取數(shù)據(jù)清洗方法清除冗余數(shù)據(jù),利用多源數(shù)據(jù)融合技術(shù)填補(bǔ)缺失數(shù)據(jù),采用異常值處理方法修正異常值,從而解決數(shù)據(jù)冗余、缺失、異常等問(wèn)題。
某市(SZ)與SH、ZJ、WX、NT四個(gè)省/市接壤,環(huán)市域四個(gè)方向共有12個(gè)高速卡口點(diǎn)位,24個(gè)出入口。某市需要對(duì)高速公路流量OD進(jìn)行實(shí)時(shí)分析,為更好支撐此項(xiàng)工作開展,某市前期開展了環(huán)市域卡口過(guò)車數(shù)據(jù)的質(zhì)量評(píng)估工作。
經(jīng)過(guò)需求調(diào)研,形成《數(shù)據(jù)質(zhì)量需求定義文檔》,見(jiàn)表3,以指導(dǎo)后續(xù)評(píng)估工作的開展。
1. 數(shù)據(jù)集分解
某市高速公路環(huán)市域卡口過(guò)車數(shù)據(jù)總集記為M1,1,首先根據(jù)相鄰省/市將M1,1劃 分為四個(gè)子集M2,1, M2,2, M2,3, M2,4,然后依次根據(jù)卡口點(diǎn)位,進(jìn)出方向?qū)?shù)據(jù)集進(jìn)一步細(xì)分,在第四層得到24個(gè)最小數(shù)據(jù)子集,每個(gè)最小數(shù)據(jù)子集對(duì)應(yīng)一個(gè)出口或入口的卡口,由于部分點(diǎn)位的設(shè)備故障,個(gè)別子集為空。
2. 質(zhì)量特征提取
(1)最小數(shù)據(jù)子集質(zhì)量特征提取
根據(jù)相關(guān)公式計(jì)算出每個(gè)出入口卡口在5個(gè)維度上的質(zhì)量特征,結(jié)果如圖3所示,按過(guò)車數(shù)對(duì)出入口進(jìn)行排序,過(guò)車量越大序號(hào)越小。除三個(gè)出入口缺少過(guò)車數(shù)據(jù)外,另外21個(gè)出入口的完整性都為1。對(duì)比21個(gè)出入口的數(shù)據(jù)質(zhì)量,發(fā)現(xiàn)隨著數(shù)據(jù)量降低,數(shù)據(jù)的有效性先降后升,數(shù)據(jù)不穩(wěn)定性和延時(shí)時(shí)長(zhǎng)先升后降。對(duì)比5個(gè)維度的質(zhì)量特征,發(fā)現(xiàn)數(shù)據(jù)的完整性高于其它特征值,“號(hào)牌顏色”的準(zhǔn)確性高于“號(hào)牌號(hào)碼”,數(shù)據(jù)有效性在95%左右,穩(wěn)定性在0.45左右,延時(shí)時(shí)長(zhǎng)集中在0.8~3.3分鐘之間。
穩(wěn)定性評(píng)估的時(shí)間切片為1小時(shí),將每個(gè)出入口卡口的穩(wěn)定性特征進(jìn)行可視化,結(jié)果如圖4所示。進(jìn)一步表明數(shù)據(jù)量處于中間水平時(shí),數(shù)據(jù)集的不穩(wěn)定性增加,并且夜間的數(shù)據(jù)集不穩(wěn)定性大于白天。
(2)上層數(shù)據(jù)集質(zhì)量特征提取
上層數(shù)據(jù)集質(zhì)量特征提取是一個(gè)遞歸計(jì)算過(guò)程,如圖5所示。
首先根據(jù)24個(gè)出入口的數(shù)據(jù)量計(jì)算上層數(shù)據(jù)子集(12個(gè)點(diǎn)位)的數(shù)據(jù)量和各出入口的權(quán)重系數(shù),然后根據(jù)24個(gè)出入口的質(zhì)量特征和權(quán)重系數(shù),采用加權(quán)平均法計(jì)算12個(gè)點(diǎn)位的質(zhì)量特征。以此類推,計(jì)算每個(gè)數(shù)據(jù)集的數(shù)據(jù)質(zhì)量特征,最終結(jié)果如表4。
根據(jù)5個(gè)維度數(shù)據(jù)質(zhì)量需求和實(shí)際質(zhì)量特征,對(duì)某市高速公路環(huán)市域卡口過(guò)車數(shù)據(jù)進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估,得到《數(shù)據(jù)質(zhì)量評(píng)估報(bào)告》,見(jiàn)表5。從該報(bào)告中可看出各層級(jí)的數(shù)據(jù)質(zhì)量情況,第一、二、三、四層依次展示了卡口在整體、各省/市邊界、各點(diǎn)位、各出入口的數(shù)據(jù)質(zhì)量,管理者可對(duì)問(wèn)題進(jìn)行快速靶向定位。
由表5可知,環(huán)市域卡口過(guò)車數(shù)據(jù)穩(wěn)定性得分為70.6,遠(yuǎn)低于預(yù)期,需要改進(jìn)數(shù)據(jù)質(zhì)量。問(wèn)題排查后發(fā)現(xiàn)主要是因?yàn)榫W(wǎng)絡(luò)傳輸異常導(dǎo)致的,后續(xù)綜合采取了增加巡檢頻率,優(yōu)化網(wǎng)絡(luò)傳輸和數(shù)據(jù)存儲(chǔ)機(jī)制等措施。在上述措施持續(xù)實(shí)施一段時(shí)間后,再選取2020年8月3號(hào)至2020年8月7號(hào)的數(shù)據(jù)再次進(jìn)行質(zhì)量評(píng)估。新一輪的數(shù)據(jù)集質(zhì)量得分如表6所示,可以看到,數(shù)據(jù)的穩(wěn)定性得到了顯著提升。
本文基于智能交通應(yīng)用場(chǎng)景,選取數(shù)據(jù)完整性、有效性、準(zhǔn)確性、及時(shí)性、穩(wěn)定性作為質(zhì)量評(píng)估維度,自上而下逐層分解數(shù)據(jù)集,并自下而上遞歸計(jì)算數(shù)據(jù)集的質(zhì)量特征,最后根據(jù)評(píng)估標(biāo)準(zhǔn)進(jìn)行質(zhì)量評(píng)估,得到數(shù)據(jù)集的質(zhì)量得分,實(shí)現(xiàn)了基于應(yīng)用場(chǎng)景的多層級(jí)數(shù)據(jù)質(zhì)量評(píng)估。