車聯(lián)網(wǎng)數(shù)據(jù)清洗及其面臨的挑戰(zhàn)
車聯(lián)網(wǎng)和大數(shù)據(jù)是最近汽車行業(yè)研究的熱點。車聯(lián)網(wǎng)涉及到的技術(shù)包括數(shù)據(jù)采集技術(shù)、網(wǎng)絡(luò)技術(shù)、軟件技術(shù)和控制技術(shù),其能夠感知道路交通,并實現(xiàn)交通信息系統(tǒng)間數(shù)據(jù)的共享和交換,從而提高交通運行效率,為汽車行駛安全提供信息支撐。隨著車聯(lián)網(wǎng)應(yīng)用的普及,造成汽車數(shù)據(jù)信息(發(fā)動機(jī)轉(zhuǎn)速、汽車行駛速度、發(fā)動機(jī)扭矩、制動踏板位置、離合器踏板位置、加速踏板位置和變速器擋位等)急劇增多。這些數(shù)據(jù)信息的采集主要依靠安裝的傳感器,在數(shù)據(jù)信息的導(dǎo)入過程中,若傳感器出現(xiàn)故障,則可能導(dǎo)致數(shù)據(jù)異常、數(shù)據(jù)不一致、數(shù)據(jù)重復(fù)和數(shù)據(jù)缺失等現(xiàn)象。為了獲得通過分析采集的數(shù)據(jù)而得出準(zhǔn)確的結(jié)果,需要對采集的數(shù)據(jù)進(jìn)行預(yù)處理,而數(shù)據(jù)清洗是其中最為重要的環(huán)節(jié)之一。
數(shù)據(jù)清洗過程一般包含缺失值處理和異常值檢測兩個部分。①對缺失值進(jìn)行處理時,若數(shù)據(jù)序列中只含有少量的缺失值,則采用填補的方法對缺失值進(jìn)行補充。具體的填補方法包括數(shù)據(jù)序列均值法、臨近點中位數(shù)法、插值法等。若數(shù)據(jù)序列中含有大量的缺失值,則采用忽略的方法對缺失值進(jìn)行處理,即刪除數(shù)據(jù)序列存儲表格中的空白。②對異常值進(jìn)行檢測時,則通過聚類的方法實現(xiàn)。聚類能夠?qū)⒕哂邢嗨铺卣鞯臄?shù)據(jù)聚集在某一集合之內(nèi),異常值則落在集合之外,表現(xiàn)為孤立點。常用的聚類方法如K-均值聚類方法。
目前,對于數(shù)據(jù)清洗過程仍然面臨著時間消耗長、實時性低等問題,因而還不能應(yīng)用車聯(lián)網(wǎng)數(shù)據(jù)對汽車進(jìn)行實時控制。
Venkatesh Raman et al. SAE 2017-01-0069.
編譯:王祥