王茜竹,徐 瑞,江德潮,雒江濤
(1.新一代信息網(wǎng)絡(luò)與終端重慶市協(xié)同創(chuàng)新中心,重慶 400065;2.重慶郵電大學(xué) 電子信息與網(wǎng)絡(luò)工程研究院,重慶 400065)
隨著智慧城市建設(shè)的高速推進(jìn),包括交通、環(huán)境、治安等方面在內(nèi)的諸多安全問題逐漸暴露出來,《關(guān)于推進(jìn)城市安全發(fā)展的意見》是由中共中央國務(wù)院辦公廳于2018年1月7日發(fā)布的,文中指出,隨著我國城市化進(jìn)程明顯加快,城市人口、功能和規(guī)模不斷擴(kuò)大,發(fā)展方式、產(chǎn)業(yè)結(jié)構(gòu)和區(qū)域布局發(fā)生了深刻變化,城市運(yùn)行系統(tǒng)日益復(fù)雜,安全風(fēng)險(xiǎn)不斷增大[1]。本文聚焦城市出行安全問題,出行安全是指居民出行所需的包括交通、環(huán)境、治安等多方面在內(nèi)穩(wěn)定的外部環(huán)境和秩序。近年來,一些城市相繼發(fā)生出行安全事故,如上海外灘踩踏事件、女教師夜跑遇害事件等,暴露出城市安全管理存在不少漏洞和短板,而準(zhǔn)確評估城市安全態(tài)勢是保障居民出行安全的關(guān)鍵。
城市是一個(gè)復(fù)雜多變的綜合體,評估城市出行安全態(tài)勢需要融合多領(lǐng)域信息,且需要體現(xiàn)其時(shí)空動(dòng)態(tài)特性[2]。傳統(tǒng)的評價(jià)方法有質(zhì)量控制法、多元回歸法、模糊綜合評價(jià)法、絕對數(shù)法、事故強(qiáng)度分析法、層次分析法、灰色聚類法等[3-6],這些方法雖然在操作上因相對簡單而具有優(yōu)勢,但其對于事故的分析過于簡單,且評價(jià)結(jié)果過度依賴評價(jià)人員的主觀意識,使得評價(jià)結(jié)果往往缺乏科學(xué)性和說服力。近年來利用數(shù)據(jù)分析、數(shù)據(jù)挖掘等新方法處理安全評價(jià)問題是該領(lǐng)域的一個(gè)研究熱點(diǎn),楊天軍等指出影響城市交通安全的因素眾多且關(guān)系復(fù)雜,指標(biāo)權(quán)重難以確定,因此提出利用BP神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行城市交通安全性的評價(jià)[7]。魏琳娜等提出利用神經(jīng)網(wǎng)絡(luò)理論建立城市道路交叉口安全預(yù)測模型,從而對城市道路交叉口的安全形勢進(jìn)行預(yù)測[8]。江慧娟針對城市居民的居住適宜性展開研究,結(jié)合出租車軌跡、在線地圖興趣點(diǎn)(point of interest, POI)以及地理國情普查等多源數(shù)據(jù),基于分時(shí)段的社區(qū)交通熱點(diǎn)和社區(qū)活躍度構(gòu)建城市社區(qū)宜居性動(dòng)態(tài)評價(jià)方法[9]。而隨著智能手機(jī)和各種傳感器設(shè)備的普及,城市數(shù)據(jù)種類愈加繁多,這些數(shù)據(jù)大多為時(shí)空數(shù)據(jù),許多學(xué)者對此展開研究,通過多源時(shí)空數(shù)據(jù)挖掘來應(yīng)對城市發(fā)展過程中的諸多問題,輔助城市規(guī)劃、決策[10-11]。文獻(xiàn)[12]利用出租車軌跡數(shù)據(jù)及公共交通刷卡數(shù)據(jù),考慮地理數(shù)據(jù)的時(shí)空信息,通過基于鄰接關(guān)系的時(shí)空譜聚類來挖掘居民出行模式。文獻(xiàn)[13]則通過對城市中多種多源異構(gòu)人類行為軌跡數(shù)據(jù)的獲取、整合、分析、挖掘,來分析城市職相關(guān)住空間特征。文獻(xiàn)[14]利用軌跡數(shù)據(jù),通過地圖匹配、車輛速度估計(jì)及道路擁擠分類等一系列步驟,研究城市的交通擁堵分布狀況。文獻(xiàn)[15]通過時(shí)空聚類方法研究出租車載客數(shù)據(jù),挖掘城市載客熱點(diǎn)區(qū)域,為出租車和乘客推薦載客和乘車地點(diǎn)。文獻(xiàn)[16-17]利用大量出租車全球定位系統(tǒng)(global positioning system, GPS)數(shù)據(jù)進(jìn)行分析挖掘,提取行駛距離、行駛時(shí)間、平均車速等參數(shù)從而得到城市人口流動(dòng)性、城市熱點(diǎn)區(qū)域等特征。
充分考慮多特征與出行安全之間復(fù)雜的非線性映射關(guān)系以及出行安全的時(shí)空傳播特性,建立出行安全時(shí)空域協(xié)同訓(xùn)練評價(jià)模型。首先,基于條件隨機(jī)場(conditional random field, CRF)構(gòu)建時(shí)間域評價(jià)模型,輸入時(shí)間類特征如人口、交通流、空氣質(zhì)量指數(shù)(air quality index, AQI)等來模擬一個(gè)區(qū)域安全指數(shù)的時(shí)序相關(guān)性;然后,基于神經(jīng)網(wǎng)絡(luò)構(gòu)建空間域評價(jià)模型,輸入空間類特征如路網(wǎng)結(jié)構(gòu)、興趣點(diǎn)分布以模擬不同區(qū)域安全指數(shù)的相關(guān)性,這里考慮區(qū)域之間空間類特征的相關(guān)性以及地理位置的鄰近性。在模型訓(xùn)練階段,考慮訓(xùn)練樣本數(shù)據(jù)稀疏性問題,采用基于協(xié)同訓(xùn)練的半監(jiān)督學(xué)習(xí)方法,利用大量未標(biāo)記樣本數(shù)據(jù)訓(xùn)練模型,使其相互迭代、增強(qiáng);在評價(jià)階段,2個(gè)模型分別進(jìn)行分類預(yù)測,再動(dòng)態(tài)聚合得到最終評價(jià)結(jié)果。
城市是一個(gè)復(fù)雜的綜合體,只有統(tǒng)籌道路交通、治安、環(huán)境、實(shí)時(shí)熱度等多種因素才能夠行之有效地進(jìn)行城市居民出行安全評價(jià)。因此,本文充分研究了較為成熟的道路安全評價(jià)指標(biāo)體系作為出行安全評價(jià)中交通類特征選取的重要考量,同時(shí)參考其他領(lǐng)域?qū)W科的理論研究對其進(jìn)行概念延伸,利用移動(dòng)用戶位置數(shù)據(jù)、出租車軌跡數(shù)據(jù)、歷史事故數(shù)據(jù)等確定了城市出行安全評價(jià)的5個(gè)基礎(chǔ)特征:人口、交通流、AQI,POI、路網(wǎng)結(jié)構(gòu),并對所需數(shù)據(jù)做了相應(yīng)的梳理,如表1。
按照出行安全評價(jià)特征在時(shí)間和空間維度上的特性,可以將其分為2類:時(shí)間類特征和空間類特征。時(shí)間類特征是指該特征在時(shí)間維度上呈動(dòng)態(tài)性變化,包括某區(qū)域的人口特征、交通流特征、AQI特征??臻g類特征是指該特征不會(huì)隨時(shí)間變化,但會(huì)因空間位置的不同而呈現(xiàn)出明顯的差異,包括區(qū)域的POI特征以及路網(wǎng)特征。
表1 出行安全評價(jià)基礎(chǔ)特征
數(shù)據(jù)處理方面,主要包括數(shù)據(jù)預(yù)處理及時(shí)空匹配。在對多源數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換之后,對其做時(shí)間和空間匹配,在不丟失數(shù)據(jù)分布特性的基礎(chǔ)上確保特征在時(shí)空粒度上的一致性。時(shí)間維度上,對數(shù)據(jù)做以小時(shí)為單位的時(shí)間劃分,也即將不同形式的時(shí)間字段轉(zhuǎn)換到對應(yīng)的時(shí)間區(qū)間內(nèi)從而完成時(shí)間維度上的匹配;空間維度上,對數(shù)據(jù)做基于地圖柵格化處理的空間匹配,具體方案是:首先確定目標(biāo)研究區(qū)域,然后設(shè)定柵格邊長L,將目標(biāo)區(qū)域均分為若干個(gè)L×L的正方形柵格,用柵格坐標(biāo)代替柵格區(qū)域內(nèi)的地理位置坐標(biāo),即重新建立了目標(biāo)區(qū)域的柵格坐標(biāo)系,將移動(dòng)用戶位置數(shù)據(jù)、出租車位置數(shù)據(jù)等映射到了柵格中。本文中設(shè)定L為1 000 m。
針對每一類基礎(chǔ)特征展開研究,充分挖掘數(shù)據(jù)的語義價(jià)值,選擇與出行安全相關(guān)的特征參數(shù)作為評價(jià)模型的輸入。
1.3.1 人口特征
人口因素對于出行安全至關(guān)重要。結(jié)合心理學(xué)和社會(huì)學(xué)的相關(guān)理論研究不難發(fā)現(xiàn),人煙稀少極易使人產(chǎn)生不安全感,而人口過于密集的地方又往往蘊(yùn)藏著許多威脅安全的不確定因素,此外,本文還考慮了人口流動(dòng)性對出行安全的影響,由此確定了以下3個(gè)特征參數(shù):人口熱度fp是指單位時(shí)間(1小時(shí))、單位區(qū)域(1 000 m×1 000 m柵格)的人口數(shù)量;進(jìn)入流量fa是指單位時(shí)間內(nèi)進(jìn)入到目標(biāo)區(qū)域的人口數(shù)量;離開流量fl是指單位時(shí)間內(nèi)離開目標(biāo)區(qū)域的人口數(shù)量。
1.3.2 交通流特征
本文使用出租車軌跡數(shù)據(jù)獲得區(qū)域的交通流參數(shù),參照道路交通領(lǐng)域的相關(guān)參數(shù)定義,選擇車速的期望、標(biāo)準(zhǔn)差、分布3個(gè)參數(shù)。
車速期望E(v)定義為
(1)
車速標(biāo)準(zhǔn)差D(v)定義為
(2)
根據(jù)車速等級的通用劃分方法,將其分為0≤v<20,20≤v<40,v≥40,3個(gè)區(qū)間(車速單位為Km/h),一個(gè)柵格內(nèi)車輛的車速在這3個(gè)區(qū)間的分布定義為
(3)
(1)—(3)式中,p.l∈g.R表示落在柵格g.R內(nèi)的點(diǎn)。
1.3.3AQI特征
城市發(fā)展所伴隨的日益嚴(yán)重的環(huán)境污染問題不容小覷,環(huán)境安全也成為居民出行安全中舉足輕重的一部分,其中空氣質(zhì)量又是其中最為關(guān)鍵的一環(huán),近年來城市特別是大型城市的霧霾問題成為居民出行的一大障礙。本文選擇AQI等級fi作為環(huán)境安全的重要考量。
1.3.4PQI特征
POI數(shù)據(jù)是和居民生活息息相關(guān)的地理位置數(shù)據(jù),一個(gè)區(qū)域內(nèi)各類別興趣點(diǎn)的數(shù)量及分布往往代表著這個(gè)區(qū)域的功能以及交通模式等,這對于城市出行安全評價(jià)有著重要的參考價(jià)值,一些興趣點(diǎn)甚至與城市安全有著直接的因果關(guān)系。因此,將區(qū)域內(nèi)POI的數(shù)量以及分布情況作為出行安全評價(jià)的特征,定義以下2個(gè)特征參數(shù)。
1)POI數(shù)量fn。統(tǒng)計(jì)目標(biāo)柵格內(nèi)如表2所示類別的POI數(shù)目,得到fn;
2)POI區(qū)域占比fρ。這里,將一個(gè)柵格劃分為更小的單元格,如圖1所示,計(jì)算目標(biāo)柵格內(nèi)包含POI的小區(qū)的數(shù)目,得到POI區(qū)域占比fρ。
表2 POI類別
圖1 POI分布密度Fig.1 POI Density
1.3.5 路網(wǎng)特征
一個(gè)區(qū)域的路網(wǎng)結(jié)構(gòu)在一定程度上代表了它的交通模式,因此對于評估目標(biāo)區(qū)域的交通安全性,進(jìn)而評估出行安全有著重要的參考價(jià)值。參考道路交通研究領(lǐng)域的相關(guān)參數(shù)定義標(biāo)準(zhǔn),本文采用3個(gè)與路網(wǎng)結(jié)構(gòu)相關(guān)的特征參數(shù):高速公路的總長度fh、其他低級路段的總長度fr、路口的數(shù)量fs。
城市居民出行安全評價(jià)模型的框架如圖2。模型分為訓(xùn)練和評價(jià)2個(gè)部分:訓(xùn)練部分,數(shù)據(jù)流的方向由圖中的虛線箭頭標(biāo)注,首先從多源數(shù)據(jù)中提取出行安全評價(jià)的特征,根據(jù)其時(shí)空特性分為時(shí)間類特征和空間類特征2類,并分別輸入基于CRF的時(shí)間域評價(jià)模型和基于改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的空間域評價(jià)模型,然后,為了應(yīng)對訓(xùn)練樣本數(shù)據(jù)稀疏性問題,本文采用協(xié)同訓(xùn)練的方式,利用大量的未標(biāo)記數(shù)據(jù)提升模型性能;評價(jià)部分,數(shù)據(jù)流的方向由圖中的實(shí)線箭頭標(biāo)注,多源數(shù)據(jù)經(jīng)過特征提取后,輸入到訓(xùn)練好的模型中,這里,時(shí)間類特征和空間類特征將被分別輸入到對應(yīng)的評價(jià)模型中,得到2個(gè)概率值,選擇置信度最高的分類結(jié)果作為模型的最終輸出,這樣就得到了目標(biāo)區(qū)域目標(biāo)時(shí)間區(qū)間的安全指數(shù)等級。本文將模型輸出做可視化展示以更加直觀地了解模型的評價(jià)結(jié)果,利用樣本數(shù)據(jù)集中的測試數(shù)據(jù)驗(yàn)證模型性能。
圖2 模型框架圖Fig.2 Model frame diagram
2.2.1 問題定義
在時(shí)間維度上,假設(shè)某目標(biāo)區(qū)域當(dāng)前的安全狀況僅與其前一小時(shí)的安全狀況相關(guān),也就是一個(gè)典型的馬爾科夫假設(shè)問題。CRF是給定隨機(jī)變量X條件下,隨機(jī)變量Y的馬爾科夫隨機(jī)場。本文采用CRF模型,主要解決由輸入序列對輸出序列預(yù)測的判別模型問題,形式為對數(shù)線性模型,學(xué)習(xí)方法通常為極大似然估計(jì)或正則化極大似然估計(jì),其優(yōu)勢在于:條件隨機(jī)場在獨(dú)立性假設(shè)方面不同于隱馬爾科夫模型,它不需要嚴(yán)格的獨(dú)立性假設(shè)條件;另外,條件隨機(jī)場克服了最大熵馬爾科夫模型的標(biāo)記偏置問題。CRF常用于標(biāo)注問題,本課題的評價(jià)問題也可以等價(jià)為安全指數(shù)標(biāo)記問題,這時(shí),在條件概率模型P(Y|X) 中,Y是輸出變量,代表標(biāo)記序列,X是輸入變量,表示需要標(biāo)注的觀測序列。
2.2.2 模型結(jié)構(gòu)
基于CRF的時(shí)間域安全評價(jià)模型的圖結(jié)構(gòu)G如圖3,圖3中包括2種點(diǎn),灰色的點(diǎn)Y={Y1,Y2,…,Yn}表示隱狀態(tài)變量也即標(biāo)記變量,白色的點(diǎn)X={X1,X2,…,Xn}表示觀測值,Xi={Fh,Ft,Fa,t}(t表示以小時(shí)為單位的時(shí)間戳)。點(diǎn)Yi∈Y共同組成了鏈,每2個(gè)點(diǎn)Yi-1與Yi之間形成一條邊,并且?guī)в邪踩珮?biāo)簽。當(dāng)給定條件X時(shí),隨機(jī)變量Yi滿足馬爾科夫性,可以表示為
P(Yi|X,Yj,i≠j)=P(Yi|X,Yj,i~j)
(4)
(4)式中:P(Y|X)為線性鏈條件隨機(jī)場;i~j表示i與j在圖G中相鄰。
圖3 時(shí)間域模型圖結(jié)構(gòu)Fig.3 Graphic presentation of the temporal model
在給定觀測序列X為條件時(shí),選用指數(shù)勢函數(shù)并引入特征函數(shù)即可得到條件概率P(Y|X)為
(5)
(5)式中:tj(Yi-1,Yi,X,i)是定義在觀測序列的2個(gè)相鄰標(biāo)記位置i,i-1上的轉(zhuǎn)移特征函數(shù),用于表征相鄰標(biāo)記變量之間的相關(guān)關(guān)系以及觀測序列對其產(chǎn)生的影響;sk(Yi,X,i)為定義在觀測序列的標(biāo)記位置i上的狀態(tài)特征函數(shù),用于表征觀測序列對標(biāo)記變量的影響,一般情況下,特征函數(shù)的取值通常為1或0,滿足特征條件時(shí)取值為1,否則為0;λj和μk為對應(yīng)的權(quán)值。
將轉(zhuǎn)移特征與狀態(tài)特征及其對應(yīng)的權(quán)值分別用統(tǒng)一的符號進(jìn)行代替。令sk(Yi,X,i)=sk(Yi-1,Yi,X,i),(5)式可轉(zhuǎn)換為
(6)
(6)式中,Z為規(guī)范化因子,用于確保(6)式是正確定義的概率。
在模型訓(xùn)練階段,主要討論給定訓(xùn)練數(shù)據(jù)集估計(jì)CRF模型參數(shù)的問題,即CRF的學(xué)習(xí)問題。從實(shí)際角度考慮,CRF模型可看作是定義在時(shí)序數(shù)據(jù)上的對數(shù)線形模型,其學(xué)習(xí)方法主要有極大似然估計(jì)和正則化的極大似然估計(jì)。給定k個(gè)訓(xùn)練數(shù)據(jù)集{X(k),Y(k)},參數(shù)λ的極大似然函數(shù)為
(7)
在空間類特征方面,研究空間域評價(jià)模型的構(gòu)建以模擬其空間相關(guān)性。在輸入階段,考慮空間特征的靜態(tài)特性,提出一種多樣化輸入生成方法以提高模型訓(xùn)練效率及預(yù)測精度;在模型構(gòu)建階段,采用遺傳算法對BP神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化以應(yīng)對其收斂速度慢、易陷入局部極小值等問題。
2.3.1 問題定義
空間域模型主要是通過對待評價(jià)區(qū)域的特征觀測值以及其周圍若干區(qū)域的空間類特征觀測值和安全標(biāo)記進(jìn)行分析,預(yù)測待評價(jià)區(qū)域的安全指數(shù)。這里,安全指數(shù)的空間相關(guān)性主要考慮2點(diǎn):①地理位置上的鄰近區(qū)域?qū)Υu價(jià)區(qū)域的影響;②空間類特征強(qiáng)相關(guān)的區(qū)域與待評價(jià)區(qū)域的相關(guān)性。本文用皮爾森相關(guān)系數(shù)來表征特征之間的相關(guān)性為
(8)
因此可以明確空間域評價(jià)模型的輸入為以下幾點(diǎn)。
1)待評價(jià)柵格x與帶有安全標(biāo)記的柵格k的POI特征之間的皮爾森相關(guān)系數(shù)為
(9)
(9)式中,F(xiàn)p=(fn,fρ),其中,fn為POI數(shù)目,fρ為POI分布密度。
2)待評價(jià)柵格x與帶有安全標(biāo)記的柵格k的路網(wǎng)特征之間的皮爾森相關(guān)系數(shù)為
(10)
(10)式中,F(xiàn)r=(fh,fr,fs),fh,fr,fs分別為柵格內(nèi)高速公路長度、其他等級道路長度、路口個(gè)數(shù)。
3)待評價(jià)柵格x與帶有安全標(biāo)記的柵格k之間的地理距離為
dkx=Geo_Distance(lk,lx)
(11)
4)柵格k的安全指數(shù)ck。
模型的輸出即為待評價(jià)柵格x的安全指數(shù)cx。
2.3.2 模型結(jié)構(gòu)
空間域評價(jià)模型主要包括2個(gè)部分:輸入生成階段和BP神經(jīng)網(wǎng)絡(luò),如圖4。輸入生成階段首先要選擇n個(gè)帶有安全標(biāo)記的柵格,計(jì)算出模型所需的各項(xiàng)輸入值,其中,D1為特征間的距離(本文用皮爾森相關(guān)性表征),D2為2柵格中心點(diǎn)之間的地理距離;BP神經(jīng)網(wǎng)絡(luò)部分主要包括網(wǎng)絡(luò)結(jié)構(gòu)的確定、初始權(quán)值和閾值的確定等。下面將分別對2個(gè)階段進(jìn)行詳述。
圖4 空間域評價(jià)模型結(jié)構(gòu)Fig.4 Structure of spatial model
1)輸入生成階段,首先隨機(jī)選擇n個(gè)帶有安全標(biāo)簽的柵格gn得到柵格組合g1用來推測待評價(jià)柵格的安全狀況,可以表示為
g1=(g1,g2,…,gn)
(12)
然后,按照(8)—(11)式計(jì)算輸入值。
由于柵格的POI特征以及路網(wǎng)特征均為靜態(tài)數(shù)據(jù),因此如果重復(fù)選擇相同的柵格組合,那么網(wǎng)絡(luò)的不同輸入(ΔPnx,ΔRnx,dnx)組合之間差異較小,從而導(dǎo)致模型的輸出即待評價(jià)柵格的安全指數(shù)將不會(huì)與已標(biāo)記柵格的安全指數(shù)ck有太大差異,那么模型在訓(xùn)練階段將會(huì)忽略這樣的輸入組合,而這將嚴(yán)重影響模型的訓(xùn)練效果。因此,提出一種輸入生成方法使模型的輸入訓(xùn)練數(shù)據(jù)更加多樣化,具體方法為,將選擇過程執(zhí)行m次從而得到一個(gè)輸入集合。每一輪柵格組合選擇過程中,需要保證集合中與之前的集合相同的安全標(biāo)記柵格不得超過e個(gè),上述規(guī)則可表示為
Q={g1,g2,…,gm},?gi,gj∈Q,|gi∩gj|≤e
(13)
2)在空間域評價(jià)模型部分,本文采用BP神經(jīng)網(wǎng)絡(luò)構(gòu)建安全評價(jià)模型,選擇線性函數(shù)作為輸入層傳遞函數(shù),sigmoid函數(shù)φ(x)作為隱含層和輸出層傳遞函數(shù),則模型輸出為
(14)
在模型訓(xùn)練之前,首先要初始化網(wǎng)絡(luò)的權(quán)值和閾值。采用遺傳算法對BP神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值進(jìn)行優(yōu)化。用遺傳算法中的個(gè)體代表網(wǎng)絡(luò)的初始權(quán)值和閾值、個(gè)體值初始化的BP神經(jīng)網(wǎng)絡(luò)的預(yù)測誤差作為該個(gè)體的適應(yīng)度值,通過選擇、交叉、變異等遺傳操作尋找最優(yōu)個(gè)體,從而得到最優(yōu)的BP神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值。
在模型訓(xùn)練階段,帶有安全標(biāo)記的樣本數(shù)據(jù)珍貴而稀少,而城市出行安全相關(guān)的各類特征數(shù)據(jù)卻唾手可得,因此采用基于協(xié)同訓(xùn)練的半監(jiān)督學(xué)習(xí)方法來充分利用未標(biāo)記數(shù)據(jù)從而提升模型的學(xué)習(xí)性能。圖5為本文協(xié)同訓(xùn)練的整體框圖。首先針對2類特征分別構(gòu)建評價(jià)模型:時(shí)間域評價(jià)模型和空間域評價(jià)模型,2個(gè)模型分別對未標(biāo)記數(shù)據(jù)進(jìn)行評價(jià),并標(biāo)記一部分置信度高的數(shù)據(jù)給另一模型用以訓(xùn)練,然后重復(fù)此過程使模型得以更新,以此迭代到更多的未標(biāo)記數(shù)據(jù)加入標(biāo)記數(shù)據(jù)集。
圖5 協(xié)同訓(xùn)練Fig.5 Co-training
出行安全時(shí)空協(xié)同訓(xùn)練模型為:
輸入:特征集(Fh,Ft,Fa,Fp,Fr);
有標(biāo)記樣本集G1;
未標(biāo)記樣本集G2;
學(xué)習(xí)輪數(shù)閾值θ;
輸出:時(shí)間域評價(jià)模型TE,
空間域評價(jià)模型SE
方法步驟:
1.i←0;
2. Do
3. SE←SE.Learning(Fr,Fp,G1);
4. TE←TE.Learning(Fh,Ft,Fa,G1);
5. 將未標(biāo)記點(diǎn)集合G2中的每個(gè)點(diǎn)輸入SE進(jìn)行評價(jià),對于每類評價(jià)結(jié)果,選擇ni個(gè)置信度最高的樣本加入到G1中。
6. 將未標(biāo)記點(diǎn)集合G2中的每個(gè)點(diǎn)輸入TE進(jìn)行評價(jià),對于每類評價(jià)結(jié)果,選擇ni個(gè)置信度最高的樣本加入到G1中。
7.i++;
8.UntilG2為空或i>θ;
9.返回TE,SE;
評價(jià)階段如圖6??紤]待評價(jià)柵格安全指數(shù)的時(shí)序相關(guān)性,見圖6中的虛線箭頭所示,其空間相關(guān)性,見圖6中的實(shí)線箭頭所示,將2類特征集分別輸入SE,TE 2個(gè)模型中,得到2個(gè)模型的評價(jià)結(jié)果的置信度,也即選擇2個(gè)評價(jià)模型置信度最高的評價(jià)結(jié)果作為模型的最終輸出為
(15)
(15)式中,C表示所有柵格的集合。
圖6 評價(jià)預(yù)測模型結(jié)構(gòu)Fig.6 Philosophy of the evaluation inference model
實(shí)驗(yàn)所使用的數(shù)據(jù)集來自SODA上海開放數(shù)據(jù)創(chuàng)新應(yīng)用大賽,其中包括上海市政府和各企事業(yè)單位提供的開放數(shù)據(jù)集以及來自100名志愿者的安全標(biāo)記數(shù)據(jù)集,其中安全標(biāo)記分為0,1,2,3,分別代表安全、較安全、較不安全、不安全,數(shù)據(jù)集詳細(xì)信息如表3所示。數(shù)據(jù)時(shí)間跨度為2017.03.01—2017.03.07,在構(gòu)造訓(xùn)練集和測試集時(shí)采用分層采樣的方式以確保每種類別的安全標(biāo)記在訓(xùn)練集和測試集中比例一致,采用可視化的方式輔助選擇,也即將安全標(biāo)記數(shù)據(jù)映射到地圖上進(jìn)而保證訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集在標(biāo)記樣本分布以及時(shí)間和空間維度分布上的均勻性。
本文采用精確率、召回率、F1值以及混淆矩陣作為模型的評價(jià)指標(biāo)。以二分類問題為例,通常以關(guān)注的類為正類,其他類為負(fù)類,分類器在測試數(shù)據(jù)集上的預(yù)測可能正確也可能不正確,預(yù)測結(jié)果包含以下4種情況,4種情況出現(xiàn)的總數(shù)分別記作:
TP(真正例)—將正類預(yù)測為正類數(shù);
FN(假反例)—將正類預(yù)測為負(fù)類數(shù);
FP(假正例)—將負(fù)類預(yù)測為正類數(shù);
TN(真反例)—將負(fù)類預(yù)測為負(fù)類數(shù)。
則精確率,也稱查準(zhǔn)率可定義為
(16)
召回率,也稱查全率可定義為
(17)
F1值是精確率和召回率的調(diào)和均值,其計(jì)算方式為
(18)
由此可得分類模型的混淆矩陣,矩陣的每一列表示模型預(yù)測的樣本情況,每一行表示樣本的真實(shí)情況。
表3 數(shù)據(jù)集詳細(xì)信息
為全面評估模型性能,首先驗(yàn)證模型的整體結(jié)果并與其他幾種常用的分類算法進(jìn)行對比;然后分別對時(shí)間域評價(jià)模型和空間域評價(jià)模型的性能進(jìn)行驗(yàn)證;最后針對本文采用的基于協(xié)同訓(xùn)練的半監(jiān)督學(xué)習(xí)方法進(jìn)行評估。
3.3.1 模型整體結(jié)果
將本文提出的基于CRF和改進(jìn)BPNN的協(xié)同訓(xùn)練評價(jià)模型與其他常見的分類方法,包括DT,SVM,BPNN,以及單獨(dú)使用CRF和改進(jìn)BPNN時(shí),模型性能的對比,評估指標(biāo)為精確率、召回率以及F1值,結(jié)果如表4。
為更直觀地體現(xiàn)模型性能對比,將結(jié)果以柱狀圖的形式展現(xiàn),如圖7所示。顯然,本文提出的模型在精確率、召回率以及F1值3個(gè)方面均優(yōu)于其他幾種常用的算法;而如果單獨(dú)使用CRF模型或改進(jìn)BP模型,性能依然不如本文提出的基于協(xié)同訓(xùn)練的組合模型,這也很好地驗(yàn)證了本文中針對時(shí)間類特征和空間類特征分別建模并協(xié)同訓(xùn)練的方法有效性。
表4 模型整體結(jié)果對比
圖7 模型性能對比Fig.7 Overall results of different methods
3.3.2 時(shí)間域評價(jià)模型結(jié)果
本節(jié)將單獨(dú)評價(jià)時(shí)間域模型的預(yù)測性能,圖8,圖9分別為一天24小時(shí)中模型預(yù)測的精確率和召回率。
圖8 時(shí)間域評價(jià)模型精確率Fig.8 Precision of temporal evaluation model
首先,比較將全部特征輸入時(shí)間域評價(jià)模型以及僅將時(shí)間相關(guān)特征輸入模型時(shí)的性能差異,也即圖中的2條不同的折線。不難發(fā)現(xiàn)將全部數(shù)據(jù)輸入模型非但不會(huì)提高模型的預(yù)測性能,反而會(huì)降低預(yù)測精度,這也很好地驗(yàn)證了本文提出的將特征分為時(shí)間和空間2類并分別建模的必要性;然后,觀察圖中曲線的變化趨勢,不難發(fā)現(xiàn)時(shí)間域評價(jià)模型在一天中的8點(diǎn)和18點(diǎn)左右預(yù)測性能達(dá)到最優(yōu),結(jié)合實(shí)際情況可以嘗試解釋這一現(xiàn)象:8點(diǎn)和18點(diǎn)為城市的早晚高峰時(shí)段,此時(shí)城市的出行狀況尤其是交通狀況最為復(fù)雜,也即此時(shí)影響出行安全的主要因素為時(shí)間類特征如交通流特征、人口特征等,因此,用以模擬出行安全時(shí)序相關(guān)性的時(shí)間域評價(jià)模型性能達(dá)到最優(yōu)。
圖9 時(shí)間域評價(jià)模型召回率Fig.9 Recall of temporal evaluation model
3.3.3 空間域評價(jià)模型結(jié)果
在空間域評價(jià)模型的輸入階段,圖10展示了選擇不同個(gè)數(shù)的柵格組合時(shí)進(jìn)行空間評價(jià)時(shí)模型預(yù)測準(zhǔn)確度的差異,由圖10可知,選擇3個(gè)柵格時(shí)模型的精度最高,因此,確定n=3。表5為空間域評價(jià),模型混淆矩陣。
圖10 柵格個(gè)數(shù)與時(shí)間域評價(jià)模型精確率Fig.10 Spatial model performance with different number of grids
3.3.4 協(xié)同訓(xùn)練結(jié)果
本模型為了解決標(biāo)記樣本數(shù)量少而未標(biāo)記數(shù)據(jù)豐富的問題,提出采用協(xié)同訓(xùn)練的方法。這里,設(shè)置置信度閾值為0.85,也即如果時(shí)間域評價(jià)模型或空間域評價(jià)模型對一個(gè)實(shí)例的分類結(jié)果的置信度大于0.85,則將此評價(jià)結(jié)果納入標(biāo)記數(shù)據(jù)集。
表5 空間域評價(jià)模型混淆矩陣
表6為協(xié)同訓(xùn)練綜合模型的混淆矩陣。圖11,圖12分別表示協(xié)同訓(xùn)練的精確率和召回率。圖11,圖12中SE代表空間域評價(jià)模型;TE代表時(shí)間域評價(jià)模型,經(jīng)協(xié)同訓(xùn)練后的時(shí)空域融合模型在精確率和召回率方面均優(yōu)于單獨(dú)使用時(shí)間域評價(jià)模型和空間域評價(jià)模型,從而證明協(xié)同訓(xùn)練提高了模型的預(yù)測能力,可有效地應(yīng)對訓(xùn)練數(shù)據(jù)稀疏帶來的模型預(yù)測精度低等問題。
表6 模型混淆矩陣
圖11 協(xié)同訓(xùn)練精確率Fig.11 Precision of Co-training
本文主要針對城市居民出行安全評價(jià)問題,提出了一種基于CRF的時(shí)間域模型和基于神經(jīng)網(wǎng)絡(luò)的空間域模型協(xié)同訓(xùn)練的出行安全評價(jià)模型,經(jīng)驗(yàn)證此模型評價(jià)預(yù)測精度較傳統(tǒng)方法有顯著優(yōu)勢。由于數(shù)據(jù)集所限,本文在時(shí)間域模型中僅考慮了相鄰時(shí)間的時(shí)序平滑性,未考慮其周期性和趨勢性,下一步研究工作可考慮利用深度卷積神經(jīng)網(wǎng)絡(luò)等方法模擬出行安全的周期性和趨勢性。
圖12 協(xié)同訓(xùn)練召回率Fig.12 Recall of Co-training