胡立偉,郭 治,張?zhí)K航,范仔健,殷秀芬
(昆明理工大學 交通工程學院,云南 昆明 650500)
人的某種心理活動會誘發(fā)相應的肢體行為,對于駕駛員來說某些不恰當?shù)鸟{駛操作可能會導致交通事故發(fā)生。駕駛員過度緊張、畏懼、焦躁等不良情緒會在一定程度上影響其操作行為,甚至會誘發(fā)交通事故[1]。
1912年,美國心理學家閔斯特貝格首次利用心理測試儀器研究了電車事故發(fā)生的原因,開創(chuàng)了駕駛員心理適應性研究的先河,為后續(xù)研究奠定了基礎[2];R.ABDU等[3]通過對駕駛員的駕駛行為指標進行風險預測,發(fā)現(xiàn)常年維持過長的駕駛時間會導致駕駛員出現(xiàn)易怒、焦躁等情緒狀態(tài),駕駛風險顯著上升;E.PASCHALIDIS等[4]在碰撞分析和安全研究中發(fā)現(xiàn):駕駛行為會受到駕駛員的精神狀態(tài)和認知工作負荷影響。國內(nèi)研究中:凌文輇等[5]采用發(fā)放問卷方式,于1997年首次建立了全國各省駕駛員的行駛數(shù)據(jù)庫,利用回歸分析證明了駕駛風險與駕駛員心理品質(zhì)有一定關系;蘇華斌等[6]對南寧市60名駕駛員進行EPQ人格問卷和SCL-90癥狀自評量測評,研究結果顯示駕駛員個性特征、心理狀況與事故發(fā)生率有一定關系;左宇坤[7]針對南寧市駕駛員個性特征和心理健康進行研究,得出事故發(fā)生率與心理癥狀和遺傳特質(zhì)具有相關性。
從國內(nèi)外研究現(xiàn)狀來看,學者們針對不同駕駛員群體提出了心理狀態(tài)分類及特性,但相關研究應用主要還是傾向于駕駛員的生理特征變化,從駕駛員心理健康角度預測交通事故的研究還不夠深入。筆者擬采用Logistic回歸方程識別影響公交駕駛員行車安全的心理因子,并利用主成分分析法改進回歸方程,根據(jù)公交駕駛員操作特征曲線確定合理的二分類閾值,構建PCA-Logistic交通事故預測模型。
調(diào)查小組采用整群隨機抽樣方法隨機從昆明市道路客運企業(yè)中抽取調(diào)查對象。共抽取該市公交駕駛員1 482名,篩選并剔除量表測評結果不完整或存在明顯邏輯錯誤的駕駛員,將合格的1 004人作為研究對象。
根據(jù)SCL-90量表測評結果及問卷調(diào)查結果顯示:1 004名駕駛員中心理健康的有90.44%;存在心理問題的有9.56%。按照駕駛員近1年內(nèi)是否發(fā)生過交通事故且承擔道路交通事故全部責任或主要責任作為劃分標準將171人納入事故組,833人納入對照組。將存在心理問題傾向的駕駛員按相同比例分別從事故組和對照組抽取駕駛員進行陽性項目人數(shù)占比分析,如圖1。
圖1 事故組和對照組駕駛員9項不良心理因子陽性項目人數(shù)占比Fig. 1 Proportion of drivers in accident group and control group withpositive items of 9 negative psychological factors
由圖1可知:事故組中9項不良心理因子的陽性項目人數(shù)占研究對象總?cè)藬?shù)的比例基本高于對照組;其中事故組中強迫癥狀陽性項目人數(shù)占比均為最高,達到16.3%。這說明事故組駕駛員的心理健康問題較對照組更為突出。
Logistic回歸方程能有效地校正混雜因子、篩選危險因子。相對于其他回歸方程,其優(yōu)點是通過對數(shù)函數(shù)描述自變量與因變量之間關系,使得計算結果更符合現(xiàn)實意義。
Logistic回歸分析方程通過一般線性回歸方程變形獲得,如式(1):
(1)
式中:k為解釋變量個數(shù);xi為經(jīng)檢驗后自變量。
過多的特征變量會導致Logistic回歸方程的過擬合,因此在進行回歸分析之前需對模型特征變量進行獨立樣本T檢驗,將具有統(tǒng)計學意義變量納入模型,將無統(tǒng)計學意義變量剔除。一般取計算結果sig<0.05變量為輸入模型自變量,如式(2):
(2)
筆者將公交駕駛員是否發(fā)生過交通事故作為模型因變量,將9個不良心理因子得分作為模型自變量。9個自變量釋義如表1。
表1 自變量釋義Table 1 Definition of independent variable
多重共線性是指因線性回歸模型中解釋變量之間存在精確相關關系或高度相關關系而導致模型失真或預測準確度下降的特性。在利用式(1)建立交通事故預測模型之前,自變量之間存在多重共線性可能會對交通事故預測模型的準確度造成一定影響。多重共線性判別的方法是利用SPSS軟件計算條件索引。一般認為,當條件索引在10~30之間具有弱共線性,在30~100之間具有中等共線性,大于100則具有嚴重共線性[8]。多重共線性診斷結果如表2。由表2可知:9個自變量之間存在弱共線性。
表2 解釋變量多重共線性診斷結果Table 2 Diagnostic results of multicollinearity of explanatory variables
采用主成分分析法(principal components analysis, PCA)對原有自變量進行降維處理[9],可大幅降低多重共線性對于線性回歸模型影響。PCA分析過程如下:
令原始自變量為x,進行歸一化處理,如式(3):
(3)
歸一化處理完畢之后計算協(xié)方差矩陣,如式(4):
(4)
式中:x為某一樣本數(shù)據(jù);xmin為樣本最小值;xmax為樣本最大值;n為樣本容量;X為樣本矩陣;XT為樣本矩陣轉(zhuǎn)置矩陣。
通過協(xié)方差矩陣可得到相關系數(shù)矩陣特征值及特征向量。根據(jù)各主成分方差在總方差中所占的比例大小(即貢獻率)選取若干個自變量作為主成分,將選取出來的主成分作為新自變量,將是否發(fā)生交通事故作為因變量,結合式(1)得到改進后的PCA-Logistic交通事故預測模型。
通過建立交通事故預測模型得到交通事故預測混合矩陣,混合矩陣能直觀地反映出交通事故預測模型預測準確度,如表3。
表3 交通事故預測混合矩陣Table 3 Mixed matrix of traffic accident prediction
由表3可進一步得到評估事故預測模型度量指標[10],其計算如式(5)、式(6):
(5)
(6)
式中:TPR表示機密性;FPR表示具體性;TP表示實際為交通事故預測也為交通事故;TN表示實際為非交通事故預測也為非交通事故;FP表示實際為非交通事故預測為交通事故;FN表示實際為交通事故預測為非交通事故。
由于預測模型結果是0~1的概率,因此在實際應用時,針對此類“非是即否”問題選取合理的閾值來判斷因變量概率輸出范圍至關重要。ROC曲線是以機密性(TPR)為縱坐標,具體性(FPR)為橫坐標繪制的曲線;TPR是指真陽性概率,F(xiàn)PR是指假陽性概率。ROC曲線上的每一點是TPR與FPR的組合,如圖2。
圖2 ROC曲線坐標示意Fig. 2 Diagram of ROC curve coordinates
當閾值取在直線AC上時,TPR與FPR各為50%,判別結果無實際意義;當閾值取在AD和AB上時,TPR或FPR為1,此時判別準確度最高;當閾值取在曲線AEC上時,表示判別結果存在一定漏判與誤判,取值點愈靠近D點,代表判別樣本重疊區(qū)域愈小,判別準確度愈高。利用約登指數(shù)法可快速準確地找到最佳分類閾值[10],分類閾值選取流程如圖3。約登指數(shù)法計算如式(7):
Y=TPR(n)+FPR(n)-1
(7)
式中:n為ROC曲線中所有數(shù)值點。
計算ROC曲線中每個點的TPR和FPR即可進一步得到每個點的約登指數(shù)值,選取最大約登指數(shù)作為最佳分類閾值。
圖3 駕駛員交通事故發(fā)生情況的分類閾值選取流程Fig. 3 Classification threshold selection process of driver intraffic accident
筆者以昆明市公交駕駛員為研究對象,根據(jù)調(diào)查獲得數(shù)據(jù),將9個自變量代入式(2)進行獨立樣本T檢驗,檢驗結果如表4。檢驗結果顯示:9個自變量均可納入回歸方程。
利用SPSS軟件,將公交車駕駛員心理因子得分值代入二元Logistic回歸方程進行分析;參照計算出的P值對計算結果進行篩選,以P<0.05、P<0.01、P<0.001分別認為有差異、有顯著差異、有極其顯著差異[11]。根據(jù)此標準識別出能夠影響、顯著影響、極其顯著影響駕駛員行車安全的危險因子,其結果如表5。
表5 二元Logistic回歸分析結果Table 5 Binary Logistic regression analysis results
根據(jù)表5及回歸系數(shù),代入式(1)可得Logistic回歸模型,如式(8):
(8)
由表5可知:強迫癥狀和抑郁是極其顯著影響駕駛員行車安全的危險因子,軀體化和敵意是影響駕駛員行車安全的危險因子。
采用主成分分析法對原有自變量因子進行降維得到新影響變量,以減少因子之間共線性影響。新影響變量貢獻率及特征值如表6;新影響變量主成分向量系數(shù)如表7。
表6 公交車駕駛?cè)俗宰兞恐鞒煞址治鯰able 6 Principal component analysis of bus driver’s independentvariables
表7 公交車駕駛?cè)俗宰兞恐鞒煞窒蛄肯禂?shù)Table 7 Principal component vector coefficients of bus driver’sindependent variables
根據(jù)表6、表7,可確定降維后得到的主成分計算公式,即新影響變量與原自變量的關系如式(9):
(9)
將原有9個自變量代入式(9)進行計算,得到主成分得分Z1、Z2。此時已將原有9個自變量降維為2個。對主成分得分Z1、Z2進行二元Logistic回歸分析,如表8。
表8 主成分得分Z1、Z2的二元Logistic回歸分析結果Table 8 Binary Logistic regression analysis results of Z1 and Z2 scores ofprincipal components
由表8可知:公交客運主成分因子Z1、Z2的P值均小于0.001,有極其顯著差異,可代入式(1)構建PCA-Logistic交通事故預測模型。PCA-Logistic交通事故預測模型如式(10):
(10)
公交駕駛員交通事故預測模型及改進后的PCA-Logistic事故預測模型ROC曲線如圖4。將圖4中的TPR與FPR代入式(7),借助MATLAB中的ROC函數(shù)計算約登指數(shù),將傳統(tǒng)交通事故預測模型閾值確定為0.41;將改進后的PCA-Logistic交通事故預測模型閾值確定為0.38。
圖4 ROC曲線Fig. 4 ROC curve
實驗采集的1 004份樣本中共有833組非事故樣本,171組事故樣本。傳統(tǒng)交通事故預測模型預測結果顯示:在833組非事故樣本中有693組樣本被準確預測;在171組事故樣本中有138組樣本被準確預測。PCA-Logistic事故預測模型預測結果顯示:在833組非事故樣本中有738組樣本被準確預測;在171組事故樣本中有152組樣本被準確預測。這兩種預測模型的預測準確率如表9。
表9 兩種交通事故預測模型的預測結果對比Table 9 Comparison of prediction results of two kinds of traffic accident prediction models
由表9可看出:傳統(tǒng)交通事故預測模型預測整體正確率百分比為81.9%;而PCA-Logistic交通事故預測模型預測整體正確率百分比為88.8%,比傳統(tǒng)交通事故預測模型預測整體正確率高出6.9%。
由于昆明市官渡區(qū)、盤龍區(qū)、五華區(qū)的城市基礎建設較為落后,道路縱橫交錯,常常出現(xiàn)不良道路線形且道路堵塞嚴重,從而使得昆明市公交客運駕駛員在行車過程中往往因堵塞需長時間保持注意力集中和駕駛姿勢固定,過度謹慎駕駛心理問題及軀體化障礙逐漸凸顯。復雜的道路交通環(huán)境和個別乘客不文明行為也可能使駕駛員容易產(chǎn)生消極低落情緒(長期消極低落情緒會引發(fā)抑郁問題)和敵對情緒。
結合研究結果,建議相關企業(yè)在內(nèi)部加大與心理健康相關的宣傳力度的同時,應努力引導公交駕駛員關注和重視自身心理健康問題,防止對心理健康錯誤認知造成駕駛員的心理壓力;加強心理健康和行車安全教育培訓,引起企業(yè)管理人員和駕駛員對心理健康和行車安全的重視,進一步掌握必備的心理健康知識和防治方法;定期安排駕駛員進行心理健康問卷測評,對測評結果未達到標準的駕駛員提供免費心理咨詢服務,必要情況下要求駕駛員到有資質(zhì)的醫(yī)院進行相應治療。
1)通過對駕駛員心理測評及二元Logistic回歸分析結果表明:公交駕駛員自變量中強迫癥狀和抑郁因子是極其顯著影響行車安全的危險因子,軀體化和敵意因子是影響行車安全的危險因子。
2)傳統(tǒng)交通事故預測模型和改進后的PCA-Logistic交通事故預測模型預測準確率分別為81.9%和88.8%,改進后的PCA-Logistic交通事故預測模型相對于傳統(tǒng)交通事故預測模型的預測準確率提升了6.9%,說明PCA-Logistic交通事故預測模型預測準確性優(yōu)于傳統(tǒng)交通事故預測模型。
3)雖已經(jīng)識別出影響駕駛員行車安全的因子,并建立了交通事故預測模型,但由于自變量之間存在或多或少的關聯(lián)性,下一步應對自變量之間與駕駛員行車安全風險耦合作用及風險控制技術進行研究。