袁玉峰,郁曉紅,鄭彭軍*
(1.寧波大學(xué) 海運(yùn)學(xué)院,浙江 寧波 315832;2.浙江省2011 港口經(jīng)濟(jì)協(xié)同創(chuàng)新中心,浙江 寧波 315832;3.國(guó)家道路交通管理工程技術(shù)研究中心寧波大學(xué)分中心,浙江 寧波 315832;4.現(xiàn)代城市交通技術(shù)江蘇高校協(xié)同創(chuàng)新中心,江蘇 南京 210096)
船員是一種專業(yè)技能要求很高的職業(yè),船員適任資格的取得和維持都要求船員參加相應(yīng)的培訓(xùn),船員通過(guò)海事主管部門的考試才能取得和保持相應(yīng)的證書.80%以上的海難事故都涉及人為因素[1],加強(qiáng)船員教育與培訓(xùn)是提高船員素質(zhì),減少人為失誤,保護(hù)海上生命、財(cái)產(chǎn)安全和海洋環(huán)境的主要途徑.目前我國(guó)共有234 家培訓(xùn)機(jī)構(gòu)開展56項(xiàng)項(xiàng)目的船員培訓(xùn),2018 年培訓(xùn)量達(dá)191 371 人次,船員培訓(xùn)的重要性日益突出.然而,目前無(wú)論是培訓(xùn)機(jī)構(gòu)的布局還是培訓(xùn)計(jì)劃的制訂都還沒有建立統(tǒng)籌機(jī)制,與船員對(duì)于培訓(xùn)質(zhì)量和便利性的要求還存在較大差距[2].為了厘清影響船員選擇行為的關(guān)鍵因素,從而優(yōu)化船員培訓(xùn)資源配置,提高培訓(xùn)質(zhì)量,科學(xué)制訂培訓(xùn)計(jì)劃,開展影響船員選擇培訓(xùn)機(jī)構(gòu)影響因素的研究十分必要.
目前,有關(guān)船員培訓(xùn)的研究主要集中在培訓(xùn)過(guò)程中存在的問(wèn)題以及如何提高船員培訓(xùn)質(zhì)量?jī)蓚€(gè)方面,而對(duì)于船員培訓(xùn)選擇行為的影響因素鮮有涉及.在影響因素研究領(lǐng)域,多位學(xué)者應(yīng)用非集計(jì)模型[3]、多元回歸模型[4]、決策樹[5-6]、隨機(jī)森林模型[7]、支持向量機(jī)模型[8]、K 近鄰模型[9]、BP 神經(jīng)網(wǎng)絡(luò)模型[10]、Adaboost 模型[11]等方法開展了研究.例如,劉炳恩等[3]利用非集計(jì)離散選擇模型結(jié)合2003 年北京居民出行調(diào)查數(shù)據(jù),對(duì)影響居民出行方式選擇的因素進(jìn)行了分析,并將出行者個(gè)人特性引入模型,提高了模型的精度和實(shí)用性.Meng等[4]利用多元回歸分析了逆溫、大氣邊界層高度、風(fēng)向和相對(duì)濕度等不同氣象因子對(duì)北京市冬季PM2.5濃度的相對(duì)貢獻(xiàn).王文富[10]研究了影響企業(yè)人力資源結(jié)構(gòu)的因素,采用人工神經(jīng)網(wǎng)絡(luò)理論建立了預(yù)測(cè)模型.柳本民等[12]以美國(guó)公路2013~2015年所有的追尾事故數(shù)據(jù)為樣本,建立了基于SVM的雙車追尾事故與連環(huán)追尾事故二分類模型,得到了導(dǎo)致連環(huán)追尾事故發(fā)生的關(guān)鍵影響因素.
應(yīng)用機(jī)器學(xué)習(xí)進(jìn)行影響因素的分析具有傳統(tǒng)方法不具備的優(yōu)勢(shì),部分學(xué)者開展了一些有益的嘗試,但也存在只關(guān)注機(jī)器學(xué)習(xí)模型的擬合精度,缺乏對(duì)模型本身的解釋[13]等不足,而應(yīng)用機(jī)器學(xué)習(xí)對(duì)船員選擇培訓(xùn)機(jī)構(gòu)影響因素分析尚未有報(bào)道.隨機(jī)森林模型無(wú)需進(jìn)行變量選擇,可借助特征重要性排序方法進(jìn)行因素分析,從而提高模型的可解釋性[14].因此,本研究采用隨機(jī)森林模型,應(yīng)用特征重要性排序增強(qiáng)模型的可解釋性,來(lái)辨析各影響因素對(duì)選擇行為的相對(duì)重要性.其次,利用模型驗(yàn)證集的擬合精度(R2)量化影響因素對(duì)船員選擇培訓(xùn)機(jī)構(gòu)的解釋力度.
選取2015~2019年浙江省6 家船員培訓(xùn)機(jī)構(gòu)船員培訓(xùn)考試的數(shù)據(jù),其中杭州1 家、寧波2 家、舟山2 家、溫州1 家,共73 894 條記錄.每條記錄包含船員姓名、身份證號(hào)、培訓(xùn)機(jī)構(gòu)、考試科目、成績(jī)等內(nèi)容.通過(guò)對(duì)原始樣本數(shù)據(jù)整理分析,考慮到本文研究的對(duì)象為影響船員選擇培訓(xùn)機(jī)構(gòu)的因素,剔除只參加過(guò)1 家機(jī)構(gòu)培訓(xùn)的船員的記錄,篩選出參加過(guò)1 家以上機(jī)構(gòu)培訓(xùn)的船員樣本,得到23 521條樣本數(shù)據(jù).
通過(guò)對(duì)現(xiàn)有研究的分析,影響選擇行為的因素主要包括兩個(gè)方面:(1)參與對(duì)象的個(gè)人屬性,如年齡、性別、職業(yè)等;(2)被選擇對(duì)象的社會(huì)屬性,如地理位置、公眾滿意度、培訓(xùn)質(zhì)量等.特別是年齡這一特征變量,在眾多關(guān)于選擇行為的研究中都顯示了舉足輕重的作用.如張榮花等[15]在研究汽車共享?xiàng)l件下居民選擇出行方式的影響因素時(shí),證明了年齡會(huì)對(duì)汽車共享服務(wù)選擇行為產(chǎn)生顯著影響;王慧芬等[16]在探究影響汽車共享?yè)Q乘地鐵選擇行為的因素時(shí),得到年齡、性別、職業(yè)等因素對(duì)汽車共享?yè)Q乘地鐵影響顯著;練勝等[17]在研究居民的自行車選擇行為影響因素時(shí)同樣也得到了年齡是影響居民自行車選擇行為的因素之一.因此,本文以船員訪談為基礎(chǔ),根據(jù)船員選擇培訓(xùn)機(jī)構(gòu)時(shí)會(huì)考慮的因素,并結(jié)合國(guó)內(nèi)外相關(guān)學(xué)者的研究,選取船員年齡(AG)、所在地(HT)、參培次數(shù)(EXN)作為代表船員個(gè)人屬性的特征變量以及培訓(xùn)機(jī)構(gòu)的地理位置(GL)、許可培訓(xùn)項(xiàng)目數(shù)(TRN)、服務(wù)質(zhì)量(SQ)作為代表培訓(xùn)機(jī)構(gòu)社會(huì)屬性的特征變量,見表1.其中年齡和所在地從船員身份證號(hào)中提取,培訓(xùn)機(jī)構(gòu)的服務(wù)質(zhì)量根據(jù)培訓(xùn)機(jī)構(gòu)的開班頻率、培訓(xùn)人數(shù)、平均合格率及當(dāng)?shù)睾J虏块T服務(wù)水平確定[18].
表1 特征變量
決策樹算法是Quinlan[5]提出的,決策樹模型中最常用的算法是基于信息熵的決策樹學(xué)習(xí)算法—–ID3 算法[6],它的屬性選擇標(biāo)準(zhǔn)是信息增益,通常選擇信息增益最大的屬性作為它的“最佳”分裂點(diǎn).其原理如下:設(shè)S為一個(gè)包含s個(gè)樣本的集合,類別屬性可以取m個(gè)不同的值,對(duì)應(yīng)于m個(gè)不同的類別Ci,i∈{1,2,3,…,m}.若屬性A選為測(cè)試屬性,A有v個(gè)不同的值{a1,a2,a3,…,av},A將集合S劃分為v個(gè)子集{S1,S2,…,Sv},設(shè)Nij為子集Nj中屬于Ci的樣本數(shù).劃分當(dāng)前樣本集合所需要的信息可按下式計(jì)算:
對(duì)給定的子集sj,其信息為:
對(duì)每個(gè)屬性的信息進(jìn)行計(jì)算后,選擇增益最大的屬性作為給定集合S的測(cè)試屬性,并由此產(chǎn)生相應(yīng)的分支結(jié)點(diǎn).
隨機(jī)森林模型是Breiman[7]于2001年提出的一種基于決策樹的集成算法,它使用bootstrap 重采樣技術(shù)進(jìn)行采樣,從原始訓(xùn)練樣本集中提取并生成訓(xùn)練樣本子集,將提取到的訓(xùn)練樣本子集生成決策樹,由這些決策樹組成的集合構(gòu)成隨機(jī)森林,最后取所有決策樹的預(yù)測(cè)平均值作為最終預(yù)測(cè)結(jié)果.隨機(jī)森林回歸是由很多弱回歸器(決策樹)集成的強(qiáng)回歸器.
在建立隨機(jī)森林模型之前,需要先確立參數(shù).從隨機(jī)向量(X,Y)中隨機(jī)抽取n個(gè)訓(xùn)練集(通常訓(xùn)練集所占比例為0.7),且這些隨機(jī)向量均為獨(dú)立同分布.其中X為輸入向量,Y為輸出向量.
設(shè)隨機(jī)參數(shù)向量為θ,對(duì)應(yīng)的決策樹為T(θ).記Q為X的域,且Q?RP,其中P?N為自變量的維度.決策樹的每一個(gè)葉節(jié)點(diǎn)都對(duì)應(yīng)一個(gè)矩形空間(Q),記Rl且Rl?Q.對(duì)任意x∈Q,當(dāng)且僅當(dāng)一個(gè)葉節(jié)點(diǎn)l滿足x∈Rl,記決策樹T(θ)的葉節(jié)點(diǎn)為l(x,θ).隨機(jī)森林的建模過(guò)程如下[19]:
(1)利用bootstrap方法重采樣,隨機(jī)產(chǎn)生k個(gè)訓(xùn)練集θ1,θ2,…θk;利用每個(gè)訓(xùn)練集生成對(duì)應(yīng)的決策樹 {T(x,θ1)},{T(x,θ1)},…{T(x,θk)}.
(2)假設(shè)所有特征的維度為M,從中隨機(jī)抽取m個(gè)特征作為當(dāng)前節(jié)點(diǎn)的分裂特征集合,選擇最佳的分裂方式對(duì)該節(jié)點(diǎn)進(jìn)行分裂(通常,m的值在整個(gè)森林的生長(zhǎng)過(guò)程中不會(huì)發(fā)生變化).
(3)隨機(jī)森林中每個(gè)決策樹都盡量以最大限度的方式增長(zhǎng),不需要進(jìn)行剪枝.
(4)在新的數(shù)據(jù)中,通過(guò)葉節(jié)點(diǎn)l(x,θ)的觀測(cè)平均值可以得到單棵決策樹T(θ)的預(yù)測(cè)值.假如一個(gè)觀測(cè)值Xi屬于葉節(jié)點(diǎn)l(x,θ)且不為0,令權(quán)重ωi(x,θ)為:
式中權(quán)重之和等于1.
(5)根據(jù)因變量觀測(cè)值Yi(i=1,2,…,n)的加權(quán)平均得到單棵決策樹的預(yù)測(cè).單棵決策樹的預(yù)測(cè)值的計(jì)算式為:
(6)通過(guò)對(duì)決策樹權(quán)重ωi(x,θt)(t=1,2,…,k)取平均得到每個(gè)觀測(cè)值Yi∈(1,2,…,n)的權(quán)重ωi(x):
則隨機(jī)森林回歸的預(yù)測(cè)值可記為:
本文基于23 521 個(gè)匹配樣本數(shù)據(jù),將所有影響因素作為解釋變量,船員選擇的培訓(xùn)機(jī)構(gòu)作為因變量,構(gòu)建隨機(jī)森林回歸模型,將訓(xùn)練集和測(cè)試集按7:3劃分,計(jì)算出模型精度(R2),并以此衡量影響因素對(duì)船員培訓(xùn)選擇的影響大小.
將影響因素作為自變量,船員培訓(xùn)機(jī)構(gòu)(機(jī)構(gòu)A~F 分別賦值1~6)作為因變量,構(gòu)建多元線性回歸模型、K 近鄰回歸模型、AdaBoost 回歸模型和隨機(jī)森林模型,擬合結(jié)果見表2.隨機(jī)森林模型的擬合精度(R2)最高,誤差(RMSE)和殘差平方和(RSS)都最小,因此,選用隨機(jī)森林模型分析船員培訓(xùn)選擇行為的影響因素.
表2 模型擬合結(jié)果
本文提出的隨機(jī)森林模型可以量化單個(gè)因素對(duì)船員選擇的影響程度.分別將各影響因素作為輸入變量,以船員選擇的機(jī)構(gòu)值作為輸出變量,訓(xùn)練隨機(jī)森林模型,模型擬合結(jié)果如圖1 斜對(duì)角線所示:按影響程度大小排序,地理位置、服務(wù)質(zhì)量、許可培訓(xùn)項(xiàng)目數(shù)、參培次數(shù)、所在地和年齡分別能解釋58.7%、43.8%、4.1%、1.0%、0.5%和0.1%的船員培訓(xùn)選擇行為.地理位置和服務(wù)質(zhì)量對(duì)船員培訓(xùn)選擇行為的影響程度最高.
同理,影響因素兩兩組合作為隨機(jī)森林模型的輸入變量,可以量化雙因素交互作用對(duì)船員培訓(xùn)選擇行為的影響,從圖1 可見,地理位置與服務(wù)質(zhì)量交互能夠解釋81.2%的船員培訓(xùn)選擇行為,地理位置與許可培訓(xùn)項(xiàng)目數(shù)能解釋64.7%的船員培訓(xùn)選擇行為.
圖1 船員選擇培訓(xùn)機(jī)構(gòu)各因素的影響程度
為進(jìn)一步探索船員選擇行為影響因素的區(qū)域化差異,按船員所在地,分別對(duì)沿海地區(qū)船員人數(shù)較多的舟山、寧波、臺(tái)州、溫州的船員數(shù)據(jù)進(jìn)行了分析,結(jié)果如圖2 所示.隨機(jī)森林模型的擬合精度對(duì)所有地區(qū)船員均較高(R2>0.85).
圖2 不同地區(qū)船員選擇培訓(xùn)機(jī)構(gòu)的影響因素的解釋力度
從結(jié)果可以看出,影響不同地區(qū)船員選擇行為的主要因素排序十分相似,寧波、舟山和溫州、臺(tái)州均為地理位置和服務(wù)質(zhì)量,而且培訓(xùn)機(jī)構(gòu)的地理位置影響遠(yuǎn)遠(yuǎn)大于其他因素,說(shuō)明船員有就近選擇培訓(xùn)機(jī)構(gòu)的特點(diǎn).
對(duì)于寧波和舟山的船員,地理位置可以解釋80.4%和82.9%的選擇;對(duì)于臺(tái)州和溫州的船員,服務(wù)質(zhì)量可以解釋28.9%和28.0%的船員選擇.船員培訓(xùn)選擇行為的最主要因素地理位置的影響存在一定區(qū)域差異,其解釋率在不同地理分區(qū)的排序?yàn)?寧波>舟山>溫州>臺(tái)州.這主要是因?yàn)閷幉ê椭凵降拇瑔T培訓(xùn)機(jī)構(gòu)規(guī)模較大,許可培訓(xùn)項(xiàng)目較齊全,本地船員基本可以選擇就地培訓(xùn).溫州地區(qū)雖然有一家培訓(xùn)機(jī)構(gòu),但規(guī)模很小,培訓(xùn)項(xiàng)目有限(僅有2 項(xiàng)培訓(xùn)資質(zhì)),而臺(tái)州沒有本地培訓(xùn)機(jī)構(gòu),因此大多數(shù)培訓(xùn)需要選擇其他地區(qū)的培訓(xùn)機(jī)構(gòu),考慮了較多的培訓(xùn)質(zhì)量因素,地理位置的解釋力度就相對(duì)減少了.不同地區(qū)的年齡、籍貫以及考試次數(shù)對(duì)船員培訓(xùn)選擇的地區(qū)差異性解釋力度均很小,說(shuō)明船員選擇行為的區(qū)域差異化與這三者的相關(guān)性不顯著.
(1)地理位置對(duì)船員培訓(xùn)機(jī)構(gòu)選擇行為的影響最大,可解釋58.7%的船員培訓(xùn)機(jī)構(gòu)選擇行為;年齡對(duì)船員培訓(xùn)機(jī)構(gòu)選擇行為的影響最小,解釋率僅為0.1%.因素交互顯著提高了影響因素對(duì)船員培訓(xùn)機(jī)構(gòu)選擇行為的解釋力度.
(2)船員培訓(xùn)機(jī)構(gòu)選擇行為與影響因素間的關(guān)系存在地區(qū)差異性,同一影響因素對(duì)不同地區(qū)的船員培訓(xùn)機(jī)構(gòu)選擇行為的影響力度存在區(qū)域差異.地理位置對(duì)寧波、舟山地區(qū)船員培訓(xùn)機(jī)構(gòu)選擇行為的影響較大;溫州、臺(tái)州地區(qū)由于缺少本地培訓(xùn)機(jī)構(gòu),服務(wù)質(zhì)量對(duì)本地區(qū)船員選擇行為的影響較大.
(3)影響船員選擇培訓(xùn)機(jī)構(gòu)的最主要因素是培訓(xùn)機(jī)構(gòu)的地理位置和服務(wù)質(zhì)量.如果有本地培訓(xùn)機(jī)構(gòu),大多數(shù)船員會(huì)優(yōu)先選擇本地培訓(xùn)機(jī)構(gòu),服務(wù)質(zhì)量的影響會(huì)相對(duì)較小,說(shuō)明合理布局培訓(xùn)機(jī)構(gòu)對(duì)船員培訓(xùn)服務(wù)非常重要.在選擇本地機(jī)構(gòu)受限時(shí),服務(wù)質(zhì)量對(duì)船員選擇培訓(xùn)機(jī)構(gòu)的影響會(huì)增加,因此,培訓(xùn)機(jī)構(gòu)也可通過(guò)提高培訓(xùn)服務(wù)質(zhì)量來(lái)擴(kuò)大服務(wù)范圍,增強(qiáng)培訓(xùn)機(jī)構(gòu)的影響力.
寧波大學(xué)學(xué)報(bào)(理工版)2021年3期