鞏開元
摘 要:本文基于某市12328 交通運輸服務監(jiān)督電話數據,主要采用了探索性數據分析(Exploratory Data Analysis,以下簡稱EDA)方法,結合某市的交通運輸服務行業(yè)的實際發(fā)展情況,對某市2020年上半年和2021年上半年的數據集進行了探索和分析。通過兩個時間段的數據對比,分析新冠疫情對某市的交通運輸服務行業(yè)產生的影響。同時,通過數據挖掘,總結某市的交通運輸服務行業(yè)存在的規(guī)律,為優(yōu)化交通運輸服務行業(yè)管理提供參考。
關鍵詞:12328電話;探索性數據分析;聚類分析;交通運輸
中圖分類號:U491? ? ? ? ?文獻標識碼:A? ? ? ? ? ? 文章編號:1006—7973(2021)11-0134-06
隨著中國經濟社會的迅速發(fā)展,交通行業(yè)的發(fā)展無論是對政府還是人民都顯得尤為重要。為了進一步使某市的交通運輸服務行業(yè)平穩(wěn)順利的發(fā)展,某市于2014年開通了12328交通運輸服務監(jiān)督電話。某市12328交通運輸服務監(jiān)督電話是各級交通運輸主管部門聽民聲、暢民意、解民憂、 匯民智的重要渠道,是“我為群眾辦實事”的重要載體,是廣大人民群眾表達意愿心聲、反映利益訴求、參與行業(yè)治理的重要渠道。
為了使12328交通運輸服務監(jiān)督電話更好地為人民群眾服務,12328電話數據分析成為促進交通行業(yè)穩(wěn)定發(fā)展、提升交通運輸服務水平的重要手段。在過去,有學者曾對熱線電話數據進行研究,張明島[1]等對上海心理健康熱線電話心理咨詢應用進行了評估,高文斌[2]等進行了心理咨詢熱線在突發(fā)性公共衛(wèi)生事件中的應用分析,丁小磊[3]對江蘇省12320公益電話進行了數據分析,并闡述了其在突發(fā)公共衛(wèi)生事件中的應用。楊懿軒[4]等采用了暴露量、因子分析和聚類分析的方法對四川省12328電話數據的城市交通問題進行了分析。馮松[5]等用了文本挖掘技術對江蘇某地級城市的12328電話數據工單進行了分析。李正銀[6]等對交通服務熱線數據信息在行業(yè)管理中的應用進行了研究。
本文基于2020年1月至6月以及2021年1月至6月這兩個關鍵性時期某市12328交通運輸服務監(jiān)督電話數據,分析了新冠疫情對某市交通運輸行業(yè)產生的影響,為對數據分析結果的應用提出了相關建議。
1 電話數據基本情況
本文從12328業(yè)務數據表中抽樣采集了2020年上半年和2021年上半年的數據進行分析。2020年上半年數據量共計35萬余條,2021年上半年數據量共計53萬余條,同比增長51.43%,增長主要原因是2020年上半年為疫情暴發(fā)期間,百姓的日常出行受限,話務量較少,百姓的日常出行不受限,而2021年上半年為疫情常態(tài)化期間,因此話務量較多。如表1所示,本文采用的數據集主要有以下屬性:工單編號、省份編碼、業(yè)務類型、接聽時間、三級業(yè)務領域、四級業(yè)務領域、答復標記、接聽滿意度。其中工單編號是字母JT加一串數字的序列,是每一條12328電話上報工單獨一無二的編碼;省份編碼表示12328電話服務所在地區(qū)省份編碼;業(yè)務類型分為三類:數字1代表投訴舉報、數字2代表信息咨詢,數字3代表意見建議;接聽時間的格式為日月年-時分秒;如圖1所示,一級業(yè)務領域為城市客運等領域,二級業(yè)務領域為城市交通運行管理等領域,由于一級業(yè)務領域和二級業(yè)務領域范圍廣,在分析具體業(yè)務領域時顯得比較宏觀,故在此不做說明,只考慮三級業(yè)務領域和司機業(yè)務領域。三級領域包含停車管理、機動車牌照等城市交通運行管理類領域;四級領域是在三級領域之下細分的類型,以02機動車牌照為例,其四級領域分為01搖號、02拍賣、03限行和99其他。
2 探索性數據分析(EDA)
因為在分析數據集前并不清楚本數據集的內在結構,并且考慮到數據集可能會比較雜亂,而探索性數據分析(EDA)恰好適合處理這種類型的數據集,所以本文使用探索性數據分析(EDA)方法對數據集進行分析。
探索性數據分析(EDA)是上世紀六十年代由美國統(tǒng)計學家John W.Tukey[7]所提出的一種對已有的原始數據在盡量少的先驗假定下進行探索,通過作圖、制表、方程擬合、計算特征量等手段探索數據的結構和規(guī)律的一種數據分析方法。
2.1三級業(yè)務領域
如表2和圖2,2020年上半年,三級業(yè)務領域數據量排名前5的領域依次為停車管理、機動車牌照、其他、公共汽電車線路、巡游出租汽車其他。
如表3和圖3,2021年上半年,三級業(yè)務領域數據量排名前5的領域依次為機動車牌照、無效電話其他、停車管理、其他、公共汽電車線路。
由此可見,從2020年上半年過渡到2021年上半年,停車管理減少28.20%,公共汽電車線路減少51.35%,機動車牌照增加99.77%。
2.2四級業(yè)務領域
如表4和圖4,2020年上半年,四級業(yè)務領域數據量排名前5的領域依次為機動車牌照搖號、機動車牌照限行、機動車牌照其他、路況咨詢其他、ETC收費結算。
如表5和圖5,2021年上半年,四級業(yè)務領域數據量排名前5的領域依次為機動車牌照搖號、機動車牌照其他、巡游出租車財物遺失、機動車牌照限行、公共汽電車財物遺失。
由此可見,從2020年上半年過渡到2021年上半年,機動車牌照搖號增加143.24%,機動車牌照限行減少75.16%、機動車牌照其他減少60.83%。
通過對一、二、三、四級業(yè)務領域屬性的分析,一二級領域主要體現(xiàn)范圍較廣的業(yè)務領域,而三四級業(yè)務領域主要體現(xiàn)更具體的業(yè)務領域。從三級業(yè)務領域來說,百姓最關心的是停車管理問題和機動車牌照的問題,從四級業(yè)務領域來說,百姓最主要關注的業(yè)務領域是機動車牌照搖號和限行。從現(xiàn)實的角度來分析,因為某市為大型城市,車輛必然比較多,停車場也比較有限,所以停車管理相對較難,因而百姓撥打12328電話的數據量也就比較多;而因為某市對機動車牌照有嚴格的限號和搖號的政策,所以無論是機動車牌照的限行,還是搖號都是百姓比較關心的問題,百姓撥打12328電話的數據量多也是理所當然。而疫情對業(yè)務領域的影響并不明顯,但無論如何,機動車牌照的限行還是搖號,關系到民生中的衣食住行中的“行”。
2.3業(yè)務類型
如表6和表7所示,從2020年上半年過渡到2021年上半年,投訴舉報減少28.79%,信息咨詢增加33.26%,意見建議增加152.74%。
通過對業(yè)務類型屬性的分析,信息咨詢和意見建議數據量有較大增幅。而結合2020年上半年和2021年上半年的實際情況而言,2020年上半年百姓出行較少,2021年上半年百姓出行較多,因此,出行增加是導致信息咨詢和意見建議的重要因素之一。
2.4 業(yè)務類型&業(yè)務領域
如表8所示,2020年上半年,值得重點關注SERVICE_TYPE為1的數據總量(即業(yè)務類型為投訴舉報的數據總量),投訴舉報數據量最多的業(yè)務領域為4010511、4070103和4010401,相對應的業(yè)務領域名稱為公共汽電車的文明服務、互聯(lián)網租賃自行車的資金、公共汽電車的運行間隔。
如表9所示,2021年上半年,值得重點關注SERVICE_TYPE為1的數據總量(即業(yè)務類型為投訴舉報的數據總量),投訴舉報數據量最多的業(yè)務領域為4010511、4010401和4030107,相對應的業(yè)務領域名稱為公共汽電車的文明服務、公共汽電車運行時間的運行間隔、巡游出租汽車的文明駕駛。
由此可見,無論2020年上半年還是2021年上半年,公共汽電車的文明服務和公共汽電車運行時間的運行間隔都是百姓投訴的主要方面。
通過對業(yè)務類型和業(yè)務領域這兩個屬性的分析,從2020年上半年和2021年上半年來看,百姓投訴的問題主要是公共汽電車的文明服務(司乘人員服務態(tài)度等)和公共汽電車的運行間隔(包括發(fā)車間隔、等待時間等),而互聯(lián)網租賃自行車的資金(包括乘客賬戶資金安全、以及退款時效等)和巡游出租汽車的文明駕駛(包括違章變道、超速、接打電話、發(fā)微信、操作手機軟件等影響乘客安全與舒適性的駕駛行為)則分別是百姓2020年上半年和2021年上半年投訴較多的問題。
2.5答復標記
如表10和表11所示,2020年上半年和2021年上半年非即時回復減少13.49%,已即時答復增加62.88%。
通過對答復標記數據量的分析,2020年上半年和2021年上半年,非即時答復數據量變化不大,已即時答復數據量有接近20萬的增幅,這說明某市12328即時答復率增加顯著,側面反映出了話務員能解答的問題更多,電話服務質量更好。
2.6電話服務滿意度
如圖6和圖7所示,從2020年上半年過渡到2021年上半年,非常滿意的百分比降低3%,滿意的百分比提高3%,不滿意的百分比保持不變。
通過對電話服務滿意度的分析,2020年上半年和2021年上半年,雖然電話數據量增加,但是非常滿意和滿意的電話數據量并沒有太大變化。
2.7每周&每小時熱力圖(heatmap)
熱力圖(heatmap)是一種比較常見的可視化手段,因其豐富的色彩變化和生動飽滿的信息表達被廣泛應用于各種大數據分析場景。
如圖8和圖9所示,將每星期每天、小時數和相應的電話數據量建立聯(lián)系畫出熱力圖,顏色較淺的區(qū)域表明電話數據量較多,顏色較深的區(qū)域表明電話數據量較少。
2.8 每周&每小時聚類圖(clustermap)
聚類圖是一種可對數據進行分類的圖像。Python中的seaborn模塊提供了聚類功能,可以使用多種聚類分析方法對數據進行聚類分析,本文使用了聚類圖里由Sokal和Michener提出的UPGMA(Unweighted Pair Group Method with Arithmetic Mean)[8]聚類算法,以下是算法簡介:
UPGMA(具有算術均值的非加權對組方法)是一種凝聚(自下而上)層次聚類方法。對于所有的點i和點j,|u|和|v|分別是類u和類v的基數。
聚類圖除了可以采用熱力圖對相關系數進行可視化,還可以根據相關系數對變量進行聚類,發(fā)現(xiàn)熱力圖數據的結構。
在聚類圖函數里,不僅使用了熱力圖,而且還使用了聚類功能,使得繪制出來的熱力圖具有橫向樣本和縱向樣本的聚類功能。
如圖10所示,從橫向聚類分析,聚類圖將周六周日的數據量分為一類,周一到周五的數據量分為另一類,更多分類依此類推。從縱向聚類分析,聚類圖將9點到下午16點的數據量分為一類,其他時間段的數據量分為另一類,更多分類依此類推。
如圖11所示,從橫向聚類分析,聚類圖也是將周六周日的數據量分為一類,周一到周五的數據量分為另一類,更多分類依此類推。從縱向聚類分析,聚類圖將9點到下午17點的數據量分為一類,其他時間段的數據量分為另一類,更多分類依此類推。
通過對每周與每小時相關的熱力圖和聚類圖的分析,2020年上半年和2021年上半年,周一到周四上午的9點至下午16點,都是電話數據量比較多的時間。2021年上半年,周五上午9點至下午16點數據量明顯比2020年上半年多。
2.9每月&星期熱力圖(heatmap)
如圖12和圖13所示,將每星期每天、每個月和相應的電話數據量建立聯(lián)系畫出熱力圖,顏色較淺的區(qū)域表明電話數據量較多,顏色較深的區(qū)域表明電話數據量較少。
2.10每月&每周聚類圖(clustermap)
如圖14所示,從橫向聚類分析,聚類圖將周六周日的數據量分為一類,周一到周五的數據量分為另一類,更多分類數量依此類推。從縱向聚類分析,聚類圖將1月份數據量分為一類,其他月份的數據量分為另一類,更多分類依此類推。
如圖15所示,從橫向聚類分析,聚類圖也是將周六周日的數據量分為一類,周一到周五的數據量分為另一類,更多分類依此類推。從縱向聚類分析,聚類圖將一月份的數據量分為一類,其他月份的數據量分為另一類,更多分類依此類推。
通過對每周與每月相關的熱力圖和聚類圖的分析,2020年上半年,周一到周五數據量較多,其中一月份周三和周四、六月份周一和周二電話數據量較多,其他時間段的電話數據量相對較少。2021年上半年,一月份的周五電話數據量較多,周一、周二、周三、周四、周六和周日電話數據量次之,其他時間段的電話數據量相對少。
3建議
本文所提供的數據分析結果可為相關行業(yè)人員提供一定參考,比如數據量多的時候可以多安排一些話務員,數據量少的時候可以適當少安排話務員,減少人力物力成本。又比如為了減少百姓對公共汽電車的文明服務(司乘人員服務態(tài)度等)和公共汽電車的運行間隔(包括發(fā)車間隔、等待時間等)提出投訴,為群眾做實事,可以進一步提升公共汽電車的文明服務,優(yōu)化完善公共汽電車的運行間隔時間。再比如可根據每星期每天12328數據量的多少,適當調整限號政策,一定程度上減輕交通壓力。12328電話監(jiān)督服務是反映百姓對交通服務滿意度晴雨表,從探索性分析的角度不僅可以使相關行業(yè)者對交通行業(yè)的現(xiàn)狀有大概的了解,并且能從數據中挖掘出百姓對交通服務有哪些疑問,對哪些方面有意見,并能夠結合行業(yè)具體情況,調整相關政策,做到腳踏實地為百姓辦實事,提升百姓對交通服務行業(yè)的滿意度。
4總結及展望
本文所采用的探索性數據分析(EDA)方法不僅對2020年上半年和2021年上半年兩個時間段的數據進行了單屬性畫圖分析,而且將多個屬性交叉進行畫圖分析,說明了疫情發(fā)生后,12328電話的大部分屬性的數據量都有所減少。同時,將業(yè)務領域數據量與接聽時間進行有效結合,發(fā)現(xiàn)了電話數據量隨固定時間發(fā)生變化的一般性規(guī)律,并進行了聚類分析。但是,在探索12328電話數據過程中仍然面臨一些挑戰(zhàn),比如在分析文本類12328電話數據,用文本提取相關方法統(tǒng)計并對詞頻進行排序時,雖然能統(tǒng)計出文本中出現(xiàn)頻率最高的關鍵詞,但是對實際生活產生意義不大。又比如,通過幾種數據屬性進行機器學習,雖然能預測出接聽滿意度,但是準確率并不高。無論今后能否優(yōu)化文本分析以及預測算法,本文都能為進一步探索分析12328電話數據提供必要參考。
參考文獻:
[1]季建林,張明島,儲展明,等.上海心理健康熱線電話心理咨詢應用評估Ⅱ:電話咨詢服務的特點及療效[J].臨床精神醫(yī)學雜志,1995(5):270-271.
[2]高文斌,陳祉妍.心理咨詢熱線在突發(fā)性公共衛(wèi)生事件中的應用分析[J].心理科學進展,2003(4):400-404.
[3]丁小磊.江蘇省12320公益電話數據分析及在突發(fā)公共衛(wèi)生事件中的應用[J].江蘇預防醫(yī)學,2010(1):60-61.
[4]楊懿軒,陸斌,徐夢清,等.基于12328電話數據的城市交通問題分析[J].交通運輸工程與信息學報,2019(4):113-121.
[5]馮松,李正銀,孫菲.地級城市12328電話數據分析與成果應用--以出租汽車投訴工單為例[J].現(xiàn)代交通技術,2021(2):65-67,82.
[6]李正銀,夏斯明,金春良.交通服務熱線數據信息在行業(yè)管理中的應用研究[J].科技創(chuàng)新與應用,2017(32):135-136.
[7]Tukey, John W. (1977). Exploratory Data Analysis. Pearson. ISBN 978-0201076165.
[8] Sokal, Michener(1958).”A statistical method for? evaluating systematic relationships”. University of Kansas Science Bulletin.38:1409-1438.