曾祥富
(武漢鐵路職業(yè)技術(shù)學(xué)院,武漢 430205)
工務(wù)軌道檢測(cè)數(shù)據(jù)包括動(dòng)態(tài)檢測(cè)數(shù)據(jù)和靜態(tài)檢測(cè)數(shù)據(jù)。檢測(cè)數(shù)據(jù)管理包括數(shù)據(jù)采集、預(yù)處理、入庫集成和智能化展示[1]。目前,國(guó)內(nèi)鐵路檢測(cè)數(shù)據(jù)分析主要依托工務(wù)安全生產(chǎn)管理信息平臺(tái),形成相對(duì)固化的數(shù)據(jù)采集處理分析模式[2]。
而隨著數(shù)字化發(fā)展,軌檢數(shù)據(jù)分析已不滿足于簡(jiǎn)單的數(shù)據(jù)統(tǒng)計(jì)和報(bào)表生成,更需要擁有豐富的可視化、自動(dòng)分析甚至智能洞察功能。而數(shù)據(jù)分析人員也面臨著大量的本地?cái)?shù)據(jù)需要處理、多種維度不同層次參與分析及不斷變化的業(yè)務(wù)需求等問題。傳統(tǒng)定制模式下的軌道檢測(cè)數(shù)據(jù)分析面對(duì)這些問題時(shí)存在著明顯不足。
目前國(guó)鐵集團(tuán)范圍內(nèi)使用的工務(wù)安全生產(chǎn)管理系統(tǒng)功能齊全,體系龐大,但需求更改、功能完善流程繁瑣、周期漫長(zhǎng)。通常工務(wù)部門提出分析需求,軟件開發(fā)人員需要首先理解業(yè)務(wù),再根據(jù)需求進(jìn)行建模制表,如果系統(tǒng)過于龐大、使用人數(shù)太多,開發(fā)者需要權(quán)衡需求變更對(duì)其他用戶的影響及對(duì)整個(gè)系統(tǒng)其他功能的影響。因而其不能適應(yīng)快速變化的業(yè)務(wù)需求,特別是自定義式數(shù)據(jù)分析要求。
傳統(tǒng)的數(shù)據(jù)分析,基本上是被動(dòng)滿足分析需求,或受限于工具。主要表現(xiàn)為,一是對(duì)問題的解析不夠,思考不夠,很難超越單一圖形,未深入對(duì)數(shù)據(jù)進(jìn)行鉆取。二是缺少結(jié)構(gòu)化思維、層次思維,以致于分析不成體系。比如軌檢數(shù)據(jù)分析得出線路質(zhì)量穩(wěn)中有升,而添乘晃車數(shù)據(jù)顯示質(zhì)量下滑,兩者結(jié)果不能有效印證。比如在分析各線路區(qū)段軌道不平順質(zhì)量指數(shù)(Track Quality Index,TQI)對(duì)比的同時(shí),未引入不同大機(jī)搗固車隊(duì)作業(yè)的比例信息。
一是規(guī)律洞察不夠。傳統(tǒng)的三圖一表仍是主要的分析方式。所謂三圖一表,即條形圖、折線圖、餅圖和交叉表。而大數(shù)據(jù)分析通常強(qiáng)調(diào)大數(shù)據(jù)樣本的宏觀特征、分布規(guī)律和相互關(guān)系,對(duì)應(yīng)的直方圖、盒須圖和散點(diǎn)圖等高級(jí)圖形應(yīng)用較少。二是數(shù)據(jù)交互不足。閱讀者經(jīng)常只能被動(dòng)地接受分析結(jié)果,而不同的決策層所關(guān)注的重點(diǎn)又有所不同,對(duì)比的層次也不盡相同,這時(shí)候就需要一些假設(shè)性檢驗(yàn),所以也需要更多的交互。
工務(wù)系統(tǒng)數(shù)據(jù)分析工作者大多都不太注重可視化原理運(yùn)用,對(duì)圖表選擇、可視化展示較為隨意,分析報(bào)告不能符合表達(dá)分析邏輯。比如在條形圖和柱狀圖選擇上不區(qū)分變量類型,在表示時(shí)間趨勢(shì)的折線圖和表示占比關(guān)系的餅圖中分析對(duì)象過多。
Tableau作為一款數(shù)據(jù)可視化分析工具,獨(dú)創(chuàng)VizOL技術(shù),具有SQL查詢的綜合性功能,操作簡(jiǎn)單,易于上手,能夠滿足業(yè)務(wù)人員常規(guī)數(shù)據(jù)分析需求,同時(shí)通過可視化增強(qiáng)分析手段,能夠快速形成輔助決策的圖形依據(jù)[3]。為彌補(bǔ)傳統(tǒng)數(shù)據(jù)分析方案的不足,適應(yīng)自定義數(shù)據(jù)分析需求,筆者提出基于Tableau的工務(wù)檢測(cè)數(shù)據(jù)自定義式可視化管理解決方案。
在軌道檢測(cè)數(shù)據(jù)分析中存在大量本地Excel表,需要對(duì)這些數(shù)據(jù)進(jìn)行規(guī)范管理、規(guī)范記錄。
2.1.1 理清明細(xì)表與匯總表的關(guān)系
匯總表中通常存在多行表頭,要大量合并單元格,這在進(jìn)行數(shù)據(jù)分析時(shí)需要對(duì)單元格進(jìn)行拆分才能進(jìn)一步地篩選或者作數(shù)據(jù)透視處理。而數(shù)據(jù)分析時(shí)需要的是1張二維明細(xì)表,其應(yīng)符合以下原則:①每一行應(yīng)是1條單獨(dú)的記錄。每一條記錄根據(jù)其特性不應(yīng)重復(fù)。②每一條單獨(dú)記錄應(yīng)是完整的不可拆分的單元,一個(gè)完整的業(yè)務(wù)流程。③每一列代表1個(gè)單獨(dú)屬性,盡量避免大寬表。④盡量保證數(shù)據(jù)記錄完整,杜絕合并單元格,刪除多重表頭。標(biāo)題不能為空、不能重復(fù),盡量不要用數(shù)字作為標(biāo)題。⑤數(shù)據(jù)字段應(yīng)包含關(guān)鍵字段,即數(shù)據(jù)庫各表中的主鍵字段,比如記錄設(shè)備狀態(tài)信息,那么不同表數(shù)據(jù)的關(guān)聯(lián)可以選擇設(shè)備編號(hào)作為主鍵。⑥明細(xì)表中應(yīng)避免計(jì)算引用過多,導(dǎo)致表格打開過慢。明細(xì)表中不使用數(shù)據(jù)有效性、條件格式和數(shù)組公式等。
2.1.2 規(guī)范數(shù)據(jù)管理記錄格式
1)規(guī)范本地?cái)?shù)據(jù)文件命名。統(tǒng)一按照結(jié)構(gòu)門類制定命名規(guī)則。
2)規(guī)范日期文本記錄方式。日期應(yīng)統(tǒng)一采用“XXXX年XX月XX日、XXXX/XX/XX、XXXX-XX-XX”,文本內(nèi)容中間盡量不留空,字段意思不重復(fù)。
采用Tableau Prep對(duì)數(shù)據(jù)進(jìn)行字段清理和結(jié)構(gòu)調(diào)整。其中字段清理包括對(duì)里程信息進(jìn)行校正、不同數(shù)據(jù)類型格式調(diào)整和無效字段剔除等。結(jié)構(gòu)調(diào)整包括對(duì)不同數(shù)據(jù)表進(jìn)行并集、連接操作,按照不同層次進(jìn)行預(yù)先聚合等。Tableau Prep對(duì)軌檢車檢測(cè)原始數(shù)據(jù)進(jìn)行預(yù)處理如圖1所示。
圖1 利用Tableau Prep對(duì)軌道檢測(cè)數(shù)據(jù)進(jìn)行預(yù)處理(截圖)
工務(wù)檢測(cè)數(shù)據(jù)分析應(yīng)當(dāng)是基于可視化的自定義分析??砂匆韵侣窂絹韺?shí)現(xiàn)。
軌道檢測(cè)數(shù)據(jù)可視化分析應(yīng)遵從基本的可視化原理。一是依據(jù)視覺前意識(shí)屬性選擇數(shù)據(jù)表達(dá)的方式。所謂視覺前意識(shí),即人類感受視覺信號(hào)的強(qiáng)弱,通常的敏感程度為:位置大于長(zhǎng)度或顏色大于角度大于形狀改變大于顏色的遞減。二是服從基于可視化原理總結(jié)出的圖形選擇的一般規(guī)律。比如在研究某一區(qū)段TQI隨時(shí)間變化趨勢(shì)時(shí),可以選擇柱狀圖和折線圖,但這兩者之間是有區(qū)別的。如果觀測(cè)的時(shí)間是離散型變量,比如1月、3月、5月和7月這樣的時(shí)間序列,且表達(dá)的數(shù)量不超過12個(gè)時(shí),可以選擇柱狀圖。但是如果觀測(cè)的時(shí)間是連續(xù)性變量,比如1月15日、2月21日和3月24日,觀測(cè)的時(shí)間點(diǎn)甚至多于12個(gè)時(shí),則優(yōu)先選擇折線圖。軌道檢測(cè)數(shù)據(jù)分析圖形選擇建議見表1。
表1 不同數(shù)據(jù)關(guān)系對(duì)應(yīng)的圖表選擇
工務(wù)軌檢數(shù)據(jù)結(jié)構(gòu)化分析思維主要是針對(duì)軌檢車檢測(cè)的幾何參數(shù)(軌距、水平、三角坑、高低和方向)、舒適度指標(biāo)(橫向加速度、垂向加速度)及輔助評(píng)價(jià)參數(shù)(TQI、T值報(bào)表)等進(jìn)行分析[4]。從統(tǒng)計(jì)學(xué)角度來說,主要是運(yùn)用了應(yīng)用統(tǒng)計(jì)學(xué)中描述性統(tǒng)計(jì)學(xué)和推斷統(tǒng)計(jì)學(xué)內(nèi)容進(jìn)行分析,并將其歸類于峰值指標(biāo)、均值指標(biāo)和軌道功率譜分析。這是根據(jù)數(shù)據(jù)本身特點(diǎn),運(yùn)用統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)對(duì)軌道檢測(cè)數(shù)據(jù)的利用基本分析,對(duì)軌檢車檢測(cè)數(shù)據(jù)結(jié)構(gòu)本身進(jìn)行多維度拆解分析。
但對(duì)生產(chǎn)組織管理者來說,還需要引入生產(chǎn)元素層次,真正實(shí)現(xiàn)利用軌檢數(shù)據(jù)指導(dǎo)生產(chǎn)[5],將軌檢數(shù)據(jù)分析納入“檢查—分析—計(jì)劃—作業(yè)—驗(yàn)收”這個(gè)閉環(huán)管理的大的結(jié)構(gòu)層次,見表2。
表2 不同生產(chǎn)環(huán)節(jié)軌檢分析內(nèi)容
結(jié)構(gòu)化分析應(yīng)超越單一圖形本身,從多個(gè)角度分析業(yè)務(wù),分析不同問題之間的結(jié)構(gòu)相關(guān)性。可以通過標(biāo)記、參考線、分布區(qū)間和儀表板互動(dòng)來實(shí)現(xiàn),高級(jí)的結(jié)構(gòu)化分析則是在一個(gè)視圖中引入多個(gè)層級(jí)的聚合。
3.2.1 利用顏色增加結(jié)構(gòu)分析層次
如需要比較各條線TQI在不同年份的差異??梢酝ㄟ^顏色增加分析層次。如圖2所示。
圖2 通過增加差異列及顏色方式增加分析層次
3.2.2 利用形狀增加分析層次
在Tableau中利用標(biāo)記的形狀可視化增強(qiáng)方式來增加分析層次。如圖3所示。
圖3 不同軌道單元TQI通過長(zhǎng)方形大小區(qū)分
3.2.3 利用參考線、參考區(qū)間和分布區(qū)間等增加對(duì)比分析層次
在軌檢目標(biāo)達(dá)成分析中可引入?yún)⒖季€等增加分析層次。
高級(jí)交互主要是在進(jìn)行數(shù)據(jù)分析時(shí),通過樣本控制、假設(shè)驗(yàn)證等手段洞察軌道檢測(cè)數(shù)據(jù)的異常及規(guī)律。比較常見的是數(shù)據(jù)鉆取與追蹤分析。
3.3.1 數(shù)據(jù)鉆取
現(xiàn)有不同類型線路TQI值數(shù)據(jù),將2021年TQI值與TQI目標(biāo)值進(jìn)行對(duì)比。由圖4可見,會(huì)認(rèn)為繁忙干線、干線及支線TQI均超標(biāo)了。但再引入TQI差值匯總對(duì)比維度,就會(huì)發(fā)現(xiàn)在支線里還有2021年TQI小于目標(biāo)值的線路。
圖4 引入不同層次發(fā)現(xiàn)明細(xì)差異
3.3.2 追蹤分析
在分析某些區(qū)段時(shí),需要?jiǎng)討B(tài)觀察這些區(qū)段的變化情況,特別是追蹤分析一些大值區(qū)段。由圖5可知,追蹤TQI最后5名設(shè)備單元,可以看到武穴蔡山160區(qū)段設(shè)備在2013年8月以后設(shè)備質(zhì)量明顯改善,可深度分析是否對(duì)該設(shè)備單元進(jìn)行綜合整治。
圖5 追蹤不同設(shè)備單元變化趨勢(shì)
總結(jié)規(guī)律、發(fā)現(xiàn)異常和預(yù)測(cè)趨勢(shì)是數(shù)據(jù)分析的主要目的,交互驗(yàn)證分析是以Tableau為代表的敏捷BI與傳統(tǒng)分析的最大區(qū)別。工務(wù)軌道檢測(cè)數(shù)據(jù)分析應(yīng)從業(yè)務(wù)出發(fā),基于實(shí)際問題的解決,運(yùn)用數(shù)理統(tǒng)計(jì)知識(shí)、結(jié)構(gòu)化思維方式對(duì)數(shù)據(jù)進(jìn)行深度有效挖掘,以適應(yīng)工務(wù)軌檢數(shù)據(jù)輔助決策的要求。