保魯昆,孫玉明
(1. 中國(guó)鐵道科學(xué)研究院集團(tuán)有限公司 運(yùn)輸及經(jīng)濟(jì)研究所,北京 100081;2. 中國(guó)鐵路總公司 科技與信息化部,北京 100844)
《鐵路技術(shù)管理規(guī)程》(簡(jiǎn)稱(chēng)《技規(guī)》)是國(guó)家鐵路技術(shù)管理的基本規(guī)章,對(duì)鐵路的基本建設(shè)、運(yùn)輸生產(chǎn)和安全管理都起著重要作用,其內(nèi)容包括高速鐵路和普速鐵路2部分[1]。目前,大多數(shù)學(xué)者對(duì)《技規(guī)》的研究和分析主要集中在具體條款的論證[2]、整體宏觀分析[3]和技術(shù)規(guī)章管理[4-5]等方面,缺少采用定量方法對(duì)《技規(guī)》文本內(nèi)容進(jìn)行的研究。近年來(lái),隨著統(tǒng)計(jì)語(yǔ)言處理技術(shù)的快速發(fā)展,利用統(tǒng)計(jì)語(yǔ)言處理技術(shù)揭示文本內(nèi)容中蘊(yùn)藏的奧秘,可為重要文件內(nèi)容的規(guī)范提供技術(shù)支撐。采用統(tǒng)計(jì)語(yǔ)言處理技術(shù),對(duì)《技規(guī)》普速鐵路部分和高速鐵路部分文本內(nèi)容進(jìn)行定量分析,探究《技規(guī)》的語(yǔ)言特點(diǎn)和范式。此外,在對(duì)《技規(guī)》相關(guān)數(shù)據(jù)資源建立關(guān)聯(lián)的基礎(chǔ)上,實(shí)現(xiàn)對(duì)《技規(guī)》條款適應(yīng)性的定量分析。
利用自然語(yǔ)言處理與信息檢索共享平臺(tái)(Natural Language Processing & Information Retrieval Sharing Platform,NLPIR)[6]對(duì)《技規(guī)》普速鐵路部分和高速鐵路部分分別進(jìn)行詞頻統(tǒng)計(jì)和共詞分析。由于上述分析的基礎(chǔ)是中文分詞技術(shù),分詞的準(zhǔn)確性直接影響分析結(jié)果[7]。考慮到NLPIR平臺(tái)詞庫(kù)是中文通用詞庫(kù),首先對(duì)《技規(guī)》進(jìn)行新詞發(fā)現(xiàn),把發(fā)現(xiàn)的新詞進(jìn)一步編輯標(biāo)注后,導(dǎo)入系統(tǒng)詞典中,從而提高對(duì)《技規(guī)》分詞的準(zhǔn)確度。
通過(guò)統(tǒng)計(jì)分析,《技規(guī)》普速鐵路部分正文總字?jǐn)?shù)103 775個(gè),總詞數(shù)49 564個(gè),去掉重復(fù)詞后總詞數(shù)4 166個(gè);高速鐵路部分正文總字?jǐn)?shù)106 122個(gè),總詞數(shù)38 650個(gè),去掉重復(fù)詞后總詞數(shù)4 114個(gè),略低于普速鐵路部分。下面分別從崗位工種、移動(dòng)裝備、固定設(shè)施、嚴(yán)格程度詞以及共詞現(xiàn)象等方面對(duì)《技規(guī)》進(jìn)行對(duì)比統(tǒng)計(jì)分析。
對(duì)《技規(guī)》普速鐵路部分和高速鐵路部分中涉及崗位工種的詞語(yǔ)進(jìn)行統(tǒng)計(jì),主要崗位工種出現(xiàn)次數(shù)對(duì)比分析見(jiàn)表1。
表1 《技規(guī)》主要崗位工種出現(xiàn)次數(shù)對(duì)比分析
由表1可知,《技規(guī)》普速鐵路部分和高速鐵路部分排在前3位的崗位工種范圍一致,均為“司機(jī)”“車(chē)站值班員”和“列車(chē)調(diào)度員”,但普速鐵路部分“司機(jī)”和“車(chē)站值班員”排在第1、2位,而高速鐵路部分“列車(chē)調(diào)度員”和“司機(jī)”排在第1、2位,說(shuō)明《技規(guī)》普速鐵路部分“司機(jī)”和“車(chē)站值班員”在行車(chē)工作中占主要地位,高速鐵路部分“列車(chē)調(diào)度員”和“司機(jī)”占據(jù)行車(chē)工作的主要地位。從崗位工種出現(xiàn)的次數(shù)看,《技規(guī)》高速鐵路部分前3位崗位工種出現(xiàn)的次數(shù)為1 021次,普速鐵路部分前3位崗位工種出現(xiàn)次數(shù)為357次,高速鐵路部分遠(yuǎn)大于普速鐵路部分,說(shuō)明高速鐵路部分條款編寫(xiě)更詳細(xì)地明確了具體崗位職責(zé)流程,更有利于全路統(tǒng)一和現(xiàn)場(chǎng)執(zhí)行。
對(duì)《技規(guī)》普速鐵路部分和高速鐵路部分中涉及移動(dòng)裝備的詞語(yǔ)進(jìn)行統(tǒng)計(jì)分析,主要移動(dòng)裝備詞語(yǔ)出現(xiàn)次數(shù)對(duì)比分析見(jiàn)表2。
表2 《技規(guī)》主要移動(dòng)裝備詞語(yǔ)出現(xiàn)次數(shù)對(duì)比分析
由表2可知,《技規(guī)》普速鐵路部分排在前3位的移動(dòng)裝備分別為“機(jī)車(chē)”“車(chē)輛”和“動(dòng)車(chē)組”,高速鐵路部分排在前3位的移動(dòng)裝備分別為“動(dòng)車(chē)組”“機(jī)車(chē)”和“車(chē)輛”。前3位范圍一致,但普速鐵路部分“機(jī)車(chē)”和“車(chē)輛”排在第1、2位,說(shuō)明《技規(guī)》普速鐵路部分行車(chē)組織的主要移動(dòng)裝備為“機(jī)車(chē)”和“車(chē)輛”;高速鐵路部分排在首位的是“動(dòng)車(chē)組”,說(shuō)明高速鐵路部分行車(chē)組織的主要移動(dòng)裝備為“動(dòng)車(chē)組”。
此外,《技規(guī)》高速鐵路部分中各編關(guān)于列車(chē)運(yùn)行監(jiān)控裝置的表述不一致,其中正文中單獨(dú)使用“LKJ”有89處,在三編中均有不同數(shù)量的出現(xiàn);使用“列車(chē)運(yùn)行監(jiān)控裝置”有10處,主要出現(xiàn)在第二編;使用“列車(chē)運(yùn)行監(jiān)控裝置(LKJ)”有5處,主要出現(xiàn)在第一編,該表述有待進(jìn)行規(guī)范統(tǒng)一?!都家?guī)》普速鐵路部分中關(guān)于旅客列車(chē)和貨物列車(chē)的表述不一致,其中使用“旅客列車(chē)”有73處,“客車(chē)”有65處;使用“貨物列車(chē)”有52處,“貨車(chē)”有35處,有待進(jìn)行規(guī)范統(tǒng)一。
對(duì)《技規(guī)》普速鐵路部分和高速鐵路部分中涉及固定設(shè)施的詞語(yǔ)進(jìn)行統(tǒng)計(jì)分析,主要固定設(shè)施詞語(yǔ)出現(xiàn)次數(shù)對(duì)比分析見(jiàn)表3。
由表3可知,《技規(guī)》普速鐵路部分和高速鐵路部分排在前3位的固定設(shè)施分別為“線路”“信號(hào)機(jī)”和“道岔”,并且出現(xiàn)次數(shù)相近,說(shuō)明普速鐵路部分和高速鐵路部分在固定設(shè)施應(yīng)用管理方面基本一致;除前3項(xiàng)以外的固定設(shè)施出現(xiàn)次數(shù)差異較大,如普速鐵路部分“接觸網(wǎng)”排在第6位、出現(xiàn)34次,而在高速鐵路部分排在第4位、出現(xiàn)70次。
表3 《技規(guī)》主要固定設(shè)施詞語(yǔ)出現(xiàn)次數(shù)對(duì)比分析
對(duì)《技規(guī)》普速鐵路部分和高速鐵路部分中表示嚴(yán)格程度的詞進(jìn)行統(tǒng)計(jì)分析,主要嚴(yán)格程度詞出現(xiàn)次數(shù)對(duì)比分析見(jiàn)表4。
表4 《技規(guī)》主要嚴(yán)格程度詞出現(xiàn)次數(shù)對(duì)比分析
由表4可知,《技規(guī)》普速鐵路部分和高速鐵路部分中表示嚴(yán)格程度的詞語(yǔ)應(yīng)用基本一致,在對(duì)相關(guān)條款要求的表述上使用最多的嚴(yán)格程度詞為“應(yīng)”,占比分別為67%和68%?!皯?yīng)”表示正常情況下均這樣做,同時(shí)允許在經(jīng)過(guò)相關(guān)流程審批后突破相關(guān)規(guī)定。此外,《技規(guī)》中表示嚴(yán)格程度的詞大多使用的是正面詞,如“應(yīng)”“必須”“可”,而反面詞如“不得”“嚴(yán)禁”等使用相對(duì)較少。普速鐵路部分正面嚴(yán)格程度詞所占比例為91.3%,高速鐵路部分所占比例為93.5%。
共詞是文本中詞匯對(duì)或名詞短語(yǔ)的共現(xiàn)情況,用來(lái)反映關(guān)鍵詞之間的關(guān)聯(lián)強(qiáng)度,進(jìn)而確定這些詞所代表的學(xué)科或領(lǐng)域的研究熱點(diǎn)、組成與范式,橫向和縱向分析學(xué)科領(lǐng)域的發(fā)展過(guò)程和結(jié)構(gòu)演化[8]。將《技規(guī)》普速鐵路部分和高速鐵路部分作為1個(gè)整體進(jìn)行共詞分析,部分結(jié)果見(jiàn)表5。
表5 《技規(guī)》共詞分析部分結(jié)果
由表5可知,“CTCS”在《技規(guī)》中共出現(xiàn)117次,其后出現(xiàn)“-”的概率為100%,“登記簿”“站細(xì)”后出現(xiàn)“》”符號(hào)的概率也是100%,說(shuō)明這些詞語(yǔ)或符號(hào)在技術(shù)規(guī)章中必須同時(shí)出現(xiàn),否則說(shuō)明規(guī)章用語(yǔ)不規(guī)范。這些共詞的發(fā)現(xiàn),揭示了鐵路技術(shù)規(guī)章用語(yǔ)的組成與范式。共詞分析結(jié)果可應(yīng)用于編制或修訂技術(shù)規(guī)章時(shí)進(jìn)行文本語(yǔ)言檢查,后續(xù)可在技術(shù)規(guī)章輔助審查系統(tǒng)[9]中增加語(yǔ)言的邏輯檢查功能。
《技規(guī)》條款內(nèi)容的制定具有其時(shí)代背景,隨著鐵路技術(shù)設(shè)備升級(jí)、運(yùn)輸組織優(yōu)化、國(guó)家相關(guān)政策和標(biāo)準(zhǔn)的調(diào)整,《技規(guī)》在執(zhí)行過(guò)程中經(jīng)常會(huì)出現(xiàn)某些條款不適應(yīng)運(yùn)輸生產(chǎn)需要的情況,如某些條款無(wú)法執(zhí)行、嚴(yán)重影響作業(yè)效率以及涉及某些條款的事故較多等現(xiàn)象。為實(shí)現(xiàn)《技規(guī)》條款的適應(yīng)性評(píng)判,設(shè)計(jì)開(kāi)發(fā)《技規(guī)》知識(shí)管理系統(tǒng),利用條款適應(yīng)性評(píng)判模型對(duì)《技規(guī)》條款進(jìn)行自動(dòng)評(píng)價(jià)。
從現(xiàn)有數(shù)據(jù)來(lái)看,《技規(guī)》條款是否適應(yīng)現(xiàn)場(chǎng)實(shí)際主要表現(xiàn)在條款反饋的問(wèn)題數(shù)量、因?yàn)楸緱l款發(fā)生的事故數(shù)以及交流論壇討論熱度等。通過(guò)建立《技規(guī)》條款與《技規(guī)》問(wèn)題庫(kù)、事故案例庫(kù)以及交流論壇的關(guān)聯(lián)關(guān)系,利用統(tǒng)計(jì)分析方法對(duì)《技規(guī)》條款的適應(yīng)性進(jìn)行評(píng)判。
《技規(guī)》條款適應(yīng)性評(píng)判模型包括3個(gè)變量:第i條款在一定時(shí)期發(fā)生的事故數(shù)xi1、提出的問(wèn)題數(shù)xi2和論壇討論該條款的主題數(shù)xi3,根據(jù)經(jīng)驗(yàn)對(duì)這3個(gè)變量分別設(shè)置不同的權(quán)重?1、?2和?3。為使變量具有可比性,采用消除量綱的方法,把變量參數(shù)調(diào)整至[0,1]區(qū)間,則《技規(guī)》第i條款的適應(yīng)性為:
式中:yi為《技規(guī)》第i條款的適應(yīng)性值;?1為事故數(shù)據(jù)權(quán)重,?2為問(wèn)題數(shù)據(jù)權(quán)重,?3為交流論壇主題數(shù)權(quán)重,?1、?2、?3均介于 0~1 間,?1+?2+?3=1;m為所有條款中事故數(shù)量最大值;n為所有條款中問(wèn)題數(shù)量最大值;z為所有條款中回帖數(shù)量最大值。
2.2.1 系統(tǒng)架構(gòu)
采用B/S(Brower/Server)結(jié)構(gòu)的開(kāi)放式系統(tǒng)架構(gòu),以當(dāng)前業(yè)界比較流行的開(kāi)源框架平臺(tái)作為開(kāi)發(fā)的規(guī)范依據(jù),并按業(yè)務(wù)特點(diǎn)進(jìn)行界面、業(yè)務(wù)和數(shù)據(jù)的分離,設(shè)計(jì)結(jié)構(gòu)清晰,具有易用性、通用性和良好延展性的知識(shí)管理系統(tǒng),并便于后期維護(hù)和功能擴(kuò)展。知識(shí)管理系統(tǒng)包括表示層、控制層、業(yè)務(wù)邏輯層、數(shù)據(jù)持久層和基礎(chǔ)數(shù)據(jù)庫(kù),各層通過(guò)Spring框架技術(shù)整合統(tǒng)籌管理。表示層提供工作界面,供用戶(hù)錄入和查詢(xún)業(yè)務(wù)數(shù)據(jù),進(jìn)行初步的數(shù)據(jù)檢驗(yàn),反饋操作結(jié)果,上傳和下載文檔;控制層采用目前流行的Spring MVC框架技術(shù),實(shí)現(xiàn)表示層和業(yè)務(wù)邏輯層的關(guān)聯(lián)及跳轉(zhuǎn);業(yè)務(wù)邏輯層接受表示層的請(qǐng)求,具體處理業(yè)務(wù)數(shù)據(jù);數(shù)據(jù)持久層采用MyBatis、Spring DAO框架,調(diào)用數(shù)據(jù)庫(kù)接口存貯數(shù)據(jù)至基礎(chǔ)數(shù)據(jù)庫(kù)中。
2.2.2 系統(tǒng)原型開(kāi)發(fā)
根據(jù)架構(gòu)設(shè)計(jì)和《技規(guī)》條款適應(yīng)性評(píng)判模型,開(kāi)發(fā)《技規(guī)》知識(shí)管理系統(tǒng)[10],建立《技規(guī)》條文說(shuō)明、問(wèn)題庫(kù)、事故案例庫(kù)、培訓(xùn)材料和交流論壇等相關(guān)數(shù)據(jù)與《技規(guī)》條款的關(guān)聯(lián)關(guān)系。系統(tǒng)首頁(yè)見(jiàn)圖1。
圖1 《技規(guī)》知識(shí)管理系統(tǒng)首頁(yè)
將中國(guó)鐵路總公司第1版《技規(guī)》及其條文說(shuō)明數(shù)據(jù)上傳系統(tǒng),隨著《技規(guī)》問(wèn)題庫(kù)和事故案例的累積,《技規(guī)》條款適應(yīng)性評(píng)判功能逐漸發(fā)揮作用。后續(xù)將根據(jù)適應(yīng)性評(píng)判結(jié)果,通過(guò)機(jī)器學(xué)習(xí)和人工干預(yù)調(diào)整適應(yīng)性評(píng)判模型的相關(guān)參數(shù),逐步提高條款適應(yīng)性評(píng)判的準(zhǔn)確度,為《技規(guī)》學(xué)習(xí)、培訓(xùn)以及制修訂提供輔助決策支持。
通過(guò)對(duì)中國(guó)鐵路總公司第1版《技規(guī)》進(jìn)行定量分析,揭示《技規(guī)》的語(yǔ)言特點(diǎn)和范式,為今后《技規(guī)》的修訂和其他技術(shù)規(guī)章的制修訂與審查提供參考。后續(xù)將繼續(xù)擴(kuò)大中國(guó)鐵路總公司技術(shù)規(guī)章研究樣本數(shù)量,挖掘技術(shù)規(guī)章文本與規(guī)章間更多的隱藏關(guān)系。《技規(guī)》知識(shí)管理系統(tǒng)的設(shè)計(jì)與開(kāi)發(fā)為《技規(guī)》相關(guān)領(lǐng)域知識(shí)的搜集和管理提供了技術(shù)支持,經(jīng)過(guò)一定時(shí)間的數(shù)據(jù)積累,通過(guò)大數(shù)據(jù)分析手段和技術(shù),可提出《技規(guī)》宣貫、培訓(xùn)及制修訂建議,進(jìn)一步提高《技規(guī)》管理質(zhì)量和水平。