盧軍源 劉宇 馬進(jìn)
摘要:文章介紹了加權(quán)屬性K-means聚類算法在路面養(yǎng)護(hù)工程中的應(yīng)用,提出了基于該算法的高速公路路面技術(shù)狀況分析及養(yǎng)護(hù)路段劃分決策,并以廣西某高速公路養(yǎng)護(hù)工程為例,對(duì)傳統(tǒng)K-means和加權(quán)屬性K-means聚類分析法在路面技術(shù)狀況屬性特征類似的每百米路段分類中的應(yīng)用進(jìn)行了比較。結(jié)果表明:加權(quán)屬性聚類算法比傳統(tǒng)的聚類算法更有效、可靠,可為今后高速公路養(yǎng)護(hù)工程項(xiàng)目提供計(jì)算分析和科學(xué)決策參考。
關(guān)鍵詞:數(shù)據(jù)挖掘;聚類分析;技術(shù)狀況;加權(quán)屬性;養(yǎng)護(hù)決策
中國(guó)分類號(hào):U418.1
0引言
在養(yǎng)護(hù)工程實(shí)際工作中一般以每公里路段作為技術(shù)狀況評(píng)定或?qū)嵤B(yǎng)護(hù)工程單元,且路況評(píng)定指標(biāo)是以每公里為單元的平均值計(jì)算,不能反映病害的具體位置。若以每公里及更長(zhǎng)里程為單元進(jìn)行養(yǎng)護(hù)分析和病害處治,不利于精準(zhǔn)地實(shí)施養(yǎng)護(hù)、維修的科學(xué)決策,必然會(huì)造成資源的浪費(fèi)。況且現(xiàn)行養(yǎng)護(hù)技術(shù)規(guī)范內(nèi)的養(yǎng)護(hù)決策樹技術(shù)指標(biāo)閾值是以路網(wǎng)級(jí)的養(yǎng)護(hù)水平制定的,未必能夠適用于項(xiàng)目級(jí)養(yǎng)護(hù)工程。因此,依據(jù)大量的路況數(shù)據(jù)將養(yǎng)護(hù)路段細(xì)化劃分,有利于管理者決策和實(shí)際施工[1]。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘應(yīng)運(yùn)而生,聚類分析作為數(shù)據(jù)挖掘的重要分支,在信息化時(shí)代有著舉足輕重的作用[2]。
1聚類分析方法理論
1.1傳統(tǒng)的K-means聚類算法
K-means聚類算法是由J.B.MacQueen在1967年提出的基于距離的聚類算法[3],但是沒有考慮不同屬性特征。其計(jì)算方法步驟如下:
2在路面養(yǎng)護(hù)工程的應(yīng)用
2.1加權(quán)屬性K-means聚類方法
基于傳統(tǒng)K-means聚類分析并改進(jìn)歐氏距離計(jì)算方法[4],有針對(duì)性地設(shè)定權(quán)重值,突出路面使用性能屬性,實(shí)現(xiàn)快速歸納不同路段位置的綜合病害特征,依據(jù)該特征進(jìn)行路段劃分,可為相應(yīng)的養(yǎng)護(hù)決策提供參考。加權(quán)屬性改進(jìn)K-means聚類分析算法流程如圖1所示,其中k值和權(quán)重值ω的選擇成為聚類計(jì)算的關(guān)鍵。
2.2特征屬性數(shù)據(jù)標(biāo)準(zhǔn)化
由于路面技術(shù)狀況檢測(cè)指標(biāo)如平整度、破損率、橫向力系數(shù)和車轍深度等在數(shù)值上不是一個(gè)量級(jí),根據(jù)歐氏距離計(jì)算原理,直接進(jìn)行聚類計(jì)算,量級(jí)大的樣本屬性如橫向力系數(shù)的影響最大,最終聚類結(jié)果會(huì)偏向該屬性,其他各類中屬性無明顯劃分,會(huì)陷入局部?jī)?yōu)解。因此,在進(jìn)行聚類分析前需要對(duì)不同的路面技術(shù)狀況指標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。
2.3聚類參數(shù)選擇方法
2.3.1聚類k值的選擇
在K-means聚類分析方法中[5],k值是人為設(shè)定的,往往需要領(lǐng)域?qū)<医Y(jié)合實(shí)際狀況和需求定義。在高速公路養(yǎng)護(hù)工程中,基于路面技術(shù)狀況分項(xiàng)指標(biāo)進(jìn)行聚類分析,實(shí)際上是根據(jù)不同路面技術(shù)狀況進(jìn)行路段劃分,不同路段有不同的屬性特征,理清“養(yǎng)護(hù)哪兒”“怎么養(yǎng)護(hù)”的主要矛盾。主要參考兩方面因素:(1)依據(jù)路面養(yǎng)護(hù)時(shí)機(jī);(2)根據(jù)養(yǎng)護(hù)措施的綜合修復(fù)效果。以路面病害較為復(fù)雜的瀝青路面為例(如圖2所示),綜合瀝青路面病害屬性養(yǎng)護(hù)措施為4類、養(yǎng)護(hù)時(shí)機(jī)為4類,本文選定k=4進(jìn)行聚類計(jì)算,其他聚類計(jì)算可參考本文研究思路進(jìn)行選擇。
2.3.2權(quán)重值的選擇
由于不同屬性對(duì)路面技術(shù)狀況的重要程度有差異,因此為保證聚類的精度和效率,根據(jù)不同屬性對(duì)聚類結(jié)果的影響、重要程度進(jìn)行賦權(quán),進(jìn)行加權(quán)時(shí)需要將計(jì)算的權(quán)重用在歐式距離計(jì)算中。聚類分析方法在路面養(yǎng)護(hù)工程中的應(yīng)用需要在各種約束條件下進(jìn)行才能獲取良好的聚類效果。依據(jù)路面技術(shù)狀況評(píng)定等級(jí)里程的統(tǒng)計(jì),選擇參與聚類分析分項(xiàng)指標(biāo)評(píng)定等級(jí)為良、中、次、差的里程數(shù),用于本文研究加權(quán)屬性聚類的權(quán)重值計(jì)算。權(quán)值計(jì)算方法如下頁(yè)表1所示。
3應(yīng)用項(xiàng)目案例
現(xiàn)以廣西某高速公路養(yǎng)護(hù)工程項(xiàng)目為案例,路段全長(zhǎng)108 km,以2019年度路面技術(shù)狀況指標(biāo)檢測(cè)結(jié)果DR、RD、SFC和IRI的每百米數(shù)據(jù)作為樣本對(duì)象,上下行各1 080個(gè)樣本,分別采用傳統(tǒng)K-means和加權(quán)屬性K-means聚類分析法,將路面技術(shù)狀況屬性特征類似的每百米路段分類。學(xué)者們通常應(yīng)用SPSS等軟件直接進(jìn)行聚類運(yùn)算和統(tǒng)計(jì)分析,但是類似軟件并沒有特征屬性設(shè)置權(quán)重值的功能。本文應(yīng)用Python編寫傳統(tǒng)K-means聚類和加權(quán)屬性K-means聚類兩種算法的程序,統(tǒng)計(jì)分析聚類結(jié)果。
3.1聚類計(jì)算過程
根據(jù)前文所述將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,并選擇聚類K=4。依據(jù)2019年廣西某高速公路路面技術(shù)狀況分項(xiàng)指標(biāo)評(píng)定里程匯總?cè)绫?所示,按前文的計(jì)算方法,計(jì)算聚類屬性距離權(quán)重值ωDR=0.04,ωIRI=0.06,ωSFC=0.81,ωRD=0.09。
3.2聚類計(jì)算結(jié)果分析
3.2.1傳統(tǒng)的K-means聚類結(jié)果
對(duì)上述高速公路上行路段樣本,執(zhí)行計(jì)算結(jié)果為A、B、C、D共4類,如表3所示。A類和D類是路面養(yǎng)護(hù)需重點(diǎn)關(guān)注路段,主要病害是抗滑不足和平整度較差,可采取加鋪薄層罩面或銑刨重鋪的養(yǎng)護(hù)措施提高路面使用性能。但路況分項(xiàng)指標(biāo)數(shù)值范圍出現(xiàn)嵌套,劃分類別中路段特征屬性有重疊,主要原因是數(shù)據(jù)組屬性提供的貢獻(xiàn)一致,并且受到隨機(jī)初始聚類中心的影響,聚類準(zhǔn)確性不高。
3.2.2加權(quán)屬性的K-means聚類結(jié)果
對(duì)上述高速公路上、下行路段樣本,執(zhí)行計(jì)算結(jié)果為1、2、3、4共4類,結(jié)論如下:
(1)如表4和表5所示分別為廣西某高速公路上、下行路段應(yīng)用加權(quán)屬性K-menas聚類計(jì)算結(jié)果,對(duì)比該傳統(tǒng)的算法,路面技術(shù)狀況各分項(xiàng)指標(biāo)的數(shù)值范圍內(nèi)基本消除類別之間嵌套的問題,劃分類別中數(shù)據(jù)屬性能突出病害特征,能夠更清晰地判斷主要路面技術(shù)狀況問題。
(2)上、下行路段分別將各個(gè)百米路段劃分為4類(根據(jù)路面技術(shù)狀況數(shù)據(jù)總結(jié)和判斷病害特征):路況良好、但抗滑性能一般;抗滑不足,局部破損嚴(yán)重、平整度較差;抗滑不足、局部輕微車轍;路況良好。
(3)依據(jù)聚類結(jié)果的主要分類,表4、表5各個(gè)類別的路面屬性指標(biāo)數(shù)據(jù)最大、最小值范圍,可將4個(gè)路段類別結(jié)合養(yǎng)護(hù)時(shí)機(jī)和養(yǎng)護(hù)措施實(shí)施養(yǎng)護(hù)決策。
(4)圖3和圖4所示為加權(quán)屬性聚類計(jì)算結(jié)果中百米路段的4個(gè)類別在某高速公路全線的分布點(diǎn)位、分段連續(xù)情況。根據(jù)表4和表5中4個(gè)類別的路況特點(diǎn)分析,抗滑不足、局部路段路面損壞嚴(yán)重和有車轍的路段主要集中在K1655~K1675段,經(jīng)調(diào)查該路段多處為長(zhǎng)大縱坡及轉(zhuǎn)彎超高路段,且貨車比例高達(dá)52%,抗滑性能較其他路段衰減快。
3.2.3基于聚類結(jié)果的路面養(yǎng)護(hù)建議
根據(jù)加權(quán)屬性K-means聚類分析結(jié)果,主要關(guān)注1類、2類、3類路段,4類路段可在3~5年內(nèi)實(shí)施日常養(yǎng)護(hù)。針對(duì)2類路段建議立即采取養(yǎng)護(hù)措施,鑒于抗滑不足的主要問題,可實(shí)施預(yù)防養(yǎng)護(hù)手段,對(duì)原有路面加鋪超薄磨耗層;對(duì)3類路段可列入養(yǎng)護(hù)計(jì)劃之中,或者合并至2類路段一起實(shí)施養(yǎng)護(hù),滿足施工連續(xù)性,具體情況依統(tǒng)籌養(yǎng)護(hù)資金和養(yǎng)護(hù)期限決定;1類路段抗滑性能一般,未來2~3年作為觀察期,依據(jù)每年度路面技術(shù)狀況檢測(cè)進(jìn)行養(yǎng)護(hù)決策。
4結(jié)語
(1)用加權(quán)屬性的方法改進(jìn)的K-means聚類分析,可以解決在傳統(tǒng)聚類分析中路面技術(shù)狀況各分項(xiàng)指標(biāo)的數(shù)值范圍類別之間嵌套的問題,改進(jìn)后各個(gè)類別的數(shù)據(jù)屬性能突出病害特征,能夠清晰判斷主要路面病害問題,提高路面養(yǎng)護(hù)路段劃分的準(zhǔn)確性,便于養(yǎng)護(hù)決策分析。
(2)本文在k值的選擇上考慮了病害類型、養(yǎng)護(hù)措施和養(yǎng)護(hù)時(shí)機(jī)等方面情況,通常情況可以采用基于每個(gè)簇的質(zhì)點(diǎn)與簇內(nèi)樣本點(diǎn)的平方距離誤差和原理的“肘部法則”計(jì)算最佳k值,比較假定的k值是否接近,是否滿足最優(yōu)條件。
(3)加權(quán)屬性K-means聚類分析可綜合考慮所有可以量化的性能指標(biāo),但在實(shí)際養(yǎng)護(hù)工程中還有些非量化的因素,如歷史施工情況、養(yǎng)護(hù)投資、施工連續(xù)性要求、氣候影響等,不易在本文聚類方法中實(shí)現(xiàn)。因此,對(duì)于具體的養(yǎng)護(hù)決策應(yīng)根據(jù)本文方法的計(jì)算結(jié)果綜合考慮其他的非量化因素或者將其因素量化后分析再確定實(shí)際的路段劃分。
參考文獻(xiàn):
[1]汪首元,崔玉姣,馬偉中,等.基于K-均值聚類的瀝青路面使用性能評(píng)價(jià)[J].公路交通科技(應(yīng)用技術(shù)版),2019(2):16-18.
[2][JP3]張陽(yáng),何麗,朱顥東.一種改進(jìn)的K-means動(dòng)態(tài)聚類算法[J].重慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,33(1):97-101[JP2].
[3]孟海東,宋宇辰.大數(shù)據(jù)挖掘技術(shù)與應(yīng)用[M].北京:冶金工業(yè)出版社,2014.
[4]董旭,魏振軍.一種加權(quán)歐式距離聚類方法[J].信息工程大學(xué)學(xué)報(bào),2005,6(1):23-25.
[5]金鑫.聚類分析原理在高速公路養(yǎng)護(hù)路段劃分中的應(yīng)用[J].北方交通,2016(5):90-94.