基于改進(jìn)密度峰值聚類的私人汽車保有量影響因素分析

2019-06-11 03:39王傳鑫袁永生周銘華

計算技術(shù)與自動化 2019年1期

關(guān)鍵詞：影響因素

王傳鑫袁永生周銘華

摘要：為了研究不同地區(qū)間私人汽車保有量影響因素的差異性，選取了五個影響因素，通過改進(jìn)的密度峰值聚類方法將全國31個省市自治區(qū)分成了以甘肅省和江西省為聚類中心的兩類地區(qū)，并分別建立了影響因素的面板數(shù)據(jù)模型。結(jié)果表明：社會消費品零售總額、公路旅客周轉(zhuǎn)量和年末公共交通車輛運營數(shù)對第一類地區(qū)私人汽車的發(fā)展有較大影響;社會消費品零售總額、年末實有道路長度和年末公共交通車輛運營數(shù)會影響第二類地區(qū)私人汽車的發(fā)展。研究結(jié)果可為兩類地區(qū)私人汽車的發(fā)展提供一定的參考意義。

關(guān)鍵詞：影響因素;密度峰值聚類;私人汽車保有量;面板數(shù)據(jù)模型

中圖分類號：F407.471

文獻(xiàn)標(biāo)識碼：A

近年來，我國的汽車工業(yè)得到了迅猛的發(fā)展，私人汽車保有量也在不斷地增長，其對社會經(jīng)濟(jì)的發(fā)展和道路規(guī)劃的影響也越來越大。因此，研究私人汽車保有量的發(fā)展情況對經(jīng)濟(jì)的發(fā)展和道路交通網(wǎng)的建設(shè)具有重要的意義。

目前對私人汽車保有量的研究主要集中在保有量的預(yù)測方面，如古繼寶等根據(jù)我國3 1個省市的面板數(shù)據(jù)建立了Gompertz模型，并以此預(yù)測了中國民用汽車保有量[1];龔華煒等基于計量經(jīng)濟(jì)學(xué)模型對廣東省2004年和2005年的汽車保有量進(jìn)行了預(yù)測[2];蔣艷梅等基于Logistic模型預(yù)測了我國私人汽車保有量[3]?？v觀這些研究，在汽車保有量的預(yù)測方面做出了許多努力，并給出了許多可行性的建議。但這些研究大都是從宏觀的角度的去選擇與私人汽車保有量的影響因素，未能充分考慮到各個地區(qū)間由于政策、環(huán)境以及文化等的不同所導(dǎo)致的影響因素的不同。同時，由于現(xiàn)有的聚類算法，如K-Means算法、密度峰值聚類算法等不能有效地對面板數(shù)據(jù)進(jìn)行聚類。因此，通過改進(jìn)密度峰值聚類算法的相似性度量方式，使算法能夠適用于面板數(shù)據(jù)，并保留其能夠快速地確定聚類中心和類簇的優(yōu)點。進(jìn)而根據(jù)2005年到2015年全國31個省市地區(qū)的數(shù)據(jù)進(jìn)行地區(qū)劃分，并對每一類地區(qū)建立了私人汽車保有量的影響因素模型，從而分析了不同類別之間的影響因素的差異性原因。

1 基于改進(jìn)密度峰值算法的聚類分析模型

聚類算法是根據(jù)變量之間的相似性或差異性將數(shù)據(jù)進(jìn)行分類，常見的聚類算法主要有基于劃分的K-Means算法、基于密度的DBSCAN算法等。但前者在K值的選取上缺乏客觀性，后者的聚類結(jié)果容易受到參數(shù)的影響。為了避免出現(xiàn)此類問題，文獻(xiàn)[4]提出了一種基于密度峰值的聚類方法。算法的前提是，聚類中心被密度比其小的點圍繞，并且距離其他的較高密度點有著較大的距離。算法先對于任何一個待分?jǐn)?shù)據(jù)點都計算了兩個量：局部密度值以及該點到有著更高局部密度點的距離δ_i，然后將ρ_i和δ_i都較大的點選為聚類中心，最后將剩下的數(shù)據(jù)點劃分給離它最近的聚類中心所屬的類簇中去。相比較于傳統(tǒng)的聚類算法，該算法能夠快速地確定聚類中心和類簇，而且不需要指定聚類參數(shù)，并能發(fā)現(xiàn)非球狀簇。但是，該算法只適用于二維數(shù)據(jù)的聚類，不能有效地對面板數(shù)據(jù)進(jìn)行分析。針對這個問題，文章將算法中的相似性度量方式加以改進(jìn)，使其能夠?qū)γ姘鍞?shù)據(jù)進(jìn)行分類。

1.2 決策圖

為了選擇聚類中心，算法以ρ值為橫坐標(biāo)、δ值為縱坐標(biāo)建立了數(shù)據(jù)集對應(yīng)的決策圖，并將p值和δ值都較大的點選為聚類中心，然后將其余數(shù)據(jù)點劃分到離它最近的聚類中心所屬的類簇中去。

2 影響因素的分類模型

2.1 私人汽車保有量影響因素的選取

影響私人保有量的因素有許多，大致可以分為三類，社會經(jīng)濟(jì)發(fā)展水平，道路交通運輸水平，人口因素。根據(jù)實際情況和過往研究中對影響因素的選取[6-10]，選擇了三類中具有代表性的因素，即地區(qū)生產(chǎn)總值、社會消費品零售總額、年末實有道路長度、公路旅客周轉(zhuǎn)量和年末公共交通車輛運營數(shù)。

2.2 建立分類模型

為了便于程序運行，將全國31個省市地區(qū)進(jìn)行編號為1到31，并選取了《中國統(tǒng)計年鑒》上影響私有汽車保有量的地區(qū)生產(chǎn)總值、社會消費品零售總額、年末實有道路長度、公路旅客周轉(zhuǎn)量和年末公共交通車輛運營數(shù)的數(shù)據(jù)。由于所選取的數(shù)據(jù)之間的單位差別較大，因此，先根據(jù)下列公式，即區(qū)間化的方法對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理，以消除量綱的影響，減少誤差。

然后根據(jù)公式（1）和公式（2）分別計算每一個地區(qū)的局部密度值和距離值，并以ρ值為橫坐標(biāo)、6值為縱坐標(biāo)建立直角坐標(biāo)系，并在坐標(biāo)系上畫出每個地區(qū)的值ρ和δ值，如圖1所示。并將ρ值較大且δ值較大的28號甘肅省和20號江西省選為聚類中心（圖中有上部分的兩個點），最后將其他地區(qū)分配給這兩個聚類中心，分配結(jié)果如圖2所示，并根據(jù)運行結(jié)果得出全國31個省市地區(qū)的分類結(jié)果，見表1。

由上表可以初步看出，以甘肅省為聚類中心的第一類地區(qū)大都屬于經(jīng)濟(jì)發(fā)展水平不高，且道路建設(shè)水平以及道路運輸水平都較低的地區(qū);以江西省為聚類中心的第二類地區(qū)在總體上經(jīng)濟(jì)發(fā)展情況較好，且道路基礎(chǔ)設(shè)施建設(shè)較完善。

3 分地區(qū)私人汽車保有量影響因素的面板數(shù)據(jù)模型

為了更加清楚分析地區(qū)間私有汽車保有量影響因素的不同，采用面板數(shù)據(jù)的分析方法。面板數(shù)據(jù)，又稱縱列數(shù)據(jù)，是指由大量個體的時序觀測構(gòu)成的數(shù)據(jù)集。它既包括時間序列數(shù)據(jù)，也能涵蓋截面數(shù)據(jù)，因此能更全面地反映研究對象的特征[11]。

面板數(shù)據(jù)模型的一般形式為

3.1 模型選取

固定效應(yīng)模型和隨機(jī)效應(yīng)模型是面板數(shù)據(jù)模型中的兩個重要模型，具有不同的適應(yīng)范圍。一般而言，根據(jù)Hausman檢驗的結(jié)果來選擇模型，檢驗結(jié)果及參考模型見表2。

根據(jù)檢驗結(jié)果，對第一類和第二類地區(qū)在顯著性水平為5%的條件下建立固定效應(yīng)模型。

3.2 模型設(shè)定

根據(jù)前面的分析，設(shè)定面板數(shù)據(jù)的模型為

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于改進(jìn)密度峰值聚類的私人汽車保有量影響因素分析