• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于城市共享單車流動大數(shù)據(jù)下停放點設置與投放數(shù)量研究

      2020-11-09 07:28:12劉江濤
      科學與財富 2020年25期
      關鍵詞:數(shù)據(jù)挖掘

      劉江濤

      摘要:針對共享單車風靡各大城市,給人們帶來了出行方便,但也帶來亂停放、廢棄車輛占道堆積的城市治理難題。因此,我們組決定以共享單車為基礎,借助云計算和大數(shù)據(jù)平臺,進一步對大數(shù)據(jù)經(jīng)濟模式下共享單車使用情況進行分析,利用Python軟件,運用K-Means聚類算法和建立PERT網(wǎng)絡圖計算安置單車數(shù)量。讓共享單車成為我們生活出行便利工具,達到實時路況分析,出行道路最優(yōu)化設計。

      關鍵詞:數(shù)據(jù)挖掘;K-means聚類算法;PERT網(wǎng)絡圖

      0.??? 引言

      近年來,我國的共享經(jīng)濟行業(yè)蓬勃發(fā)展,正成為推動國民經(jīng)濟快速和可持續(xù)增長的巨大引擎。其中,共享單車更是風靡各大城市,但也帶來亂停放、廢棄車輛占道堆積的城市治理難題,且安置十分不規(guī)律在管理上浪費大量資金[1]。但是,共享單車的用戶數(shù)量卻年年上升,必將面臨更加嚴重的管理問題,如何安置共享單車流動大數(shù)據(jù)下停放點設置與投放數(shù)量成為目前迫在眉睫的問題[2][3]。因此,K-Means聚類算法和建立PERT網(wǎng)絡圖應用研究共享單車流動大數(shù)據(jù)下停放點設置與投放數(shù)量是十分具有意義的[4]。

      1.??? 數(shù)據(jù)的獲取與處理

      1.1? 數(shù)據(jù)的獲取

      本文的數(shù)據(jù)來源于天池平臺數(shù)據(jù)實驗室,由3 月12日到6 月18日的共享單車在線運行數(shù)據(jù)中抽取的用戶使用數(shù)據(jù)構(gòu)成。原始的數(shù)據(jù)集共10231條共享單車用戶操作記錄,包括起始位置,騎行時間、路線,終止位置等信息,涉及到5432個用戶和8916個行駛路線,用戶數(shù)據(jù)經(jīng)過脫敏且真實可靠。

      1.2? 數(shù)據(jù)的處理

      在對數(shù)據(jù)的清洗過程中,發(fā)現(xiàn)存在只有點擊行為且點擊次數(shù)很多的用戶,推測為爬蟲用戶,屬于噪聲數(shù)據(jù),予以剔除,具體為點擊次數(shù)大于200且無移動,支付行為。清洗后的數(shù)據(jù)集包括9843個用戶的操作記錄。

      2.??? 基于K-means聚類算法構(gòu)建共享單車區(qū)塊

      2.1? 研究思路

      基于哈啰單車在線運行數(shù)據(jù)中抽取的用戶行為數(shù)據(jù)樣本,結(jié)合業(yè)務邏輯從海量樣本數(shù)據(jù)集中提取量化指標,運用Python數(shù)據(jù)挖掘軟件、K-Means聚類分析數(shù)據(jù)挖掘方法進行多次聚類分析,采用wss方法得出各個方面最佳的聚類數(shù)K,實現(xiàn)哈啰單車的區(qū)間劃分。

      2.2? 哈啰用戶位置特征提取

      基于大量數(shù)據(jù)提取所有用戶的經(jīng)度(CLi)和緯度(PAi)的位置數(shù)據(jù)。

      2.3? 模型原理

      對于多維數(shù)據(jù)集,K-means聚類算法確定K個中心點,將每個數(shù)據(jù)點分配到離它最近的中心點,將數(shù)據(jù)集劃分為K個類簇,分配原則為使數(shù)據(jù)點到其指定的聚類中心的的平方的總和即

      最小,然后重新計算每類中的點到該類中心點距離的平均值,繼續(xù)分配每個數(shù)據(jù)到它最近的中心點直到所有數(shù)據(jù)點不再被分配或是達到最大的迭代次數(shù)。

      2.4? 采用wss方法獲取K值圖

      以和 作為聚類指標,基于K-means聚類分析過程,采用wss方法獲取最佳K值,運用R軟件作出組內(nèi)平方誤差和——拐點圖。

      從圖1 看出,當K值大于等于4 時,隨著K值的增大,類中總的平方值對聚類數(shù)量的曲線趨于平緩,說明K值越大,其簇內(nèi)差異(Inertia)指標是越來越小的。即當K值為樣本量時,Inertia指標是可以取到0,這并不代表模型的效果越來越好了。

      2.5? 輪廓系數(shù)獲取最佳值K

      樣本與其自身所在的簇中的其他樣本的相似度a,等于樣本與同一簇中所有其他點之間的平均離;樣本與其他簇中的樣本的相似度b,等于樣本與下一個最近的簇中的所有點之間的平均距離。根據(jù)聚類的要求”簇內(nèi)差異小,簇外差異大“,我們希望b永遠大于a,并且大得越多越好。

      樣本的輪廓系數(shù)計算為:

      很容易理解輪廓系數(shù)范圍是(-1,1),其中值越接近1 表示樣本與自己所在的簇中的樣本很相似,并且與其他簇中的樣本不相似,當樣本點與簇外的樣本更相似的時候,輪廓系數(shù)就為負。當輪廓系數(shù)為0 時,則代表兩個簇中的樣本相似度一致,兩個簇本應該是一個簇??梢钥偨Y(jié)為輪廓系數(shù)越接近于1 越好,負數(shù)則表示聚類效果非常差。如果一個簇中的大多數(shù)樣本具有比較高的輪廓系數(shù),則簇會有較高的總輪廓系數(shù),則整個數(shù)據(jù)集的平均輪廓系數(shù)越高,則聚類是合適的。如果許多樣本點具有低輪廓系數(shù)甚至負值,則聚類是不合適的,聚類的超參數(shù)K可能設定得太大或者太小。運用Python軟件進行K-means聚類分析,得出聚類結(jié)果表1 運用Python軟件進行K-means聚類分析,得出聚類結(jié)果表1。

      從表1 可以看出,隨著K的增大,指標一直在不斷的變小,總組內(nèi)平方誤差和在一直減小,但是輪廓系數(shù)也在一直減小,即在增加K值時,通過總組內(nèi)平方誤差和是無法判斷K的取值。在通過輪廓系數(shù)的下降率與總組內(nèi)平方誤差和的下降率的比較,選擇K=4 時,是聚類質(zhì)心的最佳值。

      2.5? K取值分析

      從圖2 可以看出,數(shù)據(jù)集被分為4 簇,即全體用戶被分為4 類。

      根據(jù)選取的地理位置進行共享單車區(qū)塊聚類分析,得到結(jié)果表2。

      從表2 可以看出,共享單車區(qū)塊被分為4 類??梢詮膱D表中很容易看出,共享單車的使用群體大多是大學生一類的年輕人,且在地理位置上有明顯的優(yōu)勢,大學基本都集群在同一區(qū)域,且大學生活動較為頻繁,在每個聚類的質(zhì)心設置共享單車區(qū)塊利于管理和維護。

      3. 基于建立PERT網(wǎng)絡圖計算安置單車數(shù)量

      3.1 研究思路

      基于共享單車區(qū)塊提取海量哈啰用戶行為數(shù)據(jù)即每個周期時刻每個共享單車區(qū)塊中哈啰單車的流出量和流進量。利用PERT網(wǎng)絡圖計算安置單車數(shù)量。

      3.2 模型原理

      3.2.1 結(jié)點(事件):圖中的圓,表示每個周期流入結(jié)點的共享單車數(shù)量,流出節(jié)點的共享單車數(shù)量。3.2.2周期時段:選取共享單車騎行時間為周期時間,則對于每個用戶而言每個安置點的數(shù)量是動態(tài)平衡的。

      3.3 模型建立和求解

      建立4×4的四階矩陣,矩陣每一行表示周期時段每個安置點流出到其他安置點的數(shù)量。對于數(shù)量矩陣舉行PERT網(wǎng)絡迭代,直到矩陣不再發(fā)生變化,迭代結(jié)束,實行共享單車流動的動態(tài)平衡。

      3.4 迭代后矩陣及安置點哈啰單車數(shù)量

      運用lingo軟件對矩陣進行迭代,得到穩(wěn)定后的矩陣1。

      由矩陣1 可知,安徽財經(jīng)大學東校區(qū)西門安置點應該安排79輛共享單車,龍湖春天西街應該安排55輛共享單車,蚌埠學院(北側(cè))應該安排40輛共享單車,安徽科技學院應該安排56輛共享單車。

      4. 結(jié)語

      本文基于大量的哈啰單車在線運行數(shù)據(jù),將哈啰用戶區(qū)塊化,共享單車區(qū)塊化的設置管理和維護。采用數(shù)據(jù)挖掘和大數(shù)據(jù)分析方法,運用K-Means聚類算法對共享單車區(qū)塊化分類,以便更好的應用PERT網(wǎng)絡圖,從而計算每個區(qū)塊化的節(jié)點流出共享單車數(shù)量,對于每個節(jié)點在一個周期內(nèi)的流出量進行PERT網(wǎng)絡圖算法迭代計算出動態(tài)平衡時,每個節(jié)點的流出量和流入量。從而得到每個節(jié)點最佳的安放共享單車的數(shù)量。

      參考文獻:

      [1] 張健.基于分布式的共享單車定位算法的研究[D].南京郵電大學,2019.

      [2] 劉思嘉,杜雅楠,伍金銘,丁亭亭.移動互聯(lián)背景下共享單車運營管理研究[J].市場周刊,2019(11):145-146.

      [3] 付亞金.共享單車運營與管理中的政府責任研究[D].南昌大學,2019.

      [4] 劉文欽.基于DEA方法的共享單車投放區(qū)域綜合效率研究[D].上海外國語大學,2019.

      作者簡介:

      劉江濤(1998——)男,漢族,安徽銅陵人,安徽財經(jīng)大學統(tǒng)計與應用數(shù)學學院,2017級本科生,信息與計算機科學專業(yè)

      本文屬安徽財經(jīng)大學大學生創(chuàng)新訓練項目《基于城市共享單車流動大數(shù)據(jù)下停放點設置與投放數(shù)量研究——以蚌埠市為例》(編號:201910378039)階段性研究成果,指導老師:朱家明。

      本論文屬于安徽財經(jīng)大學大學生創(chuàng)新訓練項目項目,項目編號:201910378039,指導老師:朱家明。

      猜你喜歡
      數(shù)據(jù)挖掘
      基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡流量異常識別方法
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應用淺析
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
      電力與能源(2017年6期)2017-05-14 06:19:37
      數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應用
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
      數(shù)據(jù)挖掘在高校圖書館中的應用
      數(shù)據(jù)挖掘的分析與探索
      河南科技(2014年23期)2014-02-27 14:18:43
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
      皋兰县| 吉木萨尔县| 彰化县| 刚察县| 德保县| 南靖县| 濮阳县| 五寨县| 柳州市| 宁津县| 常山县| 临江市| 桓台县| 双流县| 德保县| 瑞金市| 青冈县| 托克托县| 赤峰市| 景德镇市| 弥渡县| 阿瓦提县| 台中县| 隆安县| 宜昌市| 会泽县| 兴文县| 咸宁市| 云梦县| 卢氏县| 清丰县| 福建省| 临漳县| 隆德县| 高州市| 新丰县| 简阳市| 图木舒克市| 新平| 滦南县| 加查县|