田晟,曾莉莉
(華南理工大學,土木與交通學院,廣州510640)
根據(jù)國務院辦公廳正式發(fā)布的《新能源汽車產(chǎn)業(yè)發(fā)展規(guī)劃(2020—2035)》,純電動出租車等公共用車領域到2035年將全面實現(xiàn)電動化。通過統(tǒng)計學建模方法得到充電行為特征變量的概率分布模型,進而基于蒙特卡羅模擬實現(xiàn)充電負荷預測的研究較為廣泛[1],因此研究電動出租車充電行為規(guī)律是解決電動出租車規(guī)模化發(fā)展過程中面臨的充電負荷準確預測、充電設施合理布局等問題的基礎。
電動出租車是電動汽車的一種類型,電動汽車充電行為規(guī)律的研究數(shù)據(jù)來源經(jīng)歷了問卷調(diào)查數(shù)據(jù)、居民出行調(diào)查數(shù)據(jù)、傳統(tǒng)燃油車輛實測數(shù)據(jù)到電動汽車實測數(shù)據(jù)。隨著大數(shù)據(jù)和深度學習技術的發(fā)展,目前基于數(shù)據(jù)驅動的電動汽車充電行為研究已經(jīng)成為熱點[2],主要有基于非監(jiān)督學習方法進行電動汽車充電行為特征變量的預測和分析,如Chung 等[3]使用由支持向量機、隨機森林和核密度估計組成的集成模型對充電持續(xù)時間、充電能量消耗的預測;基于監(jiān)督學習方法進行電動汽車充電行為的聚類分析,如Shen等[4]使用K均值聚類算法將充電行為分為3類;基于深度學習模型進行充電負荷預測研究,如Zhu等[5]使用RNN模型預測公用充電站的逐時充電負荷。
目前充電行為特征變量的概率建模主要基于傳統(tǒng)參數(shù)估計模型,然而該方法需要提前假設服從某種分布,然后依據(jù)歷史樣本數(shù)據(jù)估計該分布的參數(shù),如果假設的概率分布與實際情況不符合,就會導致計算偏差較大。核密度估計(Kernel Density Estimation,KDE)是一種非參數(shù)估計方法,無需事先對隨機變量的概率分布模型進行參數(shù)設定,能夠真實體現(xiàn)數(shù)據(jù)本身的分布特點從而提高準確度[6]。非參數(shù)核密度估計模型已經(jīng)廣泛應用于集裝箱集疏港時間的概率分布建模、交通荷載參數(shù)的統(tǒng)計分析和城市空氣質(zhì)量時空分布特征探究等多個領域,但將非參數(shù)核密度估計模型用于電動汽車充電行為特征變量概率建模的研究還較少。Wang 等[7]使用高斯核密度估計器確定充電行為特征變量的參數(shù),但帶寬限制了預測精度;Chen 等[8]將高斯核密度估計用于充電行為的分類;Chung 等[9]構建了由高斯核密度估計器和擴散核密度估計器組成的混合核密度估計器預測電動汽車的停留時間和充電需求,并且表明兩類核密度估計器具有各自的優(yōu)點。針對常規(guī)核密度估計存在邊界誤差、局部適應性低、峰谷扁平化等缺陷,繆鵬彬等[9]將具有邊界核的自適應核密度估計模型應用到電動公共客車起始SOC 和起始充電時間的概率建模,有效解決了邊界偏差和局部適應性低的問題;Nosratabadi等[12]提出的自適應核密度估計算法有效改善了局部適應性低的缺點。
考慮到傳統(tǒng)參數(shù)估計模型和常規(guī)核密度估計模型擬合精度低的缺陷,本文提出一種基于擴散方程的自適應擴散核密度估計模型(Adaptive Diffusion Kernel Density Estimation,ADKDE),采用漸進積分均方誤差(Asymptotic Mean Integrated Squared Error,AMISE)獲得最優(yōu)帶寬,最后將該模型應用于上海市電動出租車快速充電行為特征變量的概率分布建模,驗證了本模型的可行性和準確性。
本文數(shù)據(jù)來源于新能源汽車國家大數(shù)據(jù)聯(lián)盟平臺,采集了上海市50 輛電動出租車的實際運行數(shù)據(jù)和充電數(shù)據(jù),原始數(shù)據(jù)集包含3812555 個樣本。數(shù)據(jù)的采集時間為2018年7月1日-7月30日,采集的時間間隔為10 s,數(shù)據(jù)集包括車輛編號、數(shù)據(jù)采集時間、充電狀態(tài)、車輛型號、車速、累計行駛里程、電池荷電狀態(tài)、總電壓、總電流、經(jīng)度、緯度等11個字段,基本情況如表1所示。
表1 上海電動出租車的實測數(shù)據(jù)Table 1 Measured data of Shanghai electric taxi
原始數(shù)據(jù)因采集過程中受到干擾而存在噪音數(shù)據(jù),因此先使用Python對原始數(shù)據(jù)集進行數(shù)據(jù)清洗和數(shù)據(jù)預處理,然后進行片段劃分,區(qū)分放電數(shù)據(jù)(車輛正在行駛時產(chǎn)生的數(shù)據(jù))和充電數(shù)據(jù)(車輛停車充電時產(chǎn)生的數(shù)據(jù))。制定充電片段的劃分依據(jù)如下:
(1)判斷車輛充電狀態(tài)c_stat 是否等于3 并且車輛速度speed 是否等于0,若滿足條件則保存,經(jīng)過該操作得到所有充電數(shù)據(jù);
(2)依次按車輛編號vid、數(shù)據(jù)采集時間Daq_time進行升序排列,再根據(jù)車輛編號不同切分所有充電數(shù)據(jù),經(jīng)過該操作得到50 輛電動出租車各自的充電數(shù)據(jù);
(3)針對每一輛電動出租車的充電數(shù)據(jù),判斷電池荷電狀態(tài)soc是否連續(xù)增加,若是連續(xù)增加,則將這一個片段截取下來單獨保存至csv 文件,重復這一操作,直至所有充電數(shù)據(jù)被分割完成,即可得到所有的充電片段。
按照上述流程對原始數(shù)據(jù)集進行操作,共得到558745條充電數(shù)據(jù)和1290個充電片段。然后在已經(jīng)劃分好的充電片段中刪除soc 無變化的片段,最終得到有效充電片段1201個。本文研究對象是電動出租車的快速充電行為,因此還需要制定條件從得到的有效充電片段中篩選出快速充電片段。根據(jù)充電時電壓在[300,400]V,電流在[100,200]A這一條件,從所有的有效充電片段中篩選出快速充電片段,共得到1074個快速充電片段,電動出租車充電片段分析如表2所示。
從表2可以得出:上海市電動出租車用戶更傾向于選擇快速充電方式,所有充電片段中,快充比例為89.44%,慢充比例為10.56%;電動出租車用戶在工作日期間選擇快速充電的比例遠遠高于慢速充電的比例,雙休日期間選擇快速充電和慢速充電的比例差別較小。
表2 電動出租車充電片段分析Table 2 Charging segment analysis of electric taxi
電動汽車的充電行為通常發(fā)生在用戶某一次出行過程當中或者一次出行結束之后,電動汽車的充電行為特征變量包含3 個維度:充電電量,如開始充電SOC、結束充電SOC、已充電量;充電時間,如開始充電時刻、結束充電時刻、充電持續(xù)時間;充電方式,如快充、慢充等。根據(jù)1.1節(jié)得到的快速充電片段,從中提取充電起始SOC(SOC_start)、充電結束SOC(SOC_end)、充電前后SOC 變化量(SOC_increase)、充電起始時刻(charge_start)和充電持續(xù)時間(charge_duration)這5 個快速充電行為特征變量,為了揭示這5 個特征變量之間的相關關系,開展相關性分析,得到快速充電行為特征變量相關性熱力圖,如圖1所示,快速充電行為特征變量的散點圖如圖2所示。
圖1 快速充電行為特征變量相關性熱力圖Fig.1 Correlation thermodynamic diagram of characteristic variables of fast charging behavior
從圖1 和圖2 可以看出,快速充電行為特征變量之間存在相關性,為深入研究這兩對特征變量之間的相關性程度,采用皮爾遜相關系數(shù)(Pearson Correlation Coefficient)和肯德爾秩相關系數(shù)(Kendall Rank Correlation Coefficient)進行描述,具體表現(xiàn)為充電持續(xù)時間和充電前后SOC 變化量存在正相關關系,皮爾遜相關系數(shù)達到0.641;充電起始SOC 和充電前后SOC 變化量之間存在顯著的負相關關系,因為皮爾遜相關系數(shù)的值達到了-0.828,肯德爾秩相關系數(shù)的值達到了-0.773。
圖2 快速充電行為特征變量散點圖Fig.2 Scatter diagram of characteristic variables of fast charging behavior
假設x1,x2,…,xn為電動出租車快速充電行為某一特征變量的n個樣本,該特征變量的真實概率密度函數(shù)為f(x),通過常規(guī)核密度估計方法得到的概率密度函數(shù)為
式中:x1,x2,…,xn為電動出租車充電行為某個特征變量的實測數(shù)據(jù)且存在取值范圍,例如充電起始時刻的取值范圍是[0,23],xi為特征變量的第i個樣本;n為樣本總量;h為帶寬;K()· 為核函數(shù);Kh為帶寬h的核函數(shù)。
基于常規(guī)核密度估計模型,當帶寬固定時采用不同核函數(shù),以及當核函數(shù)固定時采用不同帶寬對充電起始時刻進行概率分布建模,得到核密度估計結果分別如圖3和圖4所示。
從圖3 和圖4 可以看出,快速充電起始時刻的數(shù)據(jù)樣本分布存在多峰、不對稱現(xiàn)象。當帶寬h固定,分別采用三角核函數(shù)(Triangle)、高斯核函數(shù)(Gaussian)和依潘涅契科夫核函數(shù)(Epanechnikov)對充電起始時刻進行核密度估計時,不同核函數(shù)對于估計結果的影響非常??;當核函數(shù)固定,分別采用不同帶寬對充電起始時刻進行核密度估計時,帶寬對于估計結果造成的影響非常顯著。因此,在非參數(shù)核密度估計中,帶寬的選取非常重要。同時發(fā)現(xiàn),高斯核函數(shù)在能夠反映樣本分布特征的同時具有良好的光滑度和可微性,故本文選取高斯核函數(shù)進行非參數(shù)核密度估計,基于高斯核函數(shù)的核密度估計公式為
圖3 采用不同核函數(shù)的核密度估計對比Fig.3 Comparison of kernel density estimation with different kernel functions
圖4 采用不同帶寬的核密度估計對比Fig.4 Comparison of kernel density estimation with different bandwidths
此外,通過快速充電起始時刻的樣本數(shù)據(jù)分布情況可以看出,電動出租車充電行為特征變量的樣本數(shù)據(jù)具有不確定性與波動性,表現(xiàn)為整體數(shù)據(jù)密度不均勻。如果使用常規(guī)核密度估計模型,整體最優(yōu)帶寬不能根據(jù)充電行為特征變量數(shù)據(jù)樣本密度進行調(diào)整,導致其局部適應性較差。為解決這一問題,本文提出一種基于擴散方程的自適應擴散核密度估計模型,通過對傳統(tǒng)的高斯核密度估計方法進行改進,提高其局部適應性。
熱傳導方程不僅僅描述熱傳導現(xiàn)象,也可以刻畫分子、氣體的擴散,因此也被稱為擴散方程。利用Fourier 熱力學定律和能量守恒定律得到一維傅里葉熱傳導方程為
式中:X為特征變量x的樣本集合。
Chaudhuri 等[12]在研究尺度空間理論時建立了熱擴散過程和常規(guī)核密度估計的聯(lián)系,證明了高斯核密度估計是傅里葉熱方程的唯一解,并且t=h2,這意味著熱擴散過程中的時間參數(shù)和核密度估計中帶寬參數(shù)的平方具有相同的性能。式(3)的初始條件為
式中:Δx為式(3)的初始條件;為變量x的狄拉克測度。
選取具有自適應平滑性能的線性擴散過程對傅里葉熱方程進行拓展,得到擴散核密度估計方程,線性擴散偏微分方程為
為了保證擴散偏微分方程取得唯一解,給定自適應擴散核密度估計的初始條件如式(4)所示,紐曼邊界條件為
基于上述條件,對式(5)求解,得到自適應擴散核密度估計及其核函數(shù)表達式為
式中:KD()· 為擴散核函數(shù);y為核函數(shù)定義域內(nèi)的隨機變量且y<x;s為區(qū)間[ ]y,x之間的隨機變量。為使擴散核密度估計取得唯一解,x,y需要滿足
根據(jù)核密度估計理論,通常采用平均積分平方誤差(Mean Integrated Squared Error,MISE)衡量核密度估計值的全局準確度,MISE 的計算公式為
對式(10)進行泰勒展開并略去高階項可以得到漸進積分均方誤差。本文采用漸進積分均方誤差求解提出的自適應擴散核密度估計模型的最優(yōu)帶寬[14],求解該方法的漸進積分均方誤差AMISE 可以表示為
對式(12)求導,可以得到當AMISE取得最小值時所對應的最優(yōu)帶寬hopt為
式中:hopt為最優(yōu)帶寬;。
為檢驗本文提出的自適應擴散核密度估計模型的準確性和有效性,選取卡方檢驗、K-S 檢驗以及后驗檢驗3 項檢驗指標對概率分布擬合結果進行擬合優(yōu)度檢驗。假設快速充電行為某一特征變量的假設經(jīng)驗分布函數(shù)為,累計分布函數(shù)為,3種檢驗指標的具體計算過程如下。
(1)卡方檢驗
卡方擬合優(yōu)度檢驗方法是對樣本的頻數(shù)分布所來自的總體分布是否服從某種理論分布或某種假設分布所作的假設檢驗,電動出租車快速充電行為特征變量的總體分布是未知的,故可以采用最常用的卡方擬合檢驗方法,卡方檢驗統(tǒng)計量χ2為
式中:n為特征變量對應的樣本個數(shù);m為將樣本數(shù)據(jù)劃分的區(qū)間個數(shù);vi為第i個區(qū)間的觀察頻數(shù);pi為第i個區(qū)間的理論概率值。
(2)K-S檢驗
Kolmogorov-Smirnov 檢驗,簡稱K-S 檢驗,主要用來檢驗一組樣本數(shù)據(jù)的實際分布是否與某一指定的理論分布相符合。K-S檢驗統(tǒng)計量Dn為
Dn值越小說明擬合優(yōu)度越高。
(3)后驗檢驗
為了更加直觀對比各個概率分布模型的擬合優(yōu)度,采用均方根誤差RMSE估計概率分布模型與數(shù)據(jù)觀測分布之間的差異。均方根誤差的計算公式為
出租車的交通功能定位是為城市內(nèi)具有短途出行的乘客提供服務,由于乘客選擇出租車出行的需求呈現(xiàn)明顯的時空波動性,因此電動出租車的快速充電行為在時間維度和空間維度同樣也具有明顯的隨機性。
本文主要研究電動出租車快速充電行為在時間維度上的差異性和規(guī)律性。首先,將時間維度劃分為工作日和休息日,使用描述性統(tǒng)計分析充電起始SOC、充電結束SOC、充電前后SOC 變化量、充電起始時刻、充電持續(xù)時間這5個充電行為特征變量在工作日和休息日具有的差異性,得到描述性統(tǒng)計情況如表3所示。
表3 工作日和休息日快速充電行為特征變量的描述性統(tǒng)計Table 3 Descriptive statistics of characteristic variables of fast charging behavior
從表3可知,電動出租車工作日和休息日的快速充電行為存在較為明顯的差異性,表現(xiàn)為工作日充電起始SOC比休息日充電起始SOC值要更低一些,工作日充電起始時刻比休息日要更晚一些,但是充電結束SOC、充電前后SOC 變化量等特征變量的區(qū)別不是很明顯。為了更加直觀地展示電動出租車充電行為規(guī)律在時間維度的差異性,采用本文提出的基于擴散方程的自適應擴散核密度估計模型對上述5個特征變量進行分布擬合,根據(jù)擬合結果可知:
(1)工作日和休息日電動出租車快速充電結束SOC、充電前后SOC變化量以及充電持續(xù)時間具有較為相似的規(guī)律,表現(xiàn)為95%以上的駕駛員會將電量充至99%,電量增加量大都集中在40%~85%,且充電持續(xù)時間集中在50~80 min。
(2)快速充電起始SOC和快速充電起始時刻在工作日和休息日具有顯著的差異,其中起始SOC在工作日分布比較集中且均勻,有超過80%的電動出租車選擇在車輛SOC 處于10%~50%時進行充電;相比工作日,休息日電動出租車充電起始SOC呈現(xiàn)顯著的單峰,有超過55%的駕駛員選擇在車輛SOC 處于40%~55%的時候進行充電,具體情況如圖5所示;充電起始時刻工作日呈現(xiàn)出明顯的波峰現(xiàn)象,但是16:00-23:00 分布較為平緩和均勻,表明這段時間充電數(shù)量較為穩(wěn)定,非工作日呈現(xiàn)顯著的“三峰”現(xiàn)象,分別是0:00-2:00、10:00-12:00、16:00-18:00,具體情況如圖6所示。
圖5 工作日和休息日快速充電起始SOC對比Fig.5 Comparison of SOC at beginning of fast charging between weekday and weekend
圖6 工作日和休息日快速充電起始時刻對比Fig.6 Comparison of starting time of fast charging between weekday and weekend
驗證本文提出的自適應擴散核密度估計模型應用于電動出租車充電行為特征變量建模的可行性。分別采用正態(tài)分布和極值分布這兩種傳統(tǒng)參數(shù)估計方法,采用常規(guī)核密度估計、文獻[10]提出的基于邊界核的自適應核密度估計和本文提出的改進核密度估計這3 種非參數(shù)估計方法對工作日快速充電起始時刻的概率密度進行估計。3種非參數(shù)核密度估計方法所得帶寬、不同參數(shù)估計方法和非參數(shù)估計方法得到的概率分布模型的擬合優(yōu)度檢驗結果如表4所示,快速充電起始時刻的直方圖和各種概率分布模型的概率密度曲線如圖7所示。
圖7 工作日快速充電起始時刻的概率密度曲線Fig.7 Probability density curve of starting time of fast charging
表4 不同估計模型的擬合優(yōu)度檢驗結果Table 4 Goodness of fit test results of different estimation models
根據(jù)表4 和圖7 的直觀展示可以得到如下結論:
(1)采用傳統(tǒng)非參數(shù)估計方法對快速充電起始時刻進行概率分布建模時,得到的概率分布模型都未能通過卡方檢驗和K-S檢驗,同時概率密度曲線也未能很好地擬合樣本數(shù)據(jù)的分布特征,特別是當樣本數(shù)據(jù)存在多峰和不對稱的情況。
(2)當采用不同核密度估計模型時,雖然常規(guī)核密度估計模型較之參數(shù)模型能準確反映電動出租車快速充電行為特征變量的分布規(guī)律,但在3種核密度估計模型中的擬合效果最差,故對常規(guī)核密度估計模型的修正和改進是非常必要的。
(3)本文提出的改進核密度估計方法能夠通過各項擬合優(yōu)度檢驗且各項檢驗指標的數(shù)值最小,同時該模型的概率密度曲線與實測數(shù)據(jù)的直方圖擬合程度最好。
綜上所述,本文提出的自適應擴散核密度估計模型在電動出租車快速充電行為特征變量的概率建模應用中具有很高的準確性和適用性。
本文從電動出租車自身的角度出發(fā),基于上海市電動出租車實測數(shù)據(jù),使用Python進行原始數(shù)據(jù)的清洗和數(shù)據(jù)預處理,然后根據(jù)約束條件劃分充電片段并從快速充電片段中提取充電起始SOC、充電結束SOC、充電前后SOC 變化量、充電起始時刻、充電持續(xù)時間等5 個快速充電行為特征變量。本文得到的主要結論如下:
(1)從不同時間維度對電動出租車充電行為規(guī)律進行研究時,工作日和休息日電動出租車快速充電結束SOC、充電前后SOC 變化量以及充電持續(xù)時間具有較為相似的規(guī)律,但是快速充電起始SOC和快速充電起始時刻在工作日和休息日具有顯著的差異。
(2)對比現(xiàn)有研究常用的傳統(tǒng)參數(shù)估計模型和核密度估計模型,選取卡方檢驗、K-S 檢驗和后驗檢驗這3個指標作為擬合優(yōu)度檢驗指標,驗證了本文提出的基于擴散方程的自適應擴散核密度估計模型對于電動出租車快速充電行為特征變量的概率建模具有更高的擬合精度,表現(xiàn)為卡方檢驗和K-S 檢驗統(tǒng)計量遠低于臨界值,后驗檢驗的RMSE值僅為0.00135。
此外,由于本文模型不依賴參數(shù)假設使其具有更高的穩(wěn)健性和適用性。