秦智聃 陳章躍 弓憲文
摘? 要: 傳統(tǒng)物流配送成本估計(jì)方法對(duì)于配送費(fèi)用數(shù)據(jù)的支持度閾值計(jì)算不夠精確,導(dǎo)致物流配送成本估計(jì)困難,為此研究基于數(shù)據(jù)挖掘技術(shù)的物流配送成本估計(jì)方法。該方法通過(guò)聚類分析,將龐大的費(fèi)用數(shù)據(jù)劃分成具有相同特征的數(shù)據(jù)類簇,找出其中出現(xiàn)頻繁的數(shù)據(jù)類簇計(jì)算每一特征屬性下的支持度閾值,挖掘出數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則,利用回歸差分移動(dòng)平均法搭建數(shù)學(xué)模型,以此實(shí)現(xiàn)物流配送成本估計(jì)。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)成本估計(jì)方法相比,所研究的方法對(duì)于數(shù)據(jù)支持度閾值計(jì)算更加準(zhǔn)確,挖掘到的關(guān)聯(lián)規(guī)則更詳盡,估計(jì)出的物流配送成本更加精確。由此可見(jiàn),所研究的方法更適用于企業(yè)物流配送成本估計(jì)要求。
關(guān)鍵詞: 物流配送; 成本估計(jì); 數(shù)據(jù)挖掘技術(shù); 數(shù)學(xué)模型搭建; 閾值計(jì)算; 關(guān)聯(lián)規(guī)則挖掘
中圖分類號(hào): TN911.1?34; TP361? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2020)13?0183?04
Research on logistics distribution cost estimation based on data
mining technology
QIN Zhidan, CHEN Zhangyue, GONG Xianwen
(Chongqing University of Education, Chongqing 400067, China)
Abstract: The traditional logistics distribution cost estimation method is not accurate enough to calculate the support threshold of the distribution cost data, which leads to the difficulty of logistics distribution cost estimation. Therefore, the logistics distribution cost estimation method based on data mining technology is studied. With this method, the huge cost data is divided into the data type of clusters with the same characteristics by means of cluster analysis, the data class clusters which appear frequently are found out to compute the support threshold of each feature attribute, the association rules between the data are mined, and the mathematical model is built with the regression difference moving average method. The logistics cost estimation method is realized in this way. The experimental results show that, in comparison with the traditional cost estimation method, the proposed method is more accurate in calculating the data support threshold, its mined association rules are more exhaustive and its estimated logistics distribution cost is more precise. It can be seen that the method is more suitable for cost estimation of logistics distribution enterprises.
Keywords: logistics distribution; cost estimation; data mining technology; mathematic model building; threshold value calculation; association rule mining
0? 引? 言
數(shù)據(jù)挖掘技術(shù)旨在處理數(shù)量龐大、信息類型復(fù)雜、結(jié)構(gòu)形式多樣化的數(shù)據(jù)信息。而當(dāng)前的物流運(yùn)輸配送行業(yè)發(fā)展迅速,并且一些企業(yè)也將物流配送作為發(fā)展外延,因此使得企業(yè)財(cái)務(wù)部門對(duì)于物流配送成本估算有了更高的要求[1]。傳統(tǒng)的成本估計(jì)方法考慮的影響因素較少,對(duì)于相關(guān)數(shù)據(jù)的劃分也不夠細(xì)致,這就使管理人員在查詢關(guān)聯(lián)數(shù)據(jù)時(shí),數(shù)據(jù)基數(shù)變小,估計(jì)出的成本數(shù)值會(huì)影響企業(yè)的發(fā)展。為此本文研究一種基于數(shù)據(jù)挖掘技術(shù)的成本估計(jì)方法,該方法對(duì)相關(guān)費(fèi)用數(shù)據(jù)進(jìn)行聚類分析、分類分析、異常分析、組群分析以及關(guān)聯(lián)性分析,通過(guò)找到數(shù)據(jù)之間隱含的潛在規(guī)則,提升成本估計(jì)的準(zhǔn)確度,確保企業(yè)的成本預(yù)算[2]的準(zhǔn)確性。
1? 數(shù)據(jù)挖掘技術(shù)的物流配送成本估計(jì)方法
1.1? 聚類物流配送數(shù)據(jù)
數(shù)據(jù)挖掘技術(shù)與計(jì)算機(jī)科學(xué)相關(guān),通過(guò)數(shù)據(jù)收集、回歸分析、數(shù)據(jù)聚類、關(guān)聯(lián)規(guī)則以及神經(jīng)網(wǎng)絡(luò)方法,可以從海量數(shù)據(jù)中抓取隱藏的具有特殊關(guān)聯(lián)屬性的數(shù)據(jù)信息,預(yù)測(cè)或估計(jì)有關(guān)數(shù)據(jù)。
物流配送成本主要在配送流程和配送環(huán)節(jié)產(chǎn)生,主要包括分揀費(fèi)用、流通加工費(fèi)用、裝配費(fèi)用以及運(yùn)輸費(fèi)用。其中,分揀費(fèi)用包含分揀人工費(fèi)用、分揀設(shè)備費(fèi)用;流通加工費(fèi)用包含流通加工設(shè)備、加工材料以及在流通加工過(guò)程中從事加工活動(dòng)的管理人員、工人及有關(guān)人員工資、獎(jiǎng)金等費(fèi)用的總和;裝配費(fèi)用包含裝配材料、人工以及相關(guān)輔助費(fèi)用;運(yùn)輸費(fèi)用則包含車輛費(fèi)用和其他運(yùn)營(yíng)間接費(fèi)用[3]。由此可知,配送成本細(xì)化后,其中的費(fèi)用類別多,二階科目更加繁瑣,因此,利用數(shù)據(jù)挖掘技術(shù)中的數(shù)據(jù)聚類手段,根據(jù)配送成本相關(guān)數(shù)據(jù)的近似情況,將數(shù)據(jù)信息組成多個(gè)不同類別或簇,保證同一個(gè)類別或簇中的數(shù)據(jù)彼此之間存在一定關(guān)聯(lián)屬性,而不同類別或簇之間存在一定的數(shù)據(jù)差異。因此聚類物流配送成本相關(guān)數(shù)據(jù)的計(jì)算公式為:
式中:[m]表示聚類后的類簇?cái)?shù)量,[i],[j]分別表示具有一個(gè)特征屬性的簇;[nj]表示[j]數(shù)據(jù)簇中的項(xiàng)目數(shù);[k]表示數(shù)據(jù)項(xiàng);[d]表示空間維度;[ajkd]代表數(shù)據(jù)簇[j]中的第[k]項(xiàng)數(shù)據(jù);[bid]代表數(shù)據(jù)簇[i]中的初始中心節(jié)點(diǎn)在[d]維度空間中的數(shù)據(jù)[4]。將配送成本進(jìn)行聚類的部分示意圖如圖1所示。
通過(guò)圖1a)可以看出:[W]代表總的物流配送成本,其中,包含了[n]個(gè)相關(guān)費(fèi)用數(shù)據(jù),聚類后得到圖1b),可知按照不同的費(fèi)用類型,將這些數(shù)據(jù)打散,根據(jù)相同屬性特征進(jìn)行劃分可得到新的同種類的數(shù)據(jù)類簇[5]。
1.2? 挖掘數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則
根據(jù)聚類后的成本數(shù)據(jù)類簇,找出同一特征數(shù)據(jù)中不同信息之間的內(nèi)在關(guān)聯(lián)。各結(jié)構(gòu)通常被用來(lái)列舉那些存在可能性的數(shù)據(jù)類簇,一般包含[c]個(gè)不同項(xiàng)的數(shù)據(jù)類簇,可能會(huì)存在[2c]個(gè)頻繁數(shù)據(jù)類簇,并且會(huì)有[s]個(gè)規(guī)則[6]。因此,在這些復(fù)雜繁瑣的數(shù)據(jù)集合中找出滿足最小支持閾值的所有頻繁數(shù)據(jù)類簇,再?gòu)倪@些類簇中挖掘出具有高置信度的關(guān)聯(lián)規(guī)則,頻繁數(shù)據(jù)類簇之間可能存在的規(guī)則可以利用式(2)進(jìn)行表述:
根據(jù)表1中的頻繁數(shù)據(jù)類簇項(xiàng)目,計(jì)算得到每一數(shù)據(jù)之間的支持度,以此得到數(shù)據(jù)之間每一種關(guān)系的關(guān)聯(lián)程度,找出不同費(fèi)用之間存在的關(guān)聯(lián)規(guī)則[10][φ]。
1.3? 搭建數(shù)學(xué)模型估計(jì)成本
在挖掘出配送成本中各項(xiàng)數(shù)據(jù)關(guān)聯(lián)規(guī)則的基礎(chǔ)上,搭建一個(gè)數(shù)學(xué)預(yù)測(cè)模型,估計(jì)物流配送的總成本。物流配送成本中,總的來(lái)說(shuō)主要涉及到人工成本和機(jī)械設(shè)備成本兩大類,因此配送成本在估計(jì)的過(guò)程中,根據(jù)分配和運(yùn)送兩個(gè)流程中的管理人員、裝卸人員以及運(yùn)送人員的調(diào)度,計(jì)算每一工作階段中產(chǎn)生的直接人工費(fèi)用以及運(yùn)輸費(fèi)用[11]。將細(xì)化后的費(fèi)用上傳到財(cái)務(wù)部門的記賬管理系統(tǒng)中,按配送時(shí)間,記錄貨物種類、配送人員、使用車輛等摘要,分別記錄每一操作流程下的費(fèi)用,登錄財(cái)務(wù)記賬頁(yè)面,輸入相關(guān)數(shù)據(jù),如圖2所示[12]。
從圖2a)操作頁(yè)面可知,點(diǎn)擊該系統(tǒng)中的記賬模塊,將配送費(fèi)用類數(shù)據(jù)輸入到上述財(cái)務(wù)系統(tǒng)中,統(tǒng)計(jì)每種費(fèi)用的總數(shù)據(jù),得到的結(jié)果如圖2b)所示。月初時(shí),打開(kāi)該系統(tǒng)的業(yè)務(wù)往來(lái)模塊,點(diǎn)擊月末處理按鍵,結(jié)轉(zhuǎn)上月的物流配送成本,將導(dǎo)出的表格上傳到成本估算系統(tǒng)中[13]?;诨貧w差分移動(dòng)平均方法,根據(jù)線性時(shí)間序列對(duì)配送成本進(jìn)行預(yù)測(cè)估計(jì)。通過(guò)多次差分計(jì)算處理,將動(dòng)態(tài)變化的時(shí)間序列轉(zhuǎn)換成平穩(wěn)的序列。設(shè)置一個(gè)參數(shù)為[ω],將其當(dāng)成差分次數(shù),利用[ω],[p],[q]構(gòu)建估計(jì)模型,并對(duì)轉(zhuǎn)換后的平穩(wěn)序列進(jìn)行建模,然后將其替換為原有序列[14]。以[ω],[p],[q]為計(jì)算參數(shù)的估計(jì)模型,其預(yù)測(cè)表達(dá)式如下所示:
式中:[y]表示物流配送成本估計(jì)值;[φm]表示費(fèi)用數(shù)據(jù)之間存在的[m]個(gè)規(guī)則;[εp]表示特征參數(shù)[p]下的模型;[γq]表示特征參數(shù)[q]下的模型;[εq]表示在特征參數(shù)[q]下的隨機(jī)誤差。
上述計(jì)算過(guò)程中,要保證時(shí)間序列的穩(wěn)定性。當(dāng)數(shù)據(jù)序列存在波動(dòng)性特征時(shí),要對(duì)其進(jìn)行差分處理,根據(jù)自回歸系數(shù)以及偏回歸系數(shù)定階所要處理的目標(biāo)數(shù)據(jù)序列。至此,根據(jù)以往月份或年度的成本數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù)估計(jì)出此階段的物流配送成本[15]。
2? 仿真實(shí)驗(yàn)
搭建一個(gè)仿真實(shí)驗(yàn)平臺(tái),利用該平臺(tái)檢測(cè)數(shù)據(jù)挖掘技術(shù)所估計(jì)出的物流配送成本,為了令實(shí)驗(yàn)結(jié)果更加直觀,將該估計(jì)方法與傳統(tǒng)估計(jì)方法相比較,分析兩種成本估計(jì)方法下,所研究的數(shù)據(jù)挖掘技術(shù)較傳統(tǒng)方法而言,其具有大量物流配送數(shù)據(jù)的處理能力。
2.1? 實(shí)驗(yàn)準(zhǔn)備
此次實(shí)驗(yàn)通過(guò)搭建Hadoop實(shí)驗(yàn)云平臺(tái),利用某一大型物流企業(yè)財(cái)務(wù)管理部門所記錄的從2005—2015年的395 GB配送費(fèi)用相關(guān)數(shù)據(jù),按照年份分別預(yù)測(cè)當(dāng)年的運(yùn)輸成本。仿真實(shí)驗(yàn)環(huán)境如圖3所示。
圖3中設(shè)備1為仿真實(shí)驗(yàn)計(jì)算機(jī),設(shè)備2為專用服務(wù)器,設(shè)備3為數(shù)據(jù)實(shí)時(shí)變動(dòng)液晶顯示屏幕,設(shè)備4為網(wǎng)絡(luò)穩(wěn)定路由。此次實(shí)驗(yàn)選擇兩臺(tái)型號(hào)、配置相同的計(jì)算機(jī)展開(kāi)實(shí)驗(yàn),該計(jì)算機(jī)CPU為3.4 GHz,8 GB內(nèi)存,500 GB硬盤空間,選用高速計(jì)算網(wǎng)絡(luò)和千兆儲(chǔ)存網(wǎng)絡(luò),打開(kāi)無(wú)線路由連接計(jì)算機(jī)。該計(jì)算機(jī)的操作系統(tǒng)為Ubuntu 18.04,Java執(zhí)行環(huán)境為jdk?7u21?linux?i586,登錄仿真實(shí)驗(yàn)軟件Matlab R2016a,試運(yùn)行該軟件程序。軟件運(yùn)行流暢無(wú)誤,運(yùn)行Hadoop平臺(tái),運(yùn)行的指令編碼如圖4所示。
保證該平臺(tái)在單機(jī)模式、偽分布式模式以及完全分布式模式下正常運(yùn)作。設(shè)置數(shù)據(jù)集群共有26個(gè)節(jié)點(diǎn),其中,2個(gè)管理節(jié)點(diǎn),1個(gè)I/O節(jié)點(diǎn),23個(gè)計(jì)算節(jié)點(diǎn),指定node01~node23,當(dāng)其中發(fā)現(xiàn)可變化的成本數(shù)據(jù)時(shí),及時(shí)進(jìn)行修改,修改路徑設(shè)置為192.168.0.201。準(zhǔn)備完畢后,針對(duì)選取的實(shí)驗(yàn)對(duì)象開(kāi)始實(shí)驗(yàn)。