張峰 張麗娜 張程
隨著汽車產(chǎn)業(yè)的發(fā)展,國內(nèi)家庭汽車擁有量不斷攀升,而汽車的尾氣排放對生態(tài)環(huán)境造成嚴(yán)重的破壞。2012年7月,國務(wù)院印發(fā)《節(jié)能與新能源汽車產(chǎn)業(yè)發(fā)展規(guī)劃(2012—2020年)》[1],提出“以純電驅(qū)動為新能源汽車發(fā)展和汽車工業(yè)轉(zhuǎn)型的主要戰(zhàn)略取向,當(dāng)前重點推進(jìn)純電動汽車和插電式混合動力汽車產(chǎn)業(yè)化”。新能源汽車產(chǎn)業(yè)成為戰(zhàn)略性新興產(chǎn)業(yè),大力發(fā)展以電動汽車為代表的新能源汽車是解決能源環(huán)境問題的有效途徑,市場前景廣闊。但是,電動汽車作為一個新興的事物,與傳統(tǒng)汽車相比,消費者在擁有購買意愿的同時,對于諸如電池等一些方面仍存有顧慮,對電動汽車行業(yè)的發(fā)展產(chǎn)生了極大的影響。因此,對消費者電動汽車購買意愿影響因素進(jìn)行挖掘分析,預(yù)測消費者的未來需求,有利于政府或企業(yè)制定更有效的營銷策略,做出更加科學(xué)合理的決策,服務(wù)于電動汽車產(chǎn)業(yè)化,促進(jìn)電動汽車產(chǎn)業(yè)的健康發(fā)展。
通過文獻(xiàn)分析發(fā)現(xiàn),針對電動汽車購買意愿的影響因素挖掘研究已有一些進(jìn)展,如Hidrue等[2]通過研究發(fā)現(xiàn)行駛里程、燃料成本節(jié)約和充電時間是影響消費者購買電動汽車的重要因素。田園和卓慧娟[3]對電動汽車的性能、便利性等12 個影響因素使用SPSS 進(jìn)行分析,結(jié)果表明電動汽車的性能和便利性是電動汽車購買的重要影響因素。楊洪寶和干宏程[4]通過確定產(chǎn)品屬性、經(jīng)濟(jì)補償以及消費者態(tài)度等3類對消費者電動汽車購買意愿有著重要影響的變量,結(jié)合Logistic 回歸,建立消費者電動汽車購買意愿的預(yù)測模型,結(jié)果驗證了影響變量的可靠性。姬丹丹等[5]對消費者購買汽車意愿影響因素進(jìn)行研究,引入燃料成本和持有者總成本信息,結(jié)合排序Logit方法,對數(shù)據(jù)建模分析,結(jié)果表明燃料成本和持有者總成本信息對電動汽車的銷售具有顯著影響。
綜上所述,國內(nèi)外學(xué)者對電動汽車購買意愿影響因素的研究取得了一定的成果,但也存在一些不足之處。即當(dāng)前多數(shù)研究考慮的影響因素比較單一,并未從消費者的角度出發(fā),考慮到消費者自身的個人特征信息。鑒于此,本文從電動汽車的產(chǎn)品屬性、消費者個人信息特征進(jìn)行綜合分析,同時結(jié)合消費者電動汽車體驗數(shù)據(jù),使用極端梯度提升(Extreme gradient boosting,XGBoost)對消費者電動汽車購買意愿的影響因素進(jìn)行挖掘,并運用支持向量機(Support Vector Machine,SVM)建立消費者電動汽車購買意愿的預(yù)測模型,驗證影響消費者購買的因素的有效性和可行性。
極端梯度提升(XGBoost)是一種改進(jìn)的梯度提升樹。其基本思想是先訓(xùn)練生成一個弱分類能力的模型,在生成新模型時,學(xué)習(xí)前一模型的殘差,通過最小化目標(biāo)函數(shù),生成新的模型,如此迭代進(jìn)行,最終由多個簡單模型組合為強分類能力的新模型。該模型為
其中
支持向量機(SVM)是一種經(jīng)典的統(tǒng)計學(xué)習(xí)方法。在處理分類問題時,SVM 既可以處理線性可分問題,又可以處理非線性可分問題。
因此,得到具體優(yōu)化問題為:
通過文獻(xiàn)分析,首先確定可能的影響因素;其次,通過對已體驗電動汽車的消費者發(fā)放問卷進(jìn)行調(diào)查,問卷由三部分組成,具體有消費者對電動汽車的滿意程度,包括電池技術(shù)性能、舒適性等8 項特征變量;消費者個人特征信息,包括消費者的戶口情況、駕齡、居住區(qū)域等17 項特征變量;消費者電動汽車購買意愿情況,如表1 所示。問卷共計發(fā)放2000份,回收1964份,回收率98.2%。
表1 消費者電動汽車體驗數(shù)據(jù)特征變量
由于獲取的原始數(shù)據(jù)中存在大量異常、缺失等情況,因此對消費者電動汽車體驗數(shù)據(jù)進(jìn)行挖掘和預(yù)測,必須對其進(jìn)行數(shù)據(jù)清洗,從而進(jìn)一步提高數(shù)據(jù)集的質(zhì)量。
首先,對原始數(shù)據(jù)中的異常值進(jìn)行刪除。異常值主要是指在數(shù)據(jù)記錄中存在不符合邏輯或?qū)嶋H情況的數(shù)據(jù)。比如消費者對體驗的電動汽車的電池技術(shù)性能的滿意度打分值超過100 分,如分?jǐn)?shù)“753.07”,對電動汽車的經(jīng)濟(jì)性打分出現(xiàn)“703.00”等異常情況;此外,在消費者個人特征信息數(shù)據(jù)中存在個人的出生年與居住時間、出生年與工作年限、家庭年收入與個人年收入以及個人婚姻情況與子女?dāng)?shù)等多種不切實際的情況,將這些異常數(shù)據(jù)進(jìn)行刪除,剩余有效數(shù)據(jù)共計1836條。
其次,對原始數(shù)據(jù)中的缺失值進(jìn)行處理。缺失數(shù)據(jù)是指數(shù)據(jù)集中存在空白或未知數(shù)據(jù)的情況。在目標(biāo)客戶的個人特征信息中的“子女?dāng)?shù)”字段存在缺失值,缺失占比25.65%。針對該字段的缺失問題,本文分兩種情況進(jìn)行處理,包括:第一,關(guān)系填補,主要通過目標(biāo)客戶的個人婚姻類型與子女?dāng)?shù)的關(guān)系進(jìn)行填補,如婚姻類型為1、2、3、4所對應(yīng)的子女?dāng)?shù)應(yīng)為0;第二,對于無法確定的缺失部分,本文通過眾數(shù)填補的方法進(jìn)行填補。
為在清洗后的數(shù)據(jù)中挖掘出對不同品牌電動汽車銷售的影響因素,本文需對其進(jìn)行特征選擇。在特征選擇的過程中,主要采用相關(guān)變量法和XGBoost特征選擇對數(shù)據(jù)進(jìn)行特征處理。
相關(guān)變量法,主要是指依據(jù)皮爾遜相關(guān)系數(shù)來衡量特征間的相關(guān)程度,刪除相關(guān)程度強的特征。假設(shè)(x1,x2,L,xn)是一個n 維隨機變量,對于任意xi與xj的相關(guān)系數(shù)存在,有
對于兩個強相關(guān)特征xi和xj,比較ri與rj值,如果ri>ri,則保留xi,否則保留xj通過上述方法刪除強相關(guān)性的特征,最后剩余15個特征變量。
XGBoost 特征選擇,是指利用XGBoost 輸出特征的重要度,特征重要度數(shù)值越大,表示特征的重要性越大。使用清洗后數(shù)據(jù)集構(gòu)建XGBoost模型,計算各特征變量的相對重要性,該模型輸出的15 個重要特征變量,如圖1所示。
圖1 特征變量的重要度排序
圖1中,房貸占收入比、車貸占收入比、動力性表現(xiàn)得分的特征重要度在10%以上,對于消費者購買電動汽車具有重要影響;品牌類型、家庭年收入、居住時間、家庭成員數(shù)、居住區(qū)域類型、單位性質(zhì)、職位類型、最高學(xué)歷、戶口類型、駕齡、工作年限以及子女?dāng)?shù),對于消費者購買電動汽車也具有一定的影響。可以看出,決定消費者是否購買電動汽車的重要影響因素有電動汽車本身的因素,也有消費者個人特征的因素。因此在模型的構(gòu)建過程中要考慮不同特征的影響,避免遺失重要的特征。
消費者電動汽車購買意愿的預(yù)測結(jié)果即為消費者是否會選擇購買電動汽車,這是一個典型的二分類任務(wù)。因此,本文使用二分類問題中常用的評估指標(biāo),即準(zhǔn)確率(Accuracy,ACC)和F1值,來評估模型性能[7]。
其中,F(xiàn)N表示正類樣本(即標(biāo)簽“1”)預(yù)測為負(fù)類(即標(biāo)簽“0”)的樣本數(shù),TP表示正類樣本預(yù)測為正類的樣本數(shù),F(xiàn)P 表示負(fù)類樣本預(yù)測為正類的樣本數(shù),TN表示負(fù)類樣本預(yù)測為負(fù)類的樣本數(shù)。
經(jīng)過數(shù)據(jù)清洗和特征選擇,有效數(shù)據(jù)共計1836條,包含特征15 個,其中未購買的客戶數(shù)據(jù)樣本有1744個,已購買的客戶數(shù)據(jù)樣本有92個,存在著嚴(yán)重的類別不平衡問題。因此,本文采用過采樣技術(shù)從數(shù)據(jù)層面上進(jìn)行處理,以平衡正負(fù)類樣本數(shù)量。在類別不平衡處理方法中,SMOTE(Synthetic minority over-sampling technique)算法[8]是應(yīng)用最為廣泛的過采樣技術(shù),但該算法在采樣過程中會產(chǎn)生樣本重疊問題,容易導(dǎo)致過擬合現(xiàn)象。因此,本文采用其改進(jìn)算法Borderline-SMOTE[9],來處理類別不平衡問題,該方法能夠有效克服上述問題。消費者電動汽車體驗數(shù)據(jù)平衡情況,如表2所示。
表2 消費者電動汽車體驗數(shù)據(jù)平衡情況
為驗證消費者電動汽車購買意愿的影響因素的有效性,本文在處理后的數(shù)據(jù)集基礎(chǔ)上,運用SVM的方法,構(gòu)建消費者電動汽車購買意愿的預(yù)測模型。具體地,本文將處理后的數(shù)據(jù)集按7∶3的比例隨機劃分訓(xùn)練集與測試集,并按照XGBoost模型輸出的特征重要性分?jǐn)?shù)從高到低,將特征輸入到SVM 模型中。同時,為使模型達(dá)到最佳的分類效果,本文使用網(wǎng)格搜索算法進(jìn)行優(yōu)化,尋找最優(yōu)參數(shù)。
為對比所構(gòu)建模型的可行性,本文將所構(gòu)建模型與Logistic、隨機森林(Random forest)以及XGBoost等常用分類方法在測試集上進(jìn)行對比,如圖2所示。
圖2 XGBoost特征選擇下的不同分類方法的分類效果比較
從圖2 中可以看出,當(dāng)特征個數(shù)為8~13 時,SVM的分類效果優(yōu)于其他分類方法,并且特征個數(shù)為9時,SVM 的分類效果最佳,即當(dāng)特征個數(shù)為9 的特征子集為最優(yōu)特征子集。不同分類模型在最優(yōu)特征子集上的分類效果,如表3所示。
表3 中,可以看出SVM 在輸入特征個數(shù)為9 時,其準(zhǔn)確率達(dá)到97.99%,F(xiàn)1值為97.95%,明顯優(yōu)于其他模型在其最優(yōu)特征個數(shù)下的分類效果。進(jìn)一步驗證了房貸占收入比、車貸占收入比、動力性表現(xiàn)得分、品牌類型、家庭年收入、居住時間、家庭成員數(shù)、居住區(qū)域類型、單位性質(zhì)等9個特征是決定消費者是否購買電動汽車的重要影響因素。在這些因素中不僅有電動汽車本身的因素,也有消費者個人特征的因素,都是影響消費者購買電動汽車的重要影響因素。
本文通過對消費者電動汽車體驗數(shù)據(jù)進(jìn)行清洗、滿意度分析,結(jié)合XGBoost 對消費者電動汽車購買意愿的影響因素的挖掘,建立了基于SVM 的消費者電動汽車購買意愿預(yù)測模型,通過模型的分類效果驗證了影響消費者電動汽車是否購買的因素不僅在于電動汽車產(chǎn)品本身的屬性,也由消費者自身的個人特征決定?;诖丝蔀殡妱悠囆袠I(yè)企業(yè)制定有針對性的營銷策略提供良好的借鑒。