彭文軍 尹倩
基金項目:安徽省高等學校自然科學重點課題“社交網(wǎng)絡視角下基于數(shù)據(jù)挖掘技術的體育消費研究”(KJ2019A1079);安徽省高等學校省級教學示范課項目“體育市場營銷”。
作者簡介:彭文軍(1981-),男,安徽合肥人,碩士,講師,研究方向:體育市場營銷;尹倩(1984-),女,安徽淮北人,碩士,副教授,研究方向:數(shù)據(jù)挖掘。
摘要:決策樹是使用最為廣泛的分類預測算法之一,它能探究并直觀展現(xiàn)多維數(shù)據(jù)的內(nèi)在規(guī)律。本文采用C5.0決策樹構建健身課程重購意愿影響因素模型,發(fā)現(xiàn)5個關鍵因素按重要性從高到低排序依次為“健身消費意愿”“課程時間自主性”“課程預約便利性”“每周健身次數(shù)”和“每次健身時長”,模型具有較好的準確性(96%)和預測泛化能力(82%)。
關鍵詞:決策樹;健身課程;重購意愿
中圖分類號:F27文獻標識碼:Adoi:10.19311/j.cnki.1672-3198.2022.01.024
1算法簡介
決策樹產(chǎn)生于統(tǒng)計信息理論,該理論認為信息傳遞是通過信源、信道和信宿組成的系統(tǒng)來實現(xiàn)。在信息傳送過程中,信源是發(fā)送段,信宿是接收端。在通信前,信宿對信源狀態(tài)具有不確定性,實際通信過程中信息是用來消除不確定性的,信息量的大小由其消除的不確定性大小衡量。C5.0是決策樹模型中的經(jīng)典算法,是在ID3算法的基礎上發(fā)展起來的,它以信息增益率為標準確定最佳分組變量及分割點。
信息增益可由公式(1)表示:
GainsU,V=EntU-EntU|V(1)
C5.0算法以信息增益率作為選擇標準,同時兼顧了信息增益的程度和付出的代價,可由公式(2)表示:
GainsRU,V=GainsU,V/Ent(V)(2)
在上述公式中,EntU為信源信息熵,Ent(V)為信宿信息熵,EntU|V反映了信宿接收到信息后的條件信息熵。
2研究設計
2.1樣本采集
本研究采用問卷調(diào)查的方式收集數(shù)據(jù),問卷共有20個調(diào)查題項。在課程內(nèi)容與服務體驗層面,參考已有研究,分別設置課程內(nèi)容質(zhì)量、課程服務體驗2個題項。在課程預約與付費方式層面,參考已有研究,分別設置課程預約便利性、課程時間選擇自主性和課程付費方式靈活性3個題項。在體育消費經(jīng)歷層面,設置6個題項分別調(diào)查被訪個體是否在運動APP會員、線上健身課程、智能健身設備、可穿戴運動裝備、健身補劑和運動營養(yǎng)套餐上是否有消費經(jīng)歷。在個體運動行為層面,設置每周健身課程次數(shù)、每次健身時長和每周戶外運動頻率3個題項。在人口變量層面,設置性別、年齡、學歷和收入4個題項。此外,設置2個題項分別調(diào)查被訪個體的健身消費意愿和課程重購意愿。本研究采用線上電子問卷和線下實地發(fā)放問卷相結合的方式進行數(shù)據(jù)采集,面向國內(nèi)健身消費人群,剔除一部分購買健身年卡的消費人群后重點篩選出采取單次購課消費的健身人群,在進一步剔除有缺省項和答案有矛盾的問卷后,線上線下共獲得1330份有效樣本。此外,將樣本數(shù)據(jù)集分為訓練集(n=925,70%)和測試集(n=405,30%)兩個部分。
2.2模型變量設定
本研究將“課程重購意愿”設定為模型輸出變量,其余變量設定為模型輸入變量。在構建模型前,首先考察各輸入變量與“顧客重購意愿”間是否存在相關性,方法是將各輸入變量分別與“顧客重購意愿”進行雙變量相關性檢驗(Pearson相關系數(shù)),該步驟從19個輸入變量中選取15個作為模型預測因子,檢驗結果可見表1。
在數(shù)據(jù)集中,輸出變量“課程重購意愿”以及“預約課程便利性”等6個輸入變量均為李克特5級量表變量(見表1),若全部作為分類變量進入模型將使得決策樹過于復雜。因此,首先,將輸出變量“課程重購意愿”轉(zhuǎn)換為二分類變量(見表1),轉(zhuǎn)換完成后的輸出變量正負樣本比例為1∶1.27,平衡性較好。其次,將上述6個量表類輸入變量視作連續(xù)變量,采用MDLP熵分組法對它們的值進行離散化處理,以進一步降低該6個量表類輸入變量的類別數(shù)。MDLP熵分組法是一種有指導的數(shù)據(jù)分箱方法,基本思想是輸入變量應在輸出變量的指導下進行分組,準則是尋找連續(xù)性輸入變量最佳分割點以獲取最大的輸入變量信息增益貢獻,MDLP法下6個量表類輸入變量的最佳分割結果見表1。
3模型構建
3.1決策樹構建
本研究通過SPSS modeler構建C5.0決策樹模型。在現(xiàn)有15個輸入變量中,模型首先發(fā)現(xiàn)“健身消費意愿”帶給輸出變量的信息增益率最高,因此首先選擇“健身消費意愿”作為根節(jié)點最佳分組變量,MDLP下的分箱(見表1)值作為最佳分割點。在決策樹生長過程中,依次計算在每層節(jié)點時信息增益率最高的分組變量,在進行適當剪枝以削減冗余后,最終優(yōu)化后的決策樹如圖1所示。在圖1中,YES代表課程重購意愿為高,NO代表課程重購意愿為低。
3.2提取規(guī)則
模型通過PRISM算法,經(jīng)過規(guī)則約簡,生成如下規(guī)則集:
R1:IF健身消費意愿=低 AND 自主選擇課程時間段=低、中 THEN 課程重購意愿=低(置信度為100%);R2:IF 健身消費意愿=低 AND 自主選擇課程時間段=高 THEN 課程重購意愿=高(置信度為100%);R3:IF 健身消費意愿=高 AND 自主選擇課程時間段=低 THEN 課程重購意愿=低(置信度為100%);R4:IF 健身消費意愿=高 AND 自主選擇課程時間段=中 AND 預約課程便利性=低THEN 課程重購意愿=低(置信度為100%);R5:IF 健身消費意愿=高 AND 自主選擇課程時間段=高 AND 每周健身次數(shù)=高THEN 課程重購意愿=高(置信度為97%);R6:IF 健身消費意愿=高 AND 自主選擇課程時間段=高 AND 每周健身次數(shù)=中AND 每次健身時長=中、高 THEN 課程重購意愿=高(置信度為87%)。
在決策樹模型中,根據(jù)變量所在節(jié)點位置進行變量重要性排序,從高到低依次為“健身消費意愿”“課程時間自主性”“課程預約便利性”“每周健身次數(shù)”和“每次健身時長”。
4模型評估與測試
首先,使用10折交叉法發(fā)現(xiàn)模型的平均準確率為80.8%,模型識別準確率較好。其次,模型在訓練樣本集和檢驗樣本集的整體正確率、整體錯誤率以及混淆矩陣見表2所示。根據(jù)表2,在訓練樣本集925個樣本中,895個樣本的實際值與預測值吻合(正確率為96%),30個樣本實際值與預測值不符(錯誤率為4%);在檢驗樣本集405個樣本中,333個樣本的實際值與預測值吻合(正確率為82%),72個樣本實際值與預測值不符(錯誤率為18%)。模型在檢驗樣本集的準確率較訓練樣本集有所下降,但仍獲得了不小于80%的準確率。最后,在模型置信度檢驗中,訓練集的平均置信度為0.852,檢驗集的平均置信度為0.841,整體上較好。
5結論與討論
本文利用C5.0算法構建了健身課程重購意愿影響因素模型,模型在訓練集和檢驗集上的準確率均超過80%,同時具有較好的準確度和預測泛化能力,模型擬合較為均衡。此外,發(fā)現(xiàn)了影響課程重購意愿的關鍵因素,并生成了規(guī)則集,可為后續(xù)進一步研究提供參考。研究發(fā)現(xiàn),“課程內(nèi)容質(zhì)量”和“課程服務體驗”兩個變量均與輸出變量具有相關性,但它們在模型預測能力上均低于“課程時間自主性”和“課程預約便利性”。與此同時,在與輸出變量的相關性上以及模型的預測能力上,“健身消費意愿”均高于“收入水平”,決策規(guī)則集也反映出“健身消費意愿”“每周健身次數(shù)”“每次健身時長”相組合能有效預測健身課程重購意愿。
綜上所述,國內(nèi)健身行業(yè)商業(yè)模式上的變革帶來了健身人群消費決策觀念上的變遷,時間自主性、預約便利性等課程預約層面因素在健身消費重購決策中的重要性正在提升,這說明健身課程在一定程度上被市場賦予了“快餐”屬性。技術進步帶來的健身模式變革大幅降低了健身消費的顧客成本,為避免走向與競爭對手的同質(zhì)化競爭,未來課程內(nèi)容和服務體驗仍是健身房服務質(zhì)量以及顧客滿意度的重要影響因素。在單次購課健身消費人群中,收入水平并不能有效驅(qū)動個體產(chǎn)生課程重購意愿,而健身消費習慣以及時間精力上的投入意愿對于課程購買意愿更具影響力,這進一步說明了目前健身課程更接近于普通消費品而不是以往年卡制消費模式下的“奢侈品”。
雖然本文的研究有助于進一步認識健身消費行為,但還存在一些不足。例如,可能存在遺漏潛在影響因素,服務過程中的設備設施、人際互動、關鍵事件等未納入模型考慮,個體的自我效能以及周圍人意見等主觀規(guī)范因素也未進行考慮,上述將在未來的研究中加以完善。此外,由于健身消費決策變得更加頻繁,本研究采用橫截面數(shù)據(jù)難以展現(xiàn)被訪個體消費行為意向的動態(tài)變化,因此未來可考慮進行長時間的跟蹤調(diào)研。
參考文獻
[1]陳明亮.生命周期不同階段客戶重復購買意向決定因素的實證研究[J].管理世界,2002,(11):93-100.
[2]陳明亮.客戶重復購買意向決定因素的實證研究[J].科研管理,2003,24(1):110-115.
[3]黃海燕,朱啟瑩.中國體育消費發(fā)展:現(xiàn)狀特征與未來展望[J].體育科學,2019,39(10):11-20.
[4]劉東升.論體育消費中的象征性行為[J].上海體育學院學報,2014,38(6):37-42.
[5]焦素花,郭衛(wèi)玲,倪海寧,等.體育消費行為變化與新余暇生活方式的生成[J].體育與科學,2021,42(2):114-120.
[6]周強.健身俱樂部利用者感知服務質(zhì)量對利用滿意和行為意向影響的實證研究[J].武漢體育學院學報,2011,45(6):45-51.
[7]徐開娟,張林,朱洪軍,等.基于內(nèi)容分析的商業(yè)健身會所服務質(zhì)量評價指標體系構建研究[J].南京體育學院學報,2015,29(5):18-25.