孫菀霞,謝均揚,任芮瑄,糾松濤,張才喜
(1. 上海交通大學(xué)農(nóng)業(yè)與生物學(xué)院,上海 200240;2. 上海交通大學(xué)電子信息與電氣工程學(xué)院,上海 200240)
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,人們的日常購物方式由線下實體店拓展到線上網(wǎng)店,網(wǎng)絡(luò)購物正受到越來越多消費者的青睞。據(jù)國際葡萄酒及烈酒研究所(international wine and spirits research,IWSR)發(fā)布的《2019年全球酒水電商市場戰(zhàn)略報告》統(tǒng)計數(shù)據(jù)顯示,中國酒水電商市場居全球交易規(guī)模之首,并且2019—2024年間,全球核心市場的酒水營業(yè)額將以每年15%的速度增長,遠高于整個電商行業(yè)每年約1%的營業(yè)額增速[1]。然而受新型冠狀疫情影響,國內(nèi)市場進口葡萄酒與國產(chǎn)葡萄酒均受到較大沖擊[2]。2020年1—2月中國葡萄酒銷售收入為12.88億元,同比下降40.8%;利潤為0.5億元,同比下降58%[3]。此次疫情,使葡萄酒生產(chǎn)廠家和產(chǎn)品代理商認(rèn)識到傳統(tǒng)終端式銷售渠道的不足,開始重視線上渠道的銷售與自媒體的傳播[4]。在葡萄酒銷售渠道由線下銷售向電商轉(zhuǎn)型的調(diào)整階段,商品標(biāo)題所包含的產(chǎn)品信息不僅能夠吸引顧客、優(yōu)化購物體驗,而且能有利于促進銷售、樹立品牌形象[5-6]。因此,如何有效地利用現(xiàn)有網(wǎng)購數(shù)據(jù),幫助商家擬定符合消費者偏好的葡萄酒商品標(biāo)題成為亟需解決的問題。
文本挖掘是指利用統(tǒng)計建模等手段進行文本解析并獲取高質(zhì)量信息的過程[7]。商品標(biāo)題是文本數(shù)據(jù),屬于非結(jié)構(gòu)化數(shù)據(jù)。在文本挖掘技術(shù)盛行的熱潮下,國內(nèi)外很多學(xué)者對網(wǎng)購商品標(biāo)題進行多領(lǐng)域多角度的研究。包慧君等[5]對網(wǎng)絡(luò)零售土雞蛋的商品標(biāo)題設(shè)置進行分析與優(yōu)化,結(jié)果表明,商品標(biāo)題中核心詞較混亂,并且各種炒作的概念較多,易導(dǎo)致消費者選擇困難。李佳林[8]對女裝、女鞋、手機數(shù)碼和家電辦公4大類商品的標(biāo)題進行優(yōu)化。Wang等[9]提出一種基于在線評論的智能手機標(biāo)題優(yōu)化方法,可以有效反映消費者購物偏好。然而,針對網(wǎng)購葡萄酒標(biāo)題的研究鮮有報道。
因此,為了準(zhǔn)確、完整、簡潔地對網(wǎng)購葡萄酒進行特征描述,提出基于關(guān)聯(lián)規(guī)則的網(wǎng)購葡萄酒標(biāo)題分析與優(yōu)化方法。通過對不同銷量級別的商品標(biāo)題關(guān)鍵詞進行關(guān)聯(lián)度挖掘,為商家改進標(biāo)題提供理論參考。同時,為了進一步分析與商品銷量有關(guān)的影響因素,研究以銷量為目標(biāo)變量,以標(biāo)題所反映的商品屬性以及售價為自變量構(gòu)建隨機森林模型,以期幫助商家適時評估消費者偏好,調(diào)整供貨與銷售策略。
為了全面地獲取葡萄酒標(biāo)題、售價與銷量信息,研究利用Python語言開發(fā)的網(wǎng)絡(luò)信息抓取軟件以“葡萄酒”為關(guān)鍵字從“淘寶網(wǎng)”抓取300頁網(wǎng)頁數(shù)據(jù),共獲取3023條商品信息。經(jīng)過數(shù)據(jù)清洗,剔除“白酒”“江小白”以及“雞尾酒”等與主題明顯無關(guān)的數(shù)據(jù),剩余2970條有效信息作為分析數(shù)據(jù)。采用四分位數(shù)切割法,按照“銷量”將商品分為4個不同的等級,即“低銷量”“低中銷量”“中高銷量”和“高銷量”商品。在有效的商品數(shù)據(jù)中,銷量的最小值為0,最大值為5651,四分位數(shù)由低到高依次為10、27和87。
詞頻是指某個詞在一個文檔中出現(xiàn)的頻數(shù)。文本中的高頻詞可以在一定程度上反映文本特征。研究基于R軟件jiebaR包中的混合模型(即隱式馬爾科夫模型與最大概率法的結(jié)合)對葡萄酒標(biāo)題進行分詞處理。在分詞過程中,去除空格、數(shù)字、字母和標(biāo)點符號。提取分詞后各銷量等級的標(biāo)題文本中詞頻大于50的高頻詞并集,進而分析不同銷量等級的標(biāo)題詞特征。
關(guān)聯(lián)規(guī)則是文本挖掘的一個重要研究方向,通常用以描述數(shù)據(jù)集中兩組不同對象之間存在的某種關(guān)聯(lián)關(guān)系[10-11]。利用Apriori算法挖掘4個不同銷量等級文本庫中的頻繁項集,通過設(shè)置支持度(support)為0.1且置信度(confidence)為0.8對高頻詞的關(guān)聯(lián)規(guī)則進行挖掘,進而比較文本標(biāo)題中高頻詞的關(guān)聯(lián)差異。此外,根據(jù)詞頻分析結(jié)果對“低銷量”和“高銷量”等級中詞頻差異較大的詞——“女士”進行關(guān)聯(lián)規(guī)則分析,實現(xiàn)對“低銷量”商品標(biāo)題信息的良好補充。為了篩選出較強的關(guān)聯(lián)規(guī)則,選取提升度(lift)大于3的關(guān)聯(lián)結(jié)果進行分析。
隨機森林是由多棵分類回歸樹(classification and regression tree,CART)構(gòu)成的組合分類模型,該方法不易出現(xiàn)過擬合,具有良好的準(zhǔn)確率和穩(wěn)定性[12]。以葡萄酒銷量作為隨機森林模型的目標(biāo)變量,同時根據(jù)jieba分詞結(jié)果對商品標(biāo)題進行特征提取,從而獲得特征向量(自變量)。用于隨機森林模型構(gòu)建的自變量包括以下標(biāo)題特征,即包裝方式(單支、兩支、禮盒、整箱、桶裝)、進口、國家、氣泡或起泡、波爾多、甜或半甜、正品、女士、赤霞珠、促銷或特價、白葡萄酒、莫斯卡托、贈送酒具13個維度。由于商品售價也是消費者考慮的主要因素之一,因此在標(biāo)題特征屬性的基礎(chǔ)上引入產(chǎn)品單價這一維度,從而將標(biāo)題特征數(shù)據(jù)和銷量數(shù)據(jù)進行集成,共同構(gòu)成隨機森林模型的樣本數(shù)據(jù)集。
對“低銷量”和“高銷量”商品建立以銷量為目標(biāo)的隨機森林分類模型,通過R軟件將數(shù)據(jù)集隨機劃分為70%的訓(xùn)練集和30%的測試集,然后根據(jù)Random Forest 函數(shù)建立隨機森林模型,并獲得各自變量的相對重要性程度排序。重要性程度以平均準(zhǔn)確度下降程度(mean decrease in accuracy)和平均基尼指數(shù)下降程度(mean decrease in Gini index)進行評估,評價指標(biāo)的數(shù)值越大表示變量的重要性越大[13]。平均準(zhǔn)確度下降程度的含義為將一個變量的取值變?yōu)殡S機數(shù)時,隨機森林診斷準(zhǔn)確性的降低程度[14]。平均基尼指數(shù)下降程度是計算每個變量對分類樹每個節(jié)點上觀測值異質(zhì)性的影響,從而比較變量的重要性[15]。最后,根據(jù)靈敏度、特異度以及特征曲線下的面積(area under curve, AUC)評價模型的預(yù)測精度和泛化能力。
對4個銷量等級中詞頻大于50的標(biāo)題詞取并集,分析標(biāo)題詞之間的共性與差異。由圖1 A可見,“葡萄酒”“紅酒”“干紅”和“進口”4個詞的出現(xiàn)頻數(shù)最高,是標(biāo)題中的核心詞。與低銷量產(chǎn)品的標(biāo)題相比,高銷量產(chǎn)品標(biāo)題中“起泡”和“支裝”出現(xiàn)的頻數(shù)較高,而“紅葡萄酒”和“赤霞珠”出現(xiàn)的頻數(shù)較低。由圖1 B可見,隨著銷量的增加,“包郵”“澳洲”和“智利”出現(xiàn)的頻數(shù)逐漸降低,但“波爾多”“西班牙”和“意大利”出現(xiàn)的頻數(shù)有所升高。對于詞頻介于50~100的標(biāo)題詞而言,高銷量葡萄酒中“氣泡”“甜酒”“甜型”以及“女士”的出現(xiàn)頻數(shù)明顯增多,表明以女性為銷售對象可能是提高產(chǎn)品銷量的有效方式之一。與低銷量葡萄酒標(biāo)題中詞頻差異較大的‘莫斯卡托’葡萄經(jīng)常用于釀造口感甘甜、香氣芬芳的起泡酒和微泡酒,此類酒深受女士們歡迎[16-17]。因此,建議銷售商推出以女性為消費對象的葡萄酒。
據(jù)Vinexpo與IWSR聯(lián)合發(fā)布的《全球葡萄酒市場現(xiàn)狀和未來趨勢預(yù)測報告》顯示,全球葡萄酒市場將呈現(xiàn)精品化趨勢,并且起泡酒的增長速率優(yōu)于靜止酒[18]。預(yù)計2022年,全球起泡酒銷量有望達到2.81億箱,價值約329億美元[19]。在起泡酒為全球葡萄酒市場帶來活力的契機,我國也要適當(dāng)提高起泡酒的市場占比。
“買一箱送一箱”在高銷量的產(chǎn)品中出現(xiàn)頻率較高,因此一定的促銷活動可以刺激銷量提升。然而,研究數(shù)據(jù)顯示,與70、80后相比,90后群體線上購酒時對促銷并不敏感,80后群體是最精打細(xì)算、貨比三家的群體[20]。因此,銷售商應(yīng)針對不同的消費群體,制定個性化的商品標(biāo)題,增強與買家搜索的匹配度,使產(chǎn)品搜索結(jié)果靠前,通過增加商品曝光率和點擊率以提高產(chǎn)品銷量。
對4個銷量等級中的高頻詞分別進行關(guān)聯(lián)規(guī)則分析發(fā)現(xiàn),低銷量的商品標(biāo)題中不存在有效的關(guān)聯(lián)規(guī)則,高銷量產(chǎn)品中的商品標(biāo)題關(guān)聯(lián)規(guī)則最多,說明低銷量產(chǎn)品中標(biāo)題設(shè)置混亂,而高銷量產(chǎn)品的標(biāo)題詞有一定關(guān)聯(lián)規(guī)律(圖2)?!暗椭袖N量”的商品標(biāo)題只產(chǎn)生一條關(guān)聯(lián)規(guī)則,即標(biāo)題詞中若出現(xiàn)“波爾多”,則很有可能會同時出現(xiàn)“法國”,并且在“中高銷量”和“高銷量”級別的產(chǎn)品中同樣存在該關(guān)聯(lián)規(guī)則。進一步分析發(fā)現(xiàn),對“高銷量”產(chǎn)品而言,“波爾多、干紅、紅酒、進口、葡萄酒”的所有子集中,若包含“波爾多”,則同時包含“法國”。然而,“中高銷量”產(chǎn)品缺失了“高銷量”中的部分關(guān)聯(lián)規(guī)則。因此,建議標(biāo)題中若出現(xiàn)“波爾多”時,同時標(biāo)注“法國”。
圖2 不同銷量級別中提升度大于3的高頻詞關(guān)聯(lián)規(guī)則Figure 2 Text association rules for high-frequency words based on lift more than 3
通過對低銷量和高銷量產(chǎn)品中詞頻差異較大的標(biāo)題詞——“女士”,進行關(guān)聯(lián)規(guī)則分析,發(fā)現(xiàn)低銷量的商品標(biāo)題不存在有效的關(guān)聯(lián)規(guī)則,低中銷量僅有1條關(guān)聯(lián)規(guī)則,中高銷量產(chǎn)生7條關(guān)聯(lián)規(guī)則,高銷量則達到11條關(guān)聯(lián)規(guī)則(圖3)。在“中高銷量”的標(biāo)題中產(chǎn)生包含與“整箱”和“莫斯卡托”相關(guān)的關(guān)聯(lián)規(guī)則,而在其它兩組銷量等級中沒有此類關(guān)聯(lián)規(guī)則。在“高銷量”的標(biāo)題中,關(guān)聯(lián)規(guī)則多與“甜型”“甜酒”“氣泡”以及“起泡”有關(guān)。
圖3 商品標(biāo)題中與“女士”相關(guān)的關(guān)聯(lián)規(guī)則Figure 3 Text association rules related to female
《2019中國酒類消費行為白皮書》指出,女性消費群體正在崛起,并且女性對葡萄酒的甜度喜好程度要高于男性[21-22]。因此,建議增加甜酒和起泡酒的產(chǎn)品類型,并且在標(biāo)題詞中與“女士”相關(guān)聯(lián)。
通過將隨機森林模型的預(yù)測結(jié)果與實際結(jié)果進行比對,發(fā)現(xiàn)模型的靈敏度和特異度分別為74.5%和79.9%,AUC為0.772,表明模型具有較好的評估性能。根據(jù)平均準(zhǔn)確度下降程度和平均基尼指數(shù)下降程度對變量的重要性進行排序,在銷量的判別模型中,重要性排序前5位的變量分別是商品單價、產(chǎn)地、包裝方式、是否屬于甜型、是否為進口酒(圖4)。其中,商品價格是消費者考慮的最主要影響因素。
圖4 分別根據(jù)平均準(zhǔn)確度下降程度(A)和平均基尼指數(shù)下降程度(B)對變量的重要性排序Figure 4 The importance of variables according to the mean decrease in accuracy (A) and mean decrease in Gini index (B)
基于文本關(guān)聯(lián)的網(wǎng)購葡萄酒標(biāo)題特征提取以及基于隨機森林模型的葡萄酒銷量影響因素分析。根據(jù)低銷量、低中銷量、中高銷量和高銷量的詞頻特征,提出要增強以女性為消費群體的建議。此外,根據(jù)文本關(guān)聯(lián)分析發(fā)現(xiàn),低銷量商品標(biāo)題詞存在雜亂無序的現(xiàn)象,但是高銷量商品標(biāo)題詞的關(guān)聯(lián)性強,建議低銷量商品加強標(biāo)題詞的關(guān)聯(lián)性,有針對性地進行商品特征描述。同時,本研究表明,隨機森林模型可以較好地對低銷量和高銷量產(chǎn)品進行區(qū)分。商品特征的重要性排序結(jié)果可以為商家設(shè)定商品標(biāo)題提供有價值的參考。因為售價是影響銷量的最主要因素,因此低價位已成為我國電商平臺暢銷葡萄酒的共同特征[23]。除售價外,葡萄酒產(chǎn)地也是影響銷量的關(guān)鍵因素之一。Vinexpo調(diào)查顯示,女性在選擇葡萄酒時主要關(guān)注的因素依次是:售價、葡萄品種和原產(chǎn)國[24]。疫情之下國內(nèi)消費者的民族情懷上升,對提高國產(chǎn)葡萄酒的品牌自信有很大幫助。若借助本次進口酒受阻的時機,創(chuàng)造出更適合國內(nèi)消費的優(yōu)質(zhì)葡萄酒,將為未來國產(chǎn)葡萄酒崛起提供契機。
由于主要針對商品標(biāo)題的文本特征進行銷量分析,尚未涉及商品人氣指數(shù)、商品評價、賣家信譽以及服務(wù)質(zhì)量等因素,因此在以后的銷量影響因素綜合分析中,應(yīng)納入更多的自變量,以期進一步提高模型評估的準(zhǔn)確性。