張炎亮 代沛沛
(鄭州大學 管理工程學院,鄭州 450001)
電子商務背景下,網(wǎng)絡零售迅速發(fā)展,越來越多的電商巨頭進入生鮮領域,拓展了生鮮產(chǎn)品線上銷售渠道,推動了生鮮行業(yè)的加速發(fā)展。2020年我國生鮮產(chǎn)品電商行業(yè)規(guī)模達4 584.9億元,預計到2023年,生鮮產(chǎn)品電商行業(yè)規(guī)模將超萬億。在廣闊的市場需求下,生鮮產(chǎn)品電商行業(yè)卻仍面臨著貨損率高、盈利少等諸多問題,究其原因,部分生鮮產(chǎn)品電商企業(yè)通過資金投入、擴大宣傳盲目拓展市場,但若缺乏準確的市場需求信息,生鮮產(chǎn)品極易造成積壓,導致貨損率增大,企業(yè)成本增加?;诖?,生鮮產(chǎn)品電商企業(yè)須對產(chǎn)品需求做出迅速響應,此外相比線下銷售,線上銷售能為顧客提供表達購買體驗、情感態(tài)度的在線評論平臺,顧客在平臺上可主動分享自身對產(chǎn)品的全方位評價,從而讓潛在顧客更多了解產(chǎn)品信息,幫助其執(zhí)行購買決策,因此在線評論在一定程度上影響了產(chǎn)品需求量。
在線評論是開放式表達渠道,評論內容是顧客對產(chǎn)品及服務的感知性評價,此評價無意中會形成一種口碑效應,影響后續(xù)產(chǎn)品銷售。目前國內對在線評論數(shù)據(jù)與產(chǎn)品銷量之間的關系進行了較多探討:紀雪等量化從評論文本數(shù)據(jù)中提取出的產(chǎn)品屬性,計算產(chǎn)品屬性的用戶滿意度來確定下一代產(chǎn)品的開發(fā)需求。張夢瑩等基于有用性排序的方法,探究出評論總數(shù)、評論時效性、情感傾向對產(chǎn)品銷量都存在著不同程度的顯著性影響。沈超等提取出產(chǎn)品的關鍵屬性和非關鍵屬性,利用決策樹模型分析出了客戶偏好趨勢。王英等考慮品牌效應因素,基于采納信息模型,驗證了品牌強度、評論效價及評論時效度對產(chǎn)品銷量會存在顯著相關關系。胡雅淇等以農(nóng)產(chǎn)品為研究對象,運用逐步回歸的方法分析出在線評論數(shù)量、可視化評論、差評數(shù)量及評論長度均會正向或負向的影響產(chǎn)品銷量。
國外對在線評論數(shù)據(jù)與產(chǎn)品銷量關系的研究較多: Lau等基于情感分析方法,挖掘出評論數(shù)據(jù)中消費者情緒,并以此進行銷售預測,提高了銷售預測的準確度。Chen等基于實驗研究認為正面或負面的補充評論的順序會影響消費者的購買意愿,而產(chǎn)品的涉入程度會調整它們之間的關系。Hu以京東商城在線評論數(shù)據(jù)為例,以問卷調查和訪談的方式,探討出經(jīng)濟相關評論和服務相關評論對網(wǎng)購行為有顯著影響。Gopinath等運用動態(tài)分層線性模型,發(fā)現(xiàn)口碑數(shù)量能夠影響口碑極性進而影響品牌績效。Ruiz-Mafe等發(fā)現(xiàn)評論順序對銷量有著不同影響,當在線評論以正面評論開始時對企業(yè)銷量的提升更有益處。
目前針對在線評論數(shù)據(jù)與銷量關系的研究仍在繼續(xù)發(fā)展,現(xiàn)有文獻主要針對評論數(shù)據(jù)中的信息與產(chǎn)品銷量之間的關系進行探討,但從時間維度上看,評論信息反映了隨著時間的變化顧客對產(chǎn)品需求的變化,如何利用挖掘出的評論信息把握產(chǎn)品未來需求變化、預測產(chǎn)品未來需求量,鮮少有研究對其進行更加深入的討論,所以利用在線評論中顧客感知信息預測產(chǎn)品需求量的研究仍然較為缺乏。在此過程中,評論數(shù)據(jù)中顧客感知因素的提取是對產(chǎn)品需求量進行準確預測的前提。由于在線評論中數(shù)據(jù)量巨大且評論內容多是由不同詞語組成,傳統(tǒng)方法很難準確提取出顧客感知因素,因此,出現(xiàn)了許多用于處理大量非結構化文本數(shù)據(jù)的方法,如隱狄利克雷分布(LDA)、Word2vec模型、K-means聚類等。在眾多評論文本提取方法中,相對于其他數(shù)據(jù)處理方法,Word2vec模型能夠基于深度學習中的循環(huán)神經(jīng)網(wǎng)絡,結合詞語上下文關系,理解文本中的語義和語法信息,在大量語料庫中進行無監(jiān)督學習,通過計算詞向量確定兩個詞語之間關系遠近,因此更加貼合評論文本特征,能夠更全面獲取產(chǎn)品的特征詞語。此外在需求預測方面,由于提取出的產(chǎn)品特征數(shù)據(jù)具有多元化、非線性的特點,而SVR作為SVM的一種,在處理非線性數(shù)據(jù)上具有很強的處理能力,其能根據(jù)預測對象與其他影響因素的關系解決冗余屬性問題,并且在小樣本需求預測上具有較高的準確度,在處理復雜的產(chǎn)品特征數(shù)據(jù)上具有較大優(yōu)勢,因此本研究選取多變量SVR預測生鮮產(chǎn)品需求量。
本研究旨在以生鮮產(chǎn)品為研究對象,基于Word2vec模型挖掘評論文本中顧客感知的產(chǎn)品特征因素,并對特征因素量化處理,建立包含多個特征因素的多變量SVR需求預測模型,以期對產(chǎn)品需求量進行準確預測,從而使企業(yè)準確了解顧客需求,及時調整產(chǎn)品決策。
為利用在線評論中顧客感知因素對生鮮產(chǎn)品需求量進行準確預測,本研究構建了2個模型,分別是Word2vec模型和多變量SVR需求預測模型。
Wt為目標詞語;Wt-1,Wt-2,Wt+1,Wt+2分別為目標詞語的相鄰詞。Wt is the target word; Wt-1, Wt-2, Wt+1 and Wt+2 are the adjacent words of the target word, respectively.圖1 CBOW模型和Skip-Gram模型Fig.1 CBOW model and Skip-Gram model
從在線評論數(shù)據(jù)中提取出顧客感知的產(chǎn)品特征因素,可使企業(yè)了解消費者所關注的產(chǎn)品特性,是對需求進行預測的前提。在線評論數(shù)據(jù)中顧客對產(chǎn)品特征的描述多是以詞語形式呈現(xiàn),因此本研究通過Word2vec模型詞向量聚類的方法從大量評論數(shù)據(jù)中提取用戶所關注的多個產(chǎn)品特征集,作為需求預測模型的輸入變量。提取步驟如下:
1)中心特征詞提取。提取過程中,一方面通過查閱相關文獻,分析影響顧客感知、顧客滿意度的相關要素,進而初步預判影響需求的主要特征;另一方面對在線評論的文本數(shù)據(jù)進行詞頻以及詞性統(tǒng)計,結合所分析的顧客感知要素選取高頻詞語作為影響因素特征集的中心特征詞。
2)Word2vec模型訓練。運用python中的“jieba”分詞工具對評論文本進行分詞和停用詞處理,并設置模型中的上下文窗口參數(shù)和詞向量空間維度對模型進行訓練,在設置不同參數(shù)對模型進行多次訓練后,本研究將上下文窗口參數(shù)和詞向量空間維度分別設為5和100。
3)特征集構建。依據(jù)中心特征詞,通過Word2vec模型對詞語進行多次聚類,選取相似度較高的詞語作為特征詞庫,形成需求預測影響因素的特征集,將其作為預測變量輸入到SVR模型中。
1
.3
.1
數(shù)據(jù)預處理Word2vec模型訓練出來的結果是由一個個詞語所組成的特征詞庫,為更好的將其輸入到預測模型中,需將文本因素轉化為數(shù)值因素。因每條評論中都包含著顧客所感知的產(chǎn)品特征,因此本研究運用經(jīng)Word2vec模型聚類出來的各個特征詞來表達顧客觀點,實現(xiàn)文本因素的數(shù)值化轉換。假設在線評論數(shù)據(jù)經(jīng)過聚類之后形成的影響因素共(i
=1,2,…,n
)類,當某條評論文本中包含與因素相似的詞語時可將該條評論文本歸為類,從而得到各個因素所包含的評論文本數(shù)量,實現(xiàn)文本因素的量化,在(t
=1,2,…,T
)時刻第i
類因素可表示為(t
),為消除量綱對預測結果的影響,需要對數(shù)據(jù)進行歸一化處理,利用Z-score標準化的方法將數(shù)據(jù)限制在一定范圍之內,計算公式如下:(1)
式中:為原始數(shù)據(jù)的均值;σ
為原始數(shù)據(jù)的方差。1
.3
.2
支持向量回歸模型原理SVR作為SVM的一種,引入了不敏感損失函數(shù)ε
,在解決非線性回歸問題方面具有很強的處理能力,它的優(yōu)化目標函數(shù)可表示為:(2)
式中:C
表示懲罰因子,C
值越大對誤差分類的懲罰越大,越小對誤差分類的懲罰越?。?p>x為模型需要輸入的變量值;y
為相應的預測值;w
為函數(shù)f
(x
)中自變量x
的系數(shù);l
表示損失函數(shù),即允許超平面外存在樣本點,但需要使損失函數(shù)盡可能??;(f
(x
),y
)表示超平面中的樣本點;ζ
為松弛變量,當樣本點位于超平面以內或其邊緣上時ζ
=0,當樣本點位于超平面上方時ζ
>0,當樣本點位于超平面下方時ζ
<0。為求解式(2),一般采用拉格朗日對偶變換,公式為:(3)
式中:α
和為拉格朗日系數(shù)。對于單變量SVR預測模型,通常僅將時間序列的p
個數(shù)據(jù)作為預測模型的輸入變量,對未來某個時刻的值進行預測,此情況下,y
與其前幾個時刻的值之間存在著如下函數(shù)關系:y
(t
+T
+1)=F
(y
(t
),y
(t
+1),…,y
(t
+m
))(4)
在本研究中除了將時間序列歷史數(shù)據(jù)作為預測模型的輸入變量外,還提取了其他相關影響因素,因此需將單變量SVR轉換為多變量SVR,即上述函數(shù)關系轉換為需求量y
與多個輸入變量之間的關系,函數(shù)關系表示為:y
=F
(x
(t
),x
(t
),…,x
(t
))(5)
引入核函數(shù)將非線性回歸問題轉換為一個近似線性回歸問題,仍然采用拉格朗日對偶變換法進行求解,具體公式表示為:
(6)
在核函數(shù)選擇過程中,可供選擇的核函數(shù)主要有徑向基函數(shù)(Radial basis kernel function, RBF)、高斯核函數(shù)、多項式核函數(shù)、Sigmoid核函數(shù)等,其中RBF函數(shù)能夠將特征空間映射到無窮維,與其他核函數(shù)相比參數(shù)較少,方便計算,因此本研究引入RBF函數(shù)作為SVR模型的核函數(shù)。最后將所提取的影響因素特征集輸入到此回歸函數(shù)中可對產(chǎn)品的需求量進行預測。
1
.3
.3
PSO算法優(yōu)化SVR模型參數(shù)在SVR模型中懲罰因子C
以及不敏感損失函數(shù)ε
是影響模型預測準確度的重要參數(shù),其中C
值過大曲線容易過擬合,反之容易欠擬合;ε
反映了數(shù)據(jù)映射到新的特征空間后的分布,ε
值越大支持向量個數(shù)越少,反之支持向量個數(shù)越多。為較快速確定參數(shù)C
和ε
的值,采用粒子群算法對參數(shù)進行優(yōu)化,操作步驟如下:1)種群初始化。設置迭代次數(shù)、種群大小、學習因子、慣性權重等基本參數(shù)。
2)計算該算法的適應度函數(shù)值,并將R
作為算法的適應度函數(shù)。3)根據(jù)適應度函數(shù)計算粒子個體及全局最優(yōu)解,并與歷史值進行比較更新群體中粒子的速度和位置。
4)判斷是否滿足終止條件,如滿足則停止迭代,若不滿足則不斷更新粒子速度和位置直至滿足終止條件。
為驗證評論數(shù)據(jù)中的產(chǎn)品特征因素對生鮮產(chǎn)品需求量預測準確度的影響,本研究采用京東生鮮網(wǎng)站中產(chǎn)品評論數(shù)據(jù)進行實證分析。利用谷歌插件web scraper分別獲取了蘋果、火龍果和小龍蝦3種生鮮產(chǎn)品2021-06-25—2021-08-17共54天的評論數(shù)據(jù),得到的3種生鮮產(chǎn)品評論數(shù)據(jù)量分別為10 312條、9 685條和9 064條。根據(jù)網(wǎng)站的評論規(guī)則,每個顧客在確認收貨后均會形成一條文本評論數(shù)據(jù),基于此本研究將每天的評論數(shù)量作為生鮮產(chǎn)品的日需求量,從而建立以天為周期的歷史需求量數(shù)據(jù)集。從網(wǎng)站爬取出來的評論數(shù)據(jù)是顧客對產(chǎn)品使用體驗的隨意性表達,其中會存在著圖片、符號等非文本信息,因此需要刪除評論文本中的表情符號、數(shù)字等無用評論信息,確保評論文本的純文字性;其次對于一些不包含任何主題信息的超短評論,也需將其刪除;最后將處理后的評論數(shù)據(jù)輸入到python軟件中,運用“jieba”分詞工具對評論數(shù)據(jù)進行分詞、去停用詞處理,形成最終的文本語料庫。
挖掘評論數(shù)據(jù)中顧客感知的產(chǎn)品及服務信息是提取生鮮產(chǎn)品需求影響因素的關鍵步驟。對經(jīng)過預處理后的評論文本進行詞頻統(tǒng)計分析,選取詞頻排名前100的詞語作為產(chǎn)品特征詞庫,在該詞庫中由于會存在著同義詞,需要對其進行人工篩選,將同義詞合并為一類,從而形成生鮮產(chǎn)品的中心特征詞,作為Word2vec模型的輸入語料。
經(jīng)過詞頻統(tǒng)計分析及人工篩選合并同義詞,最終確定生鮮產(chǎn)品的5類中心特征詞,分別為“口感”、“包裝”、“物流”、“性價比”和“服務”。將此中心特征詞分別輸入到Word2vec模型中,借助模型中的相似度函數(shù),計算得到與各個中心特征詞的相似詞語,以火龍果評論數(shù)據(jù)中的特征詞“口感”為例,得到的相似度排名前30的詞語集合見表1。按此步驟最終可形成生鮮產(chǎn)品需求預測影響因素特征詞集。
表1 “口感”語義相關特征詞集及其與中心特征詞的相似度
Table 1 Semantic related feature word set of “Taste” and its similarity to the central feature word
詞語Word相似度Similarity詞語Word相似度Similarity詞語Word相似度Similarity詞語Word相似度Similarity味道 Smell0.955 7好吃 Good to eat0.812 3挺大 Quite big0.797 2個兒 Size0.778 3很甜 Very sweet0.873 8個個 All0.812 0糖分 Sugar0.795 2超值 Value0.777 0甜美 Sweet0.856 7口味 Taste0.811 9壞果 Bad fruit0.793 9爽口 Tasty0.777 0新鮮 Fresh0.850 8均勻 Evenly0.811 8適中 Moderate0.791 5磕碰 Bump0.776 2不小 Not small0.849 4很大 Very big0.808 3偏小 Too small0.786 5一頓 A meal0.775 4皮薄 Thin skin0.848 0個頭 Size0.807 7蠻大 Quite big0.785 0很正 Very positive0.774 6品相 Appearance0.828 0個子 Size0.801 8蠻甜 Quite sweet0.784 9中等 Medium0.771 6挺甜 Quite sweet0.822 1濃郁 Rich0.800 8成功 Success0.784 6打算 Intend0.771 5大果 Big fruit0.813 6正好 Just right0.798 0甘甜 Sweet0.781 4保存 Save0.769 7不算 Not count0.812 7太甜 Too sweet0.797 5超甜 Super sweet0.779 2清爽 Refreshing0.765 6
圖2 訓練樣本數(shù)據(jù)中火龍果需求量真實值與單變量SVR和多變量SVR的預測值Fig.2 The true value and the predicted value of the univariate SVR and multivariate SVR of pitaya demand in the training sample data
利用建立好的多變量SVR模型對測試樣本的火龍果需求量數(shù)據(jù)進行預測,結果見圖3。
圖3 測試樣本數(shù)據(jù)中火龍果需求量真實值與多變量SVR預測值Fig.3 The true value and the forecast value of multivariable SVR of pitaya demand in the test sample data
為更準確驗證2種模型需求量預測的準確度,針對3種產(chǎn)品分別計算2種模型需求量預測值的均方誤差MSE、平均絕對誤差MAE和判定系數(shù)R
,其中MSE和MAE數(shù)值越小、R
數(shù)值越大說明預測結果越好,所得到的計算結果見表2??梢姸嘧兞縎VR模型的需求量預測誤差均優(yōu)于單變量SVR模型,預測精度更高。因此,在實際生產(chǎn)運作中,加入在線評論顧客感知產(chǎn)品特征因素的多變量SVR需求預測模型能更準確預測產(chǎn)品需求量。表2 單變量SVR與多變量SVR火龍果需求量預測誤差比較
Table 2 Comparison of pitaya demand forecast errors between univariate SVR and multivariate SVR
產(chǎn)品Product模型Model均方誤差Mean square error平均絕對誤差Mean absolute error判定系數(shù)R2Coefficient of determination火龍果Pitaya單變量 SVR0.132 90.245 10.877 1多變量 SVR0.052 50.176 10.943 4蘋果Apple單變量 SVR0.122 90.196 90.877 1多變量 SVR0.037 00.101 80.963 9
表2(續(xù))
產(chǎn)品Product模型Model均方誤差Mean square error平均絕對誤差Mean absolute error判定系數(shù)R2Coefficient of determination小龍蝦Crayfish單變量 SVR0.151 30.219 60.848 7多變量 SVR0.013 20.084 20.986 8
本研究針對社交媒體中在線評論數(shù)據(jù)信息,以生鮮農(nóng)產(chǎn)品為研究對象,將文本挖掘技術和需求預測模型相結合,預測了生鮮產(chǎn)品下一階段的市場需求量。利用谷歌插件web scraper爬取大量在線評論數(shù)據(jù),構建Word2vec模型提取評論數(shù)據(jù)中顧客感知的產(chǎn)品特征因素,最大程度挖掘在線評論中產(chǎn)品特征信息,從而考慮多個因素對需求量預測準確度的影響。在此基礎上,將提取出的產(chǎn)品特征因素量化,引入多變量支持向量回歸的需求預測方法,實現(xiàn)生鮮產(chǎn)品多變量需求預測。在python軟件上進行算例仿真分析,結果表明:在線評論中顧客感知的產(chǎn)品特征因素能有效用于生鮮產(chǎn)品需求量預測中,并且與只根據(jù)歷史數(shù)據(jù)進行需求預測的單變量SVR相比,本研究提出的預測模型能提高產(chǎn)品需求量預測的準確度。