王安寧,張 強,彭張林,陸效農,方 釗
(1.合肥工業(yè)大學管理學院,安徽 合肥 230009;2.過程優(yōu)化與智能決策教育部重點實驗室,安徽 合肥 23009)
產品的成功很大程度依賴于能夠滿足客戶的需求[1]。特別是在高度競爭的細分市場中,企業(yè)必須通過了解客戶偏好來不斷創(chuàng)新產品,從而避免單純的價格競爭[2]??蛻羝脤ζ髽I(yè)來說十分重要,能夠支持產品改進、新產品開發(fā)、產品定位、市場細分和廣告等方面的規(guī)劃和決策[3-5]。
近年來,隨著Web2.0的快速發(fā)展,越來越多的消費者選擇在社交網絡上分享自己的購物體驗。生成的大量在線評論已經成為制造企業(yè)推斷客戶偏好的一種新的信息來源[6,7]。相比較傳統(tǒng)的調查問卷和客戶訪談,在線評論具有樣本量大,收集成本低等優(yōu)勢[8]。此外,由于來自客戶的主動分享,而非被動問答,在線評論的數據信息更加豐富,也更能夠反映客戶的真實需求。
已有文獻嘗試如何將評論文本中的客戶觀點轉變成消費者的感知偏好[8-10],主要是通過研究評論情感、評論數量以及客戶打分對產品銷量的影響,分析各產品特征的重要性[28]。然而,現有客戶偏好模型忽視了產品參數對消費者購買決策的影響。
有鑒于此,本文提出一種融合特征情感和產品參數的客戶感知偏好模型。首先,利用在線評論挖掘客戶對各產品特征的情感信息[4,11,12],用于反映產品的市場口碑。然后,將特征情感和產品參數共同作為影響產品銷量的關鍵因素[3],構建消費者購買決策的計量經濟模型。最后,根據計量經濟模型的參數估計結果,分析客戶對特征情感和產品參數的感知偏好。
隨著新興信息技術的發(fā)展,消費者越來越主動參與到產品的開發(fā)過程中,幫助企業(yè)共同創(chuàng)造商業(yè)價值[13]。在線評論作為一種企業(yè)與客戶交流的重要工具[17,18],開始逐漸被重視,用于支持產品改進和新產品開發(fā)[7,12,14]。為了輔助產品的開發(fā)設計,一些學者圍繞著如何利用在線評論分析客戶偏好做了大量的研究。
有學者利用語法分析方法測量客戶偏好,例如考慮修飾產品特征的形容詞個數[15]或者產品特征在評論文本中出現的頻率[5]。也有學者利用文本語義分析,識別在線評論文本中產品特征的情感來分析客戶偏好[8,10,16]。例如,Decker和Trusov通過構建離散選擇模型估算特征情感極性對產品打分的影響,來衡量客戶對特征的偏好程度[10]。然而,每個產品都有各自的優(yōu)勢和劣勢,產品特征在不同產品的評論文本中出現次數和情感態(tài)度都存在較大差異。因此,該類方法得到的客戶偏好對于不同產品往往存在較大差異,難以反映整個細分市場的客戶偏好。
在線評論作為一種新的客戶口碑形式,越來越影響著人們的購買決策[19-22]。Chevalier和Mayzlin通過計算評論文本的情感,再結合產品的評論數量、客戶打分等,構建在線評論對電商平臺產品銷量的影響模型[23]。Forman等人結合評論者的角色,進一步研究電子市場上在線評論與產品銷量的關系[24]。在此基礎上,Zhu和Zhang系統(tǒng)地結合產品和客戶的特性研究在線評論對產品銷量的影響[25]。
由于產品特征的性能對客戶購買選擇具有重要影響[3],一些學者嘗試挖掘評論文本中的產品特征及其觀點[26,27]。與本文研究最為相似的方法[6,28]建立了產品特征觀點與產品銷量的計量經濟模型。但是,消費者在購買決策時,通常會綜合考慮在線評論的特征情感以及產品參數的信息。因此,本文結合特征情感和產品參數,構建關于產品銷量的計量經濟模型,分析客戶對產品的感知偏好。
本文主要研究特征情感與產品參數融合作用對產品銷量的影響,進而分析客戶感知偏好。研究框架如圖1所示。首先,從在線評論文本中抽取有關于產品的特征情感信息,主要包括產品特征提取及其情感分析。針對每個產品(同類產品)逐一統(tǒng)計各個產品特征的正負面情感的次數,計算特征情感。然后,考慮產品參數在購買決策中的作用,分析產品參數與特征情感融合作用對產品銷量的影響。最后,結合特征情感與產品參數,構建關于產品銷量的計量經濟模型,分析客戶對產品的感知偏好。
圖1 研究框架
3.1.1 產品特征提取
從產品概念角度,產品特征可以分為產品結構特征和產品功能特征。例如,汽車產品的發(fā)動機(2.0T)屬于產品結構;動力(最大馬力)屬于產品功能。產品結構特征的在線口碑主要反映產品組件的質量。例如,發(fā)動機的負面口碑主要涉及其產生滋滋聲。產品功能特征的在線口碑主要反映產品性能的表現。例如動力的在線口碑主要涉及起步和加速效果。
根據已有文獻,大部分產品特征都是名詞[29],例如汽車產品的外觀、空間、動力等。因此,在線評論中頻繁出現的名詞或名詞短語通常被認為是潛在的產品特征[30]?;谶@種考慮,我們首先采用詞性標注方法對評論文本的每個詞語進行詞性標注[27]。中文不像英文單詞之間存在間隔,在詞性標注之前需要進行分詞處理。常用的中文分詞工具有jieba,NLPIR和Stanford NLP等。
此外,客戶通常會使用不同詞語描述同一產品特征,例如“外觀”、“外形”和“顏值”。為了聚類相同的產品特征,我們利用WordNet同義詞詞庫計算兩個詞語之間的相似度,進而合并同義詞[28]。最后,為了提高提取出來的特征詞庫具有更高的準確性,我們采用人工處理的方式對產品特征進行剪枝[6],剔除常見的非產品特征術語,例如“家人”、“朋友”等。
3.1.2 特征情感分析
情感詞典法是文本情感分析的一種常用方法。我們的數據集中包含數據項最滿意的一點和最不滿意的一點,可以將這些帶有正負面情感極性的句子作為訓練集,構建一個二分類模型用于判定帶有情感極性的詞語[31]。情感詞語的詞性主要是形容詞和副詞,以及部分的動詞。本文首先通過卡方檢驗判別每個詞語是否帶有明顯的情感極性,判定公式如下:
(1)
其中,Oij的含義如表1所示。例如,O11表示在最滿意度的一點評論語句中包含該詞語的次數。N=O11+O01+O10+O00,如果卡方檢驗結果顯著,說明該詞語存在明顯的情感極性。
表1 不同支持度下的產品特征提取效果
然后,對于存在明顯情感極性的詞語,分別計算其與正面情感極性和負面情感極性的點互信息,具體如下:
(2)
(3)
如果正面情感極性的點互信息大于負面情感極性,則該詞語屬于正面情感極性術語;反之,則屬于負面情感極性術語。依據以上模型,可以訓練得到一個情感術語庫,包括正面情感極性術語和負面情感極性術語。
最后,我們將所有評論被分割成句子。判定每個句子是否包含某一產品特征,若包含,依據最近情感術語的情感極性(正面或負面)來判斷產品特征的情感極性。例如,“動力不足,但是外觀很帥氣”。在這句話中,“動力”和“外觀”被視為產品特征,“不足”屬于負面情感極性術語,“帥氣”屬于正面情感極性術語。“不足”是在這句話中距離“動力”最近的情感術語,“帥氣”是距離“外觀”最近的情感術語。因此,“動力”的情感極性是負面的,而“外觀”的情感極性是正面的。此外,否定詞的出現往往會改變產品特征的情感極性。在情感術語上下文設置一個大小為5的監(jiān)測窗口,若在監(jiān)測窗口內出現否定詞,則對產品特征的情感極性取反值。
3.1.3 特征情感計算
基于對產品特征的提取以及情感分析,可以統(tǒng)計每個產品特征的正負面情感出現的次數。其中,N(j,f,pos)和N(j,f,neg)分別表示產品j的特征f的正面情感次數和負面情感次數。考慮到每個產品的評論總數并不一樣,因此,本文將產品特征的正負面情感次數在產品評論總數中的占比視為產品特征的正負面情感得分。可以用N(j)來表示產品j的評論總數。具體見以下公式。
(4)
(5)
其中,Score(j,f,pos)和Score(j,f,neg)分別表示產品j的特征f的正面情感得分和負面情感得分。所有產品特征的正負面情感得分共同組成了產品的特征情感,特征情感能夠很好地反映產品在消費者意識中的品牌形象。
產品參數是企業(yè)設定的產品規(guī)格。在電子商務網站上,消費者可以詳細地看到每一個產品參數。例如手機產品的運行內存(3G,4G或6G)和存儲空間(32G,64G和128G),汽車產品的發(fā)動機排量(1.5L,1.5T,2.0L,2.0T)和一百公里平均油耗(L/100 km)。
產品參數一定程度地反映產品性能,是消費者購買產品的基本需求指標,在購買決策中扮演著重要作用。此外,產品參數作為客戶感知的決定因素之一,與產品的特征情感存在一定的關聯關系。例如,運行內存越高,運行速度一般也越容易獲得更好的感知體驗。因此,消費者在考慮特征情感時,同時會關心相對應的產品參數。
但是,當前文獻主要研究在線評論中的特征觀點對消費者購買意愿的影響[6,28],沒有考慮到產品參數的作用。在現有方法的基礎上,本文將特征情感和產品參數共同融合到客戶感知偏好模型中,研究兩者共同作用對產品銷量的影響。
本節(jié)主要基于計量經濟模型,構建融合特征情感和產品參數的客戶感知偏好模型。相比較目前已有的客戶偏好分析模型[6,28],本文模型圍繞消費者購買決策因素進行了如下拓展:(1)目前文獻主要研究在線評論中的特征觀點對產品銷量的影響,而真正影響客戶購買決策的是特征觀點背后的情感態(tài)度。在現有方法基礎上,本文通過情感分析合并特征觀點,特征情感作為影響產品銷量的重要因素。(2)產品參數作為產品性能表現的重要指標,在消費者購買決策中扮演著重要角色。本文將產品參數納入到關于產品銷量的計量經濟模型中。通常,消費者在購買產品時會同時考慮特征情感和產品參數。因此,本文考慮了特征情感和產品參數的融合作用對產品銷量的影響。
從在線評論中獲得的特征情感反映了產品的市場口碑,影響著后續(xù)消費者的購買意愿,進而影響下一階段的產品銷量。根據Archak等的文獻[6],再結合產品參數的調節(jié),構建對產品銷量影響的計量經濟模型,具體如下公式所示:
(6)
其中,sjt表示產品j在時刻t的銷量排名,pjt表示產品j在t時刻的價格,Bj表示產品品牌。Xjt表示特征情感,Yjt表示產品參數信息。
+β(f,neg)Scoret(j,f,neg)]
(7)
變量Yjt表示產品參數信息,例如汽車產品的油耗。本文用A表示所有客戶感興趣的產品技術參數。Score(j,a)表示產品參數a的得分,例如汽車產品的100公里耗油量。βa表示產品參數a對產品銷量的影響程度。因此,Yjtβy可以由公式(8)表示:
(8)
[βa,f,posScoret(j,f,pos)+βa,f,negScoret(j,f,neg)]
(9)
由于模型中因變量是銷量排名,自變量系數為負數說明對產品銷量有正面影響。首先,特征正面情感得分系數(負值)越小,說明客戶愿意為該特征的感知提升而購買產品。相反,負面情感得分系數(正值)越大,說明客戶因為重視該產品特征的感知體驗而選擇放棄某些產品,購買該特征口碑良好的產品。其次,產品參數系數(負值)越小,說明客戶愿意為產品參數的提高而購買產品。此外,產品參數和特征情感融合作用系數能夠更好地詮釋產品參數和特征情感如何共同影響產品銷量。系數(負數)越小,說明產品參數對銷量提升具有促進作用;如果系數(正數)越大,說明產品參數對產品銷量具有抑制作用。
本文的實驗數據來源于汽車之家網站的SUV車型的產品參數和在線評論信息。根據本文提出的計量經濟模型,實驗收集39款SUV車型的評論文本、產品價格和產品參數,并連續(xù)追蹤8個月的SUV產品在中國的銷量排名。評論文本采集時間為2016年12月01日到2017年7月31日,采集的評論數量達到31682條,平均每個車型被評價812.36次。
4.2.1 特征情感
產品特征及其情感極性的準確識別是特征情感得分準確性的基礎。首先,產品特征提取關鍵的工作是頻繁項的支持度設置。在候選產品特征的準確率不是太低的情況下,召回率要盡可能高,從而保證最終形成的產品特征詞典盡可能多地包含用戶描述的產品特征。為了得到最佳的頻繁項支持度,需要比較不同支持度下的準確率和召回率。本文通過標注100條在線評論,即標注出評論中出現的產品特征。然后測試不同支持度下的產品特征識別的準確率和召回率,實驗結果如表2所示??梢钥闯鲭S著支持度的增加,F值是先呈上升趨勢,然后呈下降趨勢,支持度大約在0.03左右為最佳。
表2 不同支持度下的產品特征提取效果
其次,對于產品特征的情感分析,關鍵在于構建情感詞庫。本實驗使用標注數據(最滿意一點/最不滿意一點)訓練得到包含1484個情感詞的情感術語庫。此外,通過人工標注50條評論來檢驗情感極性識別的準確性。參與者首先需要標注每條評論中出現的產品特征,然后根據語義標注特征情感極性(正面或負面)。識別結果如表3所示,共有117個特征情感極性標注,準確識別出109個。其中,正面情感極性預測準確率為91.3%,負面情感極性的準確率為95.8%,總體準確率為93.2%。
表3 不同支持度下的產品特征提取效果
根據本文的產品特征提取方法,再經過汽車領域專家的意見,最終選擇了其中被評價最頻繁的11個產品特征。這11個產品特征的正負面情感的分布如圖2所示。其中,“外觀”、“操控”等產品特征的正面情感次數遠多于負面情感次數;而“做工”、“油耗”、“內飾”等產品特征的負面情感次數則相對較多。此外,針對39款SUV車型,產品特征的正負面情感得分的均值見表4。
圖2 產品特征的正負面情感的分布
表4 產品特征的正負面情感得分的均值
4.2.2 產品參數
產品參數是消費者購買前重要的參考信息。本文選取了新車故障數、最大馬力、最高時速、每百公里油耗以及排量等作為汽車產品的重要產品參數。其中,新車故障數量反映的是汽車產品質量的穩(wěn)定性;最大馬力體現汽車產品的動力性能;工信部綜合油耗(L/100 km)則體現使用汽車的經濟性和環(huán)保性。此外,排量也是客戶重點考慮參數,主要有1.5L、2.0L、1.5T、2.0T等,1.5T和2.0T是渦輪增壓發(fā)動機,不僅能提高動力水平,還可以提高燃油經濟性和降低尾氣排放。39款SUV車型的產品參數的統(tǒng)計描述如表5所示。
表5 產品參數的統(tǒng)計描述
4.3.1 模型估計與比較
在本節(jié)中,我們使用收集的樣本數據來估計本文提出的客戶感知偏好模型。為了更好地說明特征情感與產品參數的融合作用,我們比較分析了三個客戶感知偏好模型。Model 1主要考慮特征情感對產品銷量的影響[6,28];Model 2是在特征情感的基礎上,考慮產品參數對產品銷量的影響,但不考慮兩者的融合作用;Model 3同時考慮了特征情感,產品參數以及兩者的融合作用對產品銷量的影響,也就是本文提出的客戶感知偏好模型。
對于Model 1 和Model 2,計量經濟模型分別由公式(10)和(11)表示:
(10)
+θlog(sjt-1)+εjt
(11)
由于模型的因變量是銷量排名,相關系數為負數說明對產品銷量有積極影響。此外,產品參數一百公里油耗,可以根據是否高于所有車型的平均油耗來判定油耗高低。表6展示了三個客戶感知偏好模型的參數估計結果,幾乎所有的特征情感和產品參數都有預期的顯著性影響(即:正面特征情感有積極影響,負面特征情感有消極影響),控制變量價格和品牌在三個模型中也幾乎是一致的。在本研究中,我們用擬合優(yōu)度R2作為模型評估指標,R2值越高說明自變量對因變量的解釋性越強。如表6所示,本文模型(Model 3)的R2值最高。因此,根據擬合優(yōu)度R2,本文模型要更加優(yōu)于其他兩個模型。說明特征情感和產品參數對產品銷量的影響存在融合作用。
表6 客戶偏好模型評估結果
為了進一步說明本文模型得出的客戶感知偏好(即:正負面特征情感的重要性)具有更高的準確性,本文模型與信息增益[28]和TF-IDF方法進行了對比。對于每個特征情感的信息增益和TF-IDF的值,分別按照公式(12)和(13)計算:
(12)
(13)
其中,H(D)表示初始滿意度信息熵,p(si|j)表示特征情感條件下客戶滿意的概率,nij表示特征情感在每條評論中出現的次數,N表示評論總數,|{d∶j∈di}|表示出現特征情感的評論數量。
我們收集了大量關于消費者購買原因的評論(“你為什么購買這款車”),取代傳統(tǒng)調查問卷。在該類評論中,若出現正負面情感特征,說明消費者因為該特征情感選擇購買或放棄購買。因此,根據特征情感頻次,可以直觀地發(fā)現特征正負面情感的重要性。由于重要性數值波動較大,可以選擇重要性排序來替代。驗證結果如圖3所示,本文模型得到的重要性排序與驗證實驗有著更高的相關性。具體地,本文模型的正負面情感的皮爾遜相關性系數分別為0.955和0.973。
圖3 文本模型與信息增益、TF-IDF的對比實驗
4.3.2 客戶感知偏好分析
特征情感、產品參數以及兩則融合作用對產品銷量的影響如表6所示。對于特征情感,可以發(fā)現動力、內飾、空間和配置的正負面情感對產品銷量都有非常重要的影響,而外觀作為被評價最多的產品特征,影響卻相對較小。從圖2可以發(fā)現外觀主要都是正面情感,說明每個產品的外觀特征感知都有不錯的表現,因此在消費者購買決策中的作用相對微小。油耗的負面情感幾乎與正面情感相當,導致負面情感對產品銷量影響較大,而正面情感的影響則相對較小。此外,做工、操控、底盤、天窗和系統(tǒng)的討論量都相對較少,正負面情感對產品銷量的影響都是比較微小的。
對于產品參數,結果顯示品牌、排量和價格與銷量排名都有較強的相關性。其中,1.5T和2.0T排量對產品銷量都有較大的促進作用,相反1.5L排量對產品銷量有一定的消極作用。此外,新車故障數量、油耗(L/100 km)、最大馬力等產品參數對產品銷量也有一定的影響,但是影響程度較小。
對于特征情感和產品參數的融合作用,結果顯示動力正面特征情感與排量融合作用,以及油耗正負面情感與油耗高低融合作用對產品銷量具有顯著影響。說明1.5T和2.0T排量加強了消費者對動力正面情感的感知;高油耗加強了油耗負面情感的感知,同時也削弱了油耗正面情感的感知。
4.3.3 魯棒性檢驗
為了測試模型的穩(wěn)定性,我們選擇了不同比率的評論數量進行魯棒性檢驗。共有31,682條評論被分成3個隨機樣本,并逐一添加到訓練集中。為了方便比較結果,根據特征情感的系數大小來進行重要性排序。如表7所示,隨著樣本數量的增加,正負面特征情感的重要性排序基本保持穩(wěn)定。
本文探索了特征情感與產品參數對產品銷量的影響。研究結論對企業(yè)了解客戶需求有幾點有意義的管理啟示。
第一,在線評論中的產品特征作為產品的主觀屬性,有助于企業(yè)了解消費者對產品的核心關注點。此外,獲取的特征情感,反映了產品形象,對企業(yè)的產品定位具有重要的參考價值。在廣告宣傳中也可以集中突出消費者最關心的產品特征,展示企業(yè)產品的優(yōu)勢以及缺陷的改進,來提高廣告的投放效果,吸引更多消費者的關注。
第二,通過計量經濟模型,建立了特征情感與產品銷量的關聯,可以了解哪些產品特征的正面形象對產品銷量有更高的促進作用,哪些產品特征的負面形象對產品銷量有更嚴重的消極作用。在下一代產品設計中,針對那些重要的產品特征,企業(yè)需要去強化產品的關鍵優(yōu)勢,并且改進產品的關鍵缺陷。
第三,產品參數在特征情感與產品銷量關聯中的調節(jié)作用,有助于企業(yè)了解產品參數設置的市場效果。有些產品參數對產品銷量起到了決定性作用,而有些卻是微小的。產品參數的調節(jié)作用為企業(yè)的產品參數合理設置提供了理論依據。
本文考慮產品參數在消費者購買決策中的作用,并將文本信息挖掘技術與計量經濟模型結合起來,研究了特征情感和產品參數融合作用對產品銷量的影響程度。研究結果建立了特征情感、產品參數和產品銷量的關聯聯系,可以幫助企業(yè)了解產品成功或失敗的關鍵原因,為企業(yè)的產品設計和市場營銷提供理論依據。
同時,本文提出的方法存在一定的局限性,對適用的產品領域需滿足如下要求:(1)充分競爭的市場,存在眾多同類產品,例如汽車、手機、數碼相機等領域,為本文的計量經濟模型提供獲取到足夠多的樣本。(2)充分公開的市場,可以方便隨時在網上查詢到各個產品每個月的銷量或排名數據,像手機和汽車等。(3)產品結構較為復雜的市場,可以獲取足夠多的產品特征。這樣的產品類型存在著客戶偏好復雜性、變化性等特性,研究更有價值。未來研究方向主要有兩個:(1)從時間維度研究客戶偏好的變化規(guī)律[32],并結合線下調研方法,分析客戶偏好變化的機理,為企業(yè)提前預警市場變化,獲取市場機會。(2)從空間維度研究不同地區(qū)客戶偏好的差異,并結合地區(qū)環(huán)境、經濟等特征要素,分析差異的根源,為企業(yè)在不同地區(qū)制定差異化經營策略提供了決策支持。