劉齊平,楊 平
(1.湖北經(jīng)濟(jì)學(xué)院 信息管理學(xué)院,武漢 430205;2.湖北大學(xué)歷史文化學(xué)院,武漢 430062)
隨著互聯(lián)網(wǎng)的發(fā)展,用戶的“信息過(guò)載”問(wèn)題日益嚴(yán)峻,因此幫助用戶快速發(fā)現(xiàn)其可能感興趣信息的個(gè)性化推薦系統(tǒng)已經(jīng)成為互聯(lián)網(wǎng)應(yīng)用的“標(biāo)配”。然而,在洶涌而來(lái)的大數(shù)據(jù)之中,能夠很好反映用戶需求、偏好和關(guān)切的用戶評(píng)論和消息數(shù)據(jù)卻未能得到主流的個(gè)性化推薦系統(tǒng)的充分利用。以互聯(lián)網(wǎng)餐飲服務(wù)為例,目前已有的搜索和推薦系統(tǒng)主要基于價(jià)格、銷量、評(píng)分、地理位置等明確的結(jié)構(gòu)化數(shù)據(jù),而忽略了用戶在頁(yè)面上貢獻(xiàn)的大量充滿了強(qiáng)烈偏好信息的非結(jié)構(gòu)化評(píng)論數(shù)據(jù),未能將其轉(zhuǎn)化為精準(zhǔn)有效的用戶偏好和商戶特征信息;另一方面,想要找到符合自己口味餐廳的用戶經(jīng)常要花上大量的時(shí)間來(lái)閱讀、比較不同餐廳的其他用戶評(píng)價(jià),在這個(gè)復(fù)雜費(fèi)力的過(guò)程中往往陷入“選擇困難癥”,導(dǎo)致潛在消費(fèi)意愿的流失。
在大數(shù)據(jù)時(shí)代,用戶生成內(nèi)容越來(lái)越多,尤其是O2O平臺(tái)上的用戶體驗(yàn)評(píng)論數(shù)據(jù)非常多,作為平臺(tái)如何利用好這些數(shù)據(jù)給用戶做精準(zhǔn)推薦,給商戶提供餐飲改進(jìn)建議,做好對(duì)用戶體驗(yàn)、商戶價(jià)值的服務(wù)工作有較大的實(shí)踐意義。如果能將用戶評(píng)論數(shù)據(jù)轉(zhuǎn)化為比用戶購(gòu)買數(shù)據(jù)更精準(zhǔn)的用戶偏好、比用戶評(píng)分更全面的多維度評(píng)分,就能為用戶進(jìn)行更加個(gè)性化的推薦,也能為平臺(tái)和商戶提供更加及時(shí)的產(chǎn)品反饋。一方面,平臺(tái)可以通過(guò)用戶評(píng)論動(dòng)態(tài)地分析用戶的偏好,為用戶量身推薦最符合其需求的商戶,節(jié)省用戶搜尋成本,提高訂單轉(zhuǎn)化率;另一方面,平臺(tái)可以通過(guò)對(duì)商戶的評(píng)論動(dòng)態(tài)地獲取商戶的屬性評(píng)分,為商戶匹配適合的目標(biāo)用戶群,并為產(chǎn)品和服務(wù)的開(kāi)發(fā)和改進(jìn)提供參考借鑒。
對(duì)用戶評(píng)論的已有情報(bào)學(xué)研究可以分為以下幾類:
第一種通過(guò)對(duì)評(píng)論進(jìn)行一般的統(tǒng)計(jì)分析研究用戶需求、用戶體驗(yàn)及其改進(jìn)策略等,例如公共圖書(shū)館[1][2]、酒店[3][4]、知識(shí)直播產(chǎn)品[5]、虛擬學(xué)術(shù)社區(qū)[6]、共享經(jīng)濟(jì)平臺(tái)[7]等。
第二種通過(guò)對(duì)用戶評(píng)論進(jìn)行情感分析構(gòu)建基于用戶偏好的推薦模型,例如電影[8][9]、圖書(shū)[10]、手游[11]、飲食[12]、旅游景點(diǎn)[13]。此外,微博等[14]、視頻彈幕[15]等類似于用戶評(píng)論的文本也有基于情感分析的研究。
第三種通過(guò)對(duì)產(chǎn)品評(píng)論進(jìn)行情感分析得到產(chǎn)品屬性評(píng)分并構(gòu)建基于物品屬性的推薦模型,如SUV車型的汽車外觀設(shè)計(jì)推薦[16]、電商產(chǎn)品特征詞典[17]等。
第四種Turney最早提出了一種基于評(píng)論情感極性的無(wú)監(jiān)督學(xué)習(xí)推薦方法[18],開(kāi)了同類研究的先河。同時(shí)對(duì)用戶評(píng)論和產(chǎn)品評(píng)論進(jìn)行情感分析,通過(guò)對(duì)用戶偏好和物品屬性進(jìn)行匹配構(gòu)建聯(lián)合推薦模型,如電影推薦[19]、新聞推薦[20]、電視節(jié)目推薦[21]等。王安寧和張強(qiáng)等[22]認(rèn)為網(wǎng)絡(luò)評(píng)論與物聯(lián)網(wǎng)產(chǎn)品數(shù)據(jù)的聯(lián)合分析將為商務(wù)智能帶來(lái)新的生機(jī)。
本文的思路接近于上述最后一種類型,可以看成一種通過(guò)對(duì)基于標(biāo)簽的用戶畫像和產(chǎn)品畫像進(jìn)行匹配的推薦策略。用戶畫像(user profile)是一種根據(jù)用戶的目標(biāo)、行為和觀點(diǎn)的差異,將其區(qū)分為不同類型分組(user grouping),進(jìn)而構(gòu)造人物原型(personas)的過(guò)程,可以簡(jiǎn)單概括為“用戶信息標(biāo)簽化”。類似地,產(chǎn)品畫像(product profile)也可以簡(jiǎn)單概括為“產(chǎn)品信息標(biāo)簽化”。在現(xiàn)有文獻(xiàn)中,基于用戶畫像的個(gè)性化推薦方法出現(xiàn)不多,基于產(chǎn)品畫像的就更少。在早期的推薦系統(tǒng)研究中,有部分學(xué)者采用了用戶分組或用戶建模(user modeling)方法[23]-[25]。在近期研究中,僅有Li、Deng 等[26]和Gao 等[27]通過(guò)構(gòu)建用戶畫像或用戶標(biāo)簽進(jìn)行推薦服務(wù)。
綜觀已有文獻(xiàn),我們發(fā)現(xiàn)目前主流的推薦策略還是基于結(jié)構(gòu)化的數(shù)據(jù)的協(xié)同過(guò)濾推薦算法,多采用通用的訓(xùn)練集數(shù)據(jù)檢驗(yàn)算法的有效性,而未能充分利用網(wǎng)絡(luò)用戶主動(dòng)生成的大量非結(jié)構(gòu)化的真實(shí)評(píng)論文本數(shù)據(jù);即使利用了用戶評(píng)論數(shù)據(jù),現(xiàn)有研究也大多沒(méi)有同時(shí)針對(duì)用戶偏好和物品屬性進(jìn)行情感分析,更沒(méi)有由此構(gòu)建出用戶畫像和產(chǎn)品畫像并進(jìn)行匹配推薦。
本文通過(guò)對(duì)用戶評(píng)論數(shù)據(jù)的文本挖掘,計(jì)算在不同屬性維度上的用戶關(guān)注權(quán)重和商戶情感詞評(píng)分,然后加權(quán)求和得到商戶綜合評(píng)分,從而給出個(gè)性化的推薦結(jié)果。以大眾點(diǎn)評(píng)網(wǎng)餐飲門戶為例,本文提出了一種結(jié)合了個(gè)性化分析(用戶通過(guò)自己的評(píng)論顯示出的個(gè)人偏好)和大眾智慧(不同用戶對(duì)商戶的眾多評(píng)論)的較為合理的推薦策略,將有效提升網(wǎng)絡(luò)平臺(tái)的服務(wù)質(zhì)量和用戶體驗(yàn)。一方面,通過(guò)對(duì)特定用戶和商戶的評(píng)論文本的挖掘獲取用戶偏好(關(guān)注權(quán)重)和商戶特征(各屬性的情感分析結(jié)果),綜合計(jì)算得出推薦指數(shù),并依據(jù)推薦指數(shù)排序進(jìn)行推薦。另一方面,通過(guò)問(wèn)卷調(diào)查收集受訪者對(duì)不同商戶屬性的關(guān)注度及閱讀評(píng)論后對(duì)商戶的選擇,以證實(shí)用戶偏好、商戶屬性與用戶選擇之間的相關(guān)性,從而驗(yàn)證本文推薦策略的有效性。本文研究思路如圖1所示。
圖1 研究思路流程圖
評(píng)論文本涉及商品或服務(wù)的眾多屬性,任何商品或服務(wù)都是內(nèi)容、形式和價(jià)值的結(jié)合產(chǎn)物。筆者運(yùn)用文本挖掘工具ROST CM6的網(wǎng)站抓取功能對(duì)大眾點(diǎn)評(píng)網(wǎng)美食領(lǐng)域的用戶和商戶的相關(guān)評(píng)論進(jìn)行采集,并處理采集到的文本數(shù)據(jù),分析總結(jié)5類評(píng)論屬性的具體內(nèi)涵,如表1所示。
表1 評(píng)論對(duì)象庫(kù)類別表
情感詞是挖掘評(píng)述中商戶屬性大眾認(rèn)可度的依據(jù),本文先使用自然語(yǔ)言處理技術(shù)和相關(guān)工具軟件對(duì)文本數(shù)據(jù)做預(yù)處理,再對(duì)語(yǔ)料做句法關(guān)系拆解得到詞料,分別給詞料標(biāo)注詞性,最后匹配識(shí)別句子中的評(píng)論屬性和其情感詞,具體步驟如下:
1.數(shù)據(jù)處理與分析。首先利用文本挖掘工具ROST CM6 對(duì)采集到的文本數(shù)據(jù)進(jìn)行預(yù)處理,比如篩選語(yǔ)句、分詞、去停用詞、清洗等步驟,得到預(yù)處理語(yǔ)料。根據(jù)語(yǔ)料挖掘出情感詞與評(píng)價(jià)屬性的句法依賴關(guān)系,主要有兩種,分別是主謂句式和定中句式,如表2所示。
表2 句法依賴關(guān)系表
導(dǎo)入ROST CM6文本分析功能,再對(duì)待挖掘數(shù)據(jù)進(jìn)行預(yù)處理,得到表2中所示的分詞后詞料。
2.提取標(biāo)注詞。本文利用中文句法分析器Stanford Parser 作為文本挖掘工具,對(duì)預(yù)處理語(yǔ)料做“抽絲剝繭”,識(shí)別出句子中的評(píng)價(jià)特征詞。Stanford Parser 的句法分析器先將分詞后的語(yǔ)料賦予詞性標(biāo)注,如表3所示。
表3 詞性標(biāo)注表
在表3中,主謂句式和定中句式結(jié)構(gòu)的中心詞都是名詞,一般為評(píng)價(jià)屬性,而主謂式中的謂語(yǔ)和定中結(jié)構(gòu)中的定語(yǔ)一般為情感詞,詞性多為形容詞和動(dòng)詞。句法分析器Stanford Parser將句子處理成樹(shù)狀結(jié)構(gòu),如圖2所示,在句法樹(shù)中,為信息抽取程序設(shè)定如下規(guī)則:
圖2 句法樹(shù)示意圖
(1)遍歷句法樹(shù)中的所有葉子節(jié)點(diǎn),尋找到被標(biāo)注為常用名詞或固有名詞的節(jié)點(diǎn),判斷這些節(jié)點(diǎn)的內(nèi)容是否屬于評(píng)論屬性。
(2)當(dāng)找到評(píng)論屬性相關(guān)的葉子節(jié)點(diǎn)時(shí),尋找該節(jié)點(diǎn)的父節(jié)點(diǎn)下的所有兄弟節(jié)點(diǎn)。
(3)如果兄弟節(jié)點(diǎn)中有動(dòng)詞短語(yǔ)節(jié)點(diǎn)或表語(yǔ)形容詞節(jié)點(diǎn),提取其中的表語(yǔ)形容詞短語(yǔ)或者動(dòng)詞短語(yǔ)節(jié)點(diǎn)下的表語(yǔ)形容詞或動(dòng)詞。
在圖2中,句法分析器遍歷句法樹(shù)中的所有葉子節(jié)點(diǎn),尋找到兩個(gè)標(biāo)注常用名詞的節(jié)點(diǎn),并與評(píng)論屬性庫(kù)對(duì)照,判斷它們(“菜品”“環(huán)境”)屬于評(píng)論屬性。隨后找到它們的父節(jié)點(diǎn)下的兄弟節(jié)點(diǎn),即動(dòng)詞短語(yǔ),并提取各兄弟節(jié)點(diǎn)的子節(jié)點(diǎn)形容詞,分別是“好看”和“漂亮”,與“菜品”和“環(huán)境”相對(duì)應(yīng),最后生成評(píng)論屬性與情感特征的詞對(duì)表。
情感分析的目的是分析用戶的情感傾向,情感傾向可分成正向、負(fù)向和中性。推薦策略中,中性情感傾向往往基本沒(méi)有指導(dǎo)意義,故本文不將中性情感詞做為研究參考的數(shù)據(jù)。筆者對(duì)處理后文本語(yǔ)料進(jìn)行情感極性匹配,得到各個(gè)評(píng)論屬性的正、負(fù)向情感詞頻數(shù),作為推薦指數(shù)中商戶畫像的數(shù)字依據(jù),具體步驟如下:
1.構(gòu)建情感詞典。知網(wǎng)提供了4個(gè)方面的情感詞典,包括評(píng)價(jià)(正向、負(fù)向)、情感(正向、負(fù)向)、主張、程度級(jí)別。本文使用知網(wǎng)HowNet情感(正向、負(fù)向)詞典。[28]
2.挖掘情感傾向程度。利用Jupyter Notebook應(yīng)用程序和Python編程語(yǔ)言,基于情感詞典對(duì)提取各個(gè)評(píng)論屬性對(duì)應(yīng)的正負(fù)向情感詞做詞頻統(tǒng)計(jì),部分代碼如下所示:
筆者研究的推薦策略主要涉及兩方面信息。一方面,每個(gè)用戶所表達(dá)的評(píng)論,體現(xiàn)出此用戶選擇商戶時(shí)關(guān)注的主要屬性。利用每個(gè)屬性占所有統(tǒng)計(jì)詞頻的百分比作為推薦指數(shù)計(jì)算的權(quán)重因式Wi。另一方面,某一個(gè)商戶的大量用戶評(píng)論客觀上體現(xiàn)出大眾對(duì)此商戶提供的商品或服務(wù)的印象,即大眾對(duì)該商戶各個(gè)屬性的認(rèn)可度。采集并統(tǒng)計(jì)評(píng)論屬性對(duì)應(yīng)的正負(fù)向情感詞的數(shù)量,進(jìn)而將大眾智慧量化表示出商戶畫像。
公式(1)中,R是推薦指數(shù)的量化結(jié)果,i代表餐飲商戶的某個(gè)評(píng)論屬性,m是評(píng)論屬性的個(gè)數(shù),Wi指評(píng)論屬性的用戶關(guān)注權(quán)重(用戶偏好程度),pi代表第i個(gè)評(píng)論屬性包含的正向評(píng)論的數(shù)量,而ni表示第i個(gè)評(píng)論屬性包含的負(fù)向評(píng)論數(shù)量。pi與ni的值差表示情感詞的綜合極性程度,pi與ni的和代表有效情感詞總數(shù)。由公式(1)可知,當(dāng)用戶偏好(關(guān)注熱點(diǎn))與商戶畫像分量化計(jì)算得到的因式值均較高,即產(chǎn)生積極共鳴時(shí),推薦指數(shù)較高。
1.樣本選取。大眾點(diǎn)評(píng)網(wǎng)作為國(guó)內(nèi)規(guī)模較大的第三方消費(fèi)評(píng)價(jià)網(wǎng)站,不僅用戶數(shù)量多、商戶覆蓋率高,而且用戶活躍度高、商戶評(píng)論數(shù)量較多。因此,本文選擇大眾點(diǎn)評(píng)網(wǎng)的評(píng)論數(shù)據(jù)作為研究對(duì)象。
(1)先選取大眾點(diǎn)評(píng)網(wǎng)美食領(lǐng)域中評(píng)價(jià)數(shù)量排名靠前且具有代表性的三家餐飲商戶。DX海鮮點(diǎn)心酒家(簡(jiǎn)稱DX酒家)的評(píng)價(jià)數(shù)量排名第一,且菜品種類豐富,兼具主食、菜品、甜點(diǎn)、飲品和小吃;QJ排名第二,為蛋糕西點(diǎn)美食商戶,美食種類較為單一,代表性欠佳;XS砂鍋排名第三,美食種類較為齊全;QY咖啡排名第四,僅為飲品商戶,不作為研究樣本,繼而選取其后的XC洋風(fēng)料理(簡(jiǎn)稱XC料理)。
(2)再使用簡(jiǎn)單隨機(jī)抽樣的方法選取三位用戶。從隨機(jī)數(shù)表中的一位數(shù)、二位數(shù)、三位數(shù)和四位數(shù)中分別隨機(jī)取出100個(gè)數(shù)字,再?gòu)?00個(gè)數(shù)字中隨機(jī)選出3個(gè)數(shù)字。根據(jù)選出的隨機(jī)數(shù),依次在三家商戶的評(píng)論列表中查找到對(duì)應(yīng)序號(hào)的評(píng)論用戶,作為用戶樣本對(duì)象。
2.用戶的評(píng)論數(shù)據(jù)采集與處理。
(1)首先通過(guò)八爪魚(yú)數(shù)據(jù)采集器爬取三個(gè)用戶對(duì)餐飲商戶的評(píng)論文本。選取的三位用戶中:用戶“梅花鹿”發(fā)表了美食評(píng)論47篇,用戶“愛(ài)醬”發(fā)表72篇,用戶“尋味”發(fā)表80篇。
(2)使用文本挖掘工具ROST CM6和“Jieba”中文分詞庫(kù)[29]對(duì)評(píng)論文本分詞。
(3)再使用文本挖掘工具ROST CM6的功能并導(dǎo)入大連理工大學(xué)的中文停用詞表[15]對(duì)分詞后的數(shù)據(jù)清洗和詞頻分析,導(dǎo)出前300位詞頻。
(4)最后根據(jù)評(píng)論屬性庫(kù),與詞頻數(shù)據(jù)一一匹配,統(tǒng)計(jì)各用戶評(píng)論中屬性詞的詞頻和占比,如表4所示,作為用戶關(guān)注偏好的數(shù)字依據(jù)。
表4 用戶評(píng)論的詞頻統(tǒng)計(jì)表
3.用戶的評(píng)論數(shù)據(jù)分析。由表4的統(tǒng)計(jì)數(shù)據(jù)可知,三位用戶的關(guān)注點(diǎn)具有一定的共性,都把“食品質(zhì)量”作為較為關(guān)注的屬性,而屬性“交通地段”都給予了較少關(guān)注。而存在明顯差異的地方有:用戶“愛(ài)醬”對(duì)于屬性“服務(wù)體驗(yàn)”給予了高度的關(guān)注,用戶“尋味”給予了屬性“就餐環(huán)境”較高的關(guān)注??傊脩魧?duì)于餐飲商戶選擇時(shí),既有共同關(guān)注點(diǎn),也有用戶個(gè)性層面的興趣偏好。
4.商戶的評(píng)論數(shù)據(jù)采集與處理。
(1)在分析完個(gè)人用戶的關(guān)注點(diǎn)后,分別對(duì)選取的三位商戶的500 條近期評(píng)論文本數(shù)據(jù)進(jìn)行采集和預(yù)處理。
(2)把分句、分詞、清洗后的語(yǔ)料列表數(shù)據(jù)和情感詞典導(dǎo)入Jupyter Notebook 程序,并將兩者進(jìn)行逐一匹配,記錄每個(gè)評(píng)論屬性匹配到的正、負(fù)向情感詞,最后匯總詞頻數(shù),統(tǒng)計(jì)結(jié)果如圖3所示。
圖3 情感分析示意圖
5.商戶的評(píng)論數(shù)據(jù)分析。從圖3所反映出的信息可知,商戶“DX酒家”的屬性“服務(wù)體驗(yàn)”負(fù)向情感詞頻數(shù)遠(yuǎn)多于正向情感詞,翻看文本數(shù)據(jù)發(fā)現(xiàn),主要原因是商戶“排隊(duì)時(shí)間長(zhǎng),上菜慢,催上菜回應(yīng)不及時(shí)”等。商戶“XC料理”的屬性“食品價(jià)格”的負(fù)向情感詞頻數(shù)稍多于正向詞頻數(shù)。分析數(shù)據(jù)發(fā)現(xiàn),主要原因是“同類型菜品,價(jià)格比其他商家稍貴”。除這兩點(diǎn)外,其余均為正向詞多于負(fù)向詞,其中的差異則為正向詞頻數(shù)占總情感詞頻數(shù)的比例大小,代表商戶畫像里大眾認(rèn)可程度的高低。
繼續(xù)觀察圖3發(fā)現(xiàn),商戶“DX酒家”的“食品價(jià)格”屬性在三家商戶中的大眾認(rèn)可度最高。調(diào)查發(fā)現(xiàn),三家商戶中,商戶“DX酒家”的人均消費(fèi)最低,與實(shí)際情況相符。而其5個(gè)屬性中,“交通地段”的正向詞占比最大,可能與“位于武漢八號(hào)線地鐵附近”和在“漢街步行街里,離杜莎夫人蠟像館等景點(diǎn)距離近”等因素有關(guān)。商戶“XS砂鍋”的屬性“服務(wù)體驗(yàn)”在其所有屬性的正向情感詞占比中最高,翻閱評(píng)論可知主要原因有“服務(wù)員反應(yīng)迅速,中途會(huì)幫忙加熱湯”等,而屬性“交通地段”在三家商戶里情感正向詞占比最低,翻閱評(píng)論發(fā)現(xiàn)“附近停車位真的是很難找”等原因。商戶“XC料理”的屬性“就餐環(huán)境”在三家商戶中的大眾認(rèn)可度最高,翻閱相關(guān)評(píng)論發(fā)現(xiàn)與“居酒屋裝修,日式風(fēng)格,很舒服”等因素有關(guān)。
將“梅花鹿”等3位用戶的關(guān)注偏好量化值和“DX酒家”等3家商戶評(píng)論中的大眾認(rèn)可度量化值帶入上文中的公式(1)),計(jì)算求得每個(gè)商戶對(duì)應(yīng)每個(gè)用戶的推薦指標(biāo),如表5所示。
表5 用戶-商戶推薦指數(shù)計(jì)算表
由表5可知,商戶“DX酒家”對(duì)三位用戶的推薦指數(shù)均為墊底?;仡櫲挥脩舻年P(guān)注共性:食品質(zhì)量,而“DX酒家”的評(píng)論中此屬性的計(jì)算結(jié)果排第三。故在推薦指數(shù)計(jì)算中,三位用戶都較高程度關(guān)注的屬性,卻得到最小的計(jì)算收益。
此外需要指出的是,全部計(jì)算結(jié)果中,商戶“XC料理”對(duì)應(yīng)用戶“尋味”的推薦指數(shù)最高。觀察數(shù)據(jù)發(fā)現(xiàn),雖然其評(píng)論里的食品價(jià)格情感值為-0.065,但用戶“尋味”對(duì)該屬性的關(guān)注權(quán)重僅有0.045,即計(jì)算過(guò)程中,乘式運(yùn)算獲得了最小損失。此用戶在屬性“食品質(zhì)量”“就餐環(huán)境”“服務(wù)體驗(yàn)”上的關(guān)注權(quán)重較為均勻,均在0.3附近,同時(shí)商戶“XC料理”在這三個(gè)屬性上的情感分析值也均在0.5-0.8之間,故這三個(gè)共同較高的權(quán)重都獲得了較大的計(jì)算收益。
本文研究的推薦策略有兩個(gè)主要影響因素,一是公式(1)中的關(guān)注權(quán)重Wi,它由用戶評(píng)論中的屬性名詞的詞頻比重決定;二是公式(1)中的第二個(gè)因子,它是商戶評(píng)論中屬性詞對(duì)應(yīng)的正、負(fù)情感詞頻數(shù)按照一定規(guī)則計(jì)算出的結(jié)果。此因式會(huì)產(chǎn)生兩種情感共鳴類型,如果因式值為正數(shù),則為積極情感共鳴,否則為消極情感共鳴。
關(guān)注權(quán)重和情感詞計(jì)算兩者共同影響推薦指數(shù),關(guān)注權(quán)重來(lái)自用戶畫像,情感詞分析來(lái)源于商戶畫像,其中任何一方的高低并不能直接說(shuō)明推薦指數(shù)的結(jié)果??梢?jiàn),推薦策略是兩因素綜合考慮的有機(jī)結(jié)合。
1.問(wèn)卷調(diào)查。為了評(píng)測(cè)推薦策略的有效性,筆者設(shè)計(jì)了一份調(diào)查問(wèn)卷,并通過(guò)網(wǎng)絡(luò)途徑發(fā)布,收集受訪者的關(guān)注點(diǎn)與網(wǎng)絡(luò)平臺(tái)中商戶評(píng)論畫像之間的關(guān)系數(shù)據(jù)。調(diào)查的內(nèi)容有兩方面:一方面,了解受訪者選擇餐飲商戶時(shí)對(duì)商戶各個(gè)屬性的關(guān)注程度,即發(fā)掘受訪者的偏好;另一方面,問(wèn)卷摘錄數(shù)家大眾點(diǎn)評(píng)網(wǎng)美食領(lǐng)域的三家商戶的數(shù)個(gè)文本評(píng)論,供受訪者閱讀,閱讀評(píng)論后根據(jù)自身感受勾選心儀商戶?;厥諉?wèn)卷101份,篩選出有效問(wèn)卷,過(guò)濾掉無(wú)效問(wèn)卷。在檢查收集到的問(wèn)卷時(shí),發(fā)現(xiàn)有數(shù)個(gè)問(wèn)卷的完成所用的時(shí)間僅有幾秒,而此次問(wèn)卷涉及文段閱讀,有理由懷疑這部分受訪者沒(méi)有完整閱讀評(píng)論文本信息,故作無(wú)效問(wèn)卷處理。在問(wèn)卷數(shù)據(jù)的統(tǒng)計(jì)過(guò)程中,筆者發(fā)現(xiàn)有受訪者對(duì)于所有屬性的關(guān)注程度的填選均為“不關(guān)注”,既不符合實(shí)際情況,也不滿足研究需要,故認(rèn)定為無(wú)效問(wèn)卷。經(jīng)篩選和過(guò)濾,過(guò)濾掉12份無(wú)效問(wèn)卷,保留89份問(wèn)卷。
具體過(guò)程如下:首先,統(tǒng)計(jì)每個(gè)受訪者對(duì)五個(gè)商戶屬性的關(guān)注分值,并計(jì)算出每個(gè)受訪者對(duì)應(yīng)的每個(gè)關(guān)注點(diǎn)的權(quán)重,即某個(gè)關(guān)注分值除以總分值。其次根據(jù)問(wèn)卷上商戶的文本評(píng)論數(shù)據(jù)挖掘出商戶畫像,即商戶屬性的情感分析結(jié)果。最后帶入推薦指數(shù)計(jì)算公式中,分別計(jì)算出商戶-受訪者對(duì)應(yīng)的推薦指數(shù),摘錄部分計(jì)算結(jié)果如表6所示。表6中節(jié)選的部分?jǐn)?shù)據(jù)顯示商戶B的推薦價(jià)值最大,結(jié)合商戶B的畫像特點(diǎn)和受訪者的關(guān)注情況可發(fā)現(xiàn):受訪者對(duì)“食品價(jià)格”和“食品質(zhì)量”的關(guān)注普遍較高,同時(shí)對(duì)交通地段的關(guān)注較低;商戶A和商戶C在價(jià)格和質(zhì)量?jī)蓚€(gè)屬性上有所欠缺,情感值計(jì)算為負(fù)值;而商戶B這兩項(xiàng)屬性的計(jì)算取值均為正數(shù),“交通地段”的情感值為負(fù)。參考本文推薦算法實(shí)驗(yàn)結(jié)果,問(wèn)卷調(diào)查與其不謀而合。前后兩次分析的共同點(diǎn)是用戶較為關(guān)注的,商戶屬性同時(shí)被大眾認(rèn)可的程度較明確,此時(shí)推薦策略呈現(xiàn)熱反應(yīng)。
表6 問(wèn)卷數(shù)據(jù)整理表(摘錄)
參考此結(jié)果可縮減推薦策略的處理流程,提高推薦效率。推薦模型在計(jì)算出用戶偏好和商戶畫像的量化結(jié)果時(shí),可優(yōu)先比對(duì)用戶關(guān)注程度高的屬性,若此屬性在評(píng)論信息里的情感傾向明確,即可推薦。
2.推薦策略有效性驗(yàn)證。記錄受訪者的商戶選擇,與推薦指數(shù)排名對(duì)照分析出推薦策略的有效性。結(jié)果顯示,在89位有效受訪者中實(shí)際選擇了推薦指數(shù)排名第1的商戶的有53位,占總數(shù)的59.6%,實(shí)際選擇了推薦指數(shù)排名第2和第3的用戶分別占總數(shù)的24.7%和15.7%。也就是說(shuō),有59.6%的受訪者的意向和首位推薦吻合,85.0%的受訪者選擇和推薦較高程度地達(dá)成一致。因此,推薦策略具有較強(qiáng)的有效性。雖然有問(wèn)卷調(diào)查結(jié)果驗(yàn)證了本文推薦算法的有效性,但由于受訪者在回答問(wèn)卷時(shí)需要認(rèn)真閱讀一定量的評(píng)論文本,一些認(rèn)知規(guī)律會(huì)影響受訪者的閱讀行為,所以受訪者對(duì)商戶的最終選擇可能會(huì)受到這一過(guò)程的扭曲:
(1)閱讀過(guò)程中的信息加工,受刺激物的“驚奇值”[30]影響。在問(wèn)卷上的文本評(píng)論中,出現(xiàn)了“顏值驚艷”“小姐姐服務(wù)員”等網(wǎng)絡(luò)熱點(diǎn)詞匯,這些詞匯對(duì)不同年齡段人群的刺激程度不同,影響受訪者的理性判斷。比如,某位受訪者對(duì)服務(wù)體驗(yàn)的關(guān)注程度不高,而“小姐姐服務(wù)員”的“驚奇值”產(chǎn)生較高影響,則會(huì)導(dǎo)致此用戶對(duì)本不關(guān)注的屬性產(chǎn)生強(qiáng)烈興趣,從而選擇與推薦策略結(jié)果背道而馳的商戶。
(2)閱讀過(guò)程中的信息加工,受閱讀者的眼動(dòng)凝視時(shí)間[31]的影響。問(wèn)卷的商戶評(píng)論存在先后閱讀順序,當(dāng)一個(gè)受訪者閱讀完靠前商戶評(píng)論,已經(jīng)產(chǎn)生心儀感時(shí),會(huì)縮短靠后商戶評(píng)論的凝視時(shí)間,造成受訪者對(duì)靠后信息獲取殘缺。比如某位受訪者非常注重食品質(zhì)量屬性,閱讀完靠前商戶的評(píng)論,已經(jīng)產(chǎn)生了選擇的想法,此時(shí)靠后商戶的評(píng)論中雖然有高質(zhì)量食品的相關(guān)信息,但可能因?yàn)樵撌茉L者無(wú)意識(shí)縮短了后文的眼動(dòng)凝視時(shí)間,關(guān)鍵信息被忽略。
(3)閱讀過(guò)程中的信息加工,受詞頻[32]的影響。高詞頻和低詞頻在默讀中產(chǎn)生一種維持穩(wěn)定的頻率效應(yīng)。即讀者在低頻度的詞用時(shí)比高頻度的詞更長(zhǎng),從而影響閱讀者的眼球運(yùn)動(dòng)。問(wèn)卷閱讀文段中,反復(fù)出現(xiàn)“價(jià)格”“環(huán)境”“服務(wù)”這類標(biāo)準(zhǔn)化的詞匯,受訪者更容易跳過(guò)這類高頻且常規(guī)的詞,注視詞頻較低且新穎的詞,導(dǎo)致受訪者產(chǎn)生對(duì)文本理解的主觀偏差。
綜上所述,受訪者以及網(wǎng)絡(luò)用戶在閱讀評(píng)論文本時(shí),不一定完整、準(zhǔn)確、客觀地獲取了文本中的信息,因此問(wèn)卷調(diào)查所得到結(jié)果的局限性是需要注意的。
本文充分利用了傳統(tǒng)推薦策略未能利用的具有豐富偏好信息的海量用戶評(píng)論數(shù)據(jù),通過(guò)挖掘用戶關(guān)注與偏好和商戶畫像之間的擬合關(guān)系,構(gòu)建了基于多維度用戶偏好和商戶特征模型的個(gè)性化推薦策略。本文通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)采集了大眾點(diǎn)評(píng)網(wǎng)上特定用戶和商戶的評(píng)論數(shù)據(jù),運(yùn)用文本挖掘方法分析用戶偏好和商戶特征,得出用戶關(guān)注權(quán)重和商戶屬性情感分析結(jié)果,再將二者進(jìn)行加權(quán)求和得到針對(duì)用戶個(gè)人的個(gè)性化推薦指數(shù),最后依據(jù)推薦指數(shù)的排序進(jìn)行推薦。本文提出的推薦策略是一種結(jié)合了個(gè)性化分析(用戶通過(guò)自己的評(píng)論顯示個(gè)人偏好)和大眾智慧(不同用戶對(duì)商戶的眾多評(píng)論)的較為合理的推薦策略,能有效提升推薦質(zhì)量和用戶體驗(yàn)。本文用問(wèn)卷調(diào)查數(shù)據(jù)分析了用戶偏好、商戶特征與用戶實(shí)際選擇之間的關(guān)聯(lián),驗(yàn)證了推薦策略的有效性,結(jié)果顯示有85.0%的受訪者選擇和推薦指數(shù)前三位商戶達(dá)成一致。
本文的理論價(jià)值在于:主流的協(xié)同過(guò)濾推薦算法只是在“用戶-物品”選擇矩陣的數(shù)據(jù)中根據(jù)用戶或物品的相似性做出唯象的預(yù)測(cè),而本文提出的推薦策略沒(méi)有回避用戶決策過(guò)程的核心問(wèn)題——用戶偏好和物品屬性,并通過(guò)對(duì)用戶評(píng)論的文本分析將用戶偏好和物品屬性數(shù)據(jù)挖掘出來(lái),借助線性的效用函數(shù)模擬了用戶的決策行為,得到了較好的推薦結(jié)果。本文的推薦策略側(cè)重于決策過(guò)程的因果關(guān)系,與只考慮數(shù)據(jù)的相關(guān)關(guān)系的主流推薦算法可以形成方法論上的互補(bǔ),這還有待于未來(lái)進(jìn)一步的研究。
本文的實(shí)踐意義在于:(1)充分利用了具有豐富偏好信息的海量用戶評(píng)論數(shù)據(jù),將其轉(zhuǎn)化為比用戶購(gòu)買和評(píng)分等更加精細(xì)和全面的用戶偏好、商戶特征數(shù)據(jù),為盤活現(xiàn)有海量數(shù)據(jù)、提升數(shù)據(jù)價(jià)值提供了新的思路;(2)通過(guò)構(gòu)建和匹配用戶畫像和商戶畫像,為用戶量身推薦最符合其需求的商戶,節(jié)省搜尋成本,提高訂單轉(zhuǎn)化率;(3)平臺(tái)可以通過(guò)分析用戶發(fā)表的評(píng)論和商戶收到的評(píng)論,動(dòng)態(tài)地獲取用戶偏好和商戶屬性評(píng)分,從而為商戶匹配適合的目標(biāo)用戶群,并為產(chǎn)品和服務(wù)的開(kāi)發(fā)和改進(jìn)提供參考借鑒。
本文的方法基于對(duì)用戶評(píng)論的文本分析,因此需要用戶發(fā)表一定數(shù)量的評(píng)論,才能對(duì)用戶的偏好做出分析,也就是說(shuō)對(duì)“冷啟動(dòng)”不夠友好;但我們可以通過(guò)在新用戶注冊(cè)時(shí)引導(dǎo)用戶對(duì)各屬性維度進(jìn)行偏好排序來(lái)為用戶偏好提供一個(gè)初始值。由于本文的文本分析僅限情感詞正負(fù)極性分析計(jì)算,而未能考慮情感色彩強(qiáng)度差異(比如“好吃”“美味”“絕世佳肴”同屬于正向情感詞,但情感色彩依次增強(qiáng)),因此在未來(lái)的研究中,可在詞頻的基礎(chǔ)上,增加強(qiáng)度賦值,提高推薦的準(zhǔn)確度。此外,未來(lái)還可更多關(guān)注用戶的地域化習(xí)慣和口味習(xí)慣等群體特征和評(píng)論的非文字內(nèi)容(如標(biāo)點(diǎn)符號(hào)、表情符號(hào)、特殊符號(hào))等數(shù)據(jù)的挖掘,拓展用戶畫像和商戶畫像的描繪方法。