葛欣然 張瀚文 張金冰
摘 要:隨著電子商務(wù)用戶量、信息量和商品量的不斷增多,大眾定制化需求和商品多樣化供給間的矛盾更加凸顯,這對(duì)電子商務(wù)中的推薦系統(tǒng)提出了更高要求?;趨f(xié)同過濾技術(shù)的智能推薦方法既能結(jié)合用戶的個(gè)人偏好、習(xí)慣等精準(zhǔn)進(jìn)行個(gè)性化推薦,又可以通過推薦系統(tǒng)發(fā)掘并展示長(zhǎng)尾商品,加速商品的利用與轉(zhuǎn)化,順應(yīng)市場(chǎng)多元化發(fā)展。首先,本文基于挖掘用戶歷史行為并判斷用戶偏好的目標(biāo),分析協(xié)同過濾算法的實(shí)現(xiàn)原理。其次,針對(duì)電子商務(wù)平臺(tái)需求特征,構(gòu)建包括數(shù)據(jù)預(yù)處理、相似度計(jì)算、推薦生成和評(píng)估在內(nèi)的智能推薦方法步驟。最后,針對(duì)現(xiàn)有算法提出實(shí)現(xiàn)條件。
關(guān)鍵詞:電子商務(wù);智能推薦系統(tǒng);協(xié)同過濾;多元化;數(shù)字化
本文索引:葛欣然,張瀚文, 張金冰.<變量 2>[J].中國(guó)商論,2023(17):-120.
中圖分類號(hào):F713.36 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-0298(2023)09(a)--04
根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的第51次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,截止到2022年12月,我國(guó)網(wǎng)民規(guī)模達(dá)10.67億,互聯(lián)網(wǎng)普及率達(dá)75.6%。在此背景下,信息化、數(shù)字化手段逐漸滲透消費(fèi)的各個(gè)領(lǐng)域。截至2022年6月,國(guó)內(nèi)使用網(wǎng)絡(luò)進(jìn)行購(gòu)物的用戶規(guī)模已達(dá)到8.41億,在網(wǎng)民整體中達(dá)到80%的較高比重,而在2013年,中國(guó)使用網(wǎng)絡(luò)購(gòu)物的用戶規(guī)模僅占全體網(wǎng)民的48.9%。
電商行業(yè)領(lǐng)域信息量的快速擴(kuò)張,使得消費(fèi)者對(duì)高效商品推介的訴求持續(xù)攀升。面對(duì)電子商務(wù)網(wǎng)站中紛繁復(fù)雜的信息資源,高效的智能化數(shù)據(jù)處理技術(shù)成為處理信息的關(guān)鍵。傳統(tǒng)引擎檢索不能針對(duì)不同用戶及不同環(huán)境的個(gè)性化需求提供差異化的結(jié)果;智能推薦系統(tǒng)則不需要用戶詳細(xì)描述自己的需求,而是通過用戶的歷史數(shù)據(jù)探索興趣偏好,針對(duì)用戶個(gè)性化信息進(jìn)行篩選服務(wù),并將預(yù)測(cè)結(jié)果反饋給用戶,使用戶購(gòu)物體驗(yàn)和商家銷量效率得以有效提高。因此,本文引入現(xiàn)階段運(yùn)用比較成功的協(xié)同過濾算法,應(yīng)用于電子商務(wù)智能推薦實(shí)踐,可以協(xié)同客戶的反饋、評(píng)價(jià)和意見等,對(duì)海量的電子商務(wù)信息進(jìn)行過濾,契合電子商務(wù)問題的癥結(jié)點(diǎn),對(duì)電子商務(wù)的發(fā)展有十分深遠(yuǎn)的影響。
在電子商務(wù)平臺(tái)中,智能推薦系統(tǒng)發(fā)揮著必不可少的作用,國(guó)內(nèi)外企業(yè)及學(xué)者針對(duì)電子商務(wù)中運(yùn)用的智能推薦問題進(jìn)行了深層次的研究,眾多個(gè)性化推薦的方法應(yīng)運(yùn)而生,也使得亞馬遜、攜程、阿里巴巴等在推薦領(lǐng)域取得了諸多應(yīng)用成果。但與國(guó)外相比,我國(guó)對(duì)電子商務(wù)智能推薦技術(shù)的研究仍處于跟隨模式,新思路、新方法和新技術(shù)與電子商務(wù)的契合度仍較弱,如推薦策略較簡(jiǎn)單、推薦方法的選擇未跟隨環(huán)境變化而改變,且國(guó)內(nèi)推薦算法大部分用在面向客戶推送,而針對(duì)企業(yè)產(chǎn)品和產(chǎn)品評(píng)價(jià)推薦算法的相關(guān)研究相對(duì)較少。
1 協(xié)同過濾算法原理分析
總體而言,協(xié)同過濾算法是分析具有相似興趣的群體行為,找到用戶或物品間的相似性,再通過相似性進(jìn)行推薦?;谀P偷膮f(xié)同過濾算法主要包括三類:基于用戶的協(xié)同過濾、基于項(xiàng)目的協(xié)同過濾和基于模型的協(xié)同過濾。
1.1 基于用戶的協(xié)同過濾算法
基于用戶的協(xié)同過濾(User-based CF)主要思想是相似的用戶可能具有相似的喜好,即“人以群分”,這樣便可以依據(jù)用戶對(duì)項(xiàng)目的歷史行為發(fā)掘與之興趣相投的用戶,再把這些確定的相似用戶對(duì)物品的評(píng)分?jǐn)?shù)據(jù)估算成目標(biāo)用戶對(duì)這一物品的未評(píng)分?jǐn)?shù)據(jù)值,邏輯示例如圖1所示。
圖1中,箭頭從用戶指向項(xiàng)目表示用戶對(duì)該項(xiàng)目是有興趣偏向的,而項(xiàng)目指向用戶的反方向箭頭表示最終對(duì)用戶推薦該項(xiàng)目。圖1中假設(shè)用戶a和用戶c都喜歡物品A和物品C,用戶b喜歡物品B,說明用戶a和用戶c具有相似的偏好,而用戶b與另外兩個(gè)用戶的偏好有較大差距,所以根據(jù)推薦的原則,物品D作為用戶c的喜好但用戶a沒有評(píng)分的物品,可以推薦給用戶a。
1.2 基于項(xiàng)目的協(xié)同過濾算法
基于項(xiàng)目的協(xié)同過濾(Item-based CF)主要思想是同個(gè)用戶可能喜歡的是相似的物品,即“物以類聚”。該算法通過分析用戶的行為喜好找到相似的項(xiàng)目,而與項(xiàng)目本身的特點(diǎn)無關(guān),再根據(jù)用戶對(duì)項(xiàng)目的偏好程度向其推送類似或相關(guān)的物品,邏輯示例如圖2所示。
假設(shè)用戶a與用戶b喜歡的共同項(xiàng)目是物品A和物品C,可以認(rèn)為物品A與物品C比較相似,喜歡物品A的都喜歡物品C,所以會(huì)把物品C推薦給喜歡物品A的用戶c。
1.3 基于模型的協(xié)同過濾算法
基于模型的協(xié)同過濾算法一般針對(duì)部分用戶對(duì)部分物品有評(píng)分?jǐn)?shù)據(jù),而其余部分沒有評(píng)分記錄,這是要用已知部分稀疏數(shù)據(jù)來預(yù)測(cè)那些空白的用戶和物品之間的評(píng)分關(guān)系,再將預(yù)測(cè)的高評(píng)分物品推薦給用戶。
基于模型的協(xié)同過濾算法與上述兩種算法有著本質(zhì)區(qū)別,前者是在尋找關(guān)聯(lián)的鄰居前建立用戶偏好模型,再后使用訓(xùn)練好的模型分析用戶喜好的實(shí)時(shí)信息,預(yù)測(cè)用戶與物品間的喜好關(guān)系,最終確認(rèn)喜好程度高的物品并推薦給用戶?;谀P偷膮f(xié)同過濾算法離線訓(xùn)練算法模型,運(yùn)用機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘等技術(shù),并使用訓(xùn)練的模型在線預(yù)測(cè)未知商品的得分,這種算法的優(yōu)勢(shì)是預(yù)測(cè)精度較高、節(jié)省訓(xùn)練空間且預(yù)測(cè)速度快,但是不足之處是其訓(xùn)練模型花費(fèi)較長(zhǎng)時(shí)間。建立模型常見的方法有聚類算法、關(guān)聯(lián)算法、矩陣分解、回歸算法等。
1.4 三類協(xié)同過濾算法的適用性
基于用戶的協(xié)同過濾向用戶推薦興趣相似的人也喜歡的物品,而基于項(xiàng)目的協(xié)同過濾給用戶推薦與其以往喜歡的物品類似的物品。從兩種算法的原理可以看出,基于用戶的協(xié)同過濾推薦的結(jié)果更多是反映與用戶興趣相投的群體中的熱門產(chǎn)品,具有較強(qiáng)的社交特性,這樣的特點(diǎn)適合用戶少、商品多、實(shí)效性強(qiáng)的情況。另外,使用該算法還可以令用戶發(fā)現(xiàn)更多的驚喜,其為用戶推薦的物品是與之興趣相同的用戶喜好所在,可能使其找到以往未察覺的興趣,從而產(chǎn)生更大的驚喜感?;陧?xiàng)目的協(xié)同過濾推薦的結(jié)果反映更多的是用戶的歷史興趣,具有更加個(gè)性化的特性,所以該算法更適用物品少、用戶多且用戶興趣較為穩(wěn)定,物品更新速度較慢的場(chǎng)景,維持用戶的興趣傳承。
基于模型的協(xié)同過濾是在當(dāng)以上兩種算法出現(xiàn)需要使用較大內(nèi)存計(jì)算相似度時(shí),利用模型直接計(jì)算預(yù)測(cè)值,而不需要將商品及用戶信息全部放在內(nèi)存中計(jì)算,解決了基于用戶與基于項(xiàng)目的協(xié)同過濾算法中內(nèi)存不足或計(jì)算復(fù)雜等問題產(chǎn)生的影響。
2 電子商務(wù)平臺(tái)的需求導(dǎo)向
2.1 商品評(píng)價(jià)缺乏參考統(tǒng)一性
在電商平臺(tái)中,不同用戶或不同方式的評(píng)分?jǐn)?shù)據(jù)可能處于不同的評(píng)價(jià)范圍,如常見的包括5分評(píng)價(jià)制、百分評(píng)價(jià)制和星級(jí)評(píng)價(jià)制,且在不同評(píng)價(jià)方法內(nèi),消費(fèi)者對(duì)商品的描述依據(jù)更加多元,使得傳統(tǒng)比對(duì)方法無法提取不同類型用戶或不同類型商品的特征信息,造成參考性不強(qiáng)。
2.2 客商匹配缺乏選擇專業(yè)性
現(xiàn)有電商平臺(tái)往往沒有足夠的專業(yè)技術(shù)評(píng)估客戶和商家之間的匹配度,如客戶實(shí)際需求與商家產(chǎn)品特點(diǎn)和服務(wù)優(yōu)勢(shì)間未形成最高效銜接。原因在于電商平臺(tái)的技術(shù)規(guī)則不能充分考慮到不同行業(yè)、不同類型的客戶和商家之間的差異性,使得客戶和商品的分類特征總結(jié)不全。這可能導(dǎo)致一些商家無法展示其獨(dú)特的產(chǎn)品和服務(wù),以及一些客戶無法得到滿足其專業(yè)需求的服務(wù)。
2.3 商品推介缺乏精準(zhǔn)過濾性
電商平臺(tái)商品種類和數(shù)量的快速增加使得客戶獲取的商品質(zhì)量、價(jià)格、功能等產(chǎn)生偏差,算法可能將某些群體的商品需求視為次要需求,導(dǎo)致這部分用戶缺乏相應(yīng)商品的推薦。此外,一些商家往往通過付費(fèi)排名、促銷活動(dòng)等方式引導(dǎo)用戶購(gòu)買特定商品,甚至有可能利用大量虛假評(píng)價(jià)和吹噓營(yíng)銷手段來騙取消費(fèi)者信任。這種商家引導(dǎo)的方式會(huì)極大影響用戶的消費(fèi)決策和購(gòu)物體驗(yàn)。
3 面向電子商務(wù)的協(xié)同過濾算法實(shí)現(xiàn)
針對(duì)電子商務(wù)平臺(tái)的現(xiàn)存問題,三類協(xié)同過濾算法能夠?qū)崿F(xiàn)較好的解決。電子商務(wù)智能推薦系統(tǒng)的總體結(jié)構(gòu)如圖3所示。
在電商平臺(tái)實(shí)行推薦的實(shí)際應(yīng)用中,協(xié)同過濾算法包含更多需要考慮的因素,比如數(shù)據(jù)預(yù)處理、相似度計(jì)算、推薦生成和評(píng)估等步驟。其中,數(shù)據(jù)預(yù)處理是確保數(shù)據(jù)質(zhì)量的關(guān)鍵步驟;而相似度計(jì)算則是識(shí)別出和目標(biāo)用戶興趣相似的其他用戶或商品的關(guān)鍵環(huán)節(jié);推薦生成和評(píng)估則是確保推薦結(jié)果準(zhǔn)確性和有效性的重要步驟。
圖3 電子商務(wù)智能推薦系統(tǒng)的總體結(jié)構(gòu)
3.1 數(shù)據(jù)預(yù)處理
針對(duì)評(píng)價(jià)缺乏參考統(tǒng)一性的問題,推薦系統(tǒng)在收集完用戶的行為信息后,需要對(duì)這些復(fù)雜的數(shù)據(jù)進(jìn)行預(yù)處理,其中包含兩個(gè)關(guān)鍵的步驟:(1)減噪。目的是去除用戶數(shù)據(jù)中的異常值或干擾項(xiàng),以保證計(jì)算相似度時(shí)得到的結(jié)果更加準(zhǔn)確。(2)歸一化。目的是將不同維度的數(shù)據(jù)統(tǒng)一到同一尺度上,以消除量綱和單位的影響,使得不同維度之間相似度有可比性。
需要通過數(shù)據(jù)的歸一化將不同用戶的評(píng)分?jǐn)?shù)據(jù)映射到0~1的區(qū)間內(nèi),從而保證計(jì)算出來的相似度更加準(zhǔn)確。再將預(yù)處理過的數(shù)據(jù)構(gòu)成一個(gè)用戶-商品評(píng)分矩陣R,如式(1)所示:
其中,橫向代表用戶對(duì)商品的評(píng)分;縱向代表商品獲得的用戶評(píng)分。m表示用戶;n表示項(xiàng)目;mi表示第i個(gè)用戶;nj表示第j個(gè)項(xiàng)目;Rminj表示第i個(gè)用戶對(duì)第j個(gè)項(xiàng)目的評(píng)分,其中數(shù)值的大小代表用戶對(duì)商品的興趣程度。
3.2 相似度計(jì)算
針對(duì)客商匹配缺乏選擇專業(yè)性的問題,系統(tǒng)將構(gòu)建的矩陣中每一行抽取出來,即代表每個(gè)用戶對(duì)所有商品的喜好程度;而將矩陣中的列向量抽取出來,代表的是所有用戶對(duì)一種商品的評(píng)價(jià)值,再計(jì)算出每?jī)蓚€(gè)行向量或列向量之間的相似度,便等同于基于用戶和基于項(xiàng)目的相似度評(píng)價(jià)值。計(jì)算相似度最常用的方法有杰卡德相似系數(shù)、余弦相似度及歐式距離等。以余弦相似度為例,其原理為衡量向量間的夾角大小,夾角越小,余弦相似度越大,即用戶或商品的相似度越大,定義如式(2)所示:
其中,u和v可以為兩用戶或兩商品向量。計(jì)算出相似度后將用戶或商品進(jìn)行排序,利用k最近鄰算法思想,選取相似度最高的前K個(gè)鄰居組成最近鄰集合。
3.3 電子商務(wù)智能推薦結(jié)果
針對(duì)商品推介缺乏精準(zhǔn)過濾性的問題,選取用戶或商品的近鄰集合后,根據(jù)相似度權(quán)重預(yù)測(cè)近鄰集合中包含商品的評(píng)分,計(jì)算得出商品的預(yù)測(cè)評(píng)分并按照降序排序,最后采用Top-N方法向目標(biāo)用戶推薦前N個(gè)商品。在基于用戶的協(xié)同過濾推薦算法中,用戶i對(duì)商品j的預(yù)測(cè)評(píng)分見式(3):
其中,U為用戶i在商品j上有評(píng)分的最近鄰集合;k為集合中的一個(gè)相似用戶;Rk,j為用戶k對(duì)商品j的評(píng)分。基于項(xiàng)目的協(xié)同過濾推薦算法與之類似,將用戶的近鄰集合及用戶間的相似度換為商品的相關(guān)數(shù)據(jù)即可。
需要注意的是,在預(yù)測(cè)過程中,由于用戶行為的不確定性,算法可能存在誤差,因此需要根據(jù)實(shí)際情況對(duì)預(yù)測(cè)結(jié)果進(jìn)行一定的評(píng)估和優(yōu)化,以提高推薦算法的準(zhǔn)確性和推薦效果。
4 電子商務(wù)協(xié)同過濾推薦算法的實(shí)現(xiàn)條件
雖然基于協(xié)同過濾的推薦技術(shù)在電子商務(wù)中應(yīng)用的可行性較高,但是隨著電商規(guī)模的擴(kuò)大發(fā)展及數(shù)據(jù)量的增長(zhǎng),協(xié)同過濾技術(shù)在實(shí)際運(yùn)用中仍需滿足以下條件。
4.1 冷啟動(dòng)條件
冷啟動(dòng)問題一般為新項(xiàng)目或新用戶面臨的問題,對(duì)于商品而言,一個(gè)新的商品投入電商平臺(tái),如果沒有任何關(guān)于用戶對(duì)它的評(píng)價(jià)數(shù)據(jù),那么這個(gè)商品就不可能被推薦給用戶;對(duì)于一個(gè)新用戶而言,由于未在該電商平臺(tái)留下評(píng)價(jià)、收藏和購(gòu)買等相關(guān)偏好記錄,推薦系統(tǒng)就不知道新用戶的興趣所在,無法為其推薦喜歡的商品,這就令電子商務(wù)平臺(tái)因無法為新用戶提供準(zhǔn)確的推薦而導(dǎo)致用戶流失。解決冷啟動(dòng)問題最直接的方法就是直接詢問用戶相關(guān)偏好信息,以獲得為其推薦的支撐數(shù)據(jù),現(xiàn)諸多平臺(tái)會(huì)在新用戶注冊(cè)時(shí)采用這種方法獲取他們的喜好信息。
4.2 數(shù)據(jù)稀疏性條件
稀疏性條件是影響推薦系統(tǒng)質(zhì)量的重要因素,隨著使用電子商務(wù)平臺(tái)用戶數(shù)的增多,大量商品隨之涌現(xiàn),用戶評(píng)價(jià)的項(xiàng)目數(shù)據(jù)只占總數(shù)據(jù)的一小部分,這樣得到的就是非常稀疏的用戶-項(xiàng)目評(píng)分矩陣。據(jù)統(tǒng)計(jì),在一個(gè)實(shí)際應(yīng)用的推薦系統(tǒng)中,用戶對(duì)項(xiàng)目的評(píng)分?jǐn)?shù)據(jù)通常低于1%,因此在計(jì)算用戶或項(xiàng)目的相似性時(shí),精確率會(huì)隨之降低,導(dǎo)致最終的推薦質(zhì)量大幅度降低。商品存在的評(píng)分越多,推薦的質(zhì)量就越高,所以熱門的頭部商品很容易找到大量的相似物品,稀疏性問題會(huì)令沒有交互的或較低交互的尾部商品無法實(shí)現(xiàn)推薦。解決稀疏性問題可以使用空值填補(bǔ)、結(jié)合內(nèi)容過濾、降維等方法,它們從不同的角度增加計(jì)算相似性的可考慮因素,以改善數(shù)據(jù)稀疏引起的問題。
4.3 擴(kuò)展性條件
大數(shù)據(jù)時(shí)代下,電子商務(wù)平臺(tái)的數(shù)據(jù)量增長(zhǎng)迅速,使得推薦系統(tǒng)的可擴(kuò)展性問題成為一個(gè)重要的關(guān)注點(diǎn)。數(shù)據(jù)的急劇增長(zhǎng)會(huì)阻礙算法計(jì)算用戶或項(xiàng)目的相似度,尤其是當(dāng)面對(duì)系統(tǒng)龐大的數(shù)據(jù)時(shí),推薦系統(tǒng)的計(jì)算效率急劇減慢,難以實(shí)時(shí)計(jì)算出準(zhǔn)確的推薦結(jié)果。矩陣分解、聚類和數(shù)據(jù)集縮減等方法都是用來解決擴(kuò)展性問題的常見方法,它們的主要原理是通過降低用戶-商品評(píng)分矩陣的維度或減小近鄰搜索范圍,以提高推薦的效率。在解決擴(kuò)展性問題時(shí)需要注意,在保證準(zhǔn)確性的前提下,盡量提高算法的效率,以平衡算法的效率和準(zhǔn)確性。
4.4 信息利用條件
協(xié)同過濾的特點(diǎn)是僅利用用戶與物品的交互信息,而與物體或用戶自身的屬性無關(guān)。此特點(diǎn)使推薦系統(tǒng)更簡(jiǎn)單高效地進(jìn)行推薦,但也帶來了不足,因?yàn)槲催\(yùn)用如用戶年齡、用戶性別、商品種類等用戶及商品的特征,導(dǎo)致這些有效信息的遺漏,不能充分利用各個(gè)方面的特征數(shù)據(jù)。為解決這個(gè)問題,推薦系統(tǒng)可以采用邏輯回歸等機(jī)器學(xué)習(xí)模型來綜合不同類型的特征,從而提升推薦效果。
5 結(jié)語
隨著電子商務(wù)中數(shù)據(jù)量爆炸式的增長(zhǎng),電商平臺(tái)需要針對(duì)不同用戶做出個(gè)性化推薦的推薦技術(shù)來提升電商服務(wù)水平及效率,智能推薦技術(shù)還可以為買家快速選擇所需商品提供了更為快速準(zhǔn)確的途徑。電商平臺(tái)運(yùn)用協(xié)同過濾推薦算法構(gòu)建電子商務(wù)推薦系統(tǒng),并結(jié)合不斷增大的信息數(shù)據(jù)規(guī)模,針對(duì)算法實(shí)現(xiàn)的困難與挑戰(zhàn),需從多維角度創(chuàng)造實(shí)現(xiàn)條件。
參考文獻(xiàn)
王娜.基于某電商平臺(tái)用戶行為的個(gè)性化推薦[D].蘭州:蘭州財(cái)經(jīng)大學(xué),2021.
李加軍.基于協(xié)同過濾的電子商務(wù)智能推薦方法研究[J].微型電腦應(yīng)用,2022,38(3):70-72.
朱梟帥.基于混合方法的電商推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].西安:西安電子科技大學(xué),2020.
崔春生,杜柏瀚,王雪.基于分層序列的移動(dòng)電子商務(wù)推薦系統(tǒng)策略研究[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2020,50(8):12-21.
于宏禮.電子商務(wù)環(huán)境下消費(fèi)者在線購(gòu)買意愿的影響因素研究[J].中國(guó)商論,2022(6):72-74.
陳勇.基于協(xié)同過濾算法的旅游推薦系統(tǒng)的設(shè)計(jì)[J].價(jià)值工程,2022,41(30):160-162.