• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于電商評論的網(wǎng)購商品特征提取及價格預(yù)測

      2021-07-27 11:13:36普晟昱
      科技創(chuàng)新導(dǎo)報 2021年4期
      關(guān)鍵詞:隨機森林特征提取

      普晟昱

      摘? 要:隨著電子商務(wù)的不斷革新,網(wǎng)購消費者在眾多同類型商品中挑選一件物美價廉的商品需要耗費大量時間和精力。本文以京東商城羽毛球商品為例,通過LDA主題模型從暢銷商品的電商評論中挖掘用戶購買羽毛球商品的需求信息,據(jù)此提取商品特征作為建立模型所需的解釋變量,建立對商品價格的回歸預(yù)測模型。得出結(jié)論,基于電商評論提取商品特征建立價格預(yù)測模型的方法可以較準(zhǔn)確地預(yù)測商品平均價格,優(yōu)化消費者購買決策過程,提升電商平臺運營服務(wù)能力。

      關(guān)鍵詞:電商評論? LDA主題分析? 特征提取? 價格預(yù)測? 隨機森林

      中圖分類號:F713.36? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標(biāo)識碼:A? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2021)02(a)-0124-06

      Feature Extraction and Price Forecasting of Online Commodities Based on E-commerce Comments

      PU Chengyu

      (School of Mathematics and Statistics, Nanjing University of Information Science & Technology, Nanjing, Jiangsu Province, 210044 China)

      Abstract: With the continuous innovation of e-commerce, online shopping consumers need to spend a lot of time and energy to choose a product attractive in price and quality among many similar products. Taking the badminton commodities of Jingdong Mall as an example, this paper uses the LDA theme model to mine the demand information of users to buy badminton commodities from the e-commerce comments of popular commodities, and then extracts the commodity features as the explanatory variables needed to build the model and establishes a regression prediction model for commodity prices. The conclusion is that the method of building a price prediction model based on the extraction of commodity features based on e-commerce comments can forecast the average price of commodities more accurately, optimize the purchasing decision-making process of consumers, and improve the operation and service capability of the e-commerce platform.

      Key Words: E-commerce comments; LDA theme analysis; Feature extraction; Price forecasting; Random forest

      隨著電子商務(wù)技術(shù)的不斷革新,網(wǎng)絡(luò)購物現(xiàn)如今已經(jīng)成為百姓購物的主要方式之一。截至2020年6月,我國網(wǎng)絡(luò)購物用戶規(guī)模達7.49億,較2018年底增長1.39億[1]。電子商務(wù)的開放性和便利性讓消費者用戶足不出戶就能“貨比三家”,買到物美價廉的商品,商家也能獲取到傳統(tǒng)線下運營模式不能比擬的市場規(guī)模,越來越多的商家進駐電商平臺使得商品數(shù)量和類型呈現(xiàn)井噴式增長。研究發(fā)現(xiàn),用戶是否購買商品,主要取決于在線商品性價比與消費者需求訴求[2]。從消費者的角度來看,繁多的同類型商品給消費者的選擇帶來困難,挑選一件性價比高的商品需要耗費用戶大量的時間與精力。從電商平臺的角度看,改善用戶選擇流程,提升用戶購物體驗?zāi)軌蝻@著提升平臺用戶忠誠度和推廣購買轉(zhuǎn)化率。

      數(shù)據(jù)挖掘在電子商務(wù)領(lǐng)域的應(yīng)用越來越廣泛,在電子商務(wù)智能推薦服務(wù)中的關(guān)聯(lián)規(guī)則算法[3],基于電商產(chǎn)品評論數(shù)據(jù)的文本挖掘方法[4],針對不同消費群體網(wǎng)購決策影響因素研究的聚類分析算法[5]等在電商大數(shù)據(jù)發(fā)展中起到重要作用。目前學(xué)者在針對電子商務(wù)領(lǐng)域的用戶評論研究大多集中于評論本身所包含的信息,鮮有學(xué)者將電商評論挖掘出的信息更進一步運用到回歸預(yù)測模型中。如嚴(yán)建援等針對在線評論內(nèi)容對評論有用性的影響的研究[6],李涵昱等針對商品評論進行的情感傾向性分析研究[7],國顯達等提出Gaussian LDA主題模型挖掘京東商城等在線評論中用戶所表達可能的主題的研究[8]。

      本文以京東商城的羽毛球商品為例,基于暢銷商品評論挖掘用戶需求,提取商品特征作為模型解釋變量,建立商品價格的回歸預(yù)測模型。為用戶購買高性價比羽毛球商品提供參考,也為電商平臺改善用戶體驗提供思路。

      1? 研究方法介紹

      1.1 基于電商評論的商品特征提取及價格預(yù)測模型

      本文提出了基于電商評論的網(wǎng)購商品價格預(yù)測模型,主要包括六個步驟,如圖1所示。

      (1)暢銷商品評論抓取:抓取評論過萬的暢銷商品的最近評論,包含評論的內(nèi)容、評論所屬商品等信息。

      (2)評論文本處理:包括文本去重、機械壓縮去詞、短句刪除和文本分詞等步驟。

      (3)LDA主題分析獲取用戶需求:運用基于Gibbs抽樣的LDA主題模型分析店商評論中用戶可能的多個主題傾向,即用戶需求。

      (4)商品特征抓取:根據(jù)得到的用戶需求在電商平臺中抓取所有與之相關(guān)的商品特征數(shù)據(jù),作為預(yù)測模型的解釋變量,包括商品價格、店鋪類型、評論數(shù)量等信息。

      (5)變量預(yù)處理:對響應(yīng)變量和解釋變量進行預(yù)處理,包括正則表達式處理、缺失值處理和異常值處理等。

      (6)建立商品價格預(yù)測模型:建立預(yù)測模型、評價模型。

      1.2 LDA主題模型

      LDA主題模型是Blei等于2003年提出的無監(jiān)督生成式主題模型[9],假設(shè)待分析文檔集D由M個文檔組成,即;其中每個文檔由個詞組成,即;M個文檔共分布了K個主題。

      對于分布方面LDA模型假設(shè)主題在文檔中的分布服從一個參數(shù)為的多項分布,詞在主題中的分布服從一個參數(shù)為的多項分布,參數(shù)和分別來自服從超參數(shù)和的狄利克雷先驗分布。則可定義一篇文檔的生成過程如下:對于某個文檔,首先從主題分布中抽取一個主題,再從主題z對應(yīng)的詞分布中抽取一個單詞,如此重復(fù)次即得到文檔。該生成過程可由圖2中的模型結(jié)構(gòu)示意圖表示。在文檔 條件下生成詞W1的概率可以表示為:

      (1)

      其中表示詞w1屬于第s個主題的概率,表示第S個主題在文檔dj中的概率。

      基于該原理,利用Gibbs采樣算法對參數(shù)和進行估計即可得到主題在文檔中的多項分布和詞在主題中的多項分布[10]:

      (2)

      其中,表示文檔中包含的主題的個數(shù);表示詞在主題中出現(xiàn)的次數(shù)。

      2? 實例分析

      2.1 暢銷商品的評論獲取

      本文數(shù)據(jù)來源于京東商城體育用品分類下的羽毛球商品,利用八爪魚網(wǎng)絡(luò)爬蟲工具爬取用戶評論數(shù)據(jù)??紤]到評論過萬的暢銷商品包含優(yōu)質(zhì)評論的數(shù)量更多,更有利于從中提取用戶需求信息,因此分別抓取這些暢銷商品的最近評論,共收集到13419條評論數(shù)據(jù),包含評論的內(nèi)容、評論所屬商品、評論時間等信息。

      2.2 商品評論文本處理

      文本預(yù)處理方法中的文本去重、機械壓縮去詞和短句刪除被廣泛運用于電商評論分析中,圖3所示為上述預(yù)處理方法的步驟和示例。預(yù)處理后的評論語料用Jieba分詞中的混合模型進行分詞,它結(jié)合使用最大概率法和隱式馬爾科夫模型,對中文文本的分詞效果好。分詞后的文本還需刪除停用詞,即刪除“我”、“的”、“說”等不包含實際意義的詞,以提升分析效率,減少噪聲。經(jīng)過上述評論文本的處理后,根據(jù)每個詞在所有評論中出現(xiàn)的頻率做出如圖4所示的詞云圖,圖中詞的字體越大表示該詞在所有文本中出現(xiàn)的頻次越高。

      2.3 LDA主題分析獲取用戶需求

      由圖4的用戶評論詞云圖可以看出,經(jīng)過分詞后的評論確實能夠反映出用戶對于產(chǎn)品的需求,例如商品的包裝、外觀,球的飛行、速度、羽毛,物流情況等,因此進一步采用LDA主題分析模型將用戶需求信息提取出來。本文用R軟件topicmodels包中基于Gibbs抽樣的LDA模型實現(xiàn)用戶評論的主題分析。LDA主題模型建立的關(guān)鍵是確定主題數(shù)量,運用十折交叉驗證方法計算平均困惑度和平均對數(shù)似然值,結(jié)果見圖5。根據(jù)極小化困惑度和極大化對數(shù)似然值下減少主題數(shù)的原則確定提取主題數(shù)為15。

      經(jīng)LDA主題分析后輸出每個主題對應(yīng)的前十個高頻特征詞,限于篇幅,僅于表1中列出7個主題(每個主題5個詞)的結(jié)果。結(jié)合實際意義,將每個主題對應(yīng)的高頻特征詞分別總結(jié)凝練為一個主題詞來概括表示該主題,如表1主題1中所示的高頻特征詞“配送、慢、收到”等詞表達了用戶對快遞配送的需求,因此將該主題歸為“快遞”需求。依此類推本文分別得到的15個主題詞(即用戶需求)為快遞、材質(zhì)、耐打、服務(wù)、評價、做工、羽毛、球頭、手感、包裝、球速、飛行、品牌、店鋪和售后。

      2.4 商品特征抓取和變量預(yù)處理

      在LDA主題模型確定的15個用戶需求指導(dǎo)下,可以有目的性地從消費者的角度提取商品特征作為預(yù)測模型的解釋變量,優(yōu)化模型的變量選擇過程。綜合考慮專業(yè)運動員對羽毛球性能的解釋和商品特征數(shù)據(jù)的易獲取性,諸如表1中用戶需求“售后”可由“售后服務(wù)分?jǐn)?shù)”來反映;用戶需求“耐打”主要取決于羽毛球的羽毛材質(zhì)和庫存存放時間長短即上市時間;用戶需求“飛行”主要由羽毛球的羽毛材質(zhì)、毛片形狀、球頭材質(zhì)和商品毛重等多重因素決定等等。本文利用八爪魚爬蟲工具從電商平臺商品詳情網(wǎng)頁中共提取到14個反映用戶需求的商品特征作為模型解釋變量,商品特征與用戶需求的對應(yīng)關(guān)系如圖6所示。

      由于商品名稱的特殊性,所爬取到的商品詳情信息中存在“羽毛球拍”、“羽毛球服”等無關(guān)商品信息,本文利用自然語言處理的正則表達式將這些信息剔除。另外為了分析的量綱一致性,商品售賣單位統(tǒng)一為市面常售的12只一桶裝的鵝毛或鴨毛材質(zhì)羽毛球。經(jīng)初步篩選后,共保留1620條羽毛球商品詳情數(shù)據(jù)。對于數(shù)值型變量缺失情況采用均值填充;分類型變量缺失情況將其他變量作為解釋變量,缺失變量作為響應(yīng)變量建立隨機森林模型,用預(yù)測值填充缺失值。對于數(shù)據(jù)偏斜很大的評論數(shù)變量進行離散化,將評論數(shù)0~50記為銷量較差、50~200為銷量一般、200~1000為銷量較好、1000~10000為銷量很好、大于10000為暢銷商品。預(yù)處理后的變量類型和取值見表2。

      2.5 商品價格預(yù)測模型

      根據(jù)LDA主題分析提取的解釋變量對羽毛球商品價格建立回歸預(yù)測模型??紤]商品特征中同時包含數(shù)值型變量和分類型變量,為確定合適的預(yù)測回歸模型,本文分別選用統(tǒng)計上常用的集成學(xué)習(xí)、核方法和線性方法中最具代表性的隨機森林模型、支持向量回歸模型和多元線性回歸模型對變量進行擬合,評估各模型在實際應(yīng)用中的表現(xiàn),選擇最優(yōu)模型。本文基于十折交叉驗證方法,計算統(tǒng)計回歸中常用的均方根誤差(RMSE)和平均絕對百分比誤差(MAPE)評估模型的泛化能力于表3列出。結(jié)果證明基于集成學(xué)習(xí)的隨機森林模型在表現(xiàn)上優(yōu)于支持向量回歸和多元線性回歸模型,因此最終建立基于隨機森林的羽毛球商品價格模型,模型擬合優(yōu)度為0.85,擬合效果較好。

      圖7顯示了各解釋變量在模型中的重要性條形圖,可見前五個影響羽毛球商品價格的因素分別是商品品牌、評價數(shù)量、毛片分類、售后服務(wù)和物流履約。其中羽毛球商品的品牌在模型中重要度最高,其次是商品評價數(shù)量。是否京東自營和店鋪類型在模型中重要度較低,說明羽毛球商品的價格與線上經(jīng)營渠道的相關(guān)性不大。結(jié)合表2中各變量所描述類別來看,羽毛球商品價格主要由商品自身屬性和售后服務(wù)決定,店鋪的銷售渠道和方式對其影響微乎其微。

      3? 結(jié)論

      本文通過LDA主題模型從暢銷商品的電商評論中挖掘用戶購買羽毛球商品的需求信息,據(jù)此提取商品特征作為建立模型所需的解釋變量。運用十折交叉驗證方法計算對比隨機森林模型、支持向量回歸模型和多元線性回歸模型的泛化能力,最終建立了基于電商評論的商品特征提取及價格預(yù)測模型。模型顯示影響羽毛球商品價格的因素可以分為商品自身屬性和售后服務(wù)兩方面。對于商品自身屬性而言,羽毛球品牌對價格影響最大,消費者在網(wǎng)購羽毛球商品時若選購不同品牌的羽毛球其價格差異會比較大,可根據(jù)自身水平?jīng)Q定購買何種檔次,如大眾品牌紅雙喜的羽毛球商品主要定位低端市場,價格總體較低,適合業(yè)余健身愛好者購買;而如日本品牌尤尼克斯的羽毛球商品主打中高端市場,價格總體偏高。針對水平較高的業(yè)余愛好者或者專業(yè)羽毛球運動員,可以進一步根據(jù)自身對羽毛球如飛行穩(wěn)定性、耐打程度等性能要求,運用該模型計算出符合相應(yīng)需求的羽毛球大致價位,對自己的購買提供參考,以達成更優(yōu)質(zhì)的運動體驗。對于售后服務(wù)而言,商品包裝、商家默認快遞公司的服務(wù)、是否包郵等都對商品價格有一定影響,如京東自營的商品物流履約度極高,但價格相對同樣產(chǎn)品的其他商家更高,且需要額外支付郵費。

      綜上所述,本文基于電商評論提取商品特征建立價格預(yù)測模型的方法可以較準(zhǔn)確地給出商品平均價格,消費者在購買羽毛球商品時可以根據(jù)自身對售后服務(wù)和商品屬性的要求結(jié)合預(yù)測價格選擇適合自己的羽毛球商品,優(yōu)化消費者購買決策過程。對電商平臺而言,建立上述預(yù)測模型有利于提升用戶購物體驗,增強用戶粘度,有助于提升平臺對商品價格的管控,保質(zhì)保價的同時提升平臺運營服務(wù)能力,也能夠幫助廠家認識消費者需求與價格之間的相關(guān)關(guān)系,為廠家生產(chǎn)運營升級提供有效支撐。

      參考文獻

      [1] 中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC). 第46次中國互聯(lián)網(wǎng)絡(luò)發(fā)展現(xiàn)狀統(tǒng)計報告[R]. 2020-09.

      [2] 韋建國,王玉瓊.基于網(wǎng)購平臺大數(shù)據(jù)的電子商務(wù)用戶行為分析與研究[J].湖北理工學(xué)院學(xué)報, 2019, 35(3):34-38,57.

      [3] Marcin Szymkowiak, Tomasz Klimanek, Tomasz Józefowski. Applying Market Basket Analysis to Official Statistical Data[J]. Econometrics, 2018, 22(1):39-57.

      [4] 陳義.文本挖掘在網(wǎng)購用戶評論中的應(yīng)用研究[D]. 杭州:浙江工商大學(xué), 2018.

      [5] 陳梅梅,薛陽陽.基于消費群體聚類的網(wǎng)絡(luò)購買決策關(guān)鍵影響因素分析[J].統(tǒng)計與決策,2015(3):49-51.

      [6] 嚴(yán)建援,張麗,張蕾.電子商務(wù)中在線評論內(nèi)容對評論有用性影響的實證研究[J].情報科學(xué),2012,30(5): 713-716.

      [7] 李涵昱,錢力,周鵬飛.面向商品評論文本的情感分析與挖掘[J].情報科學(xué),2017,35(1):51-55.

      [8] 國顯達,那日薩,高歡,等.基于Gaussian LDA的在線評論主題挖掘研究[J].情報學(xué)報,2020,39(6):630-639.

      [9] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research (JMLR), 2003(3): 993–1022.

      [10] 張良均,云偉標(biāo),王路,等.R語言數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[M].北京:機械工業(yè)出版社,2015.

      [11] Breiman L. Random Forests[J]. Machine Learning, 2001, 45(1): 5-32.

      [12] 劉敏,郎榮玲,曹永斌.隨機森林中樹的數(shù)量[J]. 計算機工程與應(yīng)用,2015(5):126-131.

      猜你喜歡
      隨機森林特征提取
      特征提取和最小二乘支持向量機的水下目標(biāo)識別
      基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
      電子制作(2019年15期)2019-08-27 01:12:00
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      Bagging RCSP腦電特征提取算法
      隨機森林在棉蚜蟲害等級預(yù)測中的應(yīng)用
      基于二次隨機森林的不平衡數(shù)據(jù)分類算法
      軟件(2016年7期)2017-02-07 15:54:01
      拱壩變形監(jiān)測預(yù)報的隨機森林模型及應(yīng)用
      基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
      基于隨機森林算法的B2B客戶分級系統(tǒng)的設(shè)計
      基于多視角特征融合與隨機森林的蛋白質(zhì)結(jié)晶預(yù)測
      历史| 包头市| 寿阳县| 宁武县| 九龙城区| 舒兰市| 稷山县| 太原市| 武山县| 洛宁县| 延津县| 安庆市| 启东市| 庄河市| 拉萨市| 贞丰县| 盐城市| 米易县| 渑池县| 西吉县| 合肥市| 施秉县| 丹江口市| 会宁县| 淮安市| 刚察县| 滦南县| 延津县| 赞皇县| 佳木斯市| 新兴县| 开远市| 陇川县| 东宁县| 达尔| 陵水| 固安县| 泽库县| 霍邱县| 涞源县| 镇巴县|