• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于文本分析的亞馬遜市場數(shù)據(jù)財富探索

      2020-08-19 06:47:29陳富秋張棋黃青松
      電腦知識與技術(shù) 2020年19期
      關(guān)鍵詞:自然語言處理文本分析時間序列

      陳富秋 張棋 黃青松

      摘要:亞馬遜作為全球最大的產(chǎn)品在線零售商,其市場數(shù)據(jù)集中包含產(chǎn)品、客戶及其評論的詳細信息,若能基于顧客評論和商品信息進行文本分析,對于想要參與亞馬遜平臺的上市公司的產(chǎn)品投放和營銷手段具有極大的商業(yè)價值。因此,本文旨在利用自然語言處理分析顧客的評論文本,研究顧客購物的情感傾向,結(jié)合商品星級過濾出更加客觀的評價;構(gòu)建商品的“評論星級”,并基于該星級建立評論的終極星級的時間序列模型,以此來預(yù)測某種商品的市場聲譽變化。

      關(guān)鍵詞:文本分析;自然語言處理;時間序列;市場預(yù)測

      中圖分類號:TP391文獻標識碼:A

      文章編號:1009-3044(2020)19-0196-05

      開放科學(xué)(資源服務(wù))標識碼(OSID):

      1 問題簡述

      在亞馬遜的在線市場中[1],它為顧客提供了一個評論商品的機會。由亞馬遜公司給出的官方數(shù)據(jù)可以得知,該數(shù)據(jù)集包含商品名稱,其中被稱為“星級”的個人評級允許購買者使用1(低評級,低滿意度)到5(高評級,高滿意度)的等級來表達他們對產(chǎn)品的滿意度。此外,顧客還可以提交被稱為“評論”的基于文本的信息,可以具體描述商品體驗感受或缺陷。其他客戶可以在這些評論中提供有幫助或沒有幫助的評級,以幫助他們做出自己的產(chǎn)品購買決定。

      通過建立數(shù)學(xué)模型研究以下問題:

      問題一:陽光公司計劃在網(wǎng)上市場推出并銷售三種新產(chǎn)品:微波爐、嬰兒奶嘴和吹風(fēng)機。該公司的數(shù)據(jù)中心提供了三種產(chǎn)品的數(shù)據(jù)文件。這些數(shù)據(jù)代表了在數(shù)據(jù)顯示的時間段內(nèi)亞馬遜市場上銷售的微波爐、嬰兒奶嘴和電吹風(fēng)的客戶的商品評論信息和商品評級。分析所提供的三個產(chǎn)品數(shù)據(jù)集,基于顧客評論的文本信息和商品評級建立衡量標準,為陽光公司在其三個新的在線市場產(chǎn)品中取得成功。

      問題二:,確定并討論每個數(shù)據(jù)集內(nèi)基于時間的度量模式,這些度量模式可能表明一個產(chǎn)品在網(wǎng)上市場的聲譽在增加或減少,以此來考慮產(chǎn)品的發(fā)展市場。

      2 問題分析

      2.1 問題一的分析

      如表1所示,是顧客評論集的部分數(shù)據(jù)展示,針對該數(shù)據(jù)集中的各個字段,星級表示該顧客對該商品打出的評價等級,以此表達顧客對該商品的滿意程度。針對其余瀏覽該條評論的顧客,他們可以對任意評論做出自己的判斷,如果認為該評論對自己購買該商品有幫助,就投出有用票。此外,在亞馬遜商城中有一類特殊用戶-Vine會員,他們因撰寫準確而有見地的評論而贏得的了信任,并成為會員,亞馬遜會為該類會員提供免費的產(chǎn)品試用機會,該會員可以根據(jù)自己的用后體驗編寫評論,并且該會員的評論亞馬遜后臺無法修改或編輯。針對評論的可靠性,可以一定程度上依據(jù)該顧客是否真實購買過該產(chǎn)品進行初步判斷。除此之外,該數(shù)據(jù)集還記錄了每條評論的標題、具體文本內(nèi)容以及評價時間,供其他顧客考量。

      基于上述數(shù)據(jù)集,我們需要從評論的文本信息和商品星級給出綜合的產(chǎn)品評價標準,因為在現(xiàn)實生活中,不免會出現(xiàn)有顧客惡意打低分或者故意打高分的虛假評論現(xiàn)象,因此我們需要在已有評論的基礎(chǔ)上,結(jié)合該商品的星級、評論內(nèi)容以及該條評論的有用票數(shù),為每一條評論重新定義一個全新的綜合評級,以此更加客觀全面地判斷某類商品所在的顧客市場反響如何。

      2.2 問題二的分析

      由于在評價過程中,存在商品評級與評論的文本內(nèi)容不一致的現(xiàn)象,為此我們提出“評論星級”,通過比較“商品星級”和“評論星級”剔除評論內(nèi)容前后不一致的數(shù)據(jù)。并在此基礎(chǔ)上綜合考慮“商品星級”和“評論星級”得到評論的終極星級,根據(jù)往年數(shù)據(jù),基于時間序列,建立綜合星級和時間變化的數(shù)學(xué)模型,并以此來預(yù)測在未來時間內(nèi)三類商品的市場的聲譽變化趨勢。

      3 模型假設(shè)

      假設(shè)1:給出評論的顧客的是否購買記錄對瀏覽商品評價的讀者的購買意向沒有影響。

      假設(shè)2:在該數(shù)據(jù)集中,回頭客的現(xiàn)象很少,因此不考慮回頭客對商品評論的影響。

      4 符號說明

      5 模型—的建立與求解

      5.1 模型建立

      為了評判評論給定的商品星級與評論的文本內(nèi)容是否一致,我們需要對評論內(nèi)容進行自然語言處理(NLP)[2]。我們調(diào)用已有的詞典對文本進行分類,首先利用正則表達式按空格和符號分詞符剔除停用詞[3],這類詞匯會對基于詞頻的算法公式產(chǎn)生很大的干擾。我們需要從評論內(nèi)容中提取出詞干,比如單詞的單復(fù)數(shù)形式、動詞時態(tài)以及組合單詞,并利用詞典進行歸一化處理。首先,計算一個詞匯的基礎(chǔ)頻率:

      由于亞馬遜商城存在Vine用戶,其發(fā)表評論的真實度和關(guān)注度遠比普通用戶高,故不同種類用戶的評論影響程度可用如下公式表示:

      在提供的數(shù)據(jù)集中,有幫助投票數(shù)也會對綜合星級的評定產(chǎn)生影響,我們將其影響程度轉(zhuǎn)化為百分比Pi。我們規(guī)定,當(dāng)評論沒有獲得任何投票數(shù),該條評論不會對評論的綜合星級評定產(chǎn)生影響,Pi=1;當(dāng)評論的總投票數(shù)不為0時,若有幫助投票數(shù)超過總投票數(shù)的一半時,將對評價產(chǎn)生積極的影響;當(dāng)有幫助投票數(shù)低于總投票數(shù)的一半時,將對評價產(chǎn)生消極的影響,故:

      5.2 模型求解

      針對三類產(chǎn)品,我們將其用戶評論的文本內(nèi)容進行文本情感分析后,得到圖2所示結(jié)果。

      在求解每一類產(chǎn)品評論的綜合星級時,我們根據(jù)用戶的不同類型,將其評論數(shù)量、評論的總投票數(shù)量、評論的影響程度、用戶的影響率做了如表3所示的統(tǒng)計。

      在綜合考慮了評論的文本內(nèi)容、商品星級、有幫助投票數(shù)、用戶影響度的基礎(chǔ)上,我們重新制定了三類商品每一條評論的綜合星級,求解結(jié)果如圖3-圖5。

      從上述結(jié)果圖可以發(fā)現(xiàn),三類產(chǎn)品評論的星級都有不同程度的變化,這表明原始的用戶評論,存在部分不實現(xiàn)象,在綜合考慮了評論文本情感、有幫助投票數(shù)、用戶影響度等諸多因素后,綜合星級更加客觀準確,也更為其他用戶提供更加真實的參考價值。

      6 模型二的建立與求解

      6.1 模型建立

      在提供的數(shù)據(jù)集中,我們發(fā)現(xiàn)部分評論的商品星級和評論的文本內(nèi)容不一致。例如,某用戶為某一商品給出的星級是一星,但評價的內(nèi)容卻是“我喜歡這件商品”,我們將之稱為“低分好評”。與之對應(yīng),也會存在“高分差評”的現(xiàn)象,因此我們需要對這類數(shù)據(jù)進行處理,剔除這部分沒有價值的數(shù)據(jù)?;诖?,我們根據(jù)每條評論的文本內(nèi)容,給每一條評論評定一個星級,稱為“評論星級”記為si,其也屬于1至5星級。

      6.2 模型求解

      基于上述模型中的多項式,我們利用Matlab中的spline函數(shù)對三類產(chǎn)品進行散點圖的擬合并得到較為光滑的曲線,從而求解出36x4的系數(shù)矩陣,以此得到三類產(chǎn)品關(guān)于時間變化的多項式函數(shù)。如圖7-9展示了微波爐、吹風(fēng)機、奶嘴三類產(chǎn)品的擬合曲線。

      針對上述擬合曲線,利用Matlab工具統(tǒng)計出一系列數(shù)據(jù)驗證擬合曲線的正確性,如表4所示。其中,SSE的值越接近于0,R-square的值越接近于1表明曲線的擬合效果越好。

      在擬合曲線的基礎(chǔ)上,我們可以求得三類產(chǎn)品關(guān)于時間的終極星級變化多項式,基于該多項式,我們可以分別預(yù)測三類產(chǎn)品在未來1月的終極星級變化,如圖10所示。以及以年為單位的終極星級變化趨勢,如圖11所示。由圖10可知,在未來一個月,微波爐的終極星級較之上月有所上升,而吹風(fēng)機和奶嘴的終極星級均有一定程度下降。而在未來一年,微波爐的終極星級較之往年會有所下降,吹風(fēng)機和奶嘴的終極星級較之往年均有小幅度的上升。

      7 結(jié)論

      綜上,我們使用自然語言處理對商品評價的文本內(nèi)容進行情感分析,結(jié)合產(chǎn)品星級、文本情感評價以及每條評論的有幫助投票數(shù),建立模型求解每一條評論的客觀評價,以此便于商品市場投放的考量。并且,基于時間序列建立終極星級的變化曲線,并以此預(yù)測商品的未來聲譽變化。根據(jù)結(jié)果,我們發(fā)現(xiàn),在短期內(nèi),微波爐具有較為理想的市場反響,具有一定的發(fā)展?jié)摿Α?/p>

      參考文獻:

      [1] 2020年美國大學(xué)生數(shù)學(xué)建模競賽C題

      [2] NLP-文本情感分析https://blog。csdn.net/weixin_4239865 8/ar-ticle/details/85222547

      [3]自然語言處理一停用詞https://blog. csdn. net/weixin_4215 2696/article/details/86082566

      [4]熵值法。 https://blog.csdn.net/fsfsfsdfsdfdr/article/details/83443562

      [5] Spline(三次樣條插值)https:/fblog.csdn.net/zb1165048017/arti-cle/details/48311603

      【通聯(lián)編輯:梁書】

      收稿日期:2020-04-12

      作者簡介:陳富秋(1999-),通訊作者,女,四川自貢人,學(xué)士,研究方向為計算機科學(xué)與技術(shù);張棋,男,學(xué)士,研究方向為軟件工程;黃青松,男,學(xué)士,研究方向為軟件工程。

      猜你喜歡
      自然語言處理文本分析時間序列
      基于組合分類算法的源代碼注釋質(zhì)量評估方法
      投資者情緒短期對股票市場的影響研究
      維護正統(tǒng)還是觀念復(fù)辟?
      戲劇之家(2016年22期)2016-11-30 16:49:57
      基于時間序列的我國人均GDP分析與預(yù)測
      商(2016年32期)2016-11-24 16:20:57
      德語小說《布登勃洛克一家》中的家文化與中國傳統(tǒng)家庭觀念比較
      基于線性散列索引的時間序列查詢方法研究
      軟件工程(2016年8期)2016-10-25 15:43:57
      初中英語聽說課教學(xué)實踐探索
      考試周刊(2016年45期)2016-06-24 13:48:11
      面向機器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
      基于組合模型的能源需求預(yù)測
      公眾預(yù)期與不良貸款
      商情(2016年11期)2016-04-15 20:25:31
      宾阳县| 札达县| 甘德县| 当阳市| 大同县| 长沙县| 周宁县| 绥化市| 白朗县| 深州市| 宁安市| 塘沽区| 石阡县| 固阳县| 胶州市| 靖远县| 九台市| 阳曲县| 甘南县| 刚察县| 集贤县| 鄄城县| 环江| 惠安县| 泾源县| 延寿县| 江孜县| 霞浦县| 清苑县| 平乐县| 澄江县| 桦南县| 明溪县| 仲巴县| 科技| 宁强县| 赣州市| 革吉县| 罗江县| 大丰市| 建昌县|