• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于情感分析的評(píng)論數(shù)據(jù)用戶滿意度影響因素研究

      2017-08-25 19:58劉甲學(xué)陶易
      現(xiàn)代情報(bào) 2017年7期
      關(guān)鍵詞:情感分析影響因素

      劉甲學(xué)+陶易

      [摘要]通過(guò)對(duì)用戶的滿意度影響因素的分析,能夠幫助商家挖據(jù)用戶需求、提升用戶滿意度、從而提高商品銷量。本文使用商業(yè)智能軟件PowerBI對(duì)用戶評(píng)論文本進(jìn)行數(shù)據(jù)挖掘,通過(guò)提取評(píng)論數(shù)據(jù)中的質(zhì)量、物流、尺碼、價(jià)格、顏色等影響用戶滿意度影響的因素,利用情感分析法進(jìn)行賦值,然后統(tǒng)計(jì)各影響因素的樣本得分,識(shí)別出價(jià)格和質(zhì)量是最重要的影響因素。

      [關(guān)鍵詞]評(píng)論數(shù)據(jù);情感分析;用戶滿意度;影響因素

      伴隨電子商務(wù)的蓬勃發(fā)展,電商網(wǎng)站下累積了大量用戶在線評(píng)論數(shù)據(jù),通過(guò)對(duì)評(píng)論數(shù)據(jù)相關(guān)研究的解讀和分析,我們發(fā)現(xiàn):評(píng)論數(shù)據(jù)是用戶表達(dá)真實(shí)需求和情感極性的重要途徑,故而可以挖掘出其隱藏的用戶偏好以及真實(shí)需求。姜巍等人創(chuàng)造性地將評(píng)論數(shù)據(jù)看作一種內(nèi)容互連的網(wǎng)絡(luò)拓?fù)涞男螒B(tài),利用評(píng)論網(wǎng)絡(luò)節(jié)點(diǎn)的重要性來(lái)度量評(píng)論的有用性,該方法對(duì)用戶需求獲取能夠達(dá)到較高的準(zhǔn)確率和覆蓋率。評(píng)論數(shù)據(jù)中的情感極性對(duì)商品銷量會(huì)產(chǎn)生一定程度地影響作用。如Sonnier,G.P.等人驗(yàn)證了積極的評(píng)論數(shù)據(jù)、中性的評(píng)論數(shù)據(jù)、消極的評(píng)論數(shù)據(jù)都對(duì)銷量有著顯著影響作用。因此,通過(guò)對(duì)評(píng)論數(shù)據(jù)進(jìn)行情感分析來(lái)挖掘用戶需求、提升用戶滿意度最終可以達(dá)到提高商品銷量的目的。本文將從用戶評(píng)論數(shù)據(jù)中提取如質(zhì)量、顏色、服務(wù)等具有實(shí)體意義的影響因素指標(biāo),通過(guò)建設(shè)多維度數(shù)據(jù)集進(jìn)行用戶滿意度影響因素研究。

      1數(shù)據(jù)來(lái)源

      本文對(duì)京東商城的用戶評(píng)論數(shù)據(jù)進(jìn)行采集,使用網(wǎng)絡(luò)爬蟲(chóng)軟件八爪魚(yú)對(duì)班尼路官方旗艦店男裝T恤(鏈接https://item.id.COB/1574267931.html)的用戶評(píng)論數(shù)據(jù)進(jìn)行抓取,對(duì)每一條評(píng)論數(shù)據(jù)(如圖1所示)中方框內(nèi)各字段進(jìn)行抽取,抽取的字段分別是:用戶名、用戶級(jí)別、地區(qū)、用戶滿意度(星級(jí)好評(píng))、評(píng)論文本、價(jià)格、商品信息、顏色、尺碼、評(píng)論時(shí)間、端口。將抽取的字段設(shè)置為自動(dòng)導(dǎo)入數(shù)據(jù)庫(kù)中以備后續(xù)分析。

      2數(shù)據(jù)的抽取、清理和加載

      由于抽取到數(shù)據(jù)庫(kù)中的用戶名僅顯示首尾字符,中間字符是由星號(hào)鍵組成,故而容易出現(xiàn)不同用戶共享同一用戶名的情況或者同一用戶名在不同時(shí)期的評(píng)論被數(shù)據(jù)庫(kù)禁止讀入的情況發(fā)生,因此需要將序號(hào)代替用戶名作為表格中的主鍵進(jìn)行分析以避免數(shù)據(jù)庫(kù)讀取數(shù)據(jù)失敗的情況發(fā)生。截止至2017年3月19日共抓取到7000條評(píng)論數(shù)據(jù),故而形成一張樣本容量為7000條數(shù)據(jù)的評(píng)論數(shù)據(jù)總表(如表1所示)。數(shù)據(jù)庫(kù)可實(shí)現(xiàn)在線實(shí)時(shí)更新,抓取的網(wǎng)頁(yè)數(shù)據(jù)會(huì)自動(dòng)加載到數(shù)據(jù)庫(kù)中的評(píng)論數(shù)據(jù)總表中,為減少數(shù)據(jù)冗余,需要對(duì)數(shù)據(jù)進(jìn)行清理,減少垃圾數(shù)據(jù)的讀取。從競(jìng)爭(zhēng)情報(bào)角度考慮,如果用戶名、用戶級(jí)別、地區(qū)三者完全一致的用戶可被視為同一用戶,因此可以設(shè)置聯(lián)合主鍵的方式作為同一用戶的判斷條件,如果數(shù)據(jù)庫(kù)中顯示較為接近的時(shí)間段內(nèi)由大批用戶級(jí)別較低的評(píng)論涌入,則默認(rèn)為是水軍;如果同一用戶在較為接近的時(shí)間段發(fā)表多條評(píng)論數(shù)據(jù),則默認(rèn)為是重復(fù)評(píng)論,只保留該用戶的第一條評(píng)論;前者的評(píng)論數(shù)據(jù)置信度較低,后者評(píng)論數(shù)據(jù)產(chǎn)生冗余,為保證研究結(jié)果的準(zhǔn)確可靠性,應(yīng)將這兩類的評(píng)論數(shù)據(jù)予以清除。

      3用戶滿意度的影響因素指標(biāo)

      本文在數(shù)據(jù)庫(kù)存儲(chǔ)設(shè)計(jì)時(shí)創(chuàng)建多維數(shù)據(jù)集,從評(píng)論用戶本身出發(fā),設(shè)計(jì)以地區(qū)、端口(上網(wǎng)設(shè)備)、用戶級(jí)別三個(gè)影響指標(biāo);從商品屬性出發(fā),由表征商品特征屬性的特征詞質(zhì)量、物流、尺碼、價(jià)格、顏色五個(gè)影響指標(biāo),如圖1所示。本文試圖從不同維度對(duì)用戶滿意度進(jìn)行分析,商業(yè)智能軟件Power BI能夠?qū)崿F(xiàn)對(duì)多維數(shù)據(jù)集進(jìn)行數(shù)據(jù)處理,通過(guò)對(duì)用戶滿意度與影響指標(biāo)間的各項(xiàng)數(shù)據(jù)進(jìn)行自動(dòng)化分析,尋找出用戶滿意度的關(guān)鍵影響因素。地區(qū)、端口、用戶級(jí)別三項(xiàng)指標(biāo)都能較易地由字符串?dāng)?shù)據(jù)轉(zhuǎn)化為數(shù)值型數(shù)據(jù);再利用情感分析法將評(píng)論文本中的字符型數(shù)據(jù)轉(zhuǎn)化為語(yǔ)義識(shí)別后的數(shù)值型數(shù)據(jù),從而作為用戶滿意度影響指標(biāo)中的可分析處理的自變量,從而被商業(yè)智能軟件識(shí)別和分析。

      4評(píng)論文本的情感分析

      4.1通過(guò)分詞提取特征詞

      提取評(píng)論文本中特征詞的方法中,Li,F(xiàn)等人采用句法結(jié)構(gòu)樹(shù)Skip-Tree CRFs提取評(píng)價(jià)特征詞進(jìn)行情感極性分析。Li,C.w等人利用了情報(bào)學(xué)專業(yè)中常見(jiàn)的逆文本頻率指數(shù)(IDF)方法,對(duì)關(guān)鍵詞權(quán)重進(jìn)行排序后提取重要特征詞并進(jìn)行情感極性分析。這些方法效率雖高,但是忽略了評(píng)論文本中特征詞的同義詞產(chǎn)生的誤差,從而影響研究結(jié)果的可靠度。本文采用半自動(dòng)化提取的方式,設(shè)定特征詞同義詞表以提高整個(gè)研究的準(zhǔn)確度。具體方法是:特征值顯著的特點(diǎn)是詞性為名詞,因此本文通過(guò)對(duì)評(píng)論文本進(jìn)行分詞并統(tǒng)計(jì)詞性為名詞的高頻特征詞即可得到用戶滿意度影響因素指標(biāo)。分詞軟件采用PHP簡(jiǎn)易中文分詞(SCWS)第四版,將7000條評(píng)論文本分詞為詞語(yǔ)\詞性(如質(zhì)量\n)統(tǒng)計(jì)匯總后得到的高頻特征詞為以下幾類:質(zhì)量、物流、尺碼、價(jià)格、顏色、活動(dòng)、品牌、服務(wù)等;本文僅選取排名靠前的五項(xiàng)指標(biāo)進(jìn)行詳細(xì)分析,即將質(zhì)量、物流、尺碼、價(jià)格、顏色作為用戶滿意度的影響因素指標(biāo)進(jìn)行后續(xù)分析。對(duì)出現(xiàn)特征詞的同義詞進(jìn)行歸類形成一特征詞同義詞表,如表2所示。特征詞同義詞表的作用是避免重復(fù)提取特征詞以提高檢索效率。如評(píng)論“顏色很好看,色彩很美,價(jià)格便宜”,其中“顏色”和“色彩”都屬于顏色類特征詞,數(shù)據(jù)庫(kù)在提取同類型特征詞時(shí)設(shè)置為僅提取首次出現(xiàn)的特征詞,因此提取結(jié)果為特征詞“顏色”、“價(jià)格”,將提取結(jié)果導(dǎo)人數(shù)據(jù)庫(kù)一抽取詞表表格中,然后該條評(píng)論結(jié)束讀取跳轉(zhuǎn)至下一條評(píng)論。

      4.2情感詞的定位及提取

      相關(guān)學(xué)者將情感分析分為:有監(jiān)督方法,如Ali,F(xiàn)采用機(jī)器學(xué)習(xí)的方法使用基于支持向量機(jī)(SVM)和改進(jìn)版的模糊領(lǐng)域本體(FDO)方法進(jìn)行情感極性判斷;無(wú)監(jiān)督方法,如李欣等人采用無(wú)監(jiān)督方法通過(guò)多重聚類算法進(jìn)行情感極性判斷;f情感詞典方法,如馬松岳等人使用ROST EA情感詞典工具進(jìn)行情感分析。特征詞顯著的標(biāo)志是詞性為名詞,而情感詞則由多種詞性組成,常見(jiàn)的是由副詞和形容詞組成,本文中采用以對(duì)評(píng)論文本分詞后確定的特征詞位置為基準(zhǔn),在特征詞附近創(chuàng)建字符區(qū)間作為情感詞定位區(qū)間,例如“挺好,穿了一天,性價(jià)比挺高的?!狈衷~結(jié)果為“挺/v好/a穿/v了/v一/m天/n性價(jià)比/n挺/v高/a的/ui”。能夠定位到特征詞為“性價(jià)比”,屬于“價(jià)格”類,情感詞的取值范圍為“一/m天/n、挺/v高/a”,接下來(lái)需要通過(guò)數(shù)據(jù)庫(kù)的一情感詞表與一抽取詞表進(jìn)行關(guān)聯(lián)匹配出情感詞并賦值得分。

      猜你喜歡
      情感分析影響因素
      基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評(píng)價(jià)對(duì)象抽取研究
      在線評(píng)論情感屬性的動(dòng)態(tài)變化
      双鸭山市| 荔浦县| 镇康县| 邻水| 石河子市| 拉萨市| 澎湖县| 惠安县| 盘锦市| 稷山县| 射洪县| 东丽区| 辽阳县| 平顶山市| 华池县| 定兴县| 定西市| 泾川县| 绵竹市| 宁化县| 东光县| 平武县| 耒阳市| 广昌县| 庄河市| 措勤县| 白朗县| 抚松县| 镇康县| 泉州市| 拜泉县| 德保县| 惠东县| 巨野县| 鄂温| 广河县| 汉川市| 东乡县| 定州市| 双鸭山市| 阿巴嘎旗|