(南京林業(yè)大學(xué) 210037)
第一步,用戶評論獲取。要分析網(wǎng)購用戶評論,首先要在網(wǎng)頁中獲取用戶評論?,F(xiàn)階段國內(nèi)許多在線購物網(wǎng)站都防止爬蟲,同時也做了很多反爬蟲工作,而R語言在爬蟲這點并不是很有力的工具,但是亞馬遜的網(wǎng)頁評論可以用R語言獲取。在獲取評論的過程中,需要注意有兩點:(1)如何獲取網(wǎng)購用戶的ID;(2)怎樣在網(wǎng)頁的編碼中獲取網(wǎng)購用戶評論的精確定位。選擇的對象是近三年內(nèi)國人購買相對較多的某品牌保溫罐,分析的只針對一種商品,所以只需要考慮具體的用戶評論結(jié)果。
在得到評論文件后首先對評論進(jìn)行第一步預(yù)處理。逐條檢查進(jìn)行錯別字檢查,以方便之后進(jìn)行的操作。
在對評論文本進(jìn)行了整理后,我們發(fā)現(xiàn)分詞結(jié)果對評論的解釋度并不夠高,例如“后來發(fā)現(xiàn)右上角有一個坑”被分成了“后來”、“發(fā)現(xiàn)”、“右上角”、“有”、“一個”、“坑” ;若用此分詞結(jié)果,進(jìn)行分析后會遺失很多關(guān)鍵的信息。所以需要先進(jìn)行詞庫建立,利用詞庫對信息篩選。
在詞庫構(gòu)建過程中首先需要對評論進(jìn)行分析,觀察用戶評論中對產(chǎn)品的需求或?qū)ι碳业姆?wù)、物流等提出的意見或建議。詞庫的建立利用了短句的方式。首先對評論語句進(jìn)行解讀,對其中的信息進(jìn)行篩選,找到差評中的關(guān)鍵信息如“包裝太差”、“質(zhì)量不好”、“物流緩慢”、“態(tài)度惡劣”等,并且對文本中的長句變?yōu)槎叹?,?lián)系上下文中的含義,其次對不必要的語氣詞,嘆詞等在斷句中進(jìn)行剔除,獲得更為純凈的文本語句。依照此思路對好評與差評分別建立詞庫。
在詞庫的建立的過程中,需要盡可能的篩選出有用信息,因為本次研究所用的評論較少,所以使用的方法為逐條篩選;如果使用大批量的評論則需要使用構(gòu)建語料庫,建立測試集等方法來進(jìn)行評論分詞與篩選。在利用詞庫后對文本進(jìn)行分詞后得到的結(jié)果比之前理想很多。
得到分詞結(jié)果后,需要對分詞進(jìn)行進(jìn)一步處理。在此過程中我們進(jìn)行了以下步驟。
在獲得比較理想的分詞結(jié)果后,還需要在之后進(jìn)行下一步處理之前需要對文本進(jìn)行一些其他的處理。第一,降低詞頻處理。主要是保留詞條長度大于2的詞條。第二,符號、空格去除。
TF-IDF(term frequency-inverse document frequency)詞頻--反轉(zhuǎn)文件頻率,是一種用于情報檢索與文本挖掘的常用加權(quán)技術(shù),用以評估一個詞對于一個文件或者一個語料庫中的一個領(lǐng)域文件集的重要程度。在R語言“jiebaR”函數(shù)中可以提取出文本中的關(guān)鍵詞及其在評論文本中所占的權(quán)重。將好評與差評中分別提取5個關(guān)鍵詞并獲得權(quán)重,得到結(jié)果如表2.3.1所示。詞頻權(quán)重分析會在之后的結(jié)果分析部分占大部分作用。
差評中詞頻及權(quán)重包裝 杯子 保溫 買 亞馬遜210.105 125.274 121.508 117.392 116.253好評中詞頻及權(quán)重保溫 效果 不錯 亞馬遜 包裝626.236 364.551 297.035 232.506 225.112
"詞云"就是對網(wǎng)絡(luò)文本中出現(xiàn)頻率較高的"關(guān)鍵詞"予以視覺上的突出,形成"關(guān)鍵詞云層"或"關(guān)鍵詞渲染",從而過濾掉大量的文本信息,使瀏覽網(wǎng)頁者只要一眼掃過文本就可以領(lǐng)略文本的主旨。
在好評詞云中(圖3.1.1),我們可以看到“保溫效果很好”、“保溫效果好”、“等積極詞匯占了大多數(shù),剩下的則有“made”、“China”、“包裝簡單”等詞匯,“包裝簡單”說明有部分購買者在購買后對包裝存在不滿;“made”、“China”則說明了購買者對從美國亞馬遜進(jìn)行海外購夠得的產(chǎn)品產(chǎn)品還是本國產(chǎn)不滿,存有購買后的心理落差。因此在好評中還有意見,好評中可能還是會有商品意見與對商家提出的建議,可能會有隱藏信息,需要進(jìn)行進(jìn)一步分析。
圖3.1.1 好評詞云
在差評詞云中(圖3.1.2),我們看到“保溫效果好”竟然也會出現(xiàn),可以進(jìn)一步說明商品的質(zhì)量在保溫效果這一塊是比較優(yōu)秀的,同時也說明了差評中也存在正向詞匯;“保溫杯”“很失望”“發(fā)郵件”等詞匯則說明了差評中購買者的主要態(tài)度,“發(fā)郵件”說明亞馬遜在與客戶溝通的時候的不便。
詞頻權(quán)重在表2.3.1中已經(jīng)給出。如圖3.2.1所示的差評的直方圖顯示(左),關(guān)鍵詞包裝占了最大部分權(quán)重,剩下的四個關(guān)鍵詞所占權(quán)重基本一致,由此可知差評的點主要集中在包裝上。其余關(guān)鍵詞的權(quán)重差別不大。
圖3.1.2 差評詞云
在得出的差評的分詞文件中查找關(guān)鍵詞的詞條數(shù),差評分詞文件詞條共計344條,我們由包裝開始找出差評主體的問題。在35條包裝評論中,只有一條提到包裝不錯,剩余的都在說包裝簡陋,簡單等。在15條杯子評論中,提到杯子有損壞、產(chǎn)地,杯子有或多或少的問題。在保溫這項則是對杯子保溫效果的評論居多,值得一提的是,很多人買這款產(chǎn)品作為燜燒杯使用,而非作為保溫杯使用,在試用過認(rèn)為保溫效果不好時將其作為保溫杯使用,只有一條評論對保溫效果提出了肯定。
好評詞條分詞權(quán)重如。好評詞條總計1012條。同上述差評分析過程中發(fā)現(xiàn)在高權(quán)重位的“保溫”和“效果”兩個關(guān)鍵詞的詞條中出現(xiàn)重復(fù)的概覽很高,通過R進(jìn)行權(quán)重比對后,發(fā)現(xiàn)絕大多數(shù)用戶肯定保溫效果。在關(guān)鍵詞“不錯”中,大多數(shù)用戶認(rèn)為保溫效果不錯,剩余用戶對購買體驗與產(chǎn)品質(zhì)量表示肯定。關(guān)鍵詞“亞馬遜”用戶都認(rèn)為亞馬遜值得信賴,對亞馬遜的購物體驗表示很好。關(guān)鍵詞“包裝”中,半數(shù)購買者認(rèn)為包裝不錯,半數(shù)購買者則認(rèn)為包裝過于簡單。
結(jié)合詞語分析與權(quán)重分析兩種,我們可以得知,很大部分用戶對產(chǎn)品的保溫效果給予肯定,在詞云和權(quán)重中都出現(xiàn)了保溫效果好的詞條;否定保溫效果用戶可以由商家跟蹤服務(wù)調(diào)查,找出保溫效果降低的原因。對于商家的包裝,絕大多數(shù)的用戶給予了否定,即使在好評中也出現(xiàn)了很多不滿意包裝的用戶,主要存在于杯子包裝質(zhì)量不好在運輸過程中造成了不同程度損傷。一個關(guān)鍵詞出現(xiàn)在好評與差評中是具有交叉性質(zhì)的,在好評中有可能否定,而在差評中卻是肯定。因此,需要結(jié)合好評與差評中的同一個關(guān)鍵詞對文本進(jìn)行分析。
本文通過對亞馬遜上一件產(chǎn)品的評論進(jìn)行了文本挖掘,篩選有效信息,獲得了用戶對一件商品評價的分析。通過對文本進(jìn)行分詞處理,建立了適用于本產(chǎn)品的評論詞庫,為的是將單體產(chǎn)品的評論中的信息解釋度提高,完整上下文,不是只局限于對詞頻分析。單一的詞頻分析有時并不能作為文本挖掘的主要結(jié)果,有時候會受到文本噪點的影響而忽略部分有效信息。詞頻分析與權(quán)重分析相結(jié)合可以得出較為準(zhǔn)確的結(jié)果。因為本次分析的用戶評論量較少,所以使用了人工校準(zhǔn)與建立詞庫,所得的結(jié)果相對比較準(zhǔn)確,在使用手動建立詞庫的時候也可以在分詞過程中省略去停詞的過程,因為商品的好評與差評形成了鮮明的對比,用戶評論在情感分析方面具有一定的先天優(yōu)勢。因此,兩種方法結(jié)合進(jìn)行分析可以讓分析結(jié)果更為鮮明與準(zhǔn)確,也能讓設(shè)計師、企業(yè)看到自身的優(yōu)點,同時完善自己缺點。