劉 丹, 張玉紅, 閆相斌
(哈爾濱工業(yè)大學(xué) 經(jīng)濟(jì)與管理學(xué)院, 哈爾濱 150001)
在線評(píng)論的產(chǎn)品缺陷識(shí)別方法
劉 丹, 張玉紅, 閆相斌
(哈爾濱工業(yè)大學(xué) 經(jīng)濟(jì)與管理學(xué)院, 哈爾濱 150001)
為了從互聯(lián)網(wǎng)環(huán)境下的用戶評(píng)論中分析企業(yè)產(chǎn)品的缺陷,利用半監(jiān)督分類中基于分歧的Co-forest算法對(duì)用戶關(guān)于產(chǎn)品的評(píng)論進(jìn)行文本分類,對(duì)Co-forest算法識(shí)別出的缺陷評(píng)論再基于主題模型BTM算法進(jìn)行缺陷主題聚類,得到缺陷主題、主題描述詳情及占比。以某品牌的一款暢銷(xiāo)除濕機(jī)為例,對(duì)京東網(wǎng)站的評(píng)論進(jìn)行相關(guān)研究。研究結(jié)果表明:Co-forest算法在基于在線評(píng)論的缺陷識(shí)別分類上相對(duì)于以往研究所采用有監(jiān)督分類以及半監(jiān)督分類Tri-training方法具有更高的性能。
缺陷識(shí)別; 在線評(píng)論; 半監(jiān)督分類; 主題聚類; 除濕機(jī)
隨著市場(chǎng)經(jīng)濟(jì)的疾速興起,各企業(yè)間競(jìng)爭(zhēng)與博弈日漸猛烈,產(chǎn)品品質(zhì)對(duì)于企業(yè)的重要性日益分明,企業(yè)想要保持長(zhǎng)期穩(wěn)定的發(fā)展,需要不停地努力提升其產(chǎn)品品質(zhì)。目前國(guó)內(nèi)外對(duì)互聯(lián)網(wǎng)在線評(píng)論識(shí)別產(chǎn)品缺陷的研究比較少,現(xiàn)有的互聯(lián)網(wǎng)環(huán)境下在線評(píng)論的產(chǎn)品缺陷識(shí)別研究多數(shù)是英文語(yǔ)境。對(duì)互聯(lián)網(wǎng)在線評(píng)論的文本數(shù)據(jù)挖掘最核心的內(nèi)容是選擇文本特征,英文環(huán)境下特征研究在中文環(huán)境下研究并不適用。國(guó)外研究表明:對(duì)在線評(píng)論的產(chǎn)品缺陷識(shí)別研究中基于負(fù)面情緒判斷產(chǎn)品缺陷具有一些不足,原因是有的關(guān)于產(chǎn)品的負(fù)面評(píng)論與產(chǎn)品缺陷無(wú)關(guān),只是體現(xiàn)了用戶個(gè)人的負(fù)面情緒[1]。
筆者在考慮互聯(lián)網(wǎng)具有的獨(dú)特特征對(duì)用戶評(píng)論產(chǎn)生的影響后,以之前有學(xué)者提出的社交媒體分析框架[2]為基礎(chǔ),對(duì)現(xiàn)有的中文環(huán)境下產(chǎn)品缺陷識(shí)別模型中有監(jiān)督學(xué)習(xí)方法人工標(biāo)注效率低,以及半監(jiān)督學(xué)習(xí)基于分歧的Tri-training[3]分類算法性能不夠好的問(wèn)題進(jìn)行改進(jìn),提出使用Co-forest[4]半監(jiān)督學(xué)習(xí)分類算法,較之前研究產(chǎn)品缺陷的分類方法具有較高的算法準(zhǔn)確率和召回率,對(duì)中文環(huán)境下網(wǎng)絡(luò)評(píng)論下進(jìn)行企業(yè)產(chǎn)品缺陷識(shí)別研究分類效果有一定的借鑒價(jià)值。Co-forest算法識(shí)別出的缺陷評(píng)論再基于主題模型BTM[5]算法進(jìn)行缺陷主題聚類,得到缺陷主題、主題描述詳情及占比,缺陷主題聚類結(jié)果可直接為企業(yè)產(chǎn)品研究人員決策時(shí)使用。
文中獲取的產(chǎn)品缺陷是用戶發(fā)表在社會(huì)媒體的在線評(píng)論、對(duì)產(chǎn)品的正常使用產(chǎn)生影響的嚴(yán)重問(wèn)題或者故障,以及會(huì)影響用戶滿意度的產(chǎn)品缺陷。要實(shí)現(xiàn)基于在線評(píng)論的產(chǎn)品缺陷識(shí)別,并將這些產(chǎn)品缺陷呈現(xiàn)給企業(yè)人員,方便企業(yè)人員及時(shí)決策進(jìn)行產(chǎn)品改進(jìn),可分為數(shù)據(jù)采集、產(chǎn)品缺陷分類算法、產(chǎn)品缺陷主題聚類三個(gè)階段。
第一階段數(shù)據(jù)準(zhǔn)備??蓪?shù)據(jù)準(zhǔn)備再具體劃為三個(gè)下屬模塊:采集數(shù)據(jù),根據(jù)Java抓取程序得到京東產(chǎn)品評(píng)論的原始數(shù)據(jù);數(shù)據(jù)清洗去噪,對(duì)獲取的用戶評(píng)論首先篩掉不包含中文的無(wú)效評(píng)論,下一步對(duì)篩選后的產(chǎn)品評(píng)論進(jìn)行文本預(yù)處理,如文本分詞、去停用詞等操作,文中的文本分詞采用哈爾濱工業(yè)大學(xué)研究的語(yǔ)言云平臺(tái)LTP;人工標(biāo)記環(huán)節(jié),將篩選后的產(chǎn)品評(píng)論進(jìn)行人工標(biāo)注,當(dāng)作企業(yè)產(chǎn)品缺陷識(shí)別模型中分類器的訓(xùn)練樣本數(shù)據(jù)和待測(cè)樣本數(shù)據(jù)。
第二階段基于在線評(píng)論的產(chǎn)品缺陷識(shí)別文本分類模塊。作為本文的核心階段,具體過(guò)程包括文本特征提取、文本向量化,構(gòu)建產(chǎn)品缺陷分類模型并將產(chǎn)品缺陷分類模型應(yīng)用于測(cè)試評(píng)論數(shù)據(jù)進(jìn)行產(chǎn)品缺陷的識(shí)別,從而驗(yàn)證模型的有效性,再將分類得到的含有缺陷的產(chǎn)品評(píng)論進(jìn)入下一階段。
文本體征提取就是要找到文本中附帶信息價(jià)值高的若干詞語(yǔ)或單字,然后將這些若干詞語(yǔ)或單字轉(zhuǎn)換成文本特征向量來(lái)表示文本本身所體現(xiàn)的含義。目前學(xué)者專家們?cè)谶M(jìn)行文本特征提取時(shí),主要采取的文本特征提取方法有四種方法。第一種信息增益,是目前產(chǎn)品缺陷識(shí)別研究經(jīng)常使用的一種方法,也是本文所選取的方法;第二種是互信息方法;第三種是期望交叉熵方法;第四種是利用卡方來(lái)計(jì)算。另外,在文本特征提取中采用詞頻-逆文檔頻率法(TF-IDF)來(lái)計(jì)算產(chǎn)品缺陷識(shí)別中文本特征權(quán)重。根據(jù)信息增益TF-IDF得到文本特征向量后,分別使用決策樹(shù)J和支持向量機(jī)兩種分類方法和半監(jiān)督分類中Tri-Training和Co-forest算法進(jìn)行文本分類,從用戶評(píng)論中得到含產(chǎn)品缺陷的用戶評(píng)論。
半監(jiān)督學(xué)習(xí)主要圍繞怎么能更好地運(yùn)用未標(biāo)記樣本幫助分類器訓(xùn)練模型。根據(jù)運(yùn)用各種方式處理無(wú)標(biāo)記數(shù)據(jù),可將半監(jiān)督學(xué)習(xí)劃分為四類:基于生成式模型、基于低密度劃分、基于圖以及基于分歧[6]。文中所要解決的問(wèn)題是中文環(huán)境下產(chǎn)品評(píng)論的缺陷識(shí)別,采用基于分歧的半監(jiān)督分類方法。
半監(jiān)督分類專家學(xué)者們通過(guò)大量的分析與實(shí)驗(yàn)提出了不同于標(biāo)準(zhǔn)協(xié)同的改進(jìn)方法[7]。由于協(xié)同訓(xùn)練中指定了分類器類型,同時(shí)在無(wú)標(biāo)記樣本的標(biāo)注流程以及挑選文本分類器的預(yù)測(cè)過(guò)程中反復(fù)地運(yùn)用十倍交叉驗(yàn)證讓分類消耗時(shí)間較長(zhǎng)。為了解決十倍交叉驗(yàn)證時(shí)間開(kāi)銷(xiāo)過(guò)大的問(wèn)題,三體訓(xùn)練法 (Tri-training)根據(jù)單視圖樣本數(shù)據(jù)集生成三個(gè)不同的文本分類器,將三個(gè)分類器以少數(shù)服從多數(shù)來(lái)的原則生成偽標(biāo)注數(shù)據(jù),當(dāng)兩個(gè)分類器對(duì)一個(gè)未數(shù)據(jù)歸為正向數(shù)據(jù),而第三個(gè)分類器歸為反向,則此樣本被標(biāo)注為偽標(biāo)注正向數(shù)據(jù)成為第三個(gè)分類器的訓(xùn)練數(shù)據(jù)。半監(jiān)督分類Tri-training算法使用三個(gè)文本分類器,其結(jié)果會(huì)受到?jīng)]有考慮原始數(shù)據(jù)集的差異及由此訓(xùn)練產(chǎn)生的原始分類器的差異。為了更好地減少這種影響,使用基于分歧的半監(jiān)督分類Co-forest算法,不強(qiáng)制規(guī)定樣本集有充分冗余視圖來(lái)進(jìn)行文本分類,而是利用集成學(xué)習(xí)計(jì)算無(wú)標(biāo)注樣本的標(biāo)注可信度,避免十倍交叉驗(yàn)證這種消耗時(shí)間特別多的方法。半監(jiān)督學(xué)習(xí)Co-forest方法還擴(kuò)大了樣本訓(xùn)練器的數(shù)量,通過(guò)多種差異引入來(lái)避免分類器學(xué)習(xí)早熟。
第三階段產(chǎn)品缺陷主題聚類階段。上一步驟中得到根據(jù)缺陷分類模型篩選后的待測(cè)評(píng)論,交付給缺陷主題聚類模型處理,從而獲得多個(gè)產(chǎn)品缺陷主題以及對(duì)應(yīng)缺陷詳情及占比。主題聚類算法中,目前常用的有LDA[8]主題聚類,這種聚類算法可以對(duì)包括多個(gè)主題的評(píng)論進(jìn)行聚類,但LDA算法主要在長(zhǎng)文本方面的效果較佳,而由于京東評(píng)論屬于短文本,針對(duì)短文本所具有的稀疏特點(diǎn),LDA主題算法的聚類效果并不是很理想,故文中應(yīng)用基于BTM主題建模的方式對(duì)包含缺陷的評(píng)論聚類。BTM算法是在2013年,由Xiaohui Yan等提出的主題模型聚類算法,該算法模型在短文本上的聚類表現(xiàn)比較理想,而在長(zhǎng)文本方面聚類的情況也與LDA算法不相上下。BTM算法綜合了LDA和一元混合模型的優(yōu)點(diǎn),根據(jù)文本中包含的詞語(yǔ)組合建立主題模型,詞語(yǔ)組合與主題服從狄里克雷分布,詞語(yǔ)與主題服從多項(xiàng)式分布。
2.1文本特征集
基于上述分析,參考張嵩等[9]提出的進(jìn)行改進(jìn)后SMART方法框架,構(gòu)建基于在線評(píng)論的產(chǎn)品缺陷識(shí)別框架的文本特征集,包含特殊條目特征、產(chǎn)品的特征、語(yǔ)義特征。
對(duì)于SMART方法框架中的情感特征,在之前的相關(guān)研究中,當(dāng)進(jìn)行產(chǎn)品缺陷判定時(shí),可通過(guò)情感分析的方法來(lái)判定用戶評(píng)價(jià)中所具有明顯和隱晦的情感趨勢(shì),再依據(jù)產(chǎn)品各方面的整體情感程度來(lái)判定出產(chǎn)品是否有缺陷,但此方法的條件是依據(jù)有極強(qiáng)負(fù)向情感趨勢(shì)的產(chǎn)品評(píng)論可以表示產(chǎn)品有故障,但是,有學(xué)術(shù)研究顯示同樣的情感詞在各種場(chǎng)景所體現(xiàn)的情感程度有差異[10]。上述實(shí)驗(yàn)是在英文語(yǔ)境下進(jìn)行,而在中文社會(huì)媒體的環(huán)境下,由于語(yǔ)言特性、用戶表達(dá)習(xí)慣、產(chǎn)品所具有差異性等多方面的不同,該結(jié)論需要在中文環(huán)境根據(jù)產(chǎn)品進(jìn)一步驗(yàn)證,驗(yàn)證情感特征是否適用于產(chǎn)品缺陷識(shí)別的文本特征提取。對(duì)此本文進(jìn)行了預(yù)實(shí)驗(yàn),驗(yàn)證情感特征在中文在線評(píng)論下產(chǎn)品缺陷識(shí)別過(guò)程中的適用性。
預(yù)實(shí)驗(yàn)數(shù)據(jù)是來(lái)自京東商城上某品牌暢銷(xiāo)的一款除濕機(jī)的評(píng)論,從這些評(píng)論中隨機(jī)選取400條含缺陷的評(píng)論和400條不含缺陷的評(píng)論。在對(duì)評(píng)論分詞,去停用詞等預(yù)處理操作后,使用基于情感詞典的方式對(duì)800條產(chǎn)品評(píng)論進(jìn)行情感分析預(yù)實(shí)驗(yàn)。文本特征預(yù)實(shí)驗(yàn)中情感極性的算法是張成功[11]關(guān)于情感極性的算法,其算法是先分別算出用戶的產(chǎn)品評(píng)論中的每個(gè)句子的總極性強(qiáng)度。而該條產(chǎn)品評(píng)論的總極性強(qiáng)度是依據(jù)句子中的各極性短語(yǔ)的強(qiáng)度,通過(guò)把各句子的極性強(qiáng)度求和得到的。
經(jīng)過(guò)上述預(yù)實(shí)驗(yàn)情感分析極性強(qiáng)度的計(jì)算,可以得到情感分析預(yù)實(shí)驗(yàn)結(jié)果,見(jiàn)表1。從表1可分析出,在所有的產(chǎn)品評(píng)論中,含有產(chǎn)品缺陷的評(píng)論中負(fù)面評(píng)論小于30%,而非缺陷評(píng)論即未包含產(chǎn)品缺陷的評(píng)論中仍有10%負(fù)面評(píng)論,如果以負(fù)面評(píng)論作為判斷產(chǎn)品評(píng)論為產(chǎn)品缺陷評(píng)論的依據(jù),將有70%的缺陷評(píng)論不能被識(shí)別到,造成大量的缺陷評(píng)論未能被發(fā)現(xiàn),并且情感傾向?yàn)樨?fù)面的評(píng)論中缺陷評(píng)論不到80%。預(yù)實(shí)驗(yàn)結(jié)果證明情感特征在中文環(huán)境下社交媒體在線評(píng)論的產(chǎn)品缺陷識(shí)別問(wèn)題中采用情感特征效果并不是太理想,故文中的文本特征集中不加入情感特征。文中的文本特征集為特殊條目、產(chǎn)品特征、語(yǔ)義特征,參考之前學(xué)者的研究,使用信息增益的方法提取產(chǎn)品特征,并向文本特征集中加入產(chǎn)品的特殊特征和語(yǔ)義特征。根據(jù)TF-IDF方法計(jì)算文本特征權(quán)重,并用空間文本向量的方法表示產(chǎn)品缺陷文本,進(jìn)行產(chǎn)品缺陷分類和產(chǎn)品缺陷主題聚類。
表1情感分析預(yù)實(shí)驗(yàn)結(jié)果
Table1Preliminaryexperimentalresultsofsentimentanalysis
正面評(píng)論中性評(píng)論負(fù)面評(píng)論缺陷評(píng)論36.25%34%29.75%非缺陷評(píng)論60.5%30%9.50%
2.2文本分類算法
一般來(lái)說(shuō),有監(jiān)督學(xué)習(xí)文本分類為了生成高精度的文本分類器要求非常多的標(biāo)注人員參與樣本數(shù)據(jù)標(biāo)記工作。而在互聯(lián)網(wǎng)大數(shù)據(jù)條件下,由于網(wǎng)絡(luò)評(píng)論內(nèi)容的表現(xiàn)方式多種多樣,產(chǎn)生的無(wú)標(biāo)記數(shù)據(jù)量也十分龐大,給人工標(biāo)注工作也造成了很多困難。在人工參與標(biāo)記樣本的成本相對(duì)比較大的情況下,半監(jiān)督學(xué)習(xí)分類就有了存在的價(jià)值。而半監(jiān)督分類中最具代表性的協(xié)同訓(xùn)練需要樣本有著充分視圖的數(shù)據(jù)集合,而現(xiàn)有樣本集合又很難滿足上述規(guī)定。而半監(jiān)督學(xué)習(xí)分類算法中的三體訓(xùn)練法 (Tri-training),分類結(jié)果會(huì)受到?jīng)]有考慮初始數(shù)據(jù)集的差異及由此訓(xùn)練產(chǎn)生的初始分類器的差異的影響,為了更好地減少這種影響,文中采用的半監(jiān)督分類中Co-forest算法使用集成方法得到未標(biāo)注樣本的標(biāo)注置信度,同時(shí)增加了分類器的數(shù)量,這樣可以更好地展現(xiàn)集成學(xué)習(xí)所帶來(lái)的好處,并且對(duì)未標(biāo)注樣本數(shù)據(jù)的標(biāo)注置信度的計(jì)算也會(huì)更加精準(zhǔn),以此弱化干擾樣本給分類器帶來(lái)的消極作用,得到更佳的分類效果。
Co-forest算法偽代碼[12]如下:
輸入內(nèi)容
有標(biāo)注樣本集合Lable
無(wú)標(biāo)注樣本集合ULable
Hi代表不含有訓(xùn)練器hi的訓(xùn)練分類器合集
代表第i個(gè)訓(xùn)練器使用的根據(jù)無(wú)標(biāo)注樣本中得到的相對(duì)可信賴的樣本
具體算法
構(gòu)建含有N棵隨機(jī)樹(shù)的隨機(jī)森林體系
根據(jù)Lable樣本集合開(kāi)始N次學(xué)習(xí),得到隨機(jī)森林訓(xùn)練器hi(i(1,N))
Allow = true
While(Allow)
{
Allow = false
循環(huán)N輪
循環(huán)瀏覽無(wú)標(biāo)記樣本中的每一個(gè)變量x
{
若判定結(jié)果為pass,那么可以將新學(xué)習(xí)樣本添加 中,Allow = true
}
循環(huán)結(jié)束
}
2.3BTM聚類算法
由于在線評(píng)論的自由開(kāi)放性,用戶在發(fā)表評(píng)論時(shí)并不一定會(huì)遵循某個(gè)固定的標(biāo)準(zhǔn)或規(guī)則對(duì)內(nèi)容進(jìn)行組織。根據(jù)現(xiàn)有的算法分類器構(gòu)造分析來(lái)看,絕大部分分類算法都是憑借產(chǎn)品的內(nèi)部結(jié)構(gòu)組成(如除濕機(jī)水箱、出風(fēng)口等)進(jìn)行歸類。主要可分為兩種情況,第一種是直接建立一個(gè)多訓(xùn)練器,對(duì)產(chǎn)品所具有的若干內(nèi)部組成僅用一個(gè)分類器進(jìn)行分類;第二種是建立若干二元訓(xùn)練器,通過(guò)多個(gè)分類器的集成來(lái)按照產(chǎn)品內(nèi)部組成分類。產(chǎn)品缺陷主題聚類的方法可以把對(duì)產(chǎn)品某個(gè)缺陷的描述相關(guān)的評(píng)論匯合,這樣對(duì)企業(yè)分析產(chǎn)品缺陷也很有幫助。
文中選擇了BTM算法,原因是很多評(píng)論中含有多個(gè)類型的主題,BTM算法可以自發(fā)地去聚合這些主題,得到的主題結(jié)果可解釋化程度高,比較適用企業(yè)人員決策。由于短文本篇幅過(guò)少,上下文語(yǔ)境相對(duì)不全面,短文本層面的數(shù)據(jù)稀疏給主題聚類模型帶來(lái)很大的困難,故文本特征稀疏在短文本研究是十分棘手的問(wèn)題。BTM主題聚類算法是為短文本量身打造的,它在解決短文本的數(shù)據(jù)稀疏方面更有針對(duì)性。由于主題可看作若干有關(guān)系的詞語(yǔ)的匯合,其中詞和詞之間的關(guān)聯(lián)可根據(jù)同時(shí)出現(xiàn)的詞語(yǔ)來(lái)表達(dá)和描述,因此BTM可以由在文本中同時(shí)出現(xiàn)的詞語(yǔ)而建立模型訓(xùn)練,因?yàn)锽TM模型的樣本來(lái)源涵蓋文檔中同時(shí)出現(xiàn)的詞語(yǔ)全部組合,很有利于主題聚類形成。
3.1實(shí)驗(yàn)背景與對(duì)象
目前,國(guó)內(nèi)對(duì)中文互聯(lián)網(wǎng)環(huán)境下的網(wǎng)絡(luò)產(chǎn)品評(píng)論的研究還是比較稀少,已有的監(jiān)督分類識(shí)別產(chǎn)品缺陷需要大量的人工參與樣本數(shù)據(jù)標(biāo)注,而且有的樣本數(shù)據(jù)標(biāo)注要求的專業(yè)度高,可大量人工參與標(biāo)注帶來(lái)了諸多困難,文中提出使用半監(jiān)督分類算法對(duì)產(chǎn)品缺陷評(píng)論分類時(shí)可大幅度減少人工參與標(biāo)注數(shù)量,并且與在產(chǎn)品缺陷分類領(lǐng)域使用的Tri-training分類算法相比的精度更高。在產(chǎn)品缺陷分類后,使用針對(duì)短文本的BTM主題模型聚類算法,得到可直接幫助企業(yè)人員決策的產(chǎn)品缺陷主題及缺陷主題關(guān)鍵詞。
3.2實(shí)驗(yàn)數(shù)據(jù)采集
文中的實(shí)驗(yàn)對(duì)象是京東商城中O品牌的某款暢銷(xiāo)除濕機(jī),采用Java語(yǔ)言編寫(xiě)除濕機(jī)的用戶評(píng)論抓取程序,抓取了該款除濕機(jī)在京東商城上從上市到2017年1月10日期間的所有用戶評(píng)論,共計(jì)17 966條。其中去除不含中文的無(wú)效評(píng)論,如只包括表情、數(shù)字、英文的評(píng)論。篩選無(wú)效評(píng)論后剩余有效用戶評(píng)論共計(jì)15 587條。在抓取除濕機(jī)評(píng)論時(shí),抓取字段包括產(chǎn)品評(píng)論時(shí)間、產(chǎn)品評(píng)論內(nèi)容以及產(chǎn)品評(píng)論打分。
3.3實(shí)驗(yàn)數(shù)據(jù)預(yù)處理與人工標(biāo)注
文中的實(shí)驗(yàn)研究將由3名研究生協(xié)助對(duì)所有除濕機(jī)評(píng)論數(shù)據(jù)進(jìn)行標(biāo)記。研究人員在對(duì)樣本數(shù)據(jù)正規(guī)標(biāo)記前先進(jìn)行了試標(biāo)注環(huán)節(jié)。在試標(biāo)注環(huán)節(jié)中,三名研究生同時(shí)對(duì)從樣本中隨機(jī)抽取100條數(shù)據(jù)進(jìn)行標(biāo)注,判定數(shù)據(jù)是否包含缺陷評(píng)論,之后由三人商議標(biāo)注結(jié)果形成判定規(guī)范。通過(guò)試標(biāo)注環(huán)節(jié)可盡量減少人工標(biāo)注過(guò)程產(chǎn)生的誤差。預(yù)標(biāo)注過(guò)后,三名研究人員分別對(duì)全部數(shù)據(jù)進(jìn)行標(biāo)注,以少數(shù)服從多數(shù)的原則確認(rèn)數(shù)據(jù)的標(biāo)注結(jié)果。在對(duì)除濕機(jī)的評(píng)論標(biāo)記流程中,研究人員對(duì)除濕機(jī)評(píng)論里有沒(méi)有體現(xiàn)出產(chǎn)品缺陷做出判斷,產(chǎn)品評(píng)論中包含產(chǎn)品缺陷則標(biāo)為1,產(chǎn)品評(píng)論中未體現(xiàn)產(chǎn)品缺陷則標(biāo)為0,并將標(biāo)注結(jié)果添加到產(chǎn)品評(píng)論表的缺陷屬性中。最后的人工標(biāo)注除濕機(jī)評(píng)論的結(jié)果顯示,除濕機(jī)評(píng)論中包含用戶反映的產(chǎn)品缺陷的用戶評(píng)論數(shù)量為1 748條,比例為11.2%;不包含產(chǎn)品缺陷的用戶評(píng)論數(shù)量為13 839條,比例為88.8%。
在對(duì)除濕機(jī)用戶評(píng)論的預(yù)處理流程中,實(shí)驗(yàn)采用哈工大的語(yǔ)言技術(shù)平臺(tái)LTP對(duì)產(chǎn)品評(píng)論進(jìn)行分詞處理,然后通過(guò)現(xiàn)有的停用詞表對(duì)除濕機(jī)評(píng)論進(jìn)行去停用詞處理,從而得到可訓(xùn)練產(chǎn)品缺陷分類模型的產(chǎn)品評(píng)論。再根據(jù)Java程序利用信息增益和TF-IDF方法提取在線評(píng)論中產(chǎn)品的屬性特征轉(zhuǎn)化為文本向量。文本特征提取和選擇對(duì)分類準(zhǔn)確性有著不可忽略的影響,評(píng)論中所包含的特征較少,如果僅取信息增益值最高一部分的作為特征值,信息增益最高的特征出現(xiàn)次數(shù)相對(duì)稀少,很多評(píng)論都不具有信息增益特別高的文本特征,故在對(duì)重復(fù)次數(shù)從1~5測(cè)試后,文本特征在至少要重復(fù)四次時(shí)分類效果更高,故決定文本特征為信息增益提取出的至少有四條評(píng)論所具有特征。
由于訓(xùn)練集中缺陷評(píng)論約占11%,在這種情況下仍使用訓(xùn)練數(shù)據(jù)集默認(rèn)缺陷評(píng)論與非缺陷評(píng)論的比例1∶8情況下得到除濕機(jī)評(píng)論分類模型未能較好地表現(xiàn)出缺陷評(píng)論與非缺陷評(píng)論的差別,而采用1∶1的方式,對(duì)于測(cè)試集實(shí)里驗(yàn)中的除濕機(jī)評(píng)論缺陷與非缺陷評(píng)論比例k能貼合實(shí)際情況,故做了除濕機(jī)缺陷評(píng)論與非缺陷評(píng)論比例的預(yù)實(shí)驗(yàn),以隨機(jī)森林算法對(duì)訓(xùn)練集有標(biāo)記數(shù)據(jù)和測(cè)試集數(shù)據(jù)以不同的缺陷與非缺陷比例進(jìn)行除濕機(jī)評(píng)論分類實(shí)驗(yàn),得到除濕機(jī)評(píng)論分類實(shí)驗(yàn)結(jié)果見(jiàn)表2。
表2 訓(xùn)練數(shù)據(jù)缺陷與非缺陷比例
根據(jù)除濕機(jī)評(píng)論訓(xùn)練數(shù)據(jù)集缺陷與非缺陷比例的預(yù)實(shí)驗(yàn)結(jié)果如表3所示。文中實(shí)驗(yàn)從算法評(píng)價(jià)指標(biāo)中F1值、分類后主題建模偏向精度值更高以及除濕機(jī)評(píng)論分類缺陷與非缺陷比例更接近實(shí)際情況等因素考慮,實(shí)驗(yàn)選取了缺陷與非缺陷1∶5的分類比例作為訓(xùn)練集中含缺陷的評(píng)論以及非缺陷評(píng)論分類比例,并以此生成的文本特征轉(zhuǎn)換成文本特征向量,應(yīng)用到除濕機(jī)缺陷文本分類和除濕機(jī)缺陷主題模型聚類。
表3 對(duì)照標(biāo)記數(shù)據(jù)比例
3.4分類實(shí)證
為了檢驗(yàn)3.1節(jié)中所提出的基于在線評(píng)論的產(chǎn)品缺陷識(shí)別分類模型的適用性,實(shí)驗(yàn)設(shè)定兩類對(duì)照的方式,通過(guò)設(shè)定AB兩類樣本完成有監(jiān)督學(xué)習(xí)分類與半監(jiān)督學(xué)習(xí)分類的算法比較,AB類的樣本都采用相同的人工已標(biāo)注樣本集合和測(cè)試樣本集合。其中A類除濕機(jī)評(píng)論分類實(shí)驗(yàn)為有監(jiān)督的除濕機(jī)評(píng)論分類算法,采用決策樹(shù)算法和支持向量機(jī)(SVM)算法進(jìn)行對(duì)照實(shí)驗(yàn),這一種情況下的實(shí)驗(yàn)不會(huì)采用無(wú)標(biāo)注樣本參與輔助,只采用有標(biāo)注樣本參與模型學(xué)習(xí)過(guò)程;B類采用Tri-training算法以及Co-forest算法的半監(jiān)督學(xué)習(xí)算法,其中Tri-training算法的基分類器同樣分別采用決策樹(shù)算法及支持向量機(jī)算法,半監(jiān)督分類算法采用標(biāo)注樣本和無(wú)標(biāo)注樣本參與協(xié)同,增大分類器學(xué)習(xí)的樣本數(shù)量。實(shí)驗(yàn)數(shù)據(jù)的對(duì)照標(biāo)記數(shù)據(jù)比例如表3所示。對(duì)已人工標(biāo)記的評(píng)論集合使用分層抽樣的方式來(lái)抽取評(píng)論,從所有標(biāo)記評(píng)論中抽取40%的評(píng)論當(dāng)作檢驗(yàn)分類算法的測(cè)試評(píng)論集合;剩下的60%的評(píng)論分成已標(biāo)記評(píng)論集合和無(wú)標(biāo)記評(píng)論集合兩種,而且持續(xù)修改已標(biāo)記樣本數(shù)據(jù)集和未標(biāo)記樣本集的比例k1,共構(gòu)成8組數(shù)據(jù)。例如編號(hào)1的樣本集合占全部樣本量1%的133條除濕機(jī)評(píng)論,是有監(jiān)督分類算法和半監(jiān)督分類算法的訓(xùn)練樣本,另外對(duì)1%已標(biāo)注評(píng)論后余下的59%無(wú)標(biāo)記評(píng)論來(lái)幫助分類器進(jìn)行B類分類算法。在評(píng)價(jià)分類算法各項(xiàng)性能上,使用除濕機(jī)缺陷分類的正向樣本(包含缺陷的評(píng)論)的F0.5值作為分類算法評(píng)價(jià)與對(duì)比的觀測(cè)值。除濕機(jī)評(píng)論分類算法的實(shí)驗(yàn)工具選擇方面,監(jiān)督學(xué)習(xí)分類利用數(shù)據(jù)挖掘工具Weka軟件,半監(jiān)督學(xué)習(xí)分類采用周志華教授的開(kāi)源代碼Tri-training算法和Co-forest算法代碼,通過(guò)Java語(yǔ)言編寫(xiě)程序檢驗(yàn)文中的分類算法性能。整個(gè)分類算法實(shí)驗(yàn)共計(jì)十組,每一組分類算法實(shí)驗(yàn)的結(jié)果如表4所示。
表4 分類算法結(jié)果
表4中第一列代表除濕機(jī)評(píng)論分類實(shí)驗(yàn)分組的序號(hào);第二列代表在不使用無(wú)標(biāo)記數(shù)據(jù)的監(jiān)督學(xué)習(xí)情況下,分別使用決策樹(shù)和支持向量機(jī)(SVM)算法進(jìn)行除濕機(jī)評(píng)論分類訓(xùn)練所得出的模型在測(cè)試集上的F0.5值;第三、四列代表在使用本組的除濕機(jī)有標(biāo)記數(shù)據(jù)以及無(wú)標(biāo)記數(shù)據(jù)的半監(jiān)督學(xué)習(xí)情況下,采用基于分歧半監(jiān)督的Tri-training和Co-forest作為協(xié)同訓(xùn)練中基分類器訓(xùn)練所得出的分類性能結(jié)果。從表4中除濕機(jī)評(píng)論分類算法結(jié)果可以發(fā)現(xiàn),在使用同樣的已標(biāo)注樣本數(shù)據(jù)集的基礎(chǔ)上,根據(jù)無(wú)標(biāo)記除濕機(jī)評(píng)論數(shù)據(jù)的幫助,半監(jiān)督分類算法B類與有監(jiān)督分類算法A類以F0.5值作為評(píng)估指標(biāo)來(lái)看各組的F0.5平均提升7%;而且,B類算法在只獲得占全部樣本10%的已標(biāo)記樣本的條件下,與A類應(yīng)用全部樣本的40%左右有標(biāo)記樣本的分類性能指標(biāo)比較接近。并且在標(biāo)注數(shù)據(jù)比例不斷升高的條件下,有監(jiān)督學(xué)習(xí)分類算法和半監(jiān)督學(xué)習(xí)分類算法的F0.5值最終都收斂在0.65左右的水平。根據(jù)以上的除濕機(jī)缺陷分類算法的性能指標(biāo)表明,半監(jiān)督分類在進(jìn)行除濕機(jī)缺陷的分類算法效率方面較有監(jiān)督分類算法相比能大幅度縮小人工標(biāo)記的樣本數(shù)量;而且在相同數(shù)量大小的已標(biāo)注樣本的條件下,半監(jiān)督分類的準(zhǔn)確度比有監(jiān)督學(xué)習(xí)分類的準(zhǔn)確度要多一些。本文提出在產(chǎn)品缺陷識(shí)別方面采用Co-forest算法與有監(jiān)督分類算法和半監(jiān)督Tri-training算法相比較占一點(diǎn)上風(fēng),可以幫助企業(yè)在產(chǎn)品缺陷識(shí)別分類領(lǐng)域更好地發(fā)現(xiàn)產(chǎn)品缺陷。
3.5產(chǎn)品缺陷模型聚類實(shí)證
以Co-forest算法判定包含缺陷的評(píng)論共396條為主,再對(duì)包含缺陷的產(chǎn)品評(píng)論實(shí)現(xiàn)主題聚類從而得到產(chǎn)品缺陷主題。本節(jié)實(shí)驗(yàn)選取Java語(yǔ)言進(jìn)行BTM主題聚類算法實(shí)現(xiàn)。設(shè)置BTM算法參數(shù)topic_num=14,alpha=2.5,beta=0.01,iter_num=3 000, instance_num=1,得到結(jié)果見(jiàn)表5。
表5 BTM主題聚類結(jié)果
從表5可得,除濕機(jī)產(chǎn)品缺陷評(píng)論中占比最大的是噪音大,達(dá)到了48.74%。雖然對(duì)噪音的感知因人而異,但有大量的用戶提出了噪音大的問(wèn)題,證明噪音問(wèn)題應(yīng)該引起企業(yè)產(chǎn)品管理部門(mén)的關(guān)注。除了噪音大之外缺陷占比比較大的使水箱小和功率小,用戶反映水箱小導(dǎo)致晚上總要倒水,使用排水管容易漏水,功率小導(dǎo)致抽濕速度慢,濕度下降慢等情況企業(yè)也應(yīng)該重視。除了上述反映比較多的問(wèn)題以外,小比率的缺陷在BTM主題聚類算法中也有體現(xiàn),如漏水、機(jī)子抖動(dòng)、溫度顯示不準(zhǔn)、出熱風(fēng)等。即使是小比率的產(chǎn)品缺陷,企業(yè)也不能忽視。
基于互聯(lián)網(wǎng)環(huán)境下用戶評(píng)論分析企業(yè)產(chǎn)品的缺陷,通過(guò)采集用戶發(fā)表在社交媒體的在線評(píng)論數(shù)據(jù),研究了產(chǎn)品缺陷識(shí)別的分類算法,以某品牌的暢銷(xiāo)除溫機(jī)為例驗(yàn)證了產(chǎn)品缺陷識(shí)別方法的性能更佳。
[1] Abrahams A S, Jiao J, Wang G A, et al. Vehicle defect discovery from social media[J].Decision Support Systems, 2012, 54(1): 87-97.
[2] Abrahams A S,Fan W, Wang G A, et al. An integrated text analytic framework for product defect discovery [J]. Production and Operations Management, 2015, 24(6): 975-990.
[3] Zhou Z H, Li M. Tri-training: exploiting unlabeled data using three classifiers[J]. IEEE Transactions on Knowledge & Data Engineering, 2005, 17(11): 1529-1541.
[4] Li M, Zhou Z H. Improve computer-aided diagnosis with machine learning techniques using undiagnosed samples[J]. IEEE Transactions on Systems Man & Cybernetics Part A Systems & Humans, 2007, 37(6): 1088-1098.
[5] Yan X H, Guo F, Lan Y, et al. A biterm topic model for short text[C]//. Hang Zhou: Proceedings of the IW3C2 Conference, 2013: 1445-1555.
[6] 周志華. 基于分歧的半監(jiān)督學(xué)習(xí)[J]. 自動(dòng)化學(xué)報(bào), 2013, 39(11): 1871-1878.
[7] Goldman S A, Zhou Y. Enhancing supervised learning with unlabeled data[C]// Proceedings of the Seventeenth International Conference on Machine Learning, Morgan Kaufmann Publishers Inc. 2000: 327-334.
[8] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3-7.
[9] 張 嵩, 吳劍云, 樊衛(wèi)國(guó), 等. 基于社交媒體分析的手機(jī)缺陷識(shí)別[J]. 計(jì)算機(jī)集成制造系統(tǒng), 2016, 22(9): 2264-2273.
[10] Loughran T, Mcdonald B. When is a liability not a liability Textual analysis, dictionaries, and 10-Ks[J]. The Journal of Finance, 2011, 66(1): 35-65.
[11] 張成功, 劉培玉, 朱振方, 等. 一種基于極性詞典的情感分析方法[J]. 山東大學(xué)學(xué)報(bào)(理學(xué)版), 2012, 47(3): 50-53.
[12] 閆耀輝, 臧 洌, 黃同心. 基于協(xié)同訓(xùn)練的Co-Forest算法在入侵檢測(cè)中的應(yīng)用[C]// 北京: 全國(guó)青年通信學(xué)術(shù)會(huì)議, 2010.
(編校李德根)
Productdefectrecognitionmethodforonlinereviews
LiuDan,ZhangYuhong,YanXiangbin
(School of Economics & Management, Harbin Institute of Technology, Harbin 150001, China)
This paper describes an effort to analyze the defects of enterprise products from Internet users comments. The analysis involves performing text classification of the product reviews using semi supervised classification algorithm based on user Co-forest differences; providing defect topic clustering of defect review identified by Co-forest algorithm based on BTM algorithm based on topic model in a way that affords the defect theme, topic description details, and the proportion; and conducting related research on the Jingdong website comments using a brand of a best-selling dehumidifier as an example. The results show that the Co-forest algorithm boasts a higher performance than supervised classification and semi supervised classification Tri-training method in terms of defect recognition and classification based on online reviews.
defect identification; online reviews; semi-supervised classification; topic clustering; dehumidifier
10.3969/j.issn.2095-7262.2017.06.025
TP391.4
2095-7262(2017)06-0698-07
A
2017-09-21
劉 丹(1992-),女,黑龍江省農(nóng)墾寶泉嶺人,碩士,研究方向:電子商務(wù)與商務(wù)智能,E-mail:paluadan@163.com。