潘夢(mèng)強(qiáng),黎 巎,董 微,黃先開,張青川
(1.北京工商大學(xué) 電商與物流學(xué)院,北京 100048;2.北京工商大學(xué) 國(guó)際經(jīng)管學(xué)院,北京 100048)
在互聯(lián)網(wǎng)飛速發(fā)展的大背景下,電商平臺(tái)迅速成長(zhǎng),直播帶貨等新興商品銷售手段如雨后春筍般涌現(xiàn)。商品琳瑯滿目,魚龍混雜,消費(fèi)者難以短時(shí)間內(nèi)判斷商品質(zhì)量。以次充好、以假亂真的案例時(shí)有發(fā)生,平臺(tái)也面臨著監(jiān)管難的問(wèn)題。消費(fèi)者購(gòu)物時(shí),往往會(huì)參考已有的評(píng)論來(lái)輔助自己決策,同時(shí)也會(huì)根據(jù)自己的使用體驗(yàn)對(duì)商品進(jìn)行評(píng)價(jià),大多數(shù)購(gòu)物平臺(tái)也會(huì)建立獎(jiǎng)勵(lì)機(jī)制來(lái)鼓勵(lì)購(gòu)買者對(duì)商品進(jìn)行評(píng)價(jià),這就使根據(jù)評(píng)論來(lái)進(jìn)行商品質(zhì)量監(jiān)測(cè)成為可能。
情感分析是從用戶意見中分析其觀點(diǎn)、情感等信息的過(guò)程[1],在商品推薦[2-3]、銷量預(yù)測(cè)[4]、輿情治理[5]等方面均有廣泛應(yīng)用。情感分析也是一項(xiàng)領(lǐng)域敏感度高的技術(shù)[6],針對(duì)一個(gè)領(lǐng)域訓(xùn)練好的模型在應(yīng)用于其他領(lǐng)域時(shí),效果卻可能不盡人意。例如,“溫度高”在形容熱水袋時(shí)往往表達(dá)的是正向情感,但是在形容手機(jī)時(shí),卻是負(fù)向的。達(dá)到較好效果需要針對(duì)特定領(lǐng)域進(jìn)行訓(xùn)練,然而又會(huì)面臨著優(yōu)質(zhì)標(biāo)簽數(shù)據(jù)不足的情況。在這樣的背景下,遷移學(xué)習(xí)等跨領(lǐng)域的方法應(yīng)運(yùn)而生[7-8],但是本質(zhì)上還是對(duì)于特定領(lǐng)域知識(shí)的重新訓(xùn)練模型,難以應(yīng)對(duì)類似于輿情監(jiān)測(cè)、商品質(zhì)量監(jiān)測(cè)等涉及領(lǐng)域廣、實(shí)時(shí)性要求高的場(chǎng)景。因此,跨領(lǐng)域?qū)ι唐愤M(jìn)行普適性評(píng)論情感分析顯得十分重要。
在基于機(jī)器學(xué)習(xí)的情感分類上,文獻(xiàn)[9]嘗試了多種機(jī)器學(xué)習(xí)方法進(jìn)行情感分類任務(wù)。實(shí)驗(yàn)發(fā)現(xiàn),樸素貝葉斯(naive bayes, NB)、支持向量機(jī)(support vector machines, SVM)等方法能取得較好的效果。文獻(xiàn)[10]利用Boosting方法,將SVM集成起來(lái)作為新的情感分類器。實(shí)驗(yàn)表明,使用集成SVM分類效果會(huì)好于單一SVM分類器。文獻(xiàn)[11]利用改進(jìn)的NB進(jìn)行電商平臺(tái)評(píng)論情感分析,文獻(xiàn)[12]通過(guò)最大熵方法進(jìn)行情感分類。雖然傳統(tǒng)機(jī)器學(xué)習(xí)方法一直在改進(jìn),但是隨著數(shù)據(jù)量的暴漲,新鮮詞匯不斷涌現(xiàn),傳統(tǒng)方法需要一直保持訓(xùn)練以維持模型性能,因此越來(lái)越難以適應(yīng)當(dāng)今時(shí)代。
在深度學(xué)習(xí)方面,文獻(xiàn)[13]與文獻(xiàn)[14]分別提出了Word2Vec模型和Glove模型來(lái)對(duì)文本中的字詞進(jìn)行表征,解決了傳統(tǒng)的獨(dú)特編碼維度災(zāi)難問(wèn)題。但這些方法都是對(duì)于字詞的靜態(tài)表示,一個(gè)詞對(duì)應(yīng)一個(gè)詞向量,對(duì)于一詞多義現(xiàn)象并不友好,在中文文本序列中尤其如此。例如,“蘋果”既可以表示一種水果,也可以表示一種電子產(chǎn)品。詞在不同語(yǔ)境下有不同含義,為了應(yīng)對(duì)這一現(xiàn)象,ELMO模型[15]提供了較好解決方案,與靜態(tài)表征不同的是,該模型對(duì)于同一個(gè)詞可以根據(jù)不同語(yǔ)境訓(xùn)練出不同的詞向量。在此基礎(chǔ)上,文獻(xiàn)[16]基于Transformer提出了表征能力更強(qiáng)的BERT模型。在得到詞的向量化表示之后,學(xué)者往往在通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)一步提取文本序列的特征,然后輸入到情感分類器中進(jìn)行分類。文獻(xiàn)[17]通過(guò)改變池化策略來(lái)提升卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的特征提取能力,文獻(xiàn)[18]將注意力機(jī)制加入CNN中,提升了情感分類性能。但是這些方法往往只適用于固定領(lǐng)域,當(dāng)應(yīng)用于新領(lǐng)域時(shí),需要重新訓(xùn)練,而新領(lǐng)域的優(yōu)質(zhì)人工標(biāo)注數(shù)據(jù)較少,難以支撐海量模型參數(shù),所以往往效果不佳。文獻(xiàn)[19]提出域?qū)?domain adversarial neural network, DANN)方法,并且在圖文跨領(lǐng)域分類任務(wù)上取得了較好結(jié)果。雖然域?qū)狗椒ń鉀Q了新領(lǐng)域人工標(biāo)注數(shù)據(jù)不足的情況,但是每當(dāng)一個(gè)新領(lǐng)域出現(xiàn)時(shí)都得重新訓(xùn)練模型,在如今商品類型極其豐富的情況下,此方法亦難以應(yīng)對(duì)。
基于此,本文提出一種基于對(duì)抗網(wǎng)絡(luò)和BERT的情感分類模型,從領(lǐng)域相關(guān)特征與無(wú)關(guān)特征兩個(gè)角度對(duì)文本特征進(jìn)行提取,將提取的兩種特征進(jìn)行融合之后,傳入情感分類器進(jìn)行情感分類。在模型訓(xùn)練時(shí),利用對(duì)抗網(wǎng)絡(luò)對(duì)領(lǐng)域無(wú)關(guān)特征加以約束,情感分類器可以據(jù)此達(dá)到較好的分類效果,而領(lǐng)域鑒別器難以判別來(lái)自哪個(gè)領(lǐng)域。針對(duì)傳統(tǒng)最大池化卷積神經(jīng)網(wǎng)絡(luò)在提取文本序列特征時(shí)效果較差的情況,提出平面金字塔池化(panel pyramid pooling, PPP)改進(jìn)策略,同時(shí)以自注意力機(jī)制增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)對(duì)文本序列特征的提取能力。模型特點(diǎn)在于:訓(xùn)練模型時(shí),使用情感和領(lǐng)域雙標(biāo)簽數(shù)據(jù);模型訓(xùn)練完成后,則與其他傳統(tǒng)情感分類模型一樣,只需輸入文本序列,無(wú)需輸入所屬領(lǐng)域等額外信息。
本文提出基于對(duì)抗網(wǎng)絡(luò)與BERT的電商平臺(tái)短文本情感分析模型,見圖1。模型分為輸入層、信息提取層、分類輸出層,包括BERT模型、CNN-PPP網(wǎng)絡(luò)、自注意力機(jī)制、BiLSTM網(wǎng)絡(luò)等。模型訓(xùn)練時(shí),樣本不僅包含情感標(biāo)簽,還包含領(lǐng)域標(biāo)簽,以領(lǐng)域標(biāo)簽作為信息增強(qiáng)的手段。模型訓(xùn)練分為5步:①將經(jīng)過(guò)分詞等預(yù)處理操作后的文本輸入到BERT模型中,形成詞向量作為初始詞表征并且作為后續(xù)特征提取層的輸入;②將BERT生成的詞向量傳入到BiLSTM模型中提取文本序列的上下文特征信息;③與②類似,將BERT模型的輸出(即BERT生成的詞向量)作為CNN-PPP的輸入,傳入到CNN-PPP模型中,進(jìn)行局部語(yǔ)義的特征提取,并且將CNN-PPP模型的輸出加以自注意力機(jī)制,提取更深層次的語(yǔ)言信息;④將③的輸出(即經(jīng)過(guò)自注意力機(jī)制后的輸出)經(jīng)過(guò)一層梯度反轉(zhuǎn)層(gradient reversal layer, GRL)之后作為輸入傳入由全連接網(wǎng)絡(luò)組成的領(lǐng)域鑒別器中,判別來(lái)自哪個(gè)領(lǐng)域,并且力圖使領(lǐng)域鑒別器無(wú)法鑒別文本序列屬于哪個(gè)領(lǐng)域;⑤將②與③的輸出進(jìn)行特征融合(即進(jìn)行拼接),然后傳入情感分類器中進(jìn)行情感分類,力圖使情感分類器能準(zhǔn)確分類文本序列的情感傾向。
圖1 基于對(duì)抗網(wǎng)絡(luò)和BERT的情感分類模型Fig.1 Sentiment classification model based on adversarial network and BERT
BERT模型結(jié)構(gòu)如圖2所示。圖2中,Trm表示Transformer單元,BERT模型由多個(gè)Transformer層組成,通過(guò)“masked language model”和“next sentence prediction”兩個(gè)無(wú)監(jiān)督子任務(wù)來(lái)訓(xùn)練。在特征嵌入方面,相較于Word2Vec、Glove等模型,BERT有著更強(qiáng)的詞表征能力。
圖2 BERT模型結(jié)構(gòu)Fig.2 Structure of BERT model
LSTM是對(duì)傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)的改進(jìn),在一定程度上克服了RNN的梯度彌散與長(zhǎng)期依賴問(wèn)題。LSTM的信息傳播方式為
it=σ(Wi·[ht-1,Xt])+bi
(1)
ft=σ(Wf·[ht-1,Xt])+bf
(2)
ot=σ(Wo·[ht-1,Xt])+bo
(3)
(4)
(5)
ht=ot·tanh(Ct)
(6)
(1)—(3)式中:it、ft、ot分別表示輸入門、遺忘門、輸出門;σ為激活函數(shù);W和b分別表示權(quán)重矩陣及偏置項(xiàng);ht-1表示t-1時(shí)刻的輸出;Xt表示t時(shí)刻的輸入。
LSTM相比RNN已有較大改進(jìn),但是單向傳播特性使其在進(jìn)行文本情感分類任務(wù),尤其是文本序列較長(zhǎng)時(shí),會(huì)出現(xiàn)序列后面詞比前面詞重要的問(wèn)題。在情感分類時(shí),實(shí)際突出情感的詞可能出現(xiàn)在文本任何位置,而非一定在文本最后。BiLSTM由前向LSTM以及后向LSTM組成,信息在兩個(gè)隱層之間雙向流動(dòng),可以在提取上下文信息的同時(shí)提取到更多語(yǔ)言信息。圖3為BiLSTM模型的結(jié)構(gòu)圖。
在圖像目標(biāo)檢測(cè)等視覺領(lǐng)域,采用空間金字塔池化(spatial syramid pooling,SPP)的CNN大放異彩,特殊池化結(jié)構(gòu)使其能提取到圖像的更多信息。而文本情感分類任務(wù)不同于文本分類任務(wù),它有著更為復(fù)雜的情感表達(dá)方式,同時(shí)對(duì)商品可能有多個(gè)角度的評(píng)價(jià),且各方面的情感傾向略有差異,直接使用全局最大池化可能會(huì)陷入一葉障目的困境。與傳統(tǒng)CNN采用全局最大池化不同,CNN-PPP采用的是平面金字塔池化。
圖3 BiLSTM模型結(jié)構(gòu)Fig.3 Structure of BiLSTM
卷積層:使用若干個(gè)大小固定的濾波器對(duì)上一層的輸出矩陣進(jìn)行卷積操作。在文本序列中,卷積核會(huì)沿著序列方向進(jìn)行滑動(dòng),第i個(gè)卷積核對(duì)特征矩陣進(jìn)行卷積之后,得到新的特征ci,j為
ci,j=f(wi·xj:j+h-1+b)
(7)
(7)式中:f為非線性的變化函數(shù),通常為RELU;b為偏置項(xiàng);h是卷積核口窗口的大小。第i個(gè)卷積核沿序列滑動(dòng)之后得到新特征序列ci。
ci={ci,1,ci,2,…,ci,n-h+1}
(8)
池化層:進(jìn)行卷積操作之后,可以進(jìn)一步提取原始特征。為了充分提取信息,通常會(huì)使用多個(gè)卷積核進(jìn)行卷積操作,這樣就會(huì)得到大量特征向量。如果直接傳入分類層進(jìn)行分類任務(wù),會(huì)使模型因參數(shù)過(guò)大而難以訓(xùn)練,且易出現(xiàn)過(guò)擬合現(xiàn)象,所以往往會(huì)在卷積層之后加上池化層來(lái)減少參數(shù)。常見的CNN模型結(jié)構(gòu)如圖4所示。經(jīng)過(guò)全局最大池化操作后所得特征di可表示為
di=max(ci,1,ci,2,…,ci,n-h+1)
(9)
全局最大池化可以在降維的同時(shí)篩選出與任務(wù)關(guān)聯(lián)度最高的特征,常應(yīng)用于圖像領(lǐng)域。由于文本的特殊性,使用全局最大池化難以捕捉句子的語(yǔ)法結(jié)構(gòu),且句子可能對(duì)商品進(jìn)行多方面的描述,只選取一個(gè)特征難免會(huì)以偏概全。RNN雖然可以學(xué)習(xí)文本上下文信息,但是也難以捕捉句子結(jié)構(gòu)特征。受SPP的啟發(fā),本文提出一種適用于一維卷積的PPP池化方式,其結(jié)構(gòu)見圖5。在某個(gè)卷積得到新特征序列ci之后,將其分為k段,分別對(duì)其中的每一段進(jìn)行全局最大池化操作,得到k個(gè)特征記為di;k。將k取不同的值,如k1,k2,k3,由此可以得到(k1+k2+k3)個(gè)特征,再將三者進(jìn)行拼接作為PPP池化的輸出,以此來(lái)捕獲文本序列的句子結(jié)構(gòu)特征。第i個(gè)卷積核在通過(guò)PPP池化之后有
ci={ci;1,ci;2,…,ci;k}
(10)
di;k={max(ci;1),max(ci;2),…,max(ci;k)}
(11)
di={di;k1,di;k2,di;k3}
(12)
圖4 CNN模型結(jié)構(gòu)Fig.4 Structure of CNN
圖5 CNN-PPP模型結(jié)構(gòu)Fig.5 Structure of CNN-PPP
加入對(duì)抗網(wǎng)絡(luò)的目的是混淆領(lǐng)域特征,使領(lǐng)域鑒別器無(wú)法鑒別上一步提取到的特征來(lái)自哪個(gè)領(lǐng)域,即使得CNN-PPP網(wǎng)絡(luò)提取的序列特征與其領(lǐng)域無(wú)關(guān)。假設(shè)CNN-PPP經(jīng)過(guò)自注意力機(jī)制層之后得到特征Vc,然后傳入領(lǐng)域鑒別器中,Vc在前向傳播經(jīng)過(guò)梯度反轉(zhuǎn)層時(shí)保持不變,在反向傳播時(shí),將梯度變?yōu)樵瓉?lái)的-λ倍。前向與反向傳播的公式為
Rl(X)=X
(13)
(14)
(13)—(14)式中,Rl為梯度反轉(zhuǎn)層的函數(shù),參數(shù)λ可動(dòng)態(tài)變化。特征Vc最終將傳入到領(lǐng)域鑒別器中進(jìn)行分類。
(15)
本文以交叉熵?fù)p失函數(shù)作為領(lǐng)域鑒別器的損失函數(shù),記為L(zhǎng)dom,以二分類為例,表達(dá)式為
(16)
(16)式中:yd為實(shí)際標(biāo)簽;x為單獨(dú)樣本;n為樣本量。
情感分類器的損失函數(shù)和領(lǐng)域鑒別器的損失函數(shù)相同,也為交叉熵?fù)p失函數(shù),記為L(zhǎng)sen,與情感分類器目的不同,領(lǐng)域鑒別器的目的是約束提取的特征與領(lǐng)域關(guān)聯(lián)度低,即難以通過(guò)提取的特征來(lái)判斷所屬領(lǐng)域,這一點(diǎn)主要由梯度反轉(zhuǎn)層保證,而情感分類器的目的是根據(jù)提取的特征準(zhǔn)確判斷情感極性。本模型實(shí)際有兩個(gè)輸出,但在最終訓(xùn)練完成后只關(guān)注情感分類器的輸出。在訓(xùn)練整個(gè)模型時(shí),將兩個(gè)損失以一定權(quán)重進(jìn)行加和,最終本文模型的損失函數(shù)為
Ltotal=Lsen+βLdom
(17)
(17)式中,β作為模型的超參數(shù),用于調(diào)節(jié)兩個(gè)損失函數(shù)的比重,實(shí)現(xiàn)Ltotal的最小化。
本文采用的實(shí)驗(yàn)數(shù)據(jù)為公開數(shù)據(jù)集online_shopping_10_cats。數(shù)據(jù)集中包含書籍、水果、計(jì)算機(jī)等十個(gè)種類總計(jì)近6萬(wàn)條的電商評(píng)論數(shù)據(jù)。情感標(biāo)簽分為兩類,標(biāo)簽1為積極情感,標(biāo)簽0為消極情感。為了驗(yàn)證模型性能,從原始數(shù)據(jù)集中抽取情感標(biāo)簽為1的水果、衣服數(shù)據(jù)各五千條,情感標(biāo)簽為0的水果、衣服各五千條,共計(jì)2萬(wàn)條數(shù)據(jù)作為數(shù)據(jù)集一,數(shù)據(jù)集一代表領(lǐng)域差別較大的樣本。類似地,將商品類型為平板、計(jì)算機(jī)的數(shù)據(jù)各1 996條,共計(jì)7 984條評(píng)論作為數(shù)據(jù)集二,數(shù)據(jù)集二代表領(lǐng)域差別較小的樣本。水果、衣服屬于體驗(yàn)型商品,平板、計(jì)算機(jī)則屬于搜索型商品,這樣設(shè)計(jì)數(shù)據(jù)不僅可以在子數(shù)據(jù)集內(nèi)做對(duì)比,也方便在子數(shù)據(jù)集間做對(duì)比。
本文所用編程語(yǔ)言為python,深度學(xué)習(xí)框架為tensorflow,CPU為Intel Xeon Silver 4210,GPU為NVIDIA GeForce RTX 2080ti,內(nèi)存為64G。
本文設(shè)置文本序列最大長(zhǎng)度為100,即一條評(píng)論文本最多包含100個(gè)字,超過(guò)100個(gè)字則進(jìn)行截?cái)?,少?00字的在向量化之后用零向量進(jìn)行填充。數(shù)據(jù)集一與數(shù)據(jù)集二分詞后所包含詞的個(gè)數(shù)分布見表1,可以看到,在100時(shí)進(jìn)行截?cái)嗫梢员A艚^大部分的評(píng)論數(shù)據(jù)。LSTM中隱藏層單元數(shù)為128,卷積層激活函數(shù)為RELU,PPP分段數(shù)為1段、3段、6段。2個(gè)分類器均由2層全連接層組成,第1層神經(jīng)元個(gè)數(shù)為128,第2層神經(jīng)元個(gè)數(shù)視分類類別數(shù)而定,在本文中為2。優(yōu)化器為Adam,學(xué)習(xí)率為0.001,batch_size為128。為了在一定程度上抑制過(guò)擬合問(wèn)題,分別在分類器前加入值為0.5的dropout機(jī)制。最大訓(xùn)練輪數(shù)為60,并隨機(jī)選取80%的實(shí)驗(yàn)數(shù)據(jù)作為訓(xùn)練集,20%的數(shù)據(jù)作為測(cè)試集。
表1 字個(gè)數(shù)的分布Tab.1 distribution of word number /個(gè)
基線模型如下。
①SVM[20]:支持向量機(jī)模型。
②CNN[21]:以全局最大池化為池化方式的卷積神經(jīng)網(wǎng)絡(luò),后面連接與本文模型相同的全連接層分類器。
③CNN-PPP:池化方式為本文提出的平面金字塔池化,其他與CNN相同。
④BiGRU[22]:雙向門控循環(huán)單元,后接的情感分類器與CNN相同。
⑤BiLSTM[23]:雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò),后接的情感分類器與CNN相同。
⑥本文模型無(wú)對(duì)抗:為了驗(yàn)證本文對(duì)抗網(wǎng)絡(luò)的有效性,在此模型中移除本文模型的梯度反轉(zhuǎn)層與領(lǐng)域鑒別器,其他參數(shù)同本文模型。
本文采用準(zhǔn)確率(Accuracy)、F1值、召回率(Recall)作為評(píng)價(jià)指標(biāo),具體公式如下。
(18)
(19)
(20)
(21)
采用數(shù)據(jù)集一進(jìn)行仿真得表2。由表2可以看出:在領(lǐng)域差別較大的混合數(shù)據(jù)中,使用PPP池化的CNN,相較于使用全局最大池化的CNN,在Accuracy、Recall和F1值上面均有一定優(yōu)勢(shì);與BiGRU模型相比,在這3個(gè)指標(biāo)上相近。說(shuō)明采用平面金字塔池化的方式能在一定程度上捕獲句子的語(yǔ)法結(jié)構(gòu)特征。在所有模型中,本文模型在3個(gè)指標(biāo)上都最優(yōu),準(zhǔn)確率達(dá)到了95.25%,比CNN、BiGRU、BiLSTM模型分別提高了2.48%、1.42%、1.35%;相較于不使用對(duì)抗網(wǎng)絡(luò)的本文模型,準(zhǔn)確率提高了0.9%。采用數(shù)據(jù)集二進(jìn)行仿真得表3。從表3可以看出,在領(lǐng)域差別較小的數(shù)據(jù)中,本文提出的模型在3個(gè)指標(biāo)數(shù)上依舊高于其他模型,準(zhǔn)確率達(dá)到了93.61%,比CNN、BiGRU、BiLSTM分別提高了1.75%、1.5%、0.94%;與剔除對(duì)抗部分的模型相比,準(zhǔn)確率提升了0.4%。說(shuō)明即使在領(lǐng)域較為相近的數(shù)據(jù)中,使用對(duì)抗網(wǎng)絡(luò)的本文模型依舊能保持較好的準(zhǔn)確率。在Recall方面,使用對(duì)抗網(wǎng)絡(luò)的模型要高于無(wú)對(duì)抗網(wǎng)絡(luò)的模型,這一點(diǎn)在領(lǐng)域差別較大的數(shù)據(jù)集一上更為明顯,比無(wú)對(duì)抗的模型提高了2.1%。
表2 數(shù)據(jù)集一實(shí)驗(yàn)結(jié)果Tab.2 experimental result of data set 1 %
綜合而言,本文提出的模型在多領(lǐng)域情感分類任務(wù)中有較好的性能,且在領(lǐng)域差別較大的數(shù)據(jù)集中表現(xiàn)要好于領(lǐng)域差別小的數(shù)據(jù)集,說(shuō)明加入對(duì)抗網(wǎng)絡(luò),可以提升在多領(lǐng)域情況下的情感分類性能。同時(shí),本文提出的CNN-PPP模型在兩個(gè)數(shù)據(jù)集上的表現(xiàn)均好于普通CNN,且接近于復(fù)雜度更高的BiGRU模型。
表3 數(shù)據(jù)集二實(shí)驗(yàn)結(jié)果Tab.3 experimental result of data set 2 %
通過(guò)代表體驗(yàn)型商品的數(shù)據(jù)集一和代表搜索型商品的數(shù)據(jù)集二上實(shí)驗(yàn)數(shù)據(jù)的縱向?qū)Ρ?,可以發(fā)現(xiàn):即使領(lǐng)域跨度較大,體驗(yàn)型商品上各模型的總體準(zhǔn)確率依舊要高于搜索型商品,這可能是由于產(chǎn)品屬性的不同導(dǎo)致了在線評(píng)論特征的差異化。
由上面的結(jié)果看出,本文模型在不同領(lǐng)域跨度的數(shù)據(jù)集上表現(xiàn)有所差異,總損失函數(shù)由情感分類器損失函數(shù)與領(lǐng)域鑒別器損失函數(shù)組成,二者各自占有一定比重,在模型中以超參數(shù)β來(lái)調(diào)節(jié)。圖6和圖7分別展現(xiàn)了不同β取值下情感分類器與領(lǐng)域鑒別器的準(zhǔn)確率。從圖6可以看出,在數(shù)據(jù)集一上,當(dāng)β取值為0.01時(shí),情感分類器的準(zhǔn)確率最高,此時(shí)的情感分類器準(zhǔn)確率高于95%;領(lǐng)域鑒別器準(zhǔn)確率低于60%,基本無(wú)法鑒別特征來(lái)自哪個(gè)領(lǐng)域。此時(shí)CNN-PPP模型提取到的特征與領(lǐng)域關(guān)聯(lián)度較低,達(dá)到了模型預(yù)想的結(jié)果。從圖7可以看出,在β取值為0.01時(shí),情感分類器準(zhǔn)確率較高,但是此時(shí)領(lǐng)域鑒別器準(zhǔn)確率在70%左右,高于數(shù)據(jù)集一上的60%。這可能是數(shù)據(jù)集二上平板和計(jì)算機(jī)兩類商品領(lǐng)域很接近所致。而當(dāng)β取值為0.001時(shí),數(shù)據(jù)集一和數(shù)據(jù)集二上領(lǐng)域鑒別器的準(zhǔn)確率都較高,情感分類器的準(zhǔn)確率則較差,此時(shí)對(duì)抗網(wǎng)絡(luò)對(duì)于多領(lǐng)域數(shù)據(jù)的優(yōu)勢(shì)難以發(fā)揮。
在物流與互聯(lián)網(wǎng)大發(fā)展的今天,傳統(tǒng)購(gòu)物平臺(tái)與視頻平臺(tái)的邊界日益模糊,逐漸發(fā)展成你中有我,我中有你的態(tài)勢(shì)。商品類型日益豐富,但是質(zhì)量卻參差不齊,時(shí)常出現(xiàn)“金玉其外,敗絮其中”的現(xiàn)象,平臺(tái)也往往缺乏有效的監(jiān)管。從情感角度分析在線評(píng)論文本乃至彈幕文本,輔助進(jìn)行質(zhì)量監(jiān)測(cè),是一項(xiàng)具有實(shí)際意義的研究。
圖6 數(shù)據(jù)集一分類器準(zhǔn)確率Fig.6 Classifier accuracy of data set 1
圖7 數(shù)據(jù)集二分類器準(zhǔn)確率Fig.7 Classifier accuracy of data set 2
情感分類任務(wù)領(lǐng)域性較強(qiáng),傳統(tǒng)情感模型在跨領(lǐng)域或者涉及多領(lǐng)域的情況下效果不佳,而遷移學(xué)習(xí)的方法本質(zhì)上仍需根據(jù)新的標(biāo)簽數(shù)據(jù)對(duì)模型進(jìn)行重新訓(xùn)練,難以應(yīng)對(duì)直播電商等要求的實(shí)時(shí)質(zhì)量監(jiān)測(cè)任務(wù)。本文提出一種適用于多領(lǐng)域的情感分類模型,旨在提升多領(lǐng)域混合情況下文本情感分類準(zhǔn)確率,應(yīng)對(duì)諸如電商平臺(tái)商品質(zhì)量監(jiān)測(cè)、風(fēng)險(xiǎn)預(yù)警等涉及領(lǐng)域廣、實(shí)時(shí)性要求高的情景。首先通過(guò)BERT模型獲得字詞的初始詞向量表征;其次,通過(guò)對(duì)抗網(wǎng)絡(luò)進(jìn)行領(lǐng)域無(wú)關(guān)特征的提取,通過(guò)雙向LSTM進(jìn)行上下文特征的提??;最后將兩個(gè)特征融合進(jìn)行情感分類,通過(guò)加入梯度反轉(zhuǎn)層實(shí)現(xiàn)對(duì)抗網(wǎng)絡(luò)的端到端訓(xùn)練。在公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文模型能提高多領(lǐng)域情況下情感分類準(zhǔn)確率。