楊 穎,王 珺 ,王 剛
1.合肥工業(yè)大學 管理學院,合肥 230009
2.過程優(yōu)化與智能決策教育部重點實驗室,合肥 230009
隨著電信業(yè)的飛速發(fā)展,運營商所提供的終端服務越來越豐富,客戶對服務質量的要求也逐步增高,從而導致了客戶投訴量的不斷增大[1]。運營商需對每條客戶投訴進行處理,而處理投訴中最重要的一步則是對投訴原因進行定位??焖贉蚀_地找到投訴原因后才能及時給出有效的解決方案。投訴原因定位是一個典型的分類問題。采用傳統(tǒng)的人工分析的方式進行客戶投訴處理人力成本高[1],處理效率低下且存在較高的誤判率[2]。而投訴處理的結果和及時性都對客戶滿意度有著重要影響[3]。為了準確定位投訴原因,需對客戶投訴中大量的通訊狀態(tài)和投訴文本構成的高維數(shù)據(jù)進行處理。高維數(shù)據(jù)的處理已經(jīng)成為一個重要的問題[4]。因此,尋找一種面向高維數(shù)據(jù)的有效分類方法處理客戶投訴非常重要。
隨著機器學習技術的不斷發(fā)展,集成學習方法在高維數(shù)據(jù)分類問題中得到了廣泛的應用[5-6]。集成學習方法主要有兩類:(1)基于數(shù)據(jù)劃分的方法,比如Bagging與Boosting 等;(2)基于特征劃分的方法,比如Random Subspace等[7]?;诩蓪W習方法進行高維數(shù)據(jù)分類的主要思想是通過生成多個特征子集,在特征子集中生成多個基分類器,最終合成多個基分類器的結果為最終的分類結果。因此集成學習能夠靈活地應對高維數(shù)據(jù)問題[8],并且集成學習方法通過其集成策略,合成了不同基分類器所提供的互補的信息,準確率往往優(yōu)于單個分類器效果[9-12]。在客戶投訴文本包含大量特征的情況下,可能存在特征的冗余或是不相關等問題,在原特征空間中構建的分類器往往沒有在特征子集中構建的分類器效果好[13-14],所以Random Subspace 相比于其他集成方法更加適用于高維的客戶投訴分類問題。
在集成學習方法中,不同基分類器的選擇與不同的集成策略均會對分類結果有著重要的影響[15]。在基分類器的選擇上,決策樹(Decision Tree,DT),支持向量機(Support Vector Machine,SVM),K-近鄰(K-Nearest Neighbor,KNN)等均是具有代表性的常用分類器[16]。在集成策略的選擇上,應用最廣泛的則是主投票法[17]和加權融合法。但是主投票法對不同的基分類器不加區(qū)分,無法有效利用不同分類器所提供的互補信息。加權融合法通常使用基分類器的準確度作為權重來區(qū)分不同分類器進行結果合成[18]。但由于權重可來源于不同角度,僅使用準確度作為權重進行融合的有效性不強。并且在較為復雜的分類問題中,由于所能獲取特征的有限性,基分類器產(chǎn)生的結果往往是不確定的,而主投票法與加權融合法均缺乏此類不確定信息融合的能力。證據(jù)推理方法具有較好的不確定信息融合能力,并被運用到多分類器融合中[11]。然而證據(jù)推理方法忽略了多個分類器結果之間可能存在的信息沖突。當基分類器的結果完全沖突時,集成分類的結果可能會變差。
為有效提高客戶投訴的分類準確性,本文提出一種基于改進的Random Subspace 的客戶投訴方法。該方法綜合考慮電信客戶投訴中的文本特征和通訊狀態(tài)特征,借鑒集成學習中的Random Subspace方法解決高維數(shù)據(jù)問題。由于SVM已經(jīng)在投訴領域得到了廣泛的應用并被證明具有較好的分類性能[2,19],使用SVM為所提方法中的基分類器。同時,為了彌補當前集成策略的不足,提出一種基于證據(jù)推理規(guī)則的集成策略對Random Subspace 方法進行改進。證據(jù)推理規(guī)則是基于證據(jù)理論所提出的一種同時考慮證據(jù)的權重與可靠性的可用于不確定信息融合的有效框架[20]。使用證據(jù)推理規(guī)則融合基分類器結果時將不同基分類器的分類結果視為證據(jù),將其分類準確率視為證據(jù)可靠性和初始權重,并通過訓練模型獲取證據(jù)的最優(yōu)權重,從而有效應對不同分類器結果之間的沖突以及結果的不確定性,提升集成學習模型的性能。最后,采用某電信公司的歷史投訴工單對所提方法進行了驗證并與其他方法進行了比較。結果顯示,相比于其他集成學習方法,如Bagging和 Adaboost、Random Subspace 的分類性能更強,驗證了Random Subspace在高維數(shù)據(jù)分類中的有效性;相比于其他基分類器,如DT和KNN,使用SVM作為基分類器能夠提供更好的分類效果,驗證了SVM 在客戶投訴分類領域的適用性;而相比于傳統(tǒng)的集成策略,如主投票法與加權融合法,證據(jù)推理規(guī)則對多分類器的融合更加有效,驗證了本文所提的以證據(jù)推理規(guī)則為一種新的集成策略對Random Subspace 方法改進的有效性。即通過在真實投訴工單數(shù)據(jù)上的實驗,所提方法的有效性得到了驗證。
為有效處理客戶投訴問題,本文提出一種基于改進的Random Subspace 的客戶投訴分類方法。該方法主要分為兩部分:第一部分為特征提??;第二部分為模型構建。在特征提取部分,從業(yè)務支持系統(tǒng)中獲取投訴相對應的通訊狀態(tài)特征,從投訴描述中提取相對應的文本特征并進行選擇,共同構成客戶投訴分類的原數(shù)據(jù)集。在模型構建部分,通過隨機采樣,對原數(shù)據(jù)集中的特征進行隨機抽取,生成多個特征子集,并在特征子集中生成SVM 基分類器對客戶投訴進行分類,最后使用證據(jù)推理規(guī)則對多個SVM 基分類器中的輸出結果進行合成,得到最終分類結果。該方法結構圖如圖1所示。
在客戶投訴分類問題中,來自業(yè)務支持系統(tǒng)中的通訊狀態(tài)數(shù)據(jù)和來自投訴工單中的客戶投訴描述文本數(shù)據(jù)均能反映客戶投訴的原因。業(yè)務支持系統(tǒng)對電信網(wǎng)絡的運行狀態(tài)進行了實時監(jiān)控,來自業(yè)務支持系統(tǒng)中的通訊狀態(tài)特征能夠反映客戶投訴時的基站狀況,通訊信號等客觀狀態(tài),而客戶投訴工單中的投訴描述文本則直接反映了客戶投訴的動機。綜合通訊狀態(tài)特征與客戶投訴描述文本特征兩類信息能夠更準確地揭示客戶投訴的原因。
圖1 方法結構圖
通訊狀態(tài)特征可直接從業(yè)務支持系統(tǒng)中獲取,而投訴描述則需要進行文本特征的提取。在本文中,使用向量空間模型表示文本特征。首先使用詞袋模型提取文本特征,然后采用TF-IDF 方法進行特征加權。因此可從投訴描述文本中提取出一系列文本特征,并以TF-IDF值表示文本特征值。由于初始文本特征中有一些與投訴原因無關的特征,因此需進行特征篩選。使用信息增益來進行特征篩選,公式如下:
其中,IG(Y,F)表示各特征的信息增益值,Y為分類結果,y∈Y為所有結果中的某一類結果,F(xiàn)為特征,f∈F為某一特征,E(Y)為結果Y的熵值,E(Y|F)為加入特征F之后結果Y的熵值,p(y)為結果y的邊際密度函數(shù),p(y|f)為加入特征f后y的邊際密度函數(shù)。
狀態(tài)特征,文本特征與分類結果共同構成電信客戶投訴分類問題中的原數(shù)據(jù)集D={(x1,y1),(x2,y2),…,(xn,yn)}。
本文基于改進的Random Subspace 構建客戶投訴分類模型。該模型采用Random Subspace 應對電信客戶投訴數(shù)據(jù)中的高維問題,并通過證據(jù)推理規(guī)則合成多個特征子空間中的SVM 基分類器所提供的分類結果,從而能夠有效利用分類結果之間的互補性,提高分類的準確率。電信客戶投訴分類模型的構建主要分為三部分:第一部分是特征子空間,第二部分是基分類器,第三部分是集成策略。
2.2.1 特征子空間
為了應對高維客戶投訴數(shù)據(jù)中的特征冗余或是不相關等問題,模型構建的第一步則是特征子空間的生成。本文根據(jù)參數(shù)r與參數(shù)S對原數(shù)據(jù)集D={(x1,y1),(x2,y2),…,(xn,yn)}中的特征進行隨機采樣,從而生成多個維度較低的數(shù)據(jù)子集。其中參數(shù)r代表在構造子空間時抽取的特征數(shù)量占原特征空間中所有特征數(shù)量的比例,參數(shù)S代表所構造的隨機子空間的數(shù)量。即,通過特征的隨機采樣共構造出S個特征子空間,每個特征子空間中的特征數(shù)量占原特征空間中特征數(shù)量的比例為r。
2.2.2 基分類器
支持向量機是一種基于結構風險最小化原理的機器學習方法并在客戶投訴領域得到了廣泛的應用,因此本文選用SVM 進行基分類器的構造。SVM 方法的原理是在樣本空間中尋找到一個最優(yōu)超平面將不同類別的樣本進行劃分??蛻敉对V分類中首先需將原始的輸入空間映射到新的特征空間中,然后尋找最優(yōu)分類超平面對投訴數(shù)據(jù)進行分類。
使用SVM尋找最優(yōu)分類超平面問題可以轉化為以下目標函數(shù)的求解問題:
其中,w為法向量,決定了超平面的方向,C為懲罰系數(shù),ξi為非負松弛因子,b為位移項,決定了超平面與原點之間的距離,?(x)為一個非線性隱函數(shù),它將輸入空間映射到一個高維空間中。
將上述問題轉化為其對偶問題:
在問題的求解過程中,需要計算?(xi)T?(xj),即xi和xj映射后的內積運算。此內積運算可通過原輸入空間中的核函數(shù)k(xi,xj)=?(xi)T?(xj)來計算,從而得到最終的決策函數(shù):
其中,αi和b均為常實數(shù),且αk>0,k(xi,xj)核函數(shù)采用徑向基核函數(shù),公式如下:
2.2.3集成策略
為彌補現(xiàn)有集成策略的不足,本文采用證據(jù)推理規(guī)則為一種新的集成策略來合成不同基分類器產(chǎn)生的結果。證據(jù)推理規(guī)則是由Yang等[20]基于證據(jù)理論所提出的一種考慮證據(jù)的權重與可靠性的可用于不確定信息融合的有效框架。使用證據(jù)推理規(guī)則融合基分類器結果時將不同基分類器的分類結果視為證據(jù),將其分類準確率視為證據(jù)可靠性和初始權重,并通過優(yōu)化得到最優(yōu)權重,最終對分類器產(chǎn)生的結果進行融合。
首先,將所有分類結果{y1,y2,…,yN}視為一組相互排斥且可以構成一個完備集的辨識框架,用Θ表示。表示Θ的冪集yN-1},Θ} ,由基分類器s所產(chǎn)生的結果可轉換為如下證據(jù):
其中es表示從第s個基分類器中所得出的分類結果所轉化的證據(jù),pyj,s為該分類器的分類結果取yj的概率。
在證據(jù)推理規(guī)則中,為了避免基分類器結果信息的沖突性,同時考慮證據(jù)的權重和證據(jù)的可靠性進行信息融合。因此,綜合考慮證據(jù)權重w 與證據(jù)可靠性r 的定義一個信度分布函數(shù)如下:
其次,使用證據(jù)推理規(guī)則對S個基分類器所提供的是S條證據(jù)e1,e2,…,eS進行融合,可得到這S條證據(jù)聯(lián)合支持yj的信度函數(shù)定義如下:
經(jīng)過證據(jù)推理規(guī)則,基分類器融合后的結果為{(yj,pyj,e(S)),j=1,2,…,N},模型的最終分類結果則為最大的pyj,e(S)值所對應的類別。
最后,對基分類器的權重進行優(yōu)化。在證據(jù)推理規(guī)則中,證據(jù)的可靠性代表了提供證據(jù)信息源的固有屬性,而證據(jù)的權重則是與其他證據(jù)相比的重要性[20]。使用證據(jù)推理進行多分類器融合時,證據(jù)可靠性可來源于基分類器的準確率。而證據(jù)的初始權重與可靠性相同,均取決于基分類器的準確率。但僅將基分類器的準確率作為證據(jù)的權重存在片面性,無法有效的利用不同基分類器所提供結果之間的互補性。因此,本文將基分類器的準確率作為初始權重,并通過縮小真實分類結果與模型合成的分類結果之間的差距構建訓練模型得到最優(yōu)權重。訓練模型如下:
其中,m為訓練集中的數(shù)據(jù)量。ui為真實分類結果的分布,vi為基分類器結果合成后在不同類別上的概率分布。以二分類為例,若真實分類為y1,模型合成結果為,則ui為(1,0)。vi為。
dE(ui-vi)為ui與vi之間的歐式距離。ws為基分類器的權重。當目標函數(shù)ε最小化時,所有權重達到最優(yōu)。
為了驗證本文所提方法的有效性,使用來自某電信公司技術支持部門的真實投訴工單進行實驗,共計1 433條。其中由質量原因導致的投訴共有801條,由客戶原因導致的投訴共有632 條。投訴工單中包括投訴號碼,投訴時間和投訴地點等客戶信息以及客戶投訴描述文本。根據(jù)投訴工單中的投訴號碼,投訴時間和地點等客戶信息,從業(yè)務支持系統(tǒng)中提取出6個對投訴分類有重要影響的通訊狀態(tài)特征,分別是:干擾區(qū)域、熱點區(qū)域、熱點時段、基站狀況、弱信號區(qū)域和手機制式匹配。干擾區(qū)域用來判斷該投訴地點是否有干擾信號源,熱點區(qū)域用來判斷該投訴地點是否屬于人口密集區(qū)域,熱點時段用來判斷該時段是否屬于人口密集分布時段,基站狀況用來判斷該投訴地點的移動終端所使用的基站是否正常工作,弱信號地區(qū)用來判斷投訴是否來自信號較弱的地區(qū),手機制式匹配用來判斷該投訴手機所采用的制式與當?shù)鼐W(wǎng)絡的最佳制式是否匹配。而客戶投訴描述可直接從工單中提取,描述示例如表1所示。
表1 客戶投訴描述示例
分類問題中常用的指標為分類準確率(Accuracy)、查準率(Precision)、查全率(Recall)和F-measure 值。計算公式如下:
其中,TP為被正確地劃分為正類的樣本數(shù),F(xiàn)P為被錯誤地劃分為正類的樣本數(shù),F(xiàn)N為被錯誤地劃分為負類的樣本數(shù),TN為被正確地劃分為負類的樣本數(shù)。Accuracy則表示所有預測正確的樣本占總樣本的比例,precision 表示被正確預測為正類的樣本占所有被預測為正類樣本的比例,recall 為被正確預測為正類的樣本占實際為正類樣本的比例,F(xiàn)-measure為precision與recall的調和均值。本文使用這4個指標對客戶投訴分類方法的性能進行評估。
為了降低實驗結果的偶然性,使用十折交叉驗證的方式進行實驗。在十折交叉驗證中,首先將數(shù)據(jù)集分成10份,然后輪流將其中9份作為訓練數(shù)據(jù),1份作為測試數(shù)據(jù)進行實驗。在實驗中,首先使用TF-IDF 方法對投訴文本進行特征提取并通過信息增益選取信息增益值前50的文本特征與狀態(tài)特征共同構成客戶投訴分類的原始特征空間。接著使用隨機采樣的方法,對特征進行抽取,構造特征子空間。在特征子空間的構造過程中,子空間數(shù)量參數(shù)S取15,子空間抽取的特征數(shù)量占所有特征數(shù)量的比例(即參數(shù)r)分別取0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9。在各特征子空間中,使用SVM基分類器對客戶投訴進行分類。最終使用證據(jù)推理規(guī)則合成多個SVM 基分類器中的分類結果,并通過訓練優(yōu)化各分類器的權重,從而得到最終的分類結果。
為了進一步驗證本文所提方法的有效性,進行了三組對比實驗。首先,為了驗證所提方法相對于其他集成學習方法在處理高維數(shù)據(jù)時的有效性,將其與Bagging和Adaboost方法進行了對比。接著,為了驗證所提方法中選用SVM 為基分類器的合理性,選用DT,KNN 作為基分類器進行對比實驗,分別稱為RS-DT和RS-KNN方法,即分別采用DT和KNN在隨機生成的子空間中構造基分類器對客戶投訴進行分類,并通過證據(jù)推理規(guī)則將多個分類器中的結果合成,得到最終分類結果。最后為了驗證本文所提的使用證據(jù)推理規(guī)則為一種新的集成策略的有效性,將其與主投票法以及加權融合法這兩個常用的集成策略進行了對比,分別稱為RS-MV 和RS-WAF方法。使用RS-MV進行結果合成時不考慮不同的SVM 基分類器的差異,分類器分別對分類結果進行投票,票數(shù)最多的類別為最終的分類結果。RS-WAF則考慮不同SVM 基分類器的差異性,以分類器的準確率為權重,對其所投的票數(shù)進行加權,加權后票數(shù)最多的類別為最終的分類結果。所有對比實驗均采用相同的數(shù)據(jù)集及特征提取方式進行十折交叉驗證對比結果如表2所示。
表2 不同方法對比結果
觀察表2,可以看出本文所提方法表現(xiàn)良好,在accuracy、precision、recall 以及F-measure 指標上分別取到了 0.861 1,0.868 2,0.881 6 和0.874 9,相比于集成學習方法Bagging和Adaboost,其分類效果最佳。Bagging方法注重的是對樣本的抽取,Adaboost方法更加關注于樣本權值,它們在特征維度沒有過多的處理,在面臨高維數(shù)據(jù)時,它們預測性能弱于Random Subspace。因此,它們的預測準確率低于所提方法。相比于RS-DT和RS-KNN,本文方法在Accuracy,precision,recall 以及F-measure 這4 個指標上均取得了更高的值,具有更好的分類效果。即在Random Subspace 方法下,相比于DT與KNN,使用SVM作為基分類器對客戶投訴進行分類更加準確。并且本文方法優(yōu)于RS-MV 和RS-WAF,RS-WAF優(yōu)于RS-MV,即本文所提的證據(jù)推理規(guī)則在集成效果上優(yōu)于主投票法和加權融合法,加權融合法優(yōu)于主投票法。加權融合法在主投票的基礎上,考慮了不同基分類器的差異性,使得分類準確的基分類器有著更大的權重,從而使得模型準確率相對于主投票法得到了提升。證據(jù)推理規(guī)則考慮了分類器提供的結果自身的可靠性以及分類器之間的最優(yōu)權重,并且具有對不確定信息的融合能力,從而使得模型的準確率高于主投票法與加權融合法,即證據(jù)推理規(guī)則作為一種新的集成策略可有效改進Random Subspace。多組對比實驗共同驗證了本文所提的基于改進的Random Subspace 的客戶投訴分類方法的有效性。
Random Subspace 方法中一個重要的參數(shù)是每個特征子空間中的特征數(shù)量占特征空間中特征數(shù)量的比例r,不同的參數(shù)r對模型精度的影響非常大。在所提方法及對比方法中,分別選取了0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9為參數(shù)r的值對客戶投訴進行分類。不同r值所對應的模型的分類準確率值如圖2所示。
圖2 不同r 值的分類結果
觀察圖2,本文方法、RS-DT、RS-KNN、RS-MV、RSWAF分別在r取0.8、0.7、0.8、0.8、0.8處取得良好的分類精度0.861 1、0.837 4、0.789 3、0.847 2、0.854 3。r值從0.2 到0.9 時,分類準確率一直處于不斷增大的趨勢,最終趨于平穩(wěn),與以往研究趨勢相符。
隨著電信業(yè)的發(fā)展,客戶投訴量迅速上升并且存在大量的通訊狀態(tài)數(shù)據(jù)與投訴文本數(shù)據(jù),依靠傳統(tǒng)的人工分析方式人力成本高,效率低下且存在較高的誤判率。為了高效準確地處理高維的投訴數(shù)據(jù),本文提出了一種基于改進的Random Subspace 的客戶投訴分類方法。該方法綜合考慮客戶投訴過程中的通訊狀態(tài)數(shù)據(jù)與投訴描述文本數(shù)據(jù),采用基于特征劃分的集成學習方法Random Subspace 為基礎,并以SVM 為基分類器,證據(jù)推理規(guī)則為一種新的集成策略對投訴進行分類。使用某電信公司的歷史投訴工單對所提方法進行了驗證。結果顯示,相比于其他集成學習方法,如Bagging和Adaboost,本文方法具有更好的分類效果,相比于其他基分類器,如DT和KNN,本文方法中使用的SVM具有更佳的分類性能,相比于傳統(tǒng)的集成策略,如主投票法和加權融合法,所提方法中使用的證據(jù)推理規(guī)則具有更優(yōu)的融合效果。綜合來看,本文所提的基于改進的Random Subspace的客戶投訴方法可有效對投訴原因進行分類,從而提高客戶投訴處理效率。在進一步的研究中,一方面,需要在更多的數(shù)據(jù)集下對所提方法進行驗證,另一方面,在構造特征子空間時,可采用更加合理的構造方式使得特征提取更優(yōu)從而增強模型分類性能。