郭宇奇,查文斌,李 斌,劉冬梅
(交通運(yùn)輸部公路科學(xué)研究院,北京 100088)
一般將出行者的滿意度和情感傾向定義為:其在出行過程中在多大程度上對(duì)所采取的交通出行方式的服務(wù)水平持積極或者是消極態(tài)度。
春運(yùn)期間,旅客出行集中,運(yùn)輸需求旺盛,服務(wù)保障任務(wù)繁重。為及時(shí)了解旅客的春運(yùn)出行體驗(yàn)和服務(wù)需求,更好地掌握春運(yùn)期間旅客出行規(guī)律,進(jìn)一步做好春運(yùn)工作,以在線問卷調(diào)查為基礎(chǔ),以大數(shù)據(jù)技術(shù)為支撐,認(rèn)真分析廣大旅客春運(yùn)期間的服務(wù)體驗(yàn)感受與意見建議,挖掘旅客對(duì)某種交通出行方式及其配套設(shè)施、運(yùn)營(yíng)狀態(tài)服務(wù)水平的滿意度和情感傾向,客觀評(píng)估政府部門春運(yùn)工作服務(wù)舉措的實(shí)施效果,為進(jìn)一步改進(jìn)和提升春運(yùn)服務(wù)工作提供基礎(chǔ)支撐。本研究通過春運(yùn)期間對(duì)旅客出行體驗(yàn)調(diào)查問卷的開放性問題中所收集的文本數(shù)據(jù)進(jìn)行深度挖掘與分析,獲取了出行者的滿意度和情感傾向,并進(jìn)一步分析識(shí)別出了不同地域的旅客在春運(yùn)期間所關(guān)注的不同熱點(diǎn)問題。
從文本數(shù)據(jù)中獲取旅客的情感傾向,目前主要有基于機(jī)器學(xué)習(xí)和基于詞典兩種方法?;跈C(jī)器學(xué)習(xí)的方法需要從整體數(shù)據(jù)中選取部分?jǐn)?shù)據(jù)進(jìn)行人工標(biāo)注,以得到情感傾向分別為“正向”和“負(fù)向”的標(biāo)注數(shù)據(jù)作為訓(xùn)練集。利用機(jī)器學(xué)習(xí)算法進(jìn)行情感分析常用的特征選擇方法有詞頻過濾方法、文檔頻次方法、TF-IDF方法、互信息法等[1-3]。但在具體的應(yīng)用中存在如下缺點(diǎn):(1)由于中文語句存在結(jié)構(gòu)復(fù)雜和語義多變等特點(diǎn),導(dǎo)致在特征選擇中存在詞性、主題、位置、句法結(jié)構(gòu)、專業(yè)詞庫(kù)等[4]諸多干擾因素。(2)機(jī)器學(xué)習(xí)后續(xù)模型與算法的有效性過于依賴數(shù)據(jù)集的規(guī)模,且訓(xùn)練模型的數(shù)據(jù)都需要人工標(biāo)注。(3)在文本數(shù)據(jù)規(guī)模特別大的情況下,機(jī)器學(xué)習(xí)方法就顯得有些繁瑣且不能保證模型有很高的準(zhǔn)確率。而相比較之下基于詞典的情感分析方法只要能獲得覆蓋面廣、質(zhì)量高的情感詞典,結(jié)合語義規(guī)則就能得到相對(duì)滿意的結(jié)果。
所謂基于詞典的方法,就是情感分析依賴于文本情感詞典和句法規(guī)則,根據(jù)情感詞的極性和權(quán)值通過加權(quán)求和的方法得出單個(gè)語句的情感值進(jìn)而獲得整個(gè)文本的情感值,情感詞典包括基礎(chǔ)情感詞典和領(lǐng)域情感詞典,是情感分析的基礎(chǔ)?;谇楦性~典的情感分析重點(diǎn)在于情感詞典的構(gòu)建和語句分析規(guī)則的制定,國(guó)內(nèi)馮超等[5]提出一種基于詞向量相似度的半監(jiān)督情感極性判斷算法(Sentiment Orientation From Word Vector,SO-WV)作為構(gòu)建領(lǐng)域詞典的基礎(chǔ)??讉タ〉萚6]提出基于HowNet的語義相似度計(jì)算方法,結(jié)合基準(zhǔn)詞構(gòu)建領(lǐng)域情感詞典。嚴(yán)仲培等[7]提出一種基于詞向量的情感詞典基準(zhǔn)詞集篩選方法,并利用詞語互信息的SO-PMI詞傾向算法構(gòu)建領(lǐng)域情感詞典。劉鑫磊等[8]針對(duì)領(lǐng)域情感詞來源于分詞后的領(lǐng)域文本數(shù)據(jù),提出基于TF-IDF的方法篩選候選情感詞,過濾掉分詞切分出來的無效詞語,得到具有很好的類別區(qū)分能力詞或短語作為構(gòu)建情感詞典的基礎(chǔ)。楊玉凡等[9]提出由上下文中的詞語以及組成詞語的字的信息、句子的情感極性信息、標(biāo)記的種子詞的情感極性信息3部分組成一種新詞向量學(xué)習(xí)模型。李華等[10]提出基于HowNet的改進(jìn)語義傾向度計(jì)算方法,算法顯示具有較高的語義傾向識(shí)別準(zhǔn)確率,但不適用于HowNet未登錄詞的語義傾向判別。於偉[11]提出利用BTM文本主題模型去挖掘候選情感詞,利用詞聚類的方法選擇基準(zhǔn)詞,在此基礎(chǔ)上利用改進(jìn)的SO-PMI算法構(gòu)建領(lǐng)域情感詞典。王志濤等[12]提出了基于統(tǒng)計(jì)信息的情感詞挖掘,滿足字串頻數(shù)、內(nèi)部耦合度、鄰字集信息熵3個(gè)統(tǒng)計(jì)信息閾值的詞作為候選情感詞,并用點(diǎn)互信息(Point-wise Mutual Information,PMI)對(duì)候選情感詞進(jìn)行情感識(shí)別進(jìn)而構(gòu)建領(lǐng)域情感詞典。趙妍妍等[13]使用表情符做基準(zhǔn)提升最終構(gòu)建的領(lǐng)域情感詞典的規(guī)模,改進(jìn)了使用情感詞語作為基準(zhǔn)詞來構(gòu)建領(lǐng)域情感詞典時(shí)其規(guī)模有限的不足。國(guó)外Baccianella等[14-15]基于WordNet構(gòu)建了其相關(guān)領(lǐng)域普遍認(rèn)可的SentiWordNet基礎(chǔ)情感詞典,但對(duì)特定領(lǐng)域的情感詞適應(yīng)性不強(qiáng)。Cruz等[16]提出基于Window Size Algorithm算法對(duì)候選情感詞進(jìn)行篩選,即在經(jīng)過TreeTagger算法處理后的語料中距離基準(zhǔn)詞K個(gè)距離的形容詞/名詞作為候選情感詞;然后基于統(tǒng)計(jì)測(cè)度和概率測(cè)度的兩種算法計(jì)算候選情感詞的情感傾向并以此構(gòu)建領(lǐng)域情感詞典。此外,文獻(xiàn)[17-19]在相關(guān)方面也進(jìn)行了研究。綜上所述,基于詞典的文本情感分析主要圍繞基準(zhǔn)詞的選取和在基準(zhǔn)詞的基礎(chǔ)上構(gòu)建領(lǐng)域情感詞典開展研究,雖然構(gòu)建領(lǐng)域情感詞典的方法比較成熟,然而對(duì)基礎(chǔ)情感詞典的構(gòu)建上涉及不多,所選用的基礎(chǔ)情感詞典的規(guī)模太小,或者是僅僅對(duì)現(xiàn)有基礎(chǔ)情感詞典做簡(jiǎn)單的整合,缺乏強(qiáng)有力的依據(jù)。
本研究基于情感詞典的方法,在現(xiàn)有的研究成果和分析方法的基礎(chǔ)上,通過基于中國(guó)知網(wǎng)的語義傾向計(jì)算方法整合包括大連理工大學(xué)情感本體詞匯、清華大學(xué)褒貶義詞典、臺(tái)灣大學(xué)簡(jiǎn)體中文情感極性詞典、中國(guó)知網(wǎng)情感詞典及其他個(gè)人研究者整理發(fā)布的詞典在內(nèi)的資源,整合過程以情感本體詞匯為基礎(chǔ),擴(kuò)展基礎(chǔ)情感詞典,構(gòu)建規(guī)模大、覆蓋率高、詞語傾向正確的基礎(chǔ)情感詞典,在領(lǐng)域情感詞典的構(gòu)建上,采用深度學(xué)習(xí)詞向量和支持向量機(jī)結(jié)合的方法,在此基礎(chǔ)上結(jié)合句分析規(guī)則構(gòu)建旅客情感分析模型,并以春運(yùn)大數(shù)據(jù)為實(shí)際對(duì)象,對(duì)旅客的情感進(jìn)行分析和識(shí)別。
基礎(chǔ)情感詞典的構(gòu)建基于中國(guó)知網(wǎng)語義體系,中國(guó)知網(wǎng)是揭示詞語的概念以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù),包括“概念”和“義原”兩個(gè)內(nèi)容。概念由義原組成,一個(gè)詞語可由多個(gè)概念來解釋。
(1)詞語相似度計(jì)算
根據(jù)相關(guān)論述,詞語之間相似度的計(jì)算基于在義原層次體系樹狀結(jié)構(gòu)中兩個(gè)義原與之間的距離。對(duì)于兩個(gè)孤立詞語W1和W2,如果W1有n個(gè)概念:S11,S12,…,S1n,W2有m個(gè)概念:S21,S22,…,S2m;則W1和W2的相似度等于各個(gè)概念之間的相似度最大值,即:
(1)
概念之間的相似度由概念中的4個(gè)組成部分即第一獨(dú)立義原、其他獨(dú)立義原、關(guān)系義原和符號(hào)義原來計(jì)算,公式如下:
(2)
式中,p1,p2分別為兩個(gè)義原;d為p1和p2在義原層次體系中的距離;α為可調(diào)節(jié)參數(shù)。這樣兩個(gè)概念之間的整體相似度計(jì)算公式如下:
(3)
式中,βi(1≤i≤4)為可以調(diào)節(jié)的參數(shù),且有:β1+β2+β3+β4=1,β4≤β3≤β2≤β1。
Sim1(S1,S2)為第一獨(dú)立義原描述式,Sim2(S1,S2)為其他獨(dú)立義原描述式,Sim3(S1,S2)為關(guān)系義原描述式,Sim4(S1,S2)為符號(hào)義原描述式。
(2)詞語傾向性計(jì)算
詞語的傾向性計(jì)算基于基準(zhǔn)詞和詞語之間的相似度。對(duì)于要整合的詞集,需要從中人工選取基準(zhǔn)詞,基準(zhǔn)詞選取的標(biāo)準(zhǔn)為詞與詞之間的相似度很低,同時(shí)每個(gè)詞又能代表極強(qiáng)的情感色彩。詞語褒貶傾向計(jì)算采用文獻(xiàn)[20]提出的計(jì)算公式,如下:
(4)
(5)
Senti(W)=Senti(W1)-Senti(W2),
(6)
式中,k為褒貶詞個(gè)數(shù),每個(gè)基準(zhǔn)詞與候選詞的相似度采用公式(1)進(jìn)行計(jì)算;Senti(W1)為詞W與正向基準(zhǔn)詞集的相似度;Senti(W2)為詞W與負(fù)向基準(zhǔn)詞集的相似度;Senti(W)為詞W的情感傾向,其值表示詞語的傾向強(qiáng)度,大于零表示詞W更接近褒義傾向,小于零表示詞W更接近貶義傾向,γ和β是上述詞傾向計(jì)算模型的超參數(shù),在實(shí)際應(yīng)用中可通過參數(shù)尋優(yōu)提高模型準(zhǔn)確率。
(3)整合詞典
對(duì)除了大連理工大學(xué)情感本體詞匯之外的包括清華大學(xué)褒貶義詞典、臺(tái)灣大學(xué)簡(jiǎn)體中文情感極性詞典等詞典求交集和并集,從交集里人工初步選取40對(duì)基準(zhǔn)詞[20]分別加入正、負(fù)基準(zhǔn)詞集,對(duì)兩個(gè)基準(zhǔn)詞集分別計(jì)算詞與詞的相似度,剔除與其他詞相似度比較大的詞語,重新選擇替補(bǔ)基準(zhǔn)詞,迭代重復(fù)直到基準(zhǔn)詞集里詞與詞的相似度在一定范圍。接下來對(duì)并集里的未登錄詞做舍棄處理,根據(jù)上述詞語褒貶傾向計(jì)算方法,對(duì)登錄詞的傾向進(jìn)行計(jì)算,得到帶有情感傾向的新詞典。并對(duì)以上算法的準(zhǔn)確率進(jìn)行檢驗(yàn),不斷調(diào)整參數(shù)直到符合實(shí)際應(yīng)用標(biāo)準(zhǔn)為止。
最后以大連理工大學(xué)情感詞匯本體為基礎(chǔ),對(duì)于新的詞典里的每一個(gè)詞,如果這個(gè)詞在情感詞匯本體中出現(xiàn),則舍棄;否則就加入情感詞匯本體,最后生成一個(gè)覆蓋面較全的基礎(chǔ)情感詞典。
領(lǐng)域情感詞來源于實(shí)際的文本數(shù)據(jù),本研究根據(jù)結(jié)合詞性和TF-IDF算法進(jìn)行情感詞的提取,其中多數(shù)情感詞屬于中國(guó)知網(wǎng)語義情感詞體系中的未登錄詞,如果采用構(gòu)建基礎(chǔ)情感詞典的方法構(gòu)建領(lǐng)域情感詞典,詞典的準(zhǔn)確率和覆蓋率難以滿足實(shí)際需求?;诖耍狙芯刻岢鼋Y(jié)合深度學(xué)習(xí)詞向量和支持向量機(jī)的方法構(gòu)建領(lǐng)域情感詞典。
(1)深度學(xué)習(xí)詞向量
在詞語是未登錄詞的情況下,一種有效的詞語特征信息表示方法是采用詞向量,詞向量技術(shù)將詞轉(zhuǎn)化成為向量。目前主要有兩種詞向量方法,一種是詞的離散表示,包括獨(dú)熱編碼表示、詞袋表示等,另一種是詞的分布式表示,其基本內(nèi)涵體現(xiàn)為一個(gè)詞語的語義基于它的上下文,上下文相似的詞語,其語義信息也相似。
詞向量用來描述詞語特征時(shí),分布式表示方法相比之下更能保存詞語本身的信息,具有代表性的分布式詞向量學(xué)習(xí)方法NNLM、CBOW、Skip-Gram,其中Skip-Gram根據(jù)目標(biāo)單詞預(yù)測(cè)上下文,CBOW根據(jù)上下文預(yù)測(cè)目標(biāo)單詞。本研究采用基于Hierarchical Softmax的CBOW模型訓(xùn)練詞向量,如圖1所示。與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)語言模型相比,采用了霍夫曼樹來替代從隱藏層到輸出softmax層的映射,霍夫曼樹的所有內(nèi)部節(jié)點(diǎn)就類似之前神經(jīng)網(wǎng)絡(luò)隱藏層的神經(jīng)元。其中,根節(jié)點(diǎn)的詞向量對(duì)應(yīng)我們的投影后的詞向量,而所有葉子節(jié)點(diǎn)就類似于softmax輸出層的神經(jīng)元,葉子節(jié)點(diǎn)的個(gè)數(shù)就是詞的個(gè)數(shù),具體訓(xùn)練過程如下。
圖1 基于Hierarchical Softmax的CBOWFig.1 CBOW based on Hierarchical Softmax
輸入層為Context(w)中2c個(gè)詞的詞向量,最開始初始化的輸入層數(shù)據(jù)可以是詞的獨(dú)熱編碼形式,投影層將輸入層的2c個(gè)詞向量做求和取平均,即
(7)
式中,c為計(jì)算窗口,即某個(gè)詞與上下文相關(guān)的個(gè)數(shù),在訓(xùn)練開始時(shí)人為指定,2c定義為特定詞前后各c個(gè)詞。
輸出層對(duì)應(yīng)一棵以詞頻為權(quán)重構(gòu)造出來的Huffman樹,以詞庫(kù)中的詞作為葉子節(jié)點(diǎn),如果詞庫(kù)中有D個(gè)詞,則有D個(gè)葉子節(jié)點(diǎn)。對(duì)于詞庫(kù)中任意一個(gè)詞,Huffman樹必存在且唯一存在一條從根節(jié)點(diǎn)到詞w對(duì)應(yīng)節(jié)點(diǎn)的路徑,路徑上存在分支,每個(gè)分支看做是一次二分類,分到樹的左邊定義為負(fù)類,分到右邊定義為正類,根據(jù)邏輯回歸模型易知一個(gè)節(jié)點(diǎn)被分到正類的概率如下:
(8)
被分為負(fù)類的概率就等于1-Ppos(θ),θ是一個(gè)向量,對(duì)應(yīng)每個(gè)非葉子節(jié)點(diǎn)的待定參數(shù),每一次分類就產(chǎn)生一個(gè)概率,將這些概率連乘,就可以得到在上下文2c個(gè)詞的情況下,得到特定詞w的概率P(W|Context(w)),如下:
(9)
(10)
(11)
函數(shù)(11)使用隨機(jī)梯度上升法迭代求解,求解過程中并沒有把所有樣本的似然乘起來得到真正的訓(xùn)練集最大似然,僅僅每次只用一個(gè)樣本更新梯度,這樣做的目的是減少梯度計(jì)算量,其參數(shù)梯度如下:
(12)
(13)
參數(shù)更新機(jī)制如下:
(14)
(15)
(2)領(lǐng)域情感詞典構(gòu)建
在經(jīng)過評(píng)估校驗(yàn)得到比較準(zhǔn)確的詞向量模型后,以領(lǐng)域情感詞的詞向量和情感傾向?yàn)榛A(chǔ),結(jié)合SVM支持向量機(jī)構(gòu)建詞分類器,分類結(jié)果為正向和負(fù)向,分類器構(gòu)建流程如圖2所示。在訓(xùn)練過程中,取領(lǐng)域情感詞與情感詞匯本體的交集作為詞分類器的訓(xùn)練數(shù)據(jù),剩余領(lǐng)域詞集作為待分類詞集。在構(gòu)建完詞分類器后,對(duì)分類詞集里的每一個(gè)詞,依據(jù)其詞向量輸入到分類器,得到詞的情感傾向,最后將正向詞和負(fù)向詞合并即得到領(lǐng)域情感詞典,詞的強(qiáng)度采用公式(1)計(jì)算。
圖2 詞分類器訓(xùn)練過程Fig.2 Training process of words classifier
在具備了比較完整的情感詞典之后,結(jié)合詞語和分句搭配規(guī)則就可以對(duì)文本的情感傾向進(jìn)行分析。按照詞組成短語,短語組成句子,句子組成文本的原理,按標(biāo)點(diǎn)符號(hào)對(duì)文本進(jìn)行分句處理,每條語句的情感傾向由分句的情感傾向組成,分句的情感傾向由被修飾的情感詞、句型、詞語組合等關(guān)系決定。
(1)詞修飾規(guī)則
定義程度詞的權(quán)值為D,情感詞的情感值為W,否定詞的權(quán)值采用否定詞的權(quán)值相乘,記為N,經(jīng)過修飾后的情感詞的情感值記為E(W)。當(dāng)程度詞修飾情感詞時(shí),情感詞的傾向E(W)=D×W。當(dāng)否定詞修飾情感詞時(shí),情感詞的傾向E(W)=N×W。當(dāng)程度詞和否定詞同時(shí)修飾情感詞而且程度詞出現(xiàn)在否定詞之前時(shí),情感詞傾向E(W)=N×D×W。當(dāng)程度詞和否定詞同時(shí)修飾情感詞而且程度詞出現(xiàn)在否定詞之后時(shí),情感詞傾向E(W)=0.5N×W。
(2)句型規(guī)則
句子是陳述句,則句子傾向不改變,如果句子中同時(shí)出現(xiàn)反問號(hào)和反問詞,則句子傾向發(fā)生改變,如果句子是感嘆句,則句子情感增強(qiáng),傾向不改變。
(3)句間規(guī)則
句與句之間的關(guān)系可依照表1進(jìn)行分析,以連詞為分界點(diǎn),分為連詞前的分句和連詞后的分句,按連詞出現(xiàn)的情況賦予不同的權(quán)值,比如在轉(zhuǎn)折關(guān)系中,如果句子中只出現(xiàn)轉(zhuǎn)折后接詞,則連詞前權(quán)值為0,連詞后權(quán)值為1,反之亦然。
表1 連詞詞典Tab.1 Conjunction dictionary
本研究采用常規(guī)的人工選取方法對(duì)基準(zhǔn)詞進(jìn)行選取,所選取的基準(zhǔn)詞滿足詞間相似度不大,但又極具情感色彩,選取結(jié)果如表2所示,在此基礎(chǔ)上,利用公式(1)計(jì)算詞的情感傾向并構(gòu)建基礎(chǔ)情感詞典如表3所示。公式(1)中的最優(yōu)參數(shù)組合通過迭代搜索查找,經(jīng)過驗(yàn)證,公式(1)的算法準(zhǔn)確率達(dá)了81.4%。
表2 基準(zhǔn)詞選取Tab.2 Selection of benchmark words
表3 基礎(chǔ)情感詞典Tab.3 Basic emotion dictionary
(1)詞向量模型訓(xùn)練
用google的word2vec詞向量工具構(gòu)建詞向量模型,輸入數(shù)據(jù)為經(jīng)過清洗整理和分詞后的文本語料,每個(gè)旅客的數(shù)據(jù)存儲(chǔ)在一個(gè)列表中,所有旅客的數(shù)據(jù)組成二維列表。詞向量結(jié)果好壞直接影響后續(xù)的文本情感分析,對(duì)此需要有衡量措施來把握詞向量的質(zhì)量,目前常用的衡量措施主要有word analogy 和document classification 兩類,但不局限與此,實(shí)際上,應(yīng)該以所得的詞向量對(duì)于實(shí)際任務(wù)的收益和效果為評(píng)價(jià)標(biāo)準(zhǔn)。對(duì)此,針對(duì)不同參數(shù)組合的詞向量模型,取文本語料與情感詞匯本體的交集一共561個(gè)詞作為評(píng)價(jià)詞向量模型好壞的依據(jù),把該交集按詞性分為正向詞集和負(fù)向詞集,對(duì)正向詞集里的每一個(gè)詞,分別計(jì)算其與正向詞集和負(fù)向詞集里每個(gè)詞的余弦相似度,然后求和取平均值分別作為該詞與正向詞集和負(fù)向詞集的相似度指標(biāo),對(duì)負(fù)向詞集里的每一個(gè)詞做同樣的運(yùn)算。
如果詞向量模型精度足夠應(yīng)用于實(shí)際任務(wù)中,那么每個(gè)詞對(duì)于其原生詞集相似度指標(biāo)必然大于其對(duì)應(yīng)于詞性對(duì)立詞集的相似度指標(biāo)。事實(shí)上,本研究經(jīng)過訓(xùn)練的詞性量效果完全能滿足實(shí)際應(yīng)用。其中,正向詞向量模型精度檢驗(yàn)如圖3所示;負(fù)向詞向量模型精度檢驗(yàn)如圖4所示。
圖3 正向詞向量模型精度檢驗(yàn)Fig.3 Accuracy test of positive word vector model
圖4 負(fù)向詞向量模型精度檢驗(yàn)Fig.4 Accuracy test of negative word vector model
(2)SVM詞分類器訓(xùn)練
詞分類器訓(xùn)練數(shù)據(jù)采用文本語料與情感詞匯本體的交集,針對(duì)訓(xùn)練過程中出現(xiàn)的數(shù)據(jù)集類別不均衡,數(shù)據(jù)集數(shù)量不充足的問題,本研究采用SMOTE算法進(jìn)行處理,在此基礎(chǔ)上進(jìn)行模型的訓(xùn)練,模型的輸入為每個(gè)詞的詞向量,輸出標(biāo)簽為1和-1,分別代表“正向”和“負(fù)向”,如表4所示。SVM的詞分類器參數(shù)尋優(yōu)過程如圖5和圖6所示,最后確定參數(shù)值C=355,gamma=1,核函數(shù)=“rbf”,經(jīng)過驗(yàn)證,SVM分類器精度高達(dá)90.7%。
表4 訓(xùn)練數(shù)據(jù)Tab.4 Training data
圖5 詞分類器超參數(shù)尋優(yōu)Fig.5 Hyper parameter optimization of word classifier
圖6 詞分類器核函數(shù)選擇Fig.6 Kernel function selection of word classifier
為了更好地了解春運(yùn)期間旅客的需求,以便為旅客提供更好地服務(wù)、提高服務(wù)質(zhì)量與水平。2018年春運(yùn)大數(shù)據(jù)調(diào)查問卷設(shè)置了開放性試題,其題目為:“您對(duì)春運(yùn)服務(wù)還有哪些建議?”;旅客可以結(jié)合自己的實(shí)際情況進(jìn)行留言,最終共收集到20余萬條旅客建議。
針對(duì)收集到的旅客建議,通過整合基礎(chǔ)情感詞典和領(lǐng)域情感詞典,結(jié)合句法分析規(guī)則,對(duì)2018年春運(yùn)期間旅客的出行服務(wù)體驗(yàn)調(diào)查文本數(shù)據(jù)進(jìn)行傾向性分析。其中,“1”表示積極傾向,“-1”表示消極傾向。在測(cè)試模型精度上,人工選取并標(biāo)注測(cè)試集,輸入模型,最后經(jīng)過3次重采樣自助法驗(yàn)證得出本研究提出的模型平均準(zhǔn)確率達(dá)82%,模型預(yù)測(cè)結(jié)果示例如表5所示。在實(shí)際應(yīng)用中,對(duì)春運(yùn)期間旅客的投訴、建議、看法的情感傾向挖掘可從一定角度客觀地反映出各省份、省各地區(qū)交通運(yùn)輸管理組織工作開展的質(zhì)量和服務(wù)水平,結(jié)合LDA文本主題模型,還可挖掘分析出春運(yùn)期間旅客關(guān)注的熱點(diǎn)問題和運(yùn)輸組織工作不足的地方,本研究選取2018年全國(guó)春運(yùn)客流量前十位的省市為例,對(duì)春運(yùn)期間旅客對(duì)春運(yùn)工作的“正面情感”和“負(fù)面情感”進(jìn)行深度挖掘和分析,繪制出了如圖7所示的旅客情感占比圖。
同時(shí)選取具有典型代表的北京、河南、江蘇、廣東、山東、四川等省份,分別對(duì)6個(gè)省份旅客在2018年春運(yùn)期間出行期間關(guān)注的熱點(diǎn)問題進(jìn)行挖掘分析,具體結(jié)果如表6所示;從分析結(jié)果可以看出,旅客的關(guān)注度主要集中在“購(gòu)票問題”、“安全和服務(wù)”、“高速公路管理”、“行業(yè)監(jiān)管”等方面;其中不同地域、不同省份的旅客所關(guān)注的內(nèi)容有所差別;比如:北京的旅客在樞紐的換乘便利性、購(gòu)票問題、運(yùn)力供需方面以及春運(yùn)期間的安全和服務(wù)關(guān)注度表較高。相比之下,廣東省的旅客廣為關(guān)注春運(yùn)期間相關(guān)部門的監(jiān)管力度、購(gòu)票問題、高速公路管理以及安全和服務(wù)等問題。
表5 模型預(yù)測(cè)結(jié)果Tab.5 Model prediction result
圖7 重點(diǎn)省份的春運(yùn)旅客情感占比分析Fig.7 Analysis of proportion of passengers’ emotion in Spring Festival transport in different provinces
表6 主要省份旅客關(guān)注熱點(diǎn)
Tab.6 Focus of passengers of major provinces
省份熱點(diǎn)內(nèi)容占比/%省份熱點(diǎn)內(nèi)容占比/%北京購(gòu)票問題31.03換乘便利性26.66安全和服務(wù)22.16運(yùn)力供需問題20.16廣東購(gòu)票問題32.1安全和服務(wù)24高速公路管理23.34行業(yè)監(jiān)管力度20.56河南安全、服務(wù)和監(jiān)管33.54運(yùn)力供需問題34.68購(gòu)票問題31.78山東安全和服務(wù)35.6運(yùn)力供需問題33.38購(gòu)票問題31.02江蘇購(gòu)票問題35.38監(jiān)管力度26.44運(yùn)力供需問題19.52安全和服務(wù)18.66四川購(gòu)票問題29.03行業(yè)監(jiān)管力度25.38安全和服務(wù)24.36運(yùn)力供需問題21.23
上述分析結(jié)果基本符合2018年春運(yùn)期間的實(shí)際情況。
本研究結(jié)合自然語言處理、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等技術(shù),基于春運(yùn)期間旅客出行服務(wù)體驗(yàn)調(diào)查大數(shù)據(jù),構(gòu)建了旅客情感分析模型并設(shè)計(jì)了相應(yīng)的模型算法。通過對(duì)2018年實(shí)際春運(yùn)大數(shù)據(jù)的測(cè)試分析結(jié)果可以看出本研究提出的模型能夠應(yīng)用于實(shí)際的春運(yùn)工作中,可有效挖掘和識(shí)別旅客的情感傾向以及關(guān)注的熱點(diǎn),其結(jié)果能夠?yàn)榭陀^評(píng)估相關(guān)部門在春運(yùn)的服務(wù)工作提供重要依據(jù),更為進(jìn)一步提升和改進(jìn)來年春運(yùn)期間旅客出行服務(wù)工作提供基礎(chǔ)支撐。