• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于主題和關(guān)鍵詞特征的比較文本分類方法

      2021-09-07 00:48:32程家橋蔣翠清
      計算機工程與應(yīng)用 2021年17期
      關(guān)鍵詞:編碼器向量分類

      丁 勇,程家橋,蔣翠清,王 釗

      1.合肥工業(yè)大學(xué) 管理學(xué)院,合肥230009

      2.過程優(yōu)化與智能決策教育部重點實驗室,合肥230009

      比較文本是指表達產(chǎn)品比較或產(chǎn)品特征(屬性)比較含義的一類文本,其承載了用戶的觀點和建議,蘊含了大量的比較信息[1-3]。用戶在論壇中各抒己見,比較信息匱乏的文本占據(jù)論壇用戶生成內(nèi)容中的多數(shù)[4]。相較于產(chǎn)品評論,問答文本(問題和答案)中產(chǎn)品比較信息更為豐富、集中。以汽車問答社區(qū)為例,在問題中,用戶針對汽車整體或部分屬性提問,其中的比較信息以產(chǎn)品整體比較或產(chǎn)品屬性比較的形式存在;在答案中,其他用戶針對提問內(nèi)容進行響應(yīng),回答內(nèi)容甚至擴充問題中比較主體的邊界,獲得更多更有價值的信息,如表1所示。相較于用戶評論,問答文本由多個用戶的觀點組成,不同用戶在提問(回答)時語言習(xí)慣、邏輯不盡相同,并且會存在答案與問題不匹配的情況。因此,如何從問答文本中識別出富含比較信息的問答文本對于競爭產(chǎn)品分析尤為重要。

      表1 問答社區(qū)中問答文本實例Table 1 Examples of Q&A text in Q&A community

      傳統(tǒng)的比較文本分類采用專家自定義規(guī)則和關(guān)鍵字分類模型[5-6],然而基于專家系統(tǒng)的方法存在人工成本高、跨領(lǐng)域效果差、專家知識瓶頸等問題。更有效的方法是構(gòu)建比較文本的分類特征,采用機器學(xué)習(xí)的分類方法實現(xiàn)自動分類[7]。一些研究從詞頻信息、句法結(jié)構(gòu)、情感信息、社交屬性、關(guān)鍵詞等方面構(gòu)建文本分類特征,尚未發(fā)現(xiàn)研究人員在比較文本分類中應(yīng)用主題特征。問答文本中的比較信息多以名詞、形容詞承載,這些詞語以不同的概率隸屬于多個主題,使文本的主題信息在比較文本識別上有較好的區(qū)分度。通過主題挖掘,實現(xiàn)問答文本主題信息的向量化,形成問答文本的主題特征。關(guān)鍵詞已經(jīng)被證明在文本分類、文本聚類、輿情演化等領(lǐng)域行之有效,詞向量技術(shù)使得關(guān)鍵詞更能表征出語義信息,但關(guān)鍵詞的詞向量在特征處理上多采用向量拼接、向量求和的方法。針對簡單拼接、求和導(dǎo)致關(guān)鍵詞語義信息流失甚至產(chǎn)生偏差的問題,本文設(shè)計GRU自編碼器對關(guān)鍵詞向量進行特征提取,保留表征關(guān)鍵詞核心語義的向量特征。

      因此,本文開發(fā)了一種基于主題特征和關(guān)鍵詞特征擴展的比較文本分類方法。在識別問答文本原始特征的基礎(chǔ)上,首次在比較文本分類中添加主題特征;設(shè)計GRU自編碼器處理問答文本的關(guān)鍵詞向量,抽取問答文本的關(guān)鍵詞特征;綜合考慮主題信息和關(guān)鍵詞語義,構(gòu)建問答文本的分類特征,采用分類器自動識別問答文本中的比較文本。實驗選擇汽車領(lǐng)域下的問答文本數(shù)據(jù),驗證了該方法的有效性。

      1 相關(guān)工作

      比較文本識別是競爭產(chǎn)品分析的基礎(chǔ)性工作,從海量的文本中快速、準確識別比較信息豐富的文本,可以保證后續(xù)分析的效果?;谝?guī)則和關(guān)鍵字的方法在傳統(tǒng)的小批量數(shù)據(jù)上行之有效,但在當下數(shù)據(jù)量大而雜的情況下,傳統(tǒng)方法將陷入瓶頸,監(jiān)督學(xué)習(xí)構(gòu)建分類器是當前實現(xiàn)比較文本高效分類的方法之一。監(jiān)督學(xué)習(xí)的重點是特征和分類模型,其中特征決定了模型的上限,如何構(gòu)建一組有效的分類特征將是本文重點研究工作。目前,尚未存在一組成熟、有效的比較文本分類特征,但研究人員在其他研究中定義了相關(guān)的文本分類特征。蔣翠清[8]和Abrahams[9]等在產(chǎn)品缺陷識別中,從語言、情感、社交、關(guān)鍵詞四個方面構(gòu)建分類特征,有效判別了產(chǎn)品評論中是否包含產(chǎn)品缺陷信息;Krishnamoorthy[10]和殷國鵬[11]在評論有用性預(yù)測中,重點分析了語言特征和社會性因素對于文本有用性的影響;在股價預(yù)測中,Li等[12]使用社會情感傾向,實現(xiàn)股價走勢的精準預(yù)測;在虛假評論檢測中,Zhang等[13]構(gòu)建用戶情感和用戶社交兩個非語言特征,提高了虛假評論檢測的效果。

      Blei等[14]提出的LDA(Latent Dirichlet Allocation)在文本挖掘中發(fā)揮了重要作用,越來越多的研究將主題模型用于文本特征擴展中。LDA模擬了用戶生成文本的過程,其基本思想是每篇文檔由不同的主題混合而成,每個主題下又包含一組概率不同的詞。用戶首先確定文檔的主題,再根據(jù)主題選用詞語。張青等[15]引入外部知識庫訓(xùn)練LDA,將最優(yōu)主題下的詞匯擴展到問題文本,提升了問題文本的分類能力。邵云飛等[16]使用LDA對詞向量進行主題粒度的向量擴展,提高了詞向量的主題表征能力。鄭誠等[17]在短文本主題詞擴充的基礎(chǔ)上,選擇文檔主題分布作為文本特征,融合了上下文的主題信息。在問答社區(qū)中,不同用戶針對同一問題發(fā)表意見,其答案也圍繞問題展開,保證了問題和答案的主題一致性。比較文本的特點是文本中包含不同產(chǎn)品及產(chǎn)品屬性之間的比較分析觀點,例如產(chǎn)品與產(chǎn)品之間比較(“家庭用車,別克英朗與日產(chǎn)軒逸,該如何選擇,注重安全配置和耐用”)和不同產(chǎn)品屬性比較(“相比于卡羅拉,新寶來動力強勁,油耗更低,但卡羅拉空間大,座椅舒適,質(zhì)量更好”)這些比較觀點由一些詞語承載,這些名詞和形容詞將以一定的概率隸屬于某個或某幾個主題,那么文檔的主題概率分布將具有較好的比較文本分類能力。

      關(guān)鍵詞構(gòu)成的特征在不同的文本分類問題下的效果得到了充分驗證,例如社交媒體下的產(chǎn)品缺陷識別、虛假評論檢測等[9,13]。在比較文本分類中,重要性大的詞語同樣可以作為有效的文本分類特征。Word2vec解決了詞袋模型語序缺失和表征向量高維、稀疏的問題,成為關(guān)鍵詞向量表征的通用技術(shù),但詞向量的引入將必不可免地產(chǎn)生高維的特征表示。對于一組關(guān)鍵詞列表,詞向量表征后的關(guān)鍵詞特征處理方法包括向量拼接、向量求和。這兩種方法操作簡單,但向量拼接導(dǎo)致特征維度過大,向量求和缺乏理論指導(dǎo)。自編碼器[18]是一種自學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),通過最小化輸入與輸出之間的誤差實現(xiàn)特征提取,其中編碼器的向量輸出作為輸入的特征向量。Yang等[19]使用稀疏自編碼器(SAE)實現(xiàn)特征的優(yōu)化提取,生成的特征子集有效提高了映射精度;Che等[20]提出一種棧式疊加的變分自編碼器用于文本特征提取,提高了表示學(xué)習(xí)對特征內(nèi)涵的深度挖掘能力;黃煒等[21]設(shè)計稀疏自編碼器提取文本數(shù)據(jù)的隱含特征,解決了涉恐短文本高維、稀疏的問題,提升了主題聚類的效果。循環(huán)神經(jīng)網(wǎng)絡(luò)在文本序列數(shù)據(jù)上應(yīng)用廣泛,相較于SimpleRNN和LSTM,GRU結(jié)構(gòu)簡單,收斂速度更快。

      綜上,基于比較文本分類缺乏有效特征和主題信息未考慮在比較文本特征中的問題,基于向量拼接和向量求和在關(guān)鍵詞向量特征處理上的局限性,本文通過LDA挖掘主題特征和設(shè)計GRU自編碼器提取關(guān)鍵詞向量特征,實現(xiàn)分類特征在主題粒度和關(guān)鍵詞粒度的擴充;通過融合原始特征、主題特征和關(guān)鍵詞特征,構(gòu)建一組有效的比較文本特征集合,實現(xiàn)問答文本中比較文本的高效分類。

      2 比較文本分類方法

      2.1 研究框架

      本文提出了一種從問答文本中識別比較文本的方法,該方法框架如圖1所示。

      圖1 比較文本分類方法框架Fig.1 Framework of comparative text classification method

      (1)問答文本爬取。爬取社區(qū)中問答文本,用于構(gòu)建實驗數(shù)據(jù)集、訓(xùn)練主題模型、領(lǐng)域詞向量。

      (2)文本預(yù)處理。問答文本預(yù)處理包括去重、分詞、去停用詞、去低頻詞、命名實體識別等。

      (3)原始特征識別。根據(jù)問答文本的特點和比較文本分類的需求,構(gòu)建一組問答文本的原始特征。

      (4)主題特征構(gòu)建。使用預(yù)訓(xùn)練的LDA推斷問答文本的主題概率分布并將其作為主題特征,調(diào)節(jié)主題數(shù)量的大小,通過分類器選擇最優(yōu)主題數(shù)量下的主題特征。

      (5)關(guān)鍵詞特征處理。提取問答文本的關(guān)鍵詞并用領(lǐng)域詞向量表征,設(shè)計GRU自編碼器提取關(guān)鍵詞特征并與詞向量拼接、詞向量求和方法比較,選擇最優(yōu)關(guān)鍵詞特征處理方法。

      (6)比較文本分類。通過步驟(3)~(5)確定最終的文本特征,構(gòu)建分類器實現(xiàn)比較文本分類。

      步驟(1)、(2)是中文文本分類中的基礎(chǔ)工作,因此下文將詳細討論原始特征識別、主題特征構(gòu)建、關(guān)鍵詞特征處理和比較文本分類。

      2.2 符號定義

      本節(jié)對涉及到的數(shù)據(jù)集符號和變量進行說明,具體如下:問答文本集合QA_data={QA1,QA2,…,QAm},m為問答文本總數(shù);問答文本QAi={quesi,ans1i,ans2i,…,ansni},n為第i個問題的答案數(shù);在QA_data中選擇答案數(shù)量不為零且問答文本字符數(shù)大于200的問答文本m'條,主題模型預(yù)訓(xùn)練數(shù)據(jù)集Topic_data={QA1,QA2,…,QAp},實驗數(shù)據(jù)集Expirical_data={QA1,QA2,…,QAq},其中p>q,且p+q=m'。

      2.3 原始特征識別

      文本分類特征的有效性隨著場景的變化而變化,其他文本分類中使用的特征無法直接應(yīng)用于問答文本的比較文本識別。本文針對問答文本的特點和比較文本分類的需求總結(jié)出四類原始特征[8-13]。

      (1)語言特征(linguistics)。語言特征反映了用戶詞匯使用和句子撰寫的風(fēng)格和特點,包括不同類型的詞語和句子,是問答文本自帶的內(nèi)部特征之一。問答文本中的比較文本也傾向于使用特定的詞語和句子,因此,本文統(tǒng)計問答文本的總字數(shù)、總句數(shù)等作為其語言特征。

      (2)產(chǎn)品特征(product)。產(chǎn)品特征被定義為描述文本中出現(xiàn)的產(chǎn)品或產(chǎn)品屬性、產(chǎn)品構(gòu)件,在產(chǎn)品缺陷識別中行之有效[8]。當用戶針對不同產(chǎn)品的性能提問時,回復(fù)答案中將會詳細比較這些產(chǎn)品及其屬性,這些比較信息豐富的問答文本中通常會提及到產(chǎn)品和產(chǎn)品屬性。結(jié)合問答社區(qū)用戶關(guān)注熱點及大眾集團的整車特征目錄確定汽車產(chǎn)品一級特征car_features={空間,動力,油耗,操控,舒適性,外觀,內(nèi)飾,價格,故障,安全,配置,維修}。因此,本文選擇問答文本中提及的汽車種類數(shù)、汽車一級特征種類數(shù)等作為其產(chǎn)品特征。

      (3)情感特征(sentiment)。情感特征是對文本情感傾向或?qū)υ~語、句子及整個文檔的總體評價。情感特征直接反映了用戶的態(tài)度,用戶進行產(chǎn)品比較時,情感在表達用戶對各種競爭產(chǎn)品的態(tài)度上至關(guān)重要。因此,本文選擇出問答文本的正負情感詞數(shù)及程度副詞的數(shù)量作為其情感特征。

      (4)社交特征(social)。問答社區(qū)的社交特征量化了問題在社區(qū)中受到的關(guān)注。問答社區(qū)中,用戶對不同問題有不同的偏好,某個產(chǎn)品比較的問題可能會吸引大量用戶回答,那么這類問答文本有大概率屬于比較文本。因此,本文選擇出問題的答案數(shù)量作為其社交特征。

      本文從問題和答案兩方面出發(fā),構(gòu)建問答文本初始特征initial_features={Q_linguistics,Q_product,Q_social,A_linguistics,A_product,A_sentiment},其中Q_表示從問題提取的特征,A_表示從答案提取的特征。集成式的特征選擇算法能夠在實現(xiàn)比單個特征選擇方法更好的結(jié)果,隨機森林是其中的代表[22]。本文使用隨機森林對初始特征進行特征選擇,構(gòu)建問答文本原始特征original_features∈initial_features。

      2.4 主題特征構(gòu)建

      比較文本主題特征構(gòu)建主要包括預(yù)訓(xùn)練主題模型、主題推斷及主題特征篩選。使用Topic_data預(yù)訓(xùn)練主題模型得到主題集合LDA,如式(1)所示,主題數(shù)T=[t0,t0+1,…,t1],其中LDAi( )i=T表示不同主題數(shù)下的主題模型。

      通過LDAi(i=T)推斷Expirical_data中QAj(j=1,2,…,q)的主題概率分布,如式(2)所示,其中為QAj中的單詞分配給主題z的次數(shù),為QAj中的單詞分配給除主題z以外主題的次數(shù),α為文檔-主題先驗分布參數(shù)。QAj的主題特征,其中表示第j條問答文本在第i個主題上的概率分布值。

      T越大,單篇問答文本在各個主題上的概率分布值越低,導(dǎo)致主題間差異性降低,產(chǎn)生冗余;T越小,問答文本的主題概率分布將集中于幾個主題,無法使用盡可能多的主題信息。因此,本文采用兩階段的特征選擇方法確定最優(yōu)主題數(shù)。第一,使用隨機森林對主題特征進行初篩,計算各主題特征的重要性VI,如式(3)所示,其中errOOB1為袋外數(shù)據(jù)誤差,errOOB2為各主題特征加入隨機噪聲后的袋外數(shù)據(jù)誤差,Ntree表示樹模型總數(shù);選擇VI>0的主題特征,得其中t0t'1,初篩后的主題特征

      第二,通過分類器確定最優(yōu)主題數(shù)。在original_features中加入,送入分類器選擇最優(yōu)分類效果下的主題數(shù)量tbest,將最優(yōu)主題數(shù)下的主題概率分布作為問答文本的主題特征。

      2.5 關(guān)鍵詞特征處理

      關(guān)鍵詞特征處理過程包括關(guān)鍵詞抽取、領(lǐng)域詞向量訓(xùn)練及GRU自編碼器。選擇TextRank[23]抽取文本關(guān)鍵詞,詞語的中心度S(vi)如式(4)所示。其中,In(vi)為指向vi的節(jié)點集合,Out(vj)為vj所指向節(jié)點的集合,d常取0.85,wji為節(jié)點之間權(quán)重。抽取Expiri cal_data中QAj的關(guān)鍵詞列表,其中k為關(guān)鍵詞數(shù)。

      相較于通用詞向量,領(lǐng)域詞向量在語義表達上效果更優(yōu),可以解決一詞多義問題[24]。QA_data經(jīng)文本預(yù)處理后,采用word2vec訓(xùn)練汽車領(lǐng)域詞向量。KQAj經(jīng)領(lǐng)域詞向量表征為keywords_vecj,如式(5)所示,其中為QAj中第l(l=1,2,…,k)個關(guān)鍵詞的詞向量,w表示領(lǐng)域詞向量維度。

      針對向量拼接、向量求和導(dǎo)致特征高維和信息流失的缺陷,本文設(shè)計GRU自編碼器實現(xiàn)關(guān)鍵詞特征處理,網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。GRU自編碼器由編碼器和解碼器組成,其中編碼器輸出的稠密向量作為keywords_,為保證實驗可比性,其維度與向量求和維度一致。

      圖2 GRU自編碼器網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of autoencoder

      Input首先經(jīng)過Encoder中的GRU層,輸出CODE,Decoder將CODE解碼成Output。自編碼器目標是最小化Input與Output之間的誤差,如式(6)所示。其中?、φ分 別 表 示Encoder和Decoder,(?°φ)Input表 示Output。自編碼器的損失函數(shù)定義為L(input,output)=,其中j為實驗數(shù)據(jù)集大小,k為關(guān)鍵詞數(shù)量,w為領(lǐng)域詞向量的維度。

      Encoder結(jié)構(gòu)包括GRU層和Dense層。對于給定關(guān)鍵詞序列keywords_vecj,GRU在t時刻的更新狀態(tài)如式(7)~(11)所示。

      其中,σ為sigmoid激活函數(shù),zt和rt分別表示GRU的更新門和重置門,Wz、Wr、Wh和Uz、Ur、Uh分別為神經(jīng)元對當前輸入xt的權(quán)重和循環(huán)狀態(tài)輸入的權(quán)重,bz、br、bh為偏置項。GRU層輸出CODE,經(jīng)Dense層得到隱藏 層 輸 出Decoder中GRU層 以CODE為輸入重新生成Output。訓(xùn)練結(jié)束時的h'即為抽取出的關(guān)鍵詞特征。

      綜合主題信息和關(guān)鍵詞語義,從語言、產(chǎn)品、情感、社交、主題、關(guān)鍵詞角度構(gòu)建比較文本分類特征,算法描述如下所示:

      Input:Q&A data{QA},Car features set{C},Hownet Lexicon{S},Pretrained Topic Models set{LDA},Domain word vector set{V},

      Output:Q&A Classifier features{F}

      Function:

      1.{F}={social}

      2.for each question and answer textqa∈QA

      3.Count the numbers of different words aslinguistics

      4.Extractproductfeatures based on{C}

      5.Extractsentimentfeatures based on{S}

      6.Infertopicfeatures based on{LDA}

      7.Extendlinguistics,product,sentiment,topicto{F}

      8.for each keywordkextracted fromqa

      9.GRU-autoencoder extractkeywordfeatures fromk'represented by{V}

      10.endfor

      11.Appendkeywordto{F}

      12.endfor

      2.6 比較文本分類

      在文本分類中,邏輯回歸(LR)、支持向量機(SVM)、決策樹(Decision Tree)、樸素貝葉斯(Na?ve Bayes)等方法應(yīng)用廣泛。此外,集成學(xué)習(xí)通??梢匀〉帽葐蝹€模型更好的分類效果,有助于提高文本分類的性能。集成學(xué)習(xí)方法訓(xùn)練多個基本模型并進行組合,常用的集成學(xué)習(xí)包括Boosting、Bagging和Stacking。因此,本文選擇LR、SVM、Adaboost和RF作為分類器確定最優(yōu)主題數(shù)、選擇關(guān)鍵詞特征處理方法及實現(xiàn)比較文本自動分類。

      3 比較文本分類實驗

      3.1 實驗數(shù)據(jù)

      本文選擇易車網(wǎng)(http://www.bitauto.com)轎車門類下的在線問答社區(qū)作為數(shù)據(jù)來源,爬取了2015年1月至2019年12月419類轎車產(chǎn)品問答版塊下共計811 120個問題及對應(yīng)的1 314 648個答案。這些問答文本經(jīng)文本預(yù)處理后得到問答場景下汽車領(lǐng)域語料,用于訓(xùn)練領(lǐng)域詞向量。在811 120條問答文本中過濾答案數(shù)為零及問答文本字符數(shù)小于200的文本,得到61 599條問答文本。隨機選擇15 000條數(shù)據(jù)進行人工標注,作為本文實驗數(shù)據(jù)集,如表2所示;剩余46 599條問答文本構(gòu)成主題模型語料,用于預(yù)訓(xùn)練主題模型。

      表2 實驗數(shù)據(jù)集Table 2 Experimental data set

      在產(chǎn)品特征構(gòu)建上,需要識別問答文本中的產(chǎn)品名稱。因此,本文還爬取了易車網(wǎng)網(wǎng)站列出的所有汽車產(chǎn)品名稱,考慮中英文及縮寫,構(gòu)建包含1 006個汽車產(chǎn)品名稱的詞典。在情感特征構(gòu)建上,本文使用Hownet情感詞典識別問答文本的情感特征。從語言、產(chǎn)品、社交、情感四個角度識別問答文本初始特征79個,經(jīng)隨機森林特征選擇后,保留29個重要特征作為問答文本的原始特征。

      3.2 評價指標

      采用精確率(Precision,P)、召回率(Recall,R)以及F1值作為評價指標評估比分類效果,各指標計算公式如式(12)~(14)所示:

      其中,TP、FP、TN、FN含義如表3所示。

      表3 混淆矩陣Table 3 Confusion matrix

      3.3 實驗平臺及參數(shù)設(shè)置

      實驗平臺中CPU為Intel Core i5-10300H,GPU為GTX1650,內(nèi)存為16 GB。使用Gensim(https://radimrehurek.com/gensim/)工具對81萬問答語料訓(xùn)練領(lǐng)域詞向量,其中詞向量維度為100,算法選擇Skip-gram。LDA訓(xùn)練中,α=50/K(K為主題數(shù)),β=0.1,T=[5,6,…,50];綜合問答文本長度和關(guān)鍵詞語義表達能力,關(guān)鍵詞數(shù)量k=20。

      GRU自編碼器基于以Tensorflow為后端的Keras(https://Keras.io/)框架,其中參數(shù)設(shè)置如下:GRU層128個神經(jīng)元,Dense層50個神經(jīng)元,優(yōu)化器選擇Adam,學(xué)習(xí)率為0.01。因使用自建數(shù)據(jù)集,本文實驗均進行5折交叉驗證,取平均值作為最終實驗結(jié)果。

      3.4 實驗結(jié)果及分析

      確定最優(yōu)主題數(shù)量是一個兩階段的過程,首先通過特征選擇確定保留下的主題特征數(shù)量,縮小主題數(shù)量的取值范圍;最后通過四種分類器對比實驗,確定最優(yōu)的主題數(shù)量。將29個原始特征與5~50個主題特征一一組合,隨機森林的特征選擇結(jié)果顯示,主題數(shù)量大于10對應(yīng)的主題特征的重要性均小于零,因此,主題數(shù)量進一步縮小為5~10之間。不同主題數(shù)量下的主題特征在LR、SVM、Adaboost、RF上的實驗結(jié)果如圖3所示。

      圖3中實驗結(jié)果表明,原始特征在SVM和RF中F1值均超過0.85,表明構(gòu)建的原始特征在比較文本識別中行之有效,從語言、產(chǎn)品、情感、社交四個角度可以實現(xiàn)對比較文本的初步識別。主題特征的加入可以顯著提升問答文本中比較文本分類效果,加入主題特征比使用原始特征的F1值在LR、SVM、Adaboost、RF四個分類器上分別提升2.9%、1.4%、5.1%、1.6%,平均提升2.75%。在確定主題數(shù)量上,四種算法均在主題數(shù)量適中時取得最優(yōu)F1值。隨著主題數(shù)量的增加,單篇問答文本在各個主題上的概率分布值會減小,導(dǎo)致主題特征稀疏化。當主題數(shù)量設(shè)置為7時,比較文本分類效果最優(yōu)。7個主題下的代表詞(10)如表4所示,根據(jù)主題詞集合,7個主題分別命名為汽車保養(yǎng)、新車優(yōu)惠、提車檢查、汽車推薦、汽車故障、首付貸款、二手車,其中汽車推薦主題下涉及到不同轎車產(chǎn)品及產(chǎn)品屬性之間的比較。7個主題保證了不同主題之間的差異性,并且可以囊括整個問答文本語料中的話題。因此,選擇主題數(shù)量為7的主題特征加入到比較文本分類模型。

      表4 主題數(shù)量為7的主題代表詞Table 4 Topic representative words with 7 topics

      圖3 主題特征實驗結(jié)果Fig.3 Experimental results of topic feature

      關(guān)鍵詞特征向量處理實驗中,抽取出的關(guān)鍵詞用領(lǐng)域詞向量表征,原始特征(29個特征)分別與向量拼接、向量求和及GRU自編碼器提取出的關(guān)鍵詞特征構(gòu)建三個數(shù)據(jù)集,在LR、SVM、Adaboost、RF上的實驗結(jié)果如圖4所示。

      圖4 不同關(guān)鍵詞特征處理方法實驗結(jié)果Fig.4 Experimental results of different keyword feature processing methods

      圖4中實驗結(jié)果表明,在問答領(lǐng)域下的比較文本分類中使用關(guān)鍵詞向量特征可以有效提高文本分類效果,GRU自編碼器提取的關(guān)鍵詞特征比原始特征的F1值在四種分類器中分別提升3.8%、2.0%、2.8%、2.6%。在三種關(guān)鍵詞特征處理方法比較上,四種分類器均在GRU自編碼器上取得最優(yōu)F1值,結(jié)果驗證了GRU自編碼器在多維特征提取上的能力,通過無監(jiān)督的自學(xué)習(xí)方式可以從關(guān)鍵詞特征中學(xué)習(xí)到低維向量表示,該特征向量可以表達出原始關(guān)鍵詞所包含的信息。

      綜上,本文構(gòu)建了一組有效的比較文本分類特征,其包括原始特征(29個特征)、主題特征(7個主題)及關(guān)鍵詞特征(GRU自編碼器),該組特征從問答文本的內(nèi)部視角和語義視角出發(fā),定義了語言、產(chǎn)品、社交、情感、主題、關(guān)鍵詞六大特征,詮釋了比較文本的特點。該組特征在LR、SVM、Adaboost、RF上的分類結(jié)果如表5所示。

      表5 比較文本分類結(jié)果Table 5 Comparative text classification results

      由表5可知,本文構(gòu)建的比較文本特征在LR、SVM、Adaboost、RF上的F1值為別為0.887、0.890、0.858、0.904,相比于原始特征提升5.1%、3.3%、6.2%、4.1%。其中隨機森林F1值最高,且擁有高精確率(0.912);支持向量機F1值次之,但支持向量機召回率(0.908)最高。結(jié)果表明本文提出的主題特征和關(guān)鍵詞特征可以有效擴展現(xiàn)有比較文本分類特征,提升分類性能。

      4 結(jié)語

      本文提出了問答場景下比較文本分類方法,包括構(gòu)建問答文本主題特征、設(shè)計GRU自編碼器進行關(guān)鍵詞特征提取及采用隨機森林實現(xiàn)比較文本高效分類,汽車領(lǐng)域問答社區(qū)中的案例研究驗證了該方法的實用性。同時,本文工作存在一定的局限性,僅在汽車領(lǐng)域驗證了本文方法的有效性。未來研究可以將該方法應(yīng)用于其他領(lǐng)域(如手機、服務(wù)業(yè)等),以驗證其普適性。同時,以識別出的比較文本為基礎(chǔ),之后的研究可以從競爭產(chǎn)品識別、競爭優(yōu)勢分析、用戶滿意度評價等切入點挖掘比較文本的價值。

      猜你喜歡
      編碼器向量分類
      向量的分解
      分類算一算
      聚焦“向量與三角”創(chuàng)新題
      分類討論求坐標
      基于FPGA的同步機軸角編碼器
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      基于PRBS檢測的8B/IOB編碼器設(shè)計
      向量垂直在解析幾何中的應(yīng)用
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
      電子器件(2015年5期)2015-12-29 08:42:24
      迁西县| 鲁山县| 丰镇市| 无锡市| 宁津县| 濮阳市| 图木舒克市| 上虞市| 烟台市| 兴国县| 财经| 福泉市| 理塘县| 从江县| 密山市| 繁昌县| 察隅县| 利辛县| 金平| 大安市| 霍山县| 伊川县| 池州市| 东兰县| 龙州县| 昌图县| 疏附县| 冷水江市| 湘乡市| 方山县| 深圳市| 左贡县| 南平市| 遂昌县| 平和县| 海伦市| 兴城市| 桂平市| 凤台县| 花莲市| 东阿县|