• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于協(xié)同訓(xùn)練的意圖分類優(yōu)化方法

      2019-05-07 07:50邱云飛劉聰
      現(xiàn)代情報 2019年5期

      邱云飛 劉聰

      摘 要:[目的/意義]針對單純使用統(tǒng)計自然語言處理技術(shù)對社交網(wǎng)絡(luò)上產(chǎn)生的短文本數(shù)據(jù)進行意向分類時存在的特征稀疏、語義模糊和標記數(shù)據(jù)不足等問題,提出了一種融合心理語言學(xué)信息的Co-training意圖分類方法。[方法/過程]首先,為豐富語義信息,在提取文本特征的同時融合帶有情感傾向的心理語言學(xué)線索對特征維度進行擴展。其次,針對標記數(shù)據(jù)有限的問題,在模型訓(xùn)練階段使用半監(jiān)督集成法對兩種機器學(xué)習分類方法(基于事件內(nèi)容表達分類器與情感事件表達分類器)進行協(xié)同訓(xùn)練(Co-training)。最后,采用置信度乘積的投票制進行分類。[結(jié)論/結(jié)果]實驗結(jié)果表明融入心理語言學(xué)信息的語料再經(jīng)過協(xié)同訓(xùn)練的分類效果更優(yōu)。

      關(guān)鍵詞:社交網(wǎng)絡(luò);意圖分類;心理語言學(xué);協(xié)同訓(xùn)練(Co-training)

      DOI:10.3969/j.issn.1008-0821.2019.05.008

      〔中圖分類號〕TP391 〔文獻標識碼〕A 〔文章編號〕1008-0821(2019)05-0057-07

      Abstract:[Purpose/Significance]Aiming at the problems of feature sparseness,semantic ambiguity and mark data insufficiency caused by using single statistical natural language processing technology for intention classification of short text data generated on social networks,a psycholinguistic information based Co-training intention classification method was proposed.[Method/Process]Firstly,in order to enrich the semantic information,the feature dimension was extended by extracting the features of the text while synthesizing the psycholinguistic clues with emotional tendencies.Secondly,aiming at the insufficiency of mark data,two machine learning classification methods(based on the event content expression classifier and the emotional event expression classifier)were used cooperatively for training the model. Finally,the classification was performed by using a voting system of confidence products.[Conclusion/Results]The experimental results show that,by adding psycholinguistic information into the corpus,the cooperative training could provide better classification results.

      Key words:social network;intention classification;psycholinguistic;Co-training

      隨著互聯(lián)網(wǎng)的飛速發(fā)展,人們的生活、交流方式早已和社交網(wǎng)絡(luò)平臺緊緊聯(lián)系在一起。在日常生活中,用戶通過微博平臺發(fā)布簡短信息(例如,Twitter)來表達他們的需求和愿望[1],這會促使網(wǎng)絡(luò)平臺產(chǎn)生大量的用戶數(shù)據(jù)。從這些數(shù)據(jù)中挖掘用戶信息和潛在行為,將使公司企業(yè)或政府部門對用戶進行更準確的定位[2]。因此,正確識別用戶意圖并進行精準分類作為挖掘用戶潛在行為信息的子項目,具有重要意義。

      由于微博平臺對所發(fā)布信息的字數(shù)限制,以及用戶在表述時常使用不標準的習慣用語,使得微博信息常具有碎片化特征[3]。而這些碎片化的短文本數(shù)據(jù)往往不能獲得完整的上下文信息,導(dǎo)致提取出的特征稀疏,從而影響分類效果。同時,由于微博信息即時更新的特性[4],很難在一定時間內(nèi)獲取大量標記數(shù)據(jù),這使得完全依賴于人工標記數(shù)據(jù)的監(jiān)督學(xué)習沒有足夠的覆蓋范圍,無法取得良好的分類效果。鑒于以上兩點問題,如何利用有限的標記數(shù)據(jù)對這些碎片化信息進行高效地意圖分類是這項工作的主要挑戰(zhàn)。

      Hollerit B等人曾指出推文被認為是挖掘用戶意圖的重要來源[5]。因此,本文的研究將針對推文數(shù)據(jù),結(jié)合社會心理學(xué)信息進行特征維度擴展,并采用半監(jiān)督集成方法對少量標記數(shù)據(jù)和大量未標記數(shù)據(jù)進行協(xié)同訓(xùn)練,最終使用置信度乘積的投票制進行分類,以達到更優(yōu)的分類效果。

      目前,尚無研究試圖建立意圖推文的類別。為了建立意圖推文的分類,調(diào)研了大量的推文,并研究了京東、亞馬遜等網(wǎng)絡(luò)購物商城的分類模塊。這里提到購物商城分類的原因是:1)微博用戶在推文中表達的意圖通常與日常生活有關(guān),其中包含大量的生活用品信息;2)購物商城涵蓋廣泛的日常生活用品的優(yōu)惠活動。最后,通過整合兩大網(wǎng)絡(luò)商城的分類模塊,將意圖推文分為以下5類:

      購物(Goods):這個類別主要指商品、時尚和購物分享。它們結(jié)合在一起是因為它們都與商業(yè)意圖和服務(wù)相關(guān)。

      餐飲(Food):這個類別主要與食物、餐廳相關(guān)。通常用戶會在這一類中表示自己的饑餓程度或飲食需求。

      社交通信(Social):這一類別包括聊天、打電話以及發(fā)表個人情緒。這項意圖類別的研究可以了解用戶的心理情緒波動。

      智能互娛(Entertainment):包括娛樂、音樂、游戲等類別。由于它們同屬生活中的娛樂項目被統(tǒng)稱為智能互娛。

      戶外運動(Outside):主要指旅行、運動、看電影等外出行為。

      本文結(jié)構(gòu)安排如下:第一節(jié)指出意圖分類的研究現(xiàn)狀及相關(guān)工作;第二節(jié)介紹使用的關(guān)鍵技術(shù);第三節(jié)給出實驗過程及分析;第四節(jié)給出總結(jié),并對下一步工作進行展望。

      1 相關(guān)工作

      1.1 國內(nèi)外研究現(xiàn)狀

      用戶意圖分類屬自然語言處理范疇,是情感分析與短文本分類下的交叉模塊?,F(xiàn)階段國內(nèi)外對意圖分類的改進研究大致分為以下3種方式:

      一是改進分詞技術(shù)。國內(nèi)的葛達明使用表情符號、新詞與網(wǎng)絡(luò)流行詞語擴充了情感詞典,以達到更優(yōu)的分詞效果[6]。儲濤濤通過降低公有特征詞集的權(quán)重消除多義詞的影響,從而進行更精準的分詞[7]。

      二是改進模型訓(xùn)練中特征向量。對于特征項的改進又可進行如下細分。1)挖掘文本中潛在的表達情緒并結(jié)合語義、語境進行特征維度擴展。國內(nèi)的何炎祥等人將深度學(xué)習模型MCNN與基于表情符號的情感空間映射相結(jié)合,提高了分類能力[8]。Haibo Ding等人結(jié)合多種外部字典對詞語進行分類標注,基于人類需求類別對人類情感進行分類[9]。2)針對文本自身語法規(guī)則和特殊字符的維度擴展。國內(nèi)的趙文清等人提出了一種基于語義規(guī)則的方法,考慮程度副詞、否定詞和表情符號的褒貶分類對文本情感傾向的影響[10]。國外的Sudha Subramani等人使用具有卡方度量的TF-IDF方法作為特征選擇參數(shù),以提高分類精度[11]。3)結(jié)合外部社會行為信息進行的特征維度擴展。國內(nèi)的Wayne Xin Zhao等人從微博中抽取用戶的人口統(tǒng)計信息特征,并結(jié)合lexical-POS的文本特征進行意圖分類[12]。付博等人實現(xiàn)了跨社交平臺的信息關(guān)系連接,提高了意圖識別的效果[13]。國外的Hemant Purohit等人研究危機領(lǐng)域的意圖分類。他使用不同知識來源派生的模式集(類似于規(guī)則前項),來獲得在本地上下文之外的語義,以改善意圖分類的信息語境[14]。

      三是改進分類算法。國內(nèi)的江偉等人將提取的N-gram短語加入到循環(huán)神經(jīng)網(wǎng)絡(luò)詞嵌入層,再用帶注意機制的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)進行學(xué)習分類[15]。Jinpeng Wang等人提出基于圖傳播的半監(jiān)督意圖分類,通過關(guān)鍵字與意圖推文間的正則化關(guān)系建立意向圖進行自學(xué)習(Self-training)[16]。

      以上研究從不同角度對意圖分類進行改進,為本文提供了重要的理論基礎(chǔ)。

      1.2 相關(guān)概念

      意圖推文:最早來自于Chen等人在論壇上關(guān)于意圖帖子定義的討論[17],以及Hollerit等人關(guān)于商業(yè)意圖推文的定義[5]。如果一個句子滿足以下3個條件,就稱這條推文為意圖推文:

      1)至少包含一個動詞;

      2)明確描述用戶執(zhí)行活動的意圖;

      3)以一種可以識別的方式。(Hollerit在研究商業(yè)意圖推文中表明,“可識別”在人工智能和模式識別領(lǐng)域意義為:能夠在一定時間內(nèi)做出決定[5])。

      短文本分類:短文本通常被定義為長度不超過160個字符的文本形式,如微博信息、手機短信、觀點評論等比較短的文本。自動化的短文本分類是一項具有挑戰(zhàn)性的任務(wù)[18-19],目的是自動對用戶輸入的短文本按照給定的分類體系進行分類輸出。短文本通常存在特征稀疏、不遵循語法規(guī)則以及規(guī)模巨大等問題[20],一般在文本預(yù)處理、模型的訓(xùn)練等環(huán)節(jié)中進行優(yōu)化和改進,以提高分類效果。意圖分類的核心問題就是如何對短文本進行高精度的自動分類。

      如圖1所示,短文本分類包括文本預(yù)處理、特征抽取、模型訓(xùn)練、分類預(yù)測等幾個主要環(huán)節(jié)。

      半監(jiān)督學(xué)習:半監(jiān)督學(xué)習是指不依賴外界交互的學(xué)習器,能夠自動地利用未標記數(shù)據(jù)和已標記數(shù)據(jù)來提升學(xué)習性能的學(xué)習方式[21]。在機器學(xué)習領(lǐng)域中,半監(jiān)督學(xué)習作為監(jiān)督學(xué)習和無監(jiān)督學(xué)習的結(jié)合產(chǎn)物,在只有少量標記數(shù)據(jù)集的問題上,對于減少數(shù)據(jù)標注代價、提高學(xué)習性能有重大意義。近年來,半監(jiān)督學(xué)習在分類方法上的研究越來越多。

      Co-training:它是目前分類任務(wù)中最常見的半監(jiān)督集成學(xué)習方法,又稱協(xié)同訓(xùn)練方法。在半監(jiān)督學(xué)習研究的早期,Blum等人提出兩個相互獨立且充分冗余的視圖通過協(xié)同訓(xùn)練方法可以提高分類性能[22]。它用已標記數(shù)據(jù)分別在兩個視圖上進行訓(xùn)練學(xué)習,再利用訓(xùn)練好的學(xué)習器對未標記數(shù)據(jù)進行分類預(yù)測,選取置信度較高的類別進行標記,然后將這些偽標記數(shù)據(jù)加入已有的標記數(shù)據(jù)集,重新對分類器進行訓(xùn)練,反復(fù)迭代至兩個學(xué)習器都不再更新為止。該方法為半監(jiān)督學(xué)習開辟了新的分支[23]。

      2 關(guān)鍵技術(shù)

      2.1 數(shù)據(jù)預(yù)處理

      對于有效分析,數(shù)據(jù)預(yù)處理是最重要的步驟,因為它消除了降低分類性能的噪聲。通過結(jié)合數(shù)據(jù)清洗、分詞、去停用詞以及詞語標準化(詞干、詞形還原等技術(shù))對數(shù)據(jù)進行預(yù)處理來獲得高質(zhì)量的信息。

      1)數(shù)據(jù)清洗:用戶在發(fā)布的推文中常會加入一些特殊字符,如“Emoji、@、*、&”等,推文中還會加入一些URL鏈接以及數(shù)字。在對數(shù)據(jù)進行分詞前,要將這些無用的噪聲數(shù)據(jù)剔除。

      2)分詞、去停用詞、標準化:首先,根據(jù)語法習慣,將文本內(nèi)容分成若干單詞。其次,刪除介詞、連詞、代詞等停用詞。例如:一個、他的、然而和因此。接下來,是詞語標準化(即詞形還原)。將單詞形式轉(zhuǎn)換為更有限的規(guī)范形式可以減少詞形對特征提取的影響,從而減少數(shù)據(jù)特征稀疏。

      2.2 特征提取

      特征提取階段是數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的最重要的步驟之一。為提高分類準確度,需提取出更有價值的特征。為解決推文數(shù)據(jù)文本內(nèi)容有限所導(dǎo)致的特征稀疏問題,需對文本數(shù)據(jù)進行特征維度擴展。在以下部分,分別討論了這項工作中使用的兩種不同提取技術(shù)。

      2.2.1 基于事件內(nèi)容的特征提取

      2.3 模型訓(xùn)練

      為解決標記數(shù)據(jù)集不足所導(dǎo)致的分類精度低的問題,提出使用兩種不同的分類器(事件內(nèi)容表達分類器和情感事件表達分類器)分別對已標記數(shù)據(jù)集進行學(xué)習訓(xùn)練的方法,再將兩種分類器進行協(xié)同訓(xùn)練,以獲得最終的分類模型。

      本文研究的意圖分類問題屬多元分類問題。在機器學(xué)習算法中,通常使用MNB(Multinomial Naive Bayes)、LinearSVC(Linear Support Vector Classifier)、KNN(K-Nearest Neighbour)等算法進行多元分類。因此,在分類模型選取上對比使用了以上多種多元分類算法。最終,在實驗驗證的基礎(chǔ)上,得出在事件內(nèi)容表達分類器的分類問題上使用LinearSVC分類器效果可以達到最優(yōu),在情感事件表達分類器上使用MNB算法效果最優(yōu)。

      2.3.1 事件內(nèi)容表達分類器

      在事件內(nèi)容表達分類器中,單獨考慮文本內(nèi)容自身所具有的特征,即使用基于文本內(nèi)容所提取的特征項進行訓(xùn)練。將經(jīng)過數(shù)據(jù)預(yù)處理后的已標記數(shù)據(jù)集傳入事件內(nèi)容表達分類器進行模型訓(xùn)練,訓(xùn)練過程中使用LinearSVC分類算法。

      2.3.2 情感事件表達分類器

      在情感事件表達分類器中,融合了社會心理語言學(xué)知識,即使用基于心理語言學(xué)所提取的特征項進行模型訓(xùn)練。訓(xùn)練過程中使用MNB分類算法。

      2.3.3 Co-training

      由于無監(jiān)督學(xué)習常用的方法是借助領(lǐng)域詞典進行分類,而領(lǐng)域詞典的構(gòu)建需要巨大的開銷,且適用領(lǐng)域范圍小,因此無監(jiān)督學(xué)習在文本分類問題上還沒有得到很顯著的成功。又因社交網(wǎng)絡(luò)數(shù)據(jù)的實時流動性,想要借助監(jiān)督學(xué)習獲取全部的標記數(shù)據(jù)進行分類,難度系數(shù)很大,且分類效果不佳。因此,本文選取了適合處理社交短文本數(shù)據(jù)的半監(jiān)督學(xué)習。近年來,半監(jiān)督的分類方法受到了越來越多的重視[23]。

      上文提出的兩類分類器,單獨使用時都只能表現(xiàn)出較弱的“學(xué)習能力”。因此,為使分類模型具有較高的泛化能力,并進一步提高分類的精度,本文提出使用半監(jiān)督學(xué)習與集成學(xué)習相融合的Co-training算法對上文提出的兩種分類方案進行結(jié)合。Co-training算法是最早出現(xiàn)的半監(jiān)督集成學(xué)習方法[22]。一般而言,通過集成學(xué)習,分類器的性能往往比只使用一個分類器要好[21]。下文對比實驗驗證,將兩類分類器進行協(xié)同訓(xùn)練可以得到更優(yōu)分類結(jié)果。本文采用的Co-training方法具體流程如圖2所示。

      2.3.4 置信度相乘的投票制

      在最終的分類決策上采用基于置信度相乘的投票方法。在使用兩種分類器預(yù)測得到相應(yīng)類別的置信度后,篩選滿足置信度閾值(≥0.5)的項,再將兩類分類器預(yù)測出的相同類別的置信結(jié)果做乘積運算,最終選取置信度乘積分數(shù)最高的類別作為分類的標簽。

      3 實驗設(shè)置

      3.1 實驗數(shù)據(jù)

      對于當前的研究,使用從推特社交平臺提取的推文數(shù)據(jù)。在意圖推文的識別和檢索問題上,采用了Riloff E等人提出的Bootstrapping方法[26]。實驗中共使用了兩類數(shù)據(jù)集確保實驗結(jié)果的真實有效性。第一類是2009下半年的推文數(shù)據(jù),從Jinpeng Wang論文中獲取的已標注的實驗數(shù)據(jù)集[15],該類數(shù)據(jù)集被有經(jīng)驗的標注者進行分類標注,共1 599條,將該類意圖推文數(shù)據(jù)作為已標注數(shù)據(jù)(EL,Labled Data)。第二類是通過網(wǎng)絡(luò)爬蟲技術(shù)爬取的用戶于2018年4月10號23時到24時發(fā)布的推文數(shù)據(jù),共23 601條,該類數(shù)據(jù)作為未標記數(shù)據(jù)(EU,Unlabeled Data)。

      3.2 實驗環(huán)境

      本實驗使用Python3.5版本,在Pycharm2018平臺進行算法實現(xiàn)。基于事件內(nèi)容表達分類器使用Spacy自然語言處理工具包對數(shù)據(jù)進行分詞、標準化等處理,通過調(diào)用Sklearn包中的機器學(xué)習算法SVC進行分類。SVC算法采用線性核函數(shù),通過對比最終的F1-score選取出參數(shù)C(C=1,2,5,10,20,100)的最優(yōu)取值。為確保兩種分類器的充分獨立性基于情感事件表達分類器使用NLTK自然語言處理工具包進行分詞、去停用詞以及標準化等工作,并將LIWC字典提取的特征項融入到文本特征項中,最后通過調(diào)用MNB算法進行分類。

      3.3 實驗步驟

      具體流程:

      1)將已標注數(shù)據(jù)EL采用3倍交叉驗證劃分成訓(xùn)練集和測試集,并將訓(xùn)練集作為兩種分類器的輸入,分別訓(xùn)練兩類分類器;

      2)將未標記數(shù)據(jù)EU分別放入兩類初步訓(xùn)練的分類器中,通過分類預(yù)測得出屬于不同類別的置信分數(shù),過濾掉不滿足置信度閾值的結(jié)果;

      3)在滿足置信度閾值的結(jié)果中,挑選兩種分類器預(yù)測的表示同一類別的置信分數(shù)進行乘積運算,最終采用得分最高的類別標記EU;

      4)將新標記的偽標記數(shù)據(jù)加入EL;

      5)使用最新的EL重新訓(xùn)練兩類分類器;

      6)如此迭代,直至達到最大迭代次數(shù)(I=30),生成最終分類器;

      7)讀取測試集,分別放入兩類分類器,對測試集進行分類預(yù)測,與真實值進行對比,進而求出分類器性能參數(shù)。

      通過實驗結(jié)果可以看出,已有的經(jīng)典算法在長數(shù)據(jù)集上分類表現(xiàn)較好,但在具有嚴重稀疏性的推文數(shù)據(jù)上表現(xiàn)不佳。表4結(jié)果進一步論證了本文算法在處理推文數(shù)據(jù)分類問題上的有效性。

      另外,圖4展示了本文算法在不同迭代次數(shù)下的表現(xiàn)能力。如圖4所示,經(jīng)過30次迭代后,F(xiàn)1-score達到0.84,此時Co-training算法表現(xiàn)最佳。此外,可以看到,迭代次數(shù)小于30時,分類情況并沒有單獨使用事件內(nèi)容表達分類器或情感事件表達分類器的效果好。這是因為實驗標記數(shù)據(jù)集很小、未標記數(shù)據(jù)集巨大,所以我們沒有足夠的數(shù)據(jù)來微調(diào)參數(shù)。但在實驗中我們可以找到一個最佳的停止標準,通過設(shè)定合理的迭代次數(shù)來進一步提高性能。

      4 結(jié)束語

      本文針對社交網(wǎng)絡(luò)所產(chǎn)生的短文本數(shù)據(jù)進行意圖分類的問題,提出了一種基于協(xié)同訓(xùn)練的意圖分類優(yōu)化方法。該方法將基于事件內(nèi)容表達分類器和基于情感事件表達分類器進行協(xié)同訓(xùn)練,并在情感事件表達分類器中融入社會心理學(xué)知識,結(jié)合LIWC字典進行特征維度的擴展,以解決數(shù)據(jù)稀疏性所造成的分類精度低的問題。通過實驗驗證,融入了心理語言學(xué)信息的特征項對模型訓(xùn)練有積極作用。在實驗中,我們分別評估了兩種分類器的獨自的分類性能,又分析了兩種分類器協(xié)同工作的效果,發(fā)現(xiàn)在只有少量標記數(shù)據(jù)集的情況下經(jīng)過Co-training學(xué)習后的分類器提高了單一分類器的分類能力。

      在今后的研究中,將從以下3個方面入手。一是嘗試在基于事件內(nèi)容表達分類器上融合從文本內(nèi)容中提取出的更多有用的特征項(如詞性、表情符號等),以使模型的訓(xùn)練效果更優(yōu)。二是嘗試找到一個更優(yōu)的調(diào)節(jié)迭代次數(shù)的方法,讓分類器可以自動適應(yīng)并設(shè)置迭代次數(shù)。三是針對細粒度分類問題的研究,即結(jié)合應(yīng)用領(lǐng)域知識研究特定領(lǐng)域的分類問題,使該研究課題更具有商業(yè)價值。

      參考文獻

      [1]薛春香,張玉芳.面向新聞領(lǐng)域的中文文本分類研究綜述[J].圖書情報工作,2013,57(14):134-139.

      [2]曹玖新,吳江林,石偉,等.新浪微博網(wǎng)信息傳播分析與預(yù)測[J].計算機學(xué)報,2014,37(4):779-790.

      [3]李伶俐.微博熱的冷思考——兼論微博碎片化的特征及影響[J].新聞愛好者,2011,(9):82-83.

      [4]楊亮,林原,林鴻飛.基于情感分布的微博熱點事件發(fā)現(xiàn)[J].中文信息學(xué)報,2012,26(1):84-90,109.

      [5]Hollerit B,Krll M,Strohmaier M.Towards Linking Buyers and Sellers:Detecting Commercial Intent on Twitter.In WWW,2013:629-632.

      [6]葛達明.基于微博平臺的中文情感分析技術(shù)的研究[D].沈陽:沈陽工業(yè)大學(xué),2017.

      [7]儲濤濤.微博用戶的興趣發(fā)現(xiàn)與意圖識別的研究與實現(xiàn)[D].北京:北京郵電大學(xué),2017.

      [8]何炎祥,孫松濤,牛菲菲,等.用于微博情感分析的一種情感語義增強的深度學(xué)習模型[J].計算機學(xué)報,2017,40(4):773-790.

      [9]Haibo Ding,Ellen Riloff.Human Needs Categorization of Affective Events Using Labeled and Unlabeled Data[C]//Proceedings of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies(NAACL HLT),2018.

      [10]趙文清,侯小可,沙海虹.語義規(guī)則在微博熱點話題情感分析中的應(yīng)用[J].智能系統(tǒng)學(xué)報,2014,9(1):121-125.

      [11]Subramani Sudha,Vu Huy Quan,Wang Hua.Intent Classification Using Feature Sets for Domestic Violence Discourse on Social Media.In Preprint arXiv,2018:1804.03497.

      [12]Zhao X.W,Guo Y,He Y.We Know What You Want to Buy:A Demographic-based System for Product Recommendation on Microblogs.In KDD,2014:1935-1944.

      [13]付博,劉挺.社會媒體中用戶的隱式消費意圖識別[J].軟件學(xué)報,2016,27(11):2843-2854.

      [14]Hemant Purohit,Guozhu Dong,Valerie Shalin,et al.Intent Classification of Short-Text on Social Media.In IEEE,2015.

      [15]江偉,金忠.基于短語注意機制的文本分類[J].中文信息學(xué)報,2018,32(2):102-109,119.

      [16]Jinpeng Wang,Gao Cong,Wayne Xin Zhao,et al.Mining User Intents in Twitter:A Semi-Supervised Approach to Inferring Intent Categories for Tweets.In AAAI,2015.

      [17]Chen Z,Liu B,Hsu M.Identifying Intention Posts in Discussion Forums[C]//Proceedings of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies(NAACL HLT),2013:1041-1050.

      [18]王仲遠,程健鵬,王海勛,等.短文本理解研究[J].計算機研究與發(fā)展,2016,53(2):262-269.

      [19]張群,王紅軍,王倫文.詞向量與LDA相融合的短文本分類方法[J].現(xiàn)代圖書情報技術(shù),2016,(12):27-35.

      [20]張倩,劉懷亮.一種基于半監(jiān)督學(xué)習的短文本分類方法[J].現(xiàn)代圖書情報技術(shù),2013,(2):30-35.

      [21]周志華.機器學(xué)習[M].北京:清華大學(xué)出版社,2016.

      [22]Blum A,Mitchell T.Combining Labeled and Unlabeled Data with Co-training[C]//Proceedings of the 7th Conference on Computational Learning Theory(COLT),2000:92-100.

      [23]蔡毅,朱秀芳,孫章麗,等.半監(jiān)督集成學(xué)習綜述[J].計算機科學(xué),2017,44(S1):7-13.

      [24]J W Pennebaker,R L Boyd,K Jordan.The Development and Psychometric Properties of Liwc2015,Tech.Rep.,2015.

      [25]James W Pennebaker,Roger J Booth,and Martha E Francis.Linguistic Inquiry and Word Count:LIWC2007.Austin,TX:Liwc.net,2007.

      [26]Riloff E,Wiebe J,Wilson T.Learning Subjective Nouns Using Extraction Pattern Bootstrapping[C]//Proceedings of Conference on Computational Natural Language Learning(CoNLL),2003:25-32.

      [27]徐禹洪,黃沛杰.基于優(yōu)化樣本分布抽樣集成學(xué)習的半監(jiān)督文本分類方法研究[J].中文信息學(xué)報,2017,31(6):180-189.

      (責任編輯:陳 媛)

      荔浦县| 岫岩| 公安县| 栾城县| 开原市| 宁远县| 绍兴市| 分宜县| 浪卡子县| 九江县| 禄劝| 泰和县| 锡林郭勒盟| 克什克腾旗| 巴东县| 鲜城| 文昌市| 乡宁县| 河曲县| 咸宁市| 苏尼特左旗| 河曲县| 绥化市| 唐山市| 太湖县| 石首市| 靖西县| 英吉沙县| 区。| 天等县| 拜泉县| 扬中市| 特克斯县| 阿克苏市| 河间市| 乌兰县| 许昌县| 长乐市| 盘锦市| 清镇市| 西城区|