• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      短文本分類技術(shù)研究綜述

      2020-06-09 12:20:59鄧丁朋周亞建池俊輝李佳樂(lè)
      軟件 2020年2期
      關(guān)鍵詞:分類器

      鄧丁朋 周亞建 池俊輝 李佳樂(lè)

      摘 ?要: 短文本由于特征稀疏并且多歧義等特點(diǎn),導(dǎo)致難以對(duì)其進(jìn)行高效的分類。本文首先針對(duì)短文本的特點(diǎn),介紹了短文本分類的研究現(xiàn)狀,其次對(duì)短本文分類涉及到的技術(shù)及相關(guān)理論進(jìn)行了闡述,并對(duì)文本預(yù)處理技術(shù)、Word2vec以及LDA模型等文本表示方法進(jìn)行了重點(diǎn)分析。最后總結(jié)了短文本分類未來(lái)的發(fā)展趨勢(shì)。

      關(guān)鍵詞:?短文本分類;主題建模;分類器;文本表示

      中圖分類號(hào): TP391. 41????文獻(xiàn)標(biāo)識(shí)碼:?A????DOI:10.3969/j.issn.1003-6970.2020.02.030

      【Abstract】:?It is difficult to classify the short text efficiently because of its sparse features and multiple ambiguities.?In this paper, according to the characteristic of short text, this paper introduces the research status quo of short text classification. Second, the classification of involved technology and related theory are expounded, and the text pretreatment technology, Word2vec and LDA model focuses on text representation methods are analyzed. Finally, summarizes the trend of the development of short text classification.

      【Key words】: Short text Classification; Topic modeling; Classifier; Text representation

      0??引言

      隨著社交網(wǎng)絡(luò)的迅速發(fā)展,每秒都會(huì)產(chǎn)生大量的數(shù)據(jù),如Facebook、微博、Twitter、Instagram等[1],這些數(shù)據(jù)通常以短文本的形式出現(xiàn),包含各種用戶相關(guān)信息,如潛在需求、行為、興趣、意圖等。相對(duì)于長(zhǎng)文本,短文本具有特征非常稀疏,并且存在高噪聲、上下文依賴性強(qiáng)等問(wèn)題,導(dǎo)致短文本處理很難達(dá)到人們預(yù)期的要求。

      而如何提取有用的知識(shí)將短文本數(shù)據(jù)應(yīng)用于輔助決策[2]、話題跟蹤[3]、輿情監(jiān)測(cè)[4]、情感分析[5]和個(gè)性化推薦[6]等領(lǐng)域,是解決大數(shù)據(jù)時(shí)代下數(shù)據(jù)難以高效挖掘的途徑之一。同時(shí)新興的知識(shí)抽取技術(shù)也促進(jìn)了計(jì)算語(yǔ)言學(xué)的迅速發(fā)展,如知識(shí)圖譜[7],神經(jīng)網(wǎng)絡(luò)模型[8]等,這也對(duì)基于短文本的數(shù)據(jù)挖掘提供一個(gè)新的研究方向。

      1??國(guó)內(nèi)外研究現(xiàn)狀

      對(duì)短文本進(jìn)行向量化,構(gòu)建合適的文本表示模型,是解決大規(guī)模數(shù)據(jù)環(huán)境下短文本數(shù)據(jù)挖掘的重要手段之一。而由Salton等人提出的向量空間模型(Vector Space Model,VSM)[9],已廣泛應(yīng)用于各領(lǐng)域的詞表示之中,由于VSM把文檔作為一組特征項(xiàng)的隨機(jī)排列,因此也被稱為詞袋模型(Bag of Words, BoW),它通過(guò)把單詞表示成可計(jì)算的向量,大大提高了模型表示的效率,并在實(shí)際應(yīng)用中也取得了不錯(cuò)的效果。

      在過(guò)去幾十年中,VSM模型由于其簡(jiǎn)單、易于使用等特點(diǎn),在普通文本的分類中發(fā)揮著重要的作用,并且取得了不錯(cuò)的效果。但是對(duì)于短文本來(lái)說(shuō),由于樣本所包含的單詞少,并且具有歧義性,導(dǎo)致VSM不再直接適用短文本向量化表示中。近年來(lái),很多學(xué)者都提出了一些巧妙的策略來(lái)構(gòu)建適用于短文本分類的表示模型,挖掘短文本中蘊(yùn)含的潛在信息。第一種觀點(diǎn)是使用基于搜索引擎(Search Engine,SE)的短文本分類方法[10],基于搜索引擎可以生成文本關(guān)鍵詞的集合,并且能夠讓原始特征詞和拓展特征詞之間具有高度相關(guān)性,從而將短文本轉(zhuǎn)化為長(zhǎng)文本進(jìn)行后續(xù)處理,提高分類準(zhǔn)確率。但是這種方式與搜索引擎密切相關(guān),分類結(jié)果的準(zhǔn)確性很大程度上依賴于搜索引擎,并且,分類過(guò)程需要搜索引擎的參與,耗時(shí)長(zhǎng),不能實(shí)現(xiàn)短文本高效、快速地分類。第二種觀點(diǎn)則通過(guò)引入外部數(shù)據(jù)庫(kù),如比較成熟的Wikipedia和CNKI等知識(shí)庫(kù)[11],通過(guò)知識(shí)庫(kù)一方面可以挖掘出單詞之間的語(yǔ)義、語(yǔ)序等關(guān)系,另一方面挖掘出詞語(yǔ)同義詞等信息,用于輔助分類。然而,由于拓展的效果由外部知識(shí)庫(kù)的質(zhì)量決定,對(duì)于知識(shí)庫(kù)中沒(méi)有的關(guān)鍵詞,無(wú)法直接進(jìn)行拓展,并且它的計(jì)算相對(duì)復(fù)雜,計(jì)算量較大,不具備對(duì)大規(guī)模短文本數(shù)據(jù)快速分類的能力。

      在上述研究的基礎(chǔ)上,一些學(xué)者嘗試?yán)酶怕噬赡P蛠?lái)提取短文本的潛在特征,如LSA模型(潛在語(yǔ)義分析)[12]、PLSA模型(概率潛在語(yǔ)義分析)[13]和LDA模型(隱含狄利克雷)[14]。和以往的方法相比,概率生成模型通過(guò)推理策略獲取短文本的主題特征,并將其與文檔的原始特征進(jìn)行融合,從而實(shí)現(xiàn)較好的分類效果。例如,張志飛等人,提出一種基于主題相似度的方法[15],通過(guò)主題相似度判斷實(shí)現(xiàn)分類。Phan,Chen等人,利用LDA模型在Wikipedia上進(jìn)行隱藏主題挖掘[16],通過(guò)挖掘出隱含主題來(lái)完成短文本擴(kuò)展。該擴(kuò)展過(guò)程雖然能夠減少文本稀疏給分類帶來(lái)的影響,但是其耗時(shí)長(zhǎng),分類效果仍取決于所建立語(yǔ)料庫(kù)的質(zhì)量,并且這種模型的構(gòu)建仍然停留在文本層面,沒(méi)有將短文本語(yǔ)義信息考慮到分類模型之中,因此不能大規(guī)模的使用。

      Mikolov等人在2013年提出了計(jì)算詞向量的Word2vec模型[17],作為比較流行的文本建模方法,隨著Google的開(kāi)源,目前也被越來(lái)越多的研究者使用,在分詞[18]、分類[19]、句法依賴分析[20]等領(lǐng)域得到了廣泛的應(yīng)用。如汪靜、羅浪等人提出的基于Word2Vec的中文短文本分類方法[21],通過(guò)引入詞性來(lái)改進(jìn)特征權(quán)重計(jì)算方法,并且在復(fù)旦大學(xué)語(yǔ)料庫(kù)中取得了不錯(cuò)的效果。

      目前針對(duì)短文本分類,文本表示方法正由單一詞向量表示轉(zhuǎn)變成使用語(yǔ)義信息融合、主題模型拓展等方法,一方面通過(guò)抽取文本的語(yǔ)義信息實(shí)現(xiàn)更全面的語(yǔ)義表達(dá),另一方面通過(guò)使用關(guān)鍵詞拓展的方法,將短文本轉(zhuǎn)化為長(zhǎng)文本,從而解決短文本表示、處理上的難題。隨著計(jì)算機(jī)算力的提升以及神經(jīng)網(wǎng)絡(luò)的發(fā)展,以Word2vec為基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)模型與短文本表示相結(jié)合也是目前研究的一個(gè)方向。

      2??短文本分類相關(guān)技術(shù)與理論基礎(chǔ)

      短文本分類按照流程一般分為文本預(yù)處理、文本向量化表示以及分類器選擇等階段。在各個(gè)階段均有不同的流程。文本預(yù)處理階段,主要是對(duì)文本進(jìn)行去噪,剔除文本中的標(biāo)點(diǎn)以及停用詞等,其次通過(guò)分詞算法對(duì)文本進(jìn)行切分操作。文本表示階段的主要工作是得到文本分詞后的集合,通過(guò)文本特征選取算法以及詞向量表示等相關(guān)算法,將文本表示為歐式空間中的向量。最后通過(guò)選擇合適的分類器,如樸素貝葉斯、SVM等分類器,把樣本劃分到正確的類別中。本文主要對(duì)文本預(yù)處理、文本表示模型進(jìn)行綜述。

      2.1??文本預(yù)處理

      文本預(yù)處理作為文本向量化的基礎(chǔ),是實(shí)現(xiàn)分類不可或缺的步驟,通過(guò)分詞可以將文本切割成單詞集合,并提取出關(guān)鍵詞集合。目前,比較成熟的如jieba分詞、中科院ICTCLAS分詞等中文分詞工具,經(jīng)過(guò)開(kāi)發(fā)者的迭代,在分詞方面都已經(jīng)達(dá)到了很好的效果。

      在數(shù)據(jù)預(yù)處理階段,主要工作是去除對(duì)文本分類過(guò)程無(wú)意義的詞以及標(biāo)點(diǎn)等,這些詞在文檔中通常都會(huì)大量出現(xiàn),如“為”,“的”,“這些”,“由”,“我”等詞。這些詞由于不具備深層次的語(yǔ)義信息,甚至它的加入還會(huì)引入噪聲,并且對(duì)于向量化表示研究也沒(méi)有幫助,間接導(dǎo)致分類性能的下降。因此,需要在數(shù)據(jù)預(yù)處理階段對(duì)這些詞進(jìn)行去除,進(jìn)一步的提高特征選取的效率以及準(zhǔn)確率。

      除了去除相關(guān)停用詞之外,還需要根據(jù)詞頻信息來(lái)進(jìn)行去噪。在研究中我們可以發(fā)現(xiàn),文檔中的高頻詞和低頻詞同樣不能表達(dá)出文本的特征[22]。對(duì)于高頻詞,每篇文檔出現(xiàn)的概率相差不大,如虛詞、語(yǔ)氣助詞等,因此不具備實(shí)際的參考價(jià)值,低頻詞由于詞語(yǔ)出現(xiàn)的頻率太低,不能表達(dá)出文檔的特征,因此也需要舍棄。所以通過(guò)文檔頻率和逆文檔頻率等方式來(lái)設(shè)定相關(guān)的閾值,實(shí)現(xiàn)對(duì)文本詞語(yǔ)的二次篩選,是文本預(yù)處理關(guān)鍵步驟之一。

      2.2??文本表示模型

      如何表示非結(jié)構(gòu)化的文本數(shù)據(jù),構(gòu)建適用于短文本分類的向量表示方法,是實(shí)現(xiàn)短文本準(zhǔn)確分類的理論基礎(chǔ)。

      在向量空間模型(VSM)中,通過(guò)將文本轉(zhuǎn)化為能夠計(jì)算的詞向量表示,使其能在歐式空間中進(jìn)行數(shù)學(xué)處理。這種方式不僅可以減少問(wèn)題的復(fù)雜性,還可以進(jìn)行各種運(yùn)算。與VSM不同,Word2vec則通過(guò)將每一個(gè)詞映射為一個(gè)向量,從而抽取出詞與詞之間的語(yǔ)義關(guān)系。該模型有兩個(gè)主要實(shí)現(xiàn):CBOW模型和Skip-Gram模型(如圖1所示),這兩個(gè)模型都是基于詞的信息進(jìn)行預(yù)測(cè),因此需要針對(duì)不同的場(chǎng)景來(lái)選取。目前模型在語(yǔ)義抽取、詞義表達(dá)等方面也得到了廣泛的應(yīng)用。

      LDA模型則是一個(gè)文檔主題抽取模型,其假設(shè)文本都是由各個(gè)不同的主題組成的,LDA通過(guò)抽取文本中潛在的主題,來(lái)實(shí)現(xiàn)對(duì)文本的分析與表達(dá)。如圖2所示,各參數(shù)的含義如表1所示。

      在LDA模型中,詞的生成過(guò)程包括兩個(gè)步驟。第一步是從主題集中選擇一個(gè)主題,第二步是根據(jù)所選主題下的的主題詞分布來(lái)選擇一個(gè)詞。其中產(chǎn)生t概率的公示可以描述為(1):

      3??結(jié)語(yǔ)

      本文介紹了短文本分類的概念、研究現(xiàn)狀與發(fā)展趨勢(shì)以及相關(guān)的理論和技術(shù)。綜述了現(xiàn)有的研究和解決方法,并對(duì)常見(jiàn)的文本建模方法如VSM模型、Word2vec以及LDA模型等方法進(jìn)行了介紹,其在實(shí)際應(yīng)用中也取得了不錯(cuò)的效果??偨Y(jié)了短文本分類的發(fā)展趨勢(shì),如下:

      (1)由于短文本的稀疏性,如何在短文本中加入特征,對(duì)其進(jìn)行拓展,從而將短文本問(wèn)題轉(zhuǎn)化為熟悉的長(zhǎng)文本問(wèn)題,是目前研究的一個(gè)熱點(diǎn)之一,該方法能有效的解決短文本表示過(guò)程中的稀疏性問(wèn)題。

      (2)基于深度學(xué)習(xí)理論,將短文本的學(xué)習(xí)由單一模式轉(zhuǎn)化為多維模式,通過(guò)學(xué)習(xí)句子的語(yǔ)法結(jié)構(gòu)、上下文依賴等信息,從而提高文本的語(yǔ)義表達(dá)能力,實(shí)現(xiàn)對(duì)文本的理解由淺層分析轉(zhuǎn)向深度融合,是目前研究發(fā)展的一個(gè)趨勢(shì)。

      (3)將主題模型引入短文本建模也是目前發(fā)展的趨勢(shì)之一,主題模型具有堅(jiān)實(shí)的理論基礎(chǔ),通過(guò)在算法中引入主題模型能很好的解決隱藏信息丟失、詞語(yǔ)歧義等問(wèn)題。

      參考文獻(xiàn)

      Issa, Naiem T, Byers, Stephen W, Dakshanamurthy, Sivanesan.?Big data: the next frontier for innovation in therapeutics and healthcare[J]. Expert Rev Clin Pharmacol, 2015,7(3):?293-?298.

      Murray, Karen, Yasso, Sabrina, et al. Journey of Excellence: Implementing a Shared Decision-Making Model[J]. American?Journal of Nursing, 2016, 116.

      黃暢,?郭文忠,?郭昆.?基于雙向量模型的自適應(yīng)微博話題追蹤方法[J].?小型微型計(jì)算機(jī)系統(tǒng),?2019,?40(06): 1203-?1209.

      Johannes V. Lochter,Rafael F. Zanetti,Dominik Reller,Tiago A. Almeida. Short text opinion detection using ensemble of classifiers and semantic indexing[J]. Expert Systems With Applications,2016,62(1): 243–249.

      Kilimci, Z. and ?lhan Omurca, S. Extended Feature Spaces Based Classifier Ensembles for Sentiment Analysis of Short Texts. Information Technology And Control, 2018,?47(3):?457-470.

      Zhou, W. and Han, W. Personalized recommendation via user preference matching. Information Processing & Management, 2019,?56(3): 955-968.

      李濤等. 知識(shí)圖譜的發(fā)展與構(gòu)建[J].?南京理工大學(xué)學(xué)報(bào)(自然科學(xué)版).?2017,?41(1): 22-34.

      萬(wàn)圣賢, 蘭艷艷, 郭嘉豐, 等. 用于文本分類的局部化雙向長(zhǎng)短時(shí)記憶[J]. 中文信息學(xué)報(bào), 2017, 31(3):?62-68.

      Salton G. A vector space model for auto- matic indexing [J]. Communications of the ACM, 1975, 18(11) : 613-620.

      Yih W,Meek C. Improving similarity measures for short segments of text[C]// Proceedings of the 22nd Conference on Artificial Intel- ligence. Menlo Park: AAAI Press,?2007: 1489-1494.

      王榮波. 基于Wikipedia的短文本語(yǔ)義相關(guān)度計(jì)算方法[J].計(jì)算機(jī)應(yīng)用于軟件.?2015, 32(1): 82-85.

      Dumais ST. Latent semantic analysis. Annual Review of Information Science and Technology[J], 2015, 38(1):?188- 230.

      Christos H. Papadimitriou,Prabhakar Raghavan,Hisao Tamaki,?Santosh Vempala. Latent Semantic Indexing: A Probabilistic Analysis[J]. Journal of Computer and System Sciences,?2000,?61(2):?217-235.

      Blei DM, Ng AY, Jordan MI. ?Latent dirichlet allocation[J].?Machine Learning Research Archive,2003, 3(Jan):?993–1022.

      張志飛. 基于LDA主題模型的短文本分類方法[J]. 計(jì)算機(jī)應(yīng)用, 2013, 33(6): 1597-1590.

      Mengen Chen, Xiaoming Jin, Dou Shen. Short Text Classification Improved by Learning Multi-Granularity Topics[C]// IJCAI 2011, Proceedings of the 22nd International Joint Conference on Artificial Intelligence, Spain: AAAI Press , 2011:?1776–1781.

      Mikolov T, Sutskever I, Chen K , et al. Distributed Representations of Words and Phrases and their Compositionality[J]. Advances in Neural Information Processing Systems,?2013: 3111-3119..

      王飛, 譚新等. 一種基Word2Vec的訓(xùn)練效果優(yōu)化策略研究[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2018(1): 97-102.

      王勤勤, 張玉紅, 李培培,?等. 基于word2vec的跨領(lǐng)域情感分類方法[J]. 計(jì)算機(jī)應(yīng)用研究, 2018, 35(10): 50-53.

      王紅斌, 郜洪奎. 基于word2vec和依存分析的事件識(shí)別研究[J]. 軟件, 2017(06): 70-73.

      汪靜, 羅浪, 王德強(qiáng). 基于Word2Vec的中文短文本分類問(wèn)題研究[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2018, 7(05): 211-217.

      王浩然. 基于詞向量的短文本主題建模研究[D].?吉林: 吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 2017.

      猜你喜歡
      分類器
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      基于差異性測(cè)度的遙感自適應(yīng)分類器選擇
      基于實(shí)例的強(qiáng)分類器快速集成方法
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      人臉檢測(cè)的繼承式集成學(xué)習(xí)方法*
      一種基于信息復(fù)用的Boosting瀑布型分類器高效訓(xùn)練方法
      基于Adaboost的人臉檢測(cè)算法研究
      電子世界(2014年12期)2014-10-21 11:09:39
      基于層次化分類器的遙感圖像飛機(jī)目標(biāo)檢測(cè)
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
      青海省| 颍上县| 百色市| 陕西省| 贞丰县| 昆明市| 长治市| 深泽县| 梅河口市| 平阳县| 鲁山县| 枝江市| 郴州市| 密云县| 灵台县| 临潭县| 尼玛县| 永川市| 江陵县| 页游| 南开区| 建水县| 石首市| 开封县| 长宁区| 关岭| 陇川县| 南雄市| 射阳县| 精河县| 兴业县| 伊宁县| 石家庄市| 张掖市| 获嘉县| 三都| 湖北省| 道真| 娱乐| 兰溪市| 绥滨县|