• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于機器學(xué)習(xí)的文本分類技術(shù)研究進展

      2016-03-27 18:14:32孫逸菲
      移動信息 2016年11期
      關(guān)鍵詞:研究進展機器概念

      孫逸菲

      ?

      基于機器學(xué)習(xí)的文本分類技術(shù)研究進展

      孫逸菲

      沈陽化工大學(xué)信息工程學(xué)院,遼寧 沈陽 110142

      信息化時代信息容量出現(xiàn)爆發(fā)性增長的趨勢,信息量的增加在豐富人們生活的同時也會造成一定麻煩,為了實現(xiàn)科學(xué)高效工作就需要對海量信息進行有效管理。文本分類就是這樣一種技術(shù),這種技術(shù)能夠幫助人們迅速獲取準(zhǔn)確信息。同傳統(tǒng)的文本分類技術(shù)相比,基于機器學(xué)習(xí)的文本分類方式應(yīng)用更為廣泛,效果也更為明顯。這項技術(shù)所發(fā)揮的作用也越來越重要,正因為如此就需要對基于機器學(xué)習(xí)的文本分類技術(shù)進行深入分析。從文本分類概念入手重點分析了當(dāng)前的研究進展。

      文本分類;機器學(xué)習(xí);計算機

      在經(jīng)濟社會快速發(fā)展的背景下,網(wǎng)絡(luò)信息急劇增長,文本形式的信息更是呈現(xiàn)出了爆炸性增長趨勢。在這樣的背景下為了有效提升信息管理效率就要利用更為高效地文本分類技術(shù)。基于機器學(xué)習(xí)的文本分類技術(shù)已經(jīng)成為近些年來人們普遍采用的一種方式,這樣一種方式的應(yīng)用能夠起到非常重要的現(xiàn)實意義。

      1 文本分類概念

      文本是當(dāng)前語言應(yīng)用的主要形態(tài),所謂文本分類實際上就是要在既定分類體系下來根據(jù)文本內(nèi)容或者是屬性把文本劃分為一個或者多個預(yù)先定義的類別當(dāng)中。如果從數(shù)學(xué)角度來看文本分類實際上就是一個映射過程,這個映射過程既可以是一一映射,又可以是一對多映射。[1]

      文本分類是一項非常專業(yè)地工作,這項工作的進行是包含多個環(huán)節(jié)的,文本預(yù)處理、文本表示、特征提取、分類器選擇訓(xùn)練、分類結(jié)果評價及反饋就是其中主要環(huán)節(jié)。文本預(yù)處理就是要把原始語了格式化成規(guī)范格式,文本模型實際上就是要把文本分解成基本處理單元;特征處理就是要總結(jié)出特征,然后進行科學(xué)分類,最后就是要對分類效果進行科學(xué)評價。

      2 機器學(xué)習(xí)思想

      當(dāng)前對于機器學(xué)習(xí)還沒有統(tǒng)一定義,對于這一概念也很難作出一個公正的定義。從當(dāng)前實際研究情況來看人們通常把利用計算機來模擬人類學(xué)習(xí)活動看作是機器學(xué)習(xí),通過機器學(xué)習(xí)最終目的是為了能夠獲得新技能和新知識。多數(shù)情況下所謂機器學(xué)習(xí)主要指的是計算機學(xué)習(xí)。這一概念誕生以來人們就開始探索如何利用機器學(xué)習(xí)能夠更緊密地貼近人類學(xué)習(xí),能夠讓計算機掌握人類智能。在這方面人們對此是取得了不小成果的。[2]

      自20世紀(jì)50年代以來,人們對此研究正式開始。無知學(xué)習(xí)是50年代到60年代機器學(xué)習(xí)研究的階段,在這一階段的主要目標(biāo)就是為了能夠研究出各類自組織系統(tǒng)及自適應(yīng)系統(tǒng)。在實際研究過程中為了提升系統(tǒng)執(zhí)行力,人們也對系統(tǒng)控制參數(shù)進行不斷改進。盡管如此機器學(xué)習(xí)還是難以滿足人們需求。

      第二階段是從60年代中葉到70年代中葉。研究目標(biāo)是模擬人類的概念學(xué)習(xí)過程,并采用邏輯結(jié)構(gòu)或圖結(jié)構(gòu)作為機器內(nèi)部描述。機器能夠采用符號來描述概念(符號概念獲?。?,并提出關(guān)于學(xué)習(xí)概念的各種假設(shè)。這種學(xué)習(xí)系統(tǒng)取得了較大的成功,但只能學(xué)習(xí)單一概念。

      第三階段是從70年代中葉到80年代中葉。在這個時期,人們從學(xué)習(xí)單個概念擴展到學(xué)習(xí)多個概念,搜索不同的學(xué)習(xí)策略和各種學(xué)習(xí)方法。機器的學(xué)習(xí)過程一般都建立在大規(guī)模的知識庫上,實現(xiàn)知識強化學(xué)習(xí)。尤其令人鼓舞的是,該階段已開始把學(xué)習(xí)系統(tǒng)與各種應(yīng)用結(jié)合起來,并取得了很大的成功,促進了機器學(xué)習(xí)的發(fā)展。1980年,在美國CMU大學(xué)召開的第一屆機器學(xué)習(xí)國際研討會,標(biāo)志著機器學(xué)習(xí)研究已經(jīng)在全世界興起。[3]

      到了80年代中葉,人們對機器學(xué)習(xí)的研究開始越來越深入,診斷分類專家系統(tǒng)、聲圖文識別系統(tǒng)、工程控制等技術(shù)也得到了廣泛應(yīng)用。這些技術(shù)的應(yīng)用使得機器學(xué)習(xí)所發(fā)揮的影響越來越大。

      3 研究進展和現(xiàn)狀

      在了解基本概念之后本文將重點探討基于機器學(xué)習(xí)的文本分類方法的研究進展,通過對研究進展的梳理能夠使人們對此能夠有更加深刻地認(rèn)識。

      (1)研究進展。20世紀(jì)50年代末人們開始對自動分類進行研究,美國IBM公司在這一領(lǐng)域更是起到了先驅(qū)作用,詞頻統(tǒng)計思想的提出和應(yīng)用就是IBM的重大貢獻(xiàn)。1964年Maron則是提出了關(guān)于自動分類的論文。進入60年代文本分類從原來的基于知識途徑正式發(fā)展到了基于機器學(xué)習(xí)的階段。在實際發(fā)展過程中基于機器學(xué)習(xí)的文本分類方法取得了豐碩成果,到了90年代正式取代了知識工程方法。從理論研究到正式應(yīng)用,基于機器學(xué)習(xí)的文本分類法經(jīng)過了多年發(fā)展,直到1975年以后這種方法才得以正式應(yīng)用,其作用也才得以充分發(fā)揮。[4]

      從國內(nèi)研究情況來看,國內(nèi)對于基于機器學(xué)習(xí)的文本分類方法的研究最早開始于20世紀(jì)80年代,候漢清教授是國內(nèi)第一位對自動分類進行研究的學(xué)者,在實際研究過程中對國外計算機管理分類表等方面的內(nèi)容進行了詳細(xì)介紹。當(dāng)時國內(nèi)文本分類研究的方法也是非常單一的,在分類過程中主要是在英文文本分類基礎(chǔ)上來結(jié)合中文文本自身特點從而來采取相應(yīng)措施。在經(jīng)過多年發(fā)展滯后,當(dāng)前我國已經(jīng)出現(xiàn)了一批自動分類系統(tǒng),目前國內(nèi)的自動分類系統(tǒng)主要是分為基于詞典法的自動分類系統(tǒng)和基于專家系統(tǒng)的自動分類系統(tǒng)??偟膩砜串?dāng)前我國基于機器學(xué)習(xí)的文本分類方法同外國相比還是有明顯差距的,要想實現(xiàn)更為科學(xué)廣泛地應(yīng)用,今后工作中還需要不斷加強研究。這樣才能夠滿足需要。

      (2)研究現(xiàn)狀。當(dāng)前針對基于機器學(xué)習(xí)的文本分類方法的研究是取得了不少進展的,同時也應(yīng)該看到,在實際研究過程中也還存在著不少問題,具體而言存在以下問題:

      缺少統(tǒng)一的中文語料庫。至今尚無標(biāo)準(zhǔn)的用于文本分類的中文語料庫,各個研究者分頭收集自己的訓(xùn)練文本集,并在此基礎(chǔ)上開展研究。因此語料庫基本上都是針對自己的系統(tǒng)而規(guī)劃的,不具有普遍性。

      特征向量形成方法有待改進。特征向量的形成包括特征提取和權(quán)重確定兩個方面,是文本分類中十分重要的一個環(huán)節(jié),對文本分類正確率有著決定性的影響。在目前適用的方法中,普遍采取與詞頻和倒文檔頻率相關(guān)函數(shù)確定權(quán)重的方法,文本中很多其他的信息沒有用上,造成了特征詞權(quán)重的片面性。

      分類方法的準(zhǔn)確度。目前文本分類方法主要以機器學(xué)習(xí)方法為主,取得了較好的效果。但單一的分類方法往往在保證分類準(zhǔn)確度和高效率之間難以取得平衡,實際需要建立一個即能保證分類準(zhǔn)確度又能取得高效率的文本分類系統(tǒng)。

      基于機器學(xué)習(xí)的文本分類方法是一種非常典型地方法,這種方法在實際工作中的應(yīng)用對于提升信息管理效率具有非常重要的意義。為了能夠滿足實際需要,今后對于這種方法就必須要加強研究才能夠滿足實際需要。本文結(jié)合文本分析和機器學(xué)習(xí)的概念對基于機器學(xué)習(xí)的文本分類的研究進展進行了重點分析,通過詳細(xì)分析可以發(fā)現(xiàn)當(dāng)前的研究雖然取得了一定成果,但同時也應(yīng)該看到也還存在著不少問題。對于這些問題今后應(yīng)該展開深入研究,探討針對性對策。

      [1]李道國,苗奪謙,俞冰.決策樹剪枝算法的研究與改進[J].計算機工程,2005,31(8):19-21.

      [2]張云濤,龔玲.數(shù)據(jù)挖掘原理與技術(shù)[M].北京:電子工業(yè)出版社,2003.

      [3]楊善林,倪志偉.機器學(xué)習(xí)與智能決策支持系統(tǒng)[M].北京:科學(xué)出版社,2004.

      [4]楊學(xué)兵,張俊.決策樹算法及其核心技術(shù)[J].計算機技術(shù)與發(fā)展,2007,17(1):43-45.

      Research progress of text categorization technology based on machine learning

      Sun Yifei

      School of Information Engineering,Shenyang University of Chemical Engineering,Liaoning Shenyang 110142

      The information age information capacity of explosive growth trend,the increase in the amount of information in the rich people's life but also caused some trouble,in order to realize the scientific and efficient work required to effectively manage the mass information. Text classification is such a technique that can help people quickly get accurate information. Compared with the traditional text classification,text classification based on machine learning is more widely used,and the effect is more obvious. This technology is playing a more and more important role,and it is necessary to conduct in-depth analysis of the text classification technology based on machine learning. This article will start with the concept of text categorization to analyze the current research progress.

      text classification;machine learning;computer

      TP181

      A

      1009-6434(2016)11-0144-02

      猜你喜歡
      研究進展機器概念
      機器狗
      Birdie Cup Coffee豐盛里概念店
      機器狗
      MiRNA-145在消化系統(tǒng)惡性腫瘤中的研究進展
      幾樣概念店
      離子束拋光研究進展
      學(xué)習(xí)集合概念『四步走』
      未來機器城
      電影(2018年8期)2018-09-21 08:00:06
      獨腳金的研究進展
      中成藥(2017年9期)2017-12-19 13:34:44
      聚焦集合的概念及應(yīng)用
      腾冲县| 丹东市| 怀柔区| 平度市| 孝昌县| 辽源市| 寿宁县| 吕梁市| 桃园市| 兖州市| 彰武县| 普兰店市| 斗六市| 靖西县| 大新县| 西乌珠穆沁旗| 新宾| 邹平县| 长武县| 靖安县| 芷江| 怀仁县| 汕尾市| 军事| 临朐县| 肥东县| 文山县| 临漳县| 茌平县| 甘洛县| 东乡族自治县| 崇义县| 云南省| 平定县| 万盛区| 盈江县| 鹿泉市| 牙克石市| 包头市| 三河市| 油尖旺区|