• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      淺析自然語言處理技術(shù)的重要性

      2018-03-20 23:37:03林伊洋
      數(shù)字通信世界 2018年2期
      關(guān)鍵詞:搜索引擎語音計(jì)算機(jī)

      林伊洋

      (上海市控江中學(xué),上海 200093)

      1 自然語言處理的定義

      1999年,美國計(jì)算機(jī)學(xué)家Bill Manaris在《計(jì)算機(jī)進(jìn)展》一書中提出了自然語言處理一詞,將其定義為研究在人與人交際中以及在人與計(jì)算機(jī)交際中的語言問題的一門學(xué)科。而隨著現(xiàn)代化技術(shù)的發(fā)展,如今的自然語言處理的廣泛定義為自然語言處理研究在人機(jī)交互的過程中,如何能使人類與計(jì)算機(jī)更高效地進(jìn)行通信的理論知識(shí)和科學(xué)手段,它囊括了計(jì)算機(jī)學(xué),語言學(xué)和數(shù)學(xué)。其過程主要分為四個(gè)階段:對(duì)人類面的語言進(jìn)行處理,以縝密的數(shù)學(xué)形式化模型呈現(xiàn)出;將數(shù)學(xué)化模型改寫為能在計(jì)算機(jī)上輸入的算法模型;根據(jù)所定義的算法模型,編寫計(jì)算機(jī)語言程序,使自然語言處理得以應(yīng)用化實(shí)現(xiàn);對(duì)已成型的自然語言處理模型進(jìn)一步優(yōu)化,應(yīng)用于更多領(lǐng)域。

      2 自然語言處理的歷史發(fā)展

      20世紀(jì)40年代到20世紀(jì)50年代屬于自然語言處理技術(shù)的萌芽期。在此期間,A.M.Turing的計(jì)算機(jī)算法模型為現(xiàn)代計(jì)算機(jī)科學(xué)奠定了基礎(chǔ)。他的研究也幫助了之后Culloch—Pitts(麥克羅克-皮特)的神經(jīng)元理論和Kleene(克林)有關(guān)有限自動(dòng)機(jī)和正則表達(dá)式的研究,使之后的算法計(jì)算模型得到了顯著的提升。除此之外,N.Chomsky(喬姆斯基)關(guān)于形式語言理論的研究和C.E.Shannon(香農(nóng))概率和信息論模型的研究也相繼取得成功,成為了鞏固現(xiàn)代計(jì)算機(jī)語言的各項(xiàng)基本技術(shù)。

      20世紀(jì)60年代到20世紀(jì)80年代屬于自然語言處理技術(shù)的發(fā)展期。機(jī)器翻譯技術(shù)日趨成熟,并被應(yīng)用于實(shí)際生活。同時(shí),統(tǒng)計(jì)算法在語音識(shí)別算法研制中也取得了成功。語音和語言處理概率模型的提出以及基于邏輯學(xué)方法在自然語言處理中的研究是這個(gè)時(shí)期主要的科研成果。

      20世紀(jì)90年代后屬于自然語言處理技術(shù)的繁盛期。機(jī)器翻譯中引入了建立大規(guī)模語料庫方法,使其性能得到了飛躍般的提升。隨著計(jì)算機(jī)計(jì)算量、計(jì)算速度以及萬維網(wǎng)的爆炸式發(fā)展,數(shù)據(jù)挖掘和信息檢索的需求越來越大,自然語言處理技術(shù)也因此在更多的方面得到進(jìn)一步的發(fā)展。

      3 自然語言處理技術(shù)在各領(lǐng)域的實(shí)際應(yīng)用

      3.1 自然語言處理技術(shù)在搜索領(lǐng)域中的應(yīng)用

      3.1.1 搜索引擎的現(xiàn)狀及存在問題

      隨著信息化時(shí)代的到來,互聯(lián)網(wǎng)在人們的生活中起著尤為重要的作用。而互聯(lián)網(wǎng)最實(shí)用的作用之一就是信息搜索。目前的搜索引擎主要分為三大類,分別是全文搜索引擎、目錄搜索引擎和元搜索引擎,但以上三種傳統(tǒng)搜索引擎都是基于關(guān)鍵詞查找,無法理解用戶輸入的內(nèi)容,造成搜索結(jié)果的不全面、不準(zhǔn)確。因此,提升搜索引擎對(duì)計(jì)算機(jī)自然語言的理解是解決該問題的關(guān)鍵,要進(jìn)一步研究計(jì)算機(jī)自然語言處理技術(shù),使其應(yīng)用于智能化搜索引擎的開發(fā)。

      3.1.2 基于自然語言處理的漢語搜索引擎發(fā)展?fàn)顩r

      20世紀(jì)60年代,國外成功開發(fā)出了一項(xiàng)能夠通過分析詞句的語法信息來理解句子的自然語言處理系統(tǒng),在一定程度上實(shí)現(xiàn)了基于自然語言處理的智能化搜索引擎。但由于語種的差異,通過此類方法來實(shí)現(xiàn)漢語的智能化搜索難度要遠(yuǎn)遠(yuǎn)大于英語。但在90年代中后期,中國科學(xué)院的黃增陽教授,基于中國傳統(tǒng)語言學(xué)、物理學(xué)、信號(hào)處理、哲學(xué)等方面的功底,成功研究出了面向自然語言理解處理的概念層次網(wǎng)絡(luò)(HNC)理論。該理論通過模擬人類大腦對(duì)語言的感知過程,使計(jì)算機(jī)理解自然語言,也成功地實(shí)現(xiàn)了一部分基于信息語義的智能化搜索。

      2001年1月,前Infoseek資深工程師李彥宏與加州伯克利分校博士徐勇從美國硅谷回國,在北京創(chuàng)立百度(Baidu)公司,定位于打造中國人自己的搜索引擎。據(jù)統(tǒng)計(jì),目前百度收錄中文網(wǎng)頁已超過2億,其獨(dú)立訪問者有2.687億,是世界最大的中文數(shù)據(jù)庫。百度公司的這支隊(duì)伍掌握著世界上最為先進(jìn)的搜索引擎技術(shù),使中國成為美國、俄羅斯、和韓國之外,全球僅有的4個(gè)擁有搜索引擎核心技術(shù)的國家之一。

      3.2 自然語言處理技術(shù)在西方國家軍事領(lǐng)域的應(yīng)用

      現(xiàn)今,一部分西方發(fā)達(dá)國家非常重視自然語言處理技術(shù)在軍事領(lǐng)域的潛力,潛心研究自然語言在各個(gè)方面的技術(shù)應(yīng)用,例如語音識(shí)別,文本分類,信息挖掘,信息檢索,機(jī)器翻譯等。美、英、法等國家也相繼投入大筆資金,將計(jì)算機(jī)自然語言處理技術(shù)融入軍事行動(dòng)之中,開發(fā)信息化的武器裝備,大大提高了國家的軍事實(shí)力。

      3.2.1 基于語音識(shí)別功能的軍事武裝控制

      現(xiàn)代化的戰(zhàn)斗機(jī)操作系統(tǒng)日趨復(fù)雜化,而飛行員不僅要在各種天候下,克服苛刻的任務(wù)要求,還要準(zhǔn)確無誤地操作戰(zhàn)斗機(jī)的各項(xiàng)設(shè)備,無疑是一個(gè)很大的挑戰(zhàn)。因此,在戰(zhàn)斗機(jī)座艙中加入語音識(shí)別系統(tǒng)會(huì)對(duì)此類問題有很大的改善。在環(huán)境噪聲高達(dá)120分貝的座艙內(nèi),實(shí)現(xiàn)高度精確的語音識(shí)別較為困難。同時(shí),飛行過程中的重力、引力、向心力也會(huì)影響飛行員的發(fā)音。英國、德國、西班牙、意大利聯(lián)合研發(fā)了搭載直接語音輸入系統(tǒng)(DVI)的新式戰(zhàn)斗機(jī)—“臺(tái)風(fēng)”,Eurofighter Typhoon。飛行員控制系統(tǒng)在有了語音控制操縱桿系統(tǒng)(VTAS)后變得更加高效,直接的聲音輸入允許飛行員使用聲音命令實(shí)現(xiàn)模態(tài)選擇和數(shù)據(jù)登錄程序,這也是世界上第一種語音操控系統(tǒng),覆蓋傳感器、武器控制、防衛(wèi)幫助管理和飛行中的操縱,夠識(shí)別大約200個(gè)單詞,反應(yīng)時(shí)間大約為200ms,正確率超過95%,提供24個(gè)原來需要指尖控制的指令。

      3.2.2 基于語音識(shí)別與分析的情報(bào)搜索

      人類的說話聲音能作為一種生物特征被鑒別,而語音識(shí)別與分析技術(shù)就能夠活用于此領(lǐng)域來實(shí)現(xiàn)人物身份鑒別。語音分析共分為兩種方式,一是從某段連續(xù)的語音數(shù)據(jù)中,抽取出一兩個(gè)單詞或詞組的聲音信息,與保存在計(jì)算機(jī)數(shù)據(jù)庫中的聲紋信息相比較,篩選出相似度最高的一個(gè);另一種是對(duì)某段語音的聲帶特征進(jìn)行解析,來確定被調(diào)查者的身份。據(jù)悉,美國國防部十分重視語音處理技術(shù),通過監(jiān)聽系統(tǒng)截取部分聲音內(nèi)容就可準(zhǔn)確確定該段對(duì)話的講述者。美國911事件的主導(dǎo)者,本·拉登在逃亡期間完全避免使用移動(dòng)電話或互聯(lián)網(wǎng)等電子設(shè)備為的就是不讓美國中央情報(bào)局監(jiān)測(cè)到他的位置。但美國情報(bào)局卻通過語音識(shí)別與分析的手段成功截獲并解析出他的一名信使與他人的通話,最終找到了本·拉登的藏身之處。由此可見,基于自然語言處理的計(jì)算機(jī)語音識(shí)別技術(shù)的重要性之大。

      3.3 自然語言處理技術(shù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用

      醫(yī)學(xué)影像報(bào)告—組成電子健康病例(EHR)中大量數(shù)據(jù)信息的主要部分。但大多以自由文本形式出現(xiàn)的醫(yī)學(xué)影像報(bào)告,由于其非結(jié)構(gòu)式數(shù)據(jù)的信息而不利提取,故自然語言處理(NLP)成為了使醫(yī)學(xué)影像報(bào)告信息化的重要手段。自然語言處理技術(shù)能通過計(jì)算機(jī)自動(dòng)分析自有文本,提取其中的有利信息并將其加以整合。其主要過程分為三個(gè)階段:特征提取、特征加工、系統(tǒng)訓(xùn)練和驗(yàn)證。

      在特征提取階段中,計(jì)算機(jī)首先進(jìn)行詞匯分割,判別詞根,擴(kuò)寫縮略語等,識(shí)別出單個(gè)詞匯的概念;再進(jìn)行每個(gè)詞匯的語義分析,定義出詞匯相聯(lián)系之后得到的醫(yī)學(xué)概念,輸出結(jié)構(gòu)式的數(shù)據(jù);然后進(jìn)入到特征加工階段,計(jì)算機(jī)檢索得到的結(jié)構(gòu)式數(shù)據(jù)是否包含目標(biāo)概念,判斷出能否根據(jù)其推導(dǎo)出某種臨床結(jié)局。這一過程必須遵循一種規(guī)則,它可以由專家制定,也可以由計(jì)算機(jī)自主學(xué)習(xí)生成規(guī)則,亦或是二者相結(jié)合。完成特征加工之后的系統(tǒng),需要通過給予計(jì)算機(jī)大量的標(biāo)準(zhǔn)數(shù)據(jù)來進(jìn)行訓(xùn)練和驗(yàn)證工作,也就是系統(tǒng)訓(xùn)練和驗(yàn)證。通常情況下,提供的標(biāo)準(zhǔn)數(shù)據(jù)越多,系統(tǒng)在實(shí)際運(yùn)用中的穩(wěn)定性也越強(qiáng)。

      通過使用自然語言處理技術(shù)處理醫(yī)學(xué)影像報(bào)告,能夠進(jìn)一步挖掘出報(bào)告信息與臨床信息的內(nèi)在關(guān)系,并與此同時(shí)綜合分析報(bào)告的結(jié)果,給予評(píng)價(jià),為輔助影像醫(yī)師提供更便捷的幫助。

      4 自然語言處理技術(shù)發(fā)展的前景

      4.1 針對(duì)中文語法分析的自然語言處理技術(shù)準(zhǔn)確度過低

      目前,對(duì)于中文的句法分析還不夠準(zhǔn)確,應(yīng)建立更加完整的數(shù)學(xué)形式化模型,并對(duì)一些特殊的詞句用法進(jìn)行獨(dú)立的處理,面對(duì)中文的復(fù)雜性,使計(jì)算機(jī)全面準(zhǔn)確地理解用戶的語義,做出精確更高的反饋。

      4.2 針對(duì)自然語言處理技術(shù)處理信息規(guī)則的不明確

      自然語言處理系統(tǒng)不易被接受的很大一部分原因在于其處理信息的規(guī)則不夠明晰。若是由專家制定的規(guī)則,人們尚能接受,但倘若是由計(jì)算機(jī)自主學(xué)習(xí)并制定的規(guī)則,其背后的原理過程太過復(fù)雜,得不到人們的信任。故面對(duì)此類問題,應(yīng)進(jìn)一步發(fā)展自然語言處理的自主學(xué)習(xí),提高其過程的可讀性。

      5 結(jié)束語

      隨著現(xiàn)代技術(shù)的發(fā)展,計(jì)算機(jī)自然語言處理技術(shù)日趨成熟,并在各領(lǐng)域?yàn)槿藗兲峁┝嗽S多便利,解決了許多問題。在搜索領(lǐng)域方面,自然語言處理技術(shù)讓現(xiàn)有搜索引擎的結(jié)果更加準(zhǔn)確,更加人性化。在軍事領(lǐng)域方面,自然語言處理技術(shù)的發(fā)展大大加強(qiáng)了各國的軍事實(shí)力,無論是在語音控制,還是情報(bào)檢索中都發(fā)揮著必不可少的作用。而在醫(yī)學(xué)領(lǐng)域,自然語言處理技術(shù)同樣為醫(yī)學(xué)工作者們帶去便捷,自動(dòng)化的臨床診斷與信息分析指日可待。自然語言處理技術(shù)在人類的生活中擔(dān)任著尤為重要的一個(gè)角色。

      [1] 馮志偉.自然語言處理的學(xué)科定位[J].解放軍外國語學(xué)院學(xué)報(bào),2005(03):1-8.

      [2] 殷淑娥,田偉,于泳海.自然語言處理技術(shù)在搜索引擎中的應(yīng)用[J].電子商務(wù),2012(05):67+69.

      [3] 張鳳,高航.自然語言處理技術(shù)在西方國家軍事領(lǐng)域的應(yīng)用現(xiàn)狀[J].國防科技,2014,35(06):75-82.

      [4] 馬帥,王霄英.自然語言處理在醫(yī)學(xué)影像中的應(yīng)用[J].放射學(xué)實(shí)踐,2016,31(12):1120-1123.

      [5] 馮志偉.自然語言處理的歷史與現(xiàn)狀[J].中國外語,2008(01):14-22.

      猜你喜歡
      搜索引擎語音計(jì)算機(jī)
      計(jì)算機(jī)操作系統(tǒng)
      基于計(jì)算機(jī)自然語言處理的機(jī)器翻譯技術(shù)應(yīng)用與簡(jiǎn)介
      科技傳播(2019年22期)2020-01-14 03:06:34
      魔力語音
      基于MATLAB的語音信號(hào)處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對(duì)方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      信息系統(tǒng)審計(jì)中計(jì)算機(jī)審計(jì)的應(yīng)用
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      Fresnel衍射的計(jì)算機(jī)模擬演示
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      塔城市| 永济市| 南宫市| 徐州市| 宜宾县| 北辰区| 景谷| 乌拉特中旗| 太康县| 尤溪县| 神池县| 灵寿县| 濮阳市| 辽宁省| 文化| 镇巴县| 南康市| 西城区| 漳浦县| 庆云县| 逊克县| 高阳县| 龙井市| 汉川市| 金山区| 故城县| 乐业县| 深圳市| 田林县| 昌黎县| 思茅市| 玉溪市| 广水市| 松溪县| 铜陵市| 临夏市| 太和县| 宝清县| 金堂县| 孟连| 嵊州市|