機(jī)器學(xué)習(xí)應(yīng)用于語(yǔ)言智能的研究綜述*

2018-02-27 00:01:00王連柱

現(xiàn)代教育技術(shù) 2018年9期

王連柱

王連柱1,2

（1．北京外國(guó)語(yǔ)大學(xué) 中國(guó)外語(yǔ)與教育研究中心，北京 100089；2．新鄉(xiāng)醫(yī)學(xué)院外語(yǔ)學(xué)院，河南新鄉(xiāng) 453003）

文章首先對(duì)機(jī)器學(xué)習(xí)和語(yǔ)言智能進(jìn)行了概念界定，隨后將機(jī)器學(xué)習(xí)應(yīng)用于語(yǔ)言智能的研究分為萌芽時(shí)期、發(fā)展時(shí)期、繁榮時(shí)期等三個(gè)階段，并綜述了各歷史階段中機(jī)器學(xué)習(xí)在語(yǔ)言智能中的應(yīng)用情況。為了探討語(yǔ)言智能機(jī)器人背后的技術(shù)原理，文章以微軟“小冰”為例，論述了機(jī)器學(xué)習(xí)理論和算法在情感聊天、智能作詩(shī)、智能新聞寫作中的作用。最后，文章從機(jī)器學(xué)習(xí)方式、算法、語(yǔ)言智能水平和產(chǎn)業(yè)規(guī)模等四個(gè)方面，就機(jī)器學(xué)習(xí)應(yīng)用于語(yǔ)言智能的未來(lái)趨勢(shì)進(jìn)行了展望，以期為未來(lái)的機(jī)器學(xué)習(xí)研究和語(yǔ)言智能產(chǎn)業(yè)發(fā)展提供參考。

機(jī)器學(xué)習(xí)；語(yǔ)言智能；人工智能；機(jī)器翻譯

自1946年世界上第一臺(tái)計(jì)算機(jī)誕生至今的70余年間，人們不斷地思索如何利用計(jì)算機(jī)服務(wù)于人類各項(xiàng)事業(yè)。時(shí)至今日，計(jì)算機(jī)已被廣泛地應(yīng)用于科學(xué)計(jì)算、數(shù)據(jù)處理、過(guò)程控制、生產(chǎn)自動(dòng)化、人工智能等領(lǐng)域。隨著計(jì)算機(jī)軟硬件設(shè)備的迭代升級(jí)，以及數(shù)理統(tǒng)計(jì)等基礎(chǔ)科學(xué)的跨越式發(fā)展，人們已不再滿足于僅讓計(jì)算機(jī)從事程序執(zhí)行、數(shù)據(jù)運(yùn)算之類的簡(jiǎn)單工作，而是設(shè)法讓計(jì)算機(jī)自行推理、自主學(xué)習(xí)。計(jì)算機(jī)的自主學(xué)習(xí)即機(jī)器學(xué)習(xí)（Machine Learning），已在若干學(xué)科前沿發(fā)揮革命性的作用。如天文學(xué)方面，美國(guó)國(guó)家航空航天局于2017年12月15日發(fā)布聲明，谷歌人工智能工程師Shallue等利用機(jī)器學(xué)習(xí)，從開(kāi)普勒望遠(yuǎn)鏡項(xiàng)目對(duì)外公布的海量數(shù)據(jù)中成功發(fā)現(xiàn)第8顆行星——開(kāi)普勒-90i（Kepler-90i）。當(dāng)然，機(jī)器學(xué)習(xí)的“主陣地”——自然語(yǔ)言處理，也并沒(méi)有被遺忘。隨著機(jī)器學(xué)習(xí)理論、算法的發(fā)展和語(yǔ)料庫(kù)、知識(shí)庫(kù)的健全，自然語(yǔ)言處理這個(gè)“主業(yè)”日臻完善，正不斷朝著規(guī)?；椭悄芑姆较虬l(fā)展。而語(yǔ)言智能機(jī)器人，如美國(guó)的“索菲亞”（Sophia）、中國(guó)的“佳佳”、日本的“安蘇娜”（Asuna）等，已經(jīng)具備一定的智能語(yǔ)音交互功能，語(yǔ)言智能的新時(shí)代正在快步走來(lái)[1]。

一概念界定

1 機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)的核心問(wèn)題是學(xué)習(xí)。Simon認(rèn)為：“學(xué)習(xí)是系統(tǒng)中的任何改進(jìn)，這種改進(jìn)使得系統(tǒng)在重復(fù)同樣的工作或進(jìn)行類似的工作時(shí)，能完成得更好?！盵2]機(jī)器學(xué)習(xí)不同于人類學(xué)習(xí)，具體表現(xiàn)為：①學(xué)習(xí)依靠的資源不同。人類學(xué)習(xí)依靠的是人類對(duì)整個(gè)世界的經(jīng)驗(yàn)，即人類的所聽(tīng)、所見(jiàn)、所讀、所想等；而機(jī)器學(xué)習(xí)依靠的是各種可獲得的標(biāo)記（Labeled）或者非標(biāo)記（Unlabeled）的歷史數(shù)據(jù)。②做出預(yù)測(cè)的依據(jù)不同。人類做出預(yù)測(cè)或者進(jìn)行演繹推理，依據(jù)的是歸納出來(lái)的各種原理和規(guī)律；而機(jī)器做出預(yù)測(cè)或判斷，依據(jù)的是各種算法模型。③學(xué)習(xí)效率不同。人類學(xué)習(xí)過(guò)程緩慢，抗干擾性差，且效率較低；而機(jī)器學(xué)習(xí)可以更加迅速、高效地獲取知識(shí)和技能?？梢哉f(shuō)，機(jī)器學(xué)習(xí)是包括語(yǔ)言智能在內(nèi)的人工智能的核心[3]。

針對(duì)機(jī)器學(xué)習(xí)的重點(diǎn)，學(xué)者們提出了各自不同的觀點(diǎn)，如Samuel[4]強(qiáng)調(diào)機(jī)器學(xué)習(xí)過(guò)程中的去程序化，Mitchell[5]和Mooney[6]強(qiáng)調(diào)學(xué)習(xí)經(jīng)驗(yàn)使計(jì)算機(jī)程序自身的性能得以改善，而Carbonell等[7]強(qiáng)調(diào)機(jī)器學(xué)習(xí)的策略以及知識(shí)或技能表征的方式。綜合上述觀點(diǎn)，本研究認(rèn)為機(jī)器學(xué)習(xí)是指計(jì)算機(jī)模擬人類的學(xué)習(xí)行為，通過(guò)識(shí)別現(xiàn)有知識(shí)，以獲取新知識(shí)或新技能，或者重組已有的知識(shí)結(jié)構(gòu)，不斷改善性能和實(shí)現(xiàn)自身完善的過(guò)程、原理和方法[8][9]，其主要目標(biāo)是建立學(xué)習(xí)模型、發(fā)展學(xué)習(xí)理論、設(shè)計(jì)數(shù)理算法和建立應(yīng)用系統(tǒng)[10]。其中，建立應(yīng)用系統(tǒng)是指把機(jī)器學(xué)習(xí)的成果應(yīng)用于包括語(yǔ)言智能在內(nèi)的各種人工智能，以更好地服務(wù)于人類社會(huì)。

2 語(yǔ)言智能

研究機(jī)器學(xué)習(xí)貴在應(yīng)用，即把研究成果應(yīng)用于學(xué)科領(lǐng)域。機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域十分廣泛，Carbonell等[11]總結(jié)出19個(gè)應(yīng)用領(lǐng)域——其中，與語(yǔ)言智能有關(guān)的有3個(gè)：語(yǔ)音識(shí)別/合成、自然語(yǔ)言處理和計(jì)算機(jī)編程。這三個(gè)領(lǐng)域涉及的問(wèn)題各不相同，以自然語(yǔ)言處理領(lǐng)域?yàn)槔?，機(jī)器學(xué)習(xí)側(cè)重于解決該領(lǐng)域中的詞性標(biāo)注、句法標(biāo)注、語(yǔ)義標(biāo)注、詞義消歧、指代消解、信息抽取等問(wèn)題[12]，以達(dá)到提升信息處理效率和效度的目標(biāo)。

機(jī)器學(xué)習(xí)技術(shù)的大量應(yīng)用，使機(jī)器更善于聽(tīng)懂人類的語(yǔ)言，并使用人類的語(yǔ)言與人類交流。機(jī)器與人類的實(shí)時(shí)語(yǔ)言交互體現(xiàn)了語(yǔ)言智能的內(nèi)涵，即利用機(jī)器學(xué)習(xí)算法、知識(shí)庫(kù)和語(yǔ)音識(shí)別/合成技術(shù)，智能化地理解、生成語(yǔ)言，實(shí)現(xiàn)人機(jī)交互。如今，人機(jī)智能交互已進(jìn)入生產(chǎn)、生活領(lǐng)域，誕生了許多種類的語(yǔ)言智能機(jī)器人，如自動(dòng)翻譯機(jī)器人、新聞寫作機(jī)器人、作詩(shī)機(jī)器人、情感陪護(hù)機(jī)器人、社交機(jī)器人、客服機(jī)器人等。

二機(jī)器學(xué)習(xí)應(yīng)用于語(yǔ)言智能的研究歷程

為解答“機(jī)器能否思考”（Can Machines Think?）的疑問(wèn)，英國(guó)數(shù)學(xué)家Turing[13]例舉了一個(gè)由三方參與的“模擬游戲”，采用“問(wèn)答”形式來(lái)檢測(cè)學(xué)習(xí)機(jī)器的智商，這就是后來(lái)的“圖靈測(cè)試”——當(dāng)時(shí)，Turing使用的名稱還是“學(xué)習(xí)機(jī)器”。

“機(jī)器學(xué)習(xí)”這一術(shù)語(yǔ)由西洋跳棋程序的研制者Samuel于1956年首次提出，他將這一新術(shù)語(yǔ)定義為“不顯式編程地賦予計(jì)算機(jī)能力的研究領(lǐng)域”[14]。機(jī)器學(xué)習(xí)應(yīng)用于語(yǔ)言智能的研究大致可分為萌芽時(shí)期、發(fā)展時(shí)期和繁榮時(shí)期等三個(gè)階段，這三個(gè)階段見(jiàn)證了語(yǔ)言智能從單純語(yǔ)言翻譯向復(fù)雜人機(jī)對(duì)話、智能寫作等多領(lǐng)域應(yīng)用的轉(zhuǎn)變。

1 萌芽時(shí)期（1980年以前）

上個(gè)世紀(jì)80年代以前，語(yǔ)言智能的研究尚處于低級(jí)階段，研究的主要內(nèi)容是機(jī)器翻譯、自然語(yǔ)言理解和相關(guān)的算法。

（1）機(jī)器學(xué)習(xí)與機(jī)器翻譯

1954年，美國(guó)喬治敦大學(xué)利用國(guó)際商業(yè)機(jī)器（International Business Machines，IBM）公司生產(chǎn)的IBM-701型計(jì)算機(jī)，在世界首次進(jìn)行了俄英機(jī)器翻譯實(shí)驗(yàn)，獲得巨大成功。蘇聯(lián)、意大利、英國(guó)、德國(guó)、日本、中國(guó)等不甘示弱，也紛紛進(jìn)行機(jī)器翻譯實(shí)驗(yàn)。1959年，我國(guó)在104型電子計(jì)算機(jī)上首次進(jìn)行了俄漢機(jī)器翻譯實(shí)驗(yàn)[15]。但是語(yǔ)言遠(yuǎn)比人們想象的要復(fù)雜，早期翻譯主要采用查字典的方法，沒(méi)有考慮句法分析等，譯文可讀性差，難以產(chǎn)生效益。1966年，美國(guó)自動(dòng)語(yǔ)言處理咨詢委員會(huì)發(fā)布《語(yǔ)言與機(jī)器》（）報(bào)告，否定了機(jī)器翻譯[16]，因?yàn)闄C(jī)器翻譯難以攻克“語(yǔ)義障礙”。隨后，機(jī)器翻譯研究陷入低潮。

60年代末開(kāi)始，機(jī)器翻譯研究開(kāi)始重視句法和語(yǔ)義，同時(shí)把句法和算法分開(kāi)。這一時(shí)期誕生的較為典型的機(jī)器翻譯系統(tǒng)是美國(guó)喬治敦大學(xué)的俄英機(jī)器翻譯系統(tǒng)SYSTRAN[17]和法國(guó)格勒諾布爾醫(yī)科大學(xué)的俄法機(jī)器翻譯系統(tǒng)ARIANE-78[18]。此外，加拿大的實(shí)用翻譯系統(tǒng)TAUM-METEO也具有里程碑意義[19]，它可以每天翻譯1500～2000篇天氣預(yù)報(bào)。由于此時(shí)期的機(jī)器翻譯采用了基于邏輯表示的“連接主義”學(xué)習(xí)系統(tǒng)、基于決策理論的學(xué)習(xí)技術(shù)和基于統(tǒng)計(jì)學(xué)的學(xué)習(xí)算法（如Earley算法、Beyesian算法），外加應(yīng)用了詞典和語(yǔ)料庫(kù)，故使句法成功率得到顯著提升，詞義消歧、多義詞選擇也得到明顯改善。

（2）機(jī)器學(xué)習(xí)與自然語(yǔ)言理解

70年代，自然語(yǔ)言理解研究取得突破，出現(xiàn)了多個(gè)利用程序推演進(jìn)行語(yǔ)義、語(yǔ)用和語(yǔ)境分析的系統(tǒng)，如PAM系統(tǒng)和SHRDLU系統(tǒng)[20]。其中，SHRDLU系統(tǒng)是1972年由美國(guó)麻省理工學(xué)院的Winograd[21]設(shè)計(jì)的，該系統(tǒng)較好地把句法、語(yǔ)義分析與邏輯推理結(jié)合起來(lái)，可以實(shí)現(xiàn)用自然語(yǔ)言指揮機(jī)器人擺弄積木[22]。

2 發(fā)展時(shí)期（1980～2000年）

80年代初至20世紀(jì)末是機(jī)器學(xué)習(xí)和語(yǔ)言智能快速發(fā)展的時(shí)期，學(xué)習(xí)理論、算法、語(yǔ)料庫(kù)、知識(shí)庫(kù)等新概念、新事物在這一時(shí)期不斷興起。其中，影響較大的機(jī)器學(xué)習(xí)理論和算法有：80年代的歸納學(xué)習(xí)（Inductive Learning）和決策樹(shù)（Decision Tree）算法、歸納邏輯程序設(shè)計(jì)（Inductive Logic Programming，ILP）算法、神經(jīng)網(wǎng)絡(luò)反向傳播（Back Propagation，BP）算法[23]等；90年代的統(tǒng)計(jì)學(xué)習(xí)（Statistical Learning）和支持向量機(jī)（Support Vector Machine，SVM）算法[24]、集成學(xué)習(xí)（Ensemble Learning）和Boosting、Bagging算法等。機(jī)器學(xué)習(xí)理論和算法的快速發(fā)展，推動(dòng)了自然語(yǔ)言處理、機(jī)器翻譯和人機(jī)對(duì)話等研究逐步走向成熟。

（1）機(jī)器學(xué)習(xí)與自然語(yǔ)言處理

在自然語(yǔ)言處理方面，億詞級(jí)的英國(guó)國(guó)家語(yǔ)料庫(kù)（British National Corpus，BNC）實(shí)現(xiàn)了自動(dòng)詞性標(biāo)注，為詞典編制、自然語(yǔ)言理解、機(jī)器翻譯奠定了基礎(chǔ)。BNC的自動(dòng)詞性標(biāo)注是基于概率統(tǒng)計(jì)進(jìn)行的標(biāo)注，準(zhǔn)確率能達(dá)到96%～97%。此外，世界上許多大學(xué)和研究機(jī)構(gòu)在90年代建立了不同語(yǔ)種的樹(shù)庫(kù)，其中建設(shè)最早、影響力最大的當(dāng)屬賓州樹(shù)庫(kù)（The Penn Treebank）。目前，樹(shù)庫(kù)實(shí)現(xiàn)了在線檢索和共享，谷歌和斯坦福大學(xué)等更是發(fā)起并建設(shè)了通用依存樹(shù)庫(kù)共享平臺(tái)①。

（2）機(jī)器學(xué)習(xí)與機(jī)器翻譯

統(tǒng)計(jì)方法除了可以應(yīng)用于詞性標(biāo)注、句法標(biāo)注，還可以應(yīng)用于機(jī)器翻譯。正如Hutchins所言，自1989年以來(lái)，基于規(guī)則、統(tǒng)計(jì)、實(shí)例、語(yǔ)料庫(kù)、知識(shí)庫(kù)的方法已經(jīng)把機(jī)器翻譯帶入了一個(gè)新紀(jì)元②。90年代初，IBM工程師Brown等[25]在不借助翻譯規(guī)則、術(shù)語(yǔ)庫(kù)的情況下，僅僅依靠平行語(yǔ)料庫(kù)和統(tǒng)計(jì)算法，短短幾年內(nèi)就構(gòu)建出了一個(gè)與SYSTRAN媲美的翻譯系統(tǒng)。

（3）機(jī)器學(xué)習(xí)與人機(jī)對(duì)話

90年代，語(yǔ)言智能方面取得的成功還包括自動(dòng)問(wèn)答系統(tǒng)和自動(dòng)語(yǔ)音識(shí)別系統(tǒng)。1993年，美國(guó)麻省理工學(xué)院的Katz及其同事開(kāi)發(fā)了世界上首個(gè)基于網(wǎng)頁(yè)的問(wèn)答系統(tǒng)START——目前，該系統(tǒng)可以回答幾百萬(wàn)個(gè)關(guān)于地點(diǎn)、影片、人物、字典上的定義等英語(yǔ)問(wèn)題。另外一個(gè)比較成熟的問(wèn)答系統(tǒng)是AnswerBus，這是一種多語(yǔ)種、多引擎的句級(jí)信息抽取系統(tǒng)，支持5種語(yǔ)言和5種搜索引擎。但是，START和AnswerBus這兩個(gè)問(wèn)答系統(tǒng)需要手工輸入，而自動(dòng)語(yǔ)音識(shí)別技術(shù)的發(fā)展可以有效解決手工輸入的問(wèn)題。1997年，IBM推出語(yǔ)音識(shí)別軟件ViaVoice，使用者可自行短時(shí)訓(xùn)練該軟件，使其適應(yīng)個(gè)體語(yǔ)音和語(yǔ)調(diào)。

3 繁榮時(shí)期（2000年至今）

在機(jī)器學(xué)習(xí)理論、算法等蓬勃發(fā)展的新世紀(jì)，語(yǔ)言智能進(jìn)入了前所未有的繁榮時(shí)期。進(jìn)入21世紀(jì)，學(xué)習(xí)理論從統(tǒng)計(jì)學(xué)習(xí)向集成學(xué)習(xí)、深度學(xué)習(xí)（Deep Learning）轉(zhuǎn)變，Adaboost、隨機(jī)森林（Random Forests）、卷積神經(jīng)網(wǎng)絡(luò)（Convulsion Neural Networks）、深度信念網(wǎng)絡(luò)（Deep Belief Networks）等算法應(yīng)運(yùn)而生并不斷迭代升級(jí)。2006年，加拿大多倫多大學(xué)的Hinton等[26]在《科學(xué)》（）雜志上發(fā)表關(guān)于運(yùn)用神經(jīng)網(wǎng)絡(luò)削減數(shù)據(jù)維度的文章，給出了訓(xùn)練深層網(wǎng)絡(luò)的新思路，從而拉開(kāi)了深度學(xué)習(xí)的大幕。如今，深度學(xué)習(xí)越來(lái)越火熱，常被應(yīng)用于工程實(shí)踐，如機(jī)器翻譯、自然語(yǔ)言理解和智能語(yǔ)音交互等。

（1）機(jī)器學(xué)習(xí)與機(jī)器翻譯

2012年11月，微軟在第十四屆“二十一世紀(jì)的計(jì)算”學(xué)術(shù)研討會(huì)上，公開(kāi)演示了全自動(dòng)同聲傳譯系統(tǒng)——演講者用英文發(fā)言，后臺(tái)的計(jì)算機(jī)即時(shí)自動(dòng)完成語(yǔ)音識(shí)別、英中機(jī)器翻譯和中文語(yǔ)音合成，運(yùn)行非常流暢，其中的關(guān)鍵支撐技術(shù)就是深度學(xué)習(xí)[27]。2016年9月，谷歌公布基于網(wǎng)頁(yè)和APP的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯（Google Neural Machine Translation，GNMT），結(jié)束了始于1989年的IBM基于短語(yǔ)的機(jī)器翻譯（Phrase-Based Machine Translation，PBMT）模式。與谷歌先前基于短語(yǔ)的機(jī)器翻譯相比，基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯將錯(cuò)誤率減少約60%[28]。

（2）機(jī)器學(xué)習(xí)與自然語(yǔ)言理解

2018年1月，在斯坦福大學(xué)發(fā)起的SQuAD（Stanford Question Answering Dataset）機(jī)器閱讀理解挑戰(zhàn)賽中，由微軟亞洲研究院和阿里巴巴iDST自然語(yǔ)言處理部提交的智能模型分別實(shí)現(xiàn)了82.650%、82.440%的精準(zhǔn)匹配，首次超越了人類于2016年創(chuàng)造的82.304%的精準(zhǔn)率。

（3）機(jī)器學(xué)習(xí)與智能語(yǔ)音交互

語(yǔ)音識(shí)別/合成、自然語(yǔ)音理解、知識(shí)庫(kù)檢索等技術(shù)的快速發(fā)展，使機(jī)器人已經(jīng)具備一定的智能語(yǔ)音交互功能。以美國(guó)的“索菲亞”為例，她不僅可以“逼真地”做出各種動(dòng)作與表情，還可以“幽默地”與人類交流與溝通，故自2015年4月誕生起就引起了人們的高度關(guān)注。

三機(jī)器學(xué)習(xí)應(yīng)用于語(yǔ)言智能的典型案例

微軟的“小冰”是目前全球最大的交互式人工智能系統(tǒng)之一。該系統(tǒng)不僅實(shí)現(xiàn)了智能情感聊天，而且做到了智能作詩(shī)、智能新聞寫作。從2014年5月29日首次亮相，到2017年8月22日第五版發(fā)布，“小冰”已成為流量規(guī)模最大、應(yīng)用范圍最廣的情感社交聊天機(jī)器人。豐富的實(shí)戰(zhàn)經(jīng)驗(yàn)和良好的業(yè)績(jī)表現(xiàn)，為“小冰”在更多語(yǔ)言場(chǎng)景中的應(yīng)用奠定了基礎(chǔ)。目前，“小冰”已成功登陸微信、微博、Facebook、中國(guó)東方航空、東方衛(wèi)視、Window 10等應(yīng)用平臺(tái)。此外，微軟還開(kāi)發(fā)了“小娜”（Cortana）、日本版的“小冰凜菜”（Rinna）和美國(guó)版的“Zo”等聊天機(jī)器人。“小冰”等之所以能實(shí)現(xiàn)智能情感聊天，離不開(kāi)專門用途語(yǔ)料庫(kù)的建設(shè)、深度學(xué)習(xí)理論的支撐和深度神經(jīng)網(wǎng)絡(luò)技術(shù)的應(yīng)用。

在智能作詩(shī)方面，由“小冰”創(chuàng)作的現(xiàn)代詩(shī)集《陽(yáng)光失了玻璃窗》于2017年5月19日正式出版。該詩(shī)集共收錄139首詩(shī)，精選自“小冰”創(chuàng)作的70,928首詩(shī)。這是人類歷史上第一部100%人工智能詩(shī)集，運(yùn)用的正是深度神經(jīng)網(wǎng)絡(luò)等算法。在模擬人類作詩(shī)過(guò)程的基礎(chǔ)上，經(jīng)過(guò)上萬(wàn)次的訓(xùn)練，“小冰”才具有了詩(shī)歌創(chuàng)作的能力。除“小冰”外，由清華大學(xué)語(yǔ)音和語(yǔ)言技術(shù)中心開(kāi)發(fā)的“薇薇”也具有這種作詩(shī)能力。2016年3月20日，該中心宣布，他們的作詩(shī)機(jī)器人“薇薇”通過(guò)了中國(guó)社會(huì)科學(xué)院唐詩(shī)專家的評(píng)定和“圖靈測(cè)試”，即“薇薇”創(chuàng)作的古詩(shī)詞中，有30%以上（31%）被認(rèn)為是人創(chuàng)作而非機(jī)器創(chuàng)作的。

而在智能新聞寫作方面，“小冰”自2016年12月起正式入職《錢江晚報(bào)》，成為該報(bào)的一名特約記者。與人類記者相比，機(jī)器記者雖然存在問(wèn)題思考不夠深刻、情感投入不夠豐富等弱點(diǎn)，但在速度和準(zhǔn)度方面卻頗有優(yōu)勢(shì)。正因?yàn)槿绱?，研究者紛紛進(jìn)行了寫作機(jī)器人的研發(fā)。2009年10月11日，美國(guó)西北大學(xué)研發(fā)的StatsMonkey系統(tǒng)曾撰寫了一篇關(guān)于棒球比賽的新聞稿。此后，世界上誕生了多款寫作機(jī)器人，如國(guó)外《洛杉磯時(shí)報(bào)》的Quakebot、美國(guó)聯(lián)合通訊社（簡(jiǎn)稱“美聯(lián)社”）的Wordsmith和《紐約時(shí)報(bào)》的Blossombot等，國(guó)內(nèi)騰訊的Dreamwriter、新華社的“快筆小新”和人民日?qǐng)?bào)的“小融”等。這些機(jī)器人之所以能夠撰寫稿件，其背后的技術(shù)支撐就是大數(shù)據(jù)和機(jī)器學(xué)習(xí)算法。

四機(jī)器學(xué)習(xí)應(yīng)用于語(yǔ)言智能的研究展望

隨著計(jì)算機(jī)硬件尤其是神經(jīng)網(wǎng)絡(luò)處理單元（Neural-network Processing Unit，NPU）的研發(fā)與改進(jìn)，機(jī)器學(xué)習(xí)會(huì)變得更加強(qiáng)大，并觸發(fā)包括語(yǔ)言智能在內(nèi)的人工智能領(lǐng)域的更大變革。基于對(duì)計(jì)算機(jī)硬件、機(jī)器學(xué)習(xí)理論和算法等發(fā)展態(tài)勢(shì)的分析與研判，本研究將機(jī)器學(xué)習(xí)應(yīng)用于語(yǔ)言智能的未來(lái)趨勢(shì)總結(jié)如下：

①機(jī)器學(xué)習(xí)方式的升級(jí)——監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)將向無(wú)監(jiān)督學(xué)習(xí)、預(yù)測(cè)學(xué)習(xí)（Predictive Learning）轉(zhuǎn)變。2017年5月，谷歌發(fā)布自動(dòng)機(jī)器學(xué)習(xí)（Auto Machine Learning，AutoML）系統(tǒng)。該系統(tǒng)的獨(dú)特之處在于，機(jī)器成了獨(dú)立于人類之外的另一架構(gòu)師，它可以自主選擇算法模型、模型參數(shù)，并自動(dòng)評(píng)估模型質(zhì)量，以獲得更好的結(jié)果。目前，該系統(tǒng)設(shè)計(jì)的模型與專業(yè)研發(fā)工程師設(shè)計(jì)的模型不分伯仲，可以預(yù)計(jì)，該系統(tǒng)將逐步取代部分機(jī)器學(xué)習(xí)研發(fā)工程師。此外，由美國(guó)紐約大學(xué)LeCun提出的預(yù)測(cè)學(xué)習(xí)③讓機(jī)器擁有了“共識(shí)”，通過(guò)使用機(jī)器，給可以獲得的任意信息建模，來(lái)預(yù)測(cè)感知對(duì)象的未來(lái)，從而實(shí)現(xiàn)推理和規(guī)劃的結(jié)合?？傊?，未來(lái)的機(jī)器學(xué)習(xí)將開(kāi)啟以自主學(xué)習(xí)為主、以人工干預(yù)為補(bǔ)充的新局面。

②算法的換代——機(jī)器學(xué)習(xí)算法將改變?cè)瓉?lái)單行、單任務(wù)的做法，逐步朝著并行化、層次化、模塊化的方向發(fā)展。算法系統(tǒng)會(huì)將復(fù)雜的任務(wù)拆分成若干簡(jiǎn)單的子任務(wù)，交由不同的算法模塊來(lái)執(zhí)行，這樣既可發(fā)揮每個(gè)模塊的專長(zhǎng)，也可進(jìn)行任務(wù)的并行化運(yùn)算，減少任務(wù)響應(yīng)時(shí)間。此外，根據(jù)神經(jīng)元理論，建立深層神經(jīng)網(wǎng)絡(luò)算法，可以實(shí)現(xiàn)對(duì)成千上萬(wàn)互聯(lián)互通神經(jīng)元的監(jiān)測(cè)。

③語(yǔ)言智能水平的提升——當(dāng)機(jī)器學(xué)習(xí)理論、算法的進(jìn)步映射到語(yǔ)言智能上時(shí)，就會(huì)提升語(yǔ)言智能的水平。李宇明[29]列舉了機(jī)器給人類語(yǔ)言生活帶來(lái)變革的九大職業(yè)，其中包括講解員、引導(dǎo)員、后臺(tái)客服、翻譯、秘書、記者等，而這些職業(yè)中90%的工作在未來(lái)十年將被機(jī)器代替。以新聞?dòng)浾叩墓ぷ鳛槔磥?lái)的機(jī)器不僅能夠組稿、寫稿，還可以幫助處理假新聞。

④產(chǎn)業(yè)規(guī)模的擴(kuò)大——語(yǔ)言智能的應(yīng)用場(chǎng)景將不再局限于機(jī)器翻譯、人機(jī)對(duì)話等，而是不斷向智能家具、語(yǔ)音導(dǎo)航、可穿戴設(shè)備、教育等蔓延。《新一代人工智能發(fā)展白皮書（2017）》顯示：2017年，全球人工智能核心產(chǎn)業(yè)規(guī)模已超過(guò)370億美元，預(yù)計(jì)2020年將超過(guò)1300億美元[30]?？梢灶A(yù)見(jiàn)，包括語(yǔ)言智能在內(nèi)的智能產(chǎn)業(yè)將成為未來(lái)企業(yè)巨頭競(jìng)爭(zhēng)的制高點(diǎn)，也將引領(lǐng)世界經(jīng)濟(jì)邁向新征程。

五結(jié)語(yǔ)

通過(guò)以蒸汽機(jī)、電力和計(jì)算機(jī)為技術(shù)標(biāo)志的三次工業(yè)革命，人類社會(huì)已相繼完成了機(jī)械化、電氣化和信息化。而在創(chuàng)新工場(chǎng)董事長(zhǎng)、微軟前全球副總裁李開(kāi)復(fù)等[31]看來(lái)，人工智能極有可能成為下一次工業(yè)革命的核心驅(qū)動(dòng)力。歸根結(jié)底，人工智能就是讓計(jì)算機(jī)模擬人類的智能行為，來(lái)完成以往需要人類智力才能完成的工作。目前，人工智能已被應(yīng)用于自動(dòng)駕駛、疾病診斷、藝術(shù)創(chuàng)作、智能金融等領(lǐng)域，Turing[32]更是預(yù)言：機(jī)器最終會(huì)與人在所有智能領(lǐng)域里競(jìng)爭(zhēng)。

在語(yǔ)言生活領(lǐng)域，機(jī)器正與語(yǔ)言工作者一起參與人類的生產(chǎn)、生活，并已凸顯其速度快、抗干擾強(qiáng)等優(yōu)勢(shì)。機(jī)器可以成為人類語(yǔ)言生活的助手，并為縮小人類溝通的鴻溝、減少人際間的隔閡作出貢獻(xiàn)。當(dāng)然，機(jī)器能夠輔助人類完成一定的交際任務(wù)，離不開(kāi)數(shù)據(jù)科學(xué)家、工程師、統(tǒng)計(jì)學(xué)家等專家的集體智慧。語(yǔ)言智能技術(shù)的不斷發(fā)展，對(duì)這些專家提出了更高的要求。未來(lái)，專家們要做的不僅僅是改進(jìn)和升級(jí)機(jī)器學(xué)習(xí)理論、算法，還要讓未來(lái)的語(yǔ)言智能更富靈性、更具感染力。盡管語(yǔ)言智能發(fā)展之路還很漫長(zhǎng)，遇到的阻力也不少，但我們有理由相信：語(yǔ)言智能的明天肯定會(huì)更好！

[1][29]李宇明.迎接與機(jī)器人共處的時(shí)代[N].光明日?qǐng)?bào),2017-8-6(12).

[2]Simon H A. Why should machines learn?[A]. Michalski R S, Carbonell J G, Mitchell T M. Machine learning: An artificial intelligence approach[C]. Berlin: Springer-Verlag, 1983:28.

[3][14]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016:18、22.

[4]Samuel A L. Some studies in machine learning using the game of checkers[J]. IBM Journal on Research and Development, 1959,(3):210-229.

[5](美)Mitchell T M著.曾華軍,張銀奎,等譯.機(jī)器學(xué)習(xí)[M].北京:機(jī)械工業(yè)出版社,2003:2-3.

[6][12]Mooney R J. Machine learning[A]. Mitkov R. The Oxford handbook of computational linguistics[C]. Oxford: Oxford University Press, 2003:376、386-392.

[7][11]Carbonell J G, Michalski R S, Mitchell T M. An overview of machine learning[A]. Michalski R S, Carbonell J G, Mitchell T M. Machine learning: An artificial intelligence approach[C]. Berlin: Springer-Verlag, 1983:7、13.

[8]陳文偉,陳晟.知識(shí)工程與知識(shí)管理[M].北京:清華大學(xué)出版社,2010:166.

[9]劉潤(rùn)清.外語(yǔ)教學(xué)中的科研方法(修訂版)[M].北京:外語(yǔ)教學(xué)與研究出版社,2015:492.

[10]楊忠祥.機(jī)器學(xué)習(xí)研究的發(fā)展現(xiàn)狀與動(dòng)向[J].信息與控制,1987,(1):34-37.

[13][32]Turing A M. Computing machinery and intelligence[J]. Mind, 1950,(236):433-460.

[15]劉涌泉.計(jì)算語(yǔ)言學(xué)在我國(guó)的發(fā)展[J].現(xiàn)代語(yǔ)文:高中版,2002,(7):44-45.

[16]ALPAC. Languages and machines: Computers in translation and linguistics[R]. Washington, D. C.: National Academy of Sciences, 1966:32.

[17][18]劉穎.計(jì)算語(yǔ)言學(xué)(修訂版)[M].北京:清華大學(xué)出版社,2014:11、12.

[19]馮志偉.機(jī)器翻譯與語(yǔ)言研究(上)[J].術(shù)語(yǔ)標(biāo)準(zhǔn)化與信息技術(shù),2007,(3):39-43.

[20]馮志偉.計(jì)算語(yǔ)言學(xué)的歷史回顧與現(xiàn)狀分析[J].外國(guó)語(yǔ),2011,(1):9-17.

[21]Winograd T. Understanding natural language[J]. Cognitive Psychology, 1972,(1):1-191.

[22](美)Jurafsky D, Martin J H著.馮志偉,孫樂(lè)譯.自然語(yǔ)言處理綜論[M].北京:電子工業(yè)出版社,2005:9.

[23]Rumelhart D E, Hinton G E, Williams R J. Learning internal representations by error propagation[A]. Rumelhart D E, McClelland J L. Parallel distributed processing: Explorations in the microstructure of cognition[C]. Cambridge, MA: The MIT Press, 1986:318-362.

[24]Cortes C, Vapnik V N. Support-vector networks[J]. Machine Learning, 1995,(3):273-297.

[25]Brown P F, Pietra V J D, Pietra S A D, et al. The mathematics of statistical machine translation: Parameter estimation[J]. Computational Linguistics, 1993,(2):263-311.

[26]Hinton G, Salakhutdinov R. Reducing the dimensionality of data with neural networks[J]. Science, 2006,(5786):504-507.

[27]盧鶇翔.DNN與微軟同聲傳譯系統(tǒng)背后的故事[J].程序員,2013,(6):30-33.

[28]Wu Y H, Schuster M, Chen Z F, et al. Google’s neural machine translation system: Bridging the gap between human and machine translation[OL].

[30]李颋,周珉峰,馬良,等.新一代人工智能發(fā)展白皮書(2017)[R].北京:中國(guó)電子學(xué)會(huì),2018:30-31.

[31]李開(kāi)復(fù),王詠剛.人工智能[M].北京:文化發(fā)展出版社,2017:146.

①通用依存樹(shù)庫(kù)共享平臺(tái)的訪問(wèn)網(wǎng)址：http://universaldependencies.org/。

②此觀點(diǎn)源自1993年7月英國(guó)學(xué)者Hutchins在日本神戶召開(kāi)的第四屆機(jī)器翻譯高層會(huì)議上所作的報(bào)告。

③2016年12月，在西班牙巴塞羅那舉辦的神經(jīng)信息處理系統(tǒng)（Neural Information Processing Systems，NIPS）年會(huì)上，LeCun受邀發(fā)表主旨演講，并在演講中提出用“預(yù)測(cè)學(xué)習(xí)”代替“無(wú)監(jiān)督學(xué)習(xí)”這一傳統(tǒng)分類。

A Review on the Application of Machine Learning in Language Intelligence

WANG Lian-zhu1,2

Firstly, this paper defined the concept of Machine Learning (ML) and Language Intelligence (LI). Then, this paper divided the research of the application of ML in LI into three periods of budding period, progressive period and flourishing period, and further summarized the application situations of ML in LI at different history stages. In order to discuss the technical principle behind LI robot, this paper took the Microsoft’s “Xiaobing” as an example to analyze the role of ML theory and algorithm in emotional chat, intelligent poetry and intelligent news writing. Finally, the future development of applying ML in LI was presented from four perspectives of ML mode, algorithm, LI level and industry scale, expecting to provide reference for the future ML research and the LI industry development.

machine learning; language intelligence; artificial intelligence; machine translation

G40-057

1009—8097（2018）09—0066—07

10.3969/j.issn.1009-8097.2018.09.010

本文為教育部人文社會(huì)科學(xué)研究青年基金項(xiàng)目“基于歷時(shí)英漢平行語(yǔ)料庫(kù)的醫(yī)學(xué)文獻(xiàn)翻譯研究”（項(xiàng)目編號(hào)：14YJC740084）、河南省哲學(xué)社會(huì)科學(xué)規(guī)劃項(xiàng)目“醫(yī)學(xué)文獻(xiàn)歷時(shí)英漢平行語(yǔ)料庫(kù)的創(chuàng)建、加工及應(yīng)用研究”（項(xiàng)目編號(hào)：2016BYY011）的階段性研究成果。

王連柱，北京外國(guó)語(yǔ)大學(xué)在讀博士，新鄉(xiāng)醫(yī)學(xué)院講師，研究方向?yàn)檎Z(yǔ)料庫(kù)語(yǔ)言學(xué)、計(jì)算語(yǔ)言學(xué)等，郵箱為lianzhuwang@126.com。

2018年3月31日

編輯：小米

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

機(jī)器學(xué)習(xí)應(yīng)用于語(yǔ)言智能的研究綜述*

一 概念界定

1 機(jī)器學(xué)習(xí)

2 語(yǔ)言智能

二 機(jī)器學(xué)習(xí)應(yīng)用于語(yǔ)言智能的研究歷程

1 萌芽時(shí)期（1980年以前）

2 發(fā)展時(shí)期（1980～2000年）

3 繁榮時(shí)期（2000年至今）

三 機(jī)器學(xué)習(xí)應(yīng)用于語(yǔ)言智能的典型案例

四 機(jī)器學(xué)習(xí)應(yīng)用于語(yǔ)言智能的研究展望

五 結(jié)語(yǔ)

一概念界定

二機(jī)器學(xué)習(xí)應(yīng)用于語(yǔ)言智能的研究歷程

三機(jī)器學(xué)習(xí)應(yīng)用于語(yǔ)言智能的典型案例

四機(jī)器學(xué)習(xí)應(yīng)用于語(yǔ)言智能的研究展望

五結(jié)語(yǔ)