蔣 萍
(廣西警察學(xué)院,廣西 南寧 530028)
目前,隨著人工智能在深度學(xué)習(xí)方面的技術(shù)越來越可靠成熟,圖像識別、圖像分類、圖像檢測、自動駕駛、智能安防等方面已開始廣泛應(yīng)用深度神經(jīng)網(wǎng)絡(luò)技術(shù)。作為人工智能的皇冠“明珠”,語言智能如果可以實現(xiàn)突破,那么人工智能則可以得到進(jìn)一步長足發(fā)展。近些年來,自然語言處理技術(shù)取得了突破性進(jìn)展,尤其是基于深度學(xué)習(xí)方面自然語言處理技術(shù)在語音識別、智能問答、情感分析等領(lǐng)域都得到了廣泛應(yīng)用,未來將會發(fā)揮出巨大的優(yōu)勢。
(1)基本概念。深度學(xué)習(xí)(Deep Learning)是當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域研究的一個熱點(diǎn),針對深度學(xué)習(xí)的研究,來源于人工神經(jīng)網(wǎng)絡(luò)研究,主要以通過建立深層的神經(jīng)網(wǎng)絡(luò)來模擬人腦運(yùn)轉(zhuǎn)機(jī)制,從而實現(xiàn)對圖像、文本和語音的解析。
(2)結(jié)構(gòu)模式。深度學(xué)習(xí)的結(jié)構(gòu)模式可以根據(jù)模型和技術(shù)的應(yīng)用劃分成為生成性深度模式、區(qū)分性深度模式和混合型模型:生成性深度模式與傳統(tǒng)型神經(jīng)分區(qū)網(wǎng)絡(luò)有所不同,該模式是通過講述觀測數(shù)據(jù)以及相應(yīng)的聯(lián)合概率分布來充分展現(xiàn)數(shù)據(jù)高階的相關(guān)特點(diǎn);區(qū)分性深度模式,卷積神經(jīng)網(wǎng)絡(luò)就是屬于區(qū)分性訓(xùn)練,它能夠真正實踐多層成真的網(wǎng)絡(luò)結(jié)構(gòu)算法;混合型模型是區(qū)分更佳性的目標(biāo),它包含生成性部分和區(qū)分性部分。
(1)基本概念。自然語言處理技術(shù)(NLP),主要是將機(jī)器學(xué)習(xí)算法應(yīng)用于語音和文本。譬如,可以使用NLP 來創(chuàng)建機(jī)器翻譯、語音識別、垃圾郵件檢測、自動填寫地址、命名實體識別等。如今,我們大多數(shù)人都擁有具有語音識別功能的智能手機(jī),這些智能手機(jī)就是使用 NLP 來理解所說的內(nèi)容。此外,許多人使用筆記本電腦,其操作系統(tǒng)也具有內(nèi)置的語音識別功能。
(2)應(yīng)用領(lǐng)域。針對深度學(xué)習(xí)方面的自然語言處理技術(shù)比針對傳統(tǒng)機(jī)器學(xué)習(xí)方面的自然語言處理技術(shù)更具備應(yīng)用的優(yōu)勢,它更適用于復(fù)雜的自然語言處理領(lǐng)域,從而促使 NLP 技術(shù)在智能問答、信息檢索、機(jī)器翻譯等方面能夠發(fā)揮出更大的優(yōu)勢。目前,該技術(shù)主要用在檢索領(lǐng)域、數(shù)據(jù)整合領(lǐng)域和語音識別領(lǐng)域等。
首先,該技術(shù)應(yīng)用于檢索領(lǐng)域能夠大大提高檢索的精準(zhǔn)度,而且能夠促使引擎更加精準(zhǔn)的理解用戶的需求、更加智能化。其次,該技術(shù)在數(shù)據(jù)整合領(lǐng)域的應(yīng)用能夠提高數(shù)據(jù)處理的質(zhì)量、優(yōu)化輸出指令。最后,語音識別領(lǐng)域運(yùn)用中,該技術(shù)能夠通過語音對智能設(shè)備進(jìn)行操控、提升語音識別系統(tǒng)的有效性。
深度學(xué)習(xí)在自然語言處理運(yùn)用中有一定的優(yōu)勢,通常一般將單詞表示為向量,將文本或句子表示為單詞的向量序列,進(jìn)而完成對于語言的分類和理解過程。與傳統(tǒng)的機(jī)器學(xué)習(xí)相比,該技術(shù)有著自身優(yōu)勢:一是深度學(xué)習(xí)能夠具備更好性能的循環(huán)神經(jīng)網(wǎng)絡(luò)( RNN)、模型如卷積神經(jīng)網(wǎng)絡(luò) (CNN)、長短記憶網(wǎng)絡(luò)( LSTM)等,可以代替現(xiàn)有的線性模型,進(jìn)而可以實現(xiàn)同等或者更好的性能。二是深度學(xué)習(xí)可以以詞和向量為前提,學(xué)習(xí)語言的特征并且掌握更高層次和更加抽象的語言特征,進(jìn)而滿足特征工程的自然語言處理。三是深度學(xué)習(xí)可以通過神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)高層次特性而無需專家人工定義訓(xùn)練集。
例如,在短文情感分析中,基于傳統(tǒng)機(jī)器學(xué)習(xí)的自然語言處理技術(shù)往往會出現(xiàn)由于多義詞而產(chǎn)生歧義,以及上下文信息的缺乏問題導(dǎo)致對于文本情感分析結(jié)果的準(zhǔn)確性降低。但是基于深度學(xué)習(xí)方面的自然語言處理技術(shù)能夠?qū)鹘y(tǒng)基于單詞層面的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化,通過加入單詞和句子方面的特征而構(gòu)建起卷積神經(jīng)網(wǎng)絡(luò)模型,通過輸入向量化的句子矩陣而提取更高向量度的特征,能夠從句子的整體出發(fā)來理解詞語的含義和整個句子的語義,最終實現(xiàn)情感分析的全過程。由此可見,基于深度學(xué)習(xí)方面的自然語言處理技術(shù)能夠在減少網(wǎng)絡(luò)模型工作量的基礎(chǔ)之上提高對比分析的性能。
首先,詞向量技術(shù)的出現(xiàn)加快了深度學(xué)習(xí)方面自然語言處理技術(shù)的應(yīng)用和推廣,大大提升了情感分析、語音識別等自然語言處理任務(wù)的準(zhǔn)確率。其次,深度學(xué)習(xí)的識別技術(shù)取代了原有 CRF 計算法,其構(gòu)建的模型,只需要對訓(xùn)練數(shù)據(jù)做好標(biāo)記,就可以通過標(biāo)記的上下文,找出具有相似的實體以及類型。再次,通過運(yùn)用 CNN算法,促使文本自動分類優(yōu)勢逐漸凸顯。Yoon Kim 構(gòu)建的自動分類卷積神經(jīng)網(wǎng)絡(luò)( CNN),可以提取文本特征,然后通過全連接神經(jīng)網(wǎng)絡(luò)層開展文本分類計算。最后,情感分析方面,以往對于情感傾向的分析需要借助句子中相應(yīng)的詞匯進(jìn)行判斷,而深度學(xué)習(xí)模型的應(yīng)用能夠充分融合情感分類和詞向量的算法,并且借助深度學(xué)習(xí)模型實現(xiàn)觀點(diǎn)級的情感分析以及文檔級。
深度學(xué)習(xí)可以用完全相同的一套工具、技術(shù)和方法,在相同的解題框架下以超高的準(zhǔn)確性解決不同領(lǐng)域的不同問題。自然語言處理方面,深度學(xué)習(xí)通過以詞義為起點(diǎn),學(xué)習(xí)單詞的詞向量表示,進(jìn)而構(gòu)建出完整的語義空間。雖然與語音領(lǐng)域和圖像方面取得的成就相比,深度學(xué)習(xí)在自然語言處理方面還沒有能夠?qū)崿F(xiàn)重大突破,但是在很多相關(guān)領(lǐng)域已經(jīng)取得了很好的效果。
(1)在詞法的應(yīng)用上:深度學(xué)習(xí)將每一個詞根視為向量,通過神經(jīng)網(wǎng)絡(luò)將不同的向量聯(lián)系在一起組成單詞,這樣就可以通過小的語言單位構(gòu)建更大的語言單元。
(2)在句法的應(yīng)用上:深度學(xué)習(xí)能夠?qū)W習(xí)到句子的不同組成部分,也就是句子結(jié)構(gòu)。
(3)在語義的應(yīng)用上:深度學(xué)習(xí)能夠使用向量表達(dá)短句的含義,進(jìn)而通過神經(jīng)元函數(shù)將不同的短句連接起來,以便構(gòu)成更長的句子進(jìn)行自主的學(xué)習(xí)。
(4)在情緒的分析上:結(jié)構(gòu)遞歸的神經(jīng)網(wǎng)絡(luò)能夠自主捕獲到句子中的所有字節(jié),從而能夠正確判斷句子的情緒。
在自然語言處理技術(shù)得到了突飛猛進(jìn)發(fā)展的背景下,卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)等基礎(chǔ)模型的相繼建立促使該技術(shù)在機(jī)器翻譯、問答交互等各方面都有了很大的進(jìn)展,但是仍然面臨著很多的問題,主要表現(xiàn)在以下幾個方面:
(1)自然語言的不確定性帶來的挑戰(zhàn)。人類語言的結(jié)構(gòu)和邏輯關(guān)系非常的復(fù)雜,一詞多義和不同語氣代表的意思截然不同,這些都是常見的現(xiàn)象。即便采取向量技術(shù)作為原始輸入信號,但是也不能夠保證將原始的信息分毫不差的輸入到學(xué)習(xí)的模型之中,而且因為自然語言的不確定性帶來的誤差也會隨著不同間層的傳遞而會被局部放大,想要突破這種不確定性帶來的誤差就需要結(jié)合語言的語境。因此,突破自然語言的局限性,結(jié)合上下文開展深層語義的理解將是未來重點(diǎn)的發(fā)展方向。
(2)大規(guī)模語料數(shù)據(jù)建設(shè)面臨的挑戰(zhàn)。自然語言處理技術(shù)以統(tǒng)計機(jī)器學(xué)作為基礎(chǔ),因而離不開大規(guī)模的語料庫的支撐,而語料庫則需要人工建立,比如PennTreebank、WordNet 等。但是,不論哪種類型和規(guī)模的語料庫都不可能囊括某一個領(lǐng)域的所有案例。不僅如此,語料庫的劃分過細(xì)就會導(dǎo)致信息量過于龐大,相反,如果過粗劃分資料庫則沒有辦法很準(zhǔn)確描述語言,從而導(dǎo)致嚴(yán)重的統(tǒng)計數(shù)據(jù)稀疏問題發(fā)生。
(3)語義分析面臨的挑戰(zhàn)。自然語言處理面臨的又一個大的挑戰(zhàn)是怎樣可以更加精準(zhǔn)表達(dá)語義,目前,常用兩種語義分析方法有基于統(tǒng)計學(xué)的語義分析及基于語義規(guī)則的語義分析。雖然當(dāng)前這兩種方法都可以進(jìn)行語義推導(dǎo)和準(zhǔn)確判別信息之間的關(guān)聯(lián),但是都不能夠完全覆蓋全部語言現(xiàn)象,無法處理不確定事件存在限制和缺陷,因此,知識及建立語義規(guī)則是自然語言處理技術(shù)的難點(diǎn)。不僅如此,基于統(tǒng)計學(xué)的語義分析方法需要大規(guī)模語料庫的支持,那么就很容易受到數(shù)據(jù)稀疏和噪聲的干擾,正如之前所提及的,語義分析仍然是一大難題。
自然語言處理技術(shù)在深度學(xué)習(xí)方面發(fā)展還需要在多模態(tài)、生成、預(yù)練習(xí)和神經(jīng)符號處理等幾個方面進(jìn)行探索,而其中的關(guān)鍵還是在于新的神經(jīng)網(wǎng)絡(luò)模型的開發(fā)。
首先,深度學(xué)習(xí)在圖像、語音、語言幾個領(lǐng)域的研究相對比較獨(dú)立,在今后通過深度學(xué)習(xí)把它們聯(lián)系在一起,比如,卷積神經(jīng)網(wǎng)絡(luò)的跨領(lǐng)域使用;跨模態(tài)的信息處理,看圖說話就是一個較為典型的例子,多模態(tài)的信息處理在未來還有很大的發(fā)展空間,在未來還會出現(xiàn)很多新的技術(shù)以及新的應(yīng)用。其次,生成是深度學(xué)習(xí)給自然語言處理技術(shù)帶來的重要變革,目前訓(xùn)練語料充分的機(jī)器翻譯(比如新聞翻譯)已經(jīng)可以使用,而圍繞著生成的技術(shù)創(chuàng)新還存在很大的潛力。再次,預(yù)練習(xí)是指用大量的無標(biāo)注數(shù)據(jù),實現(xiàn)訓(xùn)練語言表示模型,然后用于各種語言處理任務(wù)。目前,預(yù)練習(xí)的語言表示模型BERT 用于不同的語言處理任務(wù),促使正確率得到大幅度提升。無標(biāo)注數(shù)據(jù)都是大量存在的,預(yù)練習(xí)技術(shù)在促進(jìn)自然語言處理發(fā)展的前景也是非??捎^的。最后,神經(jīng)符號樹立能夠?qū)⑸窠?jīng)處理和符號處理進(jìn)行結(jié)合,進(jìn)而實現(xiàn)更加強(qiáng)大的語言處理能力,可以認(rèn)為神經(jīng)處理與符號處理相對應(yīng)著人的下意識和意識層面的信息處理,這兩種處理是完全不同的特性,將其結(jié)合并不是一件簡單的事情,但是一旦取得突破,將會帶來革命性的進(jìn)步。
深度學(xué)習(xí)在圖像、聲音和語言等領(lǐng)域都產(chǎn)生了深遠(yuǎn)的影響,但是基于深度學(xué)習(xí)的自然語言處理技術(shù)仍存在一定問題,因此,在未來的研究工作中需要不斷的進(jìn)行研究,相信伴隨著計算能力的不斷增強(qiáng)和訓(xùn)練數(shù)據(jù)的進(jìn)一步增多,未來該技術(shù)一定能夠得到進(jìn)一步突破。