• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      深度學(xué)習(xí)在漢語語義分析的應(yīng)用與發(fā)展趨勢

      2019-09-28 01:31:34王睿怡羅森林吳舟婷潘麗敏
      計算機技術(shù)與發(fā)展 2019年9期
      關(guān)鍵詞:知識庫語料庫語義

      王睿怡,羅森林,吳舟婷,潘麗敏

      (北京理工大學(xué) 信息系統(tǒng)及安全對抗實驗中心,北京 100081)

      0 引 言

      人工智能的發(fā)展可分為感知智能和認知智能兩個階段。近年來,隨著大數(shù)據(jù)技術(shù)和以深度學(xué)習(xí)為代表的機器學(xué)習(xí)技術(shù)的迅猛發(fā)展,人工智能在感知智能階段進展飛速,在圖像識別、語音識別等任務(wù)中均可達到人類專家的水平。然而,在認知智能階段,尤其是在自然語言理解方面的發(fā)展仍較為有限。與人類豐富的語言經(jīng)驗、語言知識儲備相比,僅僅依靠基于數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)很難產(chǎn)生真正的智能。為了打破深度學(xué)習(xí)的性能瓶頸,嘗試進行語義分析與深度學(xué)習(xí)模型的結(jié)合,將成為人工智能在認知功能方面的下一個突破口。

      為了將語言知識運用到機器學(xué)習(xí)的算法當中,首先需要將現(xiàn)有的語言知識量化為可直接與計算機應(yīng)用相結(jié)合的量化模型,即開展語義體系、語義知識庫構(gòu)建等工作。研究者借鑒國外的經(jīng)典語義理論,結(jié)合漢語自身的語義學(xué)基礎(chǔ),研究出適合中文的漢語語義體系。漢語語義知識庫是通過利用漢語語義體系對原始語料庫的加工、以形式化結(jié)構(gòu)來描述漢語語言的一種語義資源庫。例如,董振東的知網(wǎng)(HowNet)、袁毓林的論元系統(tǒng)、起源于格語法的謂詞-論元結(jié)構(gòu)、漢語語義依存分析和漢語句義結(jié)構(gòu)分析等。

      漢語語義分析是從海量的中文文本信息中挖掘語義信息,以此提供智能的知識服務(wù)。研究者選取特定的漢語語料、結(jié)合語義體系的標注規(guī)則來完成相應(yīng)漢語語義知識庫的構(gòu)建工作,并結(jié)合統(tǒng)計知識進行漢語語義自動分析。早期,漢語語義分析遵循傳統(tǒng)機器學(xué)習(xí)的步驟,即進行特征構(gòu)建、特征抽取、特征選擇和傳統(tǒng)機器學(xué)習(xí)模型的訓(xùn)練。隨著訓(xùn)練數(shù)據(jù)量的增大以及計算機計算能力的提高,研究者發(fā)現(xiàn)深度學(xué)習(xí)模型可以從大量原始數(shù)據(jù)自動提取構(gòu)建特征,而不需要進行特征工程,并在特定領(lǐng)域任務(wù)中有很好的效果。因此,研究者開始嘗試將深度學(xué)習(xí)模型應(yīng)用到漢語語義自動分析的研究上,利用深度學(xué)習(xí)模型來自動提取有效的特征,從而完成漢語語義自動分析任務(wù)。

      雖然目前深度學(xué)習(xí)模型在自然語言處理的多個任務(wù)中取得了不錯的效果,但是深度學(xué)習(xí)模型的不可解釋性以及缺乏標簽數(shù)據(jù)的問題也一直無法得到解決。在深度學(xué)習(xí)模型中融合語義分析的基礎(chǔ)研究,能夠為任務(wù)提供更深層的語義先驗信息,增強深度學(xué)習(xí)模型的可解釋性和泛化性,讓機器更好地理解人的語言,為人類提供更智能的服務(wù)。因此,研究者對在深度學(xué)習(xí)模型中融合先驗語義信息、提高深度學(xué)習(xí)模型可解釋性做了很多新的嘗試,將融合多元知識庫應(yīng)用在深度學(xué)習(xí)模型中,為解決分析系統(tǒng)的可擴展性進行很多新的探索。

      文中將按照漢語語義分析發(fā)展的主線,概要介紹漢語語義分析中的語義體系及其對應(yīng)的語義知識庫,重點闡述漢語語義分析的自動分析方法的研究情況,并介紹融合先驗語義信息的深度學(xué)習(xí)模型的應(yīng)用研究,最后對漢語語義分析存在的問題和發(fā)展進行分析和展望。

      1 漢語語義知識庫

      研究者對漢語語義結(jié)構(gòu)進行研究,得到各具特點的漢語語義體系,并希望通過這些語義體系制定的規(guī)則,將漢語的語義轉(zhuǎn)換成計算機可處理的結(jié)構(gòu)化信息。計算機想要通過這些結(jié)構(gòu)化的語義信息學(xué)習(xí)到語義體系的規(guī)則,就需要通過統(tǒng)計學(xué)習(xí)的方法、利用大量的語義知識庫來實現(xiàn)。因此,漢語語義體系的研究和語義知識庫的構(gòu)建至關(guān)重要。不少研究者一直致力于這兩方面的研究,并獲得了可喜的成果。例如,董振東開發(fā)的知網(wǎng)、袁毓林構(gòu)建的中文網(wǎng)庫、山西大學(xué)創(chuàng)建的漢語框架語義網(wǎng)庫(Chinese FrameNet,CFN)、美國賓州夕法尼亞大學(xué)建立的中文命題庫(Chinese proposition bank,CPB)、哈爾濱工業(yè)大學(xué)的語義依存樹庫和北京理工大學(xué)的漢語句義結(jié)構(gòu)標注語料庫(Beijing forest studio-chinese tagged corpus,BFS-CTC)。下面將對這些基于相應(yīng)語義體系建立的漢語語義知識庫進行介紹,其中漢語語義知識庫對比分析如表1所示。

      表1 漢語語義知識庫對比分析

      1.1 知 網(wǎng)

      知網(wǎng)是董振東和董強組織建立的常識知識庫。采用《分類體系》、《事件角色與典型演員》、《對義表》和《公理關(guān)系與角色轉(zhuǎn)換》等多種理論作為它的理論基礎(chǔ)。它的基本思想是以漢語和英語的詞語所代表的概念為描述對象,并且揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系。知網(wǎng)利用義原和豐富細致的語義角色來描述概念,可以更加靈活精細地對句子中的詞語進行解釋和標注。然而,知網(wǎng)僅依賴單個詞語的語義知識,沒有考慮詞語相互之間的關(guān)系。同時,標注過程不是在句法分析的基礎(chǔ)上進行的,因而標注結(jié)果缺少句法關(guān)系的信息。

      1.2 中文網(wǎng)庫

      中文網(wǎng)庫是北京大學(xué)袁毓林教授在北大漢語句法分析樹庫的基礎(chǔ)上,對新聞?wù)Z義真實文本進行論元角色標注的語料庫。采用國內(nèi)外的論元結(jié)構(gòu)理論、生成語法、格語法和配價語法作為構(gòu)建該語料庫的理論基礎(chǔ)。袁毓林總共定義了23種論元角色,并根據(jù)這些論元角色提出對應(yīng)的層級關(guān)系,如圖1所示。與知網(wǎng)相比,中文網(wǎng)庫的標注過程是在句法分析的基礎(chǔ)上進行的,給標注結(jié)果增加了一定的句法信息;但由于中文網(wǎng)庫只標注句法成分上標定動詞的論元角色,因此對句子的語義分析結(jié)果缺少一定的完整性。

      圖1 漢語動詞論元角色的層級關(guān)系

      1.3 漢語框架語義網(wǎng)

      漢語框架語義網(wǎng)是由山西大學(xué)在2004年開始建立的、架構(gòu)參照了英文框架網(wǎng)(FrameNet)的漢語詞匯語義數(shù)據(jù)庫。采用Fillmore的框架語義理論為其數(shù)據(jù)庫構(gòu)建的理論基礎(chǔ)。該數(shù)據(jù)庫用框架來描述詞義、句子意義和文本含義,其中框架中的框架元素類似于語義角色。漢語框架樣例如表2所示。漢語框架語義網(wǎng)的優(yōu)點在于將框架與框架之間的關(guān)系展示出來,使語義的表達層次更加豐富,同時,框架元素表達的語義內(nèi)容深入和實用性強。但是,漢語框架語義網(wǎng)對語義的刻畫過于細致,給計算機完成框架元素的自動分析增加了難度。

      1.4 中文命題庫

      中文命題庫是薛念文和Palmer等基于“謂詞-項”論元結(jié)構(gòu)、參照英文命題庫(proposion bank,PB)在賓州中文樹庫(Penn Chinese treebank,PCT)的句法分析樹的基礎(chǔ)上進行語義角色標注的語料庫。中文命題庫中一個句子的標注實例如圖2所示。中文命題庫的優(yōu)點在于簡潔的標注使得計算機進行自動分析更加容易。同時,它考慮了名詞也可以作為謂詞的情況,在一定程度上克服了論元結(jié)構(gòu)僅以動詞作為考察對象的缺點。但是,中文命題庫只使用數(shù)個標記來表示語義角色,標記沒有清晰的語義信息,使得語義角色不夠豐富和統(tǒng)一,并且在標記時容易造成混淆。

      表2 漢語框架樣例

      圖2 中文命題庫中一個句子的標注實例

      1.5 漢語語義依存樹庫

      漢語語義依存樹庫是由哈爾濱工業(yè)大學(xué)的研究者們采用依存語義分析構(gòu)建的能夠完整地對句子語義進行分析的語義知識庫。2011年,哈工大社會計算與信息檢索研究中心與北京語言大學(xué)合作推出了一套依存語義體系——HIT語義依存。該體系是以依存分析為基礎(chǔ),將知網(wǎng)的語義框架與袁毓林、魯川的語義體系相結(jié)合。漢語語義依存樹庫就是利用這套體系完成句子的標注,對句子進行深層的語義分析,從而更好地表達句子的結(jié)構(gòu)信息和語義信息。

      1.6 漢語句義結(jié)構(gòu)標注語料庫

      漢語句義結(jié)構(gòu)標注語料庫是北京理工大學(xué)信息安全與對抗技術(shù)實驗室根據(jù)句義結(jié)構(gòu)模型(Chinese sentential semantic model,CSM)構(gòu)建的語料庫。漢語句義結(jié)構(gòu)模型以中文語言學(xué)家賈彥德提出的《漢語語義學(xué)》為理論基礎(chǔ)、研究句子句義成分及各成分之間關(guān)系的句義結(jié)構(gòu)表示模型。該模型分別由句型層、描述層、對象層和細節(jié)層組成,其中每一層所包含的句義成分如圖3所示,句義成分之間的關(guān)系包含了謂詞間關(guān)系、基本項和謂詞之間的關(guān)系以及一般格與各句義成分之間的關(guān)系。句義結(jié)構(gòu)模型不僅能夠提供更為豐富的漢語語義特征,而且是一個能夠完整地反映出句義成分以及成分組合關(guān)系的模型。

      圖3 句義結(jié)構(gòu)模型的基本形式

      2 漢語語義深度分析

      早期,漢語語義自動分析是運用傳統(tǒng)機器學(xué)習(xí)方法自動分析漢語句子的語義結(jié)構(gòu)。其中,在特征構(gòu)建時,人工總結(jié)規(guī)律構(gòu)建特征的過程必不可少。然而,隨著深度學(xué)習(xí)的發(fā)展,研究者發(fā)現(xiàn)可以利用深度學(xué)習(xí)模型自動提取特征,從而取代傳統(tǒng)機器學(xué)習(xí)中人工構(gòu)建特征的步驟。同時,深度學(xué)習(xí)模型學(xué)到的上下文特征更加完備和有效,可以包含句子中更深層的含義。近年來,漢語語義自動分析的研究開始從人工構(gòu)建特征進行傳統(tǒng)機器學(xué)習(xí)的語義分析轉(zhuǎn)向利用深度學(xué)習(xí)模型完成端到端的語義分析。

      根據(jù)對語義分析程度的深淺不同,可以將漢語語義分析分為淺層語義分析和深層語義分析兩種。淺層語義分析只要求標注與句子中的謂詞相關(guān)的語義成分。深層語義分析不再以謂詞為中心,而是將整個句子轉(zhuǎn)化為某種形式化表示。兩種語義分析方法的對比分析如表3所示。

      其中,淺層語義分析方法主要有語義角色自動標注方法和框架元素自動標注方法,方法特點和研究進展如表4所示。

      表3 漢語語義自動分析方法對比

      表4 淺層語義分析的研究方法

      深層語義分析方法主要有漢語語義依存分析和漢語句義結(jié)構(gòu)自動分析,方法特點和研究進展如表5所示。

      表5 深層語義分析的研究方法

      然而,傳統(tǒng)的方法在系統(tǒng)性能上嚴重依賴于領(lǐng)域知識,并且需要人工選擇特征來完成特征工程,同時,人工選擇特征的有效性和完備性無法保證。隨著訓(xùn)練數(shù)據(jù)量增大、計算能力提高,深度神經(jīng)網(wǎng)絡(luò)在多個自然語言處理任務(wù)上都取得了非常好的效果,因此也受到語義分析研究者的關(guān)注。研究者嘗試將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用到淺層漢語語義分析的研究上,利用深度神經(jīng)網(wǎng)絡(luò)能自動提取有效的特征,解決淺層漢語語義分析在特征選擇上的限制問題。例如,黨帥兵[15]利用深層神經(jīng)網(wǎng)絡(luò)進行基本塊識別,并將隱層向量作為基本塊的分布表征,讓其與角色識別任務(wù)的神經(jīng)網(wǎng)絡(luò)模型的中間層做級聯(lián),提高了漢語框架語義角色識別模型的標注性能;趙紅燕等[16]利用深度神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)目標詞上下文特征,來提高語義角色標注中框架識別的準確率;王宇軒[17]對丁宇利用規(guī)則和SVM構(gòu)建依存圖的方法進行改進,提出一種基于轉(zhuǎn)移的分析器,使用list-based arc-eager算法的變體對依存圖進行分析,同時提出了兩種有效的神經(jīng)網(wǎng)絡(luò)模塊,分別用于獲得轉(zhuǎn)移系統(tǒng)中緩存和子圖更好的表示。該系統(tǒng)在中英數(shù)據(jù)集上都取得了很好的效果,并且還能通過簡單的模型融合方法進一步提高性能。盡管復(fù)雜的特征被設(shè)計,但是在句子中長距離的依賴關(guān)系很難被構(gòu)建,因此有研究者嘗試利用BRNN(bidrectional recurrent neural networks,雙向循環(huán)神經(jīng)網(wǎng)絡(luò))解決語義標注中兩個方向的依賴關(guān)系無法捕獲的問題。Wang等[18]利用了基于LSTM的BRNN完成中文語義角色標注任務(wù),解決語義分析中長距離依賴關(guān)系難以構(gòu)建的問題。

      3 深度學(xué)習(xí)與漢語語義的結(jié)合

      如今,深度學(xué)習(xí)在自然語言處理的多個任務(wù)中取得了不錯的效果,深度神經(jīng)網(wǎng)絡(luò)的不可解釋性以及缺乏標簽數(shù)據(jù)的問題也隨之暴露。因此,將先驗語義信息加入到深度學(xué)習(xí)模型中,可以增強深度神經(jīng)網(wǎng)絡(luò)的可解釋性和泛化性,讓機器更好地理解人的語言,為人類提供更智能的服務(wù)。

      下面主要介紹在深度學(xué)習(xí)模型中融合先驗語義信息來提高深度學(xué)習(xí)模型可解釋性的應(yīng)用成果,以及融入多元知識庫后,解決了單一特定標注集運用在深度學(xué)習(xí)模型中可擴展性受限的問題。

      研究者對在深度學(xué)習(xí)模型中融合先驗語義信息、提高深度學(xué)習(xí)模型可解釋性做了很多新的嘗試和探索。2017年,牛藝霖等[19]在word2vec中的Skip-Gram模型的基礎(chǔ)上提出SAT(sememe attention over target model)模型。與Skip-Gram模型相比,SAT模型不僅考慮了上下文信息,還考慮了單詞的義原信息,借助義原信息使模型更好地“理解”單詞,從而驗證了分布式表示學(xué)習(xí)與義原知識庫之間的互補關(guān)系。同年,謝若冰等[20]綜合利用矩陣分解和協(xié)同過濾兩種手段,利用詞匯表示學(xué)習(xí)模型,對新詞進行義原推薦,輔助知識庫標注工作。2018年,曾祥楷等[21]嘗試利用詞語表示學(xué)習(xí)與知網(wǎng)知識庫進行詞典擴展。通過實驗表明,引入義原信息能夠使層次分類效果得到提升。

      同時,研究者還發(fā)現(xiàn)引入語義角色標簽和標注模式不同、但表達潛在語義相同的異構(gòu)數(shù)據(jù)(heterogeneous data)可以解決單一語義知識庫規(guī)則不完備導(dǎo)致分析系統(tǒng)擴展性受限的問題。例如,2015年,Wang等[18]引入異構(gòu)數(shù)據(jù)—中文網(wǎng)庫來預(yù)訓(xùn)練詞向量。他們基于中文網(wǎng)庫學(xué)習(xí)LSTM-RNN模型,利用從中文網(wǎng)庫中獲得的預(yù)訓(xùn)練的詞向量來初始化一個新模型,最后用中文命題庫來訓(xùn)練。實驗結(jié)果表明,該方法引入異構(gòu)數(shù)據(jù)解決了單一標注集擴展性受限的問題。2016年,Li等[22]利用RNN模型做漢語語義角色標注。他使用英文主題庫去提高漢語語義角色標注的性能。實驗結(jié)果表明相對于先進的方法有顯著提升,F(xiàn)1值能達到78.39%。2017年,Xia等[23]提出一種漸進式的神經(jīng)網(wǎng)絡(luò)模型(progressive neural network,PNN),并發(fā)布了一個新的中文語義角色標注數(shù)據(jù)集——Chinese SemBank作為異構(gòu)數(shù)據(jù)。PNN模型能夠充分地容納和利用異構(gòu)數(shù)據(jù)更好地完成語義角色標注任務(wù)。

      4 發(fā)展趨勢

      漢語語義分析發(fā)展日趨成熟,但對它的研究還有很多值得深入探索的問題。在該部分,根據(jù)目前的研究現(xiàn)狀指出漢語語義分析存在的問題,并對其改進方案和發(fā)展趨勢作簡要的介紹。

      (1)目前,漢語語義知識庫已經(jīng)有足夠大的規(guī)模,但隨著信息時代的日新月異,漢語語義知識庫需要相應(yīng)的改變和適當?shù)臄U展。然而,知識庫在不斷更新的過程中,容易出現(xiàn)標注不一致的現(xiàn)象。因此需要探索以深度學(xué)習(xí)為代表的數(shù)據(jù)驅(qū)動和以知識庫為代表的專家驅(qū)動相結(jié)合的技術(shù),讓計算機能夠輔助人類專家更及時高效地完成標注知識庫的工作。并且,在不斷優(yōu)化和擴充語義體系的同時,也能提高人類專家標注知識庫的一致性。

      (2)在語義分析模型訓(xùn)練的過程中,數(shù)據(jù)收集昂貴,并且只用一份標注規(guī)則相同的語料庫訓(xùn)練模型是對語料庫的浪費。因此,在后續(xù)工作中,考慮將主動學(xué)習(xí)應(yīng)用于深度漢語語義分析任務(wù)中,從而大幅減少達到最先進結(jié)果所需的數(shù)據(jù)量。同時,也可以考慮將多種語義知識庫進行融合,訓(xùn)練得到語義信息更加豐富的模型。這種通過融合不同知識庫的語義信息來提高漢語語義自動分析系統(tǒng)性能的研究將成為語義分析的下一個研究熱點。

      (3)目前,通過結(jié)合深度學(xué)習(xí)模型,漢語語義分析效果有明顯提升,利用深度學(xué)習(xí)模型自動提取特征取代了傳統(tǒng)機器學(xué)習(xí)中需要人工構(gòu)建特征的過程,提升了特征選擇的有效性和完備性。同時,隨著注意力機制在自然語言處理任務(wù)中的廣泛應(yīng)用,嘗試利用注意力機制學(xué)習(xí)更多標簽潛在的依賴信息,從而提升語義分析的效果。這也將成為今后研究的熱點。因此,在標注語料達到一定規(guī)模的情況下,使用深度學(xué)習(xí)模型自動提取特征進行語義分析將成為漢語語義深度分析的研究趨勢。

      (4)分布式表示(distributed representation)在可解釋性方面能力較弱,另一方面,利用端到端(end-to-end)框架訓(xùn)練得到分布式表示的效率較低且需要極大的訓(xùn)練語料。因此,在利用深度學(xué)習(xí)框架完成語義分析任務(wù)時,仍然需要加入語義知識庫來為系統(tǒng)提供更多的先驗知識,從而提高系統(tǒng)的分析效率和結(jié)果的可解釋性。因此,如何在分布式表示中引入語義知識庫作為先驗知識是未來的重要挑戰(zhàn)性問題。同時,如何利用先驗知識實現(xiàn)無監(jiān)督學(xué)習(xí),使得較少標注數(shù)據(jù)通過先驗知識的加入也可以訓(xùn)練出很好的模型,也將成為漢語語義分析中新的發(fā)展趨勢。

      5 結(jié)束語

      文中在充分調(diào)研和深入分析的基礎(chǔ)上對漢語語義分析的研究進展進行了總結(jié)。對目前常用的漢語語義知識庫,如知網(wǎng)、中文網(wǎng)庫、漢語框架語義網(wǎng)、中文命題庫、漢語語義依存樹庫以及漢語句義結(jié)構(gòu)標注語料庫進行了說明;在對漢語語義自動分析方法的研究中,依據(jù)對句義分析的深淺程度的不同,將分析方法分為淺層語義分析和深層語義分析兩種方法。對這兩種方法的特點和研究進展進行列舉,指出存在的問題,并對運用深度學(xué)習(xí)模型自動提取特征完成語義分析的方法進行介紹。在漢語語義分析的應(yīng)用中,主要介紹了在深度學(xué)習(xí)模型中融合先驗語義知識提高深度學(xué)習(xí)模型可解釋性的應(yīng)用成果,以及融入多元知識庫后,解決了單一特定標注集運用在深度學(xué)習(xí)模型中的可擴展性受限的問題。最后,指出目前漢語語義分析存在的問題,對每個問題提出可行的解決辦法,并對深度學(xué)習(xí)與漢語語義分析結(jié)合的應(yīng)用進行了展望,希望對該領(lǐng)域的其他研究者有所啟發(fā)。

      猜你喜歡
      知識庫語料庫語義
      語言與語義
      《語料庫翻譯文體學(xué)》評介
      基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設(shè)計中的應(yīng)用
      把課文的優(yōu)美表達存進語料庫
      高速公路信息系統(tǒng)維護知識庫的建立和應(yīng)用
      “上”與“下”語義的不對稱性及其認知闡釋
      基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
      圖書館研究(2015年5期)2015-12-07 04:05:48
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      認知范疇模糊與語義模糊
      語義分析與漢俄副名組合
      从江县| 三明市| 清水县| 抚远县| 中方县| 皋兰县| 盐山县| 克拉玛依市| 枣庄市| 龙里县| 铜川市| 左权县| 原阳县| 精河县| 应用必备| 军事| 庆阳市| 林周县| 洛川县| 旬阳县| 锦屏县| 辽阳市| 漠河县| 阜城县| 浑源县| 固原市| 林周县| 砀山县| 乐都县| 江孜县| 南丹县| 遂溪县| 永平县| 新野县| 江西省| 乃东县| 德兴市| 苗栗县| 封丘县| 高密市| 靖州|