• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于人工神經(jīng)網(wǎng)絡(luò)的信息抽取技術(shù)研究

      2023-07-25 18:02:57周圍
      中國新通信 2023年9期
      關(guān)鍵詞:人工神經(jīng)網(wǎng)絡(luò)

      摘要:信息抽取技術(shù)作為建立知識圖譜與智能問答系統(tǒng)的基礎(chǔ),也是自然語言處理的關(guān)鍵環(huán)節(jié)。隨著深度學習算法的持續(xù)發(fā)展,各種新技術(shù)在信息抽取中得到了廣泛化地使用。本文首先介紹了信息抽取技術(shù)及其主要任務(wù),然后描述了信息抽取的發(fā)展歷史,并介紹了不同類型的人工神經(jīng)技術(shù)在信息抽取技術(shù)中的實踐和應(yīng)用。隨后,對信息抽取技術(shù)現(xiàn)階段面臨的困境和基本研究方向進行了進一步探討。

      關(guān)鍵詞:實體抽??;深度學習算法;信息抽?。蝗斯ど窠?jīng)網(wǎng)絡(luò)

      大數(shù)據(jù)和互聯(lián)網(wǎng)帶來了海量數(shù)據(jù),人們需要識別相關(guān)信息并從中獲取洞察力和關(guān)鍵信息。信息抽取技術(shù)就是在這樣的背景下誕生了,其也作為建立知識圖譜的基礎(chǔ)。

      本文通過文獻綜述的方法,系統(tǒng)地介紹了信息抽取技術(shù)的歷史背景和發(fā)展路徑。根據(jù)技術(shù)特征,它可以分為三個子任務(wù):實體提取、關(guān)系提取和屬性提取。其中,每個子任務(wù)根據(jù)其應(yīng)用領(lǐng)域分為面向特定領(lǐng)域和面向開放領(lǐng)域,根據(jù)其數(shù)據(jù)源分為面向文本和面向網(wǎng)絡(luò)。

      首先,從深度學習角度探討了進行信息提取的重要性;然后,通過三個國際學術(shù)會議(MUC、ACE和ICDM)的視角審視了信息提取的歷史。對實體關(guān)系抽取、識別命名實體、屬性抽取等方面進行了詳細地闡述,并對基于人工神經(jīng)網(wǎng)絡(luò)的信息抽取技術(shù)發(fā)展進行了介紹。最后,對信息提取技術(shù)的發(fā)展趨勢進行了一系列探究。

      一、信息抽取技術(shù)的發(fā)展和應(yīng)用

      一般來說,信息抽取是指利用計算機技術(shù)對大量文本數(shù)據(jù)進行處理,從中提取出特定信息并將其存儲在數(shù)據(jù)庫中。這些信息可以是人名、地名、日期等各種類型的實體信息,也可以是事件、關(guān)系等復(fù)雜的語義信息。信息抽取技術(shù)不僅可以提高信息檢索的效率,還可以幫助用戶快速了解文本資料中所涉及的主題和內(nèi)容。

      關(guān)于信息抽取的研究可以追溯到20世紀60年代,當時耶魯大學和紐約大學的FRUMP系統(tǒng)是一個著名的例子。隨著自然語言處理技術(shù)的不斷發(fā)展,信息抽取的研究也逐漸取得了突破性進展。在20世紀80年代后期,世界上召開了信息理解會議,這對信息抽取技術(shù)的研究起到了推動作用。會議的召開促進了信息抽取技術(shù)的發(fā)展,并使其逐漸步入一個新的發(fā)展階段。此外,美國國家標準技術(shù)研究所(NIST)還舉辦了一場名為“自動內(nèi)容提取(ACE)評估會議”的全球性會議,為信息抽取的研究帶來了重要意義。與信息理解會議不同,ACE評估沒有針對特定場景或領(lǐng)域,而是采用了一套基于假陽性和誤報的評估系統(tǒng)。此外,ACE還評估了系統(tǒng)的跨文檔信息抽取處理能力,使得信息抽取技術(shù)能夠更好地應(yīng)用于實際場景。

      信息抽取包括關(guān)系提取、實體提取、子任務(wù)與屬性提取等多種類型。而實體識別方法主要分為開放、特定領(lǐng)域兩種。其中特定領(lǐng)域的識別方式主要通過部分經(jīng)典模型,如隱馬爾可夫模型、最大熵分類模型以及條件隨機場模型等。在面向開放領(lǐng)域的信息抽取中,信息源不再是一個特定的知識領(lǐng)域,而是一個完整的信息網(wǎng)絡(luò)和大量的Web語料庫。例如,KnowItAll系統(tǒng)處理大規(guī)模和異構(gòu)的Web語料庫,如Twitter、Wikipedia等。由于傳統(tǒng)統(tǒng)計模型需要大量的語料庫注釋和手動構(gòu)建大量特征的局限性,出現(xiàn)了一些新的方法,如使用遠程監(jiān)督算法、半監(jiān)督算法、自學習方式等,以解決開放實體提取等一系列問題。而在常識基礎(chǔ)上的新型問答系統(tǒng)往往使用的實體提取方法,具有良好的實用性,其主要面向開放領(lǐng)域。

      在面向開放領(lǐng)域的信息抽取中,信息來源更為廣泛和復(fù)雜,因此需要新的方法來處理這些問題。一些新興的技術(shù),如遠程監(jiān)督算法、半監(jiān)督算法和自學習方式等,已被應(yīng)用于解決開放實體提取等問題。這些方法通過利用大規(guī)模和異構(gòu)的Web語料庫,避免了傳統(tǒng)模型需要大量手動注釋的缺陷。在知識圖譜和智能問答系統(tǒng)中,實體識別也是一個關(guān)鍵的技術(shù),它可以幫助用戶快速獲取所需信息。因此,在實際應(yīng)用中,基于常識的新型問答系統(tǒng)使用的實體提取方法具有良好的實用性,其主要面向開放領(lǐng)域,將為用戶提供更加便捷和高效的服務(wù)。

      除了自然語言文本和Web文本之外,社交網(wǎng)絡(luò)的數(shù)據(jù)也是一個豐富的數(shù)據(jù)源。擁有大量的社會網(wǎng)絡(luò)結(jié)點,并擁有不同的聯(lián)系,具有較強的網(wǎng)絡(luò)效應(yīng)。在2010年的國際萬維網(wǎng)大會上,有研究者提出使用基于無監(jiān)督方法的順序聯(lián)合聚類算法來提取包含多個節(jié)點的社交網(wǎng)絡(luò)中的各種關(guān)系。

      二、基于人工神經(jīng)網(wǎng)絡(luò)的信息抽取技術(shù)

      (一)模糊神經(jīng)網(wǎng)絡(luò)模型

      1.模糊神經(jīng)網(wǎng)絡(luò)模型的基本思想

      在應(yīng)用過程中,模糊邏輯系統(tǒng)和人工神經(jīng)網(wǎng)絡(luò)系統(tǒng)表現(xiàn)出了許多缺點,因此,在實際應(yīng)用中,人們往往會將神經(jīng)網(wǎng)絡(luò)與模糊邏輯系統(tǒng)相結(jié)合,并通過網(wǎng)絡(luò)學習功能的業(yè)務(wù)來解決具體問題。將效率與模糊邏輯設(shè)計相結(jié)合可以取得很好的效果,尤其是在工業(yè)領(lǐng)域。就目前而言,應(yīng)用神經(jīng)網(wǎng)絡(luò)和模糊邏輯進行相關(guān)分析活動,特別是研究兩者結(jié)合的應(yīng)用和理論,已成為一個熱點問題。將神經(jīng)網(wǎng)絡(luò)與模糊網(wǎng)絡(luò)相結(jié)合,可以得到模糊神經(jīng)網(wǎng)絡(luò)。它的優(yōu)勢是可以集成學習、識別、自適應(yīng)、模糊信息處理和關(guān)聯(lián)等特點。

      神經(jīng)網(wǎng)絡(luò)系統(tǒng)通常用作一般函數(shù)估計器,而模糊系統(tǒng)可以用作結(jié)構(gòu)數(shù)字估計器。因此,它們具有一般的自適應(yīng)模型無偏估計函數(shù),同時在正態(tài)數(shù)學特征和狀態(tài)空間上保持一致性。這表明神經(jīng)網(wǎng)絡(luò)可以通過模糊系統(tǒng)進行模糊邏輯推理,并完成神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的初始化。和傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)系統(tǒng)相比,模糊神經(jīng)網(wǎng)絡(luò)更具有學習效率和能力。同時,在模糊推理方法的幫助下,神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)表達能力與自學習能力都得到了較大地提高,使之成為一種新的發(fā)展和應(yīng)用模式。模糊邏輯推理通常采用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),這使得傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)失去了比較精確的物理意義,并且使得模糊邏輯推理中的神經(jīng)網(wǎng)絡(luò)參數(shù)擁有了實際的物理意義。

      圖1 人工神經(jīng)網(wǎng)絡(luò)模型

      2.神經(jīng)網(wǎng)絡(luò)學習方法

      模糊學習是一種基于模糊理論,利用模糊量來計算和度量學習過程的方法。輸入和輸出之間的映射關(guān)系也屬于模糊集運算,通過連接權(quán)重作為參數(shù)。一般的模糊學習算法主要包括模糊規(guī)則提取方法和模糊學習算法。前者是指輸入和輸出的模糊數(shù)據(jù)的映射或關(guān)聯(lián),也可以看作一種數(shù)據(jù)挖掘任務(wù)。如果沒有與模糊輸入相關(guān)的模糊輸出,則需要進行輸入矢量模糊聚類或模糊輸入空間。

      目前的模糊神經(jīng)網(wǎng)絡(luò)雖然有各種各樣的學習算法和結(jié)構(gòu),但它們有一個共同的特點。即可以有效地利用語言信息,提高學習能力和適應(yīng)性。分析模糊神經(jīng)網(wǎng)絡(luò)模塊的結(jié)構(gòu)及其權(quán)重值具有重要的研究意義。在設(shè)計模糊網(wǎng)絡(luò)結(jié)構(gòu)時,分析問題的復(fù)雜性和精度,建立模糊神經(jīng)網(wǎng)絡(luò)模型,并結(jié)合先驗知識。此外,基于先驗知識,通過手動選擇來初始化模糊神經(jīng)網(wǎng)絡(luò)權(quán)重。這樣,大大提高了神經(jīng)網(wǎng)絡(luò)的學習速度,有效地防止了梯度優(yōu)化算法引起的局部極值現(xiàn)象。

      3.模糊神經(jīng)網(wǎng)絡(luò)理論中存在的問題

      盡管模糊神經(jīng)網(wǎng)絡(luò)已經(jīng)成功地應(yīng)用于建模和系統(tǒng)控制,但由于它是一種新技術(shù),在實際應(yīng)用中仍存在許多問題。目前獲取神經(jīng)知識的方法比較狹窄。從已有的很多案例來看,仍然沒有更有效的方法來獲得反映其相關(guān)特征的模糊模型。模糊神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)還沒有系統(tǒng)化的建立,模型推理層的節(jié)點數(shù)、模糊的層次、模糊網(wǎng)絡(luò)的反模型和綜合的推理算法等問題都還沒有解決,理論界所包含的計算模型的研究也沒有深入開展。

      在神經(jīng)網(wǎng)絡(luò)中,存在模型的復(fù)雜性和沖突性。因此,在模糊神經(jīng)網(wǎng)絡(luò)的優(yōu)化中,還存在一些需要進一步研究的問題。要將神經(jīng)網(wǎng)絡(luò)的功能模塊與一般模式的分析模型有機地結(jié)合起來進行分析,需要人們?nèi)ヌ骄科渲械膶嶋H情況。

      4.模糊神經(jīng)網(wǎng)絡(luò)模型的發(fā)展方向和未來應(yīng)用前景

      在模糊神經(jīng)網(wǎng)絡(luò)模型的發(fā)展方向上,一方面,研究人員可以探索更加高效、精確的模糊神經(jīng)網(wǎng)絡(luò)模型設(shè)計和訓練算法,以提高模型的性能和應(yīng)用范圍。例如,可以采用改進的模糊邏輯函數(shù)、改進的激活函數(shù)、改進的優(yōu)化算法等。另一方面,模糊神經(jīng)網(wǎng)絡(luò)模型可以與其他機器學習算法和技術(shù)結(jié)合,如深度學習、強化學習等,擴展其應(yīng)用范圍和性能。

      在未來應(yīng)用前景方面,模糊神經(jīng)網(wǎng)絡(luò)模型將在各個領(lǐng)域得到廣泛應(yīng)用。例如,在醫(yī)療領(lǐng)域,模糊神經(jīng)網(wǎng)絡(luò)模型可以應(yīng)用于醫(yī)療數(shù)據(jù)分析和診斷,幫助醫(yī)生進行疾病預(yù)測和患者分類等任務(wù);在交通領(lǐng)域,模糊神經(jīng)網(wǎng)絡(luò)模型可以應(yīng)用于交通流量預(yù)測和交通信號控制,提高城市交通效率和安全性;在金融領(lǐng)域,模糊神經(jīng)網(wǎng)絡(luò)模型可以應(yīng)用于風險管理和股票預(yù)測等任務(wù),為投資決策提供參考。

      (二)基于人工神經(jīng)網(wǎng)絡(luò)的信息抽取技術(shù)發(fā)展

      1.信息抽取技術(shù)的發(fā)展

      早期命名實體識別一般使用基于規(guī)則。一般來說,語言專家首先根據(jù)要識別的實體類型的特征,選擇能夠代表某種實體類型的各種特征,如姓名、職位等,建立一個有限的規(guī)則模板,并使用模式匹配提取命名實體[3]。這些系統(tǒng)大多依賴于語言專家的領(lǐng)域知識,這不僅費時費力,而且不可避免。

      隨著近年來機器學習的持續(xù)化發(fā)展,在統(tǒng)計基礎(chǔ)上,機器學習也逐漸應(yīng)用在信息提取領(lǐng)域。首先,該方法將文本中每個單詞的各種特征(如詞匯特征、詞性標注、詞義特征等)表示為一個特征向量。其次,對大量訓練語料庫進行了多種建模方法的訓練。最后,利用該模型對實體進行識別。常見的模型有:Hmm(隱馬爾可夫模型)、Me(最大熵)、SVM(支持向量機)和CRF(條件隨機場)等[4]。

      最近幾年,由于詞匯嵌入技術(shù)的出現(xiàn),將深度學習技術(shù)應(yīng)用于自然語言處理領(lǐng)域。而Wod2vec則是單詞矢量的重要代表。其基本思想是使用同一維度的向量來表示模型中的每個單詞。這不僅解決了高維向量空間帶來的數(shù)據(jù)稀疏性問題,還將更多的語義特征融入其中。同時,異質(zhì)文本可以用統(tǒng)一的維向量特征來表示。

      2.與人工神經(jīng)網(wǎng)絡(luò)相結(jié)合的信息抽取技術(shù)

      有學者首先利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)進行特征的自動抽取。通過詞性特點與向量對語句進行編碼,并將其分為全連接層、卷積層和軟映射層。與基于核的方法相比,它在ACE 2005數(shù)據(jù)集上的F1值提高了9%。Zeng等人使用預(yù)訓練詞向量和位置特征,以及CNN層后面的最大池層。Nguyen和Grishnian完全放棄了詞性特征,讓CNN自動學習,并使用多窗卷積來獲得不同尺度的n-gram信息,通過端到端的神經(jīng)網(wǎng)絡(luò)以實現(xiàn)最佳效果。

      與傳統(tǒng)的機器學習方法相比,基于CNN的方法取得了良好的效果,但CNN提取時間序列特征的能力較弱。而RNN模型適合提取時間的序列特點。還有學者首次應(yīng)用BRNN(Bidirectional RNN)實施關(guān)系提取。BRNN相當于整合了正向和反向的RNN,將句子中的單詞按照正向和反向分別輸入到兩個RNN中,然后將兩個RNN的隱含層疊加。

      在2016年,有學者提出在最短依賴路徑(SDP)基礎(chǔ)上的雙向遞歸卷積神經(jīng)網(wǎng)絡(luò)模型;深度學習關(guān)系提取模塊。本文的主要思路是對兩個實體之間的網(wǎng)絡(luò)語法的SDP進行建模,利用雙通LSTM(Long Short-Term Memory)對SDP的全局信息進行編碼。在此基礎(chǔ)上,我們使用CNN捕獲了相關(guān)關(guān)聯(lián)中的兩個單詞的局部特征,從而提高了它們之間的關(guān)聯(lián)方向分類能力。

      在2016年,Miwa等學者提出了一種基于神經(jīng)網(wǎng)絡(luò)的新的命名實體和基于實體關(guān)系的聯(lián)合模型。該模型是以LSTM-RNN為基礎(chǔ)的,實現(xiàn)端到端的執(zhí)行。該模型由三個表示層組成。底層是詞嵌入層,完成信息編碼。在此嵌入層中有兩個雙向的LSTM-RNN。一個是基于詞序的實體識別任務(wù),另一個是基于依賴樹結(jié)構(gòu)的關(guān)系提取。這兩部分共享編碼信息并堆疊形成一個整體模型。作為后者結(jié)構(gòu)的輸入的一部分,前者的輸出和隱藏層使實體識別和提取相互作用。

      2017年,Katiyar等學者將注意力機理Attention和BiLSTM結(jié)合起來,對關(guān)系提取與命名實體識別進行了研究。該模型借鑒了Miwa等人的模型,并根據(jù)交叉序列、依賴樹等改進了原模型的缺點。該模型有一個輸入層,用一個嵌入的單詞表示,有兩個輸出層,有一個實體用于輸出識別,還有一個使用注意力模型的關(guān)系分類。

      谷歌的Devlin等學者于2018年提出了BERT模型。BERT是一種預(yù)先訓練的語言模型。預(yù)訓練模型是指利用大量的自定義文本來預(yù)先訓練該模型,使得該模型能夠獲取通用的語言知識,并在此基礎(chǔ)上完成后續(xù)的Fine-tuning訓練,該方法既能加快模型的學習速度,又能提高模型的解釋性。使模型參數(shù)可以根據(jù)具體的任務(wù)要求和領(lǐng)域知識進行微調(diào)。BERT模式被普遍認為是一項重要的進展,因為BERT可以讓任何人建立包括自然語言處理在內(nèi)的機器學習模型,并且利用這個功能強大的工具,節(jié)省時間和資源。

      圖2 基于BERT模型的實體關(guān)系抽取流程

      近年來,隨著GPT和BERT等數(shù)據(jù)預(yù)訓練模式的出現(xiàn),使問答任務(wù)成為信息抽取技術(shù)的一項良好的下游任務(wù)。簡單地進行原始神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)重建,并微調(diào)以達到良好的效果。王等人通過使用基于原始BERT的多段預(yù)測改進了他們在SQuAD數(shù)據(jù)集上的性能。Alberti和其他人改進了BERT和SQuAD,并將其應(yīng)用于更困難的問答數(shù)據(jù)集NQ。

      3.信息抽取技術(shù)發(fā)展展望

      當前,深度學習技術(shù)在信息抽取中的應(yīng)用已有很大的發(fā)展,但是還存在很多問題需要深入地研究。首先,深度學習模型擅長處理單句語義信息,但在實踐中,許多實體關(guān)系是由多個語句共同表示的,這就要求模型全面理解、記憶和推斷文檔中的多個語句,并提取文檔級關(guān)系。其次,當前關(guān)于信息抽取的研究多集中于預(yù)先設(shè)置的任務(wù)集,而今后的研究將會是面向開放域的信息提取。因此,有必要不斷探索如何在開放域中自動發(fā)現(xiàn)新的實體關(guān)系及其事實。最后,當前的研究往往局限于單一語言文本信息,人類在接收信息時可以綜合處理多種信息。因此,有必要探索如何綜合利用多語言文本、聲音和視頻信息提取關(guān)系。

      三、結(jié)束語

      本文首先對基于知識圖譜的信息抽取概念和相關(guān)構(gòu)建技術(shù)框架進行了一系列的介紹。然后通過三次國際評估會議和信息抽取的三個發(fā)展階段(基于規(guī)則的階段、統(tǒng)計學習階段、深度學習階段)簡要介紹了信息抽取的歷史。隨后,詳細介紹了結(jié)合CNN、RNN、LSTM、BERT等深度學習算法的關(guān)鍵信息提取技術(shù)的最新發(fā)展和一系列案例。最后,對未來信息抽取需要解決的一系列問題及信息抽取技術(shù)的未來發(fā)展趨勢進行了探討。

      作者單位:周圍 上海建工集團股份有限公司

      參 ?考 ?文 ?獻

      [1]劉遷,焦慧,賈惠波.信息抽取技術(shù)的發(fā)展現(xiàn)狀及構(gòu)建方法的研究[J].計算機應(yīng)用研究,2007,7(07):6-9.

      [2]Yi,L.,Mari,O.and Hannaneh,H.(2017)Scientific Information Extraction with Semi-Supervised Neural Tagging.Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing,Copenhagen,September 2017 2641-2651.

      [3]SODERLANDS.Learning information extraction rules for semi-structured and Free Text[J].Machine Learning,1999,34(1-3):233-272.

      [4]ZHOU G D,SU J.Named entity recognition USing an HMM—based chunk tagger[C]//Proceedings of 40th Annual Meeting of the Association for Computatoional Linguistics.Philadelphia,PA,USA,2002:473-480.

      猜你喜歡
      人工神經(jīng)網(wǎng)絡(luò)
      利用人工神經(jīng)網(wǎng)絡(luò)快速計算木星系磁坐標
      基于BP人工神經(jīng)網(wǎng)絡(luò)的iWrite英語寫作教學與評閱系統(tǒng)的語用研究
      人工神經(jīng)網(wǎng)絡(luò)實現(xiàn)簡單字母的識別
      電子制作(2019年10期)2019-06-17 11:45:10
      滑動電接觸摩擦力的BP與RBF人工神經(jīng)網(wǎng)絡(luò)建模
      基于人工神經(jīng)網(wǎng)絡(luò)的分布式視頻編碼邊信息生成方法
      人工神經(jīng)網(wǎng)絡(luò)和安時法電池SOC估計
      基于改進人工神經(jīng)網(wǎng)絡(luò)的航天器電信號分類方法
      模糊人工神經(jīng)網(wǎng)絡(luò)在工程建設(shè)項目后評價中的運用
      基于聲發(fā)射和人工神經(jīng)網(wǎng)絡(luò)的混凝土損傷程度識別
      探討人工神經(jīng)網(wǎng)絡(luò)在作物水分生產(chǎn)函數(shù)建模中的應(yīng)用
      河南科技(2014年19期)2014-02-27 14:15:29
      玉门市| 梨树县| 大关县| 华宁县| 宁夏| 双牌县| 孟村| 新平| 手游| 甘泉县| 蓬溪县| 商丘市| 阿鲁科尔沁旗| 济南市| 科尔| 民和| 阳东县| 闽清县| 山阳县| 富阳市| 鄂托克前旗| 晋宁县| 沈丘县| 新建县| 门源| 大洼县| 柳林县| 定兴县| 屯留县| 龙南县| 视频| 女性| 牟定县| 沈丘县| 海丰县| 大竹县| 沙田区| 盐津县| 泸定县| 运城市| 临猗县|