• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于知識圖譜的問答系統(tǒng)設(shè)計

      2023-11-30 22:03:40秦麗娟
      無線互聯(lián)科技 2023年18期
      關(guān)鍵詞:知識圖譜

      基金項目:2019年度江蘇省高校哲學(xué)社會科學(xué)研究專題項目;項目編號:2019SJB154。

      作者簡介:秦麗娟(1983— ),女,江蘇南京人,講師,碩士;研究方向:教育信息化。

      摘要:隨著網(wǎng)絡(luò)數(shù)據(jù)的爆發(fā)式增長,知識泛濫和知識過載問題日益凸顯。傳統(tǒng)的問答系統(tǒng)通常采用簡單的關(guān)鍵詞匹配模式,往往無法準確理解用戶的真實意圖,難以提供準確的答案。為解決這一問題,文章設(shè)計了一種基于知識圖譜的智能問答系統(tǒng)。首先,通過本體層構(gòu)建、數(shù)據(jù)爬取、數(shù)據(jù)存儲等步驟構(gòu)建知識圖譜。其次,分別采用BERT+BiLSTM+CR模型和BERT+TextCNN模型進行命名實體識別和用戶意圖識別。最后,使用Flask封裝后臺API,以便提供更加靈活和個性化的服務(wù)。

      關(guān)鍵詞:知識圖譜;問答系統(tǒng);用戶意圖

      中圖分類號:TP391.3? 文獻標志碼:A

      0? 引言

      Web3.0時代充斥著巨量信息,導(dǎo)致知識泛濫和知識過載等問題[1]。傳統(tǒng)的問答系統(tǒng)通常采取簡單的關(guān)鍵詞匹配模式,然后羅列一大堆數(shù)據(jù)供用戶查看,用戶往往很難辨別這些數(shù)據(jù)的準確性[2]。近年來,知識圖譜的理論研究取得了迅猛的發(fā)展,特別是在知識圖譜中的信息抽取環(huán)節(jié)方面,為構(gòu)建問答系統(tǒng)的初期特征抽取任務(wù)提供了極大的幫助[3]。這種方法不僅顯著減少了人工干預(yù)的需求,還提高了問答系統(tǒng)的準確率和效率。OpenAI的ChatGPT引起了人工智能界的廣泛關(guān)注,給問答系統(tǒng)和搜索引擎帶來了一種全新的形態(tài),即基于深度學(xué)習(xí)的形態(tài)。與傳統(tǒng)方法相比,這些方法通過深度學(xué)習(xí)技術(shù)來提高問答系統(tǒng)的準確性、召回率和效率,并能從復(fù)雜的知識結(jié)構(gòu)中高度概括和挖掘所需信息,使得問答平臺能更有效地獲取知識,為各個領(lǐng)域的發(fā)展提供服務(wù)。本文旨在探討如何利用Web3.0時代豐富的數(shù)據(jù)資源和現(xiàn)代人工智能技術(shù),構(gòu)建一種基于知識圖譜的智能問答系統(tǒng)模型。

      1? 相關(guān)技術(shù)

      1.1? BERT模型

      BERT(Bidirectional Encoder Representations from Transformers)模型是由Google于2018年提出的。它的主要目的是利用大量的未標注數(shù)據(jù)來學(xué)習(xí)一種通用的語言表示方法。與其他的基于深度學(xué)習(xí)的自然語言處理技術(shù)相比,BERT具有許多優(yōu)點。首先,它可以適應(yīng)各種類型的任務(wù),因為它的訓(xùn)練方法可以學(xué)習(xí)到語言的各種特征,從而在不同的應(yīng)用場景中都可以得到良好的效果。其次,BERT也易于微調(diào),這使得它在面對特定任務(wù)時可以快速適應(yīng)并進行優(yōu)化。此外,BERT可以充分利用大規(guī)模的未標注數(shù)據(jù),讓模型學(xué)習(xí)到更多的語言特征,并在后續(xù)的微調(diào)過程中更好地適應(yīng)任務(wù)。因此,BERT在自然語言處理領(lǐng)域受到了廣泛的關(guān)注,被認為是最強的預(yù)訓(xùn)練語言模型之一。

      1.2? DBNet網(wǎng)絡(luò)

      DBNet在圖像分割任務(wù)中具有較高的準確性和魯棒性,被廣泛應(yīng)用于計算機視覺領(lǐng)域。系統(tǒng)使用DBNet網(wǎng)絡(luò)進行文本檢測任務(wù)。DBNet網(wǎng)絡(luò)結(jié)構(gòu)主要由3個模塊構(gòu)成,分別是FPN、FCN和DB操作。FPN結(jié)構(gòu)為了獲取多尺度的特征,分為自底向上的卷積操作與自頂向下的上采樣。首先,根據(jù)卷積公式獲取原圖大小比例的1/2、1/4、1/8、1/16、1/32的特征圖;其次,自頂向下采樣2次,之后同樣進行自底向上的操作;最后,對每層輸出結(jié)果進行采樣,變成1/4大小的特征圖。FCN模塊是將特征圖經(jīng)過卷積核轉(zhuǎn)置卷積獲取概率圖P和閾值圖T、Z最后對2張圖進行DB(可微二值化)方法得到二值圖。

      1.3? 長短時記憶網(wǎng)絡(luò)

      LSTM(Long Short-Term Memory)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),由Hochreiter等人提出。它將記憶單元添加到隱藏層的神經(jīng)單元中,由此來控制時間序列中的記憶信息。LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)的一個變種。RNN的內(nèi)部狀態(tài)可以表現(xiàn)動態(tài)時序行為,也稱為記憶信息。與RNN不同,LSTM改變了RNN的記憶單元,使其包括了一個“處理器”cell,它可以決定要保留哪些信息。一個cell由輸入門、遺忘門和輸出門組成。信息在進入LSTM網(wǎng)絡(luò)后,cell會根據(jù)規(guī)則判斷該信息是否有用,只有符合算法要求的信息才會被保留,而不符合要求的信息將通過遺忘門被丟棄。

      2? 總體設(shè)計方案

      系統(tǒng)主要分為3個主要任務(wù),即知識圖譜的構(gòu)建工作、問答系統(tǒng)相關(guān)技術(shù)模型的設(shè)計以及問答系統(tǒng)的設(shè)計,具體如圖1所示。

      問答系統(tǒng)相關(guān)技術(shù)模型的設(shè)計訓(xùn)練主要分為命名實體識別和用戶提問意圖識別。問答系統(tǒng)整體使用Flask封裝后臺API,用戶的需求為輸入,然后判斷為文本還是圖片,如果是圖片則使用DBnet識別圖片內(nèi)容,如果是文本則通過NLP的BERT+BiLSTM+CRF構(gòu)建提問實體,之后用CNN進行分類來識別意圖,最后構(gòu)建查詢語句,將數(shù)據(jù)返回給用戶。

      3? 知識圖譜的構(gòu)建

      3.1? 基本流程

      知識圖譜的構(gòu)建相關(guān)流程,如圖2所示。首先,通過爬蟲行采集結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù);其次,通過中間數(shù)據(jù)庫進行存儲;再次,進行知識抽取,將數(shù)據(jù)轉(zhuǎn)為知識圖譜的結(jié)構(gòu)化數(shù)據(jù);最后,存儲進Node4J數(shù)據(jù)庫。

      3.2? 本體層構(gòu)建

      在知識圖譜中,本體層是一種用于描述實體、屬性、概念以及它們之間關(guān)系的結(jié)構(gòu)化資源模型。本體層可以看做是整個知識圖譜中最核心的一層,通過對相關(guān)實體和概念的分類、定義和關(guān)聯(lián)規(guī)范,能夠為下層數(shù)據(jù)集成提供更加明確的語義表示和分層約束。在已經(jīng)建立好本體層之后,只要將需要被存儲/表達的實體映射到本體層上,就可以很方便地繼承/獲取其相關(guān)屬性信息或者推理出新的事實或知識。將知識隱式編碼到本體層的方式,可以使得知識圖譜更加具有可理解性、自解釋性和可維護性,并且便于進行知識推理、查詢和分析。

      3.3? 數(shù)據(jù)爬取和預(yù)處理

      系統(tǒng)主要通過request、Selenium和XPath相結(jié)合來爬取網(wǎng)站。具體爬取過程為:首先,進入網(wǎng)站找到相應(yīng)數(shù)據(jù)對應(yīng)的URL地址,分析URL地址之間跳轉(zhuǎn)的關(guān)系;其次,在網(wǎng)站中定位所需要的元素;最后,編寫爬蟲代碼依次爬取每個URL的數(shù)據(jù)。網(wǎng)頁中存在著部分缺失值,需要對提取到的數(shù)據(jù)進行清洗和預(yù)處理,去除無用的標簽、特殊字符或者HTML實體,使數(shù)據(jù)更加規(guī)范和易于處理。

      3.4? 數(shù)據(jù)存儲

      數(shù)據(jù)預(yù)先只存儲在本地磁盤中,不易于系統(tǒng)后臺進行查詢工作,需要將其導(dǎo)入數(shù)據(jù)庫,知識圖譜主要具有實體、關(guān)系、屬性3個主要元素,而圖數(shù)據(jù)庫的點、邊、點的相應(yīng)值正好與其一一對應(yīng)。圖數(shù)據(jù)庫具有天然的優(yōu)勢存儲知識圖譜,且其和結(jié)構(gòu)化數(shù)據(jù)庫一樣提供了類SQL的查詢語言,因此將數(shù)據(jù)存儲進圖數(shù)據(jù)庫。Noe4J是一個開源的數(shù)據(jù)庫,易于使用,所以選擇其作為后臺知識庫。

      4? 問答系統(tǒng)相關(guān)技術(shù)模型設(shè)計

      4.1? 基于BERT-BiLSTM-CRF模型的命名實體識別

      實體抽取即從非結(jié)構(gòu)化文本中識別出實體信息,最早期采取字典和規(guī)則的方法,但過分依賴專家人工,費時費力,難以適應(yīng)數(shù)據(jù)改變,后來被最大熵模型,支持向量機,條件隨機場的機器學(xué)習(xí)方法所替代。近年來,深度學(xué)習(xí)也不斷走入NLP的視野,CNN、RNN都開始被用于實體識別。基于RNN在解決長距離依賴問題的過程中出現(xiàn)的梯度消失和梯度爆炸,專家們引入了門控機制,創(chuàng)造了LSTM的新模型來解決長期依賴問題,由此也衍生出了BiLSTM來解決雙向的語義依賴問題。系統(tǒng)使用BERT-BiLSTM-CRF模型,該模型是一種結(jié)合了BERT、BiLSTM和CRF的序列標注模型,用于解決命名實體識別(NER)任務(wù)。該模型的核心思想是利用BERT模型的語義表示能力、BiLSTM模型的上下文信息捕捉能力和CRF模型的標簽約束能力,從而提升NER任務(wù)的性能。

      首先,系統(tǒng)選擇使用BERT動態(tài)語言模型作為詞嵌入層。BERT模型包含多層雙向Transformer語言模型,并大量使用Attention機制,在編碼過程中考慮每個詞的上下文信息。與CNN和RNN不同,BERT模型只包含前饋神經(jīng)網(wǎng)絡(luò)和自注意力機制,通過Transformer網(wǎng)絡(luò)的Encoder部分解決了RNN長距離依賴問題。BERT的輸入向量包括3部分:詞分隔、句子分隔和位置分隔。

      其次,經(jīng)過BERT詞嵌入層后,這些向量將會進入特征提取層,去除掉那些無關(guān)緊要的特征,獲取能夠典型代表這一向量的特征,同時也減少了向量的維度,方便后續(xù)的處理。系統(tǒng)采用BiLSTM作為特征層。LSTM根據(jù)前文描述,解決了RNN可能出現(xiàn)的梯度消失、梯度爆炸等問題,且由于中文文本前后文的關(guān)系性,系統(tǒng)使用兩層LSTM進行雙向提取,最后將結(jié)果連接到CRF標注層。

      最后,特征提取完成后,需要獲取每一個字符的BIO標注。前文講述的CRF是一種基于概率圖模型的序列標注方法,且CRF利用了輸出的全局概率分布來建模,同時將原本單獨考慮的每個標注之間的相互作用融合在一起,具有極強的建模能力,所以選擇CRF作為特征分類層。CRF將會最終輸出類似B-DIEASE、I-DIEASE、O等標注類型,用于后續(xù)直接讀取獲得識別出來的實體。

      4.2? 基于BERT+TextCNN模型的用戶意圖識別

      識別出實體后,還需要判斷用戶對于實體需要具體哪一屬性或者關(guān)系的識別。由于定義了本體層,意圖識別可以轉(zhuǎn)化為機器學(xué)習(xí)的分類和NLP方向的情感識別問題,KNN、SVM、樸素貝葉斯是最常見的機器學(xué)習(xí)方法。隨著技術(shù)的發(fā)展出現(xiàn)了TextCNN、RNN等模型處理此類任務(wù)。BERT作為預(yù)處理語言模型,在NLP領(lǐng)域受到廣泛的關(guān)注,相較于LSTM,Transformer可以更好地處理長距離依賴,并且其本身就是基于注意力機制,因此系統(tǒng)采用BERT+CNN進行意圖抽取的任務(wù)。BERT+TextCNN模型從特征提取層、特征分類層和數(shù)據(jù)增強層面綜合應(yīng)用了BERT和TextCNN的特點,能夠充分利用語義表示和卷積神經(jīng)網(wǎng)絡(luò)特征提取的優(yōu)勢,同時通過數(shù)據(jù)增強來提升模型的魯棒性和泛化能力。

      首先,利用BERT模型作為特征提取器,學(xué)習(xí)文本的語義表示。BERT模型通過無監(jiān)督預(yù)訓(xùn)練,在大規(guī)模語料上學(xué)習(xí)到了豐富的上下文相關(guān)的詞向量表示,能夠捕捉詞語和句子之間的語義關(guān)系。這些語義表示作為輸入,提供了豐富的語義信息,用于后續(xù)的特征提取和分類。

      其次,利用TextCNN模型進行特征提取和分類。TextCNN模型通過卷積和池化操作提取文本的局部和整體特征。卷積操作利用不同尺寸的濾波器對文本進行卷積,捕捉不同長度的局部特征。池化操作則提取出每個特征維度上的最重要特征。這樣TextCNN模型能夠有效地提取文本的特征,將其輸入到分類器中進行分類。

      最后,采用各種數(shù)據(jù)增強技術(shù)來提升模型的魯棒性和泛化能力。例如,可以使用數(shù)據(jù)增強方法如隨機替換、隨機插入、隨機刪除等,對輸入文本進行擾動,生成新的訓(xùn)練樣本。這樣可以增加模型對不同變體的文本的適應(yīng)能力,提升模型的泛化能力。

      5? 系統(tǒng)架構(gòu)

      系統(tǒng)參考MVC架構(gòu)分為3個部分:前端顯示層、邏輯處理層和數(shù)據(jù)訪問層。前端顯示層向最終用戶提供易于使用的界面,使用了BootStrap和Jquery框架來簡化前端界面的開發(fā)。邏輯處理層主要響應(yīng)前臺發(fā)送的異步請求,然后返回相應(yīng)的數(shù)據(jù)供前端顯示給終端用戶。其主要工作是調(diào)用模型獲取模型的結(jié)果,再進入數(shù)據(jù)訪問層獲取數(shù)據(jù)。Flask可以更容易地實現(xiàn)一個輕量、靈活、易擴展的 Web 應(yīng)用,并且能夠快速進行迭代和部署,所以系統(tǒng)選擇Flask將后臺封裝。數(shù)據(jù)訪問層通過第三方的PYNEO包來對Neo4J數(shù)據(jù)庫進行訪問,其使用方式與JDBC類似,用戶只需要編寫數(shù)據(jù)庫連接的參數(shù)和相應(yīng)的CQL語句即可完成查詢。

      6? 結(jié)語

      筆者通過介紹知識圖譜和問答系統(tǒng)的設(shè)計和實現(xiàn)過程,展示了如何利用現(xiàn)代技術(shù)手段構(gòu)建高效的知識管理和問答系統(tǒng)。通過這些技術(shù)手段,可以更好地管理和利用知識資源,提高用戶獲取信息的效率和準確性。在未來的工作中,筆者將進一步優(yōu)化和改進該系統(tǒng),如增強知識圖譜的構(gòu)建效率和準確性,提高問答系統(tǒng)的智能水平和服務(wù)質(zhì)量。此外,筆者還將探索更多的應(yīng)用場景,如智能客服、智能推薦等,以更好地發(fā)揮新技術(shù)的實際價值。

      參考文獻

      [1]杜睿山,張軼楠,田楓,等.基于知識圖譜的智能問答系統(tǒng)研究[J].計算機技術(shù)與發(fā)展,2021(11):189-194.

      [2]王天彬,黃瑞陽,張建朋,等.融合機器閱讀理解的知識圖譜問答系統(tǒng)設(shè)計與實現(xiàn)[J].信息工程大學(xué)學(xué)報,2021(6):709-715.

      [3]趙浩宇,陳登建,曾楨,等.基于知識圖譜的中國近代史知識問答系統(tǒng)構(gòu)建研究[J].數(shù)字圖書館論壇,2022(6):31-38.

      [4]盧經(jīng)緯,郭超,戴星原,等.問答ChatGPT之后:超大預(yù)訓(xùn)練模型的機遇和挑戰(zhàn)[J].自動化學(xué)報,2023(4):705-717.

      (編輯? 姚? 鑫)

      Design of knowledge graph based Q&A system design

      Qin? Lijuan

      (Jiangsu Second Normal University, Nanjing 210013, China)

      Abstract: With the explosive growth of online data, the problem of knowledge flooding and knowledge overload is increasingly prominent. Traditional Q&A systems usually use a simple keyword matching model, which often fails to accurately understand the real intention of users and makes it difficult to provide accurate answers. To solve this problem, the article designs an intelligent Q&A system based on knowledge graphs. Firstly, the knowledge graph is constructed through the steps of ontology layer construction, data crawling and data storage. Secondly, BERT+BiLSTM+CR model and BERT+TextCNN model are used for named entity recognition and user intention recognition, respectively. Finally, the backend API is wrapped using Flask in order to provide more flexible and personalized services.

      Key words: knowledge graph; Q&A system; user intention

      猜你喜歡
      知識圖譜
      國內(nèi)外智庫研究態(tài)勢知識圖譜對比分析
      國內(nèi)信息素養(yǎng)研究的知識圖譜分析
      國內(nèi)圖書館嵌入式服務(wù)研究主題分析
      國內(nèi)外政府信息公開研究的脈絡(luò)、流派與趨勢
      近十五年我國小學(xué)英語教學(xué)研究的熱點、問題及對策
      基于知識圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
      智富時代(2016年12期)2016-12-01 16:28:41
      基于知識圖譜的智慧教育研究熱點與趨勢分析
      國內(nèi)酒店品牌管理研究進展的可視化分析
      從《ET&S》與《電化教育研究》對比分析中管窺教育技術(shù)發(fā)展
      專家知識圖譜構(gòu)建研究
      马鞍山市| 大邑县| 琼海市| 乌鲁木齐市| 凉城县| 绵阳市| 隆林| 紫金县| 肥城市| 雷山县| 邹平县| 山东省| 嵩明县| 台安县| 南岸区| 武山县| 阿巴嘎旗| 博白县| 佛学| 济宁市| 吉水县| 滁州市| 清流县| 吕梁市| 张家口市| 微山县| 靖安县| 高安市| 翁牛特旗| 湘阴县| 罗定市| 武城县| 中西区| 云龙县| 兰西县| 海伦市| 靖安县| 绥化市| 垣曲县| 益阳市| 开远市|