魯小輝 王凱月
摘 要:油田環(huán)保安全領(lǐng)域標(biāo)準(zhǔn)對于規(guī)范和引導(dǎo)油田行業(yè)安全生產(chǎn)、綠色發(fā)展和效率提升具有重要意義。油田環(huán)保安全領(lǐng)域標(biāo)準(zhǔn)知識復(fù)雜程度較高,難以形成對標(biāo)準(zhǔn)數(shù)字知識的雙向理解路徑,為有效解決上述問題,本論文進行油田環(huán)保安全領(lǐng)域標(biāo)準(zhǔn)智能問答關(guān)鍵技術(shù)研究。首先,進行FAQ引擎設(shè)計,包括研究基于語義相似度的問題快速匹配技術(shù)、基于深度學(xué)習(xí)的相似度重排技術(shù),對用戶行為進行評分;其次,進行KGQA引擎設(shè)計,包括研究語義庫設(shè)計模型和基于Graph的搜索匹配模型;最后,設(shè)計多引擎加權(quán)打分機制,能夠?qū)崿F(xiàn)油田環(huán)保安全領(lǐng)域標(biāo)準(zhǔn)智能問答。
關(guān)鍵詞:油田環(huán)保安全領(lǐng)域,標(biāo)準(zhǔn),智能問答
DOI編碼:10.3969/j.issn.1674-5698.2024.04.009
0 引 言
隨著大數(shù)據(jù)、云計算、人工智能等新一代信息技術(shù)的發(fā)展和應(yīng)用逐漸走向成熟,日益滲透到經(jīng)濟社會的各個領(lǐng)域。在油田環(huán)保安全領(lǐng)域,我國標(biāo)準(zhǔn)數(shù)字化應(yīng)用水平總體處于紙質(zhì)標(biāo)準(zhǔn)電子化、結(jié)構(gòu)化、語義化的初級數(shù)據(jù)建設(shè)階段,缺乏可交互標(biāo)準(zhǔn)數(shù)字化應(yīng)用和探索。油田環(huán)保安全領(lǐng)域標(biāo)準(zhǔn)知識復(fù)雜程度較高,難以形成對標(biāo)準(zhǔn)數(shù)字知識的雙向理解路徑,一方面標(biāo)準(zhǔn)間的數(shù)據(jù)關(guān)聯(lián)關(guān)系及數(shù)據(jù)結(jié)構(gòu)復(fù)雜,可能導(dǎo)致機器無法準(zhǔn)確理解人類多輪提問需求;另一方面機器生成內(nèi)容可能不符合人的閱讀和理解邏輯,導(dǎo)致人類無法高效全面理解機器生產(chǎn)的內(nèi)容,造成人員提出的問題與機器給出的答案不匹配等問題。
針對上述不足,本文旨在深入探討油田環(huán)保安全領(lǐng)域標(biāo)準(zhǔn)智能問答的關(guān)鍵技術(shù)。首先聚焦于FAQ(Frequently Asked Questions)引擎的設(shè)計。這一階段主要包括基于語義相似度的問題快速匹配技術(shù)的研究,以及基于深度學(xué)習(xí)的相似度重排技術(shù)。這些技術(shù)的目的是為了更準(zhǔn)確、迅速地識別和匹配用戶提出的問題。此外,研究還涉及對用戶行為進行評分,這有助于了解用戶需求,從而提高問答系統(tǒng)的效率和準(zhǔn)確性。其次,文章著眼于KGQA(Knowledge Graph Question Answering)引擎的設(shè)計。在這一部分,研究集中于語義庫設(shè)計模型和基于圖(Graph)的搜索匹配模型的開發(fā)。這些模型旨在利用知識圖譜,以更加復(fù)雜和高級的方式處理和回答問題,使得答案更為精確和全面。最后,研究提出了一種多引擎加權(quán)打分機制的設(shè)計。這種機制能夠綜合FAQ引擎和KGQA引擎的優(yōu)勢,通過加權(quán)打分來確定最優(yōu)的回答方案。通過這種方法,可以實現(xiàn)更為高效和準(zhǔn)確的油田環(huán)保安全領(lǐng)域標(biāo)準(zhǔn)智能問答,從而大幅提升信息檢索和問題解決的質(zhì)量。整體而言,本研究在智能問答技術(shù)領(lǐng)域為油田環(huán)保安全標(biāo)準(zhǔn)的應(yīng)用提供了一種新的視角和方法論。
1 研究現(xiàn)狀綜述
在這個信息爆炸與科技高速發(fā)展的時代,如何從繁雜的海量數(shù)據(jù)中提取準(zhǔn)確所需信息,成為了研究的重點。全問答(question answering, QA)作為解決這一問題的關(guān)鍵手段之一,通過對數(shù)據(jù)信息進行檢索、分析,最終向用戶提供問題的答案或相關(guān)信息。問答系統(tǒng)在語言建模的核心挑戰(zhàn)在于如何更好地理解和處理自然語言。其中,詞嵌入(word embedding)方法扮演了重要角色。詞嵌入是一種將詞語轉(zhuǎn)換為向量的技術(shù),可以使計算機更好地理解詞語之間的關(guān)系和含義。傳統(tǒng)的詞嵌入方法主要包括Mikolov T等人于2013年提出的Word2Vec[1]和Pennington J等人于2014年提出的GloVe[2]模型。Word2Vec模型是通過將詞匯量化為向量,實現(xiàn)了對詞語之間關(guān)系的定量度量,主要包括連續(xù)詞袋模型(CBOW)和跳躍模型(skipgram)兩種模型。 在CBOW模型中,通過上下文來預(yù)測目標(biāo)單詞;而在skip-gram模型中,則是通過目標(biāo)單詞來預(yù)測上下文。這兩種模型都能有效地捕捉詞與詞之間的聯(lián)系。GloVe模型則與Word2Vec有所不同。GloVe更加關(guān)注單詞同時出現(xiàn)的概率比率,而非簡單地關(guān)注共現(xiàn)概率分布。它的特點在于不需要計算共現(xiàn)次數(shù)為零的單詞對,從而減少了計算量和數(shù)據(jù)存儲空間。GloVe通過分析整個數(shù)據(jù)集的詞匯共現(xiàn)信息,從而更好地捕捉到單詞間的全局關(guān)系。這兩種方法都在問答系統(tǒng)的語言理解能力提升上起到了關(guān)鍵作用。通過這些先進的詞嵌入技術(shù),問答系統(tǒng)能夠更有效地處理復(fù)雜的語言信息,更準(zhǔn)確地理解用戶的問題,并提供相關(guān)的答案。然而,這些傳統(tǒng)的詞嵌入方法在處理詞義多樣性、上下文靈活變化等方面還存在局限性,這也推動了后續(xù)如BERT[3]等更先進的語言表示模型的發(fā)展。
BE RT是一個具有里程碑意義的自然語言處理(N L P)模型,由G o o g l e在2 018年推出。它的核心是采用了生成式的掩碼語言模型(Ma ske dLanguage Model, MLM)和雙向Transformer結(jié)構(gòu)。BERT的訓(xùn)練分為兩個階段,首先是預(yù)訓(xùn)練階段,BERT在大規(guī)模的數(shù)據(jù)集(如:BooksCorpus和英語維基百科[4])上進行無監(jiān)督學(xué)習(xí),這一階段的目的是讓模型學(xué)習(xí)語言的基本規(guī)律和模式;其次是微調(diào)階段,針對特定的NLP任務(wù)(如:情感分析、問答系統(tǒng)、命名實體識別等),將任務(wù)相關(guān)的數(shù)據(jù)輸入到預(yù)訓(xùn)練好的BERT模型中,并進行參數(shù)的微調(diào),使模型適應(yīng)特定的任務(wù)。
問答系統(tǒng)想要滿足用戶需求, 主要需處理3個問題: 問題分析、信息檢索和答案生成。根據(jù)問答系統(tǒng)信息源的數(shù)據(jù)類型的不同, 可將問答系統(tǒng)分為: (1)數(shù)據(jù)來源于結(jié)構(gòu)化知識圖譜的問答系統(tǒng);(2)數(shù)據(jù)來源于對話、問答對的基于問答對的問答系統(tǒng); (3)數(shù)據(jù)來源于自由文本的基于機器閱讀理解的問答系統(tǒng)。其中,關(guān)于基于知識圖譜問答系統(tǒng)的應(yīng)用, 大多集中在特定領(lǐng)域,如:醫(yī)療領(lǐng)域、金融投資領(lǐng)域、電商領(lǐng)域、聊天機器人領(lǐng)域等?;趩柎饘Φ膯柎鹣到y(tǒng)使用較為普遍,早期美國在為用戶提供航班信息時開發(fā)的SLS項目,歐盟開發(fā)的列車時刻信息系統(tǒng)和保險合約查詢電話呼叫中心等[5]。目前,各大IT公司也開發(fā)了各種聊天機器人,如:蘋果的Siri、微軟小冰、小米、小愛等。基于機器閱讀理解的問答系統(tǒng)是由計算機自動根據(jù)給定的語料資料來回答用戶所提出的問題,目前受到了越來越廣泛的關(guān)注,與FAQ、KBQA等優(yōu)勢互補,形成更完備、更智能的問答系統(tǒng)。
油田環(huán)保安全領(lǐng)域標(biāo)準(zhǔn)智能問答技術(shù)研究面向特定領(lǐng)域,相較于一般的智能問答系統(tǒng)具有更高的專業(yè)性和準(zhǔn)確性。因此,油田環(huán)保安全領(lǐng)域標(biāo)準(zhǔn)問答系統(tǒng)在構(gòu)建過程中,重點采用基于知識圖譜、基于機器閱讀理解的方法來開展智能問題系統(tǒng)研究。
2 油田環(huán)保安全領(lǐng)域標(biāo)準(zhǔn)智能問答引擎設(shè)計
2.1 FAQ引擎
(1)工作原理
FAQ引擎是基于常見問題的相似比對引擎,主要涉及收集并組織常見問題及其答案,然后通過用戶界面使用戶能夠搜索或瀏覽這些問題。當(dāng)用戶提出查詢時,引擎通過關(guān)鍵詞匹配或使用自然語言處理技術(shù)來理解用戶的查詢意圖,從而檢索出最相關(guān)的答案。這些答案隨后以易于理解的格式呈現(xiàn)給用戶。此外,F(xiàn)AQ系統(tǒng)通常會收集用戶反饋,以不斷優(yōu)化答案的準(zhǔn)確性和相關(guān)性,有時還會集成聊天機器人來提供更實時的互動。
(2)基于語義相似度的問題快速匹配技術(shù)
基于語義相似度的問題快速匹配技術(shù)是一種智能技術(shù),用于計算用戶輸入問題與數(shù)據(jù)庫中存儲問題之間的語義相似度。它通過分析和理解問題的意義而不僅僅是關(guān)鍵詞,能夠識別出語義上最為接近的問題。這種技術(shù)運用自然語言處理(NLP)和機器學(xué)習(xí)算法,以確保提供的候選答案在語義上與用戶的查詢盡可能匹配,從而提高問題解答的準(zhǔn)確性和效率。
(3)基于深度學(xué)習(xí)的相似度重排技術(shù)
應(yīng)用深度學(xué)習(xí)技術(shù),將問題與候選答案進行深度語義比對,計算用戶輸入與候選答案之間的相似度,根據(jù)計算結(jié)果,對候選答案集進行重新排序。
(4)用戶行為評分
對于推薦的相似問題,如果用戶點擊后,系統(tǒng)會記錄該事件,對當(dāng)前提問問題與點擊的相似問題建立一個關(guān)系。相似問題之間的關(guān)系可在系統(tǒng)投票選舉環(huán)節(jié),進行加權(quán)評分,提高推選答案的排名。
2.2 KGQA引擎
(1)工作原理
先對油田環(huán)保安全領(lǐng)域標(biāo)準(zhǔn)問題庫進行梳理,形成知識圖譜的三元組結(jié)構(gòu),在此基礎(chǔ)上,定義基于知識圖譜的問題模板,構(gòu)建問題模板庫。
油田行業(yè)知識圖譜,是油田領(lǐng)域標(biāo)準(zhǔn)的結(jié)構(gòu)化語義知識庫,用于以符號形式描述物理世界中的概念及其相互關(guān)系,其基本組成單位是【實體,關(guān)系,實體】或者【主體,謂詞,客體】三元組,以及實體及其相關(guān)屬性值對,實體之間通過關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識結(jié)構(gòu)。
在問答系統(tǒng)中,把三元組定義為【主體,屬性,答案】,這樣在問答過程中,通過給定主體與屬性兩個維度查找知識圖譜中的答案。
問答過程主要分為兩個步驟,其一是問題理解,通過問題理解識別到該問題的具體意圖,也就是問題的知識主體與知識屬性;其二是答案搜索,根據(jù)問題理解獲得的知識主體與知識屬性,查找知識圖譜中的具體答案。例如:油田含油污泥處置后泥渣利用污染物控制限制值的知識本體如下:
【油田含油污泥處置后泥渣利用污染物A s(mg/kg),控制限制值,≤30(mg/kg)】
知識主體:油田含油污泥處置后泥渣利用污染物As
知識屬性:控制限制值
知識答案:≤30(mg/ kg)
用戶可以提問“油田含油污泥處置后泥渣利用污染物As的控制限制值?”“含油污泥處置后利用As的限制值?”“泥渣利用污染物As限制值?”,通過問題理解,識別到用戶的意圖是【油田含油污泥處置后泥渣利用污染物As,控制限制值,?】,再通過答案搜索,查詢知識圖譜中的具體答案,“≤30(mg/ kg)”。
問題理解是基于語義表達式,通過關(guān)鍵術(shù)語來匹配用戶問題,例如:油田含油污泥處置后泥渣利用污染物As的控制限制值問題,可定義表達式如下:
【油田含油污泥處置后】【泥渣利用污染物As】【控制限制值】
【油田含油污泥處置后】【控制限制值】【泥渣利用污染物As】
至此就完成了一個簡單的意圖,但是泥渣利用污染物有著通用元素的意圖,為了擴大表達式的覆蓋范圍,可以將此抽象為一個實體,如下所示:
【$對象實體】【$指標(biāo)實體】
其中,【$對象實體】表示一個實體,代表泥渣利用污染物。當(dāng)用戶提問“泥渣利用污染物As?”,匹配結(jié)果如下:
匹配表達式:【$對象實體】【$指標(biāo)實體】
匹配實體:【$對象實體:泥渣利用污染物】
匹配意圖:【泥渣利用污染物的As,控制限制值,?】
當(dāng)用戶提問“泥渣利用污染物的As的控制限制值?”。
【泥渣利用污染物】【As】≠【泥渣利用污染物】【As控制限制值】
這時需要將“As”與“As控制限制值”定義為同義詞組【As控制限制值;As】,通過同義詞擴展表達式的覆蓋范圍。
【泥渣利用污染物】【As】=【泥渣利用污染物】【As】
(2)語義庫設(shè)計模型
底層語義庫由詞庫、對象庫、知識庫3部分組成。
構(gòu)建詞庫的目的主要是為了分詞、構(gòu)造語義表達式以及使用詞本身攜帶的語義信息進行語義相似度計算。詞庫是由多個詞類組成,詞類由詞類名和一個或多個同義或同類詞構(gòu)成。在“泥渣利用污染物的As”的實例中,【$對象實體】定義為詞類,其屬性為實體詞類,其下定義的所有詞均為具體實體?!続s控制限制值;As】定義為同義詞組,其屬性為普通詞而非實體詞,意味著并不需要識別該詞的詞類。
構(gòu)建對象庫(語義庫)的目的主要是為了實例化對象類,從而快速創(chuàng)建某一領(lǐng)域的知識點,是對知識庫中的對象類實例以及屬性知識點與相互關(guān)系的嚴(yán)格刻畫。對象庫由屬性名、標(biāo)準(zhǔn)問題模板和一組屬性語義表達式所構(gòu)成。對象庫中的語義表達式使用詞庫中的詞類,由一個或多個實體對象符或關(guān)鍵詞組成,例如:【$對象實體】【檢測方法】,其中【$對象實體】為實體對象符,【檢測方法】為關(guān)鍵詞。
構(gòu)建知識庫的目的主要是為了根據(jù)業(yè)務(wù)需求來組織和管理知識點。實例可以是對象類的實例化,當(dāng)實例為對象類實例時,該實例下所有的知識點都是屬性知識點,實例語義在實例化對象的過程中替換屬性語義表達式中的“對象符”,進而生成知識點的語義表達式。
(3)基于Graph的搜索匹配模型
KGQA引擎基于Graph的DFS(深度優(yōu)先搜索)實現(xiàn)語義表達式的快速模式匹配。
深度優(yōu)先搜索屬于圖算法的一種,英文縮寫為DFS即Depth First Search。其過程簡要來說是對每一個可能的分支路徑深入到不能再深入為止,而且每個節(jié)點只能訪問一次。深度優(yōu)先搜索的特點:每次深度優(yōu)先搜索的結(jié)果必然是圖的一個連通分量。深度優(yōu)先搜索可以從多點發(fā)起。如果將每個節(jié)點在深度優(yōu)先搜索過程中的“結(jié)束時間”排序(具體做法是創(chuàng)建一個list,然后在每個節(jié)點的相鄰節(jié)點都已被訪問的情況下,將該節(jié)點加入list結(jié)尾,然后逆轉(zhuǎn)整個鏈表),則我們可以得到所謂的“拓?fù)渑判颉?,即topological sort.
K G Q A引擎將定義的語義表達式,拆解為Graph節(jié)點并存放于Graph內(nèi)存數(shù)據(jù)庫中,例如:
【$污染物】【控制】【方法】
【$污染物】【控制】【流程】
【$污染物】【處置】【方法】
【$污染物】【處置】【依據(jù)】
【$污染物】【監(jiān)測】
【$污染物】【利用】
轉(zhuǎn)化為如圖1所示Graph有向圖結(jié)構(gòu)。
2.3 多引擎加權(quán)打分機制
油田環(huán)保安全領(lǐng)域標(biāo)準(zhǔn)智能問答系統(tǒng)采用的是一種基于柔性多引擎加權(quán)打分的問答機制,將基于模板的匹配結(jié)果(KGQA)與基于語義相似度的匹配結(jié)果(FAQ)進行基于多特征加權(quán)的結(jié)果整合,輸出綜合打分最高的一組結(jié)果作為候選結(jié)果。
多引擎調(diào)度采用線程池技術(shù)進行管理,處理過程中將任務(wù)添加到隊列,然后在創(chuàng)建線程后自動啟動這些任務(wù),線程池線程都是后臺線程。每個線程都使用默認(rèn)的堆棧大小,以默認(rèn)的優(yōu)先級運行,并處于多線程單元中。如果某個線程在托管代碼中空閑(如:正在等待某個事件),則線程池將插入另一個輔助線程來使所有處理器保持繁忙。如果所有線程池線程都始終保持繁忙,但隊列中包含掛起的工作,則線程池將在一段時間后創(chuàng)建另一個輔助線程但線程的數(shù)目永遠不會超過最大值。超過最大值的線程可以排隊,但它們要等到其他線程完成后才啟動。
3 結(jié)果與討論
針對當(dāng)前油田環(huán)保安全標(biāo)準(zhǔn)領(lǐng)域智能問答人機互動性較差,尚未形成人機雙向理解路徑,基于FAQ引擎和KGQA引擎及相關(guān)技術(shù)開展面向油田環(huán)保安全標(biāo)準(zhǔn)的雙向閱讀理解和智能問答的語言預(yù)訓(xùn)練,訓(xùn)練結(jié)果如圖2所示。
智能問答系統(tǒng)雖然已經(jīng)取得了一定進展,但仍存在一些問題和局限性,需要進一步改進。(1)現(xiàn)有系統(tǒng)可能在處理復(fù)雜、模糊或多層次的查詢時遇到困難,尤其是涉及抽象概念或深層次語義理解的問題。(2)油田環(huán)保安全領(lǐng)域標(biāo)準(zhǔn)智能問答系統(tǒng)提供信息的準(zhǔn)確性和可靠性有待進一步提升,特別是在處理少見的話題時。(3)油田環(huán)保安全領(lǐng)域標(biāo)準(zhǔn)智能問答系統(tǒng)的效果很大程度上取決于其油田環(huán)保安全標(biāo)準(zhǔn)知識庫的質(zhì)量和時效性,需要定期更新和必要的維護。解決這些問題需要綜合運用更先進的自然語言處理技術(shù),深度學(xué)習(xí)算法、用戶界面設(shè)計原則和數(shù)據(jù)保護措施。隨著技術(shù)的不斷進步,油田環(huán)保安全領(lǐng)域標(biāo)準(zhǔn)智能問答系統(tǒng)的性能和用戶體驗預(yù)期將持續(xù)提高。
參考文獻
[1]Mikolov T, Sutskever I, Chen K, et al. Distributed r epr e sent at ion s of wor d s a nd ph r a se s a nd t hei rcompositionality[A]. Proceedings of the 26th International Conference on Neural Information Processing Systems[C].Lake Tahoe: ACM, 2013:3111–3119.
[2]Pennington J, Socher R, Manning C. GloVe: Global vectors for word representation[A]. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP)[C]. Doha: Association for Computational Linguistics, 2014:1532–1543.
[3]Devlin J , C ha ng M W, L ee K , e t a l. B ERT: P ret r a i n i n g o f de ep bid i r e ct ion a l t r a n s for mer s for language understanding[A]. Proceedings of the 2019 Conference of the Nor th American Chapter of the Association for Computational Linguistics: Human Language Technologies[C]. Minneapolis: Association for Computational Linguistics, 2019:4171–4186.
[4]Zhu YK, Kiros R, Zemel R, et al. Aligning books and movies: T owards s tory-like v isual e xplanations b y watching movies and reading books[A]. Proceedings of the 2015 IEEE International Conference on Computer Vision[C]. Santiago: IEEE, 2015:19-27.
[5]Den Os E, Boves L, Lamel L, et al. Overview of the ARISE project[A]. Proceedings of the 6th European Conference on Speech Communication and Technology[C]. Budapest:ISCA, 1999:1527-1530.
[6]武鴻浩. 公安領(lǐng)域中知識圖譜的構(gòu)建與應(yīng)用研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2018(8): 93-94+127.
[7]孫利宇,錢家俊. 公安知識圖譜助力智慧警務(wù)落地[J].數(shù)字通信世界,2018(7):23+48.
[8]劉嶠,李楊,段宏,等.知識圖譜構(gòu)建技術(shù)綜述[J]. 計算機研究與發(fā)展,2016,53(3) :582-600.
[9]王鑫,鄒磊,王朝坤,等.知識圖譜數(shù)據(jù)管理研究綜述[J].軟件學(xué)報,2019,30(7) :2139-2174.