郭 輝,王 琲,劉 飛
(1.新疆醫(yī)科大學(xué)第五附屬醫(yī)院,新疆 烏魯木齊 830011;2.新疆維吾爾自治區(qū)人民醫(yī)院,新疆 烏魯木齊 830001;3.新疆醫(yī)科大學(xué)圖書館,新疆 烏魯木齊 830017)
自然語言問答系統(tǒng)是一種使用自然語言提問和回答的搜索引擎,其特點是可以利用對問題的語義分析提供給用戶精確簡潔的問題答案。自然語言問答系統(tǒng)是通過人機對話,采用自然語言問答的方式獲取信息的系統(tǒng),可用于知識工程、信息檢索、專家系統(tǒng)等領(lǐng)域[1]2-4。本文對我國自然語言問答系統(tǒng)的文獻(xiàn)進(jìn)行調(diào)研與分析,文獻(xiàn)調(diào)研的數(shù)據(jù)來源為中國知網(wǎng)(CNKI),選取的文獻(xiàn)時間范圍設(shè)定在2000年至2020年,采用文獻(xiàn)計量的方法得出文獻(xiàn)計量分析結(jié)果,包括學(xué)科領(lǐng)域分布、文獻(xiàn)的年度分布、機構(gòu)分布、高頻關(guān)鍵詞及基于關(guān)鍵詞共現(xiàn)的熱點主題,以便了解和掌握我國自然語言問答系統(tǒng)領(lǐng)域的研究現(xiàn)狀,為未來的研究提供一定的理論參考。
利用CNKI 數(shù)據(jù)庫檢索自然語言問答系統(tǒng)研究文獻(xiàn)。首先將“問答系統(tǒng)”選為主題詞,考慮到“問答技術(shù)”“知識問答”“智能問答”也是自然語言處理的一個方向,因此再將“問答技術(shù)”“知識問答”“智能問答”也選為主題詞。最終構(gòu)建出如下檢索式:
主題=(“問答系統(tǒng)”O(jiān)R“問答技術(shù)”O(jiān)R“知識問答”O(jiān)R“智能問答”)。
利用上述檢索式在CNKI數(shù)據(jù)庫中進(jìn)行檢索,檢索時間為2000 年1 月至2020 年12 月。去除與自然語言問答系統(tǒng)無關(guān)的文獻(xiàn),共得到8 353篇相關(guān)文獻(xiàn)。這些文獻(xiàn)的來源有學(xué)術(shù)期刊、博士學(xué)位論文、碩士學(xué)位論文、會議論文、報紙全文等多種形式。其中:期刊論文(4 751篇,占56.87%)、學(xué)位論文(937篇,占11.65%)。
從學(xué)科分布來看,如表1所示,輕工業(yè)、醫(yī)學(xué)、行政、自動化、數(shù)字圖書館、電力、園藝和建筑等是自然語言問答系統(tǒng)研究的主要領(lǐng)域。其中計算機軟件學(xué)科的研究文獻(xiàn)最多,通過分析文獻(xiàn)內(nèi)容可知,該領(lǐng)域主要關(guān)注于自然語言問答系統(tǒng)的開發(fā)和改進(jìn)研究。
表1 自然語言問答系統(tǒng)發(fā)文量學(xué)科分布
文獻(xiàn)發(fā)表的年度分布情況如圖1 所示,從2000 年開始,自然語言問答系統(tǒng)研究的文獻(xiàn)數(shù)量處于波動上升的趨勢,2008年至2013年發(fā)文量減少,2013 年至2020 年又持續(xù)上升??傮w來看,近20年自然語言問答系統(tǒng)的研究文獻(xiàn)數(shù)量呈上升趨勢,其年度分布也較為均衡。
圖1 近20年自然語言問答系統(tǒng)發(fā)文量
自然語言問答系統(tǒng)的研究機構(gòu)共有34 個。其中,發(fā)文量15 篇及以上的機構(gòu)如表2 所示。發(fā)文量排名前三位機構(gòu)分別是:哈爾濱工業(yè)大學(xué)(165篇)、北京郵電大學(xué)(96篇)、電子科技大學(xué)(57篇)。說明這三所機構(gòu)在整個自然語言問答系統(tǒng)研究領(lǐng)域中占據(jù)重要地位。
表2 自然語言問答系統(tǒng)研究文獻(xiàn)機構(gòu)分布
關(guān)鍵詞是由作者主觀賦予文獻(xiàn)的詞組,以反映文獻(xiàn)的核心內(nèi)容,是文獻(xiàn)的核心所在。因不同的文獻(xiàn)作者對于關(guān)鍵詞的使用不統(tǒng)一,在對關(guān)鍵詞進(jìn)行分析之前,有必要對關(guān)鍵詞進(jìn)行如下規(guī)范化處理。
(1)同義詞合并:將表示同義的詞匯合并為一個規(guī)范的詞匯。如將“關(guān)鍵詞提取”和“關(guān)鍵詞抽取”合并為“關(guān)鍵詞提取”。
(2)上下位類合并:將下位類合并到上位類,將一些比較零散的特指概念合并到上位類,如將“姓名識別”和“命名實體識別”統(tǒng)一合并為“命名實體識別”。
(3)基本概念剔除:鑒于自然語言、問答系統(tǒng),問答技術(shù)等基本概念無法反映自然語言問答系統(tǒng)的研究熱點及趨勢,本文將這些概念進(jìn)行剔除。否則因其頻次過高,與其他概念的共現(xiàn)程度過高,會導(dǎo)致結(jié)果的分析和判斷出現(xiàn)偏差。
(4)屬性描述整合:當(dāng)關(guān)鍵詞歸屬于某一概念時,將該屬性關(guān)鍵詞合并到該概念。如將“問答對質(zhì)量”合并到“問答對”。
通過以上關(guān)鍵詞篩選、整合之后,得到如表3所示的關(guān)鍵詞詞頻結(jié)果。
表3 自然語言問答系統(tǒng)研究文獻(xiàn)關(guān)鍵詞詞頻統(tǒng)計
對于高頻詞的截取,目前尚無統(tǒng)一見解。如果選取關(guān)鍵詞范圍太小,則不能反映學(xué)科構(gòu)成情況;如果選取范圍太大,則會給共詞分析帶來不必要的干擾。目前,高頻關(guān)鍵詞的截取使用最多的方法是結(jié)合研究者的經(jīng)驗在選詞個數(shù)和詞頻高度上平衡[2],如馬費成等人選取了累計詞頻達(dá)62%的前69 個關(guān)鍵詞來表征我國數(shù)字信息資源領(lǐng)域的研究熱點[3],邱均平等人利用集中分散的“二八定律”,選取累計詞頻25.2%的前77個關(guān)鍵詞來表征我國圖書館學(xué)近十年的研究熱點[4],李武和董偉則選取了頻次不小于5的46個關(guān)鍵詞來代表我國開放存取研究的主題[5]。本研究延用此方法,選取詞頻在20 及以上的47 個高頻關(guān)鍵詞進(jìn)行研究熱點分析,這些關(guān)鍵詞基本上體現(xiàn)了自然語言問答系統(tǒng)領(lǐng)域的核心研究主題,如表4所示。
表4 自然語言問答系統(tǒng)研究文獻(xiàn)的高頻關(guān)鍵詞統(tǒng)計(部分)
如果兩個詞在眾多文獻(xiàn)中共現(xiàn)的頻次越高,則說明它們之間的關(guān)系越密切。揭示高頻關(guān)鍵詞之間的關(guān)系,則需要統(tǒng)計分析它們在同一篇文獻(xiàn)中共現(xiàn)的次數(shù)及規(guī)律,即為共詞分析[6]。通過對文獻(xiàn)中這種詞對共現(xiàn)的量化分析,能夠初步揭示研究主題之間的關(guān)聯(lián),進(jìn)一步發(fā)現(xiàn)學(xué)科熱點。因此,可考慮通過構(gòu)建這些高頻關(guān)鍵詞的共現(xiàn)矩陣來找出自然語言問答系統(tǒng)研究領(lǐng)域的核心詞匯,通過對這些詞匯進(jìn)行理解和表征,能夠更清晰地理解該研究領(lǐng)域研究熱點之間的關(guān)系。上文中表4 所統(tǒng)計出來的47個高頻關(guān)鍵詞基本上涵蓋了自然語言問答系統(tǒng)研究的主要方向,能夠基本反映出該領(lǐng)域的研究熱點。對這47個高頻詞的共現(xiàn)次數(shù)進(jìn)行統(tǒng)計,構(gòu)建出高頻關(guān)鍵詞共現(xiàn)矩陣,表5所示為部分關(guān)鍵詞(10個)構(gòu)成的共現(xiàn)矩陣。
表5 自然語言問答系統(tǒng)研究文獻(xiàn)關(guān)鍵詞共現(xiàn)矩陣(部分)
由于表5 中共現(xiàn)矩陣中的關(guān)鍵詞兩兩共現(xiàn)詞頻是絕對詞頻,無法客觀反映出關(guān)鍵詞之間的依賴程度。本研究對詞頻進(jìn)行包容化處理,將絕對詞頻轉(zhuǎn)化為相對詞頻,以明確關(guān)鍵詞之間的緊密聯(lián)系程度。在目前研究中,包容化處理的方法主要有包容指數(shù)法、臨近指數(shù)法、相互包容系數(shù)法等[1]10-16。目前使用較廣泛的是Ochiia 系數(shù)法,公式為:
其中,Cij表示詞i與詞j在文獻(xiàn)集合中的共現(xiàn)次數(shù),Ci表示詞i的出現(xiàn)次數(shù),Cj表示詞j的出現(xiàn)次數(shù),Oij是經(jīng)包容化處理后的相對共現(xiàn)頻率。經(jīng)包容化處理后,使用絕對詞頻的共現(xiàn)矩陣轉(zhuǎn)換為使用相對詞頻的相關(guān)矩陣,如表6所示。在相關(guān)矩陣中,數(shù)值大小反映關(guān)鍵詞間的相關(guān)程度,數(shù)值越大,相關(guān)性越強。
表6 自然語言問答系統(tǒng)研究文獻(xiàn)關(guān)鍵詞相關(guān)矩陣(部分)
由于相關(guān)矩陣中的0值過多,統(tǒng)計時容易造成誤差過大,為了方便進(jìn)一步處理,用1與相關(guān)矩陣中的全部數(shù)據(jù)進(jìn)行相減(相異矩陣=1-相似矩陣),得到表示兩詞間相依程度的相異矩陣,如表7所示。相異矩陣中的數(shù)據(jù)表示不相似數(shù)據(jù),數(shù)值越大表明關(guān)鍵詞之間的關(guān)系越遠(yuǎn),相關(guān)度越差;反之,數(shù)值越小表明關(guān)鍵詞之間的關(guān)系越近,相關(guān)度越高。
表7 自然語言問答系統(tǒng)領(lǐng)域關(guān)鍵詞相異矩陣(部分)
共詞聚類分析是共詞分析中常用的一種方法,在共詞分析的基礎(chǔ)上,以詞的共現(xiàn)頻率為研究對象,利用聚類方法,把眾多分析對象之間復(fù)雜的共詞網(wǎng)狀關(guān)系簡化成書目相對較少的類團(tuán)之間的關(guān)系[7]。通過聚類分析,能夠發(fā)現(xiàn)關(guān)系緊密的關(guān)鍵詞構(gòu)成的相對獨立的類團(tuán),這些類團(tuán)能夠反映學(xué)科領(lǐng)域的研究主題。
層次聚類是聚類分析中的經(jīng)典方法。本文采用SPSS 統(tǒng)計軟件,利用高頻關(guān)鍵詞共現(xiàn)的相異矩陣進(jìn)行自下而上的層次化聚類分析,在SPSS 中選擇離差平方和聚類方法(Ward 法),距離測度選擇區(qū)間數(shù)據(jù)類型(count)中的Euclidean 方法。聚類后得到5大類,如表8所示。
表8 自然語言問答系統(tǒng)研究文獻(xiàn)關(guān)鍵詞聚類結(jié)果
經(jīng)過聚類分析,目前自然語言問答系統(tǒng)的研究主題主要有問題分類、答案抽取、信息檢索、推理、機器學(xué)習(xí)等五大類。其中,問題分類主要涉及句法分析技術(shù)、命名實體識別、句子的語義分析以及分類方法,如支持向量機、隱馬爾科夫模型等;答案抽取主要涉及文本分析的技術(shù),如句子相似度、指代消解、特征提取等;信息檢索主要涉及檢索的方式和支持有效檢索的技術(shù),如文本檢索、語義角色標(biāo)注和語義相似度等;推理主要與知識庫、推理方式等關(guān)鍵詞共現(xiàn),如與知識庫相關(guān)的關(guān)鍵詞有“語料庫”“知識庫”“本體”,與推理方式相關(guān)的關(guān)鍵詞有“基于規(guī)則的推理”;機器學(xué)習(xí)類別主要涉及機器學(xué)習(xí)的技術(shù),如貝葉斯、條件隨機場等。
通過對CNKI 數(shù)據(jù)庫中2000—2020 年自然語言問答系統(tǒng)領(lǐng)域中的碩博論文整理分析,開發(fā)應(yīng)用的重要文獻(xiàn)主要集中于以下八大領(lǐng)域。
(1)電子商務(wù)領(lǐng)域。自然語言問答系統(tǒng)在該領(lǐng)域中的應(yīng)用主要有:在問句理解方面,中文領(lǐng)域基于模板自動生成的語義解析方法[8];在知識庫構(gòu)建方面,知識表示模型的改進(jìn)以及知識自動融合和補全的方法;在商品咨詢方面,將中文自然語言查詢轉(zhuǎn)換為基于SPARQL 查詢的方法[9]。這些問答系統(tǒng)的改進(jìn)方法應(yīng)用在電子商務(wù)領(lǐng)域可提高了商品的查準(zhǔn)率和查全率。
(2)財經(jīng)領(lǐng)域。自然語言問答系統(tǒng)在財經(jīng)領(lǐng)域的應(yīng)用有:以維基百科為知識來源構(gòu)建金融領(lǐng)域的自動問答系統(tǒng)[10],識別財經(jīng)領(lǐng)域中的股票名稱、股票代碼等命名實體的問答系統(tǒng)[11],以問句后續(xù)解析為主的查詢子系統(tǒng)[12]、問句解析子系統(tǒng)[13],面向金融領(lǐng)域的網(wǎng)友問答子系統(tǒng)和自動問答子系統(tǒng)[14]以及企業(yè)問答系統(tǒng)[15]。
(3)醫(yī)療領(lǐng)域。自然語言問答系統(tǒng)在醫(yī)療領(lǐng)域中的應(yīng)用有基于多次推斷的自動化醫(yī)療疾病診斷系統(tǒng)[16]、中草藥問答系統(tǒng)[17]、基于中草藥語義網(wǎng)的自動問答系統(tǒng)[18]、基于垂直領(lǐng)域問答的醫(yī)療健康領(lǐng)域問答系統(tǒng)[19]、孕婦保健智能語音手機問答系統(tǒng)[20]以及基于疾病知識圖譜的問答系統(tǒng)[21]。
(4)旅游領(lǐng)域。自然語言問答系統(tǒng)在旅游業(yè)領(lǐng)域的應(yīng)用有:維護(hù)用戶多次輸入文本的上下相關(guān)性的問答系統(tǒng)[22],由模式匹配、句子相似度計算、旅游景點推薦、信息檢索和答案獲取等模塊組成的面向中文旅游領(lǐng)域的問答系統(tǒng)[23],基于本體知識庫模型,并采用SPARQL 查詢語言和Jena包來完成對知識的推理和答案的抽取的問答系統(tǒng)[24]。
(5)教育領(lǐng)域。自然語言問答系統(tǒng)在教育領(lǐng)域的應(yīng)用有:構(gòu)建以某一門課程為知識庫或本體的問答系統(tǒng),如基于互聯(lián)網(wǎng)資源的本體自動構(gòu)建技術(shù),實現(xiàn)了《C程序設(shè)計》課程本體的自動構(gòu)建并應(yīng)用于答疑系統(tǒng)[25];以《計算機操作系統(tǒng)》學(xué)科的領(lǐng)域知識庫為基礎(chǔ)設(shè)計自動問答系統(tǒng)[26];高考地理在線解答系統(tǒng)[27];自動解答高中地理因果推理類試題問題的系統(tǒng)[28];基于中國歷史人物(基于Android 平臺)的自動問答系統(tǒng)[29];基于《論語》的問答系統(tǒng)[30];入學(xué)咨詢的中文問答系統(tǒng)[31];面向國家科技計劃項目申報信息咨詢的自動問答原型系統(tǒng)[32];基于《數(shù)據(jù)庫系統(tǒng)原理》課程知識庫的中文問答系統(tǒng)[33];虛擬學(xué)術(shù)社區(qū)[34]。
(6)人工智能領(lǐng)域。問答系統(tǒng)在人工智能領(lǐng)域的應(yīng)用有人機情感交互行為一致性協(xié)同控制模型[35]、面向智能家居的交互系統(tǒng)[36]、基于大學(xué)計算機系教師信息的問答系統(tǒng)[37]、采筑智能問答平臺[38]以及視覺問答系統(tǒng)。
(7)社區(qū)問答領(lǐng)域。自然語言問答系統(tǒng)在社區(qū)問答系統(tǒng)領(lǐng)域的應(yīng)用主要有基于社區(qū)問答系統(tǒng)(CQA)的答案摘要系統(tǒng)[39]、社區(qū)問答檢索系統(tǒng)[40]、基于全信息的社區(qū)問答原型系統(tǒng)[41]。
(8)其他領(lǐng)域。自然語言問答系統(tǒng)還應(yīng)用在圖書館領(lǐng)域[42]、農(nóng)業(yè)領(lǐng)域[43]、數(shù)字人文領(lǐng)域[44]等。
自然語言問答系統(tǒng)是一種基于自然語言處理的應(yīng)用系統(tǒng)。該系統(tǒng)包括自然語言處理及信息檢索和答案抽取等方面的基本技術(shù),如詞法分析、句法分析、文本檢索、語義解析、答案抽取等。目前,問題回答系統(tǒng)的研究已經(jīng)成為一個熱點,它是信息檢索和自然語言處理的交叉研究方向。本文通過對現(xiàn)有自然語言問答系統(tǒng)的研究現(xiàn)狀進(jìn)行梳理,通過分析該領(lǐng)域的研究熱點,為新的研究角度提供方向上的理論支持。本文通過文獻(xiàn)計量的方法對我國自然語言問答系統(tǒng)研究的學(xué)科領(lǐng)域分布、文獻(xiàn)的年度分布、機構(gòu)分布、高頻關(guān)鍵詞及基于關(guān)鍵詞共現(xiàn)的熱點主題進(jìn)行了分析。
從學(xué)術(shù)方面看,分析結(jié)果表明計算機軟件及其應(yīng)用學(xué)科是自然語言問答系統(tǒng)的主要所屬學(xué)科,哈爾濱工業(yè)大學(xué)是該領(lǐng)域研究的領(lǐng)軍機構(gòu),自然語言問答系統(tǒng)的研究主題包括問題分類、答案抽取、信息檢索、推理以及機器學(xué)習(xí)等五大類。研究的核心主要是語言以及文本,語義、句法等研究的基礎(chǔ)仍然要依賴于語法、語義的研究。自然語言處理涉及計算機科學(xué)、人工智能以及語言學(xué)等多種學(xué)科,學(xué)科之間的交叉融合對于自然語言處理的發(fā)展起到良好的促進(jìn)作用。同時,自然語言處理的發(fā)展也促進(jìn)了其他學(xué)科的發(fā)展,推動部分傳統(tǒng)學(xué)科與自然語言相結(jié)合,促進(jìn)其他學(xué)科的不斷創(chuàng)新發(fā)展。提升計算機處理語言的能力,已經(jīng)成為人們未來研究的焦點。
從目前的應(yīng)用角度看,自然語言問答系統(tǒng)已經(jīng)應(yīng)用到諸多領(lǐng)域,其應(yīng)用領(lǐng)域主要有電子商務(wù)、財經(jīng)、醫(yī)療、旅游、教育、人工智能、社區(qū)問答以及其他領(lǐng)域。自然語言處理的廣泛應(yīng)用的核心在于準(zhǔn)確地理解語言文本,而理解文本的難點不僅僅需要語法邏輯的正確,更重要的還需要依賴于豐富的知識庫,兩者同時具備才能夠準(zhǔn)確地對文本進(jìn)行理解和分析。隨著技術(shù)的發(fā)展,各行各業(yè)對自然語言處理的需要逐漸增加并且對其準(zhǔn)確性要求也更高,如在一些銀行或醫(yī)學(xué)等領(lǐng)域?qū)ψ匀徽Z言處理的需要和要求都很高。其專業(yè)化服務(wù)是趨勢也是挑戰(zhàn),行業(yè)的不同,依賴的專業(yè)庫也不同,而專業(yè)庫的構(gòu)建工作是一項耗時耗力的工作,也是目前其發(fā)展的一個重點難點。未來可以考慮借助一些現(xiàn)有的顯性結(jié)構(gòu)化知識,來理解知識庫設(shè)計到的語言成分之間的關(guān)系,逐漸走向自動化構(gòu)建知識庫,減輕人工的工作量。
通過以上分析可發(fā)現(xiàn),雖然目前自然語言問答系統(tǒng)領(lǐng)域已有大量研究,無論是學(xué)術(shù)界還是產(chǎn)業(yè)界,提高計算機語言處理的準(zhǔn)確性等能力一直是大家關(guān)注的焦點。但自然語言問答系統(tǒng)在中文處理方面的精確率上的處理技術(shù)研究還不夠成熟,如分詞、實體識別、外來語識別和一詞多義等,導(dǎo)致大部分問答系統(tǒng)的準(zhǔn)確率還比較低,對文本的深層語義理解還不夠準(zhǔn)確,無法真正地理解自然語言問題。因此,未來的研究可以是自然語言處理技術(shù),從而推動自然語言問答系統(tǒng)在中文處理研究的進(jìn)一步發(fā)展??山梃bGoogle推出的一種深入探索自然語言理解的測試機平臺,即首先讓計算機對某個文章進(jìn)行理解,再由人們對計算機進(jìn)行提問測試其理解能力和準(zhǔn)確性能。