錢明輝 徐志軒
摘要:在web of science上檢索國(guó)外三年內(nèi)關(guān)于知識(shí)庫(kù)問答系統(tǒng)的最新相關(guān)研究,介紹了知識(shí)庫(kù)問答系統(tǒng)研究在計(jì)算機(jī)信息檢索領(lǐng)域和自然語(yǔ)言處理領(lǐng)域的發(fā)展進(jìn)程;再?gòu)哪壳白钋把氐南嚓P(guān)研究出發(fā),介紹了兩種主要解決知識(shí)庫(kù)問答系統(tǒng)的自然語(yǔ)言處理方法;并探討了國(guó)外最前沿的研究成果為國(guó)內(nèi)知識(shí)庫(kù)問答系統(tǒng)以及自然語(yǔ)言處理相關(guān)研究帶來(lái)的啟示,并對(duì)未來(lái)研究前景進(jìn)行了展望。
關(guān)鍵詞:知識(shí)庫(kù)問答系統(tǒng);自然語(yǔ)言處理;信息抽取問答系統(tǒng);語(yǔ)義分析問答系統(tǒng)
DOI:10.13939/i.cnki.zgsc.2016.39.086
一、知識(shí)庫(kù)問答系統(tǒng)相關(guān)研究的發(fā)展進(jìn)程
有關(guān)于問答系統(tǒng)的研究在自然語(yǔ)言處理領(lǐng)域和信息檢索相關(guān)研究領(lǐng)域已經(jīng)有了相當(dāng)長(zhǎng)的研究歷史。早期人們對(duì)于問答系統(tǒng)研究的動(dòng)機(jī)和需求主要來(lái)自于信息檢索系統(tǒng)的自動(dòng)化,人們尋求一種計(jì)算機(jī)檢索系統(tǒng)可以自動(dòng)并且準(zhǔn)確地理解人的信息需求,以便于找到合適的信息。所以,早期的問答系統(tǒng)解決方法主要是基于信息檢索的技術(shù)。比如在基于模板的RDF問答系統(tǒng)(Unger c.et al,2012)一文中,傳統(tǒng)的問答系統(tǒng)都是將問題轉(zhuǎn)換為RDF三元組的形式,再通過(guò)三元組在知識(shí)庫(kù)中檢索可能的候選答案,但是作者認(rèn)為單純使用RDF三元組無(wú)法準(zhǔn)確地表達(dá)問題真正的含義,尤其是對(duì)于較為復(fù)雜的問題,RDF三元組很難回答出準(zhǔn)確答案。于是作者提出了一種更為復(fù)雜的問題解析方法,即引入“SPARQL”模式來(lái)代替原有的簡(jiǎn)單RDF三元組?!癝PARQL”模式是一種專門用于RDF的查詢語(yǔ)言和數(shù)據(jù)獲取協(xié)議,通過(guò)“SPARQL”的引入,可以更準(zhǔn)確地表達(dá)提問的邏輯關(guān)系,從而提高解析提問的正確率。Yahya等(2012)在處理Web中的自然語(yǔ)言提問時(shí),也利用了“SPARQL”模式對(duì)自然語(yǔ)言提問進(jìn)行拆分和進(jìn)一步的語(yǔ)義分析。這種處理自然語(yǔ)言提問的方法的主要思路是將問題轉(zhuǎn)換為RDF三元組或者更為復(fù)雜的“SPARQL”形式,即抽取問題中最核心的信息,然后在知識(shí)庫(kù)中進(jìn)行檢索,之后對(duì)檢索結(jié)果進(jìn)行排序,選擇最可能的答案。其主要缺陷首先是對(duì)問題解析不夠準(zhǔn)確,盡管使用“SPARQL”來(lái)表示問題中的邏輯關(guān)系,也仍然是基于三元組的形式,對(duì)于邏輯關(guān)系更為復(fù)雜的問題無(wú)法準(zhǔn)確理解,其次對(duì)于候選答案的選擇和排序的準(zhǔn)確率也不是非常理想。
隨著自然語(yǔ)言處理技術(shù)的不斷發(fā)展,對(duì)于自然語(yǔ)言問答系統(tǒng)的解決方案目前主要有兩種形式,一種是基于語(yǔ)義分析的方法,即利用語(yǔ)義分析的方法對(duì)提問進(jìn)行解析,將自然語(yǔ)言的提問轉(zhuǎn)換成更高級(jí)的表達(dá)形式或者標(biāo)準(zhǔn)提問語(yǔ)句。最終目標(biāo)是解析提問的語(yǔ)義,將其轉(zhuǎn)換為邏輯形式來(lái)準(zhǔn)確表達(dá)自然語(yǔ)言提問的含義。然后直接通過(guò)邏輯表達(dá)式在知識(shí)庫(kù)中匹配正確的答案,不再需要找到大量候選答案,然后挑選可能性最大的答案。與之相反,另一種處理自然語(yǔ)言提問的方法是基于信息抽取。這種方法不去理解提問的邏輯或含義,而是抽取提問中重要的核心話題實(shí)體和關(guān)系,然后在知識(shí)庫(kù)中搜索核心實(shí)體幾跳以內(nèi)的候選答案實(shí)體。最后計(jì)算候選答案與提問文本的相似性或相關(guān)性,來(lái)選取可能的最佳答案。
二、基于語(yǔ)義分析的問答系統(tǒng)研究
首先來(lái)看近三年來(lái)基于語(yǔ)義分析技術(shù)的問答系統(tǒng)相關(guān)研究。傳統(tǒng)的基于語(yǔ)義分析的問答系統(tǒng)一般來(lái)說(shuō)都是通過(guò)人工標(biāo)注的邏輯詞表,在小范圍內(nèi)進(jìn)行有監(jiān)督的機(jī)器學(xué)習(xí)。這種方式有非常大的缺陷,最主要的問題之一就是通過(guò)監(jiān)督學(xué)習(xí),并且依賴于人工標(biāo)注,這就導(dǎo)致在大規(guī)模的知識(shí)庫(kù)中表現(xiàn)不佳,遇到在監(jiān)督學(xué)習(xí)中沒有學(xué)習(xí)過(guò)的樣本就很難處理。Cai等(2013)的研究目的就是在傳統(tǒng)監(jiān)督學(xué)習(xí)的基礎(chǔ)上,建立了一種可以用于大規(guī)模知識(shí)庫(kù)問答系統(tǒng)的半監(jiān)督學(xué)習(xí)模型,以解決純監(jiān)督學(xué)習(xí)的語(yǔ)義分析方法在知識(shí)庫(kù)問答系統(tǒng)中存在的問題。首先作者依然使用了純監(jiān)督學(xué)習(xí)的方法進(jìn)行了一個(gè)語(yǔ)義分析器的訓(xùn)練,其次作者開發(fā)了一個(gè)匹配算法在知識(shí)庫(kù)中找到與詞匯相關(guān)的標(biāo)志,最后作者建立了一個(gè)詞匯擴(kuò)展器,將詞匯和知識(shí)庫(kù)中的相關(guān)標(biāo)志聯(lián)系在一起,并且可以不斷添加新的詞匯和知識(shí)庫(kù)相關(guān)標(biāo)志,最終完成學(xué)習(xí)。這種半監(jiān)督學(xué)習(xí)模型雖然性能比傳統(tǒng)的方法有了較大提升,但仍然無(wú)法完全擺脫對(duì)人工標(biāo)注的依賴,同時(shí)對(duì)詞匯擴(kuò)展器中詞匯與相關(guān)標(biāo)志的正確度要求較高,所以仍然存在一些問題。
在用動(dòng)態(tài)匹配方法擴(kuò)展語(yǔ)義分析器(Kwiat-kowski T.et al,2013)一文中作者發(fā)現(xiàn),首先,在傳統(tǒng)的語(yǔ)義分析解決知識(shí)庫(kù)問答系統(tǒng)的方法中,由于對(duì)同一問題自然語(yǔ)言表述的多樣性,導(dǎo)致對(duì)相近提問的語(yǔ)義分析結(jié)果,即邏輯表達(dá)式會(huì)有所差異。因?yàn)樵谥R(shí)庫(kù)中實(shí)體間的關(guān)系是唯一的,這就會(huì)產(chǎn)生邏輯表達(dá)式與知識(shí)庫(kù)的關(guān)系無(wú)法匹配的情況,從而降低了問答系統(tǒng)的性能。其次,面對(duì)大范圍的知識(shí)庫(kù),依賴于人工標(biāo)記的邏輯形式是不現(xiàn)實(shí)的。于是作者提出了一種基于本體匹配并且不依賴于人工詞匯觸發(fā)器的解決方法。這種方法分為兩個(gè)步驟,首先對(duì)問題進(jìn)行不依賴于知識(shí)庫(kù)或者人工詞匯觸發(fā)器的語(yǔ)義分析,允許產(chǎn)生不明確的邏輯表達(dá)式,或者說(shuō)允許產(chǎn)生對(duì)相近含義的提問產(chǎn)生不同類型的邏輯形式。之后第二步就是作者提出的本體匹配模型,在這種模型下,針對(duì)知識(shí)庫(kù)中不同領(lǐng)域內(nèi)的本體或者關(guān)系,將產(chǎn)生的不明確的邏輯表達(dá)式轉(zhuǎn)換成能夠與知識(shí)庫(kù)中本體匹配的明確邏輯形式,從而提高問答系統(tǒng)的對(duì)不同表達(dá)的相似提問的處理能力。
利用問題答案對(duì)的方法對(duì)Freebase進(jìn)行語(yǔ)義分析(Berant J.et a1,2013)一文作為提出了一個(gè)行之有效的擺脫人工標(biāo)注的語(yǔ)義分析學(xué)習(xí)方法的文章,使得后期很多的相關(guān)研究都以其研究成果作為比較的對(duì)象。在這篇文章中,為解決語(yǔ)義分析中對(duì)人工標(biāo)注的依賴,作者提出了一種基于問題答案對(duì)的學(xué)習(xí)方法。首先作者使用了入一DCS語(yǔ)言來(lái)構(gòu)成提問的邏輯表達(dá)式。由于自然語(yǔ)言的復(fù)雜性,導(dǎo)致對(duì)提問的語(yǔ)義分析會(huì)產(chǎn)生很多可能的候選邏輯表達(dá)式。作者等人的主要貢獻(xiàn)就是設(shè)計(jì)了一種學(xué)習(xí)算法,可以通過(guò)正確答案的邏輯表達(dá)式,訓(xùn)練得到一個(gè)向量,使得其與最正確的邏輯表達(dá)式的內(nèi)積最大。得到該向量后,即使針對(duì)陌生的新問題也可以找到最符合的邏輯表達(dá)式,從而在知識(shí)庫(kù)中找到符合邏輯的答案。
通過(guò)轉(zhuǎn)義法進(jìn)行語(yǔ)義分析(Berant J,LiangP,2014)是對(duì)上一個(gè)研究的進(jìn)一步深入。在2014年的這篇文章中,Berant等人認(rèn)為2013年的模型較為粗糙,直接將候選邏輯表達(dá)式和正確答案的邏輯表達(dá)式進(jìn)行匹配。在2014年的研究中,作者等人提出了一種更為復(fù)雜的模型來(lái)進(jìn)行學(xué)習(xí)。其主要的貢獻(xiàn)是在對(duì)提問進(jìn)行語(yǔ)義分析、生成邏輯表達(dá)式的過(guò)程中,增加了一步轉(zhuǎn)義。主要的過(guò)程是先通過(guò)粗糙語(yǔ)義分析,生成一些候選邏輯表達(dá)式。其次通過(guò)候選邏輯表達(dá)式生成與原提問語(yǔ)義相近的規(guī)范自然語(yǔ)言表達(dá),再通過(guò)語(yǔ)義相似度的計(jì)算方法,找到與原提問最相似的規(guī)范自然語(yǔ)言提問,再生成可能正確的邏輯表達(dá)式。最后通過(guò)正確答案的邏輯表達(dá)式,來(lái)訓(xùn)練模型。Bemnt等人的兩種方法盡管仍沒有完全解決知識(shí)庫(kù)問答系統(tǒng)的問題,但對(duì)基于語(yǔ)義分析方法的研究產(chǎn)生了很大的影響。
除了以上利用語(yǔ)義分析產(chǎn)生邏輯表達(dá)式的思路,還有另一種語(yǔ)義分析來(lái)解決知識(shí)庫(kù)問答系統(tǒng)問題的思路,即語(yǔ)義分析拓?fù)鋱D與知識(shí)庫(kù)實(shí)體關(guān)系拓?fù)鋱D的匹配。如Reddy等(2014)提出在大規(guī)模的知識(shí)庫(kù)中解決自然語(yǔ)言問答系統(tǒng)的問題,既不基于人工標(biāo)注的學(xué)習(xí)方法,也不利用正確的問題答案進(jìn)行訓(xùn)練,而是利用對(duì)自然語(yǔ)言提問的語(yǔ)義分析產(chǎn)生的邏輯關(guān)系拓?fù)鋱D與知識(shí)庫(kù)中的實(shí)體關(guān)系拓?fù)鋱D進(jìn)行匹配,作者認(rèn)為在這兩者之間有許多的共性。作者使用CGC語(yǔ)義分析算法將自然語(yǔ)言提問轉(zhuǎn)換成邏輯關(guān)系拓?fù)鋱D,然后將其與知識(shí)庫(kù)中已經(jīng)存在的實(shí)體關(guān)系圖進(jìn)行相似度計(jì)算,找到相似度最大的子實(shí)體關(guān)系圖,最后根據(jù)邏輯關(guān)系圖中未知答案的位置,在匹配的實(shí)體關(guān)系圖中相同的位置找到合理的答案。其研究為語(yǔ)義分析方法解決知識(shí)庫(kù)問答系統(tǒng)提供了一種全新的思路。
Wen-tau Yih等(2015)也是基于邏輯拓?fù)鋱D匹配的思路出發(fā),更加深入地創(chuàng)新了一種方法。作者等人最大的創(chuàng)新點(diǎn)在于直接利用知識(shí)庫(kù)中的實(shí)體關(guān)系,分階段逐步生成與提問含義最相近的完整邏輯拓?fù)鋱D。該方法第一步是選取自然語(yǔ)言提問中可能的候選核心實(shí)體,第二步針對(duì)每個(gè)可能的核心實(shí)體和關(guān)系逐步生成候選核心鏈,第三步利用卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法來(lái)找到與提問含義最相近的核心鏈,最后一步將一些限定條件添加到核心鏈中,最終得到與提問含義最相近的完整邏輯關(guān)系拓?fù)鋱D,從而根據(jù)需求的未知答案在圖中的位置,得到正確可能性最大的答案。
有關(guān)語(yǔ)義分析方法解決知識(shí)庫(kù)問答系統(tǒng)問題還有其他許多有趣的研究,如Fader等(2014)提出了一種OQA的方法,既可以應(yīng)用于FREE-BASE這種規(guī)范化、結(jié)構(gòu)化的知識(shí)庫(kù),也可以應(yīng)用于覆蓋面更為廣泛的Open Information Extrac-tion這種基于信息抽取的知識(shí)庫(kù),其方法的主要過(guò)程首先仍然是基于對(duì)自然語(yǔ)言提問的轉(zhuǎn)義、語(yǔ)義分析、邏輯表達(dá)式的生成和答案的匹配,其創(chuàng)新點(diǎn)在于引入了OQA問答系統(tǒng);其次提出了一種找到高可靠性答案的算法,并設(shè)計(jì)了一個(gè)感知機(jī)模型來(lái)進(jìn)行答案的打分;最后開發(fā)了一個(gè)自動(dòng)化的提問轉(zhuǎn)義和重寫的算法。Bao等(2014)的研究主要是通過(guò)引入了CYK語(yǔ)義分析方法,將自然語(yǔ)言提問的表達(dá)式轉(zhuǎn)換和答案查找合并成一個(gè)過(guò)程。以及Yih等(2014)的研究將注意力主要集中在單關(guān)系的自然語(yǔ)言問答系統(tǒng)的語(yǔ)義分析上,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)模型來(lái)計(jì)算提問中出現(xiàn)的實(shí)體與知識(shí)庫(kù)中的實(shí)體在關(guān)系模式上的相似度,然后選擇相似度最高的三元組來(lái)作為問題的答案,盡管取得了一些成果,但是在處理較為復(fù)雜的多關(guān)系的問題時(shí),仍然力不從心。
三、基于信息抽取的問答系統(tǒng)研究
在介紹了基于語(yǔ)義分析的知識(shí)庫(kù)問答系統(tǒng)的相關(guān)研究后,接下來(lái)了解另一種處理自然語(yǔ)言提問的思路,即基于自然語(yǔ)言提問信息抽取的方法的問答系統(tǒng)研究。在關(guān)于信息抽取方法的研究中,最具有代表性的便是對(duì)結(jié)構(gòu)化數(shù)據(jù)的信息提?。夯贔reebase的問答系統(tǒng)(Yao x,Durme B V,2014),在這篇文章中,作者認(rèn)為即使語(yǔ)義分析方法十分流行,信息抽取的方法在性能上依然能與語(yǔ)義分析法相媲美。作者首先將問題中有意義的詞和關(guān)系抽取出來(lái),并根據(jù)其關(guān)系生成一個(gè)關(guān)系圖,然后根據(jù)抽取出的詞確定一些核心話題詞,其次在知識(shí)庫(kù)中根據(jù)這些核心詞周圍幾跳內(nèi)的關(guān)系和實(shí)體抽取出—個(gè)知識(shí)庫(kù)的關(guān)系圖。作者認(rèn)為通過(guò)這樣的抽取,在知識(shí)庫(kù)關(guān)系圖中應(yīng)該包含有正確的答案,然后作者將問題關(guān)系圖中的所有節(jié)點(diǎn)作為問題的特征,將知識(shí)庫(kù)關(guān)系圖中的所有節(jié)點(diǎn)作為知識(shí)庫(kù)關(guān)系圖的特征。將兩者的特征進(jìn)行相似度比較,相似度高的知識(shí)庫(kù)中的節(jié)點(diǎn)獲得高分,反之獲得低分,最后得沿著得分最高的節(jié)點(diǎn)一路走下去就是答案。在該研究中,作者證明了基于信息抽取的方法相較于語(yǔ)義分析法是有一定的可取f生的。
隨著詞嵌入技術(shù)的發(fā)展,對(duì)于基于信息抽取解決知識(shí)庫(kù)問答系統(tǒng)的研究有非常顯著的提升。An—toine Bordes等(2014)就將詞嵌入技術(shù)與知識(shí)庫(kù)開發(fā)問答系統(tǒng)相結(jié)合。在用弱監(jiān)督嵌入模型建立開放式問答系統(tǒng)這篇文章中,作者認(rèn)為在語(yǔ)義分析解決問答系統(tǒng)的研究中,仍然需要人工標(biāo)注,仍然是有監(jiān)督地學(xué)習(xí),智能化不足。于是其提出了引入詞嵌入技術(shù),省去了語(yǔ)義分析,直接將自然語(yǔ)言提問轉(zhuǎn)換成低維向量,同時(shí)將與問題相關(guān)的候選答案的三元組也轉(zhuǎn)換為向量。再利用正確答案進(jìn)行模型訓(xùn)練,在實(shí)際應(yīng)用中將相似度最高的候選答案作為最終答案。在文章中,作者還提出了一些計(jì)算向量相似度的優(yōu)化算法,并進(jìn)行了比較。
在引入了詞嵌入技術(shù)之后,Bordes對(duì)其進(jìn)行了更加深入的研究。在利用子圖嵌入法建立問答系統(tǒng)(BordesA et al,2014)一文中,作者對(duì)其之前的模型進(jìn)行了優(yōu)化,其主要貢獻(xiàn)有兩點(diǎn)。第一,作者引入了同義提問進(jìn)行模型的輔助訓(xùn)練,以提高模型應(yīng)對(duì)復(fù)雜的長(zhǎng)路徑問題的能力。由于自然語(yǔ)言的復(fù)雜性,對(duì)含義相近的問題有多種表達(dá)方式,當(dāng)簡(jiǎn)單的問題換一種復(fù)雜表述時(shí),機(jī)器模型處理能力就會(huì)下降。為了解決這一問題,作者增加了自然語(yǔ)言問題轉(zhuǎn)義的訓(xùn)練。第二,作者對(duì)候選答案的向量表示更加細(xì)化,不再僅僅將答案三元組轉(zhuǎn)換為向量,而是從答案的實(shí)體、關(guān)系路徑和子關(guān)系圖三個(gè)方面出發(fā),更加全面地構(gòu)成表示答案的低維向量。
在Bordes等人提出了將詞嵌入技術(shù)引入知識(shí)庫(kù)問答系統(tǒng)之后,許多研究者受到啟發(fā),對(duì)這種方式進(jìn)行了更加深入的研究。如li Dong等(2015)在Bordes的研究基礎(chǔ)上,提出了一種多列卷積神經(jīng)網(wǎng)絡(luò)的模型來(lái)計(jì)算問題向量和候選答案向量直接的相似度。在利用多列卷積神經(jīng)網(wǎng)絡(luò)建立針對(duì)neebase的問答系統(tǒng)這篇研究中,作者等人的貢獻(xiàn)主要體現(xiàn)在從三個(gè)不同的方面來(lái)比較問題和答案的相似性,即知識(shí)庫(kù)中候選答案實(shí)體的關(guān)系路徑、上下文聯(lián)系和答案類型。作者利用正確問題答案訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò),對(duì)自然語(yǔ)言提問分別生成三個(gè)方面的表示向量,之后與候選答案的三個(gè)方面的向量分別進(jìn)行打分計(jì)算,將結(jié)果相加,總和得分最高的答案作為最佳答案。
在詞嵌入技術(shù)顯示出強(qiáng)大性能的同時(shí),有研究者嘗試將詞嵌入技術(shù)與語(yǔ)義分析方法的優(yōu)勢(shì)相結(jié)合,解決語(yǔ)義分析方法中的劣勢(shì),同時(shí)提升知識(shí)庫(kù)問答系統(tǒng)的性能。Yang等(2014)就提出了一種新的方法,將詞嵌入技術(shù)與邏輯表達(dá)式相結(jié)合,但是省去了對(duì)自然語(yǔ)言提問的語(yǔ)義分析過(guò)程。在研究中,作者認(rèn)為在語(yǔ)義分析方法中的優(yōu)勢(shì)之一就是利用了邏輯表達(dá)式作為對(duì)提問的解析形式,邏輯關(guān)系清晰所以答案的可靠性較高;但是缺陷就是語(yǔ)義分析的過(guò)程難度較大,由于自然語(yǔ)言的復(fù)雜性,對(duì)同一問題的不同描述數(shù)量非常大。語(yǔ)義分析往往基于實(shí)體間關(guān)系的人工標(biāo)注,但是成本很高效率很低。為解決這一問題,作者利用了詞嵌入技術(shù),將提問和候選的邏輯表達(dá)式轉(zhuǎn)換成向量形式,通過(guò)比較二者之間的相似度,來(lái)確定最合適的邏輯表達(dá)式,最終在知識(shí)庫(kù)中確定正確答案。此研究與信息抽取方法最大的不同是其不直接比較提問與答案間向量的相似度,而是計(jì)算邏輯表達(dá)式與提問間的相似度,既保留了語(yǔ)義分析法的邏輯清晰的優(yōu)勢(shì),又加入了信息抽取方法中模型簡(jiǎn)單的優(yōu)勢(shì),是兩種方法優(yōu)勢(shì)的結(jié)合。
四、國(guó)外前沿研究成果的啟示
首先,根據(jù)國(guó)外最前沿的一些研究成果,我們可以發(fā)現(xiàn),想要建立一個(gè)成熟的知識(shí)庫(kù)自然語(yǔ)言問答系統(tǒng)是一項(xiàng)非常復(fù)雜的工作。由于人類自然語(yǔ)言本身的復(fù)雜性,再加上目前計(jì)算機(jī)技術(shù)的局限性,使得計(jì)算機(jī)進(jìn)行自然語(yǔ)言的準(zhǔn)確理解和處理是非常困難的。然而建立一個(gè)知識(shí)庫(kù)問答系統(tǒng)的關(guān)鍵就在于解決計(jì)算機(jī)在自然語(yǔ)言理解上的難題。盡管隨著機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展,乃至于在計(jì)算機(jī)深度學(xué)習(xí)領(lǐng)域的研究也取得了長(zhǎng)足的進(jìn)步,尤其在一些國(guó)外的前沿研究中不斷應(yīng)用新的優(yōu)化算法,但是最終計(jì)算機(jī)對(duì)自然語(yǔ)言提問的回答準(zhǔn)確率依然無(wú)法達(dá)到可以接受的水平。目前這些不盡如人意的實(shí)驗(yàn)結(jié)果一方面說(shuō)明實(shí)現(xiàn)一個(gè)成熟的知識(shí)庫(kù)自然語(yǔ)言問答系統(tǒng)是一項(xiàng)具有挑戰(zhàn)性的研究;另一方面也說(shuō)明在知識(shí)庫(kù)自然語(yǔ)言問答系統(tǒng)的研究領(lǐng)域仍然有很大發(fā)展空間。
其次,要真正建立一個(gè)成熟的知識(shí)庫(kù)自然語(yǔ)言問答系統(tǒng),實(shí)現(xiàn)計(jì)算機(jī)自然語(yǔ)言的無(wú)監(jiān)督學(xué)習(xí)是十分必要的。盡管目前計(jì)算機(jī)在無(wú)監(jiān)督學(xué)習(xí)下的自然語(yǔ)言處理結(jié)果相比有監(jiān)督地學(xué)習(xí)準(zhǔn)確度且更為復(fù)雜,但是計(jì)算機(jī)對(duì)自然語(yǔ)言的無(wú)監(jiān)督學(xué)習(xí)是實(shí)現(xiàn)真正意義上的智能問答系統(tǒng)的必然趨勢(shì)。在有監(jiān)督學(xué)習(xí)下建立的問答系統(tǒng)有一個(gè)最致命的缺陷就是無(wú)法處理新的知識(shí),即無(wú)法處理沒有標(biāo)注過(guò)的內(nèi)容。由于人類自然語(yǔ)言的復(fù)雜性,再加上人類語(yǔ)言自身仍在不斷變化和更新,難以通過(guò)人工標(biāo)注的方式將所有自然語(yǔ)言的詞匯全部囊括到知識(shí)庫(kù)中。這就需要計(jì)算機(jī)有自主學(xué)習(xí)的能力,通過(guò)知識(shí)庫(kù)中已有的知識(shí)來(lái)不斷學(xué)習(xí)新的內(nèi)容。計(jì)算機(jī)有自主更新知識(shí)庫(kù)的能力是其實(shí)現(xiàn)真正智能的自然語(yǔ)言問答系統(tǒng)的前提。
最后,詞嵌入法這種將自然語(yǔ)言抽象化、向量化的方法是目前解決計(jì)算機(jī)自然語(yǔ)言處理的發(fā)展方向。由國(guó)外對(duì)基于知識(shí)庫(kù)的自然語(yǔ)言問答系統(tǒng)相關(guān)研究可以發(fā)現(xiàn),無(wú)論是用語(yǔ)義分析方法進(jìn)行自然語(yǔ)言處理的研究,還是用信息抽取方法進(jìn)行自然語(yǔ)言處理的研究,最終都選擇了將詞嵌入法與自身相結(jié)合的發(fā)展方向,說(shuō)明詞嵌入法或者說(shuō)自然語(yǔ)言向量化對(duì)整個(gè)自然語(yǔ)言處理研究領(lǐng)域以及知識(shí)庫(kù)問答研究領(lǐng)域都產(chǎn)生了深遠(yuǎn)的影響。其中主要的原因就在于詞嵌入技術(shù)最大的特點(diǎn)是真正實(shí)現(xiàn)了將人類的自然語(yǔ)言轉(zhuǎn)換成計(jì)算機(jī)可以處理的抽象化的向量,為計(jì)算機(jī)真正理解自然語(yǔ)言提供了基礎(chǔ)。因此,國(guó)內(nèi)在知識(shí)庫(kù)問答系統(tǒng)以及自然語(yǔ)言處理方面的研究中也要將詞嵌入技術(shù)和其他能夠把自然語(yǔ)言抽象化的技術(shù)重視起來(lái),與自身的研究相結(jié)合,把握解決問題的正確方向。
五、結(jié)語(yǔ)
由于自然語(yǔ)言處理技術(shù)的不斷發(fā)展,有關(guān)知識(shí)庫(kù)問答系統(tǒng)的研究也取得了長(zhǎng)足的進(jìn)步。首先一個(gè)具有高度人工智能的自然語(yǔ)言問答系統(tǒng)將會(huì)為整個(gè)社會(huì)帶來(lái)重大改變。比如人們可以更高效地獲取信息和知識(shí),人類將從復(fù)雜信息檢索和信息篩選中解放出來(lái);其次對(duì)于企業(yè)來(lái)說(shuō),高智能的自然語(yǔ)言問答系統(tǒng)可以為其降低與客戶的溝通成本,將繁瑣的客服工作交給計(jì)算機(jī)完成;從社會(huì)的角度來(lái)看,自然語(yǔ)言問答系統(tǒng)的實(shí)現(xiàn)標(biāo)志著計(jì)算機(jī)真正做到了對(duì)信息的理解,是人工智能技術(shù)里程碑式的進(jìn)步,也意味著人類社會(huì)處理信息的能力又上了一個(gè)臺(tái)階。盡管目前的成果仍然無(wú)法完全解決知識(shí)庫(kù)問答系統(tǒng)存在的問題,比如完全無(wú)監(jiān)督地學(xué)習(xí),真正對(duì)自然語(yǔ)言提問的語(yǔ)義理解,大規(guī)?;R(shí)庫(kù)的問答系統(tǒng),以及可以接受的回答正確率等。但在未來(lái)的研究中,仍然有很多問題值得進(jìn)一步地研究和探討,隨著機(jī)器學(xué)習(xí)和人工智能技術(shù)的不斷發(fā)展,完全解決知識(shí)庫(kù)問答系統(tǒng)問題的未來(lái)指日可待。