摘要: 目前國內(nèi)的研究基本上都是中文自動問答系統(tǒng)的研究,關(guān)于藏文問答系統(tǒng)的研究還處于探索階段,基于此本文計(jì)劃參照中英文知識問答系統(tǒng)的設(shè)計(jì)方法,建立藏文百科知識庫,在句法分析的基礎(chǔ)上,設(shè)計(jì)藏文百科知識的自動問答系統(tǒng)。
關(guān)鍵詞: 藏語; 百科知識; 問答系統(tǒng)
中圖分類號:TP391
文獻(xiàn)標(biāo)志碼:A
文章編號:2095-2163(2017)04-0048-03
0引言
隨著國家對藏區(qū)信息化基礎(chǔ)建設(shè)投入力度的加大以及藏區(qū)經(jīng)濟(jì)的快速發(fā)展,特別是隨著互聯(lián)網(wǎng)等新型通訊方式的出現(xiàn),網(wǎng)絡(luò)中以藏文為信息載體的內(nèi)容也在飛速增長,越來越多的藏文網(wǎng)站、郵件和論壇等文本信息在網(wǎng)絡(luò)上出現(xiàn),然而面對呈海量態(tài)勢發(fā)展的各類藏文數(shù)據(jù)信息,用戶很難快捷方便地分辨出頗具價(jià)值的實(shí)用性輸出顯示結(jié)果。面對這種問題,就需要計(jì)算機(jī)不僅能夠提供針對用戶問句的相關(guān)信息截取,還要能夠自動分析實(shí)現(xiàn)對用戶信息需求的精準(zhǔn)解讀,然后給出最接近用戶需要的參考性答案內(nèi)容。雖然目前存在的搜索引擎能夠在一定程度上推進(jìn)藏族用戶信息需求的研究進(jìn)展,但是由于搜索引擎只是簡單地搜集與用戶問句相關(guān)的所有信息,因而用戶還需要從這些返回信息中準(zhǔn)確定位到自己需要的信息。然而,利用搜索引擎需返回的相關(guān)網(wǎng)頁太多,而且還需要用戶具備一定的信息檢索能力,同時(shí)更需要使用關(guān)鍵詞的組合來表達(dá)查詢需求,而無法直接使用自然語言來進(jìn)行檢索查詢,這對于藏族用戶來說也是一項(xiàng)亟待關(guān)注重視的新挑戰(zhàn),因而使用起來較為不便。目前許多藏文信息處理的研究者也正在考慮如何解決這種藏族用戶面對海量數(shù)據(jù)卻無法有效處理的問題,本文正是基于這一需求,提出通過建立藏文百科知識庫,利用用戶問句和知識庫中問題的匹配來抽取與用戶需求最接近的答案,從而實(shí)現(xiàn)藏文百科知識的自動問答。
1研究現(xiàn)狀
目前對自動問答系統(tǒng)的研究,相對成熟的問答系統(tǒng)有麻省理工大學(xué)人工智能實(shí)驗(yàn)室的STARTSO系統(tǒng)、密歇根州立大學(xué)的AnswerBus系統(tǒng)等。其中,STARTSO系統(tǒng)基于互聯(lián)網(wǎng)訪問設(shè)計(jì),可通過精心構(gòu)建的知識庫來自動地回答資料庫中一些比較簡單的問題,但卻不能借助互聯(lián)網(wǎng)自行擴(kuò)充內(nèi)部的知識含量[1]。而AnswerBus系統(tǒng)支持多種語言的訪問,是多領(lǐng)域的自動問答系統(tǒng),自2011年上線以來,已經(jīng)回答了許多用戶的問題。此外,F(xiàn)errucci等則設(shè)計(jì)展示了一個深度問答系統(tǒng),該問答系統(tǒng)被稱為“Watson”,通過將問句分解成線索和子線索來研究表述關(guān)于問句的理解,并將該深度問答系統(tǒng)對問句的查詢分解成對這些線索的查詢。Yahy等又繼而提出首先將問句劃分成多個短語,然后動態(tài)生成這些短語與知識庫中實(shí)體、屬性關(guān)系的映射,最后通過線性規(guī)劃算法實(shí)現(xiàn)短語與知識庫映射時(shí)的消歧處理。Pythia等人又進(jìn)一步提出一個基于本體的依賴問句深度語言分析的系統(tǒng),該系統(tǒng)首先需要手動構(gòu)造本體語義詞典,而后再利用構(gòu)建的語義詞典來進(jìn)行問句語義理解[2]。
國內(nèi)也有不少科研院所正在開展問答系統(tǒng)的研究,比如復(fù)旦大學(xué)、中科院、哈工大等。其中,哈爾濱工業(yè)大學(xué)開發(fā)了基于常用問題集的中文問答系統(tǒng),該系統(tǒng)首先根據(jù)用戶的提問建立一個候選問題集,然后通過計(jì)算句子語義相似度,在候選問題集中找到相似的問句,并將答案返回給用戶[3]。而中科院的NKI知識問答系統(tǒng)即以NKI 知識庫為基礎(chǔ),可以向用戶提供多個領(lǐng)域的知識服務(wù),并且允許用戶可以自由方式進(jìn)行提問并向用戶返回準(zhǔn)確的答案。除此之外,還有中國科學(xué)院計(jì)算機(jī)技術(shù)研究所王樹西等人開發(fā)的《紅樓夢》中人物關(guān)系專家系統(tǒng)、百度知道以及北京理工大學(xué)信息科學(xué)技術(shù)學(xué)院樊孝忠等人開發(fā)的銀行領(lǐng)域漢語自動問答系統(tǒng)BAQS等也都取得了不錯的效果[4]。
綜上現(xiàn)狀分析可以看出,國內(nèi)關(guān)于中文自動問答系統(tǒng)的研究比較多,但是基于藏文的研究主要集中在藏語的句法分析和詞性標(biāo)注上,關(guān)于藏文問答系統(tǒng)的研究還處于探索階段?;诖耍疚臄M將參照中英文知識問答系統(tǒng)的設(shè)計(jì)方法,建立藏文百科知識庫,在句法分析的基礎(chǔ)上,設(shè)計(jì)實(shí)現(xiàn)藏文百科知識的自動問答系統(tǒng)。
2藏文百科知識問答系統(tǒng)的設(shè)計(jì)實(shí)現(xiàn)
2.1系統(tǒng)總體設(shè)計(jì)思路
目前,自動問答系統(tǒng)答案來源有2種,一種是來源于預(yù)先構(gòu)建的知識庫,另一種通過搜索引擎從網(wǎng)絡(luò)上獲取[5]。具體來說,第一種方式主要通過先期建立的相關(guān)知識的問答對知識庫,再利用用戶問句和知識庫中問句的相似性比較,得到與其最相近的問句,進(jìn)而可將該最相似問句的答案提供給指定需求用戶。這種方式比較依賴于知識庫的構(gòu)建,但是多會獲得較高的查找的精準(zhǔn)度和效率。第二種方式則是利用目前網(wǎng)絡(luò)上的資源來綜合尋求問題的解答,首先利用百度百科、百度知道、維基百科等網(wǎng)絡(luò)知識源,其所采取的策略是使用問句中的關(guān)鍵詞語在搜索引擎上進(jìn)行搜索,獲取與問句相似度最高信息條目的對應(yīng)鏈接以及摘要,然后獲取鏈接相關(guān)聯(lián)的網(wǎng)頁中的摘要所在段落或模塊,作為答案數(shù)據(jù)而得集成配送返回[6]。這種方式借用搜索引擎的方式在網(wǎng)絡(luò)資源中查找,因此在查找結(jié)果后還需要用戶自行判斷其所需要的信息,不僅查找的效率較慢,而且也無法保證回答內(nèi)容的準(zhǔn)確度。
由于本文是關(guān)于藏文百科知識自動問答系統(tǒng)的頂層規(guī)劃設(shè)計(jì)嘗試,且關(guān)于藏文搜索引擎的研究迄今仍較為少見。所以本文主要研究基于知識庫的藏文百科知識問答系統(tǒng)的設(shè)計(jì),通過盡可能地理解用戶需求并在知識庫中查找與其最相似的問句,從而得到用戶需要查詢的信息答案。綜合前述過程分析,本文將有針對性地提出語義擴(kuò)展的智能問答系統(tǒng),可得主要設(shè)計(jì)思想論述如下:
首先搜集整理藏文百科內(nèi)容的問答對,創(chuàng)建基于不同類型的藏文百科知識庫,通過知識庫問句的分解整理,獲得知識庫中問句的特征表示。然后針對用戶問句通過自動分詞、問句類型分析和關(guān)鍵詞提取,建立設(shè)定用戶問句的語義特征,再通過用戶問句和數(shù)據(jù)庫中問句語義的相似性比較,最后實(shí)現(xiàn)最相似問句的獲取并將其對應(yīng)的答案輸出給指定目標(biāo)用戶。endprint
2.2系統(tǒng)流程
藏文百科知識問答系統(tǒng)采用模塊化設(shè)計(jì),從功能上可以分為知識庫管理模塊、用戶問句預(yù)處理和分析模塊、答案抽取模塊3個主要模塊。其中,用戶問句預(yù)處理模塊主要圍繞問句的自動分詞、詞性標(biāo)注以及功能詞的過濾展開設(shè)計(jì);知識庫管理模塊是系統(tǒng)執(zhí)行自動問答的基礎(chǔ),也是該系統(tǒng)的重點(diǎn)關(guān)鍵研究部分,主要實(shí)現(xiàn)的是百科知識庫問答句的添加和修改;用戶問句分析模塊可以發(fā)揮由問句到帶標(biāo)記權(quán)值的詞串特征的轉(zhuǎn)換作用;并可根據(jù)問句中的虛詞判定問句類型;而答案抽取模塊則是基于用戶問句和知識庫中問句的相似度比較,利用結(jié)構(gòu)和語義上的相似度比較,查找最相似的問句并提取出對應(yīng)答案的研究處理過程。研究中,系統(tǒng)運(yùn)行流程可做如下內(nèi)容闡釋與詳述。
1)首先搜集整理不同類別的藏文百科知識問答對,完成不同類別基礎(chǔ)數(shù)據(jù)庫的建設(shè)。再利用各類別搜集的數(shù)據(jù)語料,建立類別特征詞庫。然后針對問句進(jìn)行分詞、詞性標(biāo)注和停用詞處理,建立問句關(guān)鍵詞庫。針對問句關(guān)鍵詞庫中的詞條,通過語義擴(kuò)展的方式構(gòu)建標(biāo)準(zhǔn)問句關(guān)鍵詞的語義網(wǎng)絡(luò),按照問句關(guān)鍵詞建立關(guān)鍵詞索引庫,為分析與獲得提問語句的相似度奠定先期基礎(chǔ)準(zhǔn)備。
2) 對用戶的自然語言問題,在問句預(yù)處理模塊中,通過分詞處理和詞性標(biāo)注模塊實(shí)現(xiàn)用戶問句的詞串表示,再利用停用詞過濾功能剔除與語義無關(guān)的功能詞,以特征詞串來描述用戶的提問意圖。
3)在類別特征詞庫中尋找用戶問句所屬類別,設(shè)定類別判斷閾值,利用詞向量之前的相似度計(jì)算,獲取用戶問句與各類別特征詞的相似性,取相似度值大于判斷閾值的類別屬性按照相似度大小進(jìn)行排序,相似度值最大的類別則為問句所屬類別。若相似度值不滿足類別判斷閾值,系統(tǒng)將自動提示用戶問答庫中并不涉及該類別問題。
4) 將已確定類別的用戶問句與該類別知識庫中的問句進(jìn)行相似度計(jì)算。相似度計(jì)算只需要計(jì)算用戶問句關(guān)鍵詞和關(guān)鍵詞索引庫中的詞條之間的相似度,然后將所有該類別中問句的相似度值疊加,為防止用戶問題與知識庫中問題的差異過大導(dǎo)致所選答案與用戶查找內(nèi)容完全不相關(guān)的情況發(fā)生,系統(tǒng)會在匹配之前提前設(shè)定相似度閾值,只有相似度達(dá)到閾值的問句才能拓展轉(zhuǎn)入答案的抽取[7]。對于超出閾值的相似問句,選取相似度最大的前n個問句組成知識庫問句集。若不存在大于閾值的相似問句,此時(shí)系統(tǒng)自動提示用戶登錄,通過專家回答實(shí)現(xiàn)問題的人工解釋,并將當(dāng)前所提問題添加在知識庫中。
5)根據(jù)問句相似度值提取問句集對應(yīng)的所有答案,并將答案結(jié)果倒排反饋給用戶實(shí)現(xiàn)問句的自動解答。
2.3關(guān)鍵技術(shù)實(shí)現(xiàn)
2.3.1知識庫管理模塊
在該模塊中,主要包括類別特征詞庫、關(guān)鍵詞索引庫和停用詞庫的維護(hù)管理。知識庫的創(chuàng)建管理是成功達(dá)到研究目的的有效技術(shù)策略。本文在參考中文百科知識庫構(gòu)建方法的基礎(chǔ)上,制定藏文百科知識庫的建庫標(biāo)準(zhǔn),通過人工采集和網(wǎng)絡(luò)搜集的方式收集整理藏文百科知識問答對,再通過語義擴(kuò)展的方式搭設(shè)標(biāo)準(zhǔn)問句關(guān)鍵詞的語義網(wǎng)絡(luò),完成基礎(chǔ)數(shù)據(jù)庫的建設(shè)。良好的自動問答系統(tǒng)必須要以一個內(nèi)容豐富準(zhǔn)確的資源庫為基礎(chǔ),百科知識庫的質(zhì)量及數(shù)量直接影響到自動問答系統(tǒng)的性能,因此在知識庫管理模塊中,設(shè)定知識庫內(nèi)容的動態(tài)更新,可以手動操控知識內(nèi)容的添加、編輯和刪除功能,以便實(shí)現(xiàn)對于藏文百科知識內(nèi)容的智能添加和修改。
2.3.2問句分析模塊
問句分析模塊主要包括問句預(yù)處理和問句分析兩部分。預(yù)處理部分通過分析藏文文本特征以及本文對于問句特征數(shù)據(jù)的需求,通過分詞、詞性標(biāo)注、停用詞過濾實(shí)現(xiàn)用戶問句的特征化表示。分詞的功能效果主要根據(jù)文獻(xiàn)[8]提出的基于統(tǒng)計(jì)與規(guī)則結(jié)合的方式展開設(shè)計(jì),然后利用詞性判斷來獲得詞性標(biāo)注。停用詞庫主要是針對藏文問句中存在的眾多無實(shí)際語義的符號、虛詞等功能詞。將藏文文本中包含的無語義符號和藏語停用詞分別進(jìn)行過濾,構(gòu)建藏文問句的詞串表示,并在特征詞向量空間的映射下,形成提問查詢向量。根據(jù)藏文句子特征和問句的疑問虛詞,確定問句類型,然后再根據(jù)詞條的詞性和與主題語義的相關(guān)性,確定不同詞條的與主題內(nèi)容的關(guān)聯(lián)權(quán)值,最后根據(jù)關(guān)鍵詞擴(kuò)展規(guī)則得到包含權(quán)值的詞串序列來表示問句特征。
2.3.3答案提取模塊
在這一模塊中,研究實(shí)現(xiàn)的是將問句之間的相似度判斷。總地來說,問句相似度計(jì)算主要是判別用戶所提的問句與知識庫中標(biāo)準(zhǔn)問句之間的相似度,相似度越高,則所得出的答案越有可能就是用戶所需要得到的答案。問句之間相似度比較主要是其中關(guān)鍵詞的相似度計(jì)算。而相似度計(jì)算則重點(diǎn)是從詞形、長度和詞序這3個方面的相似程度進(jìn)行考慮[9]。通過計(jì)算2個問句中詞形相似度特征權(quán)值、長度相似性特征權(quán)值以及位置關(guān)系上的相似程度來計(jì)算得到問句之間的詞序相似度特征權(quán)值。在此基礎(chǔ)上,依據(jù)前述得到的相似度特征權(quán)值,用線性融合方法獲得問句之間的相似度[10]。
3結(jié)束語
研究可知,自動問答系統(tǒng)已然成為當(dāng)前自然語言處理中一個熱門的方向。本文基于藏文百科知識庫設(shè)計(jì)構(gòu)建了一個基礎(chǔ)的自動問答系統(tǒng),該系統(tǒng)對于提升用戶信息查詢效率、優(yōu)化檢索結(jié)果以及問答系統(tǒng)知識庫建設(shè)都將具有一定的積極有益的現(xiàn)實(shí)作用,但是由于藏文信息處理技術(shù)的限制,加之藏文百科知識內(nèi)容收集的不完整,使得本文仍然存在諸多需要深度優(yōu)化改進(jìn)的地方,例如在藏文語義擴(kuò)展的方法上,可以參考漢語的方式來豐富研發(fā)實(shí)踐,本文僅僅利用詞向量的相關(guān)性進(jìn)行相似性判斷,在判斷結(jié)果上會有一定的誤差。未來工作中,則將主要針對藏文百科知識內(nèi)容的搜集完善和藏文關(guān)鍵詞語義擴(kuò)展方面繼續(xù)開展下一步的探討與研究。
參考文獻(xiàn):
[1] 鄭實(shí)福,劉挺,秦兵. 自動問答綜述[J]. 中文信息學(xué)報(bào),2002,16(6):46-52.
[2] 鎮(zhèn)麗華,王小林,楊思春. 自動問答系統(tǒng)中問句分類研究綜述[J]. 安徽工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,32(1):48-54,66.
[3] 劉里,曾慶田. 自動問答系統(tǒng)研究綜述[J]. 山東科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,26(4):73-76.
[4] 王正華. 自動問答系統(tǒng)的研究與實(shí)現(xiàn)[D]. 綿陽:西南科技大學(xué),2015.
[5] 鄧昱. 中文問答系統(tǒng)中的答案抽取算法研究[D]. 北京:北京郵電大學(xué),2009.
[6] 劉小宇. 基于語義理解的中文常問問答系統(tǒng)的研究[D]. 大連:大連理工大學(xué),2006.
[7] 金硯碩. 中文問答系統(tǒng)中答案提取的研究[D]. 鞍山:遼寧科技大學(xué),2008.
[8] 艾金勇,陳小瑩,華侃. 面向Web的藏文文本分詞策略研究[J]. 圖書館學(xué)研究,2014(21):42-46.
[9] 周永梅,陶紅,陳姣姣,等. 自動問答系統(tǒng)中的句子相似度算法的研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2012,22(5):75-78.
[10]李旭鋒. 中文問答系統(tǒng)中問句理解和相似度計(jì)算的研究與實(shí)現(xiàn)[D]. 廣州:華南理工大學(xué),2010.[ZK)][FL)]endprint