張曉孿
基于語義的智能信息處理技術(shù)的研究
張曉孿
智能信息處理是模擬人或者自然界其他生物處理各種信息的行為,是當(dāng)前信息處理技術(shù)向多樣化、集成化與智能化方向的發(fā)展,具有很高的理論研究和應(yīng)用價值。經(jīng)過多年的研究和探索,智能信息處理技術(shù)已經(jīng)取得較大的發(fā)展,但在實際應(yīng)用中還存在許多問題需要解決和完善。分析了基于概念圖的語義研究在智能信息處理中的應(yīng)用,并設(shè)計與實現(xiàn)了一個基于概念圖的智能答疑系統(tǒng)CGQAS,通過實驗結(jié)果驗證了基于概念圖的智能信息處理的可行性和有效性。
智能信息處理;概念圖;語義研究;答疑系統(tǒng)
信息與人類社會的發(fā)展密不可分,人類的生產(chǎn)和生活離不開對信息的收集、存儲、處理和傳送,信息是人類認(rèn)識和改造世界的重要途徑之一。信息處理是指人們對獲取的信息進(jìn)行加工處理,將其轉(zhuǎn)化為有用信息并發(fā)布出去的過程。它主要包括信息的獲取、存儲、加工、發(fā)布和表示等環(huán)節(jié)。為了適應(yīng)信息時代對信息處理的要求,當(dāng)前信息處理技術(shù)已經(jīng)逐步由單一化向多樣化、集成化和智能化方向發(fā)展,從信息傳播中攜帶信息的媒介到以上信息處理的各個環(huán)節(jié)都試圖嘗試通過對人類智能的模擬方法來處理各種信息。智能信息處理是面對不確定性現(xiàn)象和非線性系統(tǒng)模擬人與自然界其他生物處理信息的行為,建立處理復(fù)雜系統(tǒng)信息的理論、算法和系統(tǒng)的方法和技術(shù)[1]。近年來,智能信息處理是計算機(jī)科學(xué)的人工智能中的前沿研究方向和熱點,其目標(biāo)是針對處理各種類型的海量、繁雜、多樣信息研究一些新的、前沿的理論方法和技術(shù),廣泛應(yīng)用在系統(tǒng)建模、分析、決策、控制、優(yōu)化和設(shè)計等領(lǐng)域[2]。智能信息處理中的基礎(chǔ)理論問題研究和應(yīng)用研究不僅有很高的理論研究價值和應(yīng)用價值,而且對于社會的經(jīng)濟(jì)建設(shè)、發(fā)展及整個國家信息產(chǎn)業(yè)的發(fā)展都具有重大意義。
智能信息處理技術(shù)涉及信息科學(xué)的多個學(xué)科,應(yīng)用領(lǐng)域廣泛,是計算機(jī)技術(shù)、通信技術(shù)、電子技術(shù)和控制技術(shù)等多種技術(shù)的融合。一般來說,智能信息處理分為基于傳統(tǒng)計算機(jī)的智能信息處理和基于神經(jīng)計算的智能信息處理兩大類。近些年,計算機(jī)技術(shù)和智能信息處理技術(shù)水平不斷提高,發(fā)展突飛猛進(jìn),大量已開發(fā)的信息處理系統(tǒng)中都應(yīng)用了智能信息處理技術(shù)。就目前的研究狀況來看,智能信息處理技術(shù)主要有:自然語言理解、模式識別、信息融合、云計算、人工神經(jīng)網(wǎng)絡(luò)、模糊理論、進(jìn)化、混沌、分形、專家系統(tǒng)、遺傳算法、模擬退火算法、蟻群算法、免疫算法、克隆選擇算法和粒子群算法等等。智能信息處理的基礎(chǔ)理論應(yīng)由自然語言理解和計算智能共同組成,前者提供其理論架構(gòu),后者提供其技術(shù)實現(xiàn),二者結(jié)合形成對智能信息處理的完整基礎(chǔ)理論支持[3]。
近年來,智能信息處理的研究熱點集中在以下幾個方向:(1) 以Internet應(yīng)用為主要背景的特定領(lǐng)域智能信息處理:包括網(wǎng)絡(luò)信息智能處理、物聯(lián)網(wǎng)智能信息處理、大規(guī)模文本處理、圖像視頻信息檢索與處理、基于 Web的知識挖掘、知識提煉和集成等。隨著互聯(lián)網(wǎng)的發(fā)展,國內(nèi)很多高校及研究所專門組建了實驗室,對互聯(lián)網(wǎng)和搜索引擎的研究方興未艾,其中比較有名的有:清華大學(xué)智能技術(shù)與系統(tǒng)國家重點實驗室、中國科學(xué)院智能信息處理重點實驗室、上海市智能信息處理重點實驗室、南開大學(xué)智能信息處理實驗室、大連理工大學(xué)智能信息處理實驗室WISDOM等。(2)商務(wù)和金融活動中的智能信息處理:包括電子商務(wù)、電子政務(wù)、電子金融等,推動智能信息技術(shù)在國民經(jīng)濟(jì)各領(lǐng)域的應(yīng)用,努力實現(xiàn)并提高信息處理技術(shù)的社會效應(yīng)和經(jīng)濟(jì)效益。(3)以數(shù)據(jù)挖掘為研究對象的智能信息處理:隨著互聯(lián)網(wǎng)的不斷發(fā)展和海量數(shù)據(jù)不斷增加,對數(shù)據(jù)挖掘的研究越來越活躍。中科院研究組2008年底開發(fā)完成國內(nèi)首個基于云計算的數(shù)據(jù)挖掘工具平臺PDM iner,已成功應(yīng)用到中國移動、國家電網(wǎng)、電信、信息安全等行業(yè)領(lǐng)域。
因為Internet上的信息、知識與日俱增,人們對信息處理的要求越來越高,因此,智能化的信息處理系統(tǒng)不僅要能實現(xiàn)信息的自動檢索,還應(yīng)能完成一些基于語義理解的較高層次加工,例如對知識和信息進(jìn)行自動分類、過濾、提煉、翻譯等。目前,漢語智能信息處理研究中的瓶頸問題是如何實現(xiàn)智能化,解決這個問題的關(guān)鍵是語義理解與應(yīng)用。語義理解即是對語義的理解能力,讓機(jī)器能夠理解我們所說的話,更進(jìn)一步讓機(jī)器學(xué)會人類的說話邏輯。目前,計算機(jī)和人類相比,理解自然語言的水平還有一定的差距,但是,我們可以借助一些知識表示方法或者自然語言處理中的學(xué)科知識,使計算機(jī)逐步模擬人的部分乃至全部語言能力,近似地理解我們?nèi)祟惖恼Z言。在眾多的知識表示方法中,概念圖(Conceptual Graph)以它獨(dú)特的優(yōu)勢脫穎而出,研究概念圖在漢語智能信息處理方面的應(yīng)用,旨在進(jìn)一步提高信息處理與自然語言理解的水平,以改善信息處理中的智能化的水平,具有一定的理論意義和應(yīng)用價值。
概念圖是一種語義模型,其中的兩大組成要素概念與關(guān)系是通過有向連通圖中的結(jié)點體現(xiàn)。概念表示問題領(lǐng)域中的一個具體的或抽象的實體,用一個矩形表示。概念與概念之間不是孤立的,它們的關(guān)系有多種,例如施事、受事等等,用橢圓表示。概念結(jié)點和關(guān)系結(jié)點間用有“→”連接起來[4]。例如:A boy, Peter is reading book carefully. 其概念圖如下圖1所示:
圖1 例句的概念圖表示
圖1概念圖同其他知識表示方法相比,具有結(jié)構(gòu)簡單、直觀、可讀性好、表示范圍廣、數(shù)學(xué)基礎(chǔ)嚴(yán)密和能夠確切地表示自然語言的語義等優(yōu)點,代表了知識表示的發(fā)展趨勢。一個概念圖可通過限制、拷貝、連接、化簡等操作進(jìn)行擴(kuò)充或生成新的概念圖。國內(nèi)外很多研究者在1964年Sowa首次提出概念圖理論后,經(jīng)過不懈的研究與探索,基于概念圖的智能信息處理被廣泛應(yīng)用到不同智能信息處理研究領(lǐng)域,例如語義檢索、邏輯推理、信息抽取、查詢擴(kuò)展與語義計算[5,6,7,8,9]等等。
為了驗證前文提出的基于概念圖的智能信息處理的可行性,使用C++和JSP技術(shù)開發(fā)了一個基于概念圖的智能答疑系統(tǒng)CGQAS,系統(tǒng)主要由問題理解、信息檢索和答案抽取3個模塊組成。對于用戶輸入的問題,系統(tǒng)首先會交給問題理解模塊進(jìn)行處理,進(jìn)行問題類型分類,并提取問題的關(guān)鍵詞。然后將提取的概念及關(guān)系交給信息檢索模塊進(jìn)行搜索。最后由答案抽取模塊提取出正確答案,將問題的答案返回給用戶。系統(tǒng)的體系結(jié)構(gòu)如圖2所示:
圖2 智能答疑系統(tǒng)的體系結(jié)構(gòu)
系統(tǒng)的執(zhí)行流程為:
Step1: 通過系統(tǒng)界面用戶輸入問題,借助哈爾濱工業(yè)大學(xué)IR-Lab的語言技術(shù)平臺LTP 2.01實現(xiàn)問題的預(yù)處理,對問句進(jìn)行自動切分、詞性標(biāo)注和句法分析;
Step2: 根據(jù)知網(wǎng)Hownet和句法關(guān)系到語義關(guān)系的轉(zhuǎn)化規(guī)則對句法分析的結(jié)果進(jìn)行修正;
Step3:初步提取出問題中的概念和概念間相應(yīng)的關(guān)系;
Step4: 將提取出來的概念和關(guān)系建立概念圖,并存入概念圖庫中;
Step5: 保存Step 4中提取的概念并提交搜索引擎,下載網(wǎng)頁,進(jìn)行概念抽取和關(guān)系抽取并建立相應(yīng)的概念圖后存入概念圖庫中;
Step6: 對查詢概念圖和資源概念圖進(jìn)行匹配,最后根據(jù)計算的結(jié)果對資源文檔排序并把查詢最終的結(jié)果提交給用戶。
智能答疑系統(tǒng)的結(jié)果測試采用3個常用的評測指標(biāo):準(zhǔn)確度P(precision)、召回率R(Reeall)以及F-measure。計算公式如公式(1-3):
我們選擇了480條簡單問句,分別對8種類型的問題進(jìn)行了測試,其結(jié)果如表1所示:
表1 答案抽取結(jié)果測試表
對表中結(jié)果進(jìn)行分析,可以看出CGQAS整體的召回率和正確率還是不錯的,F(xiàn)-measure的平均值達(dá)到了0.73,這個結(jié)果還是令人比較滿意的。系統(tǒng)對人物、地點和定義類問題回答效果比其他類型的問題好,今后需要對其他類型的抽取策略進(jìn)行改進(jìn)。這樣的測試結(jié)果使得CGQAS具備了一定的應(yīng)用價值,驗證了基于概念圖的智能信息處理技術(shù)與方法的可行性和有效性。
隨著計算機(jī)科學(xué)的不斷發(fā)展,信息處理已經(jīng)成為計算機(jī)最大的應(yīng)用領(lǐng)域之一。智能化的信息處理是研究如何運(yùn)用計算機(jī)實現(xiàn)信息處理的智能化,它是計算機(jī)技術(shù)發(fā)展的必然趨勢,其中的關(guān)鍵技術(shù)與應(yīng)用研究不但具有較高的理論研究價值,并且對于我國的信息產(chǎn)業(yè)的發(fā)展甚至是國民經(jīng)濟(jì)的發(fā)展與建設(shè)都有十分重大的意義。雖然近年來智能信息處理技術(shù)已得到很大發(fā)展,但還存在各種問題有待研究和解決,本文提出的基于概念圖的智能信息處理思想是解決這些問題的一個思路和探索,下一步的研究工作是將概念圖與其它語法和語義分析技術(shù)相結(jié)合,完善語義計算的方法,細(xì)化語義分析的深度與粒度,拓寬概念圖的應(yīng)用領(lǐng)域,進(jìn)一步提高智能信息處理的水平。
[1] 孫紅、徐立萍、胡春燕. 智能信息處理導(dǎo)論[M]. 清華大學(xué)出版社, 2013.
[2] 王國胤, 楊勇, 朱振國. 智能信息處理專題序言[J]. 重慶郵電大學(xué)學(xué)報(自然科學(xué)版), 2009
[3] 葉鷹. 智能信息處理的基礎(chǔ)理論探討[J]. 情報科學(xué), 2008, 26(9): 1281-1285.
[4] 張蕾, 李學(xué)良. 概念結(jié)構(gòu)及其應(yīng)用[D]. 西北工業(yè)大學(xué)博士論文, 2001.05.
[5] 張瑞霞, 楊國增, 吳慧欣. 基于《知網(wǎng)》的漢語未登錄詞語義相似度計算[J]. 計算機(jī)應(yīng)用, 2012, 26(1): 16-21.
[6] 劉培奇, 凡星, 段中興. 傾向性文本的概念圖過濾技術(shù)的研究[J]. 微電子學(xué)與計算機(jī), 2012, 29(12): 84-87.
[7] 楊飏, 陳玉泉. 需求概念圖導(dǎo)引下的檢索模型研究[D].上海交通大學(xué)碩士論文, 2013.01.
[8] 張曉孿. 基于概念圖的自然語言處理中的語義研究與應(yīng)用[J]. 寶雞文理學(xué)院學(xué)報(自然科學(xué)版) , 2014, 34(1): 55-58.
[9] 熊李艷, 陳建軍,鐘茂生. 基于E-A-V結(jié)構(gòu)的概念圖匹配算法[J]. 計算機(jī)應(yīng)用研究, 2014, (31)8: 2290-2293
The Research of Intelligent Information Processing Technology Based on Semantics
Zhang Xiaoluan
(Department of Computer Science, Baoji Univ. Arts & Sci., Baoji 721016, China)
Intelligent Information Processing is a behavior that simulates human or other creatures of the nature to process all kinds of information. It is the intelligent, integrated and diversified direction development of the current information processing technologies and has high theory research and application value. A fter years of research and exploration, Intelligent Information Processing technology has made great advancement. However numerous issues in practical application remain to be solved and improved. On basis of the status quo of Intelligent Information Processing technology’s research, the semantic research of Intelligent Information Processing based on Conceptual Graph is analyzed and an intelligent Question Answering System CGQAS based on Conceptual Graph is designed and implemented. The experiment result verifies the feasibility and validity of intelligent information processing technology based on Conceptual Graph.
Intelligent Iinformation Processing; Conceptual Graph; Semantic Research; Question Answering System
TP391
A
2014.08.27)
寶雞市科學(xué)技術(shù)研究發(fā)展計劃項目(2013R1-9)
張曉孿 (1978-),女,陜西寶雞人,寶雞文理學(xué)院計算機(jī)科學(xué)系,副教授, 碩士,研究方向:智能信息處理,寶雞,721016
1007-757X(2014)11-0055-03