霍娜
【關(guān)鍵詞】應(yīng)急決策案例 本體 信息抽取
在應(yīng)急領(lǐng)域中,決策者依據(jù)應(yīng)急案例的內(nèi)容以及基本特征,從知識元的層面將應(yīng)急案例的結(jié)構(gòu)進(jìn)行規(guī)劃,進(jìn)而提出一種基于基于應(yīng)急案例本體的信息抽取的方法。這種方法可以作為一些應(yīng)急案例本體信息抽取的模型,使其他應(yīng)急案例結(jié)合自身的規(guī)律,實(shí)現(xiàn)對該應(yīng)急案例半自動化的信息抽取工作,將信息抽取的結(jié)果存儲在數(shù)據(jù)庫中,可以為以后的應(yīng)急案例情景模擬仿真以及對應(yīng)急案例的研究提供客觀的,科學(xué)的數(shù)據(jù)。大量實(shí)驗(yàn)表明,該方法具有可行性和有效性。
1 信息抽取以及抽取過程的分析
所謂的信息抽取,是一項(xiàng)從一段文本中抽取出特定的一些信息內(nèi)容,與此同時對其進(jìn)行信息結(jié)構(gòu)化處理,最后將處理后的信息整合在一個數(shù)據(jù)庫中以便使用者查詢應(yīng)用的工作。信息抽取被廣泛的定義為是一門交叉性的學(xué)科,它涉及多個知識領(lǐng)域,例如人工智能,統(tǒng)計學(xué),計算機(jī)網(wǎng)絡(luò)技術(shù)以及信息學(xué)等等。
信息抽取的實(shí)際過程較為繁瑣復(fù)雜,Web頁面的信息抽取研究大體上是集中在Wrapper的生產(chǎn)技術(shù)研究的基礎(chǔ)之上的。Wrapper又名為規(guī)則包裝器,它半自動的完成Web頁面信息抽取的程序,Wrapper的作用是對Web頁面的結(jié)構(gòu)進(jìn)行分析,另外分析頁面之上信息資源進(jìn)行描述,最后Wrapper形成對Web頁面格式的信息抽取原則,這樣就實(shí)現(xiàn)了利用Web頁面上相關(guān)的原則對應(yīng)急案例事件中對相關(guān)信息的抽取工作了。
2 信息抽取系統(tǒng)實(shí)現(xiàn)的流程
這里我們以煤礦事故案例中的煤與瓦斯突發(fā)案例為例,對其信息的抽取系統(tǒng)流程進(jìn)行淺析,說明怎樣構(gòu)建煤與瓦斯突發(fā)事例信息抽取的模板工作。
首先,進(jìn)行應(yīng)急案例信息抽取的工作人員應(yīng)該積極參與專家訪談活動,對與煤礦事故有關(guān)的案例進(jìn)行系統(tǒng)的分析工作,解讀與之有關(guān)的文獻(xiàn)信息。進(jìn)行信息抽取的人員對煤礦事故中的知識元進(jìn)行選取,歸納以及整合工作,構(gòu)建完整的知識元數(shù)據(jù)庫。數(shù)據(jù)庫包含的項(xiàng)目內(nèi)容很多,例如承災(zāi)體知識庫={礦井、礦工、煤層、瓦斯傳感器、通風(fēng)機(jī)}等;事件知識元數(shù)據(jù)庫={煤與瓦斯突出,瓦斯爆炸,透水等}。接下來信息抽取的人員從承災(zāi)體數(shù)據(jù)庫中選擇礦井、機(jī)港、瓦斯傳感器以及礦工4個知識元,在事件知識元的數(shù)據(jù)庫中選取煤和瓦斯,最后依據(jù)兩組知識元構(gòu)建案例信息抽取模板。這里的案例信息抽取模板由兩部分版塊組成,即前景模板和后景模板。后景模板和前景模板需要進(jìn)行的共同內(nèi)容是對礦井,礦工以及瓦斯傳感器這些知識元的屬性類型進(jìn)行準(zhǔn)確的定位;明確各個知識元的取值類型以及他們各自的取值長度和取值范圍。
3 信息抽取規(guī)則的構(gòu)建
當(dāng)信息抽取系統(tǒng)的流程實(shí)現(xiàn)了,那么就必須保證數(shù)據(jù)庫中存儲的信息資源與該應(yīng)急案例的文本是相互匹配協(xié)調(diào)的,那么就應(yīng)該建立與之有關(guān)的抽取規(guī)則,使抽取獲得更高的準(zhǔn)確率。抽取的規(guī)則它本身作為一種確定的信息抽取方式,雖然它涵蓋的自然語言較為片面,但是在眾多的方法中,抽取規(guī)則的正確引領(lǐng)下使信息抽取獲得更高的準(zhǔn)確率。
本文以下為了達(dá)到對信息抽取規(guī)則明確表述的效果,同時為了使實(shí)施的程序更為的簡潔,在此基礎(chǔ)上提高信息抽取工作的質(zhì)量,作者將信息抽取的規(guī)則分為前置抽取規(guī)則和后置抽取規(guī)則兩種類型。前置信息抽取規(guī)則是指待抽取的屬性信息的匹配方式在正則表達(dá)式的前端開展進(jìn)行的,例如在某小區(qū)的一次火災(zāi)事故中,對于燒傷人數(shù)的屬性信息抽取的規(guī)則為“\\d{1,4}/m人/n燒傷”,這里等待抽取信息的匹配式為“\\d{1,4}”,它應(yīng)該在抽取規(guī)則的前端。萬變不離其宗,后置信息抽取與其道理是相同的。這樣做的優(yōu)勢在于在進(jìn)行抽取程序的有關(guān)編寫工作時候,就省去了針對每一條規(guī)則單獨(dú)對其抽取代碼進(jìn)行編寫的步驟了,只有對前置和后置這兩種抽取類型通用的抽取代碼進(jìn)行相應(yīng)的編寫就可以了,最終使制定抽取的不隨著模板的變化而進(jìn)行改動,各個數(shù)據(jù)以及數(shù)值穩(wěn)定的存在數(shù)據(jù)庫中。
信息抽取規(guī)則的構(gòu)建過程分為以下幾個步驟完成:
(1)進(jìn)行信息抽取工作人員依據(jù)知識元的屬性以及自身的特點(diǎn),總結(jié)具有涵蓋待抽取屬性信息的句子,形成句子集。這里我們依然以煤礦事故案例中的煤與瓦斯突發(fā)案例為例,那么形成的句子集就包括“瓦斯傳感器,空氣縮壓機(jī)”等等。
(2)對句子集進(jìn)行逐個的理解,分析其屬性特征,形成正確的表達(dá)式,進(jìn)行系統(tǒng)的編寫流程。
(3)在編寫的進(jìn)程中,聯(lián)系約束模板中屬性的外界條件,使用正則表達(dá)式對句子集的程序進(jìn)行編寫環(huán)節(jié)。
(4)將相似結(jié)構(gòu)的正則表達(dá)式進(jìn)行相關(guān)的合并工作,例如對各個知識元屬性狀態(tài)的描述進(jìn)行統(tǒng)一聯(lián)合編寫,與此同時進(jìn)行的工作是將抽取規(guī)則的類型真正的確定下來,使抽取規(guī)則有條理的,科學(xué)的呈現(xiàn)在數(shù)據(jù)庫中,展示在人們面前,為人所用。
(5)信息抽取的工作人員在不斷的實(shí)踐探索中,對建立的抽取規(guī)則不斷的更新改革,進(jìn)而使正確的屬性信息抽取規(guī)則日益完善。當(dāng)然,建立者需要將信息抽取的規(guī)則輸入進(jìn)數(shù)據(jù)庫中,他們可以成建規(guī)則庫,這樣就實(shí)現(xiàn)了抽取規(guī)則與知識元屬性之間形成多對一關(guān)系的目的。
應(yīng)急事件案例信息抽取的模板是經(jīng)過組織以后,對待抽取對象的結(jié)構(gòu)化知識元的表示方法,主要作用是對結(jié)構(gòu)性知識元進(jìn)行相應(yīng)的刻畫。應(yīng)急事件案例的信息抽取模板與傳統(tǒng)的信息抽取模板相比較,它保證了待抽取信息的精確性能,更可觀的是,它使信息抽取的結(jié)果更真實(shí),不怕考驗(yàn)。
4 結(jié)束語
我們知道,災(zāi)害的帶來總會給人造成各種損失,阻礙生產(chǎn)生活的順利進(jìn)程。所以對應(yīng)急事件開展及時有效的處理工作,其意義是重大的,信息抽取工作的開展也是迫在眉睫,因而作為不同領(lǐng)域的決策者應(yīng)該保持清晰的頭腦,對該領(lǐng)域相關(guān)的知識元進(jìn)行信息抽取的工作,總結(jié)知識元的屬性以及內(nèi)涵,進(jìn)行規(guī)范的編寫程序,存儲以便利用。這樣在應(yīng)急事件之下,人們就可以準(zhǔn)確的搜集解決問題的方案,及時清除應(yīng)急事件中的障礙。
參考文獻(xiàn)
[1]蔣德良.基于規(guī)則匹配的突發(fā)事件結(jié)果信息抽取研究[J].計算機(jī)工程與設(shè),2010.
[2]王文俊,楊鵬,董存祥.應(yīng)急案例本體模型的研究及應(yīng)用.計算機(jī)應(yīng)用,2009.