王曉麗, 鄧達康, 孟祥龍, 唐先明, 郭攀紅, 林暢松
( 1. 中國石油化工股份有限公司 石油勘探開發(fā)研究院,北京 100083; 2. 中國地質(zhì)大學(北京) 能源學院,北京 100083; 3. 中國地質(zhì)大學(北京) 海洋學院,北京 100083 )
?
基于領(lǐng)域本體的油氣勘探開發(fā)知識獲取模式及實現(xiàn)
王曉麗1,2, 鄧達康1, 孟祥龍1, 唐先明1, 郭攀紅1, 林暢松3
( 1. 中國石油化工股份有限公司 石油勘探開發(fā)研究院,北京100083;2. 中國地質(zhì)大學(北京) 能源學院,北京100083;3. 中國地質(zhì)大學(北京) 海洋學院,北京100083 )
油氣勘探開發(fā)行業(yè)的信息數(shù)據(jù)資源涉及多學科、多地域,結(jié)構(gòu)復雜,類型多樣。提出一種基于領(lǐng)域本體的油氣勘探開發(fā)知識獲取模式,提取知識源的領(lǐng)域命名實體,將海量知識與已知的領(lǐng)域本體關(guān)聯(lián)起來,實現(xiàn)快速知識獲?。煌ㄟ^改進Trie索引樹詞典構(gòu)造方法、創(chuàng)建節(jié)點失敗指針優(yōu)化正向最大匹配分詞方法,快速匹配并提取已登錄領(lǐng)域命名實體;采用領(lǐng)域命名實體規(guī)則特征和聚類統(tǒng)計分析方法,識別未登錄領(lǐng)域命名實體(包括疑似命名實體和新增命名實體)。該模式能夠提高油氣勘探開發(fā)領(lǐng)域知識源的命名實體提取效率和準確率,有效解決油氣勘探開發(fā)行業(yè)獲取知識的難題。
勘探開發(fā); 領(lǐng)域本體; 領(lǐng)域命名實體; 知識獲取
油氣勘探開發(fā)企業(yè)零散分布的海量成果文檔類、數(shù)據(jù)類等信息數(shù)據(jù)資源,涉及地質(zhì)、地理、分析化驗等學科領(lǐng)域,結(jié)構(gòu)復雜,類型多樣,缺乏統(tǒng)一組織和管理,油氣勘探人員難以根據(jù)特定需求準確、高效地獲取成果文檔、圖片和數(shù)據(jù)等知識。因此,從油氣勘探開發(fā)信息數(shù)據(jù)資源中快速獲取知識,并組織到知識庫成為油氣勘探知識管理亟需解決的問題。
知識獲取是知識管理的基礎(chǔ)和核心技術(shù),也是制約知識管理的瓶頸[1]。本體理論在知識獲取中受到廣泛重視,本體的三層結(jié)構(gòu)架構(gòu)(即頂層本體、領(lǐng)域本體、應用本體)對各行業(yè)的知識獲取組織具有指導作用[2]。應用本體理論實現(xiàn)對多種形態(tài)知識的有效組織逐漸成為人們研究熱點,在航空[3]、醫(yī)藥[4]和數(shù)學[5]等領(lǐng)域取得成果。考慮油氣勘探開發(fā)領(lǐng)域知識源現(xiàn)狀,以及領(lǐng)域本體與知識源緊密關(guān)聯(lián)的特點[6],本體理論適用于指導油氣勘探開發(fā)領(lǐng)域的知識組織。
應用本體理論獲取組織知識的最重要環(huán)節(jié)是對知識進行分詞處理,將隱含于知識文本的領(lǐng)域本體提取出來。自動分詞技術(shù)是文本處理、知識管理等領(lǐng)域的重要信息處理技術(shù),分詞結(jié)果的質(zhì)量及效率決定本體提取的準確度和速度[7]。油氣勘探開發(fā)領(lǐng)域分詞存在歧義、未定義詞識別等問題,歧義問題如油氣勘探開發(fā)常用的“地球化學分析”手段,可以切分為“地球化學/分析”和“地球/化學分析”形式,前者是油氣勘探開發(fā)領(lǐng)域知識文本的正確分詞切分方式;未定義詞識別問題如構(gòu)造單元命名、井名等。領(lǐng)域本體庫不可能囊括全部本體實例,并且在油氣勘探開發(fā)過程中還不斷產(chǎn)生新的本體,如新增的勘探區(qū)塊、新打的鉆井,需要識別并提取在領(lǐng)域本體庫中不存在的未定義命名實體。常用的分詞方法包括基于詞典的字符串匹配分詞方法[8]、基于統(tǒng)計的分詞方法[9]等,前者簡單易實現(xiàn),切分速度快,應用效果很大程度上依賴于詞典的完備程度和查詢結(jié)構(gòu);后者常用于局部文本的歧義消除、詞性標注等方面,不適用于全文本分詞處理。
基于油氣勘探開發(fā)領(lǐng)域知識文本量巨大、已構(gòu)建較完備的領(lǐng)域詞典的情況,筆者改進詞典結(jié)構(gòu),并優(yōu)化正向匹配分詞算法,實現(xiàn)大量詞典中已登錄領(lǐng)域命名實體的提取,并提出領(lǐng)域命名實體的規(guī)則特征;采用基于聚類統(tǒng)計的方法,識別詞典中未登錄領(lǐng)域命名實體。
本體在知識管理的研究和應用中日益成為熱點[10]。頂層本體是獨立于特定領(lǐng)域的高層本體,描述最普通的概念及其關(guān)系,可擴展衍生出領(lǐng)域本體[11];領(lǐng)域本體是特定領(lǐng)域的專門本體,描述特定領(lǐng)域的概念及其之間的關(guān)系,通過定義類、實例、屬性、關(guān)系和公理等元素刻畫某領(lǐng)域中類、實例及其之間的層次關(guān)系[5];應用本體描述依賴于特定領(lǐng)域和任務(wù)的概念及其之間的關(guān)系。命名實體統(tǒng)一表述對象類型及實例,命名實體可以分為領(lǐng)域命名實體和常規(guī)命名實體[12],前者是指特定領(lǐng)域中的命名實體;后者是指地名、人名和機構(gòu)名等以名稱為標識的常規(guī)實體,以及更廣義的實體[8]。
具體到油氣勘探開發(fā)領(lǐng)域,領(lǐng)域本體是一套多層級的對象類體系、實例、類與實例的屬性描述及關(guān)聯(lián)關(guān)系[13],如工區(qū)、油氣田和井位等是油氣勘探領(lǐng)域具有特定含義的本體;一整套概念清晰而規(guī)范的油氣勘探概念類、屬性、實例、類與實例及實例之間的關(guān)系,構(gòu)成油氣勘探領(lǐng)域本體庫[14]。油氣勘探開發(fā)領(lǐng)域本體的部分概念類及其關(guān)系、實例見圖1,其中實例和實例之間的關(guān)系繼承對應的概念類。文中領(lǐng)域命名實體特指油氣勘探開發(fā)領(lǐng)域本體的實例,其關(guān)系繼承已構(gòu)建好的本體概念類關(guān)系。油氣勘探開發(fā)領(lǐng)域命名實體最重要的一類是地質(zhì)對象,如盆地、構(gòu)造單元和井等。
圖1 油氣勘探開發(fā)領(lǐng)域本體的部分概念類及其關(guān)系、實例Fig.1 Diagram of the oil and gas exploration & production domain ontology
圖2 基于領(lǐng)域本體的油氣勘探開發(fā)知識獲取模式Fig.2 Chart of the oil and gas exploration & production knowledge acquisition mode based on domain ontology
基于領(lǐng)域本體的油氣勘探開發(fā)知識獲取模式見圖2。假設(shè)基于頂層本體的概念、公理等,已衍生并構(gòu)建一套完整的油氣勘探開發(fā)領(lǐng)域本體,領(lǐng)域本體層為已知,應用本體是指油氣勘探開發(fā)知識獲取模式的領(lǐng)域本體,應用本體層為未知。在實施知識獲取時,一方面將已知的領(lǐng)域本體與知識條目的領(lǐng)域命名實體進行匹配,另一方面不斷地從知識條目中挖取新的領(lǐng)域概念類和命名實體,填充到應用本體層;之后將應用本體層挖取的內(nèi)容補充到領(lǐng)域本體層。該模式通過識別、匹配知識的領(lǐng)域命名實體,將海量油氣勘探開發(fā)知識納入到領(lǐng)域本體體系:領(lǐng)域本體的明確性將知識匹配到確定的領(lǐng)域命名實體,大幅減少獲取知識的重復性;領(lǐng)域本體的多層級性使與之匹配的知識之間建立相互關(guān)系,可以將知識以對象可視化方式呈現(xiàn)給用戶。
該模式的關(guān)鍵技術(shù)包括知識關(guān)聯(lián)的已登錄領(lǐng)域命名實體的提取技術(shù)、未登錄領(lǐng)域命名實體的識別技術(shù)等。通過改進Trie索引樹詞典結(jié)構(gòu)和優(yōu)化正向最大匹配算法,可以直接將領(lǐng)域本體庫中已登錄領(lǐng)域命名實體從知識條目中匹配識別出來;領(lǐng)域本體庫缺失舊的實例和未來的新實例,經(jīng)過分詞處理后,根據(jù)領(lǐng)域命名實體規(guī)則特征,進行未登錄領(lǐng)域命名實體識別,通過聚類統(tǒng)計分析,經(jīng)過人工確定完善到領(lǐng)域本體庫。
領(lǐng)域命名本體識別提取的基礎(chǔ)是將知識條目進行正確合理的分詞處理,領(lǐng)域命名實體包含在分詞處理結(jié)果中。
示例塔北隆起是塔里木盆地的一級構(gòu)造單元,以塔深1井為例,該區(qū)寒武紀主要為碳酸鹽巖局限臺地相沉積。
第一句話的文本處理結(jié)果:“塔北隆起/是/塔里木盆地/的/一級/構(gòu)造單元”,下劃線標注的是命名實體識別結(jié)果,因此分詞結(jié)果的正確性在很大程度上決定命名實體識別結(jié)果的準確度。基于詞典范圍盡可能大而全、保證分詞準確度的原則,分詞過程充分考慮油氣勘探開發(fā)領(lǐng)域的專業(yè)性,構(gòu)建盡可能完備、全面的領(lǐng)域本體詞庫、領(lǐng)域?qū)I(yè)詞庫和通用詞庫,使計算機盡可能接近領(lǐng)域理解,進而保證分詞結(jié)果滿足油氣勘探開發(fā)研究的需求,因此快速查找詞典詞條成為分詞效率的關(guān)鍵[16]。
2.1改進Trie索引樹詞典
2.1.1詞典結(jié)構(gòu)
典型的詞典查詢方法包括整詞二分法、Trie索引樹法和逐字二分法等[8],其中Trie索引樹法查找效率較高。Trie索引樹是采用多重鏈表形式的鍵樹,其典型應用模式是利用節(jié)點結(jié)構(gòu)建立詞典樹結(jié)構(gòu),將相同前綴的詞合并在同一個節(jié)點下,直到出現(xiàn)差異;然后從差異節(jié)點中分出子節(jié)點[17]。采用該方法建立油氣勘探開發(fā)領(lǐng)域本體庫詞典Trie索引樹(見圖3),其首字數(shù)量較多,每個首字節(jié)點包含很多子節(jié)點,子節(jié)點深度較深,深度在4~5個字符的占到30%以上,深度在2~3個字符的占到50%以上;其他傳統(tǒng)領(lǐng)域的深度在2個字符以內(nèi)的占到95%以上,因此需要改進基于油氣勘探開發(fā)領(lǐng)域本體特征的Trie索引樹法。
圖3 油氣勘探開發(fā)領(lǐng)域本體庫詞典Trie索引樹
改進的詞典由首字哈希表、次字(關(guān)鍵字)哈希表和Trie樹節(jié)點構(gòu)成。次字節(jié)點和Trie樹節(jié)點包括繼續(xù)、中間、結(jié)束三種狀態(tài),分別用1,2,0表示,中間和結(jié)束狀態(tài)的節(jié)點可能是詞條尾字,區(qū)別在于中間狀態(tài)的詞條節(jié)點還有子節(jié)點,可以構(gòu)成更長的詞條。油氣勘探開發(fā)領(lǐng)域改進Trie索引樹的邏輯結(jié)構(gòu)見圖4。
2.1.2詞典構(gòu)造算法
步驟1:讀取詞條首字,將它作為子樹的頭節(jié)點插入首字哈希表;如果表中已存在該字符,則轉(zhuǎn)入步驟2。
步驟2:讀取次字字符,將它作為子樹的關(guān)鍵節(jié)點插入次字哈希表,狀態(tài)設(shè)置為繼續(xù);如果表中已存在該字符,則轉(zhuǎn)入步驟3。
步驟3:讀取下一個字符,在子樹中插入子節(jié)點,狀態(tài)設(shè)置為繼續(xù),如果父節(jié)點狀態(tài)為結(jié)束,則修改狀態(tài)為中間;如果子樹中已存在該字符,則轉(zhuǎn)入步驟4。
圖4 油氣勘探開發(fā)領(lǐng)域改進Trie索引樹的邏輯結(jié)構(gòu)Fig.4 Logical structure diagram of improved trie of the oil and gas exploration & production domain ontology
步驟4:重復步驟3,將字符順序插入子樹,直至最后一個字符。
步驟5:如果最后一個節(jié)點是新插入的節(jié)點,則狀態(tài)設(shè)置為結(jié)束。
步驟6:重復步驟1-5。
2.2基于詞典的正向匹配分詞算法
正向最大匹配分詞方法的主要思想:假設(shè)分詞詞典詞條的最大長度為m,取待匹配文本當前字符串中的前m個字符與詞典詞條進行匹配,如果匹配成功,則切分出這個詞;如果不成功,則去掉待匹配字符串的最后一個字并重新與詞典匹配,直到待分詞字符串不能切分為止[18]。在知識條目進行正向匹配分詞時,文中方法不需要預知詞條的最大長度,以當前字符作為首字,查找改進Trie索引樹詞典,以當前字符為首字的詞條組成自動機,根據(jù)剩余字符的狀態(tài)進行轉(zhuǎn)移查詢匹配。當某一字符匹配失敗時,失敗指針[19]自動機跳轉(zhuǎn)到具有最長公共前綴的字符而繼續(xù)進行匹配,直到字符狀態(tài)為終結(jié)或者無法轉(zhuǎn)移時切分該詞;繼續(xù)匹配,直到文本結(jié)束。
正向最大匹配分詞算法流程:
步驟1,從知識片段T中讀取字符Cn,在首字哈希表中查找Cn,形成頭節(jié)點N1;如果表中沒有Cn,則轉(zhuǎn)入步驟10。
步驟2,從T中讀取Cn+1,在頭節(jié)點對應的次字哈希表中查找Cn+1,形成關(guān)鍵節(jié)點N2,如果表中沒有Cn+1,則轉(zhuǎn)入步驟10。
步驟3,從T中讀取下一個字符Cm,形成節(jié)點Nm,讀取其父節(jié)點中子節(jié)點個數(shù)i,沿子樹順序查找子節(jié)點N[m,j],設(shè)置初始值j=1。
步驟4,如果N[m,j]=Cm,則轉(zhuǎn)入步驟6;如果當N[m,j]!=Cm時,則沿失敗指針回溯到父節(jié)點,繼續(xù)查找與父節(jié)點對應的子節(jié)點N[m,j++],轉(zhuǎn)入步驟5。
步驟5,當j
步驟6,讀取Nm字符狀態(tài),如果字符為繼續(xù)或中間狀態(tài),則轉(zhuǎn)入步驟7;如果為結(jié)束狀態(tài),則轉(zhuǎn)入步驟8。
步驟7,重復步驟3-6。
步驟8,提取詞條,轉(zhuǎn)入步驟1。
步驟9,如果前一節(jié)點狀態(tài)為中間,則轉(zhuǎn)入步驟8;否則,轉(zhuǎn)入步驟10。
步驟10,將索引回溯到n+1,轉(zhuǎn)入步驟1。
如示例中知識片段分詞匹配到“塔里木盆地”時,當前字符為“塔”,在首字哈希表中查找到“塔”,自動機在“塔”的子節(jié)點哈希表中查到“里”,狀態(tài)為繼續(xù);在“塔里”的子樹節(jié)點中按順序查找到“木”,狀態(tài)為繼續(xù);當前字符為“盆”,在“塔里木”的子節(jié)點按順序查找,首先查找到“河”,無法匹配,失敗指針自動跳轉(zhuǎn)到“河”的父節(jié)點“木”,繼續(xù)按順序查找“塔里木”的子節(jié)點,查找到“盆”,狀態(tài)為繼續(xù);最后查找到結(jié)束狀態(tài)的“地”(見圖3)。
改進Trie索引樹詞典結(jié)構(gòu)清晰,能夠有效解決詞典不斷實時更新的問題。該詞典結(jié)構(gòu)首字和次字支持哈希查找,剩余字符沿Trie索引樹鏈表查找,可以節(jié)省存貯空間和提高效率;同時在Trie索引樹節(jié)點添加失敗指針時,可以減少正向最大匹配分詞算法中較長詞條重復匹配次數(shù)。經(jīng)過語料庫測試,該算法的分詞和命名實體識別提取效果良好,不僅提高分詞效率,而且分詞準確率達到0.985,召回率達到0.963。
油氣勘探開發(fā)領(lǐng)域本體數(shù)量多,并且隨著油氣勘探開發(fā)的深入,不斷產(chǎn)生新的本體實例,大量領(lǐng)域命名實體未錄入領(lǐng)域本體庫,需要從知識中挖取新的領(lǐng)域命名實體,以完善領(lǐng)域本體和獲取知識。
3.1領(lǐng)域命名實體規(guī)則特征
油氣勘探開發(fā)領(lǐng)域本體的命名具有一定規(guī)律性[8],將其規(guī)則特征總結(jié)為“A和B”的構(gòu)成模式,其中A為修飾語,通常是具有地域語義的名詞及組合或簡稱,有時包含數(shù)詞、動詞等非名詞性修飾詞;B表示本體類的詞,是本體命名的中心語,如“塔里木盆地”,其中“塔里木”為地域名詞,“盆地”為中心語,是地質(zhì)對象本體的概念類之一。分析油氣勘探領(lǐng)域本體的命名特征,將“A和B”模式細化為具體類型領(lǐng)域本體的命名規(guī)則,假設(shè)“井”類本體的命名特征一般為“漢字1、漢字2、數(shù)字、‘井’”的形式,當分詞結(jié)果中出現(xiàn)單字“井”,且緊鄰其前的為數(shù)字,如果數(shù)字前為1~2個單字詞,則將詞識別為疑似新本體;假設(shè)“塔深1井”開始在領(lǐng)域本體庫中不存在,如示例中第二句話分詞結(jié)果為“以/塔/深/1/井/為/代表”,“井”字前面連續(xù)出現(xiàn)3個單字詞和1個數(shù)字,根據(jù)領(lǐng)域本體的命名規(guī)則,提取“塔深1井”為疑似井類實例。
3.2聚類統(tǒng)計
類似的疑似命名實體在知識獲取過程中可能多次出現(xiàn),對它進行聚類統(tǒng)計,分析疑似命名實體在多條知識中被重復佐證的次數(shù)及其對應的語句佐證環(huán)境示例,借鑒條件隨機場方法(Condition Random Field,CRF)[20]選擇疑似新增命名實體,相較于K-Means聚類、等頻率和信息增益等離散化方法有更好的效果。
該方法主要利用本體的特征進行判定:本體的字符長度、本體的詞性結(jié)構(gòu)、本體的左信息熵和右信息熵、本體的全文詞頻、重要性指標IDF和IFA,以及互信息等,其中本體的左、右信息熵是衡量語料庫中作為詞語左、右側(cè)鄰近詞語的固定程度,詞語之間的組合出現(xiàn)得越固定,其熵值越大:
(1)
(2)
式中:LE為左信息熵;RE為右信息熵;w為本體;A、B分別為本體左右的詞的集合;C(a,w)為本體w與集合元素a同時出現(xiàn)的次數(shù)。
(3)
式中:D為文檔總數(shù);|Dw|為包含本體w的文檔數(shù)量。
(4)
式中:M為互信息;p(w)為本體w出現(xiàn)的概率。
利用CRF方法預測已分詞詞語邊界是否為新詞邊界的問題,判斷疑似本體是否包含在已有本體集合內(nèi);然后將疑似新增命名實體、新增知識點對應的佐證示例匯集,并通過可視化方法展現(xiàn)給專家,最終確認或否決新增命名實體。
(1)提出基于領(lǐng)域本體的油氣勘探開發(fā)知識獲取模式。該模式通過提取知識的領(lǐng)域命名實體,將知識與已知的領(lǐng)域本體進行關(guān)聯(lián),以領(lǐng)域本體為基礎(chǔ)快速獲取知識,其關(guān)鍵在于快速提取已登錄領(lǐng)域命名實體和有效識別未登錄領(lǐng)域命名實體。
(2)采用改進Trie索引樹詞典結(jié)構(gòu),結(jié)合帶有失敗指針的優(yōu)化正向最大匹配分詞算法將已登錄領(lǐng)域命名實體從知識條目中提取出來?;谳^完善的油氣勘探開發(fā)領(lǐng)域本體庫、專業(yè)詞庫和通用詞庫,對油氣勘探開發(fā)領(lǐng)域命名實體詞條長度普遍較長的特點,通過首字哈希表、次字哈希表和Trie樹節(jié)點結(jié)合,減少掃描匹配的重復次數(shù),提高提取已登錄領(lǐng)域命名實體的查找效率。
(3)采用領(lǐng)域本體規(guī)則特征和聚類統(tǒng)計分析結(jié)合的方法,有效識別未登錄領(lǐng)域命名實體,提出油氣勘探開發(fā)領(lǐng)域本體命名的“A和B”模式規(guī)則特征;根據(jù)本體的字符長度、左信息熵、右信息熵和互信息等特征,利用CRF方法預測已分詞詞語邊界是否為疑似命名實體邊界;最終人工確認或否決新增命名實體。在新增命名實體時,詞典不需要重新調(diào)整結(jié)構(gòu),插入簡單,可以解決油氣勘探開發(fā)領(lǐng)域本體庫需要不斷更新實例的問題。
(4)該模式自動分詞效率比傳統(tǒng)的二分法、Trie索引樹法提高50%以上,領(lǐng)域本體的識別提取結(jié)果準確率達到95%以上,能夠滿足知識獲取效率和準確率的要求,大幅提高將零散知識通過領(lǐng)域本體有效關(guān)聯(lián)并轉(zhuǎn)化為有效知識的效率和質(zhì)量,提高搜索匹配知識的效率,為組織知識地圖、實現(xiàn)智能搜索和推送奠定基礎(chǔ)。
[1]盧林蘭,李明.利用ontology實現(xiàn)的多庫知識獲取方法[J].計算機工程與設(shè)計,2007,28(15):3731-3733.
Lu Linlan, Li Ming. Multi-database knowledge acquisition method realized by using ontology [J]. Computer Engineering and Design, 2007,28(15):3731-3733.
[2]李楓林,毛展展.應用本體構(gòu)建方法研究及案例分析[J].圖書館學研究,2014(19):31-41.
Li Fenglin, Mao Zhanzhan. Research on application ontology construction method and case analysis [J]. Research on Library Science, 2014(19):31-41.
[3]贠周會,徐龍,宋利康,等.基于本體的航空產(chǎn)品鈑金件工藝知識獲取與表示研究[J].學術(shù)論文,2014(1/2):111-114.
Yun Zhouhui, Xu Long, Song Likang, et al. Knowledge acquisition and representation of aircraft sheet metal part based on ontology [J]. Aeronautical Manufacturing Gechnology, 2014(1/2):111-114.
[4]馬斌,柴智.基于領(lǐng)域本體的方劑知識獲取與研究[J].計算機技術(shù)與發(fā)展,2013,23(6):227-229.
Ma Bin, Chai Zhi. Chinese medicine prescription knowledge acquisition and research based on domain ontology [J]. Computer Technology and Development, 2013,23(6):227-229.
[5]鐘秀琴,符紅光,佘莉,等.基于本體的幾何學知識獲取及知識表示[J].計算機學報,2010,33(1):167-174.
Zhong Xiuqin, Fu Hongguang, She Li, et al. Geometry knowledge acquisition and representation on ontology [J]. Chinese Journal of Computers, 2010,33(1):167-174.
[6]李乃峰.基于石油領(lǐng)域本體的語義關(guān)聯(lián)機制研究[D].大慶:東北石油大學,2014.
Li Naifeng. Research on mechanism of semantic association based on ontology of petroleum domain [D]. Daqing: Northeast Petroleum University, 2014.
[7]徐楠楠,王東風,韓璞.基于正向最大匹配算法的電力兩票安全識別[J].計算機仿真,2014,31(1):145-148.
Xu Nannan, Wang Dongfeng, Han Pu. Recognition of two-ticket system in power station based on forward maximum matching algorithm [J]. Computer Simulation, 2014,31(1):145-148.
[8]趙琳瑛.基于隱馬爾科夫模型的中文命名實體識別研究[D].西安:西安電子科技大學,2008:5-9.
Zhao Linying. Study on Chinese named entity recognition based on hidden Markov model [D]. Xi'an: Xidian University, 2008:5-9.
[9]劉杰.基于改進的隱馬爾科夫模型的中文命名實體識別算法[J].太原師范學院學報:自然科學版,2009(3):80-83.
Liu Jie. The arithmetic of Chinese named entity recognition based on the improved hidden Markov model [J]. Journal of Taiyuan Normal University: Natural Science Edition, 2009(3):80-83.
[10]Nntalya F N, Deborah L M. Ontology development101: A guide to creating your first ontology [D]. Stanford: Stanford University, 2000.
[11]宋文,張劍,邵燕.頂層本體研究[J].圖書館理論與實踐,2006(1):43-45.
Song Wen, Zhang Jian, Shao Yan. Study on the top ontology [J]. Library Theory and Practice, 2006(1):43-45.
[12]李志國,鐘將,馮永,等.基于知識本體的文本分類技術(shù)及其應用研究[J].計算機科學,2007,34(8):184-186.
Li Zhiguo, Zhong Jiang, Feng Yong, et al. Study on the text classification algorithm based on knowledge ontology [J]. Computer Science, 2007,34(8):184-186.
[13]文必龍,張莉.石油勘探開發(fā)領(lǐng)域本體的構(gòu)建方法研究[J].計算機工程與應用,2009,45(34):1-4.
Wen Bilong, Zhang Li. Method of building petroleum exploration and production domain ontology [J]. Computer Engineering and Application, 2009,45(34):1-4.
[14]鄧小亞.石油領(lǐng)域本體庫的構(gòu)建研究[J].電子設(shè)計工程,2011,20(19):1-4.
Deng Xiaoya. Research of ontology construction theory in oilfiled [J]. Electronic Design Engineering, 2011,
20(19):1-4.
[15]Peter M. Ontologies are us: A unified model of social networks and semantics [J]. Web Semantics: Science, Services and Agents on the World Wide Web, 2007,5(1):5-15.
[16]李江波,周強,陳祖舜.漢語詞典的快速查詢算法研究[J].中文信息學報,2006,20(5):31-39.
Li Jiangbo, Zhou Qiang, Chen Zushun. A study on fast algorithm for Chinese dictionary lookup [J]. Journal of Chinese Information Processing, 2006,20(5):31-39.
[17]熊志斌,朱劍鋒.基于改進Trie樹結(jié)構(gòu)的正向最大匹配算法[J].計算機應用與軟件,2014,31(5):276-278.
Xiong Zhibin, Zhu Jianfeng. Forward maximum matching algorithm based on improved Trie tree structure [J]. Computer Applications and Software, 2014,31(5):276-278.
[18]趙曉凡,胡順義.基于正向最大匹配的漢語分詞[J].安陽師范學院學報,2010(5):13-15.
Zhao Xiaofan, Hu Shunyi. The Chinese word segmentation based on forward maximum match method [J]. Journal of Anyang Normal University, 2010(5):13-15.
[19]吳建勝,戰(zhàn)學剛,遲呈英.一種基于自動機的分詞方法[J].計算機工程與應用,2005(8):81-82.
Wu Jiansheng, Zhan Xuegang, Chi Chengying. An automaton-based word segmentation method [J]. Computer Engineering and Applications, 2005(8):81-82.
[20]陳飛,劉奕群,魏超,等.基于條件隨機場方法的開放領(lǐng)域新詞發(fā)現(xiàn)[J].軟件學報,2013,24(5):1051-1060.
Chen Fei, Liu Yiqun, Wei Chao, et al. Open domain new word detection using condition random field method [J]. Journal of Software, 2013,24(5):1051-1060.
2015-03-29;編輯:任志平
國家科技支撐計劃項目(2012BAH34F04)
王曉麗(1982-),女,博士研究生,工程師,主要從事碳酸鹽巖沉積學、油田知識管理方面的研究。
10.3969/j.issn.2095-4107.2016.04.009
TE19;TP311
A
2095-4107(2016)04-0074-06