蘇玉寧, 姜 藝, 陳賀勝, 朱俊武
(1.揚(yáng)州大學(xué)農(nóng)學(xué)院,江蘇揚(yáng)州 225000; 2.揚(yáng)州大學(xué)信息工程學(xué)院,江蘇揚(yáng)州 225009; 3.揚(yáng)州大學(xué)物理科學(xué)與技術(shù)學(xué)院,江蘇揚(yáng)州 225002)
本體(ontology)的概念起源于哲學(xué)領(lǐng)域[1],20世紀(jì)90年代以來(lái),本體的概念被逐步引入人工智能、圖書(shū)情報(bào)和知識(shí)工程等領(lǐng)域。由于本體通過(guò)對(duì)詞語(yǔ)的嚴(yán)格定義和詞之間的關(guān)系來(lái)確定詞匯的精確含義,因此用本體建立的詞匯模型可以讓機(jī)器理解Web頁(yè)面的語(yǔ)義,可以解決語(yǔ)義層次上Web信息共享和交換,因此在語(yǔ)義Web中,本體具有非常重要的地位。在農(nóng)業(yè)信息檢索領(lǐng)域中,由于本體可用以解決知識(shí)概念表示和知識(shí)組織體系方面的問(wèn)題,因此本體概念引起了農(nóng)學(xué)界專(zhuān)家的高度關(guān)注。在農(nóng)業(yè)科學(xué)領(lǐng)域,發(fā)達(dá)國(guó)家已經(jīng)建成一些很成熟的領(lǐng)域本體并使其得到了實(shí)際應(yīng)用。為加快這方面的工作,我國(guó)在“十一五”計(jì)劃中,將開(kāi)展以網(wǎng)絡(luò)農(nóng)業(yè)信息資源組織為主的農(nóng)業(yè)本體構(gòu)建技術(shù)研究列入其中。因此,農(nóng)業(yè)本體研究是響應(yīng)國(guó)家號(hào)召,大力發(fā)展和提高我國(guó)農(nóng)業(yè)技術(shù)和服務(wù)水平的重要措施。
要建立一個(gè)農(nóng)業(yè)科學(xué)領(lǐng)域本體庫(kù)(或知識(shí)庫(kù)),這樣做的目的是為實(shí)現(xiàn)農(nóng)業(yè)信息知識(shí)Web頁(yè)面自由檢索。領(lǐng)域本體庫(kù)必須描述關(guān)鍵概念以及概念與概念之間的關(guān)系。因此,建立領(lǐng)域本體庫(kù)的首要工作是列舉出農(nóng)業(yè)科學(xué)領(lǐng)域中的所有關(guān)鍵概念。農(nóng)業(yè)科學(xué)領(lǐng)域知識(shí)十分龐大,為保證建立的本體庫(kù)在檢索時(shí)的查全率與查準(zhǔn)率比較理想,領(lǐng)域本體創(chuàng)建就要盡量包括本領(lǐng)域中盡可能多地概念,盡可能多的把本領(lǐng)域中一些重要概念都包括進(jìn)去,只有這樣才能建立起一個(gè)實(shí)際可用的農(nóng)業(yè)科學(xué)領(lǐng)域本體庫(kù)。因此,本體概念的選擇至關(guān)重要。為了使本研究選擇的概念具有代表性、說(shuō)服力,本研究采用的關(guān)鍵詞語(yǔ)均來(lái)自網(wǎng)絡(luò)中文科技期刊全文數(shù)據(jù)庫(kù),這是由于科技期刊中的論文大多數(shù)為本領(lǐng)域?qū)<业难芯砍晒?,他們?duì)本領(lǐng)域的概念比較熟悉和了解,也是本領(lǐng)域?qū)I(yè)術(shù)語(yǔ)的解釋者和本領(lǐng)域未來(lái)發(fā)展局勢(shì)的判定者。關(guān)鍵詞語(yǔ)是在中文科技期刊全文數(shù)據(jù)庫(kù)中檢索從1989年至2015年收錄在農(nóng)學(xué)學(xué)科,題名或關(guān)鍵字中包含油菜的論文題目。數(shù)據(jù)庫(kù)顯示共有符合條件的19 721條記錄結(jié)果,本研究摘錄論文題目中包含油菜的共11 242條記錄,作為建立農(nóng)業(yè)科學(xué)領(lǐng)域本體庫(kù)的分詞對(duì)象。論文題目檢索部分結(jié)果如表1所示。
選擇油菜作為檢索條件是因?yàn)楦鶕?jù)骨架法構(gòu)建本體的流程[2-3],首先要確定本體應(yīng)用的目的和范圍。因?yàn)閯?chuàng)建本體的大小和研究領(lǐng)域的大小呈正相關(guān)關(guān)系,以期建立的農(nóng)業(yè)科學(xué)領(lǐng)域本體模型的目標(biāo)大小是1萬(wàn)~2萬(wàn)個(gè)論文題目作為研究范圍,油菜作為關(guān)鍵檢索詞剛好滿(mǎn)足要求。
表1 論文題目檢索結(jié)果(部分)
建立本體庫(kù)的目的是實(shí)現(xiàn)網(wǎng)上信息資源自由共享和檢索,而要實(shí)現(xiàn)這樣的目的,首先要讓機(jī)器理解人類(lèi)的自然語(yǔ)言,只有機(jī)器理解了人類(lèi)的自然語(yǔ)言和文字,才能使人與機(jī)器的交流成為可能。在人類(lèi)的自然語(yǔ)言中,詞是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分[4],所以對(duì)于中文來(lái)講,將詞確定下來(lái)是理解人類(lèi)自然語(yǔ)言的第1步。在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只有句和段可以通過(guò)明顯的分界符來(lái)劃界,能夠獨(dú)立表達(dá)意義的詞沒(méi)有一個(gè)形式上的分界符。在計(jì)算機(jī)檢索中常常說(shuō)到中文比英文要復(fù)雜得多、困難得多,究其根本原因就是中文要通過(guò)分詞這道難關(guān),只有攻破了這道難關(guān),才有望趕上并超過(guò)英文在信息領(lǐng)域的發(fā)展水平,所以中文分詞意義重大。
中國(guó)科學(xué)院計(jì)算技術(shù)研究所研制的的漢語(yǔ)詞法分析系統(tǒng)(institute of computing technology,Chinese lexical analysis system,簡(jiǎn)稱(chēng)ICTCLAS)[5]可以進(jìn)行中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、新詞識(shí)別,同時(shí)支持用戶(hù)詞典、繁體中文,支持漢字內(nèi)碼擴(kuò)展規(guī)范(Chinese internal code specification,簡(jiǎn)稱(chēng)GBK)、UTF-8(8-bit unicode transformation format)、UTF-7(7-bit unicode transformation format)、統(tǒng)一碼(unicode)等多種編碼格式,是目前應(yīng)用范圍較廣且最受歡迎的漢語(yǔ)分詞系統(tǒng)。正是基于它的上述優(yōu)點(diǎn),本研究采用ICTCLAS作為分詞工具,按以下3步確定農(nóng)業(yè)科學(xué)領(lǐng)域關(guān)鍵詞語(yǔ)。
首先,對(duì)在中文科技期刊全文數(shù)據(jù)庫(kù)中檢索到的與油菜有關(guān)的11 242條論文題目利用漢語(yǔ)詞法分析系統(tǒng)進(jìn)行分詞操作。分詞的部分結(jié)果如圖1所示。
其次,為了便于處理,對(duì)分詞所得的所有詞語(yǔ)詞性作簡(jiǎn)單化處理。即將所有一類(lèi)詞性下面分的二類(lèi)和三類(lèi)詞性統(tǒng)一都按一類(lèi)詞性處理,例如名詞分為1個(gè)一類(lèi),6個(gè)二類(lèi),5個(gè)三類(lèi),分類(lèi)如下:
n 名詞
nr 人名
nr1 漢語(yǔ)姓氏
nr2 漢語(yǔ)名字
nrj 日語(yǔ)人名
nrf 音譯人名
ns 地名
nsf 音譯地名
nt 機(jī)構(gòu)團(tuán)體名
nz 其他專(zhuān)名
nl 名詞性慣用語(yǔ)
ng 名詞性語(yǔ)素
以上名詞分詞詞性在本研究詞頻統(tǒng)計(jì)中均按一類(lèi)名詞詞性進(jìn)行統(tǒng)計(jì),即n名詞。動(dòng)詞有1個(gè)一類(lèi),9個(gè)二類(lèi),分類(lèi)如下:
v 動(dòng)詞
vd 副動(dòng)詞
vn 名動(dòng)詞
vshi 動(dòng)詞“是”
vyou 動(dòng)詞“有”
vf 趨向動(dòng)詞
vx 形式動(dòng)詞
vi 不及物動(dòng)詞(內(nèi)動(dòng)詞)
vl 動(dòng)詞性慣用語(yǔ)
vg 動(dòng)詞性語(yǔ)素
以上動(dòng)詞分詞所得詞性在本研究詞頻統(tǒng)計(jì)中均按一類(lèi)動(dòng)詞詞性進(jìn)行統(tǒng)計(jì),即v動(dòng)詞。其他詞性作同樣處理,不再一一說(shuō)明。
傳統(tǒng)的分詞算法[6]分為三大類(lèi):基于統(tǒng)計(jì)的方法、基于詞典匹配的方法和基于語(yǔ)義理解的方法。本研究對(duì)分詞所得的關(guān)鍵詞語(yǔ)是基于統(tǒng)計(jì)的方法確定的,分詞所得詞語(yǔ)部分統(tǒng)計(jì)結(jié)果如表2所示。
最后,特殊詞語(yǔ)的處理。對(duì)所有分詞詞語(yǔ)中除了根據(jù)詞頻統(tǒng)計(jì)外,例如數(shù)字、度量單位、英文和一些不能獨(dú)立表示確定概念的單字詞語(yǔ)即使符合篩選條件(詞頻≥3)也作為非關(guān)鍵詞,不作概念分析和定義。對(duì)可以表達(dá)確定概念,而不在農(nóng)業(yè)科學(xué)分類(lèi)中的詞語(yǔ)不作歸類(lèi)。對(duì)詞頻≥3的 2 651 個(gè)詞語(yǔ)的詞性按照上述規(guī)則簡(jiǎn)單化處理后除去一些無(wú)用詞語(yǔ),共得到1 524個(gè)關(guān)鍵詞語(yǔ),作為要定義和分析的詞語(yǔ)對(duì)象。
表2 分詞所得詞語(yǔ)詞頻部分統(tǒng)計(jì)結(jié)果
目前,本體創(chuàng)建還沒(méi)有一個(gè)統(tǒng)一的方法論作為指導(dǎo),創(chuàng)建本體還處于一個(gè)無(wú)序狀態(tài)之中,而要建立一個(gè)相對(duì)完整的領(lǐng)域本體,不但要提取和捕獲這個(gè)領(lǐng)域中大量的概念,還要對(duì)這些概念進(jìn)行語(yǔ)義沖突和二義性處理,這些既單調(diào)又乏味的工作必須有領(lǐng)域?qū)<业膮⑴c才能較好的實(shí)現(xiàn),而許多領(lǐng)域本體研究人員并非本領(lǐng)域?qū)<?,這一直是領(lǐng)域本體研究中難于突破的一個(gè)問(wèn)題,尋找一個(gè)被本領(lǐng)域大多數(shù)專(zhuān)家認(rèn)可的分類(lèi)體系成為當(dāng)前的主要任務(wù)。由權(quán)威機(jī)構(gòu)審定通過(guò)的敘詞表首先進(jìn)入人們的視線。
2.1.1敘詞表敘詞表就是將文獻(xiàn)、標(biāo)引人員或用戶(hù)的自然語(yǔ)言轉(zhuǎn)換成規(guī)范化語(yǔ)言的一種術(shù)語(yǔ)控制工具,是概括各門(mén)或某一學(xué)科領(lǐng)域并由語(yǔ)義相關(guān)、簇性相關(guān)的術(shù)語(yǔ)組成的可以不斷補(bǔ)充的規(guī)范化詞表[7-8](GB 13190—1991《漢語(yǔ)敘詞表編制》)。敘詞表和本體的相似之處在于它們都是用來(lái)描述和組織特定學(xué)科知識(shí)的,都包含詞間關(guān)系、類(lèi)間關(guān)系和概念之間關(guān)系等,所以,研究從傳統(tǒng)敘詞表向本體論轉(zhuǎn)化的方法,一直是各個(gè)學(xué)科領(lǐng)域的熱點(diǎn)問(wèn)題。
國(guó)內(nèi)對(duì)敘詞表轉(zhuǎn)化的研究正處于熱點(diǎn)階段,目前已轉(zhuǎn)化為本體原型的主要有《國(guó)防科學(xué)技術(shù)敘詞表》和《中國(guó)農(nóng)業(yè)科學(xué)敘詞表》的一部分。中國(guó)農(nóng)業(yè)科學(xué)院科技文獻(xiàn)信息中心的常春博士基于《中國(guó)農(nóng)業(yè)科學(xué)敘詞表》的“作物大類(lèi)”,構(gòu)建了一個(gè)有關(guān)食物安全的本體原型。
敘詞表是一種規(guī)范的科學(xué)語(yǔ)言,其術(shù)語(yǔ)組織結(jié)構(gòu)單一、語(yǔ)義關(guān)系明確。但敘詞表只是一個(gè)詞匯庫(kù),不是知識(shí)庫(kù),另外敘詞表結(jié)構(gòu)保守,不能經(jīng)常進(jìn)行修訂,缺乏新興學(xué)科、邊緣學(xué)科的代表術(shù)語(yǔ),難以及時(shí)反映學(xué)科的發(fā)展趨勢(shì),面對(duì)快速發(fā)展變革的社會(huì)和快速更迭的信息技術(shù),敘詞表有些力不從心。
2.1.2中圖法[9]除了敘詞表向本體庫(kù)轉(zhuǎn)化以外,將中圖法轉(zhuǎn)化為本體庫(kù)也是研究的一個(gè)方向。由于本體創(chuàng)建首先要對(duì)本領(lǐng)域主要概念進(jìn)行分類(lèi)、定義和細(xì)化,而編制分類(lèi)法工作量巨大,且也不易被大多數(shù)人接受,所以在傳統(tǒng)分類(lèi)法基礎(chǔ)上改造原有分類(lèi)體系為大多數(shù)研究者所采取,目前,基于中圖法的分類(lèi)體系主要有以下幾類(lèi)。
(1)郭書(shū)普提出的分類(lèi)方案將行業(yè)和信息屬性相結(jié)合,農(nóng)業(yè)信息行業(yè)在這個(gè)分類(lèi)中被簡(jiǎn)化為4個(gè)門(mén)類(lèi),分別為種植業(yè)、養(yǎng)殖業(yè)、林業(yè)及其他行業(yè),下設(shè)10個(gè)大類(lèi),59個(gè)子類(lèi);農(nóng)業(yè)信息屬性被分為7個(gè)大類(lèi),分別是農(nóng)村社會(huì)經(jīng)濟(jì)信息、農(nóng)業(yè)科學(xué)技術(shù)信息、農(nóng)業(yè)生產(chǎn)資料信息、農(nóng)產(chǎn)品市場(chǎng)信息、農(nóng)業(yè)地理信息、農(nóng)業(yè)空間信息和農(nóng)業(yè)機(jī)構(gòu)與人才,下設(shè)140個(gè)類(lèi)目,類(lèi)目下可以細(xì)分類(lèi)目[10]。
(2)駱浩文等的線分法主要面向種養(yǎng)業(yè),將農(nóng)業(yè)科學(xué)信息分為5個(gè)等級(jí),4個(gè)大類(lèi),10個(gè)中類(lèi),71個(gè)小類(lèi),966個(gè)細(xì)類(lèi)和11個(gè)屬性類(lèi),分類(lèi)采用中圖法及9位編碼法,共分5個(gè)層次,第1層次用英文字母表示,與大類(lèi)的代碼相對(duì)應(yīng),其他4層采用01~99表示,各碼位代表相應(yīng)的類(lèi)別,并以此為基礎(chǔ)編制了省級(jí)DB/T 344—2006《種養(yǎng)業(yè)信息分類(lèi)與代碼》的地方標(biāo)準(zhǔn)[11]。
(3)魏清鳳等依據(jù)中圖法改造農(nóng)業(yè)科學(xué)及相關(guān)學(xué)科類(lèi)目編碼方法時(shí)提出適合網(wǎng)絡(luò)農(nóng)業(yè)信息分類(lèi)編碼方法,這種編碼方法將農(nóng)業(yè)科學(xué)信息分為4級(jí),信息編碼采用4個(gè)碼段,“S”為碼段中分類(lèi)首號(hào),這是延續(xù)中圖法的編碼規(guī)則,碼段2表示信息媒體類(lèi)型,碼段3為8位分類(lèi)號(hào)(由4級(jí)各2位類(lèi)號(hào)組成),碼段4為記錄序號(hào)[12]。
以上基于敘詞表和中圖法的農(nóng)業(yè)科學(xué)分類(lèi)法為研究農(nóng)業(yè)科學(xué)分類(lèi)編碼標(biāo)準(zhǔn)提供了理論基礎(chǔ),也是對(duì)這種編碼的可行性進(jìn)行的初次嘗試,但由于農(nóng)業(yè)科學(xué)自身季節(jié)性和地域性特點(diǎn)比較強(qiáng),基于敘詞表和中圖法的分類(lèi)法所分割的類(lèi)別知識(shí)零散,使它對(duì)農(nóng)業(yè)問(wèn)題的表現(xiàn)力不強(qiáng),不能涵蓋所有農(nóng)業(yè)過(guò)程中所涉及的問(wèn)題,同時(shí),這2種方法雖然被業(yè)界人員所熟知,但對(duì)業(yè)外人員來(lái)說(shuō),還是專(zhuān)業(yè)性太強(qiáng),對(duì)使用能力較低的農(nóng)業(yè)人員來(lái)說(shuō),這種分類(lèi)法與農(nóng)業(yè)實(shí)際需求結(jié)合還有一段距離。為了改變分類(lèi)法面臨的這種狀況,須要根據(jù)農(nóng)業(yè)信息服務(wù)系統(tǒng)的特點(diǎn)和所服務(wù)的人員對(duì)象特點(diǎn),構(gòu)建相適應(yīng)的分類(lèi)體系。
概念分類(lèi)層次是將領(lǐng)域概念進(jìn)行分類(lèi)組織,對(duì)概念進(jìn)行分類(lèi)是為了便于用這些概念描述所要建立的本體領(lǐng)域中概念之間的類(lèi)屬關(guān)系,并將領(lǐng)域中的具體概念模塊化。傳統(tǒng)建立分類(lèi)概念的層次結(jié)構(gòu)[13]有3種方法:自底向上法、自頂向下法和綜合法。本研究中的農(nóng)業(yè)科學(xué)領(lǐng)域本體庫(kù)構(gòu)建采用綜合法,具體構(gòu)建過(guò)程:首先,采用中圖分類(lèi)方法和概念分類(lèi)——自頂向下法建立農(nóng)業(yè)科學(xué)領(lǐng)域分類(lèi)體系第1層、第2層和第3層,借鑒《中國(guó)圖書(shū)館分類(lèi)法》(第5版)建立的農(nóng)業(yè)科學(xué)領(lǐng)域分類(lèi)體系基本框架有9個(gè)一級(jí)類(lèi),75個(gè)二級(jí)類(lèi),439個(gè)三級(jí)類(lèi),其中第1層如表3所示。
其次,在所建立的農(nóng)業(yè)科學(xué)領(lǐng)域體系第1層(即9個(gè)一級(jí)類(lèi))的基礎(chǔ)上,按照中圖法分類(lèi)規(guī)則建立領(lǐng)域體系第2層。在農(nóng)業(yè)領(lǐng)域體系建立過(guò)程中,分類(lèi)采用中圖法,即9位編碼法,共分3個(gè)層次,第1層用英文字母“S”加數(shù)字1~9表示,即S1,S2,S3,…,S9;第2層在前面大類(lèi)的基礎(chǔ)上再按數(shù)字 1~9編碼,第2層編碼與第1層大類(lèi)的代碼相對(duì)應(yīng),即S11,S12,S13,…,S19;第3層依次類(lèi)推,即S111,S112,S113,…,S119,各碼位代表相應(yīng)的類(lèi)別。基于中圖法并利用Protégé軟件建立起的農(nóng)業(yè)科學(xué)領(lǐng)域前3層部分體系框架如圖2所示。
表3 中圖法建立的農(nóng)業(yè)科學(xué)9個(gè)一級(jí)類(lèi)
采用自底向上法對(duì)本研究選定的1 524個(gè)關(guān)鍵詞語(yǔ)逐一分析,進(jìn)行概念的定義,然后將這些細(xì)化的概念逐層組織在高一級(jí)的概念之下,形成一個(gè)等級(jí)層次結(jié)構(gòu)。然后,使用本體描述語(yǔ)言可擴(kuò)展標(biāo)識(shí)語(yǔ)言(extensible markup language,簡(jiǎn)稱(chēng)XML)來(lái)描述農(nóng)業(yè)詳表中的詞語(yǔ)及詞間關(guān)系,從而將農(nóng)業(yè)科學(xué)分類(lèi)法向農(nóng)業(yè)領(lǐng)域本體庫(kù)轉(zhuǎn)化,由于Protégé軟件在構(gòu)建本體庫(kù)時(shí),分類(lèi)關(guān)鍵詞語(yǔ)中不能有特殊符號(hào),因此,在農(nóng)業(yè)科學(xué)分類(lèi)法轉(zhuǎn)化成農(nóng)業(yè)科學(xué)領(lǐng)域本體庫(kù)時(shí)遵循的原則是將符號(hào)“()”轉(zhuǎn)化為“或”,符號(hào)“、”轉(zhuǎn)化為“和”,英文字母翻譯為中文詞語(yǔ),例如“3S”翻譯為“遙感”等。
為了保證所建立的農(nóng)業(yè)領(lǐng)域本體概念的明確性(explicit),即本體所使用的概念及在這些概念之上的約束都有明確的定義,沒(méi)有二義性,對(duì)中圖法分類(lèi)中概念重復(fù)的地方以首次定義概念為準(zhǔn),即如果同一概念在幾個(gè)大類(lèi)中均有出現(xiàn),以第一次出現(xiàn)為準(zhǔn),以后出現(xiàn)的這一概念均列入已出現(xiàn)的這一大類(lèi)之中,不再另行定義概念。為了簡(jiǎn)化對(duì)農(nóng)業(yè)領(lǐng)域本體的建立,對(duì)中圖法4層以上概念不再細(xì)化,統(tǒng)一列入最近上層一類(lèi),即第3層。如果有些分類(lèi)詞語(yǔ)位于層次較低,深度達(dá)10層以上,則采用逐層回推的方式,最終將此概念或術(shù)語(yǔ)回推到第3層。建立的農(nóng)業(yè)本體領(lǐng)域庫(kù)如圖3所示。
本研究建立的農(nóng)業(yè)科學(xué)領(lǐng)域本體庫(kù)是為實(shí)現(xiàn)農(nóng)業(yè)科學(xué)信息網(wǎng)絡(luò)檢索作的基礎(chǔ)性研究。在基于中圖法建立農(nóng)業(yè)科學(xué)領(lǐng)域本體庫(kù)的構(gòu)架過(guò)程中,還有許多工作要做,尤其是細(xì)化本體領(lǐng)域概念工作,由于時(shí)間和人力有限,對(duì)基于中圖法的農(nóng)業(yè)科學(xué)領(lǐng)域本體細(xì)化比較粗糙,而要建立真正實(shí)用可行的農(nóng)業(yè)科學(xué)領(lǐng)域本體庫(kù)需要農(nóng)學(xué)領(lǐng)域?qū)<业膮⑴c,這樣才能夠從整體上對(duì)本領(lǐng)域有一個(gè)正確把握,也會(huì)使建立的領(lǐng)域本體庫(kù)范圍大小更加合乎整個(gè)學(xué)科未來(lái)的發(fā)展趨勢(shì)。本研究對(duì)分詞所得概念分析相對(duì)偏少,這是由于分詞的詞語(yǔ)相對(duì)于整個(gè)農(nóng)業(yè)科學(xué)領(lǐng)域來(lái)說(shuō)分布比較分散,要正確劃分分詞所得詞語(yǔ)在本領(lǐng)域所處的位置,而又完全依靠人工來(lái)做,幾乎是不可能完成的事情。如果能實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)歸類(lèi)或大多計(jì)算機(jī)歸類(lèi)、人員輔助歸類(lèi),工作量才會(huì)下降。
本研究介紹的基于中圖法構(gòu)建農(nóng)業(yè)領(lǐng)域知識(shí)庫(kù)的方法是半自動(dòng)構(gòu)建方法。借用已有的中圖分類(lèi)方法可以獲得領(lǐng)域知識(shí)以及概念關(guān)系,使本體構(gòu)建有一個(gè)很好的起點(diǎn)。目前,很少有現(xiàn)存的不經(jīng)修改就能被復(fù)用的本體。本體的創(chuàng)建是個(gè)費(fèi)時(shí)費(fèi)力的過(guò)程[16],目前還沒(méi)有一個(gè)完整的工程化、系統(tǒng)化的方法來(lái)支持創(chuàng)建本體,為了使創(chuàng)建的本體能夠?qū)崿F(xiàn)有效利用,大多領(lǐng)域本體在創(chuàng)建時(shí)都邀請(qǐng)本領(lǐng)域?qū)<覅⑴c?,F(xiàn)存在的通用、大規(guī)模本體很少,大多本體只是針對(duì)具體應(yīng)用領(lǐng)域創(chuàng)建。在領(lǐng)域本體的實(shí)際應(yīng)用中,不同領(lǐng)域本體之間常常須要進(jìn)行映射、擴(kuò)充與合并處理,以及根據(jù)具體需要從一個(gè)比較大的領(lǐng)域本體中提取滿(mǎn)足要求的小領(lǐng)域本體。這些都對(duì)建立領(lǐng)域本體提出了比較高的要求。此外,知識(shí)的快速老化,要求對(duì)先前構(gòu)造的本體快速作出相應(yīng)的增加和刪除,以保持本體與現(xiàn)實(shí)存在知識(shí)的一致性,這都是在本體研究中所面對(duì)的現(xiàn)實(shí)問(wèn)題。
參考文獻(xiàn):
[1]Guarino N. Formal ontology and information systems[C]// Proceedings of formal ontology in information systems. Italy:Trento,1998:3-15.
[2]劉宇松. 本體構(gòu)建方法和開(kāi)發(fā)工具研究[J]. 現(xiàn)代情報(bào),2009,29(9):17-24.
[3]楊秋芬,陳躍新. Ontology方法學(xué)綜述[J]. 計(jì)算機(jī)應(yīng)用研究,2002,19(4):5-7.
[4]熊回香,夏立新. 漢語(yǔ)分詞技術(shù)綜述[J]. 圖書(shū)情報(bào)工作,2008,52(4):81-84.
[5]孫鐵利,劉延吉. 中文分詞技術(shù)的研究現(xiàn)狀與困難[J]. 信息技術(shù),2009(7):187-189.
[6]來(lái)斯惟,徐立恒,陳玉博,等. 基于表示學(xué)習(xí)的中文分詞算法探索[J]. 中文信息學(xué)報(bào),2013,27(5):8-14.
[7]陸汝鈐,金芝,陳剛. 面向本體的需求分析[J]. 軟件學(xué)報(bào),2000,11(8):1009-1017.
[8]Bateman J A. Upper modeling:a general organization of knowledge for natural language processing[C]//Proceedings of the 5th International Workshop on Natural Language Generation,1990.
[9]國(guó)家圖書(shū)館編輯委員會(huì). 中國(guó)圖書(shū)館分類(lèi)法[M]. 5版. 北京:國(guó)家圖書(shū)館出版社,2010:447-524.
[10]郭書(shū)普. 網(wǎng)絡(luò)農(nóng)業(yè)信息分類(lèi)和編碼的研究[J]. 農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊,2003(6):139-141.
[11]駱浩文,曾志康,黃樑,等. 基于網(wǎng)絡(luò)的農(nóng)業(yè)科技信息分類(lèi)編碼標(biāo)準(zhǔn)體系研究與應(yīng)用[J]. 農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊,2007,19(3):150-154.
[12]魏清鳳,賀立源,黃魏,等. 網(wǎng)絡(luò)農(nóng)業(yè)信息資源元數(shù)據(jù)研究及其著錄管理系統(tǒng)開(kāi)發(fā)[J]. 現(xiàn)代情報(bào),2009,29(2):52-56.
[13]戰(zhàn)學(xué)剛,林鴻飛,姚天順. 中文文獻(xiàn)的層次分類(lèi)方法[J]. 中文信息學(xué)報(bào),1999,13(6):20-25.
[14]van Harmelen F,McGuinness D L. OWL web ontology language overview[J]. World Wide Web Consortium (W3C) Recommendation,2004.
[15]Stuckenschmidt H,van Harmelen F,F(xiàn)ensel D,et al. Catalogue integration-a case study in ontology-based Semantic translation[M]. 1st ed. Amsterdam:Vrije Universiteit Amsterdam,2000:29-55.
[16]鄭穎,金松林,張自陽(yáng),等. 基于領(lǐng)域本體的農(nóng)作物病蟲(chóng)害問(wèn)題分類(lèi)研究[J]. 江蘇農(nóng)業(yè)科學(xué),2016,44(9):145-148.