◎北京航天長(zhǎng)征科技信息研究所 莊恒東 李?lèi)?張慶民 李焱
外部知識(shí)管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
◎北京航天長(zhǎng)征科技信息研究所 莊恒東 李?lèi)?張慶民 李焱
中國(guó)運(yùn)載火箭技術(shù)研究院經(jīng)過(guò)2年多的外部知識(shí)管理工作實(shí)踐,發(fā)現(xiàn)傳統(tǒng)的外部知識(shí)采集、發(fā)布和服務(wù)模式既無(wú)法實(shí)現(xiàn)外部知識(shí)管理規(guī)劃的目標(biāo),又不能全面滿(mǎn)足研究院科研生產(chǎn)對(duì)外部知識(shí)的強(qiáng)烈需求?;诖耍芯吭涸诔浞终{(diào)研、論證的基礎(chǔ)上提出了建設(shè)外部知識(shí)管理系統(tǒng),以便為科研生產(chǎn)提供更好的知識(shí)服務(wù)和情報(bào)支撐。
外部知識(shí)管理與服務(wù)對(duì)企業(yè)有重要的知識(shí)支撐作用,是外部知識(shí)管理工作開(kāi)展的技術(shù)基礎(chǔ)。研究院的數(shù)字圖書(shū)館系統(tǒng)擁有各種專(zhuān)利文獻(xiàn)資料、情報(bào)與知識(shí)產(chǎn)權(quán)專(zhuān)題研究報(bào)告、航天特色文獻(xiàn)等資源,然而,外部知識(shí)管理與服務(wù)的技術(shù)手段已從傳統(tǒng)的數(shù)字圖書(shū)館向知識(shí)管理系統(tǒng)延伸,建設(shè)符合企業(yè)自身專(zhuān)業(yè)技術(shù)發(fā)展特色的外部知識(shí)管理系統(tǒng),已成為滿(mǎn)足技術(shù)人員需求,更好地支撐科研生產(chǎn)和技術(shù)創(chuàng)新的必由之路。
1.存在的問(wèn)題
目前,研究院外部知識(shí)管理與服務(wù)的方式存在以下問(wèn)題:各個(gè)資源系統(tǒng)之間不具備跨庫(kù)檢索功能,應(yīng)用時(shí)需要在系統(tǒng)間切換;專(zhuān)利文獻(xiàn)資源不完整,無(wú)法實(shí)現(xiàn)深度加工;網(wǎng)絡(luò)特色資源無(wú)法與自建特色資源有機(jī)結(jié)合;無(wú)法實(shí)現(xiàn)情報(bào)、知識(shí)產(chǎn)權(quán)專(zhuān)題研究報(bào)告和航天特色文獻(xiàn)資源的發(fā)布;由于各個(gè)數(shù)據(jù)源系統(tǒng)相互獨(dú)立,在進(jìn)行知識(shí)采集時(shí)需要登陸多個(gè)系統(tǒng)檢索,并需手工下載目錄和全文,采集手段落后;需通過(guò)人工采集和導(dǎo)入建立專(zhuān)題庫(kù),尚無(wú)完善的檢索索引功能,檢索效率和準(zhǔn)確性比較差;服務(wù)方式落后且尚未深入到知識(shí)層面。針對(duì)外部知識(shí)資源的各種服務(wù)還停留在資源整合階段,尚未進(jìn)入外部知識(shí)挖掘和服務(wù)階段,無(wú)法提供深入有效的外部知識(shí)支撐。因此,建設(shè)研究院外部知識(shí)管理系統(tǒng)既有其現(xiàn)實(shí)的業(yè)務(wù)需求,同時(shí)在形勢(shì)上也是非常緊迫的。
2.系統(tǒng)定位
研究院外部知識(shí)管理系統(tǒng)的定位是在對(duì)現(xiàn)有數(shù)字圖書(shū)館實(shí)現(xiàn)跨庫(kù)檢索的基礎(chǔ)上,按照梳理出的專(zhuān)業(yè)技術(shù)樹(shù)進(jìn)行元數(shù)據(jù)(題錄信息)自動(dòng)采集,形成專(zhuān)業(yè)專(zhuān)題庫(kù),立足于提供經(jīng)過(guò)專(zhuān)家甄選和判讀的全面、優(yōu)質(zhì)、準(zhǔn)確的專(zhuān)業(yè)外部知識(shí),為設(shè)計(jì)師和管理人員提供一鍵式外部知識(shí)獲取服務(wù),并在專(zhuān)題庫(kù)的基礎(chǔ)上向全院技術(shù)人員提供外部知識(shí)的深度挖掘和個(gè)性化服務(wù)。
3.建設(shè)目標(biāo)
研究院外部知識(shí)管理系統(tǒng)的總體建設(shè)目標(biāo)是建設(shè)面向全院的外部知識(shí)管理系統(tǒng),逐步實(shí)現(xiàn)資源的自動(dòng)化加工、統(tǒng)一檢索、分析與挖掘、深度應(yīng)用與智能化應(yīng)用。系統(tǒng)建設(shè)分為基礎(chǔ)資源整合和基礎(chǔ)應(yīng)用構(gòu)建、資源加工深化、持續(xù)應(yīng)用3個(gè)階段。
第一階段建設(shè)重點(diǎn)主要包含:自動(dòng)采集互聯(lián)網(wǎng)和涉密內(nèi)網(wǎng)圖書(shū)館電子資源,整合成外部知識(shí)資源庫(kù);按照專(zhuān)業(yè)技術(shù)樹(shù)進(jìn)行數(shù)據(jù)自動(dòng)采集和篩選,形成專(zhuān)業(yè)知識(shí)庫(kù);進(jìn)行航天領(lǐng)域知識(shí)體系和專(zhuān)業(yè)敘詞表建設(shè),構(gòu)建知識(shí)檢索、導(dǎo)航及相應(yīng)的管理應(yīng)用,滿(mǎn)足全院對(duì)外部知識(shí)和數(shù)字資源的個(gè)性化應(yīng)用需求。
圖1 外部知識(shí)管理系統(tǒng)構(gòu)架
1.總體架構(gòu)(見(jiàn)圖1)
知識(shí)采集子系統(tǒng)實(shí)現(xiàn)底層數(shù)據(jù)資源采集,數(shù)據(jù)資源包括清華同方等數(shù)據(jù)庫(kù)系統(tǒng)和互聯(lián)網(wǎng)數(shù)據(jù),通過(guò)數(shù)據(jù)采集加工模塊實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)采集與加工,并借助航天領(lǐng)域的專(zhuān)業(yè)敘詞對(duì)采集的數(shù)據(jù)進(jìn)行標(biāo)注和加工,形成專(zhuān)題知識(shí)庫(kù)。
業(yè)務(wù)管理子系統(tǒng)實(shí)現(xiàn)對(duì)整個(gè)系統(tǒng)的管理控制,包括用戶(hù)和權(quán)限、知識(shí)體系、專(zhuān)題知識(shí)庫(kù)的采集配置以及對(duì)專(zhuān)業(yè)敘詞的管理。同時(shí)可針對(duì)系統(tǒng)的使用情況進(jìn)行統(tǒng)計(jì)和匯總,并對(duì)系統(tǒng)參數(shù)、專(zhuān)題數(shù)據(jù)庫(kù)進(jìn)行批量數(shù)據(jù)導(dǎo)入導(dǎo)出,滿(mǎn)足數(shù)據(jù)遷移和不同系統(tǒng)間交換的需要。
知識(shí)服務(wù)子系統(tǒng)借助于底層結(jié)構(gòu)良好的專(zhuān)題知識(shí)庫(kù)以及自動(dòng)索引和知識(shí)服務(wù)組件,實(shí)現(xiàn)知識(shí)檢索、導(dǎo)航及個(gè)性化的服務(wù)。同時(shí)系統(tǒng)在開(kāi)放和交互層面預(yù)留充分的接口,支持集成研究院的門(mén)戶(hù)系統(tǒng)并能實(shí)現(xiàn)用戶(hù)的統(tǒng)一身份認(rèn)證,也支持其它業(yè)務(wù)系統(tǒng)的數(shù)據(jù)交互。
2.技術(shù)路線
系統(tǒng)整體以B/S架構(gòu)為主、部分功能采用C/S架構(gòu)輔助的方式,模塊與功能基于SOA的服務(wù)架構(gòu)進(jìn)行設(shè)計(jì)與構(gòu)建。
◆互聯(lián)網(wǎng)數(shù)據(jù)和專(zhuān)題知識(shí)庫(kù)的采集基于微軟.NET技術(shù)開(kāi)發(fā)的Windows應(yīng)用程序?qū)崿F(xiàn),C/S架構(gòu),主要考慮到.NET Frameworks強(qiáng)大的網(wǎng)絡(luò)通訊類(lèi)庫(kù)支持和桌面程序開(kāi)發(fā)的便捷性較為適合進(jìn)行數(shù)據(jù)采集、調(diào)試和跟蹤。開(kāi)發(fā)工具使用微軟Visual Studio 2010和 .NET Frameworks 4.0運(yùn)行環(huán)境平臺(tái)。
◆業(yè)務(wù)管理和知識(shí)服務(wù)功能基于JAVA的J2EE開(kāi)發(fā)框架構(gòu)建,B/S架構(gòu),適合進(jìn)行企業(yè)級(jí)的門(mén)戶(hù)網(wǎng)站開(kāi)發(fā)與定制,有成熟、穩(wěn)定和安全的開(kāi)源框架支撐及跨平臺(tái)的系統(tǒng)部署支持,充分保障了系統(tǒng)的技術(shù)優(yōu)勢(shì)。開(kāi)發(fā)工具采用MyEclipse 10.0 和JDK1.6運(yùn)行平臺(tái)。
◆海量數(shù)據(jù)的索引基于開(kāi)源軟件Solr搭建,并進(jìn)行自主二次開(kāi)發(fā)和定制,滿(mǎn)足不同專(zhuān)題知識(shí)庫(kù)索引構(gòu)建的需要以及與敘詞管理模塊、知識(shí)體系的掛接整合,為系統(tǒng)提供高性能的檢索服務(wù)。
◆設(shè)計(jì)系統(tǒng)時(shí)充分考慮每個(gè)模塊的可擴(kuò)充接口,保證系統(tǒng)能隨時(shí)加掛各種應(yīng)用模塊,支持應(yīng)用的橫向擴(kuò)展,當(dāng)服務(wù)器資源無(wú)法滿(mǎn)足應(yīng)用需求時(shí)可簡(jiǎn)單地部署在多臺(tái)服務(wù)器上。
圖2 外部知識(shí)管理系統(tǒng)部署規(guī)劃
◆系統(tǒng)采用開(kāi)放性框架體系,使用標(biāo)準(zhǔn)XML格式數(shù)據(jù)作為系統(tǒng)間數(shù)據(jù)調(diào)用和傳輸?shù)妮d體,以便于多個(gè)系統(tǒng)之間共享、交換數(shù)據(jù)。
3.系統(tǒng)部署
研究院外部知識(shí)管理系統(tǒng)以大集中的方式進(jìn)行部署,應(yīng)用與數(shù)據(jù)全部集中模式。在院級(jí)部署一套系統(tǒng),院屬單位所有用戶(hù)均登錄到此系統(tǒng)進(jìn)行訪問(wèn),如圖2所示。
采集服務(wù)器主要完成互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)采集與存儲(chǔ),需進(jìn)行分布式采集,由一臺(tái)采集中控服務(wù)器進(jìn)行采集總體控制,并通過(guò)其分發(fā)任務(wù)進(jìn)行采集,運(yùn)行狀態(tài)向中控反饋。
數(shù)據(jù)庫(kù)服務(wù)器的可靠性和可用性是首要的需求,其次是數(shù)據(jù)處理能力和安全性,然后是可擴(kuò)展性和可管理性。
索引服務(wù)器必須依靠高性能的索引服務(wù)在數(shù)據(jù)庫(kù)之外構(gòu)建索引服務(wù)。
資源加工服務(wù)器在完成自動(dòng)數(shù)據(jù)處理的同時(shí)為資源加工人員提供相應(yīng)的服務(wù),如詞表資源的人工構(gòu)建、數(shù)據(jù)標(biāo)引的人工糾錯(cuò)等服務(wù),滿(mǎn)足數(shù)據(jù)處理的各種需要。
應(yīng)用服務(wù)器應(yīng)具有較高的會(huì)話處理能力,以及較高的磁盤(pán)輸入/輸出。
1.自動(dòng)采集整合
實(shí)現(xiàn)互聯(lián)網(wǎng)信息資源的自動(dòng)采集、加工和存儲(chǔ),能夠建成各個(gè)領(lǐng)域多個(gè)面向主題的數(shù)據(jù)庫(kù),最終形成本地?cái)?shù)據(jù)庫(kù)。對(duì)數(shù)量龐大的信息源能夠方便、快捷地獲取和分析,從而提升情報(bào)研究、知識(shí)發(fā)現(xiàn)、科學(xué)預(yù)測(cè)、技術(shù)預(yù)見(jiàn)、科研評(píng)價(jià)及決策咨詢(xún)服務(wù)的能力。
按照研究院專(zhuān)業(yè)技術(shù)樹(shù)的結(jié)構(gòu)建立各專(zhuān)業(yè)的外部知識(shí)專(zhuān)題庫(kù),并實(shí)現(xiàn)圖書(shū)館多種電子數(shù)據(jù)庫(kù)資源的自動(dòng)采集,可對(duì)更新周期、采集對(duì)象、知識(shí)類(lèi)型、專(zhuān)業(yè)采集檢索式、專(zhuān)業(yè)技術(shù)樹(shù)進(jìn)行管理。
自動(dòng)采集的對(duì)象主要包括:以互聯(lián)網(wǎng)各門(mén)戶(hù)網(wǎng)站、軍事網(wǎng)站、科技網(wǎng)站等為采集對(duì)象,搜集、整理與研究院專(zhuān)業(yè)技術(shù)、型號(hào)任務(wù)、業(yè)務(wù)發(fā)展相關(guān)的專(zhuān)業(yè)技術(shù)、新聞消息等各類(lèi)外部知識(shí)。從互聯(lián)網(wǎng)中采集的外部知識(shí)資源需識(shí)別標(biāo)題、作者、機(jī)構(gòu)、發(fā)布時(shí)間等相關(guān)記錄項(xiàng)。以研究院涉密內(nèi)網(wǎng)部署的圖書(shū)館資源數(shù)據(jù)庫(kù)為采集對(duì)象,識(shí)別標(biāo)題、作者、關(guān)鍵詞、作者機(jī)構(gòu)、發(fā)布時(shí)間等相關(guān)記錄項(xiàng)。
為了保證所采集外部知識(shí)的質(zhì)量,采集模塊需實(shí)現(xiàn)以下功能:
圖2為Bi2O3薄膜樣品的SEM圖.可以明顯看出,樣品B-air的顆粒為短棒狀,局部區(qū)域有一定程度的團(tuán)聚(見(jiàn)圖2(a)).樣品B-N2的顆粒呈規(guī)則的橢圓球體,顆粒之間邊界分明,并沒(méi)有團(tuán)聚現(xiàn)象(見(jiàn)圖2(b)).而樣品B-O2的顆粒則發(fā)生嚴(yán)重團(tuán)聚,形成大小不一的團(tuán)簇,顆粒之間沒(méi)有明顯的邊界(見(jiàn)圖2(c)).
一是內(nèi)容過(guò)濾。能夠自動(dòng)過(guò)濾掉不需要采集的網(wǎng)頁(yè)、媒體文件、廣告、欄目,有效避免垃圾信息的下載以及對(duì)帶寬的浪費(fèi),同時(shí)保存網(wǎng)頁(yè)中與正文相關(guān)的表格和圖片。
二是自動(dòng)排重。對(duì)采集到的數(shù)據(jù)進(jìn)行自動(dòng)排重,可以從標(biāo)題、URL、內(nèi)容3個(gè)層次上對(duì)數(shù)據(jù)進(jìn)行排重,減少系統(tǒng)中的重復(fù)數(shù)據(jù)。
三是元數(shù)據(jù)(包括作者、摘要、期刊、單位、卷期、關(guān)鍵詞、分類(lèi)號(hào)等基本信息)抽取??梢造`活配置內(nèi)容提取模板,自動(dòng)從網(wǎng)頁(yè)html代碼中提取標(biāo)題、作者、來(lái)源、時(shí)間等元數(shù)據(jù),同時(shí)識(shí)別正文區(qū)域。
四是知識(shí)采集人員可對(duì)入庫(kù)的文獻(xiàn)數(shù)據(jù)實(shí)現(xiàn)批量或單篇的手動(dòng)標(biāo)引,內(nèi)容包括所屬專(zhuān)業(yè)分類(lèi)、關(guān)鍵技術(shù)點(diǎn)等。
2.全文檢索
經(jīng)過(guò)采集以及資源整合后的文獻(xiàn)數(shù)據(jù)存儲(chǔ)到全文檢索數(shù)據(jù)庫(kù)中,該數(shù)據(jù)庫(kù)將承擔(dān)標(biāo)引、自動(dòng)分類(lèi)、自動(dòng)聚類(lèi)、全文檢索等功能,其中音視頻資料也可進(jìn)行自動(dòng)分類(lèi)標(biāo)引并創(chuàng)建索引。
全文檢索是對(duì)電子文檔、網(wǎng)頁(yè)、語(yǔ)音、圖像等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行綜合管理,核心功能是實(shí)行非結(jié)構(gòu)化信息的統(tǒng)一存儲(chǔ)管理與全文檢索,提供對(duì)包含元數(shù)據(jù)信息的半結(jié)構(gòu)化數(shù)據(jù)及關(guān)系型數(shù)據(jù)庫(kù)的良好支持。全文檢索技術(shù)將搜索技術(shù)無(wú)縫整合到了外部知識(shí)管理系統(tǒng),實(shí)現(xiàn)高效的知識(shí)檢索應(yīng)用服務(wù)。遵循傳統(tǒng)的文獻(xiàn)檢索和知識(shí)檢索結(jié)合的思路,提供普通檢索、高級(jí)檢索、專(zhuān)業(yè)檢索、二次檢索、專(zhuān)利知識(shí)特色檢索,以滿(mǎn)足用戶(hù)的使用需求。
3.知識(shí)導(dǎo)航
知識(shí)地圖功能是采用Flex技術(shù)開(kāi)發(fā),具有Flash程序的交互性和動(dòng)畫(huà)性,能夠直觀展現(xiàn)知識(shí)節(jié)點(diǎn)之間的關(guān)系并引導(dǎo)用戶(hù)進(jìn)行逐級(jí)的知識(shí)漫游,通過(guò)動(dòng)態(tài)變化增加用戶(hù)的應(yīng)用樂(lè)趣。
在初始狀態(tài)下,知識(shí)地圖僅載入一個(gè)中心節(jié)點(diǎn)及其相鄰節(jié)點(diǎn)。當(dāng)點(diǎn)擊任意一個(gè)頂點(diǎn)時(shí),該頂點(diǎn)會(huì)變?yōu)橹行捻旤c(diǎn),同時(shí)會(huì)載入數(shù)量有限的更多與之相關(guān)的頂點(diǎn)。所有的頂點(diǎn)都可以自動(dòng)避開(kāi)其余頂點(diǎn)找到合適的空間位置,避免了頂點(diǎn)的重疊,便于用戶(hù)操作點(diǎn)擊。同時(shí),知識(shí)地圖可以計(jì)算每個(gè)頂點(diǎn)與中心頂點(diǎn)的最小距離,使用適當(dāng)?shù)姆趴s系數(shù)使靠近中心頂點(diǎn)的頂點(diǎn)面積較大,而遠(yuǎn)離的面積較小,整個(gè)知識(shí)體系主次分明。
4.跨庫(kù)檢索
跨庫(kù)檢索主要用于滿(mǎn)足用戶(hù)的資源整合、實(shí)時(shí)快速檢索的需求,對(duì)數(shù)據(jù)資源采用虛擬資源整合技術(shù)。用戶(hù)可以通過(guò)一個(gè)統(tǒng)一的資源搜索入口,以統(tǒng)一的檢索方式搜索和訪問(wèn)所有整合的虛擬數(shù)據(jù)庫(kù)資源,以統(tǒng)一的格式獲取所需信息資源。
資源整合庫(kù)主要負(fù)責(zé)從開(kāi)放資源接口的廠商數(shù)據(jù)庫(kù)中采集資源信息并重新加工整合為本地?cái)?shù)據(jù)庫(kù)。該庫(kù)主要定義了各資源庫(kù)的相關(guān)配置和轉(zhuǎn)換方式,通過(guò)該資源庫(kù)提取出鏡像數(shù)據(jù)庫(kù)中的資源信息,配置索引信息,經(jīng)過(guò)分類(lèi)排重等操作建立新的表結(jié)構(gòu)信息,整合加工后存儲(chǔ)至資源整合數(shù)據(jù)庫(kù)中,方便數(shù)據(jù)的統(tǒng)一管理。
對(duì)于未開(kāi)放資源接口的資源庫(kù)信息,采用代理檢索技術(shù),模擬用戶(hù)登錄本地鏡像資源庫(kù)發(fā)送檢索請(qǐng)求,利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)抓取特定網(wǎng)頁(yè)。從抓取到的網(wǎng)頁(yè)中抽取所包含的相關(guān)信息(元數(shù)據(jù)、原文鏈接),將數(shù)據(jù)進(jìn)行相似度排序、重新整理,以統(tǒng)一的方式將查詢(xún)結(jié)果展示。
5.知識(shí)采集管理
采集策略包括檢索詞、檢索式和采集周期。采集人員可以通過(guò)該功能對(duì)各檢索策略進(jìn)行添加、刪除和修改操作,并對(duì)采集周期進(jìn)行設(shè)定,以實(shí)現(xiàn)系統(tǒng)按照設(shè)定時(shí)間自動(dòng)進(jìn)行知識(shí)的增量更新。采集檢索式要能夠?qū)崿F(xiàn)與、或、非以及嵌套等常用邏輯運(yùn)算。
所有知識(shí)均按照專(zhuān)業(yè)技術(shù)分類(lèi)和入庫(kù)時(shí)間進(jìn)行分類(lèi)排序,并對(duì)文獻(xiàn)實(shí)現(xiàn)按照專(zhuān)業(yè)技術(shù)分類(lèi)、入庫(kù)時(shí)間、標(biāo)題、作者、機(jī)構(gòu)、關(guān)鍵詞和摘要的檢索查詢(xún)功能。管理員可對(duì)外部知識(shí)資源按照專(zhuān)業(yè)分類(lèi)、時(shí)間、檢索結(jié)果等進(jìn)行批量(單篇)添加、刪除和修改操作。
中國(guó)運(yùn)載火箭技術(shù)研究院外部知識(shí)管理系統(tǒng)第一階段實(shí)現(xiàn)了知識(shí)采集與整合、服務(wù)、挖掘分析專(zhuān)利文獻(xiàn)服務(wù)和系統(tǒng)管理等功能模塊,與研究院門(mén)戶(hù)系統(tǒng)實(shí)現(xiàn)單點(diǎn)登陸集成,與CA系統(tǒng)集成實(shí)現(xiàn)數(shù)字簽名認(rèn)證。外部知識(shí)管理系統(tǒng)的建設(shè)實(shí)現(xiàn)了高效整合知識(shí)資源,拓寬了技術(shù)人員知識(shí)獲取的途徑,滿(mǎn)足了個(gè)性化知識(shí)需求并促進(jìn)了知識(shí)共享與交流,有效支撐了研究院的專(zhuān)業(yè)發(fā)展和技術(shù)創(chuàng)新。