◎北京航天長征科技信息研究所 李悅 才華 任湘 孫巍
航天企業(yè)外部知識管理系統(tǒng)關鍵技術研究
◎北京航天長征科技信息研究所 李悅 才華 任湘 孫巍
中國運載火箭技術研究院外部知識管理系統(tǒng)的總體建設目標是建設面向全院服務的外部知識管理系統(tǒng),實現(xiàn)跨知識庫檢索;按照研究院專業(yè)技術樹自動采集外部知識,形成專業(yè)專題外部知識庫;向全院技術人員提供外部知識資源的動態(tài)監(jiān)測和更新、深度挖掘和分析,以及個性化知識推送等服務,推動外部知識資源的深度應用和智能化應用。
研究院外部知識管理系統(tǒng)一期建設工作已完成,其改變了傳統(tǒng)手動的外部知識采集、加工和入庫模式,解決了采集效率低、數(shù)據(jù)規(guī)范性差、數(shù)據(jù)結構不統(tǒng)一、標引深度不足等問題,實現(xiàn)了對互聯(lián)網(wǎng)資源、期刊論文、科技報告和專利標準等外部知識資源的采集、入庫等一系列工作的自動化。同時,系統(tǒng)將采集入庫后的知識資源按照研究院專業(yè)技術或重點關注機構等分類建成相對應的專題庫,以引導技術人員按照分類導航快速查找、定位所需文獻資源,使技術人員能夠從多渠道獲取外部知識,拓寬知識獲取途徑,進而為科研生產(chǎn)提供更好、更有效的知識服務。
研究院在系統(tǒng)一期的基礎上重點梳理外部知識資源類型和體系,基于航天科研領域知識體系和專業(yè)敘詞表的建設開展知識標引、知識挖掘和相應的管理應用,以優(yōu)化現(xiàn)有系統(tǒng)的功能和性能,形成初步滿足全院對外部知識、數(shù)字資源個性化的應用需求。
1.自動標引
知識標引是對采集的數(shù)據(jù)進行自動加工、處理的核心。以專業(yè)詞典(如NASA敘詞表等)、清華同方或萬方數(shù)據(jù)庫文獻中的關鍵詞和外部知識采集時檢索表達式中包含的檢索詞作為基礎主題詞表,將專利和非專利文獻通過特征詞識別算法抽取能夠代表某篇文獻的主題詞,以實現(xiàn)對知識庫中文獻進行自動標引。
標引采用的是自動抽詞標引法,由系統(tǒng)直接從數(shù)據(jù)中自動抽取能表達該主題的受控詞作為標引詞。通過主題特征的提取揭示最主要的知識對象,將特征項的來源位置、出現(xiàn)頻率和用戶的檢索頻度等作為依據(jù),設置特征項權重。
系統(tǒng)自動標引采用TF-IDF模型,主要評估一個字詞對于一個文件集或語料庫中的其中一份文件的重要程度。
2.手動標引
標引人員可對預標引數(shù)據(jù)的主題、副主題、特征詞及文獻類型等內容進行添加、刪除、修改、審核等操作。在整個文件標引、審核工作完成后,系統(tǒng)自動提示標引人員進行合法性檢查。系統(tǒng)采用批處理和實時處理2種方式來實現(xiàn)人工審核后對標引數(shù)據(jù)的合法性檢查,對于詞形、全角/半角等簡單的形式錯誤,則可采用實時處理的方式及時向標引人員提供提示信息。
系統(tǒng)還提供各種對照表的維護入口,標引人員在標引審核過程中可將未建立對應關系的關鍵詞加入系統(tǒng),以真正實現(xiàn)對嵌入系統(tǒng)的各種對照詞表的動態(tài)維護。此外,系統(tǒng)具備對新加入的詞語進行查重的功能,若其已在詞表中,則拒絕添加。
3.建立敘詞表
敘詞表可管理本領域內的專業(yè)和科技詞匯,能夠覆蓋本領域研究和應用的知識點,并建立這些知識點之間的關系。專業(yè)詞匯是本領域科技術語與概念,其通過對術語、概念規(guī)范定義及之間語義規(guī)范和語義關系的建立構建領域詞表,用于領域資源的標引發(fā)現(xiàn)??萍荚~匯則反映領域科技活動主體及對象之間的關系,如研究人員、研究機構、研究成果、研討會議等各種對象屬性及其相互之間的本質聯(lián)系。
因此,在知識標引的基礎上,研究院初步實現(xiàn)了敘詞表的建立與管理功能,基于研究院內部知識管理系統(tǒng)已有的NASA敘詞本體庫或清華同方/萬方數(shù)據(jù)庫的詞表本體庫進行探索性建設。此工作是進行知識挖掘的基礎,在功能實現(xiàn)初期,標引準確性可能會較低,需要人工補充新詞和較為專業(yè)的詞語,但經(jīng)過一段時間的積累將能產(chǎn)生很好的效果。
所有分析挖掘功能在開發(fā)時都要具備對當前集的域值設定功能,以保證在當前集數(shù)據(jù)量龐大時,系統(tǒng)執(zhí)行分析挖掘的響應時間不會太長。域值包括時間、專業(yè)(即當前集所覆蓋的技術點名稱)、機構(如中國運載火箭技術研究院)、知識類型(如科技期刊)和語言。
1.按技術生命周期統(tǒng)計
將專利和非專利統(tǒng)一作為分析樣本,利用系統(tǒng)自動將分析樣本中專利文獻的“申請時間”和非專利文獻的“發(fā)表時間”字段自動抽取,按照時間進行文獻量的統(tǒng)計,并自動生成技術生命周期趨勢圖。此時,在數(shù)據(jù)庫中根據(jù)檢索條件對文獻進行檢索,可查詢到按年度進行數(shù)量統(tǒng)計的結果。
2.按主題詞詞頻統(tǒng)計
基于知識標引功能將標引的主題詞出現(xiàn)的頻率進行排名統(tǒng)計,系統(tǒng)自動生成主題詞詞頻統(tǒng)計圖表,通過其可了解到某一技術領域具體有哪些研發(fā)熱點。另外,將排名靠前的高頻主題詞按照年代進行統(tǒng)計,可形成年代趨勢列表和年代趨勢圖。
3.按機構公開文獻量統(tǒng)計
系統(tǒng)自動將分析樣本中專利文獻的申請人、發(fā)明人和非專利文獻的作者、機構進行抽取,統(tǒng)計其公開文獻量(見圖1),由此可確定同領域技術或產(chǎn)品的競爭對手有哪些機構。
圖1 機構文獻量統(tǒng)計示意圖
基于作者、機構、專利人等信息的計量分析,采用的技術實現(xiàn)與文獻計量方法是類似的,但人名、機構名稱具有一定的特殊性,對統(tǒng)計分析結果精度的要求越高,就越需要做好數(shù)據(jù)基礎工作,此時需要人工參與,以實現(xiàn)人物與機構名稱的“歸一”處理。所謂“歸一”處理就是將同一個機構的不同名稱映射為同一個名稱,以實現(xiàn)統(tǒng)計分析的精確性,如“中國航天某院”和“中國航天科技集團某院”在不同發(fā)文中出現(xiàn)的稱謂可能不相同,但分析的結果都為同一單位。
此外,按照文獻中的“機構”字段(非專利文獻中的“作者機構”或“發(fā)文機構”、專利文獻的“申請人”)統(tǒng)計各機構的公開文獻量,并結合“年度”字段形成各機構在各年度的公開文獻量的趨勢圖,可用于競爭對手研究、機構關注熱點研究方面的分析。
與機構年度公開文獻量統(tǒng)計分析類似,可提取非專利“作者”、專利“發(fā)明人”的字段信息形成作者年度公開文獻量統(tǒng)計圖。
4.技術熱點聚類
以系統(tǒng)中主題詞表為基礎,以當前集中出現(xiàn)的主題詞共現(xiàn)強度為聚類閾值進行聚類挖掘,生成主題詞聚類島圖,表示某個時刻的數(shù)據(jù)聚類結果,每個亮點都是系統(tǒng)自動聚類出的知識熱點。點與點的距離越近,表明2個聚類主體之間的關聯(lián)性越高,以達到發(fā)現(xiàn)當前集中的技術熱點及其關聯(lián)性的目的。
5.相似索引
當用戶瀏覽某篇文獻時,系統(tǒng)通過對比文獻所含主題詞與知識庫中文獻所含主題詞的相似度,自動提取相似度較高的前10篇文獻進行推送。在計算與當前瀏覽文獻相似度閾值的同時,還可根據(jù)用戶的瀏覽記錄、收藏記錄等進行綜合分析,進而形成基于用戶行為分析的相似推送,并以圖片或文字題目等多種方式在用戶個人中心或瀏覽具體文獻的詳細頁面進行推送。
由于系統(tǒng)一期首頁設計的展示模塊眾多,且隨著資源整合數(shù)據(jù)量越來越大,系統(tǒng)的整體性能和頁面訪問受到了影響,在大量用戶訪問的情況下整體效果也有所下降。因此,系統(tǒng)二期建設可以頁面靜態(tài)化功能開發(fā)和分布式架構負載部署2種方式進行優(yōu)化。
1.靜態(tài)化發(fā)布
對系統(tǒng)首頁性能優(yōu)化采用FreeMarker技術進行靜態(tài)頁面發(fā)布。靜態(tài)頁面相對于動態(tài)頁面不需要經(jīng)過服務器后端運算,尤其是當頁面模塊較多需要調用數(shù)據(jù)時,動態(tài)頁面每個用戶訪問都需要運算較長時間,而靜態(tài)頁面無論多少用戶訪問都可立刻返回一個無需運算的結果頁面,理論上可達到毫秒級響應。
系統(tǒng)首頁數(shù)據(jù)是對平臺中各個模塊數(shù)據(jù)的綜合展示,數(shù)據(jù)變動相對不頻繁,因此可進行靜態(tài)化發(fā)布。系統(tǒng)數(shù)據(jù)管理后臺本身支持靜態(tài)化發(fā)布功能,需要針對首頁各個模塊和頁面布局編寫模板文件并配置各模塊參數(shù),確定靜態(tài)發(fā)布機制,即可實現(xiàn)首頁靜態(tài)化功能。
2.分布式架構
系統(tǒng)一期架構部署采用單個WebLogic方式提供服務,底層檢索引擎也基于Solr單引擎服務,單服務部署承載的負載能力有限,當大用戶同時使用時必然從性能上難以支撐。
系統(tǒng)二期在檢索引擎方面采用SolrCloud技術,基于Solr和Zookeeper的分布式部署搜索,主要是使用Zookeeper 作為集群的配置信息中心,將負載自動分布到多個核心上,理論上增加一個核心,性能提升一倍,且任何一個核心宕機對總體服務沒有影響,從容錯性來說也是很好的方式。系統(tǒng)二期Web應用服務方面采用硬件或軟件負載均衡的方式,可將單個WebLogic擴展到多個服務,提升整個網(wǎng)站訪問性能,也可采用VM或Docker技術作為分布式部署載體實現(xiàn)多服務擴展,還可選擇硬件設備F5實現(xiàn)自動的負載均衡。
知識標引、知識挖掘、性能優(yōu)化等技術的應用,將使中國運載火箭技術研究院外部知識管理系統(tǒng)功能完善化、結構完整化、內容綜合化、集成模塊化,能夠實現(xiàn)外部知識資源的搜集、整合、發(fā)布和組織管理外部知識資源內容的挖掘、分析,以及航天領域知識發(fā)展方向的跟蹤、預測等功能。研究院外部知識管理系統(tǒng)全部建設完成后將實現(xiàn)“三個創(chuàng)新轉變”,即對外部知識存儲由分散、隔離型向集中統(tǒng)一型轉變,跟蹤由不定期檢索查閱向實時監(jiān)測挖掘轉變,服務由傳統(tǒng)文獻服務型向現(xiàn)代個性化服務型轉變。