張魯冀
一、論文的研究背景和意義
科技檔案是指在自然科學(xué)研究、生產(chǎn)技術(shù)、基本建設(shè)等活動中形成的應(yīng)當(dāng)歸檔保存的圖紙、圖表、文字材料、計算材料、照片、影片、錄像、錄音帶等科技文件材料。2010年以前,由于信息傳播速度、信息量以及計算機技術(shù)的普及都落后于今天,全國各地的科技情報研究所都是使用人工的手段從科技檔案中收集情報,然后再對數(shù)據(jù)進行篩選、去重、統(tǒng)計,這種方法既費時又費力。隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)字檔案平臺、科技報告系統(tǒng)的興起以及大數(shù)據(jù)時代的到來,科技情報研究部門對信息的需求量與日俱增,人工檢索數(shù)據(jù)、篩選數(shù)據(jù)的方法必將被淘汰,取而代之的是利用計算機技術(shù)自動地對數(shù)據(jù)進行檢索、處理和分析。
從目前的情況來看,完全用計算機代替科技情報研究人員進行情報分析工作是不現(xiàn)實的,因為很多情報的判讀需要科技情報研究人員常年累積的經(jīng)驗,計算機可以做的是在最大限度上用計算機代替人工做重復(fù)性的工作。此外,情報領(lǐng)域與計算機領(lǐng)域有一定距離,情報研究人員往往不懂計算機技術(shù),甚至對軟件的使用都感到棘手。針對上述實際需求,需要開發(fā)一個無監(jiān)督的系統(tǒng),該系統(tǒng)可以按照需要自動采集數(shù)據(jù),并可以對數(shù)據(jù)進行去重、分析。
基于以上背景,本文計劃在錢學(xué)森提出的綜合集成研討方法指導(dǎo)下,基于數(shù)字檔案平臺、科技報告系統(tǒng)等數(shù)據(jù)庫設(shè)計建立一套以人為主,數(shù)據(jù)、信息、知識和智慧綜合集成,高度智能化的人機結(jié)合智慧情報系統(tǒng),從系統(tǒng)的物理構(gòu)成來看,包括三部分:一是由參與情報解讀的專家組成的專家體系;二是由為情報工作人員和專家提供各種信息服務(wù)的計算機軟硬件技術(shù)組成的機器體系;三是由各種形式的信息資源組成的知識體系。從情報分析過程來看,該系統(tǒng)包括三部分:一是基于專家體系經(jīng)驗判讀的定性情報綜合集成系統(tǒng);二是基于數(shù)據(jù)采集處理工具的定量情報分析綜合集成系統(tǒng);三是從定性情報到定量情報的綜合集成系統(tǒng)??傊?,該系統(tǒng)的建設(shè)不僅需要建立由不同學(xué)科、不同領(lǐng)域?qū)<医M成,具有能面對復(fù)雜巨系統(tǒng)問題所需要的合理知識結(jié)構(gòu)的專家體系,而且還需要設(shè)計開發(fā)能夠有效處理海量數(shù)據(jù)的工具,實現(xiàn)信息的高效采集與精確分析。從技術(shù)構(gòu)成分析,歸類能力、關(guān)聯(lián)性分析能力、輔助解讀能力、報告輔助生成能力是該系統(tǒng)應(yīng)具備的幾大核心能力。
文章將主要運用信息智能檢索、數(shù)據(jù)統(tǒng)一結(jié)構(gòu)化、信息抽取、機器學(xué)習(xí)、自然語言理解等前沿的數(shù)據(jù)挖掘分析技術(shù),對各數(shù)據(jù)庫的結(jié)構(gòu)化與非結(jié)構(gòu)化文本進行處理,實現(xiàn)對海量信息的數(shù)據(jù)挖掘,完成數(shù)據(jù)的關(guān)鍵詞輸入、引文爬取、數(shù)據(jù)解析分析、統(tǒng)計。最終形成關(guān)于學(xué)術(shù)專題情報報告雛形。
二、學(xué)術(shù)專題檔案情報快速輔助生成系統(tǒng)功能需求分析與系統(tǒng)設(shè)計
大數(shù)據(jù)時代的數(shù)據(jù)特征為情報服務(wù)過程中數(shù)據(jù)采集提出了嚴(yán)峻的挑戰(zhàn),檔案數(shù)據(jù)庫和科技報告數(shù)據(jù)庫等結(jié)構(gòu)化信息異構(gòu)、重復(fù),質(zhì)量參差不齊,時效性不強,使數(shù)據(jù)整合成為基礎(chǔ)數(shù)據(jù)資源建設(shè)的難點;其次是是如何通過大數(shù)據(jù)時代高度發(fā)展的移動互聯(lián)網(wǎng)技術(shù),充分利用人際網(wǎng)絡(luò)獲得一手?jǐn)?shù)據(jù),并與網(wǎng)絡(luò)、文獻和數(shù)據(jù)庫信息進行整合,也成為大數(shù)據(jù)環(huán)境下數(shù)據(jù)采集的難點。與此同時,無論何種數(shù)據(jù)來源,由于數(shù)據(jù)的價值密度低,數(shù)據(jù)篩選技術(shù)都是關(guān)鍵的技術(shù)難題。
本系統(tǒng)通過利用網(wǎng)絡(luò)環(huán)境下的搜索引擎技術(shù)、本體庫、SVM分類算法、聚類算法和信息篩選技術(shù),構(gòu)建面向大數(shù)據(jù)的檔案數(shù)據(jù)庫數(shù)據(jù)、科技報告數(shù)據(jù)庫數(shù)據(jù)、人際網(wǎng)絡(luò)數(shù)據(jù)和信息篩選的大數(shù)據(jù)采集與篩選工具,為情報服務(wù)的數(shù)據(jù)資源建設(shè)提供工具。
(一)系統(tǒng)需求分析
1.搜索需求:互聯(lián)網(wǎng)數(shù)據(jù)庫信息是情報服務(wù)的主要數(shù)據(jù)來源之一,搜索引擎技術(shù)的發(fā)展為互聯(lián)網(wǎng)數(shù)據(jù)的獲取提供了便捷、高效的工具,但是由于算法本身局限性,普通搜索引擎只能采集到約10-30%的信息,只能完成情報大概情況的收集,不能滿足情報檢索中查全率的要求,對于查準(zhǔn)率也只能滿足部分要求,這種現(xiàn)狀對于情報服務(wù)來說,是對互聯(lián)網(wǎng)信息資源的浪費。本系統(tǒng)需要在普通搜索引擎的基礎(chǔ)上通過重點、互動、專業(yè)垂直搜索,完成深入的、交互式的、專業(yè)的科技情報搜索。本部分的科技情報專用搜索工具是由元搜索系統(tǒng)、重點搜索系統(tǒng)、互動搜索系統(tǒng)、垂直搜索系統(tǒng)和深網(wǎng)接口系統(tǒng)封裝在一起構(gòu)成。
2.大數(shù)據(jù)篩選:數(shù)據(jù)庫數(shù)據(jù)具有數(shù)據(jù)價值密度低的特點,因此,數(shù)據(jù)的篩選對于情報服務(wù)的質(zhì)量尤為重要。數(shù)據(jù)來源的廣泛性使得大數(shù)據(jù)難以根據(jù)同一標(biāo)準(zhǔn)進行篩選,因而計算機難以獨立完成篩選工作。本系統(tǒng)根據(jù)研究內(nèi)容設(shè)定采集數(shù)據(jù)的范圍,將采集得到的數(shù)據(jù)去噪、剔除相似數(shù)據(jù)后,根據(jù)領(lǐng)域詞匯距離、情報點關(guān)鍵詞錄、情報報告關(guān)鍵詞錄摘錄出較具情報價值的信息,力爭把以十萬計的海量信息壓縮到600條以內(nèi),同時保存足夠的核心信息,并采用人機結(jié)合的工作方式,提供專家判讀的界面,為數(shù)據(jù)篩選的準(zhǔn)確性提供保障。
3.動態(tài)情報跟蹤與基于科技主體的社會網(wǎng)絡(luò)情報需求。搜索引擎完成的是面向互聯(lián)網(wǎng)數(shù)據(jù)庫數(shù)據(jù)的靜態(tài)數(shù)據(jù)獲取工作,然而對于情報服務(wù)來說,動態(tài)跟蹤能夠展現(xiàn)情報研究對象的活動軌跡,對于情報分析具有十分重要的價值。根據(jù)社會網(wǎng)絡(luò)理論,完成科技主體(單位和個人)相互關(guān)系的表達,從而確定某一主題下各個科技主體的特征,以使我們能從中找到適合進行情報分析判讀的行業(yè)專家。本系統(tǒng)基于移動網(wǎng)絡(luò)環(huán)境下的情報采集技術(shù),創(chuàng)新情報采集模式,全面采集由情報所所內(nèi)人員、行業(yè)專家、專業(yè)情報員,通過科技情報生產(chǎn)的規(guī)范化流程、規(guī)范化方法,依照科技情報質(zhì)量控制體系,在情報分析模型方法庫和情報分析方法工具包的協(xié)助下,完成情報的分析流程。
(二)系統(tǒng)模塊設(shè)計
本系統(tǒng)根據(jù)關(guān)鍵詞并行進行科技報告系統(tǒng)網(wǎng)頁爬取與數(shù)字檔案館中的科技檔案爬取,獲取有效的網(wǎng)頁信息與檔案信息,去重、去噪后得到需要的網(wǎng)頁信息與檔案信息。對數(shù)據(jù)進行特定的處理,采用特定的算法對獲取的數(shù)據(jù)進行處理分析,生成需要的圖表格式并得出結(jié)論。具體流程如圖1所示。
按照檔案情報流程節(jié)點的不同,該學(xué)術(shù)專題情報快速輔助生成系統(tǒng)可以細(xì)分為幾個大模塊:搜索大模塊,控制大模塊,整理大模塊,分析大模塊及結(jié)論生成大模塊。大模塊下又可細(xì)分為幾個小模塊。學(xué)術(shù)專題情報快速輔助生成系統(tǒng)模塊劃分如圖2所示
1.搜索模塊:搜索大模塊主要有科技報告系統(tǒng)網(wǎng)頁搜索模塊和數(shù)字檔案搜索模塊兩大模塊。網(wǎng)頁搜索模塊致力于在科技報告系統(tǒng)網(wǎng)絡(luò)上搜索與關(guān)鍵字相關(guān)的網(wǎng)頁集合,為后續(xù)的操作提供初始的科技報告系統(tǒng)網(wǎng)頁信息材料來源。數(shù)字檔案搜索模塊是在制定好的數(shù)字檔案館中搜索與關(guān)鍵字相關(guān)的檔案集合,得到與關(guān)鍵字有密切關(guān)系的檔案集合,為之后的整理分析等工作提供初始的材料來源。
2.控制大模塊:控制大模塊主要有兩個小模塊:內(nèi)存控制模塊和線程控制模塊。無論是從網(wǎng)頁中獲取信息還是從檔案庫中獲取信息,系統(tǒng)在獲取信息過程中獲取的信息容量比較大,所以需要內(nèi)存控制模塊來高效的非配運行此系統(tǒng)的計算機的內(nèi)存,以提高系統(tǒng)運行效率。由于要獲取的信息內(nèi)容十分多,因此采用并行技術(shù)進行獲取信息的操作。
3.整理大模塊:整理大模塊主要有科技報告系統(tǒng)網(wǎng)頁內(nèi)容整理模塊和檔案庫內(nèi)容整理模塊兩大模塊??萍紙蟾嫦到y(tǒng)網(wǎng)頁內(nèi)容整理模塊只要是對獲取到的網(wǎng)頁進行去重,去噪等處理,得到干凈、整齊的網(wǎng)頁內(nèi)容。檔案內(nèi)容整理模塊是對已經(jīng)獲取到的檔案集合進行去重,去噪等處理,獲取格式整齊的檔案內(nèi)容,以便進行后續(xù)工作。
4.分析大模塊:分析大模塊主要有科技報告系統(tǒng)網(wǎng)頁內(nèi)容分析模塊和檔案內(nèi)容分析模塊兩大模塊??萍紙蟾嫦到y(tǒng)網(wǎng)頁內(nèi)容分析模塊是對前邊已經(jīng)處理過的網(wǎng)頁信息采用分類,對比等特定分析方法對這些內(nèi)容進行分析,以幫助后邊的模塊得到想要的結(jié)果。檔案內(nèi)容分析模塊是針對之前通過搜索,處理得到的整齊的檔案信息內(nèi)容采用特定的分類,對比等分析方法對檔案內(nèi)容進行分析,得到分析的結(jié)果。
5.結(jié)論生成大模塊:結(jié)論生成大模塊主要有科技報告系統(tǒng)網(wǎng)頁生成結(jié)論模塊和檔案生成結(jié)論模塊兩大模塊??萍紙蟾嫦到y(tǒng)網(wǎng)頁生成結(jié)論模塊使用通過關(guān)鍵詞篩選出的網(wǎng)頁信息經(jīng)整理、分析得出的結(jié)果采用表格,圖表等方式展現(xiàn)給用戶,讓用戶對結(jié)論有一個直觀的了解。檔案生成模塊使用通過關(guān)鍵詞帥選出的論文信息經(jīng)過整理、分析得到的記過采用與網(wǎng)頁生成結(jié)論模塊基本相同的樣式,如表格、柱狀圖、餅圖等方式向用戶展示該關(guān)鍵詞搜索的內(nèi)容的結(jié)果。便于用戶進行相關(guān)的決策等。
(三)系統(tǒng)架構(gòu)設(shè)計
系統(tǒng)結(jié)構(gòu)共包括元搜索模塊、垂直搜索模塊、URL調(diào)度器、數(shù)據(jù)存儲器、多線程控制器、源碼解析器和數(shù)據(jù)分析模塊,其中元搜素模塊主要是對科技報告系統(tǒng)網(wǎng)頁數(shù)據(jù)進行檢索;垂直搜索模塊主要是對檔案數(shù)據(jù)庫進行檢索。由于網(wǎng)頁數(shù)據(jù)與檔案庫的格式差異較大,故本系統(tǒng)開發(fā)兩個軟件分別對網(wǎng)頁數(shù)據(jù)和檔案數(shù)據(jù)進行處理。從系統(tǒng)結(jié)構(gòu)上來說,除了信息采集模塊外,兩個軟件的結(jié)構(gòu)基本一致,都是通過上述模塊進行相互協(xié)調(diào)控制。用戶在系統(tǒng)運行初始化時對相關(guān)參數(shù)進行設(shè)置,如檢索的最大頁數(shù)、檢索的時間間隔等,然后輸入關(guān)鍵詞,系統(tǒng)結(jié)合上述功能模塊就可以脫離人工自動對數(shù)據(jù)進行檢索和處理,最終實現(xiàn)無監(jiān)督的信息采集工作。
系統(tǒng)的基本流程:在傳統(tǒng)網(wǎng)絡(luò)爬蟲的基礎(chǔ)上進行改進對網(wǎng)頁信息進行抽取,將下載下來的數(shù)據(jù)保存到內(nèi)存中,與之前的一級鏈接相同,當(dāng)內(nèi)存中的數(shù)據(jù)超過一個閾值時,將它們輸出到本地文件中。
當(dāng)全部數(shù)據(jù)抓取下來后,數(shù)據(jù)被分為網(wǎng)頁數(shù)據(jù)與檔案數(shù)據(jù),由于檔案數(shù)據(jù)是標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù),并且科技檔案技術(shù)方案的重復(fù)率并極低,也不存在大量噪聲數(shù)據(jù),因此可以通過系統(tǒng)的數(shù)據(jù)分析模塊對檔案數(shù)據(jù)進行分析。
三、學(xué)術(shù)專題檔案情報快速輔助生成系統(tǒng)的功能實現(xiàn)
文章以人工智能領(lǐng)域為例,使用本系統(tǒng)進行實驗,驗證本系統(tǒng)的可行性和有效性。一是本系統(tǒng)可以實現(xiàn)對檔案數(shù)據(jù)庫、科技報告數(shù)據(jù)庫的中文數(shù)據(jù)采集搜索,可以自動實現(xiàn)對檔案、科技報告相關(guān)詞庫的搜索,對相關(guān)文獻詳細(xì)信息(包標(biāo)題、摘要、完成人、完成單位、完成時間、項目名稱等)進行搜索采集,對相關(guān)文獻內(nèi)高頻詞匯進行統(tǒng)計分析。二是系統(tǒng)對采集到的數(shù)據(jù)進行歸類、去噪、去重處理,篩選出較具情報價值的信息,運用文獻計量學(xué)方法對篩選完的數(shù)據(jù)進行統(tǒng)計分析,形成清晰的檔案文獻相關(guān)信息統(tǒng)計分析表格。三是系統(tǒng)可以用來搜索某學(xué)術(shù)領(lǐng)域相關(guān)機構(gòu)、相關(guān)專家,還可以對機構(gòu)之間的合作關(guān)系、專家之間的合作關(guān)系、專家學(xué)術(shù)研究點之間的關(guān)系進行可視化展示。
科技情報是情報學(xué)的主要學(xué)科,檔案信息、科技報告是情報采集的重要來源,學(xué)術(shù)專題檔案情報快速輔助生成系統(tǒng)是集檔案情報搜索工具、大數(shù)據(jù)篩選工具、基于科技主體網(wǎng)絡(luò)的情報工具為一體的情報工具,可以有效提高情報機構(gòu)數(shù)據(jù)資源建設(shè)能力,對于打造情報機構(gòu)核心競爭力具有重要促進作用。
(作者單位:北京市科學(xué)技術(shù)情報研究所)