劉 念,張魯冀,趙燕燕,陳 默
(1. 北京電子科技學院 北京100070;2. 北京市科學技術情報研究所 北京100048;3. 大唐電信科技股份有限公司 北京100094;4. 機械工業(yè)信息研究院 北京100037)
大數(shù)據(jù)環(huán)境下政府情報研究機構檔案情報開發(fā)研究
劉 念1,張魯冀2,趙燕燕3,陳 默4
(1. 北京電子科技學院 北京100070;2. 北京市科學技術情報研究所 北京100048;3. 大唐電信科技股份有限公司 北京100094;4. 機械工業(yè)信息研究院 北京100037)
情報開發(fā)通常指文獻情報的分析與綜合過程,通過對一定時期某一課題領域進展情況的文獻情報進行分析和歸納,以研究報告等多種形式提供的專題情報或系統(tǒng)化的濃縮情報,以滿足政府部門的專門需要,或全面了解該領域的現(xiàn)狀和發(fā)展趨勢的需要??萍记閳蟮牟杉ぷ魇强萍记閳笱芯抗ぷ髦械闹匾M成部分,也是科技情報深入分析挖掘的基礎。隨著信息時代的飛速發(fā)展,信息呈指數(shù)倍增長,科技情報研究人員不得不在情報采集和統(tǒng)計分析等基礎工作上消耗過多的時間和精力,這使得科技情報研究的工作效率大幅度下降,已經(jīng)難以滿足情報檢索和分析的實際需求。為了能準確、全面、快速地獲取較為專業(yè)的科技情報,有效輔助相關部門開展科學決策并適時引導,有必要對科技情報的采集和數(shù)據(jù)分析處理技術進行深入的研究和探討。
大數(shù)據(jù) 情報體系 檔案
情報是指被傳遞的知識或事實,是知識的激活,是運用一定的媒體(載體),越過空間和時間傳遞給特定用戶,解決科研、生產中的具體問題所需要的特定知識和信息。英國情報學家B.C.Brooks 給情報的定義是:情報是使人原有的知識結構發(fā)生變化的那一小部分知識。
“科技計劃項目檔案”(以下簡稱項目檔案),專指以國家或地方政府財政投入為主,并列入國家或地方科技計劃項目,在其管理和實施全過程中形成的,具有保存價值的各種類型和載體的原始記錄。
項目檔案不僅是項目成果的重要組成部分(有時甚至是唯一成果),是項目管理的載體,是項目實施、驗收及成果推廣應用的真實記錄和可靠依據(jù),也是國家科技信息資源的重要組成部分。
目前情報學涉及的大多都是基于圖書期刊文獻的情報,因此許多人都認為圖情檔是一家。不過近幾年,許多專家都呼吁情報學要與圖書館學區(qū)別開來,認為“情報學搞圖書”對于學科來說是倒退,要提升情報學的地位,真正做到普通大眾所認同的情報。
2.1 內在需要
傳統(tǒng)情報所成功的核心因素之一就是有獨有的大型情報數(shù)據(jù)資源,但是,今天所有單位都能獲取與情報所一樣的數(shù)據(jù)資源。核心能力的缺失,使得現(xiàn)在國內各情報所無法突出體現(xiàn)其情報研究的核心競爭力。
2.2 外在必要
“大數(shù)據(jù)”理念在催生社會、技術、科學和經(jīng)濟變革的同時,對情報機構的情報搜索能力和情報分析能力提出嚴峻挑戰(zhàn)。
科技情報從誕生之日起一直沒有條件實現(xiàn)對情報對象的全面了解,但大數(shù)據(jù)可以幫助我們實現(xiàn)對情報對象的全息描述。大數(shù)據(jù)時代,科技情報從情報匱乏走過情報大眾化,正在邁向情報全息化時代??萍记閳髾C構的核心能力也從依靠獨家情報來源,發(fā)展到取決于情報解讀能力的強弱。大數(shù)據(jù)時代,快速情報服務的提供需要情報機構和情報工作人員具備較強的主題信息搜索能力、數(shù)據(jù)篩選與濃縮的能力、發(fā)現(xiàn)并判斷需求的能力、數(shù)據(jù)關聯(lián)搜索能力、數(shù)據(jù)歸類能力、情報分析解讀能力、行業(yè)專家儲備能力等。
目前,情報工作中面臨著兩大缺失和三大不足:
①專業(yè)“大數(shù)據(jù)”缺失。傳統(tǒng)情報所成功的核心因素之一就是擁有獨有的大型情報數(shù)據(jù)資源,但是,今天所有單位都能獲取與情報所一樣的數(shù)據(jù)資源。核心能力的缺失,使現(xiàn)在國內各情報所基本上都是依附科技廳做事務性工作,情報工作已被邊緣化。
②時效性缺失。目前國內的結構化數(shù)據(jù)(如:萬方、CNKI數(shù)據(jù)庫)只能提供1年零3個月以前的數(shù)據(jù),使情報工作不得不建立在“歷史數(shù)據(jù)”的基礎上。
③全領域覆蓋能力不足。過去情報所面對的領域有限,可以為每個領域單獨設一個研究室,有幾個或十幾個研究室就能滿足所有方向的任務。但是,隨著學科領域細化,目前情報所需要面對的是幾十個甚至上百個領域,傳統(tǒng)方法已不能滿足需要。
④情報生產速度不足。過去社會發(fā)展的節(jié)奏慢,半年甚至一年完成一份情報報告就能滿足需要。但是今天的節(jié)奏使領導的要求經(jīng)常是2周或一個月就必須完成一份詳盡的情報報告。
⑤信息處理能力不足。信息處理是情報工作最基礎最核心的部分。大數(shù)據(jù)時代,數(shù)據(jù)體量大對情報工作流程中傳統(tǒng)的信息處理方式提出了挑戰(zhàn)。
情報、檔案同屬社會信息資源,二者相互聯(lián)系,相互補充。
從形式看,情報、檔案都是知識的載體,同屬文獻信息資源,具有同源性、趨同性、相似性。
從載體來看,圖書、情報、檔案同屬人體大腦之外的知識信息庫。在當今知識爆炸的時代,人們的大腦已經(jīng)不能完全記錄所有信息,信息都必須借助于物質載體而存在,在歷史長河中常用的物質載體有甲骨、縑帛、紙張、光盤、膠片等等。
從信息的角度來看,圖書、情報、檔案同屬信息范疇。它們都可以被采集、加工、存儲、利用、傳遞,都來源于社會生產生活實踐,都可以脫離社會生產生活實踐而存在,都可以反過來指導社會生產生活實踐。
從管理程序來看,情報、檔案的基本工作環(huán)節(jié)相同。它們都包括收集、整理、編目、標引、編輯、排架、保管和檢索提供利用等,這些環(huán)節(jié)的管理方法也大致相同。
從設備上來看,情報、檔案都需要相同的設備。它們都需要庫房、書柜、書架等用以存放各自信息載體的設備,都可以使用聲像技術、通訊技術、復印技術、縮微技術等管理手段。
情報是反映事物變化和人類活動情況的快速傳遞的信息材料。檔案是情報的一種存在形式,是情報的重要來源。
但檔案與情報又有著明顯的區(qū)別,檔案是第一手的原始的記錄,而情報則可以是經(jīng)過加工了的第二手、第三手材料,所以,檔案比情報有著更大的可靠性。檔案在一定的條件下可以轉化為情報,即為了一定的目的,經(jīng)過加工選擇,用于社會交流目的的檔案具有情報的屬性。
智能化技術為計算機實現(xiàn)情報的智能搜索、智能處理奠定了技術基礎,但并不能替代人。面對海量大數(shù)據(jù),人腦的處理能力是有限的,計算機的數(shù)據(jù)處理能力在理論上卻是無限的。另一方面,智能化使計算機具有模擬人的感覺和思維過程的能力,使計算機成為智能計算機,可以進行模式識別、圖像識別、自然語言的生成和理解、博弈、定理自動證明、自動程序設計、專家系統(tǒng)、學習系統(tǒng)和智能機器人等。但是,情報是為實現(xiàn)某主體的某種特定目的,有意識地對有關事實、數(shù)據(jù)、信息、知識等要素進行勞動加工的產物。情報是經(jīng)過人腦加工過的、有用的信息。目的性、意識性、附屬性和勞動加工性是情報最基本的屬性,它們相互聯(lián)系,缺一不可。顯然,計算機沒有情報加工能力。在大數(shù)據(jù)時代,情報工作需要計算機技術的大力幫助,但是情報的加工分析還是離不開人。大數(shù)據(jù)時代,情報工作已從傳統(tǒng)的“人工查找+解讀”的時代走向了“機器搜尋+機器輔助分析+人對情報信息的解讀”的時代,情報生產時間能從以月為單位縮短到以小時為單位,快速情報成為可能。
針對這兩大缺失和三大不足的解決方案如下:
①網(wǎng)絡數(shù)據(jù)+結構化數(shù)據(jù)+專項數(shù)據(jù)的解決方案,解決兩大缺失(專業(yè)“大數(shù)據(jù)”缺失、時效性缺失)。當今世界上最大的數(shù)據(jù)庫就是存在于互聯(lián)網(wǎng)的數(shù)據(jù),也是最新的甚至可以稱為即時性的數(shù)據(jù)。如果將網(wǎng)絡數(shù)據(jù)、結構化數(shù)據(jù)和專項數(shù)據(jù)(如:海關數(shù)據(jù)、專利數(shù)據(jù)、工商數(shù)據(jù))從情報的角度結合起來,將能使情報所擁有獨有的、即時性的數(shù)據(jù)資源。其他單位很難專門為獲取情報投入大量精力,也不可能像情報所那樣為了情報常年維護巨大的數(shù)據(jù)資源,更不可能維持一支專業(yè)的團隊,從各個角度提供數(shù)據(jù)支撐。如:情報搜索引擎需要計算機專家和情報專家共同維護,專利分析需要專門的人員投入大量時間學習,情報分析算法需要懂情報和算法的專家維護,用于尋找解讀情報的專家信息系統(tǒng)也需要專門的力量去維護。
②改變情報生產流程,解決兩大不足(全領域覆蓋能力不足、情報生產速度不足)。用專用搜索引擎+專用算法+專用詞匯表的技術方案可以解決任何領域的情報生產問題,即信息收集、加工、存儲和分析的問題(即:情報生產流程中除了情報解讀和編寫情報報告之外的所有流程)。因此,在云計算平臺的支持下,該方案具有同時處理幾十個甚至幾百個領域情報的能力,而且僅需1~3天。即便考慮情報再搜索過程,通常信息收集、加工、存儲和分析所需的時間也在5天之內。通過情報分析系統(tǒng)將最有價值信息從海量信息中分離出來,使領域專家僅需1~2天時間就能通讀核心信息。
情報解讀是必須由專家完成的步驟,而通過搜索的方式和SNS理論標定專家,邀請相應的專家解讀情報,明確核心觀點就不困難了。編寫情報報告的關鍵任務轉化為根據(jù)核心觀點對核心情報的摘錄,所需時間將會大大縮短。因此,新情報生產流程的建立,能使我們在一個月的時間里完成情報報告。
[1] 賀德方. 我國科技情報行業(yè)發(fā)展方向的探討[J]. 情報學報,2007,26(4):23-29.
[2] 蔣仕鵲. 對智慧城市背景下城建檔案信息異地災備的思考[J]. 北京檔案,2015(5):40-42.
[3] 成帥. 文獻增長規(guī)律的研究[J]. 科技情報開發(fā)與經(jīng)濟,2005,15(22):13-20.
Archives Information Development in Government Intelligence Research Institutions Under the Context of Big Data Environment
LIU Nian1,ZHANG Luji2,ZHAO Yanyan3,CHEN Mo4
(1.Beijing Electronic Science and Technology Institute,Beijing 100070,China;2.Beijing Institute of Science and Technology Information,Beijing 100048,China;3.Datang Telecom Technology Co.,LTD,Beijing 100094,China;4.Machinery Industry Information Institute,Beijing 100037,China)
Intelligence development usually refers to the process of analysis and synthesis of document information.Based on the progress of a subject area in a certain period,document information was analyzed and summarized in order to study a variety of forms such as providing special intelligence or systematic concentrated intelligence,meet the special needs from government departments,or have a comprehensive understanding of the present situation and development trend in this field.Science and technology information collection work is an important part of science and technology intelligence research work and is also the foundation of science and technology intelligence analysis mining.With the rapid development of information era,there was an exponential increase in information and science and technology intelligence and researchers have to work in intelligence collection and statistical analysis based on the consumption of too much time and energy,which makes the work efficiency of science and technology intelligence research drastically decreased and makes it difficult to meet the needs of information retrieval and analysis.In order to obtain more accurate,comprehensive and fast professional intelligence science and technology,effectively assist related department to make scientific decisions and offer timely guidance,it is necessary to carry out an in-depth study and discussion of science and technology intelligence collection and data analysis processing technology.
big data;intelligence system;archives
G27
:A
:1006-8945(2016)09-0007-03
本論文得到“北京市科技計劃項目”資助,項目名稱為“數(shù)字科技檔案自動化與利用服務系統(tǒng)設計研發(fā)(Z151100003215042)”。
2016-08-26