羅立群 李廣建
摘 ? 要:近年來,認知科學(xué)、復(fù)雜科學(xué)、計算社會科學(xué)等領(lǐng)域出現(xiàn)的新思潮和新理論,為情報學(xué)的發(fā)展帶來了新的機遇;大數(shù)據(jù)、人工智能的興起,為情報學(xué)提供了新方法和新技術(shù)。大數(shù)據(jù)環(huán)境下的情報學(xué)在思想、方法和技術(shù)上都發(fā)生了許多變革,文章在跟蹤近年情報學(xué)發(fā)展動態(tài)的基礎(chǔ)上,歸納了大數(shù)據(jù)環(huán)境下情報學(xué)發(fā)展的十大特征,分別為計算化、模擬化、平臺化、知識化、智能化、一體化、多元數(shù)據(jù)融合、方法聯(lián)合化、結(jié)果聚合化和人機融合化。
關(guān)鍵詞:大數(shù)據(jù)環(huán)境;情報學(xué);發(fā)展特征
中圖分類號:G350 ? 文獻標識碼:A ? DOI:10.11968/tsyqb.1003-6938.2021011
Ten Characteristics of the Development of Information Science in Big Data Environment
Abstract In recent years, new trends and new theories in cognitive science, complex science, computational social science and other related fields have brought new opportunities for the development of information/intelligence studies; the rise of big data and artificial intelligence has provided new methods and new technologies for information/intelligence studies. Based on tracing recent developments of information/intelligence studies, the paper summarized ten characteristics of information/intelligence studies to show the full picture of information/intelligence studies in the big data environment, which are computerization, simulation, platformization, knowledge-based, intelligent, integration, multi-data fusion, methods combination, results aggregations, and human-machine integration.
Key words big data environment; information/intelligence studies; development characteristics
近年來,全球科學(xué)與技術(shù)界發(fā)生了重大的變革,認知科學(xué)、復(fù)雜科學(xué)、計算社會科學(xué)等領(lǐng)域出現(xiàn)的新思潮和新理論,為情報學(xué)的發(fā)展帶來了新的機遇、注入了新的活力;大數(shù)據(jù)、人工智能的興起,特別是深度學(xué)習(xí)、知識融合、認知計算等技術(shù)的成熟為情報學(xué)提供了新方法和新技術(shù)。情報學(xué)正在積極擁抱這些新的機遇與挑戰(zhàn),深度融合這些新的思想理論和方法技術(shù),大數(shù)據(jù)環(huán)境下的情報學(xué)在思想、方法和技術(shù)上都發(fā)生了許多變革。從國外研究看,以美國為首的西方國家近年來開展了大量的大數(shù)據(jù)環(huán)境下的情報學(xué)研究,如XDATA項目為大數(shù)據(jù)環(huán)境下開展大規(guī)模情報分析提供了彈性計算框架和計算工具[1];大機制(Big Mechanism)項目試圖解決大數(shù)據(jù)環(huán)境下情報因果關(guān)系的推理與自動分析,從海量文獻自動抽取因果片段,將它們組裝成完整因果模型,從而發(fā)現(xiàn)文獻中蘊含的因果關(guān)系[2]。從國內(nèi)研究看,賀德方[3]提出了情報工程,即利用工程化思維將數(shù)據(jù)、分析方法、情報技術(shù)等情報研究工作的要素進行組織,用工程化的模式實現(xiàn)情報分析的全過程;吳晨生等[4-5]針對情報3.0環(huán)境下情報機構(gòu)面臨互聯(lián)網(wǎng)信息過載挑戰(zhàn),將智能工具作為情報生產(chǎn)方式變革的核心內(nèi)容;李廣建和江信昱[6]提出了計算型情報分析,通過計算解決大數(shù)據(jù)情報分析問題。上述國內(nèi)外的研究和實踐表明,大數(shù)據(jù)環(huán)境下情報學(xué)的理論、方法發(fā)生了許多變化。筆者在跟蹤近年情報學(xué)發(fā)展動態(tài)的基礎(chǔ)上,總結(jié)和歸納了大數(shù)據(jù)環(huán)境下情報學(xué)的十大特征。需要指出,有些特征之間存在著交叉,但強調(diào)的重點有所不同,揭示的情報學(xué)發(fā)展的方面有所不同,故筆者在本文中都盡量將它們列舉出來,以期能全面展示情報學(xué)近年的發(fā)展。
1 ? 計算化
計算化是計算思維和情報思維相結(jié)合的產(chǎn)物,強調(diào)通過將情報需求或情報課題轉(zhuǎn)換成可形式化表達和求解的問題,對情報研究的問題進行數(shù)學(xué)建模,運用計算的方式進行大規(guī)模、自動化的分析,從而獲得有價值的結(jié)論。情報計算化的核心主要包括兩個方面,即情報問題的模型化和情報過程的自動化。
情報問題的模型化就是指利用系統(tǒng)化的符號和數(shù)學(xué)表達式對情報問題進行抽象的描述,其本質(zhì)是對情報問題進行數(shù)學(xué)建模,這個過程也是深入理解情報問題的過程。情報問題的模型化是實現(xiàn)情報計算化的重要途徑。如在科技情報分析中,傳統(tǒng)的基于計量的情報分析主要依賴于計量和計數(shù)的方法,對情報問題缺乏深入的洞察力。大數(shù)據(jù)環(huán)境下,海量的科技文獻、科技新聞等為情報建模提供了良好的數(shù)據(jù)基礎(chǔ),能夠幫助研究人員從科技文獻內(nèi)容/文本中提取有價值的信號以及重要的知識,從而對文獻內(nèi)容進行細粒度的建模,發(fā)現(xiàn)一些潛在的和隱藏的模式。這是傳統(tǒng)的計量型情報分析所不具備的優(yōu)勢和特征。Choi和Jun[7]開發(fā)了一種針對專利內(nèi)部特征分析的計算方法和模型——基于專利文本分析的貝葉斯模型——來預(yù)測技術(shù)空白點,該模型通過文本預(yù)處理技術(shù)從海量的專利文件中提取關(guān)鍵的技術(shù)術(shù)語并用專利文檔技術(shù)矩陣進行技術(shù)特征建模,使用貝葉斯聚類方法對結(jié)果進行投票,從而確定未來技術(shù)的空白研究領(lǐng)域。Choi和Jun提出的這種計算和建模方法深入到了專利文本內(nèi)部,對技術(shù)細節(jié)進行細粒度的表征,對技術(shù)領(lǐng)域做了更細致的區(qū)分,因此能夠有效地表征微觀層面的技術(shù)特征,可以對細分的技術(shù)領(lǐng)域做出預(yù)測,這是傳統(tǒng)的計量分析方法很難做到的。
情報過程的自動化就是指通過形式化的軟件指令,在不需要人工干預(yù)(或極少干預(yù))的情況下,按預(yù)期的情報目標實現(xiàn)情報的采集、加工、分析、服務(wù)等各個環(huán)節(jié)的工作。大數(shù)據(jù)時代,情報工作面臨海量、高速、低價值密度的大數(shù)據(jù)的挑戰(zhàn),而情報活動本身又是一個充滿競爭、博弈的活動,這就需要通過自動化賦能,使情報工作具備高效、準確、持續(xù)的能力。情報過程的自動化不是簡單的將機器作為輔助工具,而是將其上升到了情報過程的主導(dǎo)地位,盡量減少人的主觀因素對情報過程的影響和干擾,從而最大限度地保證情報結(jié)果的客觀性和可靠性[8]。發(fā)現(xiàn)并識別未來有影響力的科學(xué)和研究概念可以幫助學(xué)者和科學(xué)家集中更多的精力聚焦有前景的研究領(lǐng)域。傳統(tǒng)上情報分析被認為是一種藝術(shù)[9],以分析人員為主導(dǎo)的情報分析往往會受到人的認知因素和外部環(huán)境因素的影響而產(chǎn)生發(fā)現(xiàn)和識別的偏差,為此,Kathy等[10]設(shè)計了一種自動化的科技預(yù)測的情報流程,通過自動化的處理單元將科技情報分析、預(yù)測劃分為四個階段,分別是碎片生成、文檔分層處理、碎片分層處理以及機器學(xué)習(xí),為了保障分析的客觀性,整個流程中研究人員只需對各個階段所必要的參數(shù)進行設(shè)置,而無須干預(yù)中間的處理過程,情報分析系統(tǒng)將按照預(yù)設(shè)的分析模型(如概念識別、實體關(guān)系鏈接、引文情感分析和句子修辭分析等)實現(xiàn)大規(guī)模、實時的科技情報分析和預(yù)測,通過對800萬篇全文文章和4800萬條元數(shù)據(jù)進行分析,驗證了該情報分析流程具有較高的準確性和可靠性。
2 ? 模擬化
模擬化泛指以實驗或訓(xùn)練為目的,將原本的系統(tǒng)、事物的關(guān)鍵特性或者行為功能予以系統(tǒng)化和公式化,對關(guān)鍵特征做模擬,從而實現(xiàn)對系統(tǒng)或事物的發(fā)展趨勢、發(fā)展結(jié)果等的預(yù)測。模擬不僅僅是一項技術(shù),也是一種解決問題的方法[11]。模擬一般要通過計算機進行仿真,其實質(zhì)上是在計算機中構(gòu)造與現(xiàn)實世界相對應(yīng)的“人工世界”,建立起與真實系統(tǒng)相對應(yīng)的“平行系統(tǒng)”,在“人工世界”與 “平行系統(tǒng)”中對現(xiàn)實復(fù)雜系統(tǒng)進行試驗性研究[12]。情報學(xué)的模擬化是指通過復(fù)雜、動態(tài)仿真方法和技術(shù)根據(jù)以往的情報現(xiàn)象演化的過程和規(guī)律,抽象并驗證出情報現(xiàn)象演化的關(guān)鍵特征,從而發(fā)現(xiàn)情報現(xiàn)象發(fā)展的基本規(guī)律,并推斷研究對象未來可能出現(xiàn)的狀態(tài)。
傳統(tǒng)的情報研究中缺乏有效的途徑對復(fù)雜、動態(tài)的情報研究對象進行刻畫,情報的推理和預(yù)測能力非常有限。在大數(shù)據(jù)時代,情報源發(fā)生了巨大的變化,傳統(tǒng)情報源的數(shù)字化以及互聯(lián)網(wǎng)技術(shù)和物聯(lián)網(wǎng)技術(shù)的興起,使得情報研究對象的活動和發(fā)生的事件等相關(guān)信息都會迅速地反映到各類數(shù)據(jù)庫、網(wǎng)站、網(wǎng)絡(luò)媒體之中,同時,數(shù)字化和網(wǎng)絡(luò)化的數(shù)據(jù)資源又大大方便了情報的感知和采集,從而使得動態(tài)研究情報對象成為可能。模擬為動態(tài)情報研究提供了一種實現(xiàn)路徑,通過為情報研究對象的關(guān)鍵特征構(gòu)建仿真模型,將平行映射的數(shù)據(jù)作為輸入,對真實世界的運行狀態(tài)進行仿真計算,可以有效地進行情報的推理。如在社會情報研究中,根據(jù)社會行為和情報的理論或經(jīng)驗,構(gòu)建一個關(guān)于現(xiàn)實社會系統(tǒng)的在計算機中運行的人工社會,然后模擬其動態(tài)演變過程,以便獲得對社會結(jié)構(gòu)、功能及其變遷更好的理解,并解釋復(fù)雜的社會現(xiàn)象或情報現(xiàn)象,乃至預(yù)測社會發(fā)展演變的可能方向,從而針對特定的社會活動獲取有價值的情報[13]。網(wǎng)絡(luò)輿情的演變就是一個典型的實時動態(tài)變化的過程,傳統(tǒng)的分析方法對網(wǎng)絡(luò)輿情動態(tài)傳播機制的解釋能力較弱,難以對網(wǎng)絡(luò)輿情未來的發(fā)展和演變進行推理,往往需要借助仿真思想和方法對輿情的演變進行模擬,從而為輿情的干預(yù)提供有效的預(yù)案。彭程等[14]基于傳統(tǒng)的SIR模型并引入信任系數(shù)變量來刻畫輿情傳播中,易感染類網(wǎng)民的動態(tài)演化過程以及輿情演化趨勢,通過模擬實際網(wǎng)絡(luò)輿情傳播的特征解釋了復(fù)雜網(wǎng)絡(luò)輿情的傳播機制,并通過易感染類網(wǎng)民占比與閾值間的大小關(guān)系發(fā)現(xiàn)了效用最大化的輿情防控點,最后利用仿真計算來檢驗政府輿論干預(yù)手段的有效性。
在科技情報研究中,論文、專利、報告等科技文獻真實地記錄了科學(xué)研究的成果、研究的過程、學(xué)者及研究機構(gòu)的情況、作者和機構(gòu)之間的合作關(guān)系、項目的受資助情況等諸多科研要素,海量的科技文獻就構(gòu)成了學(xué)術(shù)大數(shù)據(jù)。傳統(tǒng)的情報方法受制于技術(shù)因素對學(xué)術(shù)大數(shù)據(jù)的利用非常有限,往往借助簡單的、靜態(tài)的計量方法對科技文獻的內(nèi)外部特征進行分析。如基于引文的文獻計量方法是科技情報領(lǐng)域最為基礎(chǔ)和重要的量化手段和方法,引文分析方法有助于探索,組織和分析大量科技創(chuàng)新的歷史數(shù)據(jù),主要是幫助研究人員理解過去。大數(shù)據(jù)時代的科技情報研究不僅僅需要理解過去,更需要了解未來,諸如都有誰是未來有潛力的學(xué)者、將來可能有哪些顛覆性的研究領(lǐng)域、哪一類的團隊組合更易產(chǎn)生創(chuàng)新成果等。這就需要利用微觀層面細粒度的學(xué)術(shù)數(shù)據(jù)對知識融合、科學(xué)創(chuàng)新的演變進行仿真計算,模擬并推演可能的創(chuàng)新過程。如Dashun Wang等[15]通過海量的學(xué)術(shù)大數(shù)據(jù)對科學(xué)家的影響力的演變過程進行擬合,加入了時間維度來量化科學(xué)家職業(yè)生涯中影響力和生產(chǎn)力的動態(tài)變化過程,他們通過隨機影響力的規(guī)則構(gòu)建了一個隨機仿真模型,將發(fā)表產(chǎn)量、個人能力和運氣的影響作為參數(shù),仿真模型能夠模擬出科學(xué)研究成功的普遍模式,用來推測出科學(xué)家未來影響力的演變軌跡,同時,該研究還能利用學(xué)術(shù)大數(shù)據(jù)的模擬仿真,揭示出學(xué)術(shù)研究、知識創(chuàng)新過程中所蘊含的規(guī)律、機制以及隱藏模式,以幫助加速科學(xué)發(fā)現(xiàn)和創(chuàng)新。
3 ? 平臺化
平臺化的概念最早來源于軟件開發(fā)領(lǐng)域,是指一套綜合的工具和一組實踐證明的共享的最佳平臺,它形成了完整、久經(jīng)考驗、開放和模塊化的解決方案,旨在隨需應(yīng)變開發(fā)軟件和基于軟件的服務(wù)。廣義的平臺化概念被定義為任何一種在其上可以構(gòu)建其他應(yīng)用(內(nèi)容)的技術(shù)基礎(chǔ),這種理念本質(zhì)上是一種更先進的生產(chǎn)模式。在情報領(lǐng)域,將成熟的、共性的情報方法和技術(shù)進行抽象、集成、封包成為“平臺”,基于平臺實現(xiàn)最大程度的重用,規(guī)模化的情報分析和情報服務(wù),這樣,一方面極大地提高了情報分析和情報服務(wù)的效率、降低了成本和代價;另一方面能為情報用戶提供了基于平臺的個性化、多樣化的情報分析和服務(wù)的定制。這種理念,我們稱之為“平臺化”。
情報的業(yè)務(wù)需求有兩個特點,一是情報需求多且繁雜;二是情報需求時效要求極高。在傳統(tǒng)的情報工作中,情報分析和情報服務(wù)是基于情報分析人員的“手工藝活”,往往需要分析人員耗費大量的時間和精力根據(jù)不斷變化的情報需求進行調(diào)整,情報工作的效率難以保障。如在科技情報研究中,科技數(shù)據(jù)的采集、存儲、科技情報的處理和分析等情報過程都需要情報人員根據(jù)實際的情報業(yè)務(wù)需求尋找不同的方法、工具并進行不斷地調(diào)試,進行針對性的開發(fā)。當(dāng)新的情報需求出現(xiàn)時,由于原有的業(yè)務(wù)代碼與通用代碼的耦合性較差,已有的成果難以得到有效的復(fù)用。近年來,云計算技術(shù)和大數(shù)據(jù)技術(shù)的興起,為情報服務(wù)和情報分析提供了符合行業(yè)標準的開放平臺,這類開放平臺能夠幫助情報人員快速定義、集成和自動化地構(gòu)建情報系統(tǒng)的業(yè)務(wù)流程,最大化減少了重復(fù)開發(fā)和調(diào)試的工作量,使情報的分析能力、計算能力和存儲能力得以高效復(fù)用。如DARPA開展的XDATA項目就是一個廣泛的基于現(xiàn)在云計算和大數(shù)據(jù)行業(yè)標準的情報開放平臺[1],該項目開發(fā)了高度可復(fù)用的情報分析、計算和存儲的通用技術(shù)平臺,包括資源采集、清洗與轉(zhuǎn)換、數(shù)據(jù)建模、數(shù)據(jù)分析、結(jié)果可視化、用戶交互、信息查詢等基礎(chǔ)功能,情報部門可以根據(jù)自身情報業(yè)務(wù)的實際需求在其基礎(chǔ)之上快速地搭建、個性化地配置面向具體領(lǐng)域情報工作的情報系統(tǒng)和服務(wù)平臺。另一方面,隨著情報技術(shù)和情報方法的成熟以及工作流技術(shù)在情報領(lǐng)域的應(yīng)用,將情報分析中的共性方法、技術(shù)按情報任務(wù)抽象、集成、封包成“情報技術(shù)平臺”和最佳的“情報解決方案”,通過可配置的方式根據(jù)情報分析業(yè)務(wù)的需求對分析方法、分析模型、分析的計算資源等進行靈活的組合和配置,能夠快速的構(gòu)建面向特定情報任務(wù)的分析流程,從而實現(xiàn)情報分析和情報服務(wù)的規(guī)?;ㄖ啤H缤蹯o宜等[16]深入地研究各類型情報分析方法,提出了情報方法具有層次性,即“理論型方法指導(dǎo)思維邏輯、集合型方法集成研究流程、操作型方法實施任務(wù)解決、計算型方法實現(xiàn)測度計量”,揭示了情報分析方法在數(shù)據(jù)處理和任務(wù)解決中的應(yīng)用規(guī)律。這項研究對不同數(shù)據(jù)和不同情報任務(wù)中的情報方法的定制和組合提供了理論基礎(chǔ)。
4 ? 知識化
知識化是大數(shù)據(jù)時代情報學(xué)理念和思想的重大轉(zhuǎn)變之一,情報學(xué)正從過去的強調(diào)知識組織和知識體系構(gòu)建的研究即解決“是什么”的模式,朝著強調(diào)深層次知識發(fā)現(xiàn)與知識利用研究即發(fā)現(xiàn)情報現(xiàn)象背后所蘊含的規(guī)律和模式的“為什么”以及提出理性解決方案的“如何做”的方向發(fā)展。知識一直以來是情報學(xué)研究的核心問題,著名情報學(xué)家布魯克斯[17]曾指出情報學(xué)研究對象是客觀知識世界,只是受制于不同時期的認知水平和技術(shù)水平,不同時期組織、利用知識的方式方法及其效果也不盡相同。傳統(tǒng)上情報學(xué)都是通過間接的方式對知識進行處理,更多的是基于對信息、數(shù)據(jù)的分析和處理來實現(xiàn)對知識的組織和定位,高階的分析和處理往往還需要分析人員根據(jù)自身的經(jīng)驗和知識以及對情報問題的理解來進行。在大數(shù)據(jù)環(huán)境下,情報人員有限的腦力難以對海量的信息和知識進行轉(zhuǎn)化和利用,知識化的本質(zhì)在于用機器逐漸替代情報人員在情報問題的解決過程中成為知識轉(zhuǎn)化和利用的主體,機器借助于知識驅(qū)動的計算模式直接、高效地利用可表征、可計算的知識參與到情報采集、情報分析、情報服務(wù)中需要使用到知識的環(huán)節(jié),協(xié)同其它的情報方法實現(xiàn)與情報分析人員相似的知識轉(zhuǎn)化、知識利用的認知功能。知識化的核心在于情報/知識的可計算化,這就需要知識驅(qū)動的計算模式來加以支撐[18],這些知識計算模式包括概念推理、語義計算、知識圖譜、因果關(guān)系分析、反事實預(yù)測等,而且,隨著對知識化的深入研究,還會誕生新的知識驅(qū)動的計算模式。
當(dāng)前情報學(xué)中的知識化研究呈現(xiàn)出兩個主要的特征和趨勢:
(1)利用領(lǐng)域知識指導(dǎo)面向特定任務(wù)的情報過程,優(yōu)化情報結(jié)果。具體地說,就是領(lǐng)域知識的融合貫穿于信息采集、預(yù)處理、模型選擇與數(shù)據(jù)分析及結(jié)果解讀整個情報過程。在這個過程中,領(lǐng)域知識的融合有助于消除存在歧義或不確定性的數(shù)據(jù)、降低數(shù)據(jù)的冗余度、降低算法計算的難度和模型構(gòu)建的復(fù)雜度。同時,將領(lǐng)域知識融合與情報分析結(jié)果相互印證,提高情報結(jié)果解讀的質(zhì)量,從而增強情報分析的可靠性和準確性。如王萍等[19]提出了領(lǐng)域知識融合驅(qū)動下的醫(yī)學(xué)情報分析模型構(gòu)建與優(yōu)化的思想和方法,以冠心病患者的臨床資料為分析對象,將醫(yī)學(xué)領(lǐng)域知識融合嵌入機器學(xué)習(xí)全過程,優(yōu)化領(lǐng)域知識驅(qū)動數(shù)據(jù)挖掘模型構(gòu)建策略,促進數(shù)據(jù)的知識發(fā)現(xiàn)從傳統(tǒng)型的算法驅(qū)動向新型的領(lǐng)域知識指導(dǎo)轉(zhuǎn)型,提高了數(shù)據(jù)挖掘結(jié)果的置信度。
(2)發(fā)現(xiàn)蘊含在大數(shù)據(jù)中隱藏的模式、規(guī)律、因果關(guān)系等高階知識,這類知識一般具有較高的使用價值或其本身已經(jīng)是情報產(chǎn)品了。在傳統(tǒng)的情報工作中,單一孤立的知識和事實是需要人工去交叉驗證的并分析其中的因果關(guān)系,但是,大數(shù)據(jù)時代的海量數(shù)據(jù)信息中隱藏的因果關(guān)系結(jié)構(gòu)一般都比較復(fù)雜、因果鏈冗長,其中往往會包含數(shù)量巨大的相關(guān)的、不相關(guān)的、顯性的和隱性的多種因素,因果關(guān)系的構(gòu)建需要將分散在不同數(shù)據(jù)中的多個單一知識點融合起來才能形成一個完整的鏈條,傳統(tǒng)的情報方法很難實現(xiàn),需要新的思路和方法,知識計算就是一種解決方案。如Valenzuela-Escárcega 等[20]提出了一種面向生物醫(yī)學(xué)的文獻自動閱讀思想和方法,該方法能夠?qū)Π┌Y生物學(xué)科技文獻進行大規(guī)模的分析,能夠從有關(guān)文獻中抽取出Ras基因家族的癌癥生物信息傳導(dǎo)途徑和機理,進而將它們?nèi)趨R成大型的因果模型,利用這些模型識別出并解釋了大量先前并不明確的癌癥信息傳導(dǎo)途徑。
5 ? 智能化
智能化是大數(shù)據(jù)時代情報學(xué)最核心的特征之一,也是未來情報學(xué)發(fā)展的重要趨勢。智能化是指以情報思想為指導(dǎo),以解決情報問題為目標,借助大數(shù)據(jù)、機器學(xué)習(xí)、云計算、物聯(lián)網(wǎng)等智能技術(shù)賦能情報獲取、處理、分析、分發(fā)等情報全流程,實現(xiàn)數(shù)據(jù)、信息、知識、情報、智慧的轉(zhuǎn)化、管理與應(yīng)用。對于情報工作而言,智能技術(shù)帶來的影響是全局性和根本性的,情報工作已經(jīng)從“數(shù)據(jù)世界”的獲取和管理發(fā)展到了“知識世界”的知識發(fā)現(xiàn)和情報知識轉(zhuǎn)化這樣的層次。智能技術(shù)在情報領(lǐng)域的應(yīng)用可以提升情報全流程各階段的能力,因此日益成為世界主要國家情報競爭的制高點[21]。正如美國中央情報局前副局長兼首席學(xué)習(xí)官Joseph Gartin[22]所言,情報領(lǐng)域正處于重大的轉(zhuǎn)折點,未來將受到人工智能,大數(shù)據(jù)和機器學(xué)習(xí)潛在的強大破壞性影響,人工智能和機器學(xué)習(xí)正迅速成為情報中重要的組成部分。
在情報獲取過程中,智能化使情報從被動采集轉(zhuǎn)向主動監(jiān)測,情報處理的部分功能被前置到了情報獲取階段,情報獲取的效率和規(guī)模得到了極大的提升。傳統(tǒng)的情報流程屬于線性的模式,情報的采集往往是基于情報的需求和情報計劃來執(zhí)行的。大數(shù)據(jù)時代的情報環(huán)境存在深度不確定性,情報源的數(shù)據(jù)和信息更新快、規(guī)模大、來源多等特性決定了傳統(tǒng)的線性情報獲取模式已經(jīng)不再有效,智能化技術(shù)賦能情報獲取則改變了傳統(tǒng)的情報模式,能夠?qū)崿F(xiàn)跨時空、立體、多點、主動的監(jiān)測,通過智能感知從海量信息中主動獲取微弱信號,提前預(yù)警預(yù)測可能發(fā)生的危機。如Compton R等[23]提出了一種用社交媒體進行智能感知的情報獲取思想和方法,該方法通過智能過濾器動態(tài)地從推特上公開可用的數(shù)據(jù)中提取推文,快速收集有關(guān)即將發(fā)生的事件的時間、地理位置等關(guān)鍵信息,有效避免了大量獲取的無關(guān)信息對情報分析帶來的負擔(dān),對拉丁美洲可能發(fā)生的社會動蕩事件進行高效預(yù)測。
在情報處理和分析過程中,智能化使情報分析主體從分析人員轉(zhuǎn)變?yōu)橹悄軝C器代理,智能機器代理承擔(dān)了更多的情報分析和處理任務(wù)。在傳統(tǒng)的情報工作中,情報分析人員要花費大量的時間和精力對圖像、視頻、文本、社交媒體等全源情報進行分析,從時空、事物、人物、事件等多維度去發(fā)現(xiàn)特定的聯(lián)系或模式,這種方式已不再適用新的大數(shù)據(jù)情報環(huán)境。大數(shù)據(jù)時代的情報處理和分析,智能機器代理通過模擬情報人員的情報分析認知模式,以便理解復(fù)雜的現(xiàn)象世界,并對關(guān)鍵的對象、事件進行提取和抽象,協(xié)助情報人員發(fā)現(xiàn)動態(tài)變化的情報環(huán)境中復(fù)雜事件所蘊含的模式和趨勢。如美國伊利諾伊大學(xué)的研究團隊在研究人類對復(fù)雜事件如何進行組織的認知規(guī)律的基礎(chǔ)上,提出了基于事件理解的抽象模式和事件組織結(jié)構(gòu),借助自然語言處理、圖像識別等智能技術(shù)從多源異構(gòu)情報源中識別對國家安全產(chǎn)生重大影響的動態(tài),并對復(fù)雜事件及所有參與者按時間順序進行鏈接和組織,進而識別和繪制出看似無關(guān)的事件或數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,從而對國家安全與影響國家利益的事件進行預(yù)警[24-25]。
6 ? 一體化
情報的一體化是新時期情報思想、情報體系和情報工作的一種轉(zhuǎn)變。從國外看,美國情報部門認為當(dāng)今世界充滿復(fù)雜性和不確定性,美國面臨的戰(zhàn)略環(huán)境急劇變化,其受到的來自國際與國內(nèi)的威脅與挑戰(zhàn)日趨多樣且相互關(guān)聯(lián),情報一體化是應(yīng)對上述挑戰(zhàn)的一種明智的情報戰(zhàn)略轉(zhuǎn)變。美國歷來就非常重視情報一體化的建設(shè),不論是戰(zhàn)略目標制定上還是戰(zhàn)略實施方法,情報一體化都是核心內(nèi)容[26]。一體化就是通過情報體系整合化、情報流程協(xié)同化、情報資源集中化,整合情報界各部分力量,使整體力量大于各部分之和[27]。從國內(nèi)看,新時期我國情報工作的外部環(huán)境發(fā)生了重大轉(zhuǎn)變,情報工作正面臨“百年未有之大變局”,國際形勢正處在新的轉(zhuǎn)折點上,世界多極化、經(jīng)濟全球化、社會信息化、文化多樣化深入發(fā)展,各國相互關(guān)聯(lián)、相互依存度前所未有,國際形勢進入了加速演變和深刻調(diào)整的時期[28]。情報體系所面臨的外部環(huán)境是一個相互關(guān)聯(lián)、相互影響、非線性的復(fù)雜系統(tǒng),牽一發(fā)而動全身。如近年來,以美國為首的國家發(fā)起的貿(mào)易爭端,這背后涉及到國家的科技安全、經(jīng)濟安全、產(chǎn)業(yè)安全等問題,這些問題錯綜復(fù)雜、相互交織,這就需要一體化的情報思想、情報體系應(yīng)對新的挑戰(zhàn)、化解重大危機。情報的一體化經(jīng)歷了兩個發(fā)展階段,第一個階段是在全球化的背景下,情報工作強調(diào)跨部門或跨國的同類情報和信息的共享與交互。全球化促進了國際貿(mào)易和投資、技術(shù)進步和經(jīng)濟改革,創(chuàng)造了一個無國界的世界。但越來越多的邊界滲透、流動人口以及全球金融和通訊帶來了許多新的安全挑戰(zhàn),包括政權(quán)顛覆、內(nèi)戰(zhàn)、傳染病、恐怖主義、叛亂、族裔沖突、非法販運人口、毒品、武器、走私等[29]。上述安全挑戰(zhàn)具有跨國、跨地區(qū)的特點,這就需要情報工作加強國家間情報機構(gòu)、國際組織、私營機構(gòu)之間的合作,通過情報的共享與交換應(yīng)對這些安全挑戰(zhàn)。特別是在金融情報、公共衛(wèi)生情報、反恐情報等領(lǐng)域開展情報共享與交換尤為重要。如歐盟國家為加強打擊國際金融犯罪的力度,荷蘭、英國、法國、盧森堡等國于2002年聯(lián)合建立了歐盟的金融情報體系—金融情報網(wǎng)絡(luò)(FIU.NET),開展歐盟金融情報部門之間的信息交換,取得了一定效果。
上述信息共享是在單一類型情報系統(tǒng)內(nèi),不同類型機構(gòu)間并不存在橫向上的情報共享機制,逐漸形成煙囪式體制,無法產(chǎn)生更高價值的情報產(chǎn)品為預(yù)警、決策服務(wù)[30]。特別是近年來國際情報戰(zhàn)略重心已從全球反恐情報轉(zhuǎn)向地緣政治情報,情報一體化發(fā)展跨入了第二個階段,即向情報深度全域融合的一體化方向發(fā)展。深度全域融合是指情報工作已不再局限于特定領(lǐng)域、特定類型的機構(gòu)、特定區(qū)域或國家,而是重視全領(lǐng)域的、全類型的情報共享,從以往強調(diào)專業(yè)化的垂直情報,轉(zhuǎn)向強調(diào)全局化的多領(lǐng)域橫向融合的情報,打通分散在各個領(lǐng)域、各個層次的情報孤島。深度全域融合主要體現(xiàn)在兩個方面:一方面是在情報的體系架構(gòu)上實現(xiàn)情報的融合,建立類似于大腦中樞機制的情報中樞,通過情報中樞將不同區(qū)域、不同機構(gòu)、不同來源的信息、情報匯聚到中心節(jié)點、集中統(tǒng)一進行分析和處理,為不同的情報機構(gòu)提供統(tǒng)一的、全局的情報,從根源上有效的解決了情報共享的問題。最典型的例子是美國在2003年開展的情報融合中心項目,主要目的是提升聯(lián)邦政府層面上如聯(lián)邦調(diào)查局、中央情報局、司法部、美國軍隊等與州級、地方政府之間相互分享信息能力[31];另一方面是在情報服務(wù)國家重大決策上,往往涉及的領(lǐng)域和層面較多,更加強調(diào)從全局多領(lǐng)域視角洞察隱藏的重要模式和重要因素之間相互的影響。傳統(tǒng)的情報工作模式都是不同領(lǐng)域、不同層次的情報機構(gòu)為重大決策分別提供情報參考,這種情報是割裂的,難以產(chǎn)生情報的協(xié)同效應(yīng),情報的輔助決策功能大打折扣。這就需要系統(tǒng)的、全局的將軍事情報、經(jīng)濟情報、社會情報、產(chǎn)業(yè)情報、科技情報等情報領(lǐng)域統(tǒng)一協(xié)調(diào),從總體的角度為決策層提供的全局的、跨領(lǐng)域的全面態(tài)勢感知,為決策的各個方面、各個環(huán)節(jié)提供全面的情報。如在供應(yīng)鏈安全情報領(lǐng)域,一般會涉及眾多的產(chǎn)業(yè)公司、情報組織、政府部門和非政府組織,供應(yīng)鏈特別是ICT領(lǐng)域的供應(yīng)鏈往往鏈條較長,影響輻射面較廣,供應(yīng)鏈的多層次性質(zhì)掩蓋了家庭、汽車、航空運輸以及至關(guān)重要的政府武器系統(tǒng)和關(guān)鍵基礎(chǔ)設(shè)施中使用的產(chǎn)品和技術(shù)服務(wù)的安全性,這就需要一體化的情報保障供應(yīng)鏈安全[32]。2018年,美國政府通過了《安全技術(shù)法案》,在情報組織體系上由聯(lián)邦采購安全委員會(FASC)開展供應(yīng)鏈安全的情報工作,其采取了“全行業(yè)”和 “全政府 ”的策略,聯(lián)合了聯(lián)邦部門和機構(gòu)、州和地方政府以及私營部門,在情報資源和情報服務(wù)上,通過為眾多情報合作機構(gòu)和組織提供統(tǒng)一的平臺來實現(xiàn)供應(yīng)鏈情報的共享和一體化情報決策服務(wù),進而減輕對手對美國供應(yīng)鏈的不對稱攻擊[33]。
7 ? 多元數(shù)據(jù)融合
多元數(shù)據(jù)融合是指在情報工作重視多來源、多類型的數(shù)據(jù),并在情報工作中注重這些數(shù)據(jù)的整合與融合。如在科技情報領(lǐng)域,多元數(shù)據(jù)一般包括論文數(shù)據(jù)、專利數(shù)據(jù)、科技新聞、學(xué)術(shù)網(wǎng)站、實驗數(shù)據(jù)等,多類型的數(shù)據(jù)包括數(shù)值型數(shù)據(jù)、文本型數(shù)據(jù)、流媒體類數(shù)據(jù)等。多元化的數(shù)據(jù)可以從不同的角度刻畫出情報對象的特征,多元數(shù)據(jù)融合綜合利用情報對象相關(guān)的各種信息,以更加全面、系統(tǒng)的方式刻畫和描述出情報對象的發(fā)展狀態(tài)和趨勢。美國國防部資助的 “科學(xué)和技術(shù)預(yù)測的回顧性研究”項目中指出,最好的預(yù)測不是從單個數(shù)據(jù)流中構(gòu)建的,而是從數(shù)百或數(shù)千個數(shù)據(jù)流的平均值中得出的[34]。由此我們可以看到,多元數(shù)據(jù)融合不僅提升了分析的全面性,還提升了分析結(jié)果的準確性。
多元數(shù)據(jù)融合是現(xiàn)代情報領(lǐng)域中非常重要的一個特征和方法論,多元數(shù)據(jù)融合的第一次飛躍是在2000年左右,信息技術(shù)的不斷發(fā)展和成熟,在金融消費、個人出行、移動通信等領(lǐng)域得到了廣泛的應(yīng)用,社會組織和個人的活動都可以被其產(chǎn)生的數(shù)字足跡追蹤到。另一方面,受911恐怖襲擊的影響,面向社會情報的多元數(shù)據(jù)融合和情報獲取愈發(fā)受到國內(nèi)外情報界的重視。如2003年美國情報界開始重視公民多元數(shù)據(jù)的獲取和融合化工作,通過持續(xù)的自動監(jiān)測與分析來識別并預(yù)警可能的高風(fēng)險恐怖活動[35]。美國國防高級研究計劃局DARPA開展的完全掌握情報項目(Total Information Awareness),通過開發(fā)超大型全源信息存儲庫技術(shù)創(chuàng)建虛擬、集中式的大型數(shù)據(jù)庫,實現(xiàn)對多來源信息融合[36],其中多元數(shù)據(jù)包括:財務(wù)記錄、醫(yī)療記錄、通訊記錄和旅行記錄以及新的信息來源。該項目開發(fā)的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)工具能夠?qū)Υ罅啃畔⑦M行分類以識別和發(fā)現(xiàn)特定的恐怖活動模式。多元數(shù)據(jù)融合的第二次飛躍是在2010年以后,Web2.0技術(shù)、大數(shù)據(jù)技術(shù)、傳感技術(shù)等新一代信息革命推動了全球社會、經(jīng)濟、生活與數(shù)字技術(shù)的深度融合,可供情報工作使用的數(shù)據(jù)在數(shù)據(jù)量、多樣性、豐富性、可訪問性等方面都有大幅的提升,面向Web的、面向開源數(shù)據(jù)的情報采集與獲取成為這一時期情報界研究的重點。如韓國首爾國立大學(xué)的Heyeol Kwon[37]提出了一種基于多元數(shù)據(jù)融合的新興科技情報分析框架,該框架通過不僅獲取了傳統(tǒng)科學(xué)出版物的數(shù)據(jù),還融合了多個開源的科技數(shù)據(jù)源,包括了Web學(xué)術(shù)數(shù)據(jù)、Wikipedia數(shù)據(jù)等,通過潛在語義分析、知識提取、實現(xiàn)了對新興技術(shù)的分析和預(yù)測。該研究發(fā)現(xiàn),不同數(shù)據(jù)源對科技預(yù)測起到的作用是不同的,而且,相同的內(nèi)容在不同數(shù)據(jù)源中出現(xiàn)時所代表的含義也是不同的。如當(dāng)科學(xué)研究產(chǎn)生成果時,最先會以學(xué)術(shù)論文的形式出現(xiàn),相關(guān)內(nèi)容會出現(xiàn)在論文數(shù)據(jù)源中,表明有可能出現(xiàn)科技變革;當(dāng)某個研究成果已經(jīng)達到一定的成熟度時,專利就會開始引用相關(guān)文獻,相關(guān)內(nèi)容會出現(xiàn)在專利數(shù)據(jù)源中,預(yù)示著未來技術(shù)變革的可能性進一步增大;而當(dāng)相關(guān)內(nèi)容被新聞轉(zhuǎn)載時,說明這些內(nèi)容已經(jīng)不局限在學(xué)術(shù)圈之內(nèi)了,這些內(nèi)容已經(jīng)引起社會的高度關(guān)注,意味著該研究成果已經(jīng)成熟或者即將成熟。由此通過多元數(shù)據(jù)的融合就能判斷出新技術(shù)的發(fā)展趨勢以及當(dāng)前的發(fā)展階段。
8 ? 方法聯(lián)合化
方法聯(lián)合化是指通過融合多種情報方法、情報模型的優(yōu)勢對情報問題進行求解,以獲得最優(yōu)的情報決策、推斷、預(yù)測等結(jié)果。任何單一的分析方法和模型都是從某一個維度或角度對分析對象的一種反映和呈現(xiàn),各種分析方法和模型都有自身的優(yōu)勢和劣勢,為了最大化避免分析方法和模型的不確定性和盡量減少分析誤差,充分利用各種分析方法和模型的優(yōu)點,就要通過多種分析模型和方法的混合、組合、整合等融合手段來抵消各自的系統(tǒng)不同偏差,從而取得準確的分析結(jié)果[38]。
大數(shù)據(jù)時代,情報任務(wù)呈現(xiàn)出兩個突出的特點:(1)情報需求更加復(fù)雜化、模糊化,深度不確定的情報環(huán)境造成了情報用戶對情報需求和情報問題難以清晰定義,存在“走一步看一步”的情況,明確情報任務(wù)和問題本身就成為一個情報問題,需要從情報需求的不確定性中探索確實性;(2)情報對象更加多元化、隱蔽化,情報對象的真實面貌往往被大量數(shù)據(jù)和信息所掩蓋,真實的情報需要多方法聯(lián)合化來融合大量的“信息碎片”以發(fā)現(xiàn)“全貌”。上述特點強化了情報工作中多方法、多模型聯(lián)合使用。具體地說,首先,需要聯(lián)合多種分析模型和方法提高情報工作的準確性、全面性和可靠性。如在情報分析中,單一的情報方法很難達到較為理想的準確率,相對于選擇最佳情報模型而言,多種情報模型和方法的融合是提高分析的準確性的一種手段[39]。美國著名的技術(shù)情報專家Tugrul.U Daim曾指出,新興技術(shù)識別是非常困難的,特別是在缺乏可用歷史數(shù)據(jù)的情況下,復(fù)雜的商業(yè)技術(shù)如芯片技術(shù)、動力電池技術(shù)、食品安全技術(shù)等通常會有多種因素(政治,文化等)影響商業(yè)技術(shù)的普及,僅靠技術(shù)趨勢的分析是無法考慮到這些因素對技術(shù)的影響。他提出的解決辦法就是將文獻計量法、專利分析法、系統(tǒng)動力學(xué)等多種方法進行組合,對新興技術(shù)進行融合分析。使用文獻計量方法和專利趨勢曲線擬合方法從技術(shù)視角對新興技術(shù)進行分析,使用多選項分析和組織影響力分析從組織視角對新興技術(shù)進行分析,使用市場分析和競爭力分析通過校準代表消費者偏好的變量來合并個人觀點從消費者視角對新興技術(shù)進行分析,最終通過系統(tǒng)動力學(xué)將所有這些變量合并到一個模型中,以便表示復(fù)雜的反饋回路,并生成表示市場滲透率的預(yù)計S曲線,實現(xiàn)對商業(yè)技術(shù)的精準分析和判斷[40]。其次,數(shù)據(jù)驅(qū)動型和知識驅(qū)動型方法的聯(lián)合化。本文提到知識化是當(dāng)前情報學(xué)的一個重要特征,而知識驅(qū)動的方法往往會與數(shù)據(jù)驅(qū)動的方法一同使用。在大數(shù)據(jù)環(huán)境下,一方面,海量的數(shù)據(jù)流動和離散多元的信息嚴重影響了情報分析的效率和效果,所以還需要相關(guān)領(lǐng)域的知識來支撐數(shù)據(jù)驅(qū)動的分析;另一方面,大數(shù)據(jù)環(huán)境下的情報需求具有不確定性,這就需要情報分析方法對復(fù)雜情報環(huán)境和分析對象具有深入的洞察力。數(shù)據(jù)驅(qū)動和知識驅(qū)動相融合的方法非常適合在問題邊界定義模糊的情報分析場景中發(fā)現(xiàn)一些隱藏的模式。如在輿情分析中,知識技術(shù)的應(yīng)用主要對特定領(lǐng)域、特定需求的輿情信息進行組織,從而對輿情數(shù)據(jù)的采集、分析進行過程性指導(dǎo)和監(jiān)督,甚至可以直接用于輿情服務(wù),提高大數(shù)據(jù)輿情分析系統(tǒng)的準確性和實用性。張思龍和王蘭成[41]提出了一種知識和數(shù)據(jù)雙輪驅(qū)動的網(wǎng)絡(luò)輿情分析技術(shù),它既能發(fā)揮大數(shù)據(jù)處理技術(shù)在智能信息處理和深度語義挖掘方面的優(yōu)勢,又結(jié)合了知識技術(shù)構(gòu)建一系列的輿情知識庫和案例庫,從而完善輿情知識服務(wù)體系。
9 ? 結(jié)果聚合化
結(jié)果聚合化是指在情報領(lǐng)域利用群體智慧效應(yīng)獲得相對最優(yōu)的情報問題解決方案或情報分析結(jié)果,一般包括針對特定情報任務(wù)或問題的推斷、決策或預(yù)測。群體智慧是從許多個體的合作與競爭中涌現(xiàn)出來的,具有優(yōu)于個體的智慧與能力的特點。著名的科學(xué)家弗朗西斯·高爾頓曾通過實驗發(fā)現(xiàn)聚合眾人智慧優(yōu)于個人的智慧。他讓787個不同職業(yè)的人根據(jù)自己經(jīng)驗去猜測一頭牛的體重,盡管每個人的答案與實際重量(1197磅)相差甚遠,但最終答案聚合后的平均值卻十分接近正確答案,誤差不到一磅[42]。美國科學(xué)院院士斯科特·佩奇[43]進一步從多樣性的視角驗證了在復(fù)雜環(huán)境中多樣性在決策上的優(yōu)勢,證實了聚合具有多樣性的認知、多樣性職業(yè)背景、多樣性教育背景的群體智慧,在進行分析、決策、預(yù)測時往往優(yōu)于能力較強的個人或單一背景的團隊。
近年來,研究表明,領(lǐng)域?qū)<以诜治龊蜎Q策中普遍存在一定程度的認知偏差,諾貝爾獎獲得者丹尼卡尼曼[44]指出,認知偏差會影響預(yù)測者做出理性的推理。在情報分析領(lǐng)域,美國著名的情報科學(xué)家菲利普·泰洛克曾受IARPA的資助進行過長達數(shù)十年的實證研究,其研究結(jié)果表明,單一領(lǐng)域或單一背景的專家(組)在情報分析中做出的推斷、預(yù)測的準確性要落后于具多樣性背景的團隊[45]。針對情報分析和決策中單一的分析結(jié)果可能存在的認知偏差問題,情報結(jié)果的聚合是一種有效的解決途徑,通過充分發(fā)揮群體的智慧、聚合來自不同分析團隊對同一情報問題的分析結(jié)果,可以使分析結(jié)論更加全面、客觀、理性。菲利普·泰洛克[46]提出了一種全新的聚合群體智慧進行情報預(yù)測的思想和理論方法體系,并將該方法應(yīng)用于地緣政治“宜居帶”問題的預(yù)測(即難度適中,即不能特別容易,也不能難到世界上無人可以回答)。首先,從全美招募了2700多名志愿者,他們的教育背景、職業(yè)、年齡各異,通過均化的方法將他們?nèi)康念A(yù)測結(jié)果進行聚合,第一年團隊的準確率比個人高23%。之后,遴選出準確性較高的預(yù)測者組成超級預(yù)測者團隊,通過在線預(yù)測平臺向眾多分布在各地的預(yù)測者發(fā)布相關(guān)的預(yù)測問題并及時推送與預(yù)測相關(guān)的各種信息,在交互的過程中完成預(yù)測結(jié)果的收集并通過聚合全部預(yù)測者的結(jié)果進行平均。結(jié)果顯示預(yù)測平均準確率高達80%以上,遠遠超過了掌握機密資料的專業(yè)分析人員的預(yù)測。除此之外,信息市場也被認為是一種比較有效的結(jié)果聚合模式,信息市場是交易特定合同的市場,該種合同基于不確定的未來事件的結(jié)果,以此確定贏虧,現(xiàn)在被用于預(yù)測各類事件包括國際事件、社會事件、科技預(yù)測等領(lǐng)域[47]。信息市場的機制是增加準確預(yù)測者的資產(chǎn),并使最不準確預(yù)測者的資產(chǎn)趨于零。那些具有較強預(yù)測能力的人則傾向于將更多的資產(chǎn)進行投資,因此會對市場價格產(chǎn)生更大的影響[48]。其本質(zhì)就是將分析者的智慧、知識、信息通過網(wǎng)絡(luò)平臺進行聚合通過市場行為形成最優(yōu)化的決策、預(yù)測結(jié)果。
10 ? 人機融合化
人機融合化是指在情報工作中使機器概率化的智能與情報分析人員有機化的智能相互融合、互為補充,共同協(xié)作完成復(fù)雜的情報任務(wù)。情報工作往往涉及到社會、文化、道德、宗教、價值取向等多種因素,人之所以有人的用處,主要在于人有區(qū)別與其他物體和生物的道德、人格、靈魂、精神、記憶等精神活動[49],這是在情報工作中機器和人工智能技術(shù)不能替代人的重要原因。在情報工作中,將情報組織在決策、預(yù)測、干預(yù)中體現(xiàn)的價值效應(yīng)(社會價值、文化價值)和國家利益融入機器的算法和模型之中并相互匹配,形成有機化與形式化相互協(xié)調(diào)的、理性的、智慧的情報結(jié)果。情報的人機融合化是一個遞歸循環(huán)的過程,一方面情報組織通過充分發(fā)揮人在反省、歸納、預(yù)期等認知能力,將基于自身發(fā)展目標、戰(zhàn)略意圖等隱性的情報預(yù)期與機器進行融合,而機器則充分發(fā)揮其在搜索、分析、計算、優(yōu)化等方面的能力。人機融合就是人處理其擅長的“應(yīng)該”(should)等價值取向的主觀信息,而機器不僅處理其擅長的“是”(being)等規(guī)則概率的客觀數(shù)據(jù),同時也將從人處理“應(yīng)該”(should)信息中優(yōu)化自己的算法,從而產(chǎn)生人+機器既大于人也大于機器的效果[50]。
傳統(tǒng)的情報工作中,機器處于輔助地位,主要承擔(dān)了信息的存儲、組織與計算;人的分析處于主導(dǎo)地位,依賴于大量的分析人員直接干預(yù)分析的方法、分析的過程以及對分析的結(jié)果進行解釋,這就使得需要一定的分析周期才能最終形成情報產(chǎn)品以輔助高層決策。近年來,一方面,情報工作發(fā)生根本性轉(zhuǎn)變,情報環(huán)境更加復(fù)雜多變,競爭對手更加狡詐敏捷,情報任務(wù)具有影響要素眾多、抽象層次較高、時間更加緊迫、不確實性更強的特性;另一方面,隨著人工智能技術(shù)特別是態(tài)勢感知、人機協(xié)同認知、智能決策等認知智能技術(shù)的成熟,人機融合化正逐漸成為情報領(lǐng)域重要的特征和發(fā)展趨勢。人機融合化使機器成為情報分析中解決問題的合作伙伴,在網(wǎng)絡(luò)安全、數(shù)據(jù)分析、災(zāi)難援助等情報工作中與人類分析人員共同完成較為復(fù)雜和高級的情報任務(wù)。這就要求機器要像情報分析專家一樣承擔(dān)更多的、更高級的情報分析任務(wù),解決機器和人類在情報處理等“思考”方式上的基本差異,促進情報領(lǐng)域的人機融合化。如2017年DARPA確立了全新的情報發(fā)展戰(zhàn)略——將機器作為合作伙伴,從認知層次解決情報問題(Transform cognitive problems using machines-as-partners)[51],這一發(fā)展戰(zhàn)略背后蘊含三層含義:(1)機器與人共同協(xié)作、融合承擔(dān)更高級別的情報分析任務(wù);(2)將人的情報分析思維和認知機制向機器遷移,使機器模仿人的情報、知識的轉(zhuǎn)化、融合機制;(3)機器要具有一種更適合機器的情報決策、預(yù)測、干預(yù)的認知能力,最終超越人類情報認知能力。目前,機器正在認知上學(xué)習(xí)和模仿人類的情報分析策略和機制,在某些分析能力方面已超越人類的現(xiàn)有分析能力,人機融合將在未來的情報工作和復(fù)雜決策中發(fā)揮重要作用。如南加州大學(xué)的研究人員研發(fā)了一種用于地緣政治預(yù)測的人機融合的系統(tǒng)SAGE[52],該系統(tǒng)不僅融合人類分析員的預(yù)測,還包括了一系列基于數(shù)據(jù)驅(qū)動的機器模型。機器模型可以預(yù)測事件的結(jié)果,或者作為工具幫助人類分析員梳理大量的數(shù)據(jù),尋找歷史事件的證據(jù),而人類分析員對定性數(shù)據(jù)進行推理,結(jié)合機器對數(shù)據(jù)聚合、處理的能力,實現(xiàn)更加精準的預(yù)測。該平臺融合人類洞察力和機器學(xué)習(xí)模型,允許數(shù)據(jù)驅(qū)動平臺針對缺乏歷史先例的新興問題“實時”整合人為的反饋。在2019年,SAGE已與另外兩個預(yù)測系統(tǒng)進行了對比測試,對相同的400多個地緣政治問題進行了預(yù)測,SAGE系統(tǒng)生成的預(yù)測結(jié)果比其它兩個系統(tǒng)更加準確。
參考文獻:
[1] ?XDATA.Defense Advanced Research Projects Agency[EB/OL].[2020-10-14].https://www.darpa.mil/program/xdata.
[2] ?DARPA.DARPA Big Mechanism[EB/OL].[2020-10-14].https://www.darpa.mil/program/big-mechanism.
[3] ?賀德方.情報工程學(xué)的探索與踐行[M].北京:科學(xué)出版社,2016.
[4] ?吳晨生,張惠娜,劉如,等.追本溯源:情報3.0時代對情報定義的思考[J].情報學(xué)報,2017,36(1):1-4.
[5] ?吳晨生,陳雪飛,李佳娛,等.情報3.0環(huán)境下的情報生產(chǎn)要素特征與情報生產(chǎn)方式變革[J].情報理論與實踐,2018,41(1):1-4.
[6] ?李廣建,江信昱.論計算型情報分析[J].中國圖書館學(xué)報,2018,44(2):4-16.
[7] ?Choi S,Jun S.Vacant technology forecasting using new Bayesian patent clustering[J].Technology Analysis & Strategic Management,2014,26(3):241-251.
[8] ?李廣建,羅立群.計算型情報分析的進展[J].中國圖書館學(xué)報,2019,45(4):29-43.
[9] ?Khalsa S. The Intelligence Community Debate over Intuition versus Structured Technique:: Implications for Improving Intelligence Warning and Analysis[J/OL].[2020-10-13].https://journals.lib.unb.ca/index.php/jcs/article/view/15234/20838.
[10] ?McKeown K,Daume III H,Chaturvedi S,et al.Predicting the impact of scientific concepts using full‐text features[J].Journal of the Association for Information Science and Technology,2016,67(11): 2684-2696.
[11] ?Cioffi-Revilla C.A methodology for complex social simulations[J].Journal of Artificial Societies and Social Simulation,2010,13(1): 7.
[12] ?王飛躍.人工社會、計算實驗、平行系統(tǒng)——關(guān)于復(fù)雜社會經(jīng)濟系統(tǒng)計算研究的討論[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2004(4):25-35.
[13] ?羅俊.計算·模擬·實驗:計算社會科學(xué)的三大研究方法[J].學(xué)術(shù)論壇,2020,43(1):35-49.
[14] ?彭程,祁凱,黎冰雪.基于SIR-EGM模型的復(fù)雜網(wǎng)絡(luò)輿情傳播與預(yù)警機制研究[J].情報科學(xué),2020,38(3):145-153.
[15] ?Sinatra R,Wang D,Deville P,et al.Quantifying the evolution of individual scientific impact[J].Science,2016,354(6312): aaf5239.
[16] ?王靜宜,徐敏,祝振媛,等.情報分析中的方法應(yīng)用研究[J].情報理論與實踐,2020,43(1):33-41.
[17] ?Brookes B C.The Foundation of Informatiom Science,PartⅢ,Quantitative aspects[J].Journal of Information Science,1980,2(6):269-275.
[18] ?邱韻霏,李春旺.智能情報分析模式:數(shù)據(jù)驅(qū)動型與知識驅(qū)動型[J].情報理論與實踐,2020,43(2):28-34.
[19] ?王萍,牟冬梅,石琳,等.領(lǐng)域知識融合驅(qū)動下的數(shù)據(jù)挖掘模型構(gòu)建與優(yōu)化[J].情報理論與實踐,2018,41(9):114-117,153.
[20] ?Valenzuela-Escárcega M A,Babur ?觟,Hahn-Powell G,et al.Large-scale automated machine reading discovers new cancer-driving mechanisms[J/OL].[2020-10-13].https://academic.oup.com/database/article/doi/10.1093/database/bay098/5107029#129405514.
[21] ?栗琳,孫敏.數(shù)據(jù)智能技術(shù)驅(qū)動的情報全流程變革及發(fā)展[J].情報理論與實踐,2020,43(10):7-12.
[22] ?Gartin J W.The Future of Analysis[J].Studies in Intelligence,2019,63(2):2.
[23] ?Compton R,Lee C,Lu T C,et al.Detecting future social unrest in unprocessed twitter data:“emerging phenomena and big data”[C].2013 IEEE International Conference on Intelligence and Security Informatics.IEEE,2013: 56-60.
[24] ?Li M,Zareian A,Zeng Q,et al.Cross-media Structured Common Space for Multimedia Event Extraction[J].arXiv preprint arXiv:2005.02472,2020.
[25] ?Li M,Zareian A,Lin Y,et al.GAIA: A Fine-grained Multimedia Knowledge Extraction System[C].Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations,2020:77-86.
[26] ?賴金輝.構(gòu)建一體融合的情報界——2019年版《美國國家情報戰(zhàn)略》解讀[J].情報雜志,2019,38(12):48-53.
[27] ?Office of the director of national intelligence: National intelligence strategy of the United States of America 2019[EB/OL].[2020-10-14].https://www.dni.gov/files/ODNI/documents/National Intelligence Strategy 2019.pdf.
[28] ?中共中央黨史和文獻研究院.習(xí)近平關(guān)于總體國家安全觀論述摘編[M].北京:中央文獻出版社,2018.
[29] ?Heine Jorge,Thakur Ramesh.The Dark Side of Globalization[M].New York: United Nations University Press,2011.
[30] ?張家年.情報融合中心:美國情報共享實踐及啟示[J].圖書情報工作,2015,59(13):87-95.
[31] ?Intelligent Fusion Center[EB/OL].[2020-10-13].https://www.dhs.gov/fusion-centers.
[32] ?Supply Chain Risk Management A Framework for Assessing Risk[EB/OL].[2020-10-13].https://www.dni.gov/files/NCSC/documents/supplychain/20190422-SCRM-Framework-for-Assessing-Risk.pdf.
[33] ?NCSCNewsletter[EB/OL].[2020-10-13].https://www.dni.gov/files/NCSC/documents/supplychain/20190422-NCSCNewsletter.pdf.
[34] ?Charbonneau S,F(xiàn)ye S,Hay J,et al.A retrospective analysis of technology forecasting[C].AIAA SPACE 2013 Conference and Exposition,2013: 5519.
[35] ?United States.Office of Homeland Security.National strategy for homeland security[M].Office of Homeland Security,2002.
[36] ?Murray N.Profiling in the age of total information awareness[J].Race & Class,2010,52(2): 3-24.
[37] ?Heyeol Kwon.Data-driven Technology Foresight:Text Analysis of Emerging Technologies[D].Seoul:Seoul National University,2018.
[38] ?Thomson M E,Pollock A C,?魻nkal D,et al.Combining forecasts:Performance and coherence[J].International Journal of Forecasting,2019,35(2):474-484.
[39] ?Bates J M,Granger C W J.The combination of forecasts[J].Journal of the Operational Research Society,1969,20(4):451-468.
[40] ?Daim T U,Rueda G,Martin H,et al.Forecasting emerging technologies: Use of bibliometrics and patent analysis[J].Technological Forecasting and Social Change,2006,73(8):981-1012.
[41] ?張思龍,王蘭成.知識和數(shù)據(jù)雙輪驅(qū)動的網(wǎng)絡(luò)輿情分析技術(shù)研究[J].現(xiàn)代情報,2018,38(4):106-111.
[42] ?Surowiecki J.The wisdom of crowds[M].Anchor,2005.
[43] ?Page S E.The difference: How the power of diversity creates better groups,firms,schools,and societies-new edition[M].Princeton University Press,2008.
[44] ?Kahneman D.Thinking,fast and slow[M].Macmillan,2011.
[45] ?Tetlock P E.Expert political judgment:How good is it?How can we know?-New edition[M].Princeton University Press,2017.
[46] ?Tetlock P E,Gardner D.Superforecasting:The art and science of prediction[M].Random House,2016.
[47] ?Hahn R W,Tetlock P C.Introduction to information markets[J].Information Markets: A New Way of Making Decisions,2006:1-12.
[48] ?Laskey K B,Hanson R,Twardy C.Combinatorial prediction markets for fusing information from distributed experts and models[C].2015 18th International Conference on Information Fusion(Fusion).IEEE,2015:1892-1898.
[49] ?(美)維納.陳步,譯.人有人的用處:控制論與社會[M].北京:北京大學(xué)出版社,2010.
[50] ?劉偉.人機融合智能的現(xiàn)狀與展望[J].國家治理,2019(4):7-15.
[51] ?DARPA and Data:A Portfolio Overview[EB/OL].[2020-10-13].https://www.nitrd.gov/nitrdgroups/images/3/31/DARPA-and-DATA.pdf.
[52] ?Morstatter F,Galstyan A,Satyukov G,et al.SAGE:a hybrid geopolitical event forecasting system[C].Proceedings of the 28th International Joint Conference on Artificial Intelligence.AAAI Press,2019:6557-6559.
作者簡介:羅立群,男,北京大學(xué)信息管理系博士后,研究員;李廣建,男,北京大學(xué)信息管理系教授,博士生導(dǎo)師。
本文系國家社會科學(xué)基金重大項目“大數(shù)據(jù)時代知識融合的體系架構(gòu)、實現(xiàn)模式及實證研究”(項目編號: 15ZDB129)研究成果之一。
收稿日期:2020-12-17;責(zé)任編輯:柴若熔;通訊作者:李廣建(ligj@pku.edu.cn)