周萍,王壯思,萬冬陽
(91054部隊(duì),北京,102442)
科技情報(bào)研究工作是根據(jù)現(xiàn)代化建設(shè)、軍事需求、國(guó)民經(jīng)濟(jì)和科學(xué)技術(shù)發(fā)展需要,運(yùn)用科學(xué)的方法和現(xiàn)代信息技術(shù)手段,對(duì)與裝備建設(shè)有關(guān)的國(guó)內(nèi)外科技信息進(jìn)行搜集、加工處理、分析和開展深入研究,進(jìn)而為裝備建設(shè)的宏觀決策提供數(shù)據(jù)支撐和信息服務(wù)??萍记閳?bào)研究是圍繞數(shù)據(jù)開展的科學(xué)研究工作,數(shù)據(jù)是情報(bào)研究工作最寶貴的資源[1]。
隨著大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)以及互聯(lián)網(wǎng)新媒體等信息技術(shù)的發(fā)展,可獲取的數(shù)據(jù)信息量呈爆發(fā)式增長(zhǎng),這給科技情報(bào)工作的帶來了快速發(fā)展的機(jī)遇。同時(shí),在數(shù)據(jù)量呈指數(shù)增長(zhǎng),數(shù)據(jù)類型多樣復(fù)雜的背景下,需要從海量數(shù)據(jù)中挖掘出有用的信息來開展情報(bào)研究工作,也是對(duì)科技情報(bào)工作新的挑戰(zhàn)。
以往的情報(bào)研究工作中,處理和分析的對(duì)象多為結(jié)構(gòu)化數(shù)據(jù)。隨著信息時(shí)代的到來,從互聯(lián)網(wǎng)上收集的數(shù)據(jù)中常是文本、視頻、音頻、圖片等半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),這類數(shù)據(jù)不支持常規(guī)的數(shù)據(jù)檢索,在數(shù)據(jù)的操作、處理和分析上有難度。大數(shù)據(jù)技術(shù)可實(shí)現(xiàn)對(duì)大量非結(jié)構(gòu)化數(shù)據(jù)的識(shí)別、清洗、整理、篩選,并最終將多源異構(gòu)數(shù)據(jù)統(tǒng)一為結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),從而能夠進(jìn)行后續(xù)的數(shù)據(jù)分析和處理環(huán)節(jié)。通過大數(shù)據(jù)技術(shù)豐富數(shù)據(jù)來源和數(shù)據(jù)類型,極大的拓寬了情報(bào)研究工作的基礎(chǔ)數(shù)據(jù)。
以往的情報(bào)研究工作受機(jī)器的性能限制,數(shù)據(jù)分析和處理耗時(shí)長(zhǎng),處理精度不高。大數(shù)據(jù)技術(shù)具有分布式集群處理能力,極大的提高了系統(tǒng)的計(jì)算和存儲(chǔ)能力,具有實(shí)時(shí)計(jì)算、離線數(shù)據(jù)計(jì)算、批處理、流數(shù)據(jù)處理能力,實(shí)現(xiàn)TB級(jí)數(shù)據(jù)秒處理的指標(biāo)。
以往的情報(bào)研究工作中,由于情報(bào)數(shù)據(jù)獲取渠道難,相關(guān)數(shù)據(jù)少,在形成情報(bào)研究結(jié)果時(shí)常常需要情報(bào)人員結(jié)合個(gè)人經(jīng)驗(yàn)進(jìn)行分析,導(dǎo)致最終形成的研究報(bào)告客觀性不夠。大數(shù)據(jù)技術(shù)提供了可靠的數(shù)據(jù)存儲(chǔ)方式,可以對(duì)海量情報(bào)數(shù)據(jù)和相關(guān)數(shù)據(jù)進(jìn)行保存,同時(shí)大數(shù)據(jù)技術(shù)的數(shù)據(jù)挖掘工具,通過信息跟蹤、比較驗(yàn)證等方式來提升情報(bào)質(zhì)量,分析數(shù)據(jù)間關(guān)聯(lián)度,建立情報(bào)信息的完整脈絡(luò),有效地避免了個(gè)人偏好等人為因素等人為因素的影響,增強(qiáng)了情報(bào)數(shù)據(jù)的系統(tǒng)性、科學(xué)性和客觀性[2]。
科技情報(bào)研究工作主要包括接收任務(wù)、進(jìn)行情報(bào)數(shù)據(jù)采集、情報(bào)數(shù)據(jù)的預(yù)處理、情報(bào)數(shù)據(jù)分析和挖掘、情報(bào)研究結(jié)果展示等環(huán)節(jié),下面分別從這幾個(gè)環(huán)節(jié)介紹大數(shù)據(jù)技術(shù)在情報(bào)研究工作中的應(yīng)用,具體的數(shù)據(jù)流轉(zhuǎn)如下圖所示。
圖1 情報(bào)研究工作中數(shù)據(jù)流轉(zhuǎn)圖
情報(bào)數(shù)據(jù)的采集是從各個(gè)情報(bào)來源渠道通過不同技術(shù)手段來收集情報(bào)數(shù)據(jù)并進(jìn)行匯總。從采集情報(bào)的數(shù)據(jù)渠道來說,可分為內(nèi)部渠道和互聯(lián)網(wǎng)渠道。內(nèi)部渠道是指自建的各類信息資源數(shù)據(jù)庫(kù),集中訂閱或采購(gòu)的期刊、文獻(xiàn)資料、內(nèi)部積累形成的各種研究報(bào)告工作手冊(cè)等。通過內(nèi)部渠道進(jìn)行情報(bào)數(shù)據(jù)采集手段主要是人工錄入,數(shù)據(jù)庫(kù)導(dǎo)入等。
從互聯(lián)網(wǎng)渠道進(jìn)行數(shù)據(jù)采集是指國(guó)內(nèi)外各類網(wǎng)站廣泛收集情報(bào)數(shù)據(jù),由于互聯(lián)網(wǎng)數(shù)據(jù)量巨大,傳統(tǒng)技術(shù)手段難以支撐采集工作,所以需要利用大數(shù)據(jù)技術(shù)手段。大數(shù)據(jù)技術(shù)中網(wǎng)絡(luò)爬蟲等數(shù)據(jù)采集工具可以高效、快速的進(jìn)行情報(bào)數(shù)據(jù)的采集。網(wǎng)絡(luò)爬蟲軟件可以根據(jù)預(yù)設(shè)的關(guān)鍵詞和規(guī)則進(jìn)行搜索,并對(duì)目標(biāo)網(wǎng)站的內(nèi)容更新進(jìn)行實(shí)時(shí)監(jiān)測(cè)和下載[3]。
互聯(lián)網(wǎng)上雖然數(shù)據(jù)量巨大,但充斥著大量的重復(fù)、冗余、錯(cuò)誤的信息,因此采集到的初始情報(bào)數(shù)據(jù)包含大量無用的信息,為提高后續(xù)數(shù)據(jù)處理的正確性,需要對(duì)采集到的初始情報(bào)數(shù)據(jù)包進(jìn)行數(shù)據(jù)預(yù)處理操作。
首先通過數(shù)據(jù)清洗、過濾等相關(guān)技術(shù),去除情報(bào)信息數(shù)據(jù)包中重復(fù)、無用、毀壞的數(shù)據(jù),,提高情報(bào)信息的有效性和可信度。然后對(duì)篩選過的情報(bào)數(shù)據(jù)包進(jìn)行加工?;ヂ?lián)網(wǎng)中存儲(chǔ)著大量的文字、圖像、音視頻等非結(jié)構(gòu)化數(shù)據(jù),在數(shù)據(jù)加工階段,需要按照數(shù)據(jù)標(biāo)準(zhǔn)化規(guī)范統(tǒng)一各類多源異構(gòu)數(shù)據(jù)源。通過大數(shù)據(jù)技術(shù)將不同來源、不同結(jié)構(gòu)、甚至存在語義沖突的數(shù)據(jù)包進(jìn)行加工處理,將異構(gòu)的數(shù)據(jù)轉(zhuǎn)換為具備統(tǒng)一語法和語義的通用數(shù)據(jù)模型。
在預(yù)處理階段還需要利用大數(shù)據(jù)技術(shù)建立一個(gè)可靠的、持久化存儲(chǔ)的數(shù)據(jù)中心,數(shù)據(jù)中心包括科技情報(bào)研究工作的所有過程和結(jié)果數(shù)據(jù)庫(kù)。大數(shù)據(jù)技術(shù)中,大批量非結(jié)構(gòu)化數(shù)據(jù)的持久化存儲(chǔ)主要依托于文件系統(tǒng)HDFS,對(duì)于結(jié)構(gòu)化數(shù)據(jù)的訪問和管理,少部分結(jié)構(gòu)化數(shù)據(jù)存放在傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)MySQL中,大存儲(chǔ)量可應(yīng)用分布式列存儲(chǔ)數(shù)據(jù)庫(kù)HBase來完成。為了加快數(shù)據(jù)處理速度,還可以引入高性能Redis數(shù)據(jù)庫(kù)用于存儲(chǔ)內(nèi)存數(shù)據(jù)。
情報(bào)數(shù)據(jù)分析和挖掘是科技情報(bào)研究的核心工作,通過對(duì)采集到的情報(bào)數(shù)據(jù)進(jìn)行科學(xué)分析,建立數(shù)據(jù)間相關(guān)性,梳理情報(bào)數(shù)據(jù)的脈絡(luò),挖掘潛在情報(bào)信息,最終形成高價(jià)值的情報(bào)研究報(bào)告。在以往科技情報(bào)研究工作中,情報(bào)人員需要對(duì)情報(bào)數(shù)據(jù)進(jìn)行分析處理,然后結(jié)合自身的經(jīng)驗(yàn)積累,進(jìn)行綜合分析,最終形成專題報(bào)告。由于數(shù)據(jù)量不充足,情報(bào)數(shù)據(jù)分析和處理的往往停留在初步分析和淺層挖掘,同時(shí),受情報(bào)人員知識(shí)素養(yǎng)的主觀因素影響,形成的研究結(jié)果的客觀性和綜合性還有待加強(qiáng)。
在情報(bào)數(shù)據(jù)分析和挖掘過程中,大數(shù)據(jù)技術(shù)中自然語言處理、信息關(guān)聯(lián)、智能分析等相關(guān)技術(shù),采用定量的科學(xué)分析方法,通過構(gòu)建知識(shí)圖譜、建立學(xué)習(xí)模型,結(jié)合數(shù)理統(tǒng)計(jì)的理論,模擬專家思維過程,實(shí)現(xiàn)對(duì)情報(bào)數(shù)據(jù)的關(guān)聯(lián)分析和深度挖掘。而大數(shù)據(jù)技術(shù)中數(shù)據(jù)融合算法可將多源異構(gòu)數(shù)據(jù)進(jìn)行融合,運(yùn)用社會(huì)網(wǎng)絡(luò)分析法、機(jī)器學(xué)習(xí)等技術(shù)對(duì)情報(bào)數(shù)據(jù)進(jìn)行分析建模,反映情報(bào)數(shù)據(jù)的脈絡(luò),推斷情報(bào)數(shù)據(jù)的規(guī)律和發(fā)展趨勢(shì)。
科技情報(bào)研究工作最終要形成對(duì)特定技術(shù)領(lǐng)域相關(guān)技術(shù)情報(bào)工作的研究報(bào)告,而數(shù)據(jù)展示可以將研究報(bào)告的關(guān)鍵指標(biāo)數(shù)據(jù)以圖形化形式直觀的表達(dá)出來,讓用戶能迅速掌握情報(bào)研究報(bào)告的核心內(nèi)容。以往的科技情報(bào)研究工作,可通過常規(guī)圖表繪制形式對(duì)研究結(jié)果進(jìn)行展示。隨著互聯(lián)網(wǎng)上科技情報(bào)數(shù)據(jù)量的猛增,研究報(bào)告中的數(shù)據(jù)集也相應(yīng)增長(zhǎng),常規(guī)圖表難以支撐大批量的報(bào)告數(shù)據(jù)的展示。而大數(shù)據(jù)技術(shù)中數(shù)據(jù)可視化技術(shù),可對(duì)復(fù)雜多元的報(bào)告數(shù)據(jù)在很短的時(shí)間內(nèi)實(shí)現(xiàn)從抽象到可視化結(jié)構(gòu)的映射,通過數(shù)據(jù)聚合等操作,可以實(shí)現(xiàn)多種數(shù)據(jù)檢索方式,實(shí)現(xiàn)情報(bào)數(shù)據(jù)自定義范圍的可視化展示。
在提供決策支持方面,大數(shù)據(jù)技術(shù)支持對(duì)情報(bào)數(shù)據(jù)的動(dòng)態(tài)跟蹤,對(duì)情報(bào)數(shù)據(jù)進(jìn)行實(shí)時(shí)統(tǒng)計(jì),通過定量分析與建設(shè)的方法,描繪情報(bào)數(shù)據(jù)的形成軌跡和趨勢(shì)走向圖,進(jìn)行科學(xué)可靠的預(yù)測(cè),為決策層提供數(shù)據(jù)支撐。
由于科研任務(wù)繁重,科技情報(bào)研究的日常工作中經(jīng)常會(huì)承擔(dān)臨時(shí)性任務(wù),通常要求在短時(shí)間內(nèi)要形成情報(bào)研究報(bào)告,這使得科技情報(bào)工作容易處于需求牽引的被動(dòng)狀態(tài),不能開展前瞻性、主動(dòng)性的情報(bào)研究,長(zhǎng)期下去容易導(dǎo)致情報(bào)研究工作的價(jià)值不能有效發(fā)揮。因此有必要轉(zhuǎn)變服務(wù)理念,創(chuàng)新情報(bào)研究工作模式,從被動(dòng)的接受需求轉(zhuǎn)變?yōu)橹鲃?dòng)推送信息服務(wù),通過深挖頂層需求,選取關(guān)鍵技術(shù)領(lǐng)域進(jìn)行長(zhǎng)期、主動(dòng)的跟蹤和積累,形成多元化情報(bào)研究成果,提供具有精準(zhǔn)性、創(chuàng)新性、前沿性的信息服務(wù),充分發(fā)揮科技情報(bào)對(duì)戰(zhàn)略決策及科研創(chuàng)新的牽引和支撐作用。
在以往的科技情報(bào)研究工作中,由于缺乏有效的資源共享機(jī)制,情報(bào)研究工作的相關(guān)資料和研究報(bào)告還是處于分散管理的狀態(tài),無法及時(shí)有效的傳遞已有信息資源,這會(huì)導(dǎo)致科技情報(bào)研究工作重復(fù)、耗時(shí)費(fèi)力、效率較低,造成了信息資源的浪費(fèi)。因此,有必要整合已有信息資源,建立科技情報(bào)信息資源共享平臺(tái),通過搭建數(shù)據(jù)服務(wù)中心實(shí)現(xiàn)不同技術(shù)領(lǐng)域資源統(tǒng)一歸口管理,如專題資源庫(kù),動(dòng)態(tài)資訊庫(kù)等,確保情報(bào)資源的充分利用和深度共享。
大數(shù)據(jù)技術(shù)背景下,容易獲取數(shù)據(jù),另一方面也容易被獲取數(shù)據(jù)。在科技情報(bào)研究工作中要重點(diǎn)從技術(shù)防范上入手,深度學(xué)習(xí)和應(yīng)用大數(shù)據(jù)各方面技術(shù),比如通過應(yīng)用“反爬蟲”技術(shù)來防止技術(shù)數(shù)據(jù)被竊取。從物理安全和技術(shù)安全兩方面保障研究工作的開展,在安全保密的基礎(chǔ)上形成資源共享的信息安全環(huán)境。