范家瑋
信息時代的發(fā)展日新月異,網(wǎng)絡化、信息化、數(shù)字化使得數(shù)據(jù)泛濫,信息爆炸。在此社會背景下,開源情報的搜集、加工、開發(fā)和生產(chǎn)充斥著各式各樣的挑戰(zhàn),開源情報在互聯(lián)網(wǎng)發(fā)展的催化下面臨著轉型升級。
2018 年 5 月,美國蘭德公司發(fā)布的《定義國防事業(yè)第二代開源情報》報告(以下簡稱為“報告”)中提到了對第三代開源情報的展望。距報告發(fā)布已五年,信息技術的發(fā)展是否為人類開啟了第三代開源情報?本文試通過文獻解讀和特點分析法,從到來的時間節(jié)點、聚焦的情報流程以及與私營高科技公司合作的趨勢,判斷第三代開源情報時代尚未到來,但報告中對第三代開源情報的描述與展望值得思考。
定義第三代開源情報的時間節(jié)點報告提出第三代開源情報的起始點為2016年或2020年,但這兩個時間點均尚早。
從Web 3.0的發(fā)展趨勢來看,報告中指出,“正如從Web 1.0過渡到Web 2.0使得成指數(shù)級增加的用戶所生成的數(shù)據(jù)可以解析和分析其特定特征,過渡到Web 3.0,機器學習和自然語言處理將占主導地位,這已經(jīng)提高了智能數(shù)據(jù)分類、翻譯和分析方法的效率”,“第二代OSINT的發(fā)展在很大程度上是因為Web 2.0——互聯(lián)網(wǎng)上下文向動態(tài)網(wǎng)頁和用戶生成內容的轉變。然而,十多年來,技術專家一直在談論向Web 3.0的演變—‘語義Web’——它將包括直接和間接的數(shù)據(jù)機器處理、機器學習和自動推理”??梢钥闯?,第二代開源情報的發(fā)展基于Web 2.0,那么對第三代開源情報的展望應基于Web 3.0。
學界對于Web 3.0是否真的已經(jīng)到來仍存在疑問。2022年,杜雨和張孜銘主持撰寫的《Web3.0 :賦能數(shù)字經(jīng)濟新時代》出版,該書介紹了互聯(lián)網(wǎng)發(fā)展的全景以及Web 3.0的現(xiàn)狀。實際上,Web 3.0的含義長時間處于變化的狀態(tài):在區(qū)塊鏈技術沒有誕生之前,Web 3.0通常指“語義網(wǎng)”,萬維網(wǎng)之父蒂姆·伯納斯·李提出該概念時對其的認識就是更為智能的互聯(lián)網(wǎng);隨著區(qū)塊鏈技術的出現(xiàn)和發(fā)展,區(qū)塊鏈已經(jīng)成為Web 3.0的底層技術,美國一家私人風險投資公司Andreessen Horowitz(a16z)認為“我們正在跨入Web 3.0的黃金期。底層的區(qū)塊鏈技術已相當先進,各種應用程序的用戶數(shù)量動輒以千萬計”。
誠然,縱觀現(xiàn)代互聯(lián)網(wǎng)實踐,Web 3.0的發(fā)展日益顯著,但用戶與平臺之間仍處于不平等狀態(tài)。平臺掌握大量流量資源和數(shù)據(jù),用戶是被分發(fā)的對象,消耗個人時間和金錢,貢獻數(shù)據(jù)給商家平臺,并沒有實現(xiàn)Web 3.0暢想的去中心化互聯(lián)網(wǎng)環(huán)境。這一“運行在區(qū)塊鏈技術上的去中心化”本質特征未能實現(xiàn),也證明第三代網(wǎng)絡并未真正到來。開源情報仍更多在Web 2.0環(huán)境中向前探索,仍保持第二代開源情報的特征,因此推斷在2016年或者2020年迎來第三代開源情報為時尚早。
從人工智能的發(fā)展現(xiàn)狀來看,近年來,機器學習、自然語言處理、自動推理、大數(shù)據(jù)等人工智能技術蓬勃發(fā)展。美國認為人工智能將開辟開源情報的未來。
區(qū)塊鏈被認為是Web3.0的底層技術
2017 年,美國中央情報局(Central Intelligence Agency,CIA)負責科學與技術的副局長在華盛頓舉行的情報和國家安全峰會上稱,CIA與人工智能直接相關的試點項目至少有137個。2018年,美國防部在首席信息官下設聯(lián)合人工智能中心(Joint Artificial Intelligence Center,JAIC),并開發(fā)典型情報領域人工智能系統(tǒng)。2019年,美國家情報總監(jiān)辦公室(Office of the Director of National Intelligence,ODNI)發(fā)布《國家情報戰(zhàn)略》,重點分析了人工智能、自動化等新興技術給情報界帶來的機遇與挑戰(zhàn)。2020年4月,美戰(zhàn)略與國際研究中心(Center for Strategic and International Studies,CSIS)成立技術與情報工作組,研究發(fā)布了《分析優(yōu)勢:利用新興技術來轉變情報分析》等報告,重點探討了新興技術對美國情報界的影響和應用。依據(jù)《2020 年國家人工智能計劃法案》,2021年1月12日,美國白宮科學技術政策辦公室(OSTP)宣布成立國家人工智能計劃辦公室(National Artificial Intelligence Initiative Office,NAIIO)。該辦公室將成為聯(lián)邦政府協(xié)調和溝通美國各界AI研究和決策的中心樞紐,確保美國未來數(shù)年內在 AI 這一關鍵領域的領導地位。此外,美國人工智能國家安全委員會提出了關于2025年前促進情報領域人工智能發(fā)展的建議:強化情報界對科技的領導力,制定并實施必要的通用技術標準和政策,以便在整個情報界快速擴展支持人工智能的應用程序。
綜上,美國正在發(fā)展人工智能技術并力圖將其廣泛用于情報領域,也提出了2025年目標。美國情報界同樣致力于利用人工智能技術優(yōu)化開源情報流程,確保美國開源情報優(yōu)勢。
從美國開源情報工作實踐來看,在2005年之后的時間里,美國開源情報實踐面臨的諸多問題中,判斷是否已經(jīng)迎來第三代開源情報,一些明顯問題是否解決是很重要的評判依據(jù)。
第一代、第二代、第三代開源情報的特點
蘭德公司報告提出,“隨著加密技術成為主流,它為情報機構帶來了新的定義問題。對潛在情報價值的信息進行解密通常屬于國家情報局及其下屬信號情報機構權限范圍,然而,傳統(tǒng)上政府機構是加密技術的使用者。如果用戶提供的信息目前被認為是開源情報所使用的加密,那么情報機構現(xiàn)在會考慮信息的信號情報特征,并將責任轉移到國家情報局嗎?”近些年,一些外部觀察人士支持建立一個除現(xiàn)有開源中心之外,完全在情報機構之外的開源機構,目標是不僅向情報分析師也向包括國會委員在內的聯(lián)邦政府所有部門提供開源信息。不過這也是一個設想,并未付諸實踐。2005年國家情報總監(jiān)開源中心成立,而現(xiàn)如今并沒有一家同樣具有劃時代意義的專門致力于開源情報的新機構成立。此外,由于互聯(lián)網(wǎng)提供了海量的開源信息,需要有效的分析方法,從泛濫的信息中提取出真正有價值的情報。據(jù)悉,美陸軍情報和保密司令部意圖能夠匿名掃描多達40個國家以及66種語言的社會媒體平臺和開源信息,而且陸軍希望能從智能手機上實現(xiàn)這一點。從國土安全部到國防高級研究計劃局等機構都希望運用智能處理技術來面對龐大的數(shù)據(jù)規(guī)模和種類繁多的語言。
國家人工智能計劃辦公室標志
顯然當前狀況還不能夠很好地滿足需要,美國正努力發(fā)展并試圖廣泛應用新興技術。美國東部時間2022年7月27日9時,華爾街日報發(fā)布新聞稱開源情報基金會(OSINT Foundation)成立,該組織的高層人員和咨詢委員會成員都曾在政府機構任職,均有30多年的情報行業(yè)工作經(jīng)驗。目前其在俄烏問題上給予美國情報支援,而組織的根本目的是通過加深對開源情報的理解和認識、支持該領域就業(yè)機會和分享其使用的最佳標準來支持美國家安全。以上系列開源情報工作實踐表明,美國正在發(fā)展其開源情報能力,意圖將其規(guī)范化、廣泛化,但是并未形成第三代開源情報暢想的局面。可以肯定的是這些量的積累必定能在不長的時間里實現(xiàn)開源情報的第三代轉型。
綜上三方面的原因,第三代開源情報并未到來,但開源情報正在以可觀的速度向前發(fā)展。第三代開源情報的發(fā)展應處于Web 3.0環(huán)境——一個更加平等、隱私保護化、去中心化的網(wǎng)絡世界;同時人工智能技術應更廣泛和有效地應用于開源情報工作。第三代開源情報并非完全替代第二代開源情報,二者可以平行發(fā)展,然而在豐富的開源情報實踐中可以預料,第三代開源情報或將以更加突破性的優(yōu)勢勝出。
第三代開源情報聚焦的情報流程蘭德公司在報告中以問號形式提出第三代開源情報或將聚焦開源情報的搜集和分發(fā)。這是基于對未來互聯(lián)網(wǎng)發(fā)展特征的判斷而得出的合理預測。
隨著Web3.0的來臨,網(wǎng)絡數(shù)據(jù)本身依托于開放的數(shù)學算法與協(xié)議,不依賴機構和個人。使用者或創(chuàng)作者對自己貢獻的內容有所有權和收益權,用戶能清楚知道這些數(shù)據(jù)的用途,并且具有決策權。這樣的去中心化互聯(lián)網(wǎng)能夠讓用戶平等使用互聯(lián)網(wǎng)并實現(xiàn)隱私保護。對于這樣的網(wǎng)絡特點,無疑給開源情報工作人員帶來了挑戰(zhàn),主要集中在海量數(shù)據(jù)的抽取和加密技術下的信息訪問兩方面。反觀人工智能新興技術的發(fā)展,機器學習、自動推理技術、可視化技術、密碼技術等成為應對第三代互聯(lián)網(wǎng)難題的重要工具。上述風險與應對工具在開源情報流程的搜集和分發(fā)階段體現(xiàn)的更為明顯。
面對虛擬的互聯(lián)網(wǎng)空間,開源情報需要從龐大的原始數(shù)據(jù)中提取需要的信息。普通的檢索功能不再滿足需求,當下的開源情報工作需要更精準的信息檢索。正如報告中強調的,利用機器學習這項前沿技術搭建篩選平臺,構建知識庫從而實現(xiàn)自動化檢索和高效信息抓取有助于搜集工作。通過對機器的反復訓練,機器學習更加深入有效,對原始數(shù)據(jù)的篩選和所需信息的分類將會更加精準。依此技術來幫助情報人員完成原始數(shù)據(jù)的篩選、分類、抽取工作。
開源情報基金會標志
報告提出“隨著加密軟件變得日益普及、易于訪問和更加強大,加密也可能成為第三代開源情報更為普遍的特性”,這要求開源情報工作應該設法在搜集工作中使用先進的破密手段,以獲取更多有價值數(shù)據(jù)源的訪問權。分發(fā)階段同樣面臨難題:如何將開源情報按需要分類、定級傳報給相應的用戶;如何利用情報共享通道將開源情報安全便捷地分發(fā)給用戶。機器學習可以智能推送與該情報用戶關聯(lián)度高的情報產(chǎn)品,并為不同的用戶群體確認情報產(chǎn)品的優(yōu)先等級。依靠自動推理技術、密碼技術選取個人定制的情報產(chǎn)品通過認證、授權、管理(分類管理和密碼管理)、備份、校驗等工作確保數(shù)據(jù)傳輸?shù)陌踩?。同樣報告中提到,可視化情報產(chǎn)品的出現(xiàn)能夠更好地傳遞情報分析人員的意圖,也更能直觀理解目標的相關信息,從而輔助決策。
基于網(wǎng)絡發(fā)展的特性和人工智能前沿技術的發(fā)展,為了應對此類風險與挑戰(zhàn),第三代開源情報應聚焦情報的搜集和分發(fā),從而實現(xiàn)人工智能在情報領域的有效利用,化解去中心化網(wǎng)絡帶來的問題。
私營科技公司助力第三代開源情報蘭德公司報告表明,情報界通常使用商業(yè)成品工具進行開源情報分析。然而這些商業(yè)成品工具大多以商業(yè)目的(如廣告、消費者喜好、需求等)開發(fā)而成,并不完全符合情報界對開源情報分析的需求。同時,這些商業(yè)成品工具以及生產(chǎn)這些工具的公司一直處于動態(tài),社交媒體的分析技術也是與時俱進,快速發(fā)展的,因此情報界對于這些工具的使用容易過時。正是這樣動態(tài)的市場環(huán)境,給開源情報分析帶來了許多問題??稍L問的數(shù)據(jù)可能會被公司限制或者刪除,比如當一家公司有能力生產(chǎn)出新興社交媒體分析技術并將其本土化時,他們將會傾向于限制或者刪除數(shù)據(jù)源,從而削弱其他數(shù)據(jù)訪問者的競爭力。這種情況使得開源情報分析人員對數(shù)據(jù)的獲取受到訪問權的限制。
在未來,開源情報的價值將更加突出,對于決策的輔助作用也日益顯著。基于此,面對復雜的網(wǎng)絡環(huán)境和分析技術,報告提到在理想情況下,情報界將數(shù)據(jù)源和分析平臺轉移到分類系統(tǒng),在引入一個分類系統(tǒng)之前,應充分了解機構及其平臺,并建立起可信關系,縮短審查時間。如果情報界選擇開發(fā)本地工具將伴隨著高昂的代價。這啟示其他國家第三代開源情報分析處理工作應采取公私合作的方式,通過簽訂合同建立聯(lián)系,改變現(xiàn)狀。實際上,已經(jīng)有許多私營部門逐漸發(fā)展成美國情報界技術和咨詢服務的供應商,他們?yōu)槊绹婈犔峁┣閳笏鸭⑶閳蠓治?、情報預測、風險評估、自動化數(shù)據(jù)庫系統(tǒng)技術等服務。結合當前發(fā)展趨勢,加強國家開源情報能力與高科技企業(yè)的聯(lián)合,在保證信息安全的基礎上,充分發(fā)揮民間高科技成果的優(yōu)勢,促進國家開源情報的高效、安全、智能發(fā)展。報告中提到的眾多人工智能技術,如自然語言處理技術、自動推理、智能識別技術、機器學習技術等都應該與開源情報融合,成為情報工作所匹配的工具,幫助開源情報實現(xiàn)新發(fā)展。
培養(yǎng)開源情報分析專業(yè)化人才可以預見,未來的開源情報從搜集到分發(fā)早已區(qū)別于傳統(tǒng)的開源情報工作方法,互聯(lián)網(wǎng)加密技術的進步加之人工智能技術的發(fā)展,讓開源情報工作不再簡單。我們需要專業(yè)的情報分析人才來應對時代的發(fā)展。
首先要求情報分析人員有高度的政治意識和對于情報的敏銳度,要能夠從海量的數(shù)據(jù)中清楚知道匹配用戶需求的相關信息,只有確定正確的搜集方向,才能給技術平臺更清晰、準確的分類指示。
其次要求情報分析人員對于計算機網(wǎng)絡的操作技術專業(yè)化。新興的人工智能技術可以助力情報分析工作,自然語言處理技術、機器學習技術、密碼破譯技術、可視化技術等都需要專業(yè)人員才能更有效地使用。此外還需要多語種人才,需要培養(yǎng)他們的翻譯和編譯能力,從而更準確地在不同語境下正確識別、驗證信息的含義,確定情報的價值。
聚焦開源情報流程的重點環(huán)節(jié)第三代開源情報受網(wǎng)絡環(huán)境和人工智能技術的影響,將聚焦情報的搜集和分發(fā)環(huán)節(jié)。
首先,不論搜集還是分發(fā),都必須注意密碼技術的發(fā)展和運用。它幫助開源搜集工作獲取更多的數(shù)據(jù)源,同時做好分類管理、密碼管理、數(shù)據(jù)備份等工作,在安全的網(wǎng)絡渠道中共享開源情報。
其次,應該建立安全完善的情報分發(fā)機制,利用人工智能技術為情報產(chǎn)品確定優(yōu)先等級和類別,按照情報用戶的層級和需要,個性化、針對性地分發(fā)開源情報產(chǎn)品。
最后,應該創(chuàng)新情報產(chǎn)品的形式。社交媒體信息內容豐富多樣,結構化和非結構化數(shù)據(jù)錯綜復雜,在搜集階段,情報人員需要將這些復雜的信息以能夠被用戶接受的方式表達出來,而傳統(tǒng)的文字形式不能夠完全滿足用戶對于情報最直觀的把握和理解。因此,將復雜的信息以圖片、視頻等可視化形式呈現(xiàn)出來,有助于情報人員與用戶之間的互動,也有助于用戶與情報產(chǎn)品之間的互動,從而更加準確理解情報,輔助決策。
發(fā)展人工智能技術,落實人工智能技術與開源情報的融合發(fā)展首先,堅決落實創(chuàng)新驅動發(fā)展戰(zhàn)略。打牢基礎能力,高度重視計算機網(wǎng)絡技術的建設,以及數(shù)據(jù)分析和算法的能力創(chuàng)新。美國認為其需要掌握人工智能的絕對優(yōu)勢,并實現(xiàn)情報界對科技的領導,制定規(guī)范化的標準,在開源情報領域廣泛使用人工智能技術。美國情報界對機器學習、自動推理、自然語言處理技術的應用和研究逐漸深入,其他國家也應該借鑒,通過深度學習和機器訓練,發(fā)展智能識別系統(tǒng)、機器學習和自然語言處理技術,促進開源情報的獲取、識別、分析和使用。
人工智能技術可能給開源情報的發(fā)展帶來變革
其次,為了將人工智能技術與開源情報更好地融合發(fā)展,應結合民間高科技企業(yè)對人工智能投入資金、人才和先進的管理理念,促進公司科技產(chǎn)品的研發(fā)與完善。軍隊可以與這類企業(yè)簽訂相關協(xié)議,建立互信,直接將成熟的技術應用于情報分析,或者向協(xié)議企業(yè)提出情報分析技術需求,企業(yè)接單進行研發(fā)。這樣的模式將國家戰(zhàn)略的支持、持續(xù)的需求和先進的技術結合起來,能夠很好地滿足國家開源情報的發(fā)展需要。
本文以《定義國防事業(yè)第二代開源情報》報告中對第三代開源情報的展望為研究對象,結合對Web 3.0、人工智能、美國開源情報工作實踐的理解,反駁了報告中設想第三代開源情報到來的時間點問題;同時認同第三代開源情報將聚焦在情報的搜集和分發(fā)這兩個階段的觀點;也提出了第三代開源情報將在民間高科技企業(yè)的技術優(yōu)勢助力下實現(xiàn)新發(fā)展的看法。隨后,結合整篇報告和個人思考,提出了對開源情報工作發(fā)展的建議。應該結合國情,在維護國家安全的基礎上,廣泛培養(yǎng)和收納情報分析專業(yè)技術人才,力求人才的多層次多方面發(fā)展;以新興技術為導向,聚焦情報流程關鍵環(huán)節(jié);實施融合發(fā)展,讓人工智能技術為情報服務。
美國情報界已經(jīng)將眼光展望到了第三代開源情報,增強研發(fā)人工智能等新興技術的能力,滿足開源情報領域的情報需求,從而實現(xiàn)其在情報領域的主導。