肖恩·漢密爾頓 邁克爾·克魯澤
當今,“大數(shù)據(jù)”是媒體和政府大量討論的話題。大數(shù)據(jù)與人工智能結合,被形容成是一個減少分析中人類作用的“快捷按鈕”。有些人將此看作是對民主秩序的潛在威脅,其他人則將此看作是大肆的炒作,并沒有展示出什么驚天動地的效果。大數(shù)據(jù)是什么?為什么大數(shù)據(jù)對未來的情報界(IC)和聯(lián)合軍事行動必不可少?
顧名思義,大數(shù)據(jù)歸根到底是有關搜集、儲存和處理大量數(shù)據(jù)和信息。大數(shù)據(jù)一詞最早出現(xiàn)在21世紀初期,當時工業(yè)分析師道格·萊尼對大數(shù)據(jù)的定義,因3個被冠以“V”的主要因素而有別于此前的模型。
信息時代使人們能以空前的規(guī)模,獲取和儲存能夠被保存并定期提取和分析的數(shù)據(jù)和信息。以前大多數(shù)供分析的數(shù)據(jù)庫能在單一的、行數(shù)從數(shù)十到數(shù)十萬不等的數(shù)據(jù)庫中獲取(例如微軟的Excel數(shù)據(jù)庫)。大數(shù)據(jù)能使人們搜集百萬計到百億計的數(shù)據(jù)點。
以前所未有的速度獲取的大量數(shù)據(jù)和信息必須要立即處理。例如,推特2013年每天收到5億個更新(推文),每個推文組成1個單一的信息數(shù)據(jù)點。
數(shù)據(jù)和信息以多種格式來自多種來源。過去,需要信息的分析人員或機構能影響搜集什么信息,以及信息如何儲存,但現(xiàn)今量和速的結合,需要建立以數(shù)據(jù)獲取形式對數(shù)據(jù)進行管理和整合的系統(tǒng),范圍從一個圖像到一個推特或臉書輸入,到一個對話或演講的文字稿。
隨著人們對大數(shù)據(jù)意識的增強,今天很多學者將其他方面,諸如易變性和復雜性,添加到這3個V中。在美國空軍,以及其他機構,加入了第4個V。
經(jīng)由大數(shù)據(jù)可以提取的數(shù)據(jù)的量、速和多樣性,包括有關問題集的相當多的謠傳和無關數(shù)據(jù)。這產(chǎn)生了數(shù)據(jù)分析中的可能異常,為在選擇什么數(shù)據(jù)重要,以及如何分析數(shù)據(jù)上打開了分析的偏見大門。大數(shù)據(jù)策略必須包括保持數(shù)據(jù)“清潔”的過程,以及對大數(shù)據(jù)工作危害的分析意識。
大數(shù)據(jù)因3個被冠以“V”(量、速、多樣性)的主要因素而有別于此前的模型
關于大數(shù)據(jù)的潛力與炒作的辯論,主要源于對大數(shù)據(jù)和大數(shù)據(jù)分析的誤解。事實上,大數(shù)據(jù)并不消除數(shù)據(jù)搜集和數(shù)據(jù)分析的傳統(tǒng)挑戰(zhàn)。但它的確從根本上重塑問題出現(xiàn)在哪里,以及如何出現(xiàn)的看法。復雜的算法執(zhí)行許多這些功能,便于大數(shù)據(jù)的解析,但是那些算法,即使受到機器學習的推動,也必須由人類編程,為回答預選設定的問題定制。這意味著,大數(shù)據(jù)仍然會受到搜集、展示和分析的偏見,對此,分析人員必須要敏銳地意識到。大數(shù)據(jù)使人們能獲得巨量增加的數(shù)據(jù)點,便于對更多數(shù)據(jù)點進行更快分析,但是糟糕的大數(shù)據(jù)分析不能改變分析的質量。
信息革命對美國空軍情報核心能力的影響(搜集、分析、目標和整合),一開始集中在搜集,其次是側重在威脅和目標分析上。由于全球一體化的情監(jiān)偵使近實時的利用成為可能,可以利用的采集器和傳感器大幅增加。同時,作戰(zhàn)要求改變了對近實時威脅和目標的分析,以便進入到敵手的包以德(OODA)循環(huán)圈。在資源受限,近期幾乎沒有跡象顯著增加人力的時代,改變情報生產(chǎn),滿足今天的作戰(zhàn)要求,可能不會來自對搜集或分析的進一步革命化。
今天,即使在情報界內(nèi)部,數(shù)據(jù)和信息搜集的數(shù)量、速度和種類已經(jīng)發(fā)展到如此程度,分析人員已無法再充分地篩選搜集到的所有東西,如果沒有計算機程序和自動處理的幫助,甚至不能充分地儲存,更不用說分析所有的數(shù)據(jù)和信息。此外,網(wǎng)絡時代的到來,改變了從公開來源搜集的性質,使開源分析從信息來源之一發(fā)展到協(xié)助分析,又發(fā)展到其本身成為一門獨立的情報學科—公開來源情報(OSINT)—擁有圍繞著搜集、分析和生產(chǎn)的全套行業(yè)知識技能、管理和法律問題。未來在于數(shù)據(jù)管理和情報的策劃,促進以問題為中心—而不是以需要為中心的—美國空軍情報。情報生產(chǎn)的工業(yè)時代模型已無法跟上信息環(huán)境的步伐。正如美國國家地理空間情報局長羅伯特·卡爾迪洛2018年早些時候所指出的,“如果我們試圖以人工利用我們預計在未來20年內(nèi)獲得的商業(yè)衛(wèi)星圖像,將需要800萬圖像分析員。即使現(xiàn)在,每天僅1個戰(zhàn)區(qū)的1個傳感器,搜集的數(shù)據(jù)相當于3個美國國家足球聯(lián)盟賽季全部比賽場次的數(shù)據(jù)。而且是高清晰度!”分析人員有著比以往任何時候更多的途徑獲取信息、更多的工具供他們搜集信息使用,以填補知識的空白。授權那些分析人員來影響指揮官對已知的、已評估的和未知的情況有所了解,并且影響回答其余情報問題的合適工具集,才是在正確的時間把正確的信息向正確的決策者送達的途徑。靈活性和多樣性必須要以應用于進攻性空中作戰(zhàn)的相同方式,應用于計劃和實施基于效果的情監(jiān)偵活動。
或許沒有任何一個例子能比作為一個真正的情報學科的OSINT的創(chuàng)立更能說明關于大數(shù)據(jù)4個V的搜集突變。在談到OSINT是一種新學科時,很多冷戰(zhàn)時代的分析人士會警告,“不,我們一直有OSINT,中央情報局(CIA)的開源中心就是例證。”的確,數(shù)10年來通常引用的一個經(jīng)驗法則—追溯到當年的CIA局長艾倫·杜勒斯—是超過80%的情報分析最終源于公開來源。這一切全都是真的,但在學科上被定性為開源信息會更好。OSINT作為一種情報學科跟互聯(lián)網(wǎng)和社交媒體的擴散直接相連,而且隨著這種擴散,需要開發(fā)新的信息搜索和發(fā)現(xiàn)的行業(yè)技能,確保保護公民權利和保障信息安全的相關法律和法令的監(jiān)督,以及程序的管理能被IC所遵守。沒有大數(shù)據(jù)的解析方案,分析人員就不可能篩選可以利用的數(shù)10億的數(shù)據(jù)點(量、多樣性和速),辨識有關的和無關的數(shù)據(jù)段(真實性),保障公民的權利,遵守其他適用的法律和規(guī)定,發(fā)現(xiàn)相關的情報洞察,滿足客戶的需要。
信息革命產(chǎn)生了新的共享網(wǎng)上文化,很多人將其特征形容為過度共享。對IC的好處是,通過推特、臉書、色拉布、博客和多種尚未發(fā)明的社交媒體網(wǎng)站,情報機構能進入全球數(shù)千萬被動的搜集器。在1990年代,分析人員面對的一種前景是,在他們有時間完成情報的評估周期之前,戰(zhàn)場損失評估可能已在有線電視線新聞網(wǎng)CNN和推特上做了。學術研究和情報分析現(xiàn)在依靠心態(tài)分析,事實上,依靠推特上一個錯綜復雜和可定制的“趨勢”版本,來判斷公眾的情緒,以此為依據(jù)預測未來可能發(fā)生的活動(國內(nèi)動亂等)。
在大多數(shù)大數(shù)據(jù)的商用討論中,速度側重在信息如何迅速獲取上。對于情報行動來說,速度也同樣適用于操作員、指揮官和其他決策者將要求如何迅速獲取情報輸出來推進行動。打擊“伊斯蘭國”的行動,對美國來說主要是一場以空中行動為中心的戰(zhàn)役,強調(diào)慎重的和動態(tài)的目標定位,孤立和削減一個固定基礎設施有限的原始狀態(tài)的國家,其人員隨時準備混跡于人群中來防御打擊。這種結合,以及最大程度地降低附帶損毀風險的必要性,不可避免地增加了對情監(jiān)偵的需求。這包括發(fā)現(xiàn)并描述目標,維持對潛在目標地點的監(jiān)視,了解民眾的生活習性。盟軍空中組成部隊指揮官小查爾斯Q·布朗中將在2016年5月明確地指出了這一點。他說,“因為這幫助我要做的是開發(fā)目標,以便我們在開發(fā)那些目標的同時實施打擊。我的情監(jiān)偵越多,我就能最大限度降低平民傷亡的風險,繼續(xù)我們的精準空中行動。”
恐怖組織通過互聯(lián)網(wǎng)招募人員對西方安全構成了重大挑戰(zhàn)
這種情況有更多的量和時間的特征,因為具有信息價值的時間,在一個動態(tài)的打擊中轉瞬即逝,尤其是在跟一個更傳統(tǒng)的目標比較時,如機場、指揮碉堡,或一個通訊網(wǎng)絡的一個部分。動態(tài)目標信息的近實時性質,以及其在交戰(zhàn)/作戰(zhàn)結束階段的關鍵作用,使很多觀察人員認定,今天要實時瞄準目標更容易些,但實際上,這代表了協(xié)助打擊的情報冰山的一角。盟軍需要一個全球同步的分析網(wǎng)絡,迅速融合圖像,電子攔截,以及消息人員提供的線索,來提示潛在的打擊目標。全球一體化的情監(jiān)偵,通過及時地獲取更多搜集,為這些網(wǎng)絡提供便利,但卻附帶很大程度上的真實性問題。與此同時,這種系統(tǒng)還同時受到擔心平民傷亡的人權組織越來越多的批評,以及力主更多傳統(tǒng)空中行動倡導者越來越多的批評,認為被打擊的目標總數(shù),即使按照最近行動的標準衡量也不夠。必須要面對分布作戰(zhàn),分析質量控制,以及數(shù)據(jù)集的管理之類的復雜管理問題,以便能讓情監(jiān)偵界和實時操作的操作員全面視覺了解目標發(fā)展的動態(tài)。
伊拉克和敘利亞的“伊斯蘭國”經(jīng)常通過所謂的數(shù)字哈里發(fā)來吸引“孤狼”恐怖主義,這凸顯出互聯(lián)網(wǎng)對西方安全構成的挑戰(zhàn)。在此之前,像4chan/“匿名者”那樣的網(wǎng)絡團體,利用網(wǎng)上鏈接組建信息共享的無政府主義社區(qū),最終助長了對一些問題的集體行動。由于美國軍方情報機構歷來把常規(guī)軍事優(yōu)勢看作是其使命的核心,在信息時代,對國家安全來說,作為作戰(zhàn)區(qū)的武器化的宣傳正在迅速成為焦點。了解信息時代的威脅環(huán)境,只有獲取并有效地利用大數(shù)據(jù)解決方案,才是可能的。雖然對抗這種挑戰(zhàn)的責任可能最終會落在非國防部機構上,如國務院,美國空軍的使命要求網(wǎng)絡領域的感知和防御。有鑒于此,美國空軍情報分析人員必須置身于分析和發(fā)現(xiàn)網(wǎng)絡領域威脅的前沿。過去10年的反恐和反叛亂行動,使美國空軍情報分析人員精通監(jiān)控和評估沖突區(qū)的恐怖分子網(wǎng)絡,尤其是在伊拉克,伊拉克的基地組織和阿富汗與塔利班有關聯(lián)組織的情況一樣。不過,網(wǎng)絡團體代表不尋常的挑戰(zhàn)。網(wǎng)絡團體缺少一個中心的指揮結構,他們基本上通過網(wǎng)上的社區(qū)規(guī)范和價值觀行動。他們的會員身份公開,沒有正式的招募或保留機制,而且他們的戰(zhàn)略策劃微乎其微。大多數(shù)人趨向于抵制任何人以他們組織的領袖或代言人出現(xiàn);有影響的人物可能會在有限的階段出現(xiàn),但他們公開和多樣性會員身份的性質,阻止任何人在較長一段時間拋頭露面,而沒有分裂該組織。小一點的社區(qū),因為具有相同意識形態(tài)的成員有限,可能會制定更強大的內(nèi)部等級,但這限制較大團體的全球觸角和影響。
正如敵手能使用網(wǎng)絡領域施加影響,實施行動一樣,他們能使用網(wǎng)絡攻擊工具來挫敗情報并且放大他們的信息。一個最顯著的工具就是使用機器人;設計用于通過社交媒體和其他網(wǎng)上場所自動傳播信息的軟件機器人。這些信息會扭曲情感分析的數(shù)據(jù),通過從眾效應來影響公眾輿論,使輿論看上去很受歡迎,通過網(wǎng)絡團體自動傳播虛假信息,并加強招募。對俄羅斯可能涉入2016年選舉活動的調(diào)查,重點并沒有放在傳統(tǒng)意義的黑客威脅,而是放在由機器人實施,針對特定團體發(fā)布信息的社交工程上。展望未來,在復雜多領域環(huán)境中工作的分析人員,必須了解網(wǎng)絡領域構成的新興威脅的性質。保持基本的事態(tài)感知,更不用說獲取操作了解,只有通過更好地了解大數(shù)據(jù)解析并且承認其作為一種工具的力量及其弱點,才能獲得。
各國士兵使用智能手機會暴露部隊運行信息,而這些信息往往蘊含在網(wǎng)絡開源信息中
套用一句老話,你可能對大數(shù)據(jù)不感興趣,但大數(shù)據(jù)對你感興趣。大數(shù)據(jù)通過信息共享和進入云端,影響現(xiàn)代信息環(huán)境。大數(shù)據(jù)已在根本上重塑分析人員如何獲取和解釋數(shù)據(jù)的方式。對手利用復雜的網(wǎng)絡環(huán)境招募人員,影響民眾,并以一種只有通過大數(shù)據(jù)解決方案才能發(fā)現(xiàn)的方式攻擊美國的利益。我們搜集和儲存原始數(shù)據(jù)的能力持續(xù)超過我們處理所搜集數(shù)據(jù)的能力,這意味著,我們可能早已掌握解開情報客戶今天的謎團,以及明天會產(chǎn)生的謎團的答案,這些答案藏身在我們大量信息數(shù)據(jù)庫中的某處。沒有大數(shù)據(jù)解決方案來管理數(shù)據(jù)和信息,使我們持續(xù)搜集并迅速將其提供給情監(jiān)偵的策劃者,以推進更明智,更及時的搜集,那么,美國空軍情報界就將面臨信息超負荷,從而導致決策癱瘓。在正確的時間將正確的信息傳遞給正確的客戶,意味著重新思考情監(jiān)偵計劃,接納大數(shù)據(jù)解決方案,迎接我們面臨的情監(jiān)偵挑戰(zhàn)。
摘編自《空天力量》雜志第12卷第2期
責任編輯:張傳良