胡昭陽(yáng)/編譯
●為了充分利用迅猛增長(zhǎng)的電子數(shù)據(jù),奧巴馬政府于去年3月29日發(fā)出了“大數(shù)據(jù)研究和發(fā)展倡議”,并為之投入2億美元研發(fā)經(jīng)費(fèi)。
倡議書(shū)宣布將發(fā)展從巨量復(fù)雜電子數(shù)據(jù)中獲取知識(shí)和洞見(jiàn)的能力,幫助美國(guó)應(yīng)對(duì)當(dāng)前的緊迫挑戰(zhàn)。超過(guò)2億美元的落實(shí)資金來(lái)自美國(guó)聯(lián)邦政府的6個(gè)部門,他們承諾將大力改善從大數(shù)據(jù)中獲取、組織和收集各種新發(fā)現(xiàn)的工具和技術(shù)。
據(jù)總統(tǒng)助理、白宮科技政策辦公室(OSTP)主任約翰·P·霍爾德倫(John P.Holdren)博士介紹,“過(guò)去聯(lián)邦政府曾用類似的方式投資信息技術(shù)領(lǐng)域,促進(jìn)了超級(jí)計(jì)算的顯著進(jìn)步和互聯(lián)網(wǎng)的誕生。今天我們提出的這一倡議是為了變革我們使用大數(shù)據(jù)的能力,為科學(xué)發(fā)現(xiàn)、環(huán)境保護(hù)、生物醫(yī)學(xué)研究、教育以及國(guó)家安全領(lǐng)域提供支持?!?/p>
為了抓住此次機(jī)遇,OSTP將和多個(gè)聯(lián)邦政府部門合作,提出的大數(shù)據(jù)研發(fā)倡議包括:推進(jìn)收集、存儲(chǔ)、保存、管理、分析和共享巨量數(shù)據(jù)的尖端核心技術(shù)研發(fā);利用上述技術(shù)加速科學(xué)和工程的新發(fā)明,加強(qiáng)國(guó)家安全,變革教與學(xué)的模式;增強(qiáng)開(kāi)發(fā)和運(yùn)用大數(shù)據(jù)技術(shù)需要的人才力量。
此次倡議是對(duì)2011年總統(tǒng)科學(xué)和技術(shù)顧問(wèn)委員會(huì)提出的一份建議的回應(yīng),該建議認(rèn)為聯(lián)邦政府對(duì)大數(shù)據(jù)相關(guān)技術(shù)投入力度不足。作為響應(yīng),OSTP成立了大數(shù)據(jù)高級(jí)指導(dǎo)小組,以協(xié)調(diào)和拓展政府在這個(gè)關(guān)鍵領(lǐng)域的投資。根據(jù)發(fā)出的公告,政府響應(yīng)該倡議的第一輪項(xiàng)目包括以下內(nèi)容。
美國(guó)國(guó)家科學(xué)基金會(huì)(NSF)和美國(guó)國(guó)立衛(wèi)生研究院(NIH)將聯(lián)合招標(biāo)“大數(shù)據(jù)”項(xiàng)目,推進(jìn)信息管理、分析、可視化以及從大量多樣化數(shù)據(jù)集中提取有用信息的核心技術(shù)。這將加快科學(xué)研究發(fā)現(xiàn),并將開(kāi)啟一些原本不可能實(shí)現(xiàn)的新領(lǐng)域。NIH還對(duì)與影像、分子、細(xì)胞、電生理學(xué)、化學(xué)、行為學(xué)、流行病學(xué)、臨床和其他與健康和疾病相關(guān)的數(shù)據(jù)集特別有興趣。
除了提供資金招標(biāo)大數(shù)據(jù)項(xiàng)目之外,NSF的舉措還包括:鼓勵(lì)研究型大學(xué)開(kāi)發(fā)交叉學(xué)科研究生項(xiàng)目,培養(yǎng)下一代數(shù)據(jù)科學(xué)家和工程師;向加州大學(xué)伯克利分校提供1 000萬(wàn)美元的項(xiàng)目經(jīng)費(fèi),研究集成三種將數(shù)據(jù)轉(zhuǎn)化為信息的重要方法:機(jī)器學(xué)習(xí)、云計(jì)算和眾包;為“地球立方”系統(tǒng)提供第一輪資金,該系統(tǒng)將允許地學(xué)科學(xué)家訪問(wèn)、分析和共享地球信息;向研究訓(xùn)練機(jī)構(gòu)撥款200萬(wàn)美元,培訓(xùn)本科生使用復(fù)雜數(shù)據(jù)圖形和可視化技術(shù);提供140萬(wàn)美元,支持一個(gè)測(cè)定蛋白質(zhì)結(jié)構(gòu)和生物通路的統(tǒng)計(jì)學(xué)家和生物學(xué)家重點(diǎn)研究小組;召集跨學(xué)科研究人員,確定大數(shù)據(jù)如何改變教與學(xué)。
美國(guó)國(guó)防部為大數(shù)據(jù)擲下大賭注,每年將向一系列跨軍事部門的項(xiàng)目投入2.5億美元 (6 000萬(wàn)美元用于新研究項(xiàng)目),包括:使用新方法管理和利用海量數(shù)據(jù),集成傳感、感知能力和決策支持,建立真正的自治系統(tǒng)以實(shí)現(xiàn)操作和決策的自動(dòng)化;提高情境感知意識(shí)幫助作戰(zhàn)人員和分析師,為他們提供更多的操作支持。國(guó)防部正在探尋比分析師高100倍的能力,以從所有語(yǔ)言文本中提取信息;該能力還將實(shí)現(xiàn)在目標(biāo)、活動(dòng)和時(shí)間上都顯著超過(guò)分析師能觀察的數(shù)量。
為了加快大數(shù)據(jù)創(chuàng)新速率,達(dá)到上述及其他目標(biāo),國(guó)防部將在接下來(lái)的數(shù)月公布了一系列開(kāi)放式有獎(jiǎng)競(jìng)賽。
此外,美國(guó)國(guó)防部高級(jí)研究計(jì)劃局啟動(dòng)了XDATA計(jì)劃,該計(jì)劃每年將投資約2 500萬(wàn)美元,開(kāi)發(fā)計(jì)算技術(shù)和軟件工具,分析半結(jié)構(gòu)化(如表格、關(guān)系、分類數(shù)據(jù)和元數(shù)據(jù)等)和非結(jié)構(gòu)化(如文本文檔、數(shù)據(jù)流量等)海量數(shù)據(jù)。該計(jì)劃的主要挑戰(zhàn)和目標(biāo)包括:開(kāi)發(fā)處理分布式數(shù)據(jù)存儲(chǔ)中不完整數(shù)據(jù)的可擴(kuò)展算法;開(kāi)發(fā)高效的人機(jī)交互工具,并可以根據(jù)不同任務(wù)的視覺(jué)推理需求迅速進(jìn)行定制服務(wù)。
XDATA計(jì)劃還將支持開(kāi)發(fā)源代碼軟件工具包,方便用戶在進(jìn)行特定時(shí)間、特定需求的目標(biāo)防御任務(wù)中靈活開(kāi)發(fā)軟件,處理大量數(shù)據(jù)。
NIH宣布,已經(jīng)在亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)平臺(tái)上,免費(fèi)共享了世界上最大的人類基因組數(shù)據(jù)集,也即全球千人基因工程項(xiàng)目的研究結(jié)果。該數(shù)據(jù)集是大數(shù)據(jù)的一個(gè)典型案例,這些數(shù)據(jù)共有200TB,大小相當(dāng)于1 600萬(wàn)個(gè)文件柜的文本信息量,或3 000張標(biāo)準(zhǔn)DVD的容量,有運(yùn)算能力處理這些海量數(shù)據(jù)的研究人員少之又少。AWS已經(jīng)將千人基因工程數(shù)據(jù)作為公共資源免費(fèi)共享,研究人員使用這些數(shù)據(jù)時(shí)只需要支付計(jì)算費(fèi)用。
作為該項(xiàng)目的一部分,美國(guó)能源部將提供2 500萬(wàn)美元的基金來(lái)建立可擴(kuò)展的數(shù)據(jù)管理、分析和可視化研究機(jī)構(gòu)。勞倫斯·伯克利國(guó)家實(shí)驗(yàn)室將牽頭組織6個(gè)國(guó)家實(shí)驗(yàn)室和7所大學(xué)的專業(yè)研究力量,目標(biāo)是研發(fā)新工具并改善現(xiàn)有工具,幫助科學(xué)家們對(duì)數(shù)據(jù)進(jìn)行管理和可視化操作。由于能源部所使用的超級(jí)計(jì)算機(jī)的容量和復(fù)雜性都在不斷增長(zhǎng),對(duì)于能在這些計(jì)算機(jī)上進(jìn)行模擬運(yùn)行的新工具的要求也在相應(yīng)提高。
美國(guó)地質(zhì)勘探局宣布將最新的研究獎(jiǎng)勵(lì)授予其下屬的約翰·衛(wèi)斯理·鮑威爾中心,以表彰該中心在分析和綜合工作的成就。該中心通過(guò)向科學(xué)家提供場(chǎng)所和時(shí)間,以及深度分析、尖端運(yùn)算和協(xié)同合作理解大數(shù)據(jù)集的工作條件,催生地球系統(tǒng)科學(xué)的創(chuàng)新思維。這些大數(shù)據(jù)項(xiàng)目將增強(qiáng)人類對(duì)于氣候變化、地震復(fù)發(fā)率,以及下一代地址指標(biāo)等問(wèn)題的理解和應(yīng)對(duì)。