?
釋放大數(shù)據(jù)的能量
3月,谷歌AlphaGo與韓國圍棋國手李世石的“人機世紀大戰(zhàn)”,刷爆全球輿論圈。
說到底,AlphaGo獲勝,在于擁有人類歷史高手海量的棋局和不斷試錯改進的自我學習能力。大數(shù)據(jù)+深度學習,造就了AlphaGo的勝利。
海量數(shù)據(jù)的匯聚,促成了大數(shù)據(jù)時代的到來,然而,問題普遍存在,那些希望通過海量數(shù)據(jù)總結(jié)和發(fā)現(xiàn)科學的規(guī)律,或者是刻畫用戶畫像的設想,遭遇了諸多挑戰(zhàn)。
隨著高校信息化的發(fā)展,積累了二十余年的各類數(shù)據(jù),當我們面對龐大的校務數(shù)據(jù),希望藉以了解學校師生教學和生活行為的發(fā)展趨勢時,數(shù)據(jù)隱私保護、數(shù)據(jù)質(zhì)量、數(shù)據(jù)分析技術(shù)以及數(shù)據(jù)應用服務等的問題,均接踵而來。
在數(shù)據(jù)開放政策與機制相對缺失的當下,數(shù)據(jù)的供需矛盾也顯得尤其突出。數(shù)據(jù)只有開放,并按需匯聚起來,才能成為大數(shù)據(jù),才能刻畫并總結(jié)出科學的規(guī)律,但如何開放大數(shù)據(jù)資源,在人們對數(shù)據(jù)“淘金”的期望越來越高的當下,將數(shù)據(jù)當做寶貝,秘而不宣,使得數(shù)據(jù)供與需之間,存在壁壘。
雖然大數(shù)據(jù)催生了科研的第四范式——數(shù)據(jù)密集型科學,但“大數(shù)據(jù)在計算機中,科研的人在科學中”,卻還是全球性的難題,要破解這樣的困局,需要從機制體制上進行整體規(guī)劃。高校數(shù)據(jù)中心或者即將到來的科學大數(shù)據(jù)庫建設中,需要解決數(shù)據(jù)管理及評價機制的問題。
首先,評價體系需要適應新的情況進行相應的變革。很多應用學科只將計算機技術(shù)單純作為一種載體,或者是簡單的處理工具,因而從事計算科學的研究人員,也常常被視為科研輔助人員,其科研成果并不能得到認定,認識上的局限性使得學科交叉越來越困難。
第二,數(shù)據(jù)的規(guī)范管理。目前關(guān)于數(shù)據(jù)的標準規(guī)范雖然形成于2010年前后,但其中關(guān)于數(shù)據(jù)歸屬、數(shù)據(jù)版權(quán)等焦點問題,并未有清晰的界定,這對于數(shù)據(jù)的生產(chǎn)者及數(shù)據(jù)的使用者,都構(gòu)成了風險。
目前國際上非常關(guān)注的“數(shù)據(jù)出版”,可以是一個新模式的探索。數(shù)據(jù)出版首先明確了數(shù)據(jù)的知識產(chǎn)權(quán),清晰界定數(shù)據(jù)的擁有權(quán),但并不妨礙其使用權(quán);第二,注明來源;第三,數(shù)據(jù)擁有一個標識,可以提供使用者隨時訪問到需要的數(shù)據(jù)。如此,既可以讓數(shù)據(jù)的開放共享更規(guī)范,也可以讓科研人員更愿意開放數(shù)據(jù),供需的矛盾或能得以化解。
大數(shù)據(jù)帶來機遇,也帶來許多挑戰(zhàn),需要我們條分縷析,因時應勢,破解束縛,才能釋放出大數(shù)據(jù)無窮的能量。
中國科學院計算機網(wǎng)絡信息中心科學數(shù)據(jù)中心主任
CODATA中國委員會秘書長黎建輝