• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      科學大數(shù)據(jù)智能分析軟件的現(xiàn)狀與趨勢

      2018-08-31 03:28:46
      中國科學院院刊 2018年8期
      關鍵詞:可視化科學家領域

      鐘 華 劉 杰 王 偉

      中國科學院軟件研究所 北京 100190

      2007 年圖靈獎得主吉姆 · 格雷(Jim Gray)發(fā)表了著名演講《科學方法的革命》,將科學研究分為 4 類范式(paradigm),即實驗歸納、模型推演、仿真模擬和數(shù)據(jù)密集型科學發(fā)現(xiàn)(data-intensive scientific discovery),從而提出了被廣泛稱為“第四范式”的“科學大數(shù)據(jù)”新視角[1]。經(jīng)過10年的技術發(fā)展,深度學習等先進技術在圖像、語音、自然語言等人工智能領域均取得突破進展。在自然科學領域,近年來科學家們也緊跟趨勢,基于科學大數(shù)據(jù)驅(qū)動的新模式,采用深度學習等新技術,取得了一批重大科學發(fā)現(xiàn)成果,發(fā)表在 Science、Nature 等權威學術刊物。然而,大數(shù)據(jù)驅(qū)動的科學研究工作因為嚴重依賴于先進的信息技術,對于大多數(shù)科學家團隊而言仍具有一定門檻。

      多學科、跨領域交叉背景下的科學大數(shù)據(jù)挖掘分析與知識發(fā)現(xiàn),依賴于構建一套高效、易用、可擴展的科學大數(shù)據(jù)智能分析軟件系統(tǒng),為復雜數(shù)據(jù)處理、分析、模式提取和知識發(fā)現(xiàn)提供學習模型、算法及開發(fā)工具支持。通過分析該領域發(fā)展現(xiàn)狀,我們發(fā)現(xiàn),一些分析軟件因為運行在單機環(huán)境而無法處理大規(guī)模數(shù)據(jù),一些分析軟件因需要較高的編程開發(fā)技能而令科學家團隊望而卻步。隨著云計算、大數(shù)據(jù)和人工智能技術的發(fā)展,利用云計算平臺承載人工智能技術進行大數(shù)據(jù)智能分析已經(jīng)成為趨勢,而開放共享與個性化定制也成為軟件發(fā)展的主流方向。從中可以總結(jié)出科學大數(shù)據(jù)智能分析軟件的五大發(fā)展趨勢:AI 賦能、一體化、云服務、開放共享和可定制。

      筆者通過對眾多科學家進行需求調(diào)研,結(jié)合大數(shù)據(jù)智能分析技術及軟件的發(fā)展趨勢,提出了一個面向科學大數(shù)據(jù)的一體化、可定制的智能分析框架,支持科學家交互式的構建智能分析模型,并基于云平臺分布式計算引擎實現(xiàn)分析模型的高效執(zhí)行,為快速開展科學發(fā)現(xiàn)研究提供系統(tǒng)和工具支撐。期望通過該智能分析框架的研發(fā)與應用,為下一代科學大數(shù)據(jù)智能分析軟件提供參考方案。

      1 發(fā)展現(xiàn)狀

      數(shù)據(jù)密集型科學發(fā)現(xiàn)離不開軟件系統(tǒng)的支撐,本文的研究對象聚焦于近 10 年來面向科學大數(shù)據(jù)智能分析的典型軟件系統(tǒng)。從適用范圍來看,科學大數(shù)據(jù)智能分析軟件可以簡單分為通用型和領域?qū)S眯蛢深悺Mㄓ眯椭悄芊治鲕浖谴髷?shù)據(jù)、人工智能等領域的通用分析軟件,并被科學家團隊應用于特定領域的研究工作,如 Matlab①MATLAB: https://ww2.mathworks.cn/products/matlab.html.。領域?qū)S眯椭悄芊治鲕浖侵羔槍μ囟茖W領域的專有分析軟件,如地學、資源環(huán)境科學領域流行的 Google Earth Engine[2]。

      1.1 通用型科學大數(shù)據(jù)智能分析軟件

      大數(shù)據(jù)和人工智能技術發(fā)展迅速,涌現(xiàn)了大量軟件系統(tǒng),本文選取科學家團隊較為常用、具有代表性的智能分析軟件,并依據(jù)軟件系統(tǒng)的部署模式,將這些軟件分為 3 類——單機環(huán)境、分布式環(huán)境和云計算環(huán)境,同時這也是智能分析軟件發(fā)展的 3 個階段。

      (1)單機環(huán)境智能分析軟件。在商業(yè)數(shù)據(jù)分析軟件方面,Matlab 提供了用于算法開發(fā)、數(shù)據(jù)可視化、數(shù)據(jù)分析以及數(shù)值計算的高級編程語言和交互式環(huán)境,在眾多科學領域應用廣泛。在眾多開源免費數(shù)據(jù)分析軟件中,R 語言[3]、Scikit-Learn[4]、Weka[5]是典型代表。R 語言是一種用于統(tǒng)計分析和繪圖的語言,提供了豐富的統(tǒng)計分析功能,用戶還可以通過開發(fā)并安裝擴展包增強 R 的功能。 Python 語言擁有大量科學數(shù)據(jù)分析的算法庫,其中就包括被廣泛應用于機器學習和數(shù)據(jù)挖掘的 Scikit-Learn。Weka 數(shù)據(jù)挖掘平臺基于 Java 語言開發(fā),提供了可視化、拖拽式的分析流程設計界面,并集成了大量數(shù)據(jù)預處理和機器學習算法。這些軟件系統(tǒng)在設計之初是以單機模式運行,無法針對基于分布式存儲的大數(shù)據(jù)進行處理,在大數(shù)據(jù)場景下存在先天不足。此外,這些軟件系統(tǒng)還缺乏對深度學習技術的有效支持。

      (2)分布式環(huán)境智能分析軟件。在分布式環(huán)境下,開源社區(qū)提供的大數(shù)據(jù)分析軟件成為主流,Hadoop Mahout、Spark MLlib[6]是其中的典型代表,研究人員借助于 Hadoop、Spark 框架,解決了分布式并行挖掘問題,并提供了典型的機器學習算法和模型。近年來,涌現(xiàn)出一批開源深度學習框架,例如 Tensor Flow、Caffe、CNTK、MXNet 等,用于深度神經(jīng)網(wǎng)絡模型的構建及訓練,支持分布式計算和異構計算②Comparison of deep learning software: https://en.wikipedia.org/wiki/Comparison_of_deep_learning_software.。盡管這些開源軟件提供了豐富的算法庫和高效的分布式計算平臺,但仍需要專業(yè)的編程開發(fā)和系統(tǒng)配置技能,且學習曲線陡峭,不利于科學家團隊使用。

      (3)云計算環(huán)境智能分析軟件。通過云平臺提供大數(shù)據(jù)智能分析服務已成為大型公有云平臺的標配服務,“機器學習即服務”(machine learning as a service,MlaaS)也成為多家領先云平臺廠商的發(fā)展趨勢。Azure Machine Learning(Azure ML)是微軟 Azure 云平臺提供的機器學習分析服務[7],在提供大量通用機器學習分析算法基礎上,Azure ML 還面向數(shù)據(jù)科學家用戶提供了交互式的圖形化開發(fā)界面。類似的 MLaaS 還包括 Aliyun PAI 等。這些系統(tǒng)通常僅支持某種特定開發(fā)語言和應用程序編程接口(API),用戶無法自主擴充算法庫,存在平臺鎖定(lock-in)問題。除了上述公有云廠商提供的大數(shù)據(jù)智能分析服務,一些科學家團隊將具有“瀏覽器/服務器”架構模式的交互式分析軟件部署在公有云或私有云,實現(xiàn)了“簡化版”的 MLaaS。例如,Jupyter Notebook③Jupyter: http://jupyter.org/.是支持“瀏覽器/服務器”架構的交互式分析軟件,支持通過瀏覽器編輯運行多種編程語言,在服務器端進行數(shù)據(jù)處理、數(shù)值模擬、統(tǒng)計建模、機器學習以及可視化等。

      1.2 領域?qū)S眯涂茖W大數(shù)據(jù)智能分析軟件

      自然科學包括大量細分領域,每個領域都存在專用的科學數(shù)據(jù)分析軟件,本文選取其中若干代表進行分析,并將這些軟件分為兩類進行介紹:經(jīng)典的領域?qū)S每茖W數(shù)據(jù)分析軟件和新興的領域?qū)S每茖W數(shù)據(jù)分析軟件。

      (1)經(jīng)典的領域?qū)S每茖W數(shù)據(jù)分析軟件。這類軟件是特定領域科學家專門研發(fā)的系統(tǒng),適合對該領域的科學數(shù)據(jù)進行專門處理、計算和分析。ROOT④ROOT: https://root.cern.ch/.是歐洲核子研究中心(CERN)開發(fā)的開源軟件,主要用于粒子物理實驗的數(shù)據(jù)處理、科學計算和可視化分析,提供數(shù)學及統(tǒng)計工具、并行處理、神經(jīng)網(wǎng)絡及多變量分析軟件包,是目前高能物理領域數(shù)據(jù)分析的典型工具。AstroML 是面向天文領域的機器學習和數(shù)據(jù)挖掘算法包[8],建立在NumPy、SciPy、Scikit-Learn 等 Python 算法庫基礎上,提供了多個開放天文數(shù)據(jù)集的加載器,以及大量天文領域的分析與可視化數(shù)據(jù)集案例。目前,這類領域?qū)S密浖圆捎脝螜C部署,無法進行分布式并行的大數(shù)據(jù)處理分析,并且尚未對深度學習技術提供集成與支持。

      (2)新興的領域?qū)S每茖W數(shù)據(jù)分析軟件。這類軟件指采用了大數(shù)據(jù)、機器學習和云計算等新技術的分析軟件。SDAP 目前是 Apache 軟件基金會的孵化項目,是面向地球物理海洋學領域的科學大數(shù)據(jù)分析平臺。SDAP⑤Science Data Analytics Platform (SDAP): https://sdap.apache.org/.依賴于 NEXUS 系統(tǒng)進行大數(shù)據(jù)處理,NEXUS 是由美國國家航空航天局噴氣推進實驗室(NASA/JPL)開發(fā)的一個軟件項目,采用 Map/Reduce 分布式并行計算技術,旨在對 NASA 各種任務收集的大型數(shù)據(jù)集進行科學分析。美國國家能源研究科學計算中心(NERSC)⑥NERSC: http://www.nersc.gov/.,具有美國能源部科學局的主要科學計算設備。最近 NERSC 支持將深度學習應用到氣候研究、中微子實驗以及神經(jīng)科學研究,并取得了一批突破性科學發(fā)現(xiàn)。Verily Life Sciences(原谷歌生命科學公司)的研究人員開發(fā)了一種深入學習軟件工具 DeepVariant⑦DeepVariant: https://github.com/google/deepvariant.,該工具可將基因組信息轉(zhuǎn)換成圖像進行分析,可顯著提升基因變異的識別準確率。Google Earth Engine 是 Google 提供的對大量全球尺度地球科學資料(尤其是衛(wèi)星數(shù)據(jù))進行在線可視化分析處理的云平臺,相關領域的科學家團隊可以利用該平臺提供的長時序近地衛(wèi)星數(shù)據(jù)以及數(shù)千臺的云服務器進行在線數(shù)據(jù)處理和分析,目前已經(jīng)取得了一批有顯示度的研究成果。可以看出,Google Earth Engine 的特定領域海量數(shù)據(jù)、云端分布式并行計算、在線挖據(jù)分析算法庫、地圖即時展現(xiàn)等特點,正代表了新興科學大數(shù)據(jù)智能分析軟件的發(fā)展趨勢。

      2 發(fā)展趨勢

      科學大數(shù)據(jù)智能分析軟件的發(fā)展趨勢呈現(xiàn)出 AI 賦能、一體化、云服務、開放共享和可定制的重要特征。

      (1)AI 賦能??茖W家在其研究領域嘗試使用人工智能新技術進行科學發(fā)現(xiàn)的需求日益高漲。因此,智能分析軟件除了提供領域相關的基礎運算操作和傳統(tǒng)算法,還需要支持深度學習、自然語言理解、知識圖譜等新型人工智能技術的集成應用,為人工智能模型的訓練、測試、部署和運行提供全生命周期的工具化支持。

      (2)一體化。科學大數(shù)據(jù)智能分析包含復雜的數(shù)據(jù)處理、分析、模式提取和知識發(fā)現(xiàn)過程,而現(xiàn)有的大數(shù)據(jù)框架和平臺存在學習曲線高、開發(fā)代價大等問題。因此,在傳統(tǒng)“編程式”的開發(fā)模式基礎上,還需要為領域科學家提供簡單易用的“拼裝式”可視化挖掘分析環(huán)境,并利用高質(zhì)量、可復用的模型與算法庫,進行科學大數(shù)據(jù)分析模型的創(chuàng)新設計,實現(xiàn)涵蓋數(shù)據(jù)源集成、代碼編輯、流程設計、模型算法復用以及執(zhí)行與可視化的一體化支撐。

      (3)云服務。云服務化的科學大數(shù)據(jù)智能分析軟件不需要本地進行軟件安裝和維護。因此,一方面,瀏覽器成為挖掘分析全流程操作和管理的統(tǒng)一門戶界面;另一方面,模型、算法以及數(shù)據(jù)源將以在線 API 的形式進行共享和復用,這一形式也被稱為“功能即服務”(function as a service)。

      (4)開放共享。交叉科學的重大發(fā)現(xiàn)需要綜合應用多領域的分析模型和算法。匯聚跨領域的共性模型,形成類型豐富、性能優(yōu)異的模型和算法庫,這將成為降低領域交叉綜合分析模型開發(fā)難度、提升開發(fā)效率的基礎。同時,各領域科學家團隊通過共享高質(zhì)量的模型和算法,也將促進軟件系統(tǒng)持續(xù)演化,使軟件系統(tǒng)更具生命力。例如,R 語言算法庫 CRAN 是交叉領域算法共享的典范,該算法庫目前收錄了各領域科學家貢獻的 4 000 多種算法,吸引了大量的用戶。

      (5)可定制。不同科學領域的數(shù)據(jù)分析模式千差萬別,通用的、固化的大數(shù)據(jù)分析軟件無法滿足特定領域科學家團隊的個性化分析需求,這種個性化需求存在于分析流程、數(shù)據(jù)源、算法模型、可視化等各個層面。因此,一個理想的科學大數(shù)據(jù)智能分析軟件應該支持數(shù)據(jù)、模型算法和可視化視圖等多個方面的領域定制與擴展,支持領域科學家以及領域內(nèi)的軟件工程師進行特有組件的開發(fā)。

      3 科學大數(shù)據(jù)智能分析軟件參考方案

      筆者所在團隊近年來完成了多個科學、行業(yè)領域的大數(shù)據(jù)系統(tǒng)研發(fā),目前正在承擔中國科學院戰(zhàn)略性先導科技專項“地球大數(shù)據(jù)科學工程”的地球大數(shù)據(jù)挖掘分析系統(tǒng)(Big Earth Data Miner)研發(fā)任務。通過對多個領域科學家團隊的大數(shù)據(jù)分析需求進行調(diào)研,結(jié)合現(xiàn)狀及趨勢分析,筆者提出下一代科學大數(shù)據(jù)智能分析軟件的參考方案(圖1)。

      圖 1 科學大數(shù)據(jù)智能分析軟件參考方案

      該軟件系統(tǒng)基于云平臺部署,采用通用大數(shù)據(jù)系統(tǒng)和機器學習系統(tǒng)作為底層計算支撐;在此基礎上,提供滿足領域特性需求的科學大數(shù)據(jù)分布式計算處理引擎和機器學習引擎,支持科學大數(shù)據(jù)分析處理的特殊過程。同時,挖掘分析任務具有數(shù)據(jù)密集型與資源密集型相結(jié)合的特征,也存在即時分析、在線分析以及離線分析等差異明顯的服務響應需求,因此需要探索提供高效的資源管理和任務調(diào)度機制,以滿足大規(guī)模并發(fā)用戶的差異化支撐需求。

      數(shù)據(jù)資源庫提供公共數(shù)據(jù)資源和個人數(shù)據(jù)資源管理,支持用戶在數(shù)據(jù)資源庫方便快捷地查找、導入個人數(shù)據(jù)資源,并進行數(shù)據(jù)共享。算法與模型庫提供通用算法及模型、領域算法及模型管理,支持算法和模型的二次開發(fā)、共享與性能優(yōu)化。其中,針對基于大數(shù)據(jù)訓練得到的模型,可探索采用遷移學習等技術實現(xiàn)跨領域共享。

      智能分析環(huán)境提供多種智能分析模式。其中,工作流模式主要面向領域內(nèi)相對固化的分析場景;代碼開發(fā)模式主要面向具有研發(fā)能力和靈活分析需求的科學家團隊;可視交互式分析模式主要面向依賴可視化觀察分析的應用場景。未來還可以擴展到虛擬現(xiàn)實、增強現(xiàn)實等更多的分析模式。

      該軟件系統(tǒng)通過瀏覽器提供在線的挖掘分析服務,用戶通過注冊賬戶就可開展一站式的分析工作,在此過程中云服務需要確??茖W家數(shù)據(jù)安全和用戶分析工作的隔離。此外,需要探索利用微服務架構,實現(xiàn)面向不同科學領域需求的領域化定制。

      4 結(jié)語

      科學技術是第一生產(chǎn)力,而科學大數(shù)據(jù)的智能分析軟件則是科學研究的重要支撐工具。國內(nèi)科學家團隊在很多細分領域都取得了世界矚目的成果,但是并沒有發(fā)布具有世界影響力的開放的智能分析軟件。因此,迫切需要國內(nèi)科學家團隊與信息技術研究團隊聯(lián)合起來,瞄準交叉領域的科學探索與知識發(fā)現(xiàn),充分考慮不同領域科學家團隊的大數(shù)據(jù)分析需求,設計研發(fā)出更適用于科學大數(shù)據(jù)的智能分析軟件系統(tǒng),為人類科技進步貢獻力量。

      1 Tony H, Stewart T, Kristin T. 第四范式:數(shù)據(jù)密集型科學發(fā)現(xiàn).潘教峰, 等 譯. 北京: 科學出版社, 2012.

      2 Gorelick N, Hancher M, Dixon M, et al. Google Earth Engine:Planetary-scale geospatial analysis for everyone. Remote Sensing of Environment, 2017, 202: 18-27.

      3 Ihaka R, Gentleman R. R: A Language for Data Analysis and Graphics. Journal of Computational and Graphical Statistics, 1996,5(3): 299-314.

      4 Pedregosa F, Varoquaux G, Gramfort A, et al. Scikit-learn:Machine learning in python. The Journal of Machine Learning Research, 2011, 12: 2825-2830.

      5 Hall M, Frank E, Holmes G, et al. The WEKA data mining software: an update//SIGKDD. New York: ACM, 2009: 10-18.

      6 Meng X, Bradley J, Yavuz B, et al. Mllib: Machine learning in apache spark. The Journal of Machine Learning Research, 2016,17(34): 1-7.

      7 Barga R, Fontama V, Tok W H. Predictive Analytics with Microsoft Azure Machine Learning. Berkeley: Apress, 2015.

      8 VanderPlas J, Connolly A J, Ivezi? ?, et al. Introduction to astroML: Machine learning for astrophysics. [2018-08-06]. https://ieeexplore.ieee.org/document/6382200/?tp=&arnumber=6382200.

      猜你喜歡
      可視化科學家領域
      基于CiteSpace的足三里穴研究可視化分析
      基于Power BI的油田注水運行動態(tài)分析與可視化展示
      云南化工(2021年8期)2021-12-21 06:37:54
      假如我是科學家
      基于CGAL和OpenGL的海底地形三維可視化
      領域·對峙
      青年生活(2019年23期)2019-09-10 12:55:43
      “融評”:黨媒評論的可視化創(chuàng)新
      傳媒評論(2019年4期)2019-07-13 05:49:14
      與科學家面對面
      當天才遇上科學家(二)
      當天才遇上科學家(一)
      新常態(tài)下推動多層次多領域依法治理初探
      年辖:市辖区| 五常市| 黔西| 海口市| 福州市| 泰兴市| 赣榆县| 尖扎县| 泉州市| 灵武市| 隆子县| 兰考县| 兴安盟| 麻城市| 如皋市| 镇远县| 班戈县| 方正县| 陕西省| 蒙城县| 响水县| 兰考县| 桑日县| 桃源县| 绍兴市| 望江县| 乐昌市| 若羌县| 渑池县| 康保县| 钟祥市| 台江县| 甘洛县| 佛学| 响水县| 上饶市| 梁河县| 湟中县| 恭城| 长春市| 平湖市|