姜疆
由于傳統(tǒng)的機器學習算法大多是基于內(nèi)存的,而TB甚至PB級的海量數(shù)據(jù)又無法裝載進計算機內(nèi)存,因此,現(xiàn)有的諸多算法不能處理大數(shù)據(jù)。如何使機器學習算法適應大數(shù)據(jù)挖掘的要求,已經(jīng)成為產(chǎn)業(yè)界與學術(shù)界研究的主要方向。目前,采用深度學習對數(shù)據(jù)進行挖掘是比較熱門的方法,因為其不僅能自動對數(shù)據(jù)進行快速處理,而且準確度較高。
事件
“深度學習”應用到醫(yī)學診斷
2017年,AI醫(yī)療領(lǐng)域備受資本市場關(guān)注,尤其是到2017年下半年,推想科技、圖瑪深維、匯醫(yī)慧影等企業(yè)都相繼完成了B輪融資。國內(nèi)高端醫(yī)療影像設備生產(chǎn)商聯(lián)影今年也注資3億元人民幣成立人工智能子公司進軍醫(yī)療人工智能領(lǐng)域。此外,還有騰訊的“覓影”,阿里健康的“Doctor You”等都在醫(yī)學影像的智能輔助診斷系統(tǒng)上有所布局。
醫(yī)學診斷是機器深度學習技術(shù)應用對接的重要領(lǐng)域之一。2017年,Nature報道了谷歌運用深度學習技術(shù)(主要是卷積神經(jīng)網(wǎng)絡)在該領(lǐng)域取得的新突破。谷歌通過分析眼球的視網(wǎng)膜圖像,可以預測一個人的血壓、年齡和吸煙狀況,而且初步研究表明,這項技術(shù)在防范心臟病發(fā)作上很有成效。深度學習技術(shù)正改變著生物醫(yī)療學家處理分析圖像的方式,甚至有助于發(fā)現(xiàn)從未觸及的現(xiàn)象,有望開辟一條新的研究道路。
此外,隨著數(shù)據(jù)庫技術(shù)的發(fā)展和中醫(yī)領(lǐng)域數(shù)據(jù)的暴漲,數(shù)據(jù)挖掘方法甚至開始引入到中醫(yī)藥研究上,產(chǎn)生了中醫(yī)數(shù)據(jù)挖掘。不同于傳統(tǒng)科學數(shù)據(jù),中醫(yī)藥數(shù)據(jù)有自己的特點,中醫(yī)藥數(shù)據(jù)的特點主要包括:癥狀的模糊性、證候的多態(tài)性、證候與癥狀間的非線性、中醫(yī)藥數(shù)據(jù)的多維性以及挖掘的復雜性?;诖祟愄攸c,傳統(tǒng)簡單的統(tǒng)計分析工具已經(jīng)不能滿足中醫(yī)現(xiàn)代化、信息化發(fā)展的根本需求。而中醫(yī)數(shù)據(jù)挖掘技術(shù)正適合于復雜多維的數(shù)據(jù)分析,運用相應的算法可以從海量的中醫(yī)藥數(shù)據(jù)中發(fā)現(xiàn)知識。
尤為值得重視的是,近年來,我國一些院校為進一步促進中醫(yī)領(lǐng)域的信息化、智能化發(fā)展,數(shù)據(jù)挖掘在中醫(yī)藥相關(guān)研究上越來越深入。比如江西中醫(yī)藥大學計算機學院的一項研究著重對目前中醫(yī)數(shù)據(jù)挖掘的研究方向進行了具體分析,除了改進傳統(tǒng)挖掘算法的趨勢、擴展經(jīng)典算法在中醫(yī)藥數(shù)據(jù)領(lǐng)域應用的趨勢之外,還引進了新的挖掘算法和技術(shù)。
華東理工大學學者以慢性胃炎患者中醫(yī)問診數(shù)據(jù)為研究樣本,從挖掘樣本特征之間關(guān)系和挖掘類別標簽之間關(guān)系兩個角度出發(fā),采用二類相關(guān)和深度置信網(wǎng)絡,或深度玻爾茲曼機模型的基于深度學習的多標記學習法,分別建立深度學習和條件隨機場模型,對中醫(yī)慢性胃炎患者問診數(shù)據(jù)進行訓練和預測,得到五個常見指標下的實驗結(jié)果符合中醫(yī)理論,明顯優(yōu)于其他常見方法。
背景
數(shù)據(jù)挖掘與機器學習相互促進
從海量的數(shù)據(jù)庫中挖掘信息的過程就稱之為數(shù)據(jù)挖掘。換句話說,在數(shù)據(jù)庫中的海量數(shù)據(jù)里找出隱含的、之前未知的有研究價值的信息的這一非平凡過程就是所謂數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘是一項探測大量數(shù)據(jù)的業(yè)務流程,而且是以發(fā)現(xiàn)有意義的模式(pattern)和規(guī)則(rule)為目的的。數(shù)據(jù)挖掘是基于機器學習、人工智能、模式識別等的一種決策支持過程,來智能分析企業(yè)數(shù)據(jù),做出歸納性預測,幫助決策者根據(jù)已挖掘出的潛在的模式?jīng)Q策出正確的方案。
數(shù)據(jù)挖掘是要構(gòu)造一個分類函數(shù)或模型(常稱作分類器),該函數(shù)是根據(jù)事物屬性、特點加以劃分,而且該函數(shù)或模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到一個指定的分類類別,即分類功能;把整個數(shù)據(jù)庫劃分成不同的群組,并且規(guī)定同一群組內(nèi)數(shù)據(jù)盡量接近相同、不同的組群差別顯著,此為數(shù)據(jù)的聚類;關(guān)聯(lián)分析就是采用關(guān)聯(lián)規(guī)則和序列模式技術(shù)發(fā)現(xiàn)數(shù)據(jù)庫各值的相關(guān)性;數(shù)據(jù)的預測顧名思義,把握數(shù)據(jù)規(guī)律,做出合理推測;偏差的檢測是對少數(shù)的極端數(shù)據(jù)進行分析,表明其內(nèi)在原因。
由于數(shù)據(jù)挖掘是一個復雜的迭代過程。通過在數(shù)據(jù)集上不斷地循環(huán)處理,最終得到有意義的知識或模式。這就要求我們充分利用計算機計算和存儲上的優(yōu)勢。數(shù)據(jù)挖掘算法中常用的有統(tǒng)計型算法和機器學習型算法兩類。前者常用相關(guān)性分析、聚類分析、概率和判別分析等進行運算;后者的特色是運用了人工智能技術(shù),能在大量樣本集訓練和學習后自動找出運算需要的參數(shù)和模式。
機器學習這門學科所關(guān)注的問題是:計算機程序如何隨著經(jīng)驗積累自動提高性能。這是卡內(nèi)基梅隆大學教授、美國《Machine Leaming》雜志、國際機器學習年度會議(ICML)創(chuàng)始人Tom Mitchell給出的一個能被廣泛接受的經(jīng)典定義。
機器學習算法應用在歷史數(shù)據(jù)集上,通過訓練來使計算機獲得智能。機器學習系統(tǒng)一般由環(huán)境、學習元、知識庫和執(zhí)行元四個部分組成。相應的,傳統(tǒng)機器學習主要包括四個部分:對人類學習過程進行理解與模擬;對人類用戶與計算機系統(tǒng)之間的語言接口進行研究;問題自動規(guī)劃能力設計;設計能夠發(fā)現(xiàn)新事物的程序以實現(xiàn)機器學習目的。
專業(yè)人士指出,通過應用機器學習,數(shù)據(jù)挖掘?qū)?shù)據(jù)的處理方法可以分為: 分類、回歸分析、關(guān)聯(lián)規(guī)則及聚類等(見表格),而且每種挖掘方法都可以通過不同的機器學習技術(shù)來實現(xiàn)。
然而傳統(tǒng)機器學習多在小數(shù)據(jù)環(huán)境下運行,所依賴的機器學習算法難以支撐大數(shù)據(jù)學習。基于此,為解決大數(shù)據(jù)問題,必須深入研究大數(shù)據(jù)環(huán)境下的機器學習算法問題。
在大數(shù)據(jù)環(huán)境下,機器學習算法的設計與實現(xiàn)涉及很多方面,包括分布式運算、數(shù)據(jù)流技術(shù)、云技術(shù)等。機器學習算法通過與這些技術(shù)相結(jié)合,高效地處理數(shù)以億計的數(shù)據(jù)對象,并快速地訓練出模型,從而獲取有價值的知識。機器學習技術(shù)已經(jīng)在推薦系統(tǒng)、智能語音識別、搜索引擎等企業(yè)級的數(shù)據(jù)挖掘中得到廣泛應用。大數(shù)據(jù)發(fā)展和研究、關(guān)鍵技術(shù)、評定指標對機器學習的方法研究工作提出了新的挑戰(zhàn)和要求
焦點
從機器學習到深度學習需要算法支撐
機器學習無疑是當前數(shù)據(jù)分析領(lǐng)域的一個熱點內(nèi)容。很多人在平時的工作中都或多或少會用到機器學習的算法。機器學習的算法很多,諸如K–均值算法、K近鄰算法、樸素貝葉斯、支持向量機等。然而,很多時候困惑人們的是,很多算法是一類算法,而有些算法又是從其他算法中延伸出來的。
機器學習型算法中人工神經(jīng)網(wǎng)絡方法被普遍運用,它具有極好的數(shù)據(jù)處理能力和自組織學習能力,并且能準確進行識別,從而有助于分類問題中的數(shù)據(jù)處理。人工神經(jīng)網(wǎng)絡通過建構(gòu)模型而工作,其模型多樣,能滿足不同需求??傮w來看,人工神經(jīng)網(wǎng)絡模型精確度高、魯棒性好,具有較強描述能力,在應用時可以無需專家支持。
遺傳算法可以利用生物進化模型,引入選擇算子、變異算子、交換算子等,提高生物進化群體的多樣化。信息論利用率失真理論可以對數(shù)據(jù)進行壓縮和分析,將海量的數(shù)據(jù)集劃分到幾個簇中,然后根據(jù)率失真代價函數(shù)進行優(yōu)化,實現(xiàn)數(shù)據(jù)集分類。研究人員對神經(jīng)網(wǎng)絡的不斷研究,以此引出了深度學習,可以說深度學習是神經(jīng)網(wǎng)絡的延伸。深度學習常常被誤會為一種機器學習模型,而實際上它是一個框架、一種思路。
經(jīng)研究表明,為能夠?qū)W習表達高階抽象的復雜函數(shù),解決模式識別、數(shù)據(jù)分類、聚類和語言理解等相關(guān)的人工智能任務,需要融合深度學習。
相對淺結(jié)構(gòu)神經(jīng)網(wǎng)絡其優(yōu)勢為可以較好地實現(xiàn)高維復雜函數(shù)的表示;一個很重要的原因是引用深度學習是它的高精確度;不需要手動提取特征,自動提取特征;其采用分層進行處理數(shù)據(jù),神經(jīng)網(wǎng)絡每一層可以提取出輸入數(shù)據(jù)不同水平的特征。
啟示
深度學習還面臨多重考驗
大數(shù)據(jù)時代改變了基于數(shù)理統(tǒng)計的傳統(tǒng)數(shù)據(jù)科學,促進了數(shù)據(jù)分析方法的創(chuàng)新,從機器學習和多層神經(jīng)網(wǎng)絡演化而來的深度學習是當前大數(shù)據(jù)處理與分析的研究前沿。從機器學習到深度學習,經(jīng)歷了早期的符號歸納機器學習、統(tǒng)計機器學習、神經(jīng)網(wǎng)絡和20世紀末開始的數(shù)據(jù)挖掘等幾十年的研究和實踐,發(fā)現(xiàn)深度學習可以挖掘大數(shù)據(jù)的潛在價值。
深度學習的優(yōu)點在于模型的表達能力強,能夠處理具有高維稀疏特征的數(shù)據(jù),而大數(shù)據(jù)所面臨的挑戰(zhàn)亟待引入深度學習的思想、方法和技術(shù)進行及時有效地解決。如何將深度學習應用于大數(shù)據(jù)分析,發(fā)現(xiàn)數(shù)據(jù)背后的潛在價值成為業(yè)界關(guān)注的熱點。
北京航空航天大學軟件開發(fā)環(huán)境國家重點實驗室專家指出,有些深度學習算法是在原有某個深度學習算法的基礎(chǔ)上對其網(wǎng)絡結(jié)構(gòu)進行了調(diào)整而形成,例如堆疊自動編碼器就是受深度置信網(wǎng)絡(Deep Belief Network,DBN)啟發(fā),將其中的受限玻爾茲曼機模型(Restricted Boltzmann Machine,RBM)替換為自動編碼器(Auto Encoder,AE)而形成。
而有些深度學習算法則是結(jié)合了多種已有深度學習算法派生而來,例如堆疊卷積自動編碼器就是在卷積網(wǎng)絡中采用了自動編碼器AE而形成。在深度學習的整個發(fā)展過程中DBN、DBM(深度玻爾茲曼機)、AE和CNN(卷積神經(jīng)網(wǎng)絡)構(gòu)成了早期的基礎(chǔ)模型。后續(xù)的眾多研究則是在此基礎(chǔ)上提出或改進的新的學習模型。
當前深度學習的主要運用集中于認知類識別,如圖像識別、生物識別等,均為靜態(tài)決策,假若進行更深一步的運用,則是復雜和動態(tài)決策。如股票預測,需根據(jù)時間變化來不斷預測何時買入賣出,以及多種因素和變量均會對決策產(chǎn)生影響。未來的發(fā)展可延伸至研究復雜動態(tài)性多因素之間的關(guān)系,根據(jù)觀察環(huán)境甚至周圍相似個體做出更為準確的預測。
IEEE互聯(lián)網(wǎng)安全領(lǐng)域?qū)<?、英國厄爾斯特大學計算機科學專業(yè)教授Kevin Curran認為,醫(yī)療領(lǐng)域是目前深度學習和人工智能取得重要成果的關(guān)鍵領(lǐng)域之一。深度學習能夠探測未來個人健康的潛在風險,它可以通過一系列健康大數(shù)據(jù)中尋找疾病的致病機理,從而實現(xiàn)在健康和疾病相關(guān)研究領(lǐng)域的重大突破。毫無疑問,這僅靠人工計算是永遠不可能實現(xiàn)的。
最終,深度學習將迅速推進科研進度。憑借其強大的運算性能及龐大的數(shù)據(jù)分析,科研人員可以產(chǎn)出更多研究碩果,有望在更短的時間內(nèi)實現(xiàn)對現(xiàn)有技術(shù)的重要突破。
不過,目前深度學習還是一門不成熟的框架,同樣存在著一些問題。諸如,局部最優(yōu)問題、內(nèi)存消耗大和計算復雜的問題、人腦機理許多沒應用上的問題、設計模板可行性的問題,以及代價函數(shù)設計及整個網(wǎng)絡的設計等綜合問題。這些問題需要在將來的研究中解決,以便更加完善深度學習,適應大數(shù)據(jù)時代。