• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      機器學習算法在腦卒中診治中的應用現(xiàn)狀及展望*

      2021-07-07 09:37:52海軍軍醫(yī)大學衛(wèi)生勤務學系軍事衛(wèi)生統(tǒng)計學教研室200433武勝勇郭軼斌
      中國衛(wèi)生統(tǒng)計 2021年3期
      關鍵詞:機器分類節(jié)點

      海軍軍醫(yī)大學衛(wèi)生勤務學系軍事衛(wèi)生統(tǒng)計學教研室(200433) 武勝勇 何 倩 郭軼斌 吳 騁

      世界衛(wèi)生組織統(tǒng)計表明,目前腦卒中已在全球死亡原因中躍升至第二位[1]。據(jù)美國心臟協(xié)會(American Heart Association,AHA)統(tǒng)計,在美國,腦卒中是死亡的第五大原因,每年有79.5萬美國人經(jīng)歷一次新的或復發(fā)性腦卒中[2]。而在中國,腦血管疾病已成為排名第三的死亡原因,對腦卒中防治的重要性已成為業(yè)內共識[3]。腦卒中發(fā)病的原因涉及先天遺傳因素、后天影響因素[4]等,同時也受諸多不可控事件的影響,故其發(fā)病過程具有較大的異質性[5]。因此,迫切需要在腦卒中的預防和治療過程中,通過簡化醫(yī)療操作過程和改進診療技術來解決其治療過程中產(chǎn)生的諸多復雜問題,降低不斷上升的醫(yī)療成本[6-7]。

      近年來隨著生物醫(yī)學研究的發(fā)展,對于腦卒中的研究日益深入,在基于“組學”數(shù)據(jù)[8-9]、實時風險預測等方面的研究對統(tǒng)計學工具的要求不斷提高。傳統(tǒng)統(tǒng)計學方法對這些高維、海量、結構復雜的大數(shù)據(jù)集分析效果并不理想,同時面對真實世界中取樣異質性低、缺失值多、復雜程度高等問題,也難以找到合適的處理方式[10]。機器學習(machine learning,ML)主要研究如何使計算機通過實驗從數(shù)據(jù)中學習,是預測分析的一項主要內容[11],作為傳統(tǒng)統(tǒng)計學方法的補充,目前醫(yī)學研究中采用機器學習的趨勢日益明顯。

      圍繞機器學習在腦卒中研究方面的應用,本文綜述了支持向量機、隨機森林及深度學習方法,描述了其主要思想,分析了其優(yōu)點和不足,以期對機器學習未來在腦卒中患者診療中的應用起到一定助力作用。

      機器學習算法與傳統(tǒng)預測模型的比較

      由于腦卒中發(fā)病位置的特殊性,導致其對身體各個部位的影響范圍、程度都遠超其他疾病,故即使是具有豐富經(jīng)驗的臨床醫(yī)師也很難對其各方面預后做出準確評估。一般認為初始運動障礙和皮質運動系統(tǒng)缺陷較少的患者治療結束后可能有更好的運動能力,在實際預后評估中,這些普遍被接受的相關性并不總是正確[12]。因為在腦卒中患者病情進展中,其影響因素包括各類臨床特征、后續(xù)治療甚至患者發(fā)病前后的生活習慣等[13],但由于這類特征數(shù)據(jù)類型多、數(shù)據(jù)量大,使得這些復雜的相互作用很難使用傳統(tǒng)模型進行評估。機器學習模型能夠模擬復雜系統(tǒng)的結果,具有傳統(tǒng)統(tǒng)計學模型不具有的優(yōu)勢,對比見表1。

      表1 傳統(tǒng)和機器學習模型比較

      鑒于機器學習方法相較傳統(tǒng)預測模型的諸多優(yōu)點,目前研究已證實了使用機器學習方法預測卒中結局的預后模型能夠取得較準確的結果[14-15]。機器學習算法能夠幫助醫(yī)生做出更好的臨床決策,為患者贏得更好的生活質量和預期壽命[16]。

      常用機器學習算法及其在腦卒中診治中的應用案例

      1.支持向量機

      支持向量機(support vector machine,SVM)是通過將數(shù)據(jù)升維,映射到一個更高維的特征空間里,在高維空間里建立最大間隔的超平面,通過對支持向量的訓練,對特征空間進行劃分得到最優(yōu)超平面,從而將非線性的分類問題,轉變?yōu)榫€性分類的機器學習方法。其對多變且具有較強時間性的分類問題具有較大優(yōu)勢[17],目前已在醫(yī)學領域取得較廣泛的應用[18]。SVM的主要優(yōu)勢在于其利用核函數(shù)向高維空間進行非線性映射,理論基礎較為明確。同時,SVM對數(shù)據(jù)的預測主要基于少數(shù)支持向量,從而對樣本進行篩選,不僅簡化了算法,避免了算法過度復雜可能帶來的過擬合風險;同時也可以對訓練集中的樣本進行篩選,抓住關鍵樣本,即研究對象的關鍵特征。

      國內張麗娜等,分別通過使用SVM和logistic回歸方法對急性出血性腦卒中早期預后進行預測,并對所建立的模型進行比較,證實了SVM在靈敏度、特異度、準確率及Youden指數(shù)等方面均優(yōu)于傳統(tǒng)的logistic回歸[19]。SVM在小樣本中的表現(xiàn)也明顯優(yōu)于傳統(tǒng)方法。Asadi等開發(fā)了一個基于二分法的Rankin修訂量表評分(mRS)模型,采用SVM基于一個107例的數(shù)據(jù)集,使預測精確度達到了70%[20]。Bentley等利用116例急性缺血性腦卒中患者的CT腦圖像建立了SVM模型,用以識別具有癥狀性顱內出血風險的急性缺血性腦卒中患者,預測模型的AUC達到了0.744[21]。

      但SVM也存在較明顯的不足,首先就是對大樣本數(shù)據(jù)的訓練難以進行,當樣本量較大時,將耗費大量的機器內存和運算時間,且無法達到所期望的效果。Heo等以2923名急性缺血性中風患者為研究對象,建立了基于機器學習的模型,發(fā)現(xiàn)基于SVM的模型AUC為0.836,基于logistic回歸模型AUC為0.842[22],SVM并不具有優(yōu)勢。

      此外,SVM的經(jīng)典算法只能解決二分類問題,然而實際問題中純粹的二分類問題較少。對于多分類問題,SVM主要使用一對多組合模式、一對一組合模式及SVM決策樹進行解決,或通過構造多個分類器的組合來將多分類問題進行轉換,對于分類較少的問題效果較好,但對于分類較多的問題易出現(xiàn)分類重疊現(xiàn)象、不可分類現(xiàn)象等,同時運算量也將大幅度增加,隨著目前硬件水平的不斷提高,相關研究目前也在不斷深入。

      2.隨機森林

      隨機森林(random forests,RF)是以決策樹(decision tree)為基礎發(fā)展而來的一類高級集成學習方法。決策樹是指通過數(shù)據(jù)之間的相似性對數(shù)據(jù)進行分類,并將分類的依據(jù)設定為節(jié)點。決策樹最大的優(yōu)勢就是將一個復雜的決定,轉化為一系列簡單的決定,將一個復雜的問題轉化為一系列簡單的問題,從而使這一復雜問題得到解決[23-24]。隨機森林就是用隨機的方式構建多個決策樹,并對所有決策樹的結果進行集成,將眾數(shù)確定為最終的輸出值。

      區(qū)別于SVM等二進制分類器算法,隨機森林本質上是一個多標簽分類器,使研究者可以直接通過算法對不同組進行分類,而不需要首先尋找方法將不同類的分組合并在一起(如前文所述的建立多個SVM解決多分類問題)再進行分類[25]。因此,在多分類問題上,隨機森林的表現(xiàn)優(yōu)于SVM等二進制分類器[26]。其次,隨機森林可以有效地處理數(shù)據(jù)量大且維度高的數(shù)據(jù)集,并能夠在訓練結束后將重要特征自動進行總結,不需要在訓練前對特征進行篩選。

      Jung-Gyu Yoon等一項針對韓國腦卒中患者一般情況與卒中后性功能變化的研究使用隨機森林算法,取得了較好的結果[27]。文天才等根據(jù)卒中相關因素、腦卒中患者所處醫(yī)療環(huán)境及患者家庭情況等方面,采用隨機森林模型對患者31天內非計劃再入院的危險因素進行了分析,利用隨機森林方法綜合考慮各因素對結局變量的影響并進行重要性評分,取得了較好的效果[28]。

      隨機森林也存在一些不足,如最大葉節(jié)點數(shù)(max leaf nodes)的設定,如果節(jié)點過少,會導致擬合不足;如果過多,甚至不對最大葉結點數(shù)進行限定,則容易導致過擬合,使模型難以泛化。目前主要采用每棵樹都使用一個訓練樣本子集和一個隨機選擇的特征子集進行訓練,之后將這些單獨訓練的子集組合在一起,從而提高模型的泛化能力[29]。另外就是采用剪枝處理,主要分為預剪枝和后剪枝[30]。預剪枝主要是指在訓練中對節(jié)點劃分前后的泛化性進行評估,如果此節(jié)點不能提升泛化性,則將此節(jié)點標記為葉節(jié)點,通過這種方法對節(jié)點進行篩選,降低過擬合的風險,也在一定程度上降低了訓練所需的計算量,但可能會導致欠擬合;后剪枝則是在決策樹訓練結束后,對訓練出的非葉節(jié)點泛化性進行驗證,從而選擇是否將子樹替換成葉節(jié)點,后剪枝訓練出的模型一般會保留更多的節(jié)點,同時其擬合程度也會更高,但其需要的算力也遠高于預剪枝[31]。

      如前文所述,Heo等的研究中,其隨機森林模型就出現(xiàn)了過擬合以至于泛化水平下降的現(xiàn)象,在測試集中,隨機森林模型的AUC為0.810,而logistic回歸模型達到了0.842[22]。此外,隨機森林還存在運算量較大等問題,但隨著計算能力和相關研究的不斷進展,問題正在逐步解決。

      3.深度學習

      深度學習(deep learning),是目前應用最廣泛的一類機器學習算法,其主要原理是通過構造多層(通常大于3層)人工神經(jīng)網(wǎng)絡來模擬大腦運行的方式,實現(xiàn)識別、分類、預測等功能[32]。

      人工神經(jīng)網(wǎng)絡(artificial neural network,ANN),簡稱神經(jīng)網(wǎng)絡(neural network,NN),可以被認為是機器學習的一個擴展,其善于捕獲輸入變量和輸出變量之間復雜的非線性關系,可以解決傳統(tǒng)統(tǒng)計分析的一些限制。在神經(jīng)網(wǎng)絡中,結果和輸入變量的關聯(lián)是使用一個或多個隱含層進行計算的,每個隱含層包含一系列的算法(節(jié)點),其從前一節(jié)點獲取信息并輸出新的數(shù)據(jù)為下一節(jié)點提供數(shù)據(jù),這一過程類似于大腦的學習過程,因此稱為神經(jīng)網(wǎng)絡。其可以運用大型標注數(shù)據(jù)集,對節(jié)點和隱含層進行迭代訓練(數(shù)千到數(shù)百萬次迭代)以對算法特征進行調整(如超參數(shù)等),從而得到最佳的預測模型[33]。

      前文所述Heo等人進行的研究,采用ANN模型所得出的算法,其AUC為0.888,優(yōu)于基于SVM、隨機森林及傳統(tǒng)logistic分析所得出的模型[22]。譚英等分別利用ANN模型和logistic回歸,通過對474 患者基本情況、實驗室檢查結果及就診醫(yī)院等其他相關因素進行分析,建立了預測模型;代入115例測試樣本后,其中隱層節(jié)點定義為9的ANN算法在準確率、靈敏度、約登指數(shù)上均優(yōu)于logistic回歸模型,其AUC為0.787,高于logistic回歸模型的0.729[34]。

      但深度學習對數(shù)據(jù)的分析一般采用非線性處理,且其過程中會經(jīng)過多層神經(jīng)網(wǎng)絡處理,運算過程作為一個“黑箱”,其運算量大,同時很難對結果進行解釋。在樣本量不足的情況下,深度學習的過擬合現(xiàn)象嚴重,這也導致了自上個世紀八十年代神經(jīng)網(wǎng)絡算法出現(xiàn)后,一直未受到廣泛的應用,直到近幾年才開始頻繁出現(xiàn)在人們視野中[5]。隨著當前大數(shù)據(jù)技術的興起,數(shù)據(jù)量在不斷擴大;同時算法的革新,使得神經(jīng)網(wǎng)絡過擬合的問題正在逐步被解決;硬件的發(fā)展,也使得算力有了大幅度的提升,解決了以上問題后,以神經(jīng)網(wǎng)絡算法為基礎的深度學習迅速發(fā)展起來,目前在科研中廣泛應用。

      討 論

      機器學習為解決當前腦卒中診療過程中存在的問題提供了新的思路,但其并非是一個完美的解決方案,仍存在以下問題和局限性。

      1.結果缺乏可理解性:傳統(tǒng)統(tǒng)計學方法中,對于輸入值的每一步處理都具有相對明確而簡單的關系。而絕大多數(shù)機器學習算法被認為是“黑箱”,尤其是深度學習,復雜的網(wǎng)狀結構和龐大的參數(shù)及超參數(shù)數(shù)量保證了運算的準確性,也使得輸入值和輸出值之間的關系難以解釋。

      2.對數(shù)據(jù)量要求較大:正如前文所述深度學習在創(chuàng)造之初不能被廣泛應用的情況相同,機器學習做出的預測模型需要不斷使用大量醫(yī)療數(shù)據(jù)進行訓練以保證其持續(xù)有效。但當前的醫(yī)療環(huán)境并不利于醫(yī)療數(shù)據(jù)的高效共享,目前正在對其進行改革以促進醫(yī)療信息交換的可行性并加強對此類交換的監(jiān)管[35-36],希望在今后的發(fā)展中逐步解決這一問題。

      3.臨床效果有待驗證:對算法最終的評價標準并不應該是這些理論上的準確性,而應是這些工具能夠多大程度上輔助臨床實踐。臨床效果的大小不僅取決于這些預測模型的準確程度,同時也取決于在這些臨床實踐中,怎樣安全有效地使用這些工具,以使其最終為患者發(fā)揮有益作用。目前這類工具在臨床上的研究和應用仍處于起步階段,未來幾十年的應用將證實機器學習能否為臨床實踐提供有益的幫助。

      4.相關知識普及不夠:目前機器學習正在飛速發(fā)展,但多數(shù)醫(yī)療人員對其了解并不深入,在臨床應用中也不夠專業(yè)。隨著機器學習融入日常醫(yī)學實踐的進程不斷推進,我們應該推薦醫(yī)療人員接受相關訓練,從而更好地分析、整合信息并在相關算法的輔助下做出臨床決策。因此,在可預見的未來,醫(yī)學的發(fā)展需要對相關從業(yè)者進行技術、方法、數(shù)據(jù)科學背景知識和預測分析倫理學問題等方面的培訓。

      5.倫理問題逐漸凸顯:隨著機器學習的廣泛應用,其為傳統(tǒng)臨床科研帶來的變化也逐步涉及倫理問題,并帶來一系列難以解決且復雜的倫理困境。關于患者隱私、數(shù)據(jù)歧視等倫理問題已經(jīng)顯而易見。同時,算法應用中出現(xiàn)誤判帶來的損失由誰承擔等一系列問題,在將來的研究和臨床實踐中會逐漸凸顯出來[37]。在機器學習應用的其他領域,倫理學的挑戰(zhàn)已經(jīng)較為明顯,故我們需要在生物倫理學上做進一步研究以促進機器學習可持續(xù)發(fā)展和應用[35],臉書和劍橋分析的失敗就是對臨床相關機器學習以及預測分析的一個重要提醒。如今的醫(yī)療設備和可穿戴設備幾乎可以收集人類行為的所有數(shù)據(jù),因此這些數(shù)據(jù)可以創(chuàng)建每個個體獨特的“數(shù)據(jù)指紋”,并對其之后的行為進行預測,這就難免會對患者的隱私有一定的侵犯。更重要的是,它可以不斷地將個體“推到”預設的行為路徑上去,使人做出規(guī)定的行為,這一問題顯然已經(jīng)超出了當前倫理問題的范疇[33]。因此,一些倡導者呼吁研究人員和機構盡快探討和采用新的人工智能和機器學習道德準則,避免因為倫理學問題損害患者利益。

      展 望

      在應用中最大的障礙之一,是當前機器學習算法的復雜性,使得不具備Python或其他編程語言技能等相關計算機科學知識的醫(yī)療人員,很難理解并加以應用。近幾年,隨著相關研究的深入,不少醫(yī)療工作者開始學習相關知識,同時,機器學習社區(qū)也正在努力設計更簡易的機器學習工具(如Keras或Lasagne等簡單接口),使其對研究者的編程能力要求更低,而基于用戶界面的圖形工具(如英偉達公司的DIGITS深度學習工具),可以使不具備編程語言基礎的用戶實現(xiàn)深度學習的基本功能,更加降低了機器學習的入門門檻。

      由于篇幅原因,還有一些已有應用的機器學習算法,如樸素貝葉斯分類器[38]、算法梯度提升樹[39]等,未能做詳細描述,有興趣的讀者可參閱相關文獻。目前機器學習已廣泛應用于腦卒中的診療過程中,并在疾病診斷、趨勢預測等方面取得了較好的成績。未來的醫(yī)學研究,將會更加注重多種來源數(shù)據(jù)的整合分析,其數(shù)據(jù)量更大、數(shù)據(jù)結構更復雜,從而導致對分析方法的要求也更高。機器學習在處理這些類型數(shù)據(jù)中具備傳統(tǒng)統(tǒng)計學方法不具備的優(yōu)勢,正逐步成為醫(yī)療科研中不可或缺的一部分,未來也將在腦卒中防治領域發(fā)揮更大的作用。

      猜你喜歡
      機器分類節(jié)點
      CM節(jié)點控制在船舶上的應用
      機器狗
      機器狗
      Analysis of the characteristics of electronic equipment usage distance for common users
      分類算一算
      基于AutoCAD的門窗節(jié)點圖快速構建
      分類討論求坐標
      未來機器城
      電影(2018年8期)2018-09-21 08:00:06
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      洛宁县| 连平县| 郯城县| 丰都县| 任丘市| 亚东县| 建瓯市| 宜都市| 衡阳市| 水城县| 芷江| 金阳县| 太湖县| 开鲁县| 呼伦贝尔市| 平顶山市| 利辛县| 攀枝花市| 栾川县| 宣城市| 张家川| 辽阳县| 喀什市| 阿城市| 林芝县| 海城市| 通山县| 永清县| 陇西县| 英山县| 抚宁县| 永川市| 绍兴县| 宜章县| 洛宁县| 荣昌县| 武城县| 甘德县| 吴忠市| 宜宾市| 白河县|