• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一類基于梯度下降的高效分布式計算方法的應用研究

      2021-10-20 03:26:40鄒智康羅元
      應用數(shù)學 2021年4期
      關鍵詞:高維精準度覆蓋率

      鄒智康,羅元

      (武漢大學數(shù)學與統(tǒng)計學院,湖北武漢430072)

      1.引言

      隨著移動互聯(lián)網(wǎng)技術的迅速發(fā)展,數(shù)據(jù)信息安全問題逐漸為人們所重視.現(xiàn)實生活中,數(shù)據(jù)的存儲方式往往是分散的,由于數(shù)據(jù)傳輸成本以及機器存儲的限制,互聯(lián)網(wǎng),金融,電子商務等行業(yè)會按區(qū)域分散設置服務器收集和存儲數(shù)據(jù).如何實現(xiàn)數(shù)據(jù)在不出本地機的前提下完成聯(lián)合建模是當下亟待解決的技術性難題.而分布式計算是解決此問題的有效途徑之一,并且由于其高可靠,可容錯和易擴展的天然優(yōu)勢,結合大數(shù)據(jù)時代背景,在高維回歸問題中極具應用前景.

      至今為止,衍生出了許多分布式計算方法.比如說,文[1-2]通過平均不同本地計算機上的結果來估計實際參數(shù).Jordan等[3]開發(fā)了一種通信有效的替代似然函數(shù)方法,即CLS(Communication-efficient Surrogate Likelihood).CLS可用于低維模型參數(shù)估計,高維正則估計和貝葉斯推斷.WANG等[4]通過在不同的本地機上使用梯度信息解決?1正則化M估計問題并提高了計算效率.

      另一方面,高維稀疏條件下的特征篩選和參數(shù)估計一直是統(tǒng)計相關學科關注的熱點之一.其中,懲罰方法扮演著重要的角色.Tibshirani[5]提出了?1正則化方法,即Lasso(The Least Absolute Shrinkage and Selectionator operator)方法.然而Lasso方法通常會過度壓縮較大的系數(shù),從而導致估計有偏差,因此統(tǒng)計學家考慮使用非凸懲罰,比如,FAN和LI[6]提出的SCAD(The Smoothly Clipped Absolute Deviation)方法以及ZHANG[7]提出的MCP(The Minimax Concave Penalty)方法都是解決此類問題的代表性成果.但是,在解超高維問題,尤其當維度p是樣本n的指數(shù)級時,即p=O(exp(n)),正則化方法存在不穩(wěn)定不收斂等問題.為此,HUANG[8]提出了交替選擇支撐集并在支撐集上估計參數(shù)的SDAR方法來解決?0懲罰問題.SDAR方法是基于?0正則化最小二乘問題的KKT條件所提出來的,具有收斂快,精度高的優(yōu)點,且可以估計出真實的支撐集并得到參數(shù)的Oracle估計.本文在SDAR算法的基礎上,提出了一種分布式的SDAR方法,簡記為GDSDAR.在GDSDAR算法中,我們利用梯度下降法來解決SDAR算法中一系列的最小二乘問題,其中梯度信息的傳遞保證了在聯(lián)合建模過程中原始數(shù)據(jù)的私密性,同時滿足高維稀疏計算以及數(shù)據(jù)安全的要求.

      2.問題簡介

      3.實驗結果與分析

      由表3.1結果分析可知,其他參數(shù)保持不變,隨著樣本總量N的增加,三種算法的相對誤差(RE)值的變化沒有統(tǒng)一趨勢,但在每種情形下,GDSDAR算法的精準度都是最優(yōu)的.對于正確指標覆蓋率ICR,LASSO與其他兩種方法相比,覆蓋率最小,SCAD方法在樣本量偏低時表現(xiàn)最好,而當樣本總量N增加到一定程度后,GDSDAR方法的ICR指標最優(yōu).此外,從計算時間的角度分析,三種算法運行所需的平均時長會隨著樣本總量N的增加而延長.但是在每一種情況下,GDSDAR算法的平均時長最短且波動幅度與另外兩種算法相近.綜上所述,GDSDAR算法在每種情形下都有著最好的精準度和最高的計算效率,且當樣本總量偏大時,正確指標覆蓋率表現(xiàn)更優(yōu).

      表3.1 不同樣本總量N下三種算法的比較

      根據(jù)表3.2中的數(shù)據(jù)分析可知,在其他參數(shù)保持不變情況下,隨著稀疏度s的不斷增大,三種方法中只有GDSDAR結果的RE值在不斷下降,始終保持著最高的精準度,而另外兩種方法的RE值則不斷增加,與GDSDAR的精度差距逐漸拉大,說明我們的方法對中等稀疏問題仍然有效.至于正確指標覆蓋率,GDSDAR和SCAD方法隨著s值的增加,ICR指標都穩(wěn)步提升,一度達到99%的準確率,LASSO方法的ICR指標在大幅降低,從一開始的96.72%陡降至62.67%,說明LASSO方法不適用于中等稀疏問題.綜上所述,在保證較高指標覆蓋率的前提下,GDSDAR擁有更高的精準度,且在稀疏度K較大時,表現(xiàn)更好.

      表3.2 不同稀疏度s下三種算法結果比較

      分析表3.3數(shù)據(jù)可知,其他參數(shù)保持不變,當數(shù)據(jù)相關性ρ變高時,GDSDAR、LASSO結果的相對誤差都在不斷降低,而SCAD結果的相對誤差則在不斷增大,從總體上看,GDSDAR算法的RE值最小,精準度最高.對于正確指標覆蓋率,GDSDAR、SCAD兩種方法在相關性變高時,ICR指標逐漸增大,而LASSO方法表現(xiàn)呈下滑趨勢.相比而言,GDSDAR在低相關性條件下更有優(yōu)勢,SCAD在高相關性條件下會略勝一籌.綜上所述,GDSDAR算法在相關性變動的情況下,精準度都有良好的保證,且正確指標覆蓋率較高.

      表3.3 不同相關程度ρ下三種算法結果比較

      4.結語

      本文提出了一種求解分布式情形下高維稀疏參數(shù)估計的算法GDSDAR.創(chuàng)新點主要體現(xiàn)在兩個方面.一方面,GDSDAR方法可以解決分散存儲數(shù)據(jù)的聯(lián)合建模問題,在運算過程中,發(fā)生信息交互的僅僅是梯度向量而非數(shù)據(jù)本身,所以能夠保證本地數(shù)據(jù)的私密性,考慮到當今社會對于信息安全的重視程度,這一特性使得GDSDAR算法擁有廣泛的應用前景.另一方面,在高維稀疏的假定下,GDSDAR算法通過對?0約束最小化KKT條件的改進,交替選擇支撐集的方式并在支撐集上估計參數(shù).實驗表明,相較于經(jīng)典的?1正則化方法,GDSDAR無論在精準度或是指標正確覆蓋率兩方面都有著優(yōu)異的表現(xiàn),穩(wěn)定性也十分出色.

      除了上述的創(chuàng)新點,GDSDAR算法仍然存在一些后續(xù)的問題.例如在每次運行算法前,我們需要依據(jù)經(jīng)驗事先確定模型大小,然后據(jù)此得到相應的模型.在接下來的研究中,我們考慮運用交叉驗證或者統(tǒng)計學中的HBIC指標輔助判斷合適的模型大小,這種改進將會使GDSDAR算法更適用于真實數(shù)據(jù)的建模計算.

      猜你喜歡
      高維精準度覆蓋率
      BH66F5355 增強型24-bit A/D MCU
      傳感器世界(2023年5期)2023-08-03 10:38:18
      民政部等16部門:到2025年村級綜合服務設施覆蓋率超80%
      我國全面實施種業(yè)振興行動 農(nóng)作物良種覆蓋率超過96%
      讓黨建活動更加有“味”——禮泉縣增強“兩新”黨建精準度
      當代陜西(2020年24期)2020-02-01 07:06:56
      一種改進的GP-CLIQUE自適應高維子空間聚類算法
      測控技術(2018年4期)2018-11-25 09:46:48
      論提高不動產(chǎn)產(chǎn)權保護精準度的若干問題
      基于加權自學習散列的高維數(shù)據(jù)最近鄰查詢算法
      電信科學(2017年6期)2017-07-01 15:44:37
      基于噴丸隨機模型的表面覆蓋率計算方法
      一般非齊次非線性擴散方程的等價變換和高維不變子空間
      高維Kramers系統(tǒng)離出點的分布問題
      景谷| 新蔡县| 本溪市| 北京市| 连山| 蓬溪县| 长顺县| 英德市| 德化县| 高尔夫| 桐梓县| 黄山市| 阿克陶县| 扶风县| 历史| 汕尾市| 大洼县| 高阳县| 彰化市| 汝南县| 富川| 兰溪市| 海丰县| 林甸县| 武定县| 张家港市| 兴安县| 阜城县| 瑞金市| 黄龙县| 翼城县| 河南省| 都江堰市| 将乐县| 黄梅县| 工布江达县| 农安县| 射阳县| 赣州市| 大厂| 大关县|