• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向不平衡數(shù)據(jù)的邏輯回歸偏標(biāo)記學(xué)習(xí)算法

      2017-04-07 07:22:46瑜,
      大連理工大學(xué)學(xué)報 2017年2期
      關(guān)鍵詞:集上邏輯精度

      周 瑜, 顧 宏

      ( 大連理工大學(xué) 電子信息與電氣工程學(xué)部, 遼寧 大連 116024 )

      面向不平衡數(shù)據(jù)的邏輯回歸偏標(biāo)記學(xué)習(xí)算法

      周 瑜, 顧 宏*

      ( 大連理工大學(xué) 電子信息與電氣工程學(xué)部, 遼寧 大連 116024 )

      偏標(biāo)記學(xué)習(xí)是近幾年提出的新機(jī)器學(xué)習(xí)框架,已有的邏輯回歸偏標(biāo)記算法尚不能解決數(shù)據(jù)不平衡問題.建立了一種可以解決數(shù)據(jù)不平衡的邏輯回歸模型偏標(biāo)記學(xué)習(xí)算法.基本思想是在多元邏輯回歸模型中定義新的似然函數(shù)以達(dá)到處理不平衡數(shù)據(jù)的目的.算法先根據(jù)訓(xùn)練集中各個類別樣本所占比例定義了一個新的似然函數(shù),之后通過逼近和求導(dǎo)等數(shù)學(xué)手段推導(dǎo)得到了能夠求解的光滑的邏輯回歸偏標(biāo)記學(xué)習(xí)模型.在UCI數(shù)據(jù)集和真實數(shù)據(jù)集上的仿真實驗表明,所提算法在數(shù)據(jù)存在不平衡問題時提高了樣本的平均分類精度.

      偏標(biāo)記學(xué)習(xí);數(shù)據(jù)不平衡;邏輯回歸;阻尼牛頓法

      0 引 言

      偏標(biāo)記學(xué)習(xí)是近幾年提出的一種新的機(jī)器學(xué)習(xí)框架,國內(nèi)外學(xué)者對它的研究已經(jīng)有了一定的成果.最早的文獻(xiàn)是Grandvalet對邏輯回歸模型進(jìn)行的拓展研究[1],其提出了一種偏標(biāo)記學(xué)習(xí)算法;隨后Jin等[2]將偏標(biāo)記學(xué)習(xí)歸結(jié)為一種新的機(jī)器學(xué)習(xí)框架.新的學(xué)習(xí)框架的提出促進(jìn)了眾多學(xué)者對偏標(biāo)記學(xué)習(xí)的研究,k近鄰[3]、最大間隔[4]、線性支持向量機(jī)[5-6]等方法均被用于偏標(biāo)記學(xué)習(xí)算法研究.這些方法都是通過定義新的損失函數(shù)來改進(jìn)傳統(tǒng)分類模型,使其可以處理偏標(biāo)記學(xué)習(xí)問題.但在很多的實際應(yīng)用問題中,各個類別的樣本數(shù)量之間是極度不平衡的,如在蛋白質(zhì)亞細(xì)胞定位預(yù)測問題中[7],數(shù)據(jù)集中兩類數(shù)目差別近百倍.?dāng)?shù)據(jù)集的這種類不平衡(也稱數(shù)據(jù)不平衡)問題對學(xué)習(xí)算法性能具有很大的影響,通常會導(dǎo)致算法的分類面偏向少數(shù)類一側(cè),從而造成預(yù)測精度大幅下降,特別是對少數(shù)類樣本的預(yù)測精度要遠(yuǎn)遠(yuǎn)低于多數(shù)類樣本[8].目前已有的偏標(biāo)記學(xué)習(xí)算法都沒有考慮數(shù)據(jù)的不平衡性.因此,考慮數(shù)據(jù)不平衡問題的偏標(biāo)記學(xué)習(xí)算法也是將偏標(biāo)記學(xué)習(xí)技術(shù)推向更加實用化所需要解決的關(guān)鍵問題.本文建立一種邏輯回歸偏標(biāo)記學(xué)習(xí)算法,以期提高不平衡數(shù)據(jù)的平均分類精度.

      1 邏輯回歸偏標(biāo)記學(xué)習(xí)模型

      1.1 模型建立

      偏標(biāo)記學(xué)習(xí)的定義如下:

      設(shè)X為樣本的特征空間,Y={1,2,…,l}為類別標(biāo)記集合.利用訓(xùn)練集D={(x1,Y1),(x2,Y2),…,(xn,Yn)}(其中xi∈X是樣本的特征向量;Yi≡{yi1,yi2,…,yini}?Y,是含樣本xi真實標(biāo)記的一個集合)確定一個函數(shù)f:X→Y,使得f可以正確輸出新(待預(yù)測)樣本x*∈X的類別標(biāo)記.

      (1)

      (2)

      由于max(·)函數(shù)不可導(dǎo),用凝聚函數(shù)逼近最大值似然函數(shù).當(dāng)p→+∞時,有

      (3)

      當(dāng)p→∞時,

      當(dāng)s≠t,s∈Yi時,

      當(dāng)s=t,s,t∈Yi時,

      則當(dāng)p→∞時,

      則Z(W)對W一階和二階導(dǎo)數(shù)可寫成矩陣形式:

      (4)

      1.2 模型求解

      本文應(yīng)用阻尼牛頓法對模型進(jìn)行求解,阻尼牛頓法的迭代公式如下:

      Wk+1=Wk-λk(▽▽Z(Wk))-1▽Z(Wk)

      圖1 阻尼牛頓法求解W

      2 數(shù)值實驗

      表1 算法驗證所用的數(shù)據(jù)集

      表2 兩個算法在UCI數(shù)據(jù)集上的預(yù)測精度

      表3 兩個算法在UCI數(shù)據(jù)集上的平均預(yù)測精度

      表4 兩個算法在真實數(shù)據(jù)集上的預(yù)測精度

      3 結(jié) 語

      本文提出了可以處理數(shù)據(jù)不平衡問題的邏輯回歸偏標(biāo)記學(xué)習(xí)算法,在數(shù)據(jù)集上的實驗結(jié)果驗證了本文算法的有效性以及在處理不平衡問題方面的優(yōu)勢.下一步的工作是定義新的似然函數(shù),應(yīng)用更好的適合偏標(biāo)記學(xué)習(xí)的機(jī)器學(xué)習(xí)算法,使其能夠更好地處理數(shù)據(jù)不平衡偏標(biāo)記學(xué)習(xí)問題.

      [1] GRANDVALET Y. Logistic regression for partial labels [C] // Proceeding of the 9th International Conference on Information Processing and Management of Uncertainty in Knowledge-Based Systems. Annecy: IPMU, 2002:1935-1941.

      [2] JIN R, GHAHRAMANI Z. Learning with multiple labels [C] // Advances in Neural Information Processing Systems 15-Proceedings of the 2002 Conference, NIPS 2002. Vancouver: Neural Information Processing Systems Foundation, 2003.

      [3] HüELLERMEIER E, BERINGER J. Learning from ambiguously labeled examples [J]. Intelligent Data Analysis, 2006, 10(5):419-439.

      [4] LUO J, ORABONA F. Learning from candidate labeling sets [C] // Advances in Neural Information Processing Systems 23: 24th Annual Conference on Neural Information Processing Systems 2010, NIPS 2010. Red Hook: Curran Associates Inc., 2010:1504-1512.

      [5] COUR T, SAPP B, TASKAR B. Learning from partial labels [J]. Journal of Machine Learning Research, 2011, 12:1501-1536.

      [6] NGUYEN N, CARUANA R. Classification with partial labels [C] // KDD 2008 - Proceedings of the 14th ACMKDD International Conference on Knowledge Discovery and Data Mining. New York: Association for Computing Machinery, 2008:551-559.

      [7] HE J, GU H, LIU W. Imbalanced multi-modal multi-label learning for subcellular localization prediction of human proteins with both single and multiple sites [J]. PLoS One, 2012, 7(6):e37155.

      [8] LIU X Y, ZHOU Z H. Imbalanced Learning:Foundations, Algorithms, and Applications [M]. Hoboken:Wiley-IEEE Press, 2013:61-82.

      [9] HORN R, JOHNSON C. Topics in Matrix Analysis [M]. Cambridge:Cambridge University Press, 1991:239-297.

      [10] BACHE K, LICHMAN M. UCI machine learning repository [EB/OL]. (2013-04-04) [2016-08-12]. http://archive.ics.uci.edu/ml.

      [11] 周 瑜,賀建軍,顧 宏,等. 一種基于最大值損失函數(shù)的快速偏標(biāo)記學(xué)習(xí)算法[J]. 計算機(jī)研究與發(fā)展, 2016, 53(5):1053-1062.

      ZHOU Yu, HE Jianjun, GU Hong,etal. A fast partial label learning algorithm based on max-loss function [J]. Journal of Computer Research and Development, 2016, 53(5):1053-1062. (in Chinese)

      Partial label learning algorithm for imbalanced data based on logistic regression

      ZHOU Yu, GU Hong*

      ( Faculty of Electronic Information and Electrical Engineering, Dalian University of Technology, Dalian 116024, China )

      Partial label learning is a new machine learning framework proposed in recent years, but existing partial label learning algorithms based on logistic regression have not solved the problem of data imbalance. A partial label learning algorithm for data imbalance is presented based on logistic regression model. The basic idea is to define a new likelihood function in the multiple logistic regression models to deal with imbalanced data. Firstly, a new likelihood function is defined according to the proportion of each class sample in the training set; then, the smooth and logistic regression-based partial label learning model is derived through derivation and approximation method. Simulation experiments on UCI data sets and real world data sets show that the proposed algorithm improves the average classification accuracy of sample for data imbalance problem.

      partial label learning; data imbalance; logistic regression; damped Newton method

      2016-09-05;

      2016-11-07.

      國家自然科學(xué)基金資助項目(61502074,U1560102).

      周 瑜(1982-),女,博士生,E-mail:zhouyu829@163.com;顧 宏*(1961-),男,教授,博士生導(dǎo)師,E-mail:guhong@dlut.edu.cn.

      1000-8608(2017)02-0184-05

      TP391

      A

      10.7511/dllgxb201702011

      猜你喜歡
      集上邏輯精度
      刑事印證證明準(zhǔn)確達(dá)成的邏輯反思
      法律方法(2022年2期)2022-10-20 06:44:24
      邏輯
      創(chuàng)新的邏輯
      Cookie-Cutter集上的Gibbs測度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      基于DSPIC33F微處理器的采集精度的提高
      電子制作(2018年11期)2018-08-04 03:25:38
      復(fù)扇形指標(biāo)集上的分布混沌
      女人買買買的神邏輯
      37°女人(2017年11期)2017-11-14 20:27:40
      GPS/GLONASS/BDS組合PPP精度分析
      改進(jìn)的Goldschmidt雙精度浮點除法器
      确山县| 清原| 儋州市| 乳山市| 大英县| 大同市| 正蓝旗| 乌恰县| 鞍山市| 普安县| 广德县| 德令哈市| 郧西县| 龙游县| 承德市| 嘉黎县| 陇川县| 宝应县| 钦州市| 隆安县| 梁河县| 仪陇县| 康定县| 大竹县| 宜丰县| 舒兰市| 平安县| 牡丹江市| 迁西县| 德江县| 北宁市| 福泉市| 方城县| 巴彦县| 兴文县| 浦县| 平山县| 明溪县| 襄汾县| 沅陵县| 萨嘎县|