• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      樣本不平衡的睡眠數(shù)據(jù)分期研究

      2016-10-28 08:30:31李玉平
      關(guān)鍵詞:類(lèi)別受試者準(zhǔn)確率

      李玉平, 夏 斌

      (上海海事大學(xué) 信息工程學(xué)院,上海 201306)

      ?

      樣本不平衡的睡眠數(shù)據(jù)分期研究

      李玉平, 夏斌

      (上海海事大學(xué) 信息工程學(xué)院,上海 201306)

      睡眠數(shù)據(jù)中各個(gè)階段的樣本數(shù)差異較大,睡眠數(shù)據(jù)的自動(dòng)分期是一個(gè)典型的樣本不平衡的機(jī)器學(xué)習(xí)問(wèn)題。均衡樣本方法通過(guò)抽樣的手段來(lái)平衡樣本,是解決樣本不平衡問(wèn)題的主要方法。采用均衡樣本方法來(lái)平衡睡眠數(shù)據(jù)的不同階段的樣本,并且結(jié)合多域特征(時(shí)域、頻域、時(shí)頻域以及非線(xiàn)性)和隨機(jī)森林分類(lèi)算法進(jìn)行分類(lèi)預(yù)測(cè)。比較分析了樣本均衡處理和非均衡處理的分類(lèi)結(jié)果,發(fā)現(xiàn)均衡處理后的數(shù)據(jù)取得了更好的分類(lèi)效果。

      睡眠分期;數(shù)據(jù)不平衡;隨機(jī)森林

      引用格式:李玉平, 夏斌. 樣本不平衡的睡眠數(shù)據(jù)分期研究[J].微型機(jī)與應(yīng)用,2016,35(18):55-57,61.

      0 引言

      睡眠是生命過(guò)程中必不可少且十分重要的生理現(xiàn)象。依據(jù)國(guó)際R&K標(biāo)準(zhǔn)[1],睡眠期可分為快速眼動(dòng)期、非快速眼動(dòng)期(S1,S2,S3,S4)以及清醒期,區(qū)別分期主要以眼球是否進(jìn)行了陣發(fā)性快速運(yùn)動(dòng)為標(biāo)準(zhǔn)。根據(jù)上述睡眠分期標(biāo)準(zhǔn),睡眠數(shù)據(jù)可分為6類(lèi),且不同類(lèi)別的數(shù)據(jù)量之間具有較大的差異性,即睡眠數(shù)據(jù)分期存在樣本不平衡的問(wèn)題。在應(yīng)用機(jī)器學(xué)習(xí)研究睡眠分期過(guò)程中,樣本不平衡會(huì)導(dǎo)致睡眠分期結(jié)果不準(zhǔn)確,睡眠分期的可信度降低。在以前的睡眠分期研究中,研究的主要是睡眠數(shù)據(jù)特征的提取以及分類(lèi)算法的選取[2-4],并沒(méi)有研究睡眠分期樣本不平衡問(wèn)題。本文采用EEG、EOG、EMG 3種信號(hào)5個(gè)通道的睡眠數(shù)據(jù),研究中發(fā)現(xiàn),EOG信號(hào)會(huì)出現(xiàn)在EEG信號(hào)的一些睡眠分期(如清醒狀態(tài)和快速眼動(dòng)狀態(tài))中,這種數(shù)據(jù)會(huì)對(duì)睡眠分期產(chǎn)生不好的影響[5]。本文通過(guò)對(duì)睡眠分期樣本不平衡的研究以及信號(hào)混雜的處理,進(jìn)一步提高睡眠分期的準(zhǔn)確度,同時(shí)對(duì)相關(guān)睡眠疾病的診斷和治療提供重要的參考意義。

      基于以上睡眠數(shù)據(jù)分期的討論,本文采用均衡采樣的方法解決睡眠分期樣本不平衡問(wèn)題,同時(shí)研究睡眠數(shù)據(jù)的特征提取以減少信號(hào)混雜對(duì)睡眠分期的影響。

      1 方法

      1.1特征提取

      睡眠數(shù)據(jù)的特征主要?jiǎng)澐譃闀r(shí)域特征、頻域特征、時(shí)頻域特征以及非線(xiàn)性特征。本文中,提取EEG、EOG和EMG每種信號(hào)各38種特征。

      特征參數(shù)如下:第1~6種是6個(gè)時(shí)域特征[6-8]:均值(Mean)、方差(Variance)、峰度(Kurtosis)、偏度(Skewness)、過(guò)零率(Number of zero crossing,NZC)、最大值(MaxV);第7~19種是頻域特征[8-10]:對(duì)4個(gè)子節(jié)律波分別提取各自范圍的功率譜能量(SP_),計(jì)算0.01~30 Hz頻帶的總功率譜能量(SP_D),以及總功率譜能量的規(guī)范化能量比(NSP_),即theta/beta、beta/alpha、(theta+alpha)/beta, (theta+alpha)/(beta+alpha);第20~35種是時(shí)頻域特征[8-10]:4個(gè)子節(jié)律波在當(dāng)前頻帶范圍上小波系數(shù)的均值、能量、標(biāo)準(zhǔn)差以及相對(duì)于總頻帶范圍的絕對(duì)平均值;第36~38種特征分別是Petrosian分形指數(shù)、Hurst指數(shù)、排列熵[11-12]。

      1.2均衡采樣

      睡眠數(shù)據(jù)存在樣本不平衡的問(wèn)題,在6類(lèi)的數(shù)據(jù)中,最多一類(lèi)的數(shù)據(jù)集與最少的一類(lèi)數(shù)據(jù)集的比例達(dá)到10倍以上,存在嚴(yán)重不平衡現(xiàn)象。本文應(yīng)用均衡采樣的方法處理樣本失衡的問(wèn)題[13]:(1)分別計(jì)算6類(lèi)睡眠分期數(shù)據(jù)的個(gè)數(shù)n1、n2、n3、n4、n5、n6;(2)去掉個(gè)數(shù)最少和個(gè)數(shù)最多的個(gè)數(shù)值,剩余為n1、n2、n3、n4,計(jì)算這4類(lèi)個(gè)數(shù)的平均值n;(3)對(duì)6類(lèi)數(shù)據(jù)按個(gè)數(shù)平均值n采樣,不足平均個(gè)數(shù)的類(lèi)別重復(fù)采樣,超過(guò)平均個(gè)數(shù)的類(lèi)別欠采樣;(4)整合6類(lèi)數(shù)據(jù)采樣得到的新數(shù)據(jù)集即為均衡處理后的數(shù)據(jù)[4,14]。

      1.3隨機(jī)森林分類(lèi)器

      隨機(jī)森林模型是決策樹(shù)集成的算法,并且由一隨機(jī)向量決定決策樹(shù)的構(gòu)造。通過(guò)訓(xùn)練集得到隨機(jī)森林模型后,當(dāng)有一個(gè)新的輸入樣本進(jìn)入時(shí),就讓隨機(jī)森林的每一棵決策樹(shù)分別進(jìn)行判斷,判斷樣本所屬類(lèi)別,然后計(jì)算哪一個(gè)類(lèi)別被選擇最多,就預(yù)測(cè)該樣本所屬的類(lèi)別。隨機(jī)森林算法特征參數(shù)較多,測(cè)試結(jié)果不會(huì)出現(xiàn)過(guò)擬合的情形;能夠處理高維度特征的睡眠數(shù)據(jù),不用做特征選擇,對(duì)數(shù)據(jù)集的適應(yīng)能力強(qiáng);訓(xùn)練速度快,能夠檢測(cè)不同特征之間的影響[13,15]。

      隨機(jī)森林實(shí)現(xiàn)過(guò)程為:(1)原始訓(xùn)練集為N,采用集成算法有放回地隨機(jī)選取k個(gè)樣本集構(gòu)建k棵分類(lèi)樹(shù),每次沒(méi)有被抽到的樣本組成k個(gè)袋外數(shù)據(jù);(2)設(shè)定mall變量,在每棵樹(shù)的每個(gè)節(jié)點(diǎn)處隨機(jī)抽取mtry個(gè)變量(mtry,n,mall),然后在mtry中選擇一個(gè)最佳的分類(lèi)變量,變量分類(lèi)的閾值通過(guò)檢查每一個(gè)分類(lèi)點(diǎn)確定;(3)每一棵樹(shù)最大限度地生長(zhǎng),不做任何修剪;(4)將構(gòu)造的多棵分類(lèi)樹(shù)組成隨機(jī)森林,用隨機(jī)森林分類(lèi)器對(duì)新的數(shù)據(jù)進(jìn)行判別與分類(lèi),分類(lèi)的結(jié)果按樹(shù)分類(lèi)器投票數(shù)確定。

      2 實(shí)驗(yàn)與結(jié)果

      2.1數(shù)據(jù)

      本文采用9名受試者的睡眠數(shù)據(jù)來(lái)驗(yàn)證分類(lèi)方法和數(shù)據(jù)不平衡處理的可行性。數(shù)據(jù)集記錄了這9名志愿者一晚上的睡眠數(shù)據(jù),以1~9命名這些數(shù)據(jù)集。數(shù)據(jù)包含15個(gè)通道的睡眠時(shí)的信號(hào)數(shù)據(jù)以及呼吸頻率和身體溫度。對(duì)應(yīng)的EEG、EOG、EMG信號(hào)按100 Hz進(jìn)行采樣。數(shù)據(jù)集處理部分,分別進(jìn)行了7/3分和留一方法,采用這兩種方法驗(yàn)證睡眠分期樣本不平衡的處理效果。

      2.2數(shù)據(jù)預(yù)處理

      首先采用巴特沃夫?yàn)V波器提取原始睡眠數(shù)據(jù)中0.01~35 Hz的數(shù)據(jù),并應(yīng)用高斯歸一化方法對(duì)數(shù)據(jù)進(jìn)行歸一化處理。由于采樣的睡眠數(shù)據(jù)可能存在標(biāo)簽不正確的問(wèn)題,因此會(huì)剔除不正確的標(biāo)簽數(shù)據(jù)。具體方法是,首先找出空標(biāo)簽或標(biāo)簽異常(不在已有類(lèi)別中的標(biāo)簽),根據(jù)標(biāo)簽對(duì)應(yīng)的位置,剔除這些標(biāo)簽對(duì)應(yīng)的數(shù)據(jù)集,最后更新數(shù)據(jù)集。采用以上方法進(jìn)行數(shù)據(jù)預(yù)處理之后,得到7 461條數(shù)據(jù)。

      2.3均衡采樣數(shù)據(jù)

      經(jīng)預(yù)處理和特征提取之后,對(duì)9個(gè)受試者的數(shù)據(jù)進(jìn)行整合,數(shù)據(jù)總量為59 680。采用7/3分?jǐn)?shù)據(jù)集,即70%數(shù)據(jù)做訓(xùn)練集,30%數(shù)據(jù)做測(cè)試集,訓(xùn)練集數(shù)據(jù)量為41 773,測(cè)試集數(shù)據(jù)量為17 907。為了驗(yàn)證均衡采樣的可行性,對(duì)訓(xùn)練集做均衡處理,得到22 465條新的訓(xùn)練集。

      2.4結(jié)果

      本文第一種驗(yàn)證方法是7/3數(shù)據(jù)集,結(jié)果如下:表1是所有數(shù)據(jù)集7/3分,對(duì)訓(xùn)練集進(jìn)行均衡處理的分類(lèi)結(jié)果準(zhǔn)確率;表2是均衡采樣數(shù)據(jù)集和普通數(shù)據(jù)集分類(lèi)結(jié)果對(duì)比;表3是不同信號(hào)組合,均衡采樣分類(lèi)結(jié)果對(duì)比。

      表1 均衡處理測(cè)試結(jié)果

      表2 分類(lèi)結(jié)果對(duì)比 (%)

      表3 不同信號(hào)組合分類(lèi)結(jié)果對(duì)比 (%)

      圖1 均衡處理留一驗(yàn)證準(zhǔn)確率

      第二種驗(yàn)證方法是對(duì)9個(gè)受試者的數(shù)據(jù)集進(jìn)行留一驗(yàn)證。分別提取其中8個(gè)受試者的數(shù)據(jù)集作為訓(xùn)練集做均衡處理,剩下1個(gè)受試者的數(shù)據(jù)集作為測(cè)試集。分類(lèi)結(jié)果如圖1所示。

      由表1得知,同時(shí)考慮EEG、EOG、EMG 3種信號(hào)5個(gè)通道的數(shù)據(jù)集,得到的分類(lèi)準(zhǔn)確率達(dá)到84.33%,wake類(lèi)別的分類(lèi)準(zhǔn)確率最高,模型對(duì)wake類(lèi)別的泛化能力最好,而S1類(lèi)別數(shù)據(jù)量最少,同時(shí)分類(lèi)效果也最差。由表2得知:均衡處理之后,wake、S1、S3、rem這4類(lèi)睡眠分期結(jié)果得到了提升,S4基本一致,S2的結(jié)果降低了。由表3知:提取一種信號(hào)EEG時(shí),睡眠分期準(zhǔn)確率比同時(shí)提取多種信號(hào)時(shí)的準(zhǔn)確率低。由圖1留一驗(yàn)證知,2、5、9號(hào)受試者睡眠分期的結(jié)果達(dá)到了80%以上,分類(lèi)效果較好;3、6號(hào)受試者睡眠分期準(zhǔn)確率較低。

      3 結(jié)論

      本研究采用了EEG、EOG、EMG 3種信號(hào)5個(gè)通道數(shù)據(jù)集,并且應(yīng)用均衡采樣的方法處理訓(xùn)練集數(shù)據(jù)不平衡問(wèn)題,睡眠分期結(jié)果較好,平均分類(lèi)準(zhǔn)確率得到了提升,并且有4個(gè)睡眠分期的分類(lèi)結(jié)果都得到了提升。在今后對(duì)睡眠分期樣本不平衡的研究中,可以采用加權(quán)隨機(jī)森林或其他的方法處理睡眠數(shù)據(jù)集不平衡的問(wèn)題。

      [1] RECHTSCHAFFEN A Q, KALES A A. A manual of standardized terminology, techniques, and scoring system for sleep stages of human subjects[J]. Psychiatry & Clinical Neurosciences, 1968,55.

      [2] 李谷,范影樂(lè),龐全.基于排列組合熵的腦電信號(hào)睡眠分期研究[J].生物醫(yī)學(xué)工程學(xué)志,2009,26(4):869-872.

      [3] Liu Derong,Pang Zhongyu,LLOYD S R.A neural network method for detection of obstructive sleep apnea and narcolepsy based on pupil size and EEG[J].IEEE Transactions on Neural Networks,2008,19(2):308-318.

      [4] ANAND A, PUGALENTHI G, FOGEL G B, et al. An approach for classification of highly imbalanced data using weighting and undersampling[J]. Amino Acids, 2010,39(5):1385-1391.

      [5] BREIMAN L, FRIEDMAN J, OLSHEN R, et al. Classification and regression trees[M]. New York: Chapman & Hall,1984.

      [6] SMITH J R. Automated EEG analysis with microcomputers[J]. Medical Instrumentation, 1980,14(6):319-321.

      [7] VURAL C, YILDIZ M. Determination of sleep stage separation ability of features extracted from EEG signals using principal component analysis[J]. Journal of Medical Systems,2010,34(1):83-89.[8]EN B, PEKER M, A ?AVULU A, et al. A comparative study on classification of sleep stage based on EEG signals using feature selection and classification algorithms[J]. Journal of Medical Systems,2014,38(3):1-21.

      [9] HAMIDA T B, AHMED B. Computer based sleep staging: challenges for the future[C]. 2013 IEEE GCC Conference and Exhibition, 2013:280-285.

      [10] AKIN M. Comparison of wavelet transform and FFT methods in the analysis of EEG signals[J]. Journal of Medical Systems,2002,26(3):241-247.

      [11] FELL J, RSCHKE J, MANN K, et al. Discrimination of sleep stages: a comparison between spectral and nonlinear EEG measures[J]. Electroencephalography and Clinical Neurophysiology, 1996,98(5):401-410.

      [12] PEREDA E, GAMUNDI A, RIAL R, et al. Non-linear behavioor of human EEG: fractal exponent versus correlation dimension in awake and sleep stages[J]. Neuroscience Letters, 1998,250(2):91-94.

      [13] 毛文濤,王金婉,等.面向貫序不均衡數(shù)據(jù)的混合采樣極限學(xué)習(xí)機(jī)[J].計(jì)算機(jī)應(yīng)用,2015, 35(8):2221-2226.

      [14] He Haibo,GARCIA E A. Learning from imbalanced data[J],IEEE Transactions on Knowledge and Data Engineering,2009,21(9):1263-1284.

      [15] BREIMAN L. Random forests[J]. Machine Learning,2001, 45(1):5-32.

      Research on the stage of sleep data with imbalanced sample

      Li Yuping, Xia Bin

      (College of Information Engineering, Shanghai Maritime University, Shanghai 201306,China)

      Sleep data in each stage is different, and the automatic staging of sleep data is a typical problem of sample imbalance.Balanced sampling method balances samples by sampling, and it is the main method to solve the problem of sample imbalance.In this paper, we use a balanced sample method to balance the different stages of sleep data in a sample,and combine multi domain features (time domain, frequency domain, time domain and nonlinear) with random forest classification algorithm for classification and prediction.We compare the classification results of sample equalization processing and non equalization processing, and find that the better classification results are obtained after balancing the processed data.

      sleep stage;data imbalance;random forest

      TP391.9

      ADOI: 10.19358/j.issn.1674- 7720.2016.18.016

      2016-04-18)

      李玉平(1990-),通信作者,男,碩士研究生,主要研究方向:智能信息處理。E-mail:liyuping_love@126.com。

      夏斌(1975-),男,博士,副教授,碩士生導(dǎo)師,主要研究方向:腦-機(jī)接口、云計(jì)算及人工智能。

      猜你喜歡
      類(lèi)別受試者準(zhǔn)確率
      涉及人的生物醫(yī)學(xué)研究應(yīng)遵循的倫理原則
      涉及人的生物醫(yī)學(xué)研究應(yīng)遵循的倫理原則
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      涉及人的生物醫(yī)學(xué)研究應(yīng)遵循的倫理原則
      涉及人的生物醫(yī)學(xué)研究應(yīng)遵循的倫理原則
      高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      服務(wù)類(lèi)別
      論類(lèi)別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      鸡东县| 岚皋县| 醴陵市| 思茅市| 晋宁县| 郑州市| 封丘县| 霍城县| 溆浦县| 阆中市| 绵阳市| 璧山县| 长治县| 嘉祥县| 玛沁县| 隆尧县| 江北区| 广州市| 新化县| 峨眉山市| 天水市| 阳西县| 微山县| 沁水县| 泗阳县| 霍山县| 新宁县| 谢通门县| 阿克苏市| 泰顺县| 闸北区| 成安县| 沛县| 大埔区| 牡丹江市| 西乌珠穆沁旗| 疏附县| 汕尾市| 新营市| 方城县| 通河县|