湖北中醫(yī)藥大學(xué)信息工程學(xué)院(430065) 黃 瑤 肖 勇
基于Kernel_PCA算法的中醫(yī)藥項(xiàng)目執(zhí)行情況綜合評(píng)估*
湖北中醫(yī)藥大學(xué)信息工程學(xué)院(430065) 黃 瑤 肖 勇△
近年來(lái),中央財(cái)政用于支持全國(guó)中醫(yī)藥事業(yè)發(fā)展的專項(xiàng)資金屢創(chuàng)歷史新高,財(cái)政部等部門對(duì)中醫(yī)藥項(xiàng)目預(yù)算執(zhí)行管理提出更高的要求[1-2]。中醫(yī)藥項(xiàng)目數(shù)據(jù)并不存在直接的線性關(guān)系,應(yīng)用單一指標(biāo)使用的評(píng)估方法很難直接和全面反映全國(guó)中醫(yī)藥項(xiàng)目總體執(zhí)行情況。Kernel_PCA算法不是一種新型算法,它是由主成分分析法(principal component analysis,PCA)進(jìn)一步發(fā)展而來(lái),可處理非線性數(shù)據(jù),通過(guò)非線性映射將初始數(shù)據(jù)空間投射到高維特征空間,然后在特征空間里進(jìn)行主成分分析,把非線性問(wèn)題轉(zhuǎn)化為線性問(wèn)題。本文基于Kernel_PCA算法,綜合考慮全國(guó)各省份中醫(yī)藥項(xiàng)目的預(yù)算執(zhí)行情況,運(yùn)用多重填補(bǔ)法(multiple imputation,M I)對(duì)中醫(yī)藥項(xiàng)目數(shù)據(jù)進(jìn)行預(yù)處理,采用多目標(biāo)綜合優(yōu)化思想,凝煉得到綜合評(píng)估,并將最終結(jié)果與現(xiàn)實(shí)情況對(duì)比驗(yàn)證[3]。
本文研究的中醫(yī)藥項(xiàng)目執(zhí)行數(shù)據(jù)存在某些項(xiàng)目無(wú)預(yù)算而導(dǎo)致數(shù)據(jù)缺失,因此對(duì)中醫(yī)藥項(xiàng)目執(zhí)行數(shù)據(jù)降維處理前需要進(jìn)行預(yù)處理。本文采用M I法,其定義如下[4-6]:M I法是通過(guò)某種方法對(duì)每一個(gè)缺失值都構(gòu)造m個(gè)插補(bǔ)值(m≥2)產(chǎn)生m個(gè)完整數(shù)據(jù)集,這些值也反映了缺失值的不確定性,然后用分析完整數(shù)據(jù)集的統(tǒng)計(jì)學(xué)方法進(jìn)行研究,在得到目標(biāo)變量的估計(jì)前對(duì)這些結(jié)果進(jìn)行綜合考量,使得出的結(jié)論更合理、可靠[7-9]。目前,M I法主要應(yīng)用在社會(huì)科學(xué)、行為學(xué)和生物醫(yī)學(xué)等領(lǐng)域[10]。PCA是最小均方誤差意義上基于數(shù)據(jù)間的線性關(guān)系提取數(shù)據(jù)主要特征分量,是常用的高維數(shù)據(jù)降維算法之一,但PCA不能處理具有非線性性質(zhì)的數(shù)據(jù)[11-14]。Kernel_PCA(Kernel Principal Component Analysis),也稱核主成分分析,由Scholkopf等人提出,是一種非線性主成分提取方法,基本思想是構(gòu)造一個(gè)滿足Mercer條件的核函數(shù),通過(guò)非線性映射將初始輸入空間R的數(shù)據(jù)集投影到高維特征空間F,然后在高維空間對(duì)映射數(shù)據(jù)做PCA處理,這個(gè)新空間可以增加數(shù)據(jù)的線性可分性,具有很強(qiáng)的非線性處理能力[15-16]。Kernel_PCA的核心在于核方法對(duì)PCA的非線性推廣,能有效捕捉數(shù)據(jù)的非線性特征,主要用于人臉識(shí)別、手寫體數(shù)字去噪、機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)壓縮、圖像去噪、語(yǔ)音信號(hào)處理和函數(shù)逼近等領(lǐng)域[11,17-18]。
Kernel_PCA算法的實(shí)現(xiàn)過(guò)程如下:
對(duì)于一般的PCA方法,即通過(guò)求解特征方程獲得貢獻(xiàn)率最大的特征值及與之相對(duì)應(yīng)的特征向量:
在特征空間中的PCA是求解下列方程的特征值和特征向量,代入式(2)中得:
由于特征向量可以由數(shù)據(jù)集線性表示,則v可以由Φ(xk)(k=1,2,…,N)線性表示,即:
通過(guò)對(duì)式(9)的求解,即可獲得要求的特征值和特征向量。
1.實(shí)現(xiàn)步驟
根據(jù)上述思想路線,給出中醫(yī)藥項(xiàng)目的Kernel_ PCA算法綜合評(píng)估方法和步驟:
Step 1.將全國(guó)15個(gè)省份按1,2,…,15依次編號(hào),將2011年到2015年中醫(yī)藥項(xiàng)目的所有中醫(yī)藥子項(xiàng)目按1,2,…,8依次編號(hào),表中數(shù)據(jù)項(xiàng)代表的是中醫(yī)藥項(xiàng)目的預(yù)算執(zhí)行率(為方便數(shù)據(jù)處理,全部用0~1的數(shù)表示),將原始數(shù)據(jù)簡(jiǎn)化為5張只含有數(shù)值和編碼的表。
Step 2.剔除所有項(xiàng)目都缺失的省份以及數(shù)據(jù)缺失大半的項(xiàng)目,將剩下省份、項(xiàng)目重新依次編號(hào)。通過(guò)多重填補(bǔ)法處理部分省份部分項(xiàng)目因無(wú)預(yù)算而缺失的數(shù)據(jù),得到一系列完整數(shù)據(jù)集。
Step 3.將若干個(gè)完整數(shù)據(jù)集采用Kernel_PCA算法進(jìn)行處理,得到相對(duì)應(yīng)的若干組結(jié)果。
Step 4.為消除結(jié)果中正負(fù)值相互抵消的影響,根據(jù)每組結(jié)果進(jìn)行評(píng)估排序,得到相應(yīng)的若干組排序值(無(wú)正負(fù))。
Step 5.經(jīng)計(jì)算得到每組排序值的求和平均值,最終得到一組數(shù)據(jù),再進(jìn)行排序,則最后得到的一組數(shù)據(jù)就能反映全國(guó)各省中醫(yī)藥項(xiàng)目的綜合評(píng)估情況。
2.?dāng)?shù)據(jù)處理
根據(jù)需要搭建相應(yīng)的平臺(tái)環(huán)境,利用Excel 2010、MATLAB(R2014a)和SPSS 19.0分析工具,對(duì)原始數(shù)據(jù)進(jìn)行加工、處理等適當(dāng)操作得到最終結(jié)果,如圖1所示:
圖1 數(shù)據(jù)流圖
表1是利用SPSS 19.0分析軟件來(lái)對(duì)編碼后的數(shù)據(jù)進(jìn)行多重填補(bǔ),采用的是MCMC填補(bǔ)方法,根據(jù)對(duì)數(shù)據(jù)的分析處理以及其他學(xué)者對(duì)缺失值方法對(duì)比研究得出的一致結(jié)論:M I優(yōu)于EM、回歸插補(bǔ)法等方法,采用M I方法填補(bǔ)數(shù)據(jù),再按照實(shí)現(xiàn)步驟中的step3~5,對(duì)每個(gè)由降維算法得出來(lái)的結(jié)果進(jìn)行排序,得到結(jié)果如表2所示。
表1 2014年中醫(yī)藥項(xiàng)目插補(bǔ)數(shù)據(jù)集
表2 2014年中醫(yī)藥項(xiàng)目降維結(jié)果集(排序集)
3.綜合排名
根據(jù)表2計(jì)算出2014年各省總排名,同理可計(jì)算出其他年份各省總排名,得到最終結(jié)果如表3所示:
表3 2011-2015年中醫(yī)藥項(xiàng)目綜合評(píng)估表
從表3可知,本文評(píng)估方法綜合了所有中醫(yī)藥子項(xiàng)目的結(jié)果,最終認(rèn)為編碼為3、4、5、6省份的中醫(yī)藥項(xiàng)目綜合執(zhí)行情況較好,數(shù)據(jù)處理結(jié)果與現(xiàn)實(shí)情況(由執(zhí)行率可知,編碼3、4、5、6省份的執(zhí)行率之和均為10.0000,執(zhí)行情況較好;編碼1、7省份執(zhí)行情況較差)基本保持一致,證明了該研究思路的合理性、有效性和準(zhǔn)確性[19-20]。
本文提出基于Kernel_PCA算法的中醫(yī)藥項(xiàng)目綜合評(píng)估,采用M I進(jìn)行數(shù)據(jù)填補(bǔ),這是經(jīng)過(guò)處理分析選擇的方法(筆者還采用了條目均數(shù)填補(bǔ)法、自身均數(shù)填補(bǔ)法等方法,比較而言,M I處理的結(jié)果更接近完整數(shù)據(jù)的分析結(jié)果,由于篇幅限制,本文對(duì)其他方法不展開(kāi)過(guò)多闡述),然后利用非線性數(shù)據(jù)壓縮特征空間維數(shù)的特性,綜合了所有中醫(yī)藥子項(xiàng)目的復(fù)雜執(zhí)行情況,能較好地全面反映全國(guó)各省中醫(yī)藥項(xiàng)目執(zhí)行情況的差異和中醫(yī)藥項(xiàng)目整體情況,避免目前用于中醫(yī)藥項(xiàng)目評(píng)估的方法單一導(dǎo)致結(jié)果片面性較強(qiáng),不利于對(duì)中醫(yī)藥項(xiàng)目的整體把握。因此本文探索新方法進(jìn)行分析,更好地為中醫(yī)藥項(xiàng)目決策提供科學(xué)依據(jù)。基于Kernel_PCA算法綜合評(píng)估的最終結(jié)果也與實(shí)際判斷一致,表明該方法思路的有效性、可行性,可進(jìn)一步推廣到其他相關(guān)項(xiàng)目的綜合評(píng)估。
[1]劉晶.中醫(yī)藥項(xiàng)目經(jīng)費(fèi)預(yù)算執(zhí)行監(jiān)控通報(bào)平臺(tái)的分析與設(shè)計(jì).湖北中醫(yī)藥大學(xué),2012:82.
[2]黃橙紫,王振宇,田雙桂,等.中醫(yī)藥項(xiàng)目績(jī)效管理現(xiàn)狀與對(duì)策探析.中醫(yī)藥管理雜志,2014,33(12):1969-1971.
[3]田雙桂.中央轉(zhuǎn)移支付中醫(yī)藥項(xiàng)目預(yù)算執(zhí)行分析和對(duì)策研究.湖北中醫(yī)藥大學(xué),2014.
[4]Duan YJ,Lv YS,Kang WW,etal.A Deep Learning Based Approach for Traffic Data Imputation.Proceedings of 17th International IEEE Conference on Intelligent Transportation SystemsⅡ.2014.
[5]Wang Y,Zhang ZC,Tian ZX,et al.Preprocessing the M issing Data for Environmental Prediction Model Based on Multiple Imputation.Proceedings of 2012 International Conference on Power Electronics Engineering and Computer Technology(PEECT 2012).2012.[6]Li L,Su XN,Zhang Y,et al.Traffic Prediction,Data Compression,Abnormal Data Detection and M issing Data Imputation:An Integrated Study Based on the Decomposition of Traffic Time Series.Proceedings of 17th International IEEE Conference on Intelligent Transportation SystemsⅠ.2014.
[7]帥平,李曉松,周曉華.缺失數(shù)據(jù)統(tǒng)計(jì)處理方法的研究進(jìn)展.中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(01):135-139.
[8]王睿,馬修強(qiáng),陸健.Epworth量表中缺失數(shù)據(jù)處理方法研究.中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(01):72-73.
[9]佟昕,高強(qiáng).統(tǒng)計(jì)學(xué)中的數(shù)據(jù)缺失及解決方法.遼寧經(jīng)濟(jì)管理干部學(xué)院(遼寧經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院學(xué)報(bào)),2011(02):15-16.
[10]鄒莉玲,吳娟麗,李覺(jué).多重填補(bǔ)法在任意缺失隨訪資料中的應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2015,32(02):221-223.
[11]薛冰.Kernel PCA中核參數(shù)優(yōu)化及應(yīng)用.西安工業(yè)大學(xué),2011.
[12]徐濤,孫彤.基于KPCA的非線性ASM定位方法研究.微電子學(xué)與計(jì)算機(jī),2010,27(12):113-116.
[13]劉進(jìn),鄧家剛,覃潔萍,等.基于紅外光譜數(shù)據(jù)的中藥藥性識(shí)別研究.時(shí)珍國(guó)醫(yī)國(guó)藥,2010,21(03):561-563.
[14]徐明亮,孫長(zhǎng)海,王瑜等.基于主成分分析的決明子電化學(xué)振蕩指紋圖譜的評(píng)價(jià)研究.時(shí)珍國(guó)醫(yī)國(guó)藥,2011,22(08):1858-1859.
[15]Ling A,Yi Z,Ye S.Model Reduction for Spatio-temporal Systems based on KPCA and LS-SVRM.第25屆中國(guó)控制與決策會(huì)議論文集.2013.
[16]Peng HX,Wang R.Sensor Fault Detection and Identification using Kernel PCA and Its Fast Data Reconstruction.Proceedings of 2010 Chinese Control and Decision Conference.2010:3857-3862.
[17]沈徐輝,羅小平,杜鵬英.基于模糊的改進(jìn)KPCA方法:第二十九屆中國(guó)控制會(huì)議,中國(guó)北京,2010.
[18]趙英男,王水平,鄭玉.一種基于數(shù)值逼近的KPCA改進(jìn)算法.南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,04(04):362-365.
[19]趙小強(qiáng),王新明.基于改進(jìn)核主元分析的TE過(guò)程故障診斷.工業(yè)儀表與自動(dòng)化裝置,2010(03):7-11.
[20]胡淼,董方,田麗娟,等.應(yīng)用因子分析法探討新型農(nóng)村合作醫(yī)療績(jī)效評(píng)價(jià).中國(guó)衛(wèi)生統(tǒng)計(jì),2016,33(1):24-26.
(責(zé)任編輯:鄧 妍)
湖北省教育廳人文社會(huì)科學(xué)研究項(xiàng)目(17Q098);中醫(yī)藥項(xiàng)目績(jī)效考核數(shù)據(jù)分析關(guān)鍵算法研究
△通信作者:肖勇,E-mail:15327455586@126.com