呂慶莉
摘要:目的? 為降低中醫(yī)體質(zhì)傳統(tǒng)分類方法主觀性誤差,兼顧兼夾體質(zhì),提出基于信息增益的中醫(yī)體質(zhì)多標(biāo)記分類方法。方法? 采用多標(biāo)記方法進(jìn)行中醫(yī)體質(zhì)分類。為解決多標(biāo)記分類方法中不同特征對(duì)分類標(biāo)簽的影響不同的問(wèn)題,通過(guò)體質(zhì)分類數(shù)據(jù)計(jì)算各特征項(xiàng)的信息增益,計(jì)算體質(zhì)分類特征對(duì)分類標(biāo)簽的權(quán)重,進(jìn)而通過(guò)加權(quán)的多標(biāo)簽分類器,得出體質(zhì)數(shù)據(jù)多標(biāo)記分類。結(jié)果? 與傳統(tǒng)判別分析法相比,基于信息增益的多標(biāo)記分類方法在1-錯(cuò)誤率(16.33%)、漢明損失(15.44%)、平均準(zhǔn)確率(82.61%)方面均有一定優(yōu)勢(shì)。結(jié)論? 基于信息增益的多標(biāo)記分類方法在保證準(zhǔn)確率同時(shí)可兼顧兼夾體質(zhì),實(shí)現(xiàn)對(duì)體質(zhì)特征差異性及趨同性的更好描述。
關(guān)鍵詞:中醫(yī)體質(zhì)分類;信息增益;多標(biāo)記分類
中圖分類號(hào):R2-05;R229??? 文獻(xiàn)標(biāo)識(shí)碼:A??? 文章編號(hào):1005-5304(2019)06-0097-04
Abstract: Objective To propose a multi-label classification method of TCM constitutions based on information gain; To reduce the subjective error of traditional classification methods of TCM constitutions and take into account the combination of constitutions. Methods The multi-label method was used to classify TCM constitutions. In order to solve the problem that different features of multi-label classification method had different influence on the classification label, the information gain of each feature item was calculated by the physique classification data, and the weight of classification features were calculated. Then multi-label classification of physique data was obtained by weighted multi-label classifier. Results Compared with the traditional discriminant analysis method, the multi-label classification method based on information gain had certain advantages in 1-error rate (16.33%), hamming loss (15.44%), and average accuracy (82.61%). Conclusion The multi-label classification method based on information gain can ensure the accuracy. Taking into account the combination of constitutions can realize the better description of the difference in constitution characteristics and convergence.
Keywords: TCM constitutions; information gain; multi-label classification
中醫(yī)體質(zhì)學(xué)以體質(zhì)特征為研究主體,以體質(zhì)調(diào)節(jié)為目的,是中醫(yī)基礎(chǔ)理論的重要組成部分。目前,機(jī)器學(xué)習(xí)、復(fù)雜網(wǎng)絡(luò)等大數(shù)據(jù)相關(guān)技術(shù)在中醫(yī)體質(zhì)相關(guān)研究中應(yīng)用范圍仍相對(duì)局限。目前體質(zhì)分類多采用《中醫(yī)體質(zhì)分類與判定自測(cè)表》(以下簡(jiǎn)稱“自測(cè)表”),基于專家經(jīng)驗(yàn)的判別分析法(DA)進(jìn)行。自測(cè)表通過(guò)分值表示各條目與體征描述的符合程度,但該判定過(guò)度依賴于被調(diào)查者的主觀,且受專家認(rèn)知等影響,分類結(jié)果存在一定誤差;同一體質(zhì)分類中各指標(biāo)小項(xiàng)權(quán)重?zé)o區(qū)分,而預(yù)實(shí)驗(yàn)發(fā)現(xiàn)部分小項(xiàng)對(duì)體質(zhì)判定具有更好的分類貢獻(xiàn);無(wú)權(quán)重?cái)?shù)據(jù)容易稀釋特征值,導(dǎo)致兼夾體質(zhì)的缺失[1];此外,該方法無(wú)法滿足大數(shù)據(jù)時(shí)代海量醫(yī)療數(shù)據(jù)的處理需求。
因此,為解決實(shí)驗(yàn)樣本量與質(zhì)的矛盾,降低實(shí)驗(yàn)分類結(jié)果的人為誤差,為后續(xù)病體相關(guān)性研究提供分類依據(jù),本研究從中醫(yī)體質(zhì)的內(nèi)涵出發(fā),提出一種基于信息增益的中醫(yī)體質(zhì)多標(biāo)記分類方法,通過(guò)信息增益定義不同特征對(duì)分類標(biāo)簽的貢獻(xiàn),作為多標(biāo)記分類器中相似性的權(quán)重,通過(guò)計(jì)算加權(quán)的余弦相似度的K近鄰算法,得出體質(zhì)數(shù)據(jù)的多標(biāo)記分類。
1? 信息增益
2? 多標(biāo)記學(xué)習(xí)
標(biāo)記學(xué)習(xí)旨在通過(guò)抽象待分類對(duì)象的特征空間與類別標(biāo)記間的函數(shù)表示,實(shí)現(xiàn)待分類對(duì)象到類別的映射[5],即從{()|1≤i≤N}中習(xí)得f∶x→y,其中為待分類對(duì)象的特征向量集合,yi∈Y為xi屬于類別集合中類別li的標(biāo)記,即xi屬于類別li,為類別集合。
3? 基于信息增益的多標(biāo)記分類方法
傳統(tǒng)的多標(biāo)簽學(xué)習(xí)方法忽略了不同特征間對(duì)標(biāo)簽分類貢獻(xiàn)的區(qū)別,且文本的特征表示限制了文本分類性能的提升[10-11]。為解決該問(wèn)題,通過(guò)加權(quán)的方式實(shí)現(xiàn)特征項(xiàng)與各分類標(biāo)簽間相關(guān)性的描述,突出特定特征對(duì)分類的重要性,提出基于信息增益的多標(biāo)簽分類方法(TMLKNN)。加權(quán)后的(4)式表示為:
在中醫(yī)體質(zhì)分類研究中,一般根據(jù)體質(zhì)分類與判定自測(cè)表獲取受訪者的測(cè)試數(shù)據(jù),該自測(cè)表共分為陽(yáng)虛質(zhì)、陰虛質(zhì)、氣虛質(zhì)、痰濕質(zhì)、濕熱質(zhì)、血瘀質(zhì)、特稟質(zhì)、氣郁質(zhì)及平和質(zhì)9個(gè)亞量表,采用5級(jí)評(píng)分法衡量受訪者具有該特征指標(biāo)的程度。為與傳統(tǒng)自測(cè)表做更好的對(duì)照,本研究未對(duì)自測(cè)表中相似問(wèn)題做合并和歸一,即以傳統(tǒng)自測(cè)表為基礎(chǔ),將自測(cè)表中9個(gè)體質(zhì)類別的問(wèn)題(每個(gè)體質(zhì)類別判定包含6~8個(gè)自測(cè)問(wèn)題)作為對(duì)應(yīng)文本的特征項(xiàng),將1~5的評(píng)分結(jié)果作為每個(gè)特征項(xiàng)在該文本中的取值,轉(zhuǎn)換為8×9的數(shù)值矩陣(其中,0表示該體質(zhì)分類在該項(xiàng)無(wú)特征,即該體質(zhì)在該處無(wú)自測(cè)問(wèn)題)作為后續(xù)實(shí)驗(yàn)處理的測(cè)試樣本。以1份男性受訪者的自測(cè)表數(shù)據(jù)為例,整理得到自測(cè)文本,見(jiàn)表1。
4? 實(shí)驗(yàn)結(jié)果
4.1? 數(shù)據(jù)特征
實(shí)驗(yàn)采用514份自測(cè)數(shù)據(jù),其中400份作為訓(xùn)練樣本,114份作為測(cè)試樣本。樣本數(shù)據(jù)年齡與性別分布見(jiàn)表2。
4.2? 信息增益結(jié)果
經(jīng)計(jì)算,自測(cè)表中各特征項(xiàng)的信息增益見(jiàn)表4。
5? 小結(jié)
中醫(yī)體質(zhì)作為個(gè)體機(jī)能的載體及健康程度的表征,揭示病癥病理具有一定的臨床意義,已成為中醫(yī)學(xué)的研究熱點(diǎn)。為解決傳統(tǒng)方法在中醫(yī)體質(zhì)研究中的問(wèn)題,本研究以體質(zhì)研究的基礎(chǔ)分類為例,提出一種基于信息增益的中醫(yī)體質(zhì)多標(biāo)記分類方法,通過(guò)信息增益計(jì)算體質(zhì)分類特征對(duì)分類標(biāo)簽的權(quán)重,進(jìn)而通過(guò)加權(quán)的多標(biāo)簽分類器,得出體質(zhì)數(shù)據(jù)的多標(biāo)記分類。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的分類方法DA相比,該方法在保證準(zhǔn)確率同時(shí),可有效兼顧兼夾體質(zhì),實(shí)現(xiàn)對(duì)體質(zhì)特征差異性及趨同性的更好描述。
參考文獻(xiàn):
[1] 危凌云,李燦東,黃文金,等.中醫(yī)體質(zhì)類型分布及兼雜規(guī)律研究[J].山東中醫(yī)藥大學(xué)學(xué)報(bào),2016,40(2):102-104.
[2] 彭長(zhǎng)根,丁紅發(fā),朱義杰,等.隱私保護(hù)的信息熵模型及其度量方法[J].軟件學(xué)報(bào),2016,27(8):1891-1903.
[3] 李學(xué)明,李海瑞,薛亮,等.基于信息增益與信息熵的TFIDF算法[J].計(jì)算機(jī)工程,2012,38(8):37-40.
[4] 陳科文,張祖平,龍軍.文本分類中基于熵的詞權(quán)重計(jì)算方法研究[J].計(jì)算機(jī)科學(xué)與探索,2016,10(9):1299-1309.
[5] ZHANG M L, ZHOU Z H. ML-KNN:A lazy learning approach to multi- label learning[J]. Pattern Recognition,2007,40(7):2038-2048.
[6] 廣凱,潘金貴.一種基于向量夾角的k近鄰多標(biāo)記文本分類算法[J].計(jì)算機(jī)科學(xué),2008,35(4):205-206.
[7] 張順,張化祥.用于多標(biāo)記學(xué)習(xí)的K近鄰改進(jìn)算法[J].計(jì)算機(jī)應(yīng)用研究,2011,28(12):4445-4446.
[8] GUO G, WANG H, BELL D, et al. KNN model-based approach in classification[C]//OTM Confederated International Conferences on the Move To Meaningful Internet Systems. Berlin, Heidelberg:Springer, 2003:986-996.
[9] 李峰,苗奪謙,張志飛,等.基于互信息的粒化特征加權(quán)多標(biāo)簽學(xué)習(xí)k近鄰算法[J].計(jì)算機(jī)研究與發(fā)展,2017,54(5):1024-1035.
[10] 潘主強(qiáng),張林,張磊,等.中醫(yī)臨床疾病數(shù)據(jù)多標(biāo)記分類方法研究[J].計(jì)算機(jī)科學(xué)與探索,2017,12(8):1295-1304.
[11] 郝春風(fēng),王忠民.一種用于大規(guī)模文本分類的特征表示方法[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(15):170-172.
[12] 馮雪東.基于一對(duì)一分解的多標(biāo)簽分類算法研究[D].南京:南京師范大學(xué),2013.
[13] 龔靜,黃欣陽(yáng).基于隱性語(yǔ)義索引的多標(biāo)簽文本分類集成方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2017,38(9):2556-2561.
(收稿日期:2018-06-10)
(修回日期:2018-07-14;編輯:向宇雁)