李星星
摘 ?要:隨著科技的不斷發(fā)展,數(shù)據(jù)壓縮技術(shù)的不斷成熟,海量信息特征的時(shí)代也隨之到來。而這些信息樣本之間很多是模糊近似關(guān)系,那么在這種類似場(chǎng)合中,我們可以用模糊等價(jià)關(guān)系(fuzzy equivalence relation)來進(jìn)行聚類分析,度量信息樣本的相似性程度,最終可用于判別分類。
關(guān)鍵詞:信息特征;模糊等價(jià)關(guān)系;信息度量
以上闡述了模糊粗糙集模型中的一些信息度量方法[1,2],本文中也采用了其中的交互信息來逐一判斷某一特征所攜帶的信息量以及特征與特征之間是否是冗余的,并分析其在最終的分類模型中的判別能力。
二、交互信息的應(yīng)用
交互信息(mutual information)的應(yīng)用范圍非常廣泛,涉及到機(jī)器學(xué)習(xí)中的特征選擇(feature selection)、醫(yī)學(xué)影像學(xué)(medical imaging)、統(tǒng)計(jì)力學(xué)(statistical mechanics)、宇宙學(xué)(cosmology)等眾多領(lǐng)域。在很多應(yīng)用范疇內(nèi),具有最大化的交互信息便可以提高隸屬性,當(dāng)然,這通常等同于最小化條件熵。
在機(jī)器學(xué)習(xí)范疇內(nèi),交互信息經(jīng)常用來作為特征選擇的一個(gè)準(zhǔn)則。它可以被用來描述樣本之間的相關(guān)性以及冗余性,從而可以用來選擇出那些判別能力強(qiáng)而相互之間又不會(huì)出現(xiàn)冗余現(xiàn)象的特征。
交互信息還可以用來確定某一數(shù)據(jù)集中兩個(gè)不同聚類之間的相似性。因此,相對(duì)于傳統(tǒng)的蘭德指數(shù)(Rand index)來說,交互信息具有更大的優(yōu)勢(shì)。
交互信息的應(yīng)用極其廣泛,除了上面列舉的幾個(gè)不同的領(lǐng)域,還有很多領(lǐng)域內(nèi)均有涉及交互信息,在此就不會(huì)逐一介紹了。
參考文獻(xiàn)
[1] ?Wang C,Qi Y,Shao M,et al. A Fitting Model for Feature Selection With Fuzzy Rough Sets[J]. IEEE Transactions on Fuzzy Systems,2017,25(4):741-753.
[2] ?Hu Q,Yu D. ENTROPIES OF FUZZY INDISCERNIBILITY RELATION AND ITS OPERATIONS[J]. International Journal of uncertainty,fuzziness and knowledge-based systems,2008,12(05):575-589.