戴建國(guó)
(廣州大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,廣東 廣州 510006)
多分類(lèi)有序變量間的間距差異研究
戴建國(guó)
(廣州大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,廣東 廣州 510006)
對(duì)多分類(lèi)有序變量各類(lèi)別間的間距差異性問(wèn)題,基于Gini集中系數(shù)和不一致性指標(biāo)分別給出了兩種度量間距差異指標(biāo)和兩種檢驗(yàn)方法,并由概率分布構(gòu)造類(lèi)別得分來(lái)近似反映間距差異,最后用對(duì)數(shù)線性模型對(duì)實(shí)例加以分析,結(jié)果表明對(duì)模型擬合效果有所改進(jìn).
有序變量;對(duì)數(shù)線性模型;度量指標(biāo);得分
大數(shù)據(jù)、數(shù)據(jù)挖掘等詞已被大家廣泛熱議,而在數(shù)據(jù)挖掘過(guò)程中常見(jiàn)的一類(lèi)數(shù)據(jù)則是定性數(shù)據(jù),其通常是非連續(xù),多分類(lèi)的,甚至在有些數(shù)據(jù)分析過(guò)程會(huì)把連續(xù)變量離散化. 在有些分類(lèi)數(shù)據(jù)各類(lèi)別會(huì)存在序的關(guān)系,如把對(duì)某一事物的評(píng)價(jià)看成一個(gè)分類(lèi)變量,則可能有“討厭”,“不喜歡”,“喜歡”,“非常喜歡”4個(gè)類(lèi)別,它們之間則存在序的關(guān)系,對(duì)于這樣的有序分類(lèi)數(shù)據(jù)除了有序聚類(lèi)分析,排序分析方法分析外[1],還可以構(gòu)建統(tǒng)計(jì)模型,如對(duì)數(shù)線性模型、邏輯回歸模型、貝葉斯模型等[2].
所謂多分類(lèi)有序變量通常是指分類(lèi)數(shù)大于2,且類(lèi)別之間存在次序關(guān)系的變量. 在數(shù)據(jù)分析過(guò)程中所涉及到的有序變量各類(lèi)別之間的間距通常不是相等的,就如上述說(shuō)到的對(duì)某一事物的評(píng)價(jià),其中“討厭”到“不喜歡”和“不喜歡”到“喜歡”兩組間距是不相等的,但在一般的數(shù)據(jù)分析過(guò)程中通常將其視為等距的而損失一些信息,導(dǎo)致模型擬合效果不是很好. 下面對(duì)有序變量間的間距差異問(wèn)題給出了兩種度量指標(biāo)和兩種統(tǒng)計(jì)檢驗(yàn)方法,并給出了一種有序類(lèi)別得分的選擇方法,用其近似反映有序類(lèi)別間的間距差異,最后通過(guò)實(shí)例說(shuō)明.
當(dāng)用符號(hào)ω來(lái)描述定性數(shù)據(jù)對(duì)象時(shí),將其取值作為得分,例如有序變量的類(lèi)別“討厭”,“不喜歡”,“喜歡”,“非常喜歡”可用1,2,3,4作為得分來(lái)反映各類(lèi)別差異,假定ω可取k個(gè)不同的值,對(duì)應(yīng)的概率分別為即有顯然有當(dāng)使用對(duì)數(shù)線性模型來(lái)擬合有序列聯(lián)表時(shí),其對(duì)象得分的選擇對(duì)模型的擬合是有影響的. 在此用概率來(lái)刻畫(huà)ω的離散程度,用信息論中的話來(lái)講,當(dāng)pi越接近1時(shí)“確定性”程度越大,當(dāng)pi取值小得越多越分散.由此給出兩種衡量的量,一種是基于不相似指標(biāo)[3]得到的D(ω),另一種是基于Gini集中系數(shù)[4]得到指標(biāo)S(ω).
如果多分類(lèi)有序變量的k各類(lèi)別的間距相同時(shí),則ω的各取值的“確定性”期望概率為對(duì)于而若多分類(lèi)變量間距不同時(shí)會(huì)存在差異,因而為了刻畫(huà)間距不同時(shí)的離散程度,構(gòu)造統(tǒng)計(jì)量的D(ω),S(ω).
對(duì)于ω的Gini集中系數(shù)[4]定義為
構(gòu)造度量指標(biāo)S(ω)為
在這先引入擬合優(yōu)度x2的檢驗(yàn)統(tǒng)計(jì)量對(duì)有序分類(lèi)變量的類(lèi)間距的差異做出檢驗(yàn),同樣可用不一致性指標(biāo)D來(lái)檢驗(yàn),所謂的擬合優(yōu)度是研究數(shù)據(jù)與原假設(shè)擬合的程度或一致的程度[5],檢驗(yàn)統(tǒng)計(jì)量均是通過(guò)觀測(cè)頻數(shù)和期望頻數(shù)來(lái)構(gòu)造的,具體過(guò)程如下:
先求H0為真時(shí)發(fā)生在每一類(lèi)的概率p,而此處的H0為真時(shí)是指各類(lèi)別間的間距是相同的,即每一類(lèi)發(fā)生的概率p都等于. 再求H0為真時(shí)的期望頻數(shù)fe,假設(shè)總體N,則有各類(lèi)期望頻數(shù)均為fe=NP,并設(shè)觀測(cè)頻數(shù)為f0,則似然比檢驗(yàn)統(tǒng)計(jì)量其df=k-1,k為類(lèi)別數(shù),且x2近似卡方分布.
對(duì)于另一種檢驗(yàn)統(tǒng)計(jì)量為
其中N為總數(shù),在大樣本下當(dāng)D<0.03時(shí),可認(rèn)為不拒絕原假設(shè),即認(rèn)為各類(lèi)別間的間距無(wú)差異.
如果檢驗(yàn)發(fā)現(xiàn)多分類(lèi)有序變量間的間距存在差異時(shí),可以通過(guò)考慮不同的得分來(lái)近似反映它們的差異,如前面所提到的4類(lèi)評(píng)價(jià)“討厭”,“不喜歡”,“喜歡”,“非常喜歡”,若視間距相同時(shí),可能會(huì)賦予得分1,2,3,4或2,4,6,8等來(lái)反映間距無(wú)差異. 但實(shí)際上它們的間距是不相等的,所以可對(duì)分?jǐn)?shù)進(jìn)行調(diào)整,人們也通常會(huì)憑著感覺(jué)和經(jīng)驗(yàn)來(lái)賦予得分,如“討厭”到“不喜歡”和“不喜歡”到“喜歡”后者差距可能會(huì)比前者大,則賦予得分為1,2,4,5,而在這里給出一種依據(jù)概率分布選擇得分的方法來(lái)近似反映各類(lèi)別間的間距差異. 具體如下:
設(shè)各類(lèi)別概率分布為p1,p2,...,pk. 定義得分為
在這主要對(duì)一個(gè)有序二維列聯(lián)表用對(duì)數(shù)線性模型來(lái)說(shuō)明,數(shù)據(jù)來(lái)源于2006年美國(guó)社會(huì)調(diào)查的數(shù)據(jù)集,由認(rèn)為占星術(shù)是否科學(xué)和教育水平構(gòu)成二維列聯(lián)表,并在不考慮序和考慮序的情況下分析,首先給出幾種對(duì)數(shù)線性模型的定義.
在I×J維列聯(lián)表中,當(dāng)不考慮兩變量X,Y的序時(shí),其飽和模型可定義為
其中uij為期望頻率,λ為某一常數(shù),代表行影響,代表列影響,代表交互影響,當(dāng)=0時(shí)為獨(dú)立模型.
其中參數(shù)β反映了相關(guān)的方向和強(qiáng)弱,當(dāng)β>0時(shí),X趨勢(shì)遞增,Y也遞增;當(dāng)β<0時(shí),X趨勢(shì)遞增,而Y遞減;當(dāng)β=0時(shí),為獨(dú)立模型. 原始數(shù)據(jù)構(gòu)成的列聯(lián)表見(jiàn)表1.
根據(jù)前面所給的公式(1)(3)計(jì)算間距差異的指標(biāo)統(tǒng)計(jì)量,c, r分別代行列變量,對(duì)行計(jì)算得S( r)=0.093,D( r)=0.30均不等于零,說(shuō)明行變量各分類(lèi)的間距不相等,同樣對(duì)列變量計(jì)算得S( c)=0.203,D( c)=0.34,均不等于零,也說(shuō)明各分類(lèi)的間距不相等. 并對(duì)他們做擬合優(yōu)度x2檢驗(yàn)和D檢驗(yàn),檢驗(yàn)結(jié)果是非常顯著的(行:x2=1111.36,df=5-1=4,p<0.001,D( r)=0.308>0.03列:x2=1078.15,df=3-1=2,p<0.001,D( c)=0.342>0.03),即各類(lèi)別間的間距是不相等的.
表1 原始數(shù)據(jù)集
在表2中, 首先給出了不考慮序的飽和模型A,其次是考慮等間距時(shí)(行得分=(1,2,3,4,5),列得分=(1,2,3))模型B的擬合的效果,其中采用BIC和AIC作為評(píng)價(jià)指標(biāo),其值越小說(shuō)明效果越好. 通過(guò)上面的檢驗(yàn)可知各類(lèi)型間距是存在差異的,從而用上面給出的公式(5)計(jì)算得分來(lái)近似反映間距的差異(行得分=(0.057, 0.368 ,0.669 ,0.810 ,0.952),列得分=(0.337, 0.813, 0.975)),從新構(gòu)建對(duì)數(shù)線性模型C,并在表2中給出擬合效果.
從3個(gè)模型擬合的效果來(lái)看(由BIC和AIC準(zhǔn)則,其值越小說(shuō)明擬合得越好),模型C擬合效果最好,說(shuō)明如果變量有序而不考慮的話則會(huì)損失一些信息,同樣如果有序變量各類(lèi)別間間距不等而視為相等時(shí)也會(huì)損失一部分信息.
表2 模型擬合效果
在定性數(shù)據(jù)分析中,多分類(lèi)有序變量的間距差異是普遍存在的,通過(guò)實(shí)例根據(jù)所構(gòu)造的度量指標(biāo)和統(tǒng)計(jì)檢驗(yàn)給予論證,說(shuō)明給出的類(lèi)別得分在有些時(shí)候比用等間距得分更能反映類(lèi)別間的間距差異,但不足的是還沒(méi)能找到一個(gè)更為準(zhǔn)確的度量間距差異的指標(biāo),然而在統(tǒng)計(jì)學(xué)家Leo. A Goodman的RC模型中,將得分視為參數(shù),最后通過(guò)模型把得分估計(jì)出來(lái),當(dāng)模型擬合很好時(shí),其得分也能較好反映有序變量間的間距差異.
[1]朱建平,楊貴軍,張潤(rùn)楚.列聯(lián)資料的有向聚類(lèi)分析及其應(yīng)用[J].?dāng)?shù)理統(tǒng)計(jì)與管理,2002,21(4):28-33.
[2]ALAN AGRESTI. Analysis of Ordinal Categorical Data[M]. 2th ed. New York: John Wiley & Sons Inc, 2010: 44-341.
[3]ALAN AGRESTI. Introduction to categorical data analysis[M]. New York: Wiley, 1996:158-163.
[4]LLOYD C J. Statistical Analysis of Categorical Data[M]. New York: Wiley, 1999: 69-71.
[5]陳民懇,朱建平.?dāng)?shù)據(jù)挖掘中多分類(lèi)有序變量間距差異分析及應(yīng)用[J].統(tǒng)計(jì)與信息論壇,2007,22(1):27-31.
Abstract:For the problems of the difference distance between the more orderly categorical variables, using the Gini concentrated coefficient and inconsistency index, two metric distance difference index and test methods were given respectively, and the probability distribution category scores were constructed to approximately reflect differences. Finally, using the logarithm linear model, an analysis was made of the example. The results showed that the model fitting effect was improved.
Key words:orderly variables; logarithm linear model; metrics; score
A Research into the Space Differences between Ordinal Multi-categorical Variables
DAI Jianguo
(School of Mathematics and Information Science, Guangzhou University, Guangzhou 510006, China)
O213
A
1008-2794(2017)04-00121-04
2017-02-22
戴建國(guó),碩士,研究方向:概率統(tǒng)計(jì)、數(shù)據(jù)挖掘,E-mail:1012894435@qq.com.