祝青芳 華劍
摘 要: 在聚類分析中,關(guān)鍵一步就是要選擇測量距離,馬氏距離是非常重要的測量樣本點(diǎn)與總體或樣本點(diǎn)之間距離的工具,但大多數(shù)多元統(tǒng)計(jì)分析教材中并不對(duì)馬氏距離做詳細(xì)的講解,這讓初學(xué)聚類分析的學(xué)生深感不便,不能體會(huì)馬氏距離的重要性。本文的目的就是以盡可能淺顯易懂的語言闡述馬氏距離的意義,幫助大家搬開學(xué)習(xí)路上的絆腳石。
關(guān)鍵詞: 馬氏距離 協(xié)方差矩陣 聚類分析
多元統(tǒng)計(jì)分析處理的是如下多維的樣本數(shù)據(jù):
在聚類分析中,需要計(jì)算樣本點(diǎn)與數(shù)據(jù)重心之間的距離,然后根據(jù)距離的遠(yuǎn)近對(duì)不同樣本進(jìn)行分類。歐氏距離是大家比較熟悉的距離度量工具,如果用歐氏距離來度量樣本點(diǎn)到數(shù)據(jù)重心的距離雖然簡單,但存在一些不足之處。它沒有考慮到總體變異對(duì)“距離”的影響,在變異程度不同的維上,雖然歐氏距離相同,但是變異程度大的維上的樣本點(diǎn)距數(shù)據(jù)重心的距離直觀上比變異程度小的維上的樣本點(diǎn)距數(shù)據(jù)重心的距離要小一些。另外,歐氏距離受變量量綱影響,這對(duì)多元數(shù)據(jù)的處理是不利的。對(duì)于第一個(gè)方面,我們可以借助下圖獲得更直觀的感知。
如果在X軸與Y軸上選取兩點(diǎn)P1、P2,并使這兩點(diǎn)距數(shù)據(jù)重心(此例的數(shù)據(jù)重心為原點(diǎn))的歐氏距離相同,但P2點(diǎn)在Y軸上相對(duì)原點(diǎn)有較大的變異,而P1點(diǎn)在X軸上相對(duì)原點(diǎn)有較小的變異,所以P1點(diǎn)距原點(diǎn)的直觀距離比P2點(diǎn)的小。
為了彌補(bǔ)以上提到的歐氏距離的兩點(diǎn)不足,印度統(tǒng)計(jì)學(xué)家馬哈拉諾比斯給出了新的距離定義,即“馬氏距離”(Mahalanobis Distance)。馬哈拉諾比斯提出”馬氏距離“的基本思路是先將不同維上的數(shù)據(jù)方差統(tǒng)一,此時(shí),如果不同維度上的點(diǎn)到原點(diǎn)的歐氏距離相同,則它們也擁有相同的直觀距離。如下圖:
以上思路更直觀的說法是將不同維上的數(shù)據(jù)進(jìn)行壓縮,使得各維上的方差保持一致。這種壓縮的最簡單做法是每一個(gè)維上的數(shù)據(jù)除以該維的標(biāo)準(zhǔn)差,那么每一個(gè)維上的方差就是1。但是,如果不同維之間相關(guān),即協(xié)方差矩陣不為對(duì)角陣,這種簡單的壓縮很不理想。如下圖: