王澤昕陜西省商洛中學
基于身高和拃長數據的性別分類研究
王澤昕
陜西省商洛中學
本文以身高和拃長②數據為特征,對男女性別進行分類,采用的分類方法為最小錯誤率貝葉斯決策。本文統計了樣本數為25時的決策分類詳細結果,并研究了樣本數為5~50時錯誤率的變化趨勢。研究結果表明,以身高和拃長數據為特征時,能夠較為有效地區(qū)分出男女性別,且當訓練集樣本數量逐漸增大時,錯誤率顯現出逐漸減小的趨勢。
性別分類;模式識別;貝葉斯決策;Matlab編程
模式識別(也稱模式分類)是指對表征事物或現象的各種形式的(數值的、文字的和邏輯關系的)信息進行處理和分析,以對事物或現象進行描述、辨認、分類和解釋的過程,是信息科學和人工智能的重要組成部分,被廣泛運用與文字識別、語音識別、指紋識別、遙感、醫(yī)學診斷等領域。
性別分類是模式識別領域中廣受關注的一個問題,它能體現男女性別在某些方面的差異,為人體生理學和心理學等方面研究提供理論基礎和數據支持。目前,已有學者進行了人臉特征性別分類[1][2]、社交媒體使用習慣的性別分類[3]、觸覺經驗性別分類[4]、基于語音的性別分類[5]、基于頭發(fā)信息的性別分類[6]、基于步態(tài)的性別分類[7]等。
本論文將研究利用人體某些數值型的生理數據(身高與手掌長度)進行分類,以探索出性別分類的簡易、方便的模型和方法,同時加深人們對男女性別與生理特征之間的關系的理解。模式識別包含許多種分類方法,能夠對許多領域的問題進行數據處理和分析。本課題采用最小錯誤率貝葉斯決策方法,以人體的身高和拃長數據為特征,對數據集進行性別分類。本課題的特征數據易于搜集和處理,且分類錯誤率較低,有力地體現了男女性別在這兩種體征上的差異性。
分類可以看成一種決策過程,也即我們根據對樣本的觀測做出其應歸屬哪一類的決策[8]。我們采用的分類方法為最小錯誤率貝葉斯決策。下面我們將詳細介紹最小錯誤率貝葉斯決策的決策原理。
在這里,我們僅討論兩類的情況:記類別為ω1和ω2,假設現在我們已知數據的特征x,用P(ω1|x)和P(ω2|x)分別表示此時兩類的后驗概率。所謂后驗概率,是指某事件已經發(fā)生,要求該事件發(fā)生的原因是由某個因素引起的可能性的大小。例如,此處的P(ω1|x)和P(ω2|x)分別表示,在已知我們觀測到數據特征為x時,造成我們觀測到特征為x的原因分別是由于該數據屬于ω1和ω2的概率。
根據貝葉斯公式,我們可以將P(ωi|x)(i=1,2)表示為:
其中P(ωi)(i=1,2)為ω1和ω2這兩類的先驗概率。所謂先驗概率,就是在事件還沒有發(fā)生,要求這件事情發(fā)生的可能性的大小。在此處,先驗概率P(ωi)(i=1,2)是指我們還沒有開始進行觀測樣本時,ω1類和ω2類的概率。通常可以用預先知道的知識(例如ω1類和ω2類的數量占比)來得到。
在一般的模式識別問題中,我們往往希望盡量減少分類的錯誤率,即目標是追求最小錯誤率。從這一目標要求出發(fā),利用(2-1)中的貝葉斯公式就能得出使得錯誤率最小的分類決策,稱之為最小錯誤率貝葉斯決策。最小錯誤率貝葉斯決策可描述為:
P(x|ωi)(i=1,2)的具體值可由訓練集數據在一定分布假設下求得。通常我們可認為人群中的身高和拃長分布滿足正態(tài)分布,雙變量正態(tài)分布聯合概率密度函數公式為如下:
其中-∞<x,y<+∞;-∞<μ1,μ2<+∞;σ1,σ2>0;-1≤ρ≤1。其中μ1,μ2分別為x和y的均值,σ12,σ22分別為x和y的方差,ρ為x 和y的相關系數。
3.1數據集說明
本課題所采用的數據集來自于賓夕法尼亞州立大學Mind on Statistic公開數據庫①。該數據集包含167名大學生的身高(單位:英寸)與拃長數據(單位:厘米),其中女性89名,男性78名。
我們在數據集中隨機挑選一定數目的數據作為訓練集(訓練集中男女性別數量一致),而測試集為整個原始數據集。我們首先選取了樣本數為25的訓練集,對最小錯誤率貝葉斯分類器進行訓練,得到參數。為了研究訓練集大小對分類效果的影響,我們研究并記錄了訓練集大小為5~50的情況下分類錯誤率,并繪制了錯誤率隨訓練集大小變化的趨勢圖,具體結果見第4章。
3.2整體錯誤率的計算
整體錯誤率的計算公式如下:
也即整體錯誤率是各類錯誤率的加權平均和,各類的錯誤率的權重即為該類的先驗概率。其中P(ω1)和P(ω2)分別代表ω1類和ω2類的先驗概率,e1和e2分別代表ω1類和ω2類的分類錯誤率。e1與e2的計算公式如下:
3.3仿真環(huán)境介紹
在本課題中,我們采用MATLAB作為仿真環(huán)境。MATLAB是美國Math Works公司出品的商業(yè)數學軟件,在數值計算方面具有強大的能力,被廣大科研人員和工程技術人員所采用。我們主要用MATLAB的m文件編程功能來進行數據的預處理、最小錯誤率貝葉斯分類器的建立以及決策分類過程的實現。
3.4 MATLAB程序設計框架
本課題的MATLAB程序設計思路及流程如下:
(1)數據預處理。首先將公開數據集導入到Excel表格中,然后利用MATLAB的m文件編寫讀取數據的函數,將數據讀取到MATLAB工作空間中。
(2)設定訓練樣本數量,從數據集中隨機選取一定數目的樣本作為訓練集。根據訓練樣本計算公式(2-3)中的μ1,μ2,σ12,σ22,ρ,以便后續(xù)建立最小錯誤率貝葉斯分類器。
(3)根據(2)中計算結果,結合(2-3)可得P(x|ωi)(i=1,2)的表達式,并結合(2-2)建立最小錯誤率貝葉斯分類器。
(4)利用(3)中建立的最小錯誤率貝葉斯分類器,對測試集每個樣本進行決策分類,決策分類的依據為(2-2)。
(5)利用公式(3-2)和公式(3-3)計算ω1類和ω2類的錯誤率,并利用公式(3-1)計算整體錯誤率,以判斷決策效果。先驗概率P (ω1)和P(ω2)均取0.5,即默認男女比例為1:1。這和我們的日常生活經驗是一致的。
(6)改變樣本大小,將樣本大小從5取到50,分別統計不同樣本大小下的的整體錯誤率。
我們采用Matlab建立最小錯誤率貝葉斯分類器,首先在樣本大小為25的情況下進行決策分類。決策分類中間過程參數值及最終錯誤率見表4.1。
表4.1 樣本數為25時的決策分類結果記錄表
接下來,我們對訓練集大小為5~50的情況進行了分類,共計46次分類實驗。為了減小數據隨機噪聲的影響,在每次分類實驗中,我們進行了共計10次測試,并統計每次測試的錯誤率,而后求取平均值,作為最終的錯誤率。46次實驗對應的錯誤率與訓練集大小之間的關系記錄如表4.2,變化趨勢圖如圖4.1:
表4.2 樣本數為5~50時的決策分類結果記錄表
由表4.2和圖4.1可見,分類錯誤率隨著訓練集的增大有減小的趨勢。
性別分類是模式識別領域中廣受關注的一個問題,它能體現男女性別在某些方面的差異,為人體生理學和心理學等方面研究提供理論基礎和數據支持。本文采用最小錯誤率貝葉斯決策方法,利用賓夕法尼亞州立大學Mind on Statistic公開數據庫的數據集,對身高和拃長數據集進行性別分類。本課題的算法實現相對簡單,且數據易于搜集和處理,分類結果較為明顯。同時,我們發(fā)現,分類錯誤率隨著訓練集的增大有減小的趨勢,說明在有條件的情況下應選取盡可能多的數據作為訓練集。
注釋:
①Data Sets for Mind on Statistics(Utts and Heckard):http:// sites.stat.psu.edu/~rho/mindon/readme.htm l
②拃長:指一個人張開大姆指和中指(或小指)兩端的距離。
[1]趙海英,楊一帆,徐正光.基于多角度LBP特征的三維人臉性別分類[J].自動化學報,2012,09:1544-1549.
[2]武勃,艾海舟,肖習攀,徐光祐.人臉的性別分類[J].計算機研究與發(fā)展,2003,11:1546-1553.
[3]王晶晶,李壽山,黃磊.中文微博用戶性別分類方法研究[J].中文信息學報,2014,06:150-155+168.
[4]崔倩,葉浩生.觸覺經驗對性別分類的影響:具身的視角[J].廣州大學學報(社會科學版),2013,03:41-45.
[5]高原.基于性別分類的說話人識別研究[D].江蘇師范大學,2012.
[6]劉爽,謝金融,呂寶糧.基于頭發(fā)信息的性別分類[J].計算機仿真,2009,02:212-216.
[7]余美霞.基于步態(tài)的性別分類研究[D].北方工業(yè)大學,2013.
[8]張學工.模式識別[M].第三版.北京:清華大學出版社,2010:13-13.
王澤昕(1999-),男,漢族,陜西省商洛人,就讀于陜西省商洛中學,高中在讀,研究方向機械自動化與智能系統。