• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于身高和拃長數據的性別分類研究

      2016-09-21 06:53:46王澤昕陜西省商洛中學
      科學中國人 2016年24期
      關鍵詞:錯誤率模式識別貝葉斯

      王澤昕陜西省商洛中學

      基于身高和拃長數據的性別分類研究

      王澤昕
      陜西省商洛中學

      本文以身高和拃長②數據為特征,對男女性別進行分類,采用的分類方法為最小錯誤率貝葉斯決策。本文統計了樣本數為25時的決策分類詳細結果,并研究了樣本數為5~50時錯誤率的變化趨勢。研究結果表明,以身高和拃長數據為特征時,能夠較為有效地區(qū)分出男女性別,且當訓練集樣本數量逐漸增大時,錯誤率顯現出逐漸減小的趨勢。

      性別分類;模式識別;貝葉斯決策;Matlab編程

      1.引言

      模式識別(也稱模式分類)是指對表征事物或現象的各種形式的(數值的、文字的和邏輯關系的)信息進行處理和分析,以對事物或現象進行描述、辨認、分類和解釋的過程,是信息科學和人工智能的重要組成部分,被廣泛運用與文字識別、語音識別、指紋識別、遙感、醫(yī)學診斷等領域。

      性別分類是模式識別領域中廣受關注的一個問題,它能體現男女性別在某些方面的差異,為人體生理學和心理學等方面研究提供理論基礎和數據支持。目前,已有學者進行了人臉特征性別分類[1][2]、社交媒體使用習慣的性別分類[3]、觸覺經驗性別分類[4]、基于語音的性別分類[5]、基于頭發(fā)信息的性別分類[6]、基于步態(tài)的性別分類[7]等。

      本論文將研究利用人體某些數值型的生理數據(身高與手掌長度)進行分類,以探索出性別分類的簡易、方便的模型和方法,同時加深人們對男女性別與生理特征之間的關系的理解。模式識別包含許多種分類方法,能夠對許多領域的問題進行數據處理和分析。本課題采用最小錯誤率貝葉斯決策方法,以人體的身高和拃長數據為特征,對數據集進行性別分類。本課題的特征數據易于搜集和處理,且分類錯誤率較低,有力地體現了男女性別在這兩種體征上的差異性。

      2.分類方法介紹

      分類可以看成一種決策過程,也即我們根據對樣本的觀測做出其應歸屬哪一類的決策[8]。我們采用的分類方法為最小錯誤率貝葉斯決策。下面我們將詳細介紹最小錯誤率貝葉斯決策的決策原理。

      在這里,我們僅討論兩類的情況:記類別為ω1和ω2,假設現在我們已知數據的特征x,用P(ω1|x)和P(ω2|x)分別表示此時兩類的后驗概率。所謂后驗概率,是指某事件已經發(fā)生,要求該事件發(fā)生的原因是由某個因素引起的可能性的大小。例如,此處的P(ω1|x)和P(ω2|x)分別表示,在已知我們觀測到數據特征為x時,造成我們觀測到特征為x的原因分別是由于該數據屬于ω1和ω2的概率。

      根據貝葉斯公式,我們可以將P(ωi|x)(i=1,2)表示為:

      其中P(ωi)(i=1,2)為ω1和ω2這兩類的先驗概率。所謂先驗概率,就是在事件還沒有發(fā)生,要求這件事情發(fā)生的可能性的大小。在此處,先驗概率P(ωi)(i=1,2)是指我們還沒有開始進行觀測樣本時,ω1類和ω2類的概率。通常可以用預先知道的知識(例如ω1類和ω2類的數量占比)來得到。

      在一般的模式識別問題中,我們往往希望盡量減少分類的錯誤率,即目標是追求最小錯誤率。從這一目標要求出發(fā),利用(2-1)中的貝葉斯公式就能得出使得錯誤率最小的分類決策,稱之為最小錯誤率貝葉斯決策。最小錯誤率貝葉斯決策可描述為:

      P(x|ωi)(i=1,2)的具體值可由訓練集數據在一定分布假設下求得。通常我們可認為人群中的身高和拃長分布滿足正態(tài)分布,雙變量正態(tài)分布聯合概率密度函數公式為如下:

      其中-∞<x,y<+∞;-∞<μ1,μ2<+∞;σ1,σ2>0;-1≤ρ≤1。其中μ1,μ2分別為x和y的均值,σ12,σ22分別為x和y的方差,ρ為x 和y的相關系數。

      3.研究方案設計

      3.1數據集說明

      本課題所采用的數據集來自于賓夕法尼亞州立大學Mind on Statistic公開數據庫①。該數據集包含167名大學生的身高(單位:英寸)與拃長數據(單位:厘米),其中女性89名,男性78名。

      我們在數據集中隨機挑選一定數目的數據作為訓練集(訓練集中男女性別數量一致),而測試集為整個原始數據集。我們首先選取了樣本數為25的訓練集,對最小錯誤率貝葉斯分類器進行訓練,得到參數。為了研究訓練集大小對分類效果的影響,我們研究并記錄了訓練集大小為5~50的情況下分類錯誤率,并繪制了錯誤率隨訓練集大小變化的趨勢圖,具體結果見第4章。

      3.2整體錯誤率的計算

      整體錯誤率的計算公式如下:

      也即整體錯誤率是各類錯誤率的加權平均和,各類的錯誤率的權重即為該類的先驗概率。其中P(ω1)和P(ω2)分別代表ω1類和ω2類的先驗概率,e1和e2分別代表ω1類和ω2類的分類錯誤率。e1與e2的計算公式如下:

      3.3仿真環(huán)境介紹

      在本課題中,我們采用MATLAB作為仿真環(huán)境。MATLAB是美國Math Works公司出品的商業(yè)數學軟件,在數值計算方面具有強大的能力,被廣大科研人員和工程技術人員所采用。我們主要用MATLAB的m文件編程功能來進行數據的預處理、最小錯誤率貝葉斯分類器的建立以及決策分類過程的實現。

      3.4 MATLAB程序設計框架

      本課題的MATLAB程序設計思路及流程如下:

      (1)數據預處理。首先將公開數據集導入到Excel表格中,然后利用MATLAB的m文件編寫讀取數據的函數,將數據讀取到MATLAB工作空間中。

      (2)設定訓練樣本數量,從數據集中隨機選取一定數目的樣本作為訓練集。根據訓練樣本計算公式(2-3)中的μ1,μ2,σ12,σ22,ρ,以便后續(xù)建立最小錯誤率貝葉斯分類器。

      (3)根據(2)中計算結果,結合(2-3)可得P(x|ωi)(i=1,2)的表達式,并結合(2-2)建立最小錯誤率貝葉斯分類器。

      (4)利用(3)中建立的最小錯誤率貝葉斯分類器,對測試集每個樣本進行決策分類,決策分類的依據為(2-2)。

      (5)利用公式(3-2)和公式(3-3)計算ω1類和ω2類的錯誤率,并利用公式(3-1)計算整體錯誤率,以判斷決策效果。先驗概率P (ω1)和P(ω2)均取0.5,即默認男女比例為1:1。這和我們的日常生活經驗是一致的。

      (6)改變樣本大小,將樣本大小從5取到50,分別統計不同樣本大小下的的整體錯誤率。

      4.決策分類結果

      我們采用Matlab建立最小錯誤率貝葉斯分類器,首先在樣本大小為25的情況下進行決策分類。決策分類中間過程參數值及最終錯誤率見表4.1。

      表4.1 樣本數為25時的決策分類結果記錄表

      接下來,我們對訓練集大小為5~50的情況進行了分類,共計46次分類實驗。為了減小數據隨機噪聲的影響,在每次分類實驗中,我們進行了共計10次測試,并統計每次測試的錯誤率,而后求取平均值,作為最終的錯誤率。46次實驗對應的錯誤率與訓練集大小之間的關系記錄如表4.2,變化趨勢圖如圖4.1:

      表4.2 樣本數為5~50時的決策分類結果記錄表

      由表4.2和圖4.1可見,分類錯誤率隨著訓練集的增大有減小的趨勢。

      5.總結

      性別分類是模式識別領域中廣受關注的一個問題,它能體現男女性別在某些方面的差異,為人體生理學和心理學等方面研究提供理論基礎和數據支持。本文采用最小錯誤率貝葉斯決策方法,利用賓夕法尼亞州立大學Mind on Statistic公開數據庫的數據集,對身高和拃長數據集進行性別分類。本課題的算法實現相對簡單,且數據易于搜集和處理,分類結果較為明顯。同時,我們發(fā)現,分類錯誤率隨著訓練集的增大有減小的趨勢,說明在有條件的情況下應選取盡可能多的數據作為訓練集。

      注釋:

      ①Data Sets for Mind on Statistics(Utts and Heckard):http:// sites.stat.psu.edu/~rho/mindon/readme.htm l

      ②拃長:指一個人張開大姆指和中指(或小指)兩端的距離。

      [1]趙海英,楊一帆,徐正光.基于多角度LBP特征的三維人臉性別分類[J].自動化學報,2012,09:1544-1549.

      [2]武勃,艾海舟,肖習攀,徐光祐.人臉的性別分類[J].計算機研究與發(fā)展,2003,11:1546-1553.

      [3]王晶晶,李壽山,黃磊.中文微博用戶性別分類方法研究[J].中文信息學報,2014,06:150-155+168.

      [4]崔倩,葉浩生.觸覺經驗對性別分類的影響:具身的視角[J].廣州大學學報(社會科學版),2013,03:41-45.

      [5]高原.基于性別分類的說話人識別研究[D].江蘇師范大學,2012.

      [6]劉爽,謝金融,呂寶糧.基于頭發(fā)信息的性別分類[J].計算機仿真,2009,02:212-216.

      [7]余美霞.基于步態(tài)的性別分類研究[D].北方工業(yè)大學,2013.

      [8]張學工.模式識別[M].第三版.北京:清華大學出版社,2010:13-13.

      王澤昕(1999-),男,漢族,陜西省商洛人,就讀于陜西省商洛中學,高中在讀,研究方向機械自動化與智能系統。

      猜你喜歡
      錯誤率模式識別貝葉斯
      限制性隨機試驗中選擇偏倚導致的一類錯誤率膨脹*
      貝葉斯公式及其應用
      正視錯誤,尋求策略
      教師·中(2017年3期)2017-04-20 21:49:49
      淺談模式識別在圖像識別中的應用
      電子測試(2017年23期)2017-04-04 05:06:50
      第四屆亞洲模式識別會議
      解析小學高段學生英語單詞抄寫作業(yè)錯誤原因
      基于貝葉斯估計的軌道占用識別方法
      一種基于貝葉斯壓縮感知的說話人識別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      第3屆亞洲模式識別會議
      降低學生計算錯誤率的有效策略
      昌江| 宾川县| 德安县| 辽源市| 锡林郭勒盟| 象山县| 石景山区| 永泰县| 景宁| 隆德县| 中超| 彰武县| 合川市| 尉氏县| 即墨市| 南昌县| 洮南市| 寻甸| 郓城县| 洪洞县| 汪清县| 青铜峡市| 项城市| 湛江市| 公安县| 邢台县| 阆中市| 商都县| 凯里市| 温州市| 油尖旺区| 秦皇岛市| 上高县| 栾川县| 阿克苏市| 通化市| 县级市| 南漳县| 富顺县| 江华| 天全县|