張鸝灃
【摘要】本文主要介紹了人工智能的核心——機(jī)器學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)算法中的高斯混合模型。研究了使用EM算法對(duì)高斯混合模型進(jìn)行參數(shù)估計(jì)。其次討論了高斯混合模型和K-means算法作為聚類算法上的異同。最后介紹了現(xiàn)階段高斯混合模型在實(shí)際中的應(yīng)用。
【關(guān)鍵詞】高斯混合模型 K-means算法 無(wú)監(jiān)督學(xué)習(xí)
【中圖分類號(hào)】G63 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】2095-3089(2018)48-0218-02
前段時(shí)間Alpha go橫掃世界高手的人機(jī)大戰(zhàn)成為一時(shí)熱點(diǎn),而這反映出近年來(lái)發(fā)展最為迅速而引人注目絕對(duì)非人工智能莫屬了。人工智能是研究學(xué)習(xí)人類智能的方法并發(fā)展為完整的應(yīng)用系統(tǒng)的一門前沿的技術(shù)科學(xué)。
人工智能的核心是機(jī)器學(xué)習(xí),它是一門涉及數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)等專業(yè)學(xué)科的多領(lǐng)域交叉學(xué)科。具體而言,機(jī)器學(xué)習(xí)由數(shù)據(jù)樣本出發(fā)應(yīng)用不同的算法“學(xué)習(xí)”出規(guī)律,進(jìn)而可以應(yīng)用于新的數(shù)據(jù)樣本上。
眾多的機(jī)器學(xué)習(xí)算法可以從不同的維度進(jìn)行分類。其中一種分類方式是依據(jù)數(shù)據(jù)是否有或僅有部分的標(biāo)記或分類標(biāo)簽而分為監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí),或半監(jiān)督學(xué)習(xí)。聚類分析是將已有的對(duì)象根據(jù)“學(xué)習(xí)的規(guī)律”而分組,每組中由具有相同性質(zhì)或?qū)傩缘膶?duì)象組成。這屬于典型的無(wú)監(jiān)督學(xué)習(xí)。
不論是越來(lái)越多可得的海量數(shù)據(jù),還是機(jī)器學(xué)習(xí)算法的進(jìn)一步發(fā)展和完善,人工智能都有了更廣闊的應(yīng)用場(chǎng)景,展現(xiàn)了更驚人的發(fā)展?jié)摿?。在不遠(yuǎn)的未來(lái),人工智能必將能滿足更多的科技和生產(chǎn)提出的新要求,帶來(lái)方方面面的革新。
1.高斯混合模型
1.1 高斯混合模型的定義
當(dāng)p=1時(shí),閔可夫斯基距離即為歐氏距離;當(dāng)P=2時(shí),閔可夫斯基距離此時(shí)即為常用的曼哈頓距離。在不同的情形下,適用于不同的距離度量,選擇更合適的距離度量有益于得到更好的模型效果。
2.2 高斯混合模型與K-Means模型的異同
高斯混合模型與K-Means模型都屬于機(jī)器學(xué)習(xí)算法中無(wú)監(jiān)督學(xué)習(xí)中的聚類算法模型——都是通過(guò)對(duì)無(wú)已知標(biāo)記或分類的樣本數(shù)據(jù)通過(guò)算法根據(jù)數(shù)據(jù)的分布結(jié)構(gòu)或性質(zhì)進(jìn)行分類的過(guò)程。這兩者模型在聚類的過(guò)程中都關(guān)注了樣本數(shù)據(jù)的均值信息。而這兩種算法在迭代流程上也有相似之處:在訓(xùn)練參數(shù)時(shí)首先都初始簇的數(shù)量,其次根據(jù)樣本數(shù)據(jù)訓(xùn)練模型參數(shù),之后更新簇的數(shù)量,再次訓(xùn)練模型參數(shù),直到模型收斂,參數(shù)迭代穩(wěn)定后,得到最終聚類模型。
機(jī)器學(xué)習(xí)算法中另一種分類方式是依據(jù)算法學(xué)習(xí)的過(guò)程中是否涉及概率密度的估計(jì)而分為概率模型和非概率模型。高斯混合模型和K-means算法的最大不同之處在于是否對(duì)樣本數(shù)據(jù)所服從的分布有前提假設(shè),即樣本是否服從正態(tài)分布。因此,高斯混合模型屬于機(jī)器學(xué)習(xí)中的概率模型,在訓(xùn)練的過(guò)程中不僅關(guān)注樣本數(shù)據(jù)的均值,還有樣本的標(biāo)準(zhǔn)差,得到了相對(duì)更為精準(zhǔn)的估計(jì)模型。但與此同時(shí),相對(duì)于僅關(guān)注樣本數(shù)據(jù)均值的K-Means模型,高斯混合模型的計(jì)算復(fù)雜程度也大大增加。除此以外,高斯混合模型涉及概率的概念,即一個(gè)樣本點(diǎn)可以同時(shí)間重復(fù)屬于多個(gè)簇,即支持混合分類。而K-Means模型僅支持單一分類結(jié)果。
3.GMM模型的應(yīng)用
機(jī)器學(xué)習(xí)算法中,無(wú)監(jiān)督學(xué)習(xí)是通過(guò)學(xué)習(xí)未標(biāo)定的數(shù)據(jù)得到分類標(biāo)準(zhǔn)。無(wú)監(jiān)督學(xué)習(xí)在圖像識(shí)別、語(yǔ)音識(shí)別等各個(gè)方面有著優(yōu)異的表現(xiàn)。其中的高斯混合模型相較于其他模型而言,在靜態(tài)和動(dòng)態(tài)的圖像識(shí)別和物體檢測(cè)和背景音識(shí)別、男女聲音判別等方面也都表現(xiàn)出優(yōu)異的準(zhǔn)確性和穩(wěn)定性。高斯混合模型現(xiàn)今成熟的應(yīng)用場(chǎng)景包括但不限于以下情形:數(shù)據(jù)集分類,例如不同級(jí)別的會(huì)員依照消費(fèi)額高低進(jìn)行分類;靜態(tài)和動(dòng)態(tài)的圖像分割及其特征提取,例如在固定位置的攝像機(jī)拍攝下的視頻中,持續(xù)跟蹤動(dòng)態(tài)人物并且區(qū)分其動(dòng)作,從交通監(jiān)控視頻中識(shí)別跟蹤運(yùn)動(dòng)中的汽車;最后應(yīng)用于語(yǔ)音分割和識(shí)別,例如從討論的聲音中分辨男、女聲,或有針對(duì)性的識(shí)別單個(gè)人的聲音,又或從嘈雜的戶外聲音中提取地震的聲音等。高斯混合模型以及機(jī)器學(xué)習(xí)在我們的現(xiàn)實(shí)生活中有著廣闊的應(yīng)用前景。
參考文獻(xiàn):
[1]李航:統(tǒng)計(jì)學(xué)習(xí)方法[M].清華大學(xué)出版社,2012.
[2]熊彪,江萬(wàn)濤,李樂(lè)林:基于高斯混合模型的遙感影像半監(jiān)督分類半監(jiān)督分類[J].《武漢大學(xué)學(xué)報(bào)信息科學(xué)版》, 2011,第36卷第1期.
[3]王千,王成,馮振元,葉金鳳:K-means聚類算法研究綜述[J].《電子設(shè)計(jì)工程》,2012(7):21-24.