• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      淺談度量學(xué)習(xí)

      2018-10-21 10:49:49王楠鑫蔣玉婷
      科技信息·中旬刊 2018年9期
      關(guān)鍵詞:馬氏度量分類器

      王楠鑫 蔣玉婷

      摘要:本文主要介紹了一種常用的機(jī)器學(xué)習(xí)方法——度量學(xué)習(xí)。度量學(xué)習(xí)旨在學(xué)得一個(gè)合適的距離來優(yōu)化分類器的性能,提高分類器的效率。本文對(duì)度量學(xué)習(xí)的基本概念做簡介,并分析5E38見的度量學(xué)習(xí)形式和方法,最后討論了一些度量學(xué)習(xí)研究中的前沿問題。

      關(guān)鍵詞:度量學(xué)習(xí)

      一、度量學(xué)習(xí)簡介

      在機(jī)器學(xué)習(xí)任務(wù)中,樣本之間的距離是一個(gè)十分重要的因素,絕大多數(shù)機(jī)器學(xué)習(xí)模型和算法都直接或間接地使用了樣本之間的距離。比如,在常見的“K近鄰”分類器中,樣本間的距離很大程度上影響了最終分類效果的好壞[1]。實(shí)際上,幾乎所有分類算法都可以在某個(gè)特定的距離下等價(jià)于“近鄰分類器”。在機(jī)器學(xué)習(xí)任務(wù)中,我們也常常通過特征選擇、特征提取等手段來對(duì)尋找數(shù)據(jù)更好的表示,或是達(dá)到降維的目的,而尋求數(shù)據(jù)更好的表示或降維最終是為了在得到的子空間中學(xué)習(xí),這本質(zhì)上就是基于子空間中的距離進(jìn)行學(xué)習(xí)。既然如此,我們完全可以直接尋找一個(gè)合適的距離,并利用這個(gè)學(xué)到的距離來完成各種任務(wù)。可以說,各種特征選擇、特征提取和表示學(xué)習(xí)方法都相當(dāng)于是在做度量學(xué)習(xí)??偠灾?,度量學(xué)習(xí)的目的就是尋找一個(gè)合適的距離定義,使得在這種距離定義下,相似樣本離得較近,而不相似樣本離得較遠(yuǎn),進(jìn)而來優(yōu)化某個(gè)機(jī)器學(xué)習(xí)任務(wù)。

      距離往往用來衡量對(duì)象之間的相關(guān)性。常見的距離有歐幾里得距離、馬氏距離[2]、余弦距離、曼哈頓距離等。一般來講,距離度量是一個(gè)二元函數(shù),它需要滿足四個(gè)條件:非負(fù)性、自反性、對(duì)稱性和三角不等式。若某個(gè)二元函數(shù)d滿足非負(fù)性、對(duì)稱性和三角不等式,且,則稱d為一個(gè)“偽距離度量”,它具有距離度量的大部分性質(zhì),也常用于機(jī)器學(xué)習(xí)任務(wù)。

      二、基于馬氏距離的度量學(xué)習(xí)

      為了能夠?qū)W得一個(gè)合適的距離,首先必須將距離“參數(shù)化”,即使用某些參數(shù)來定義一個(gè)距離函數(shù)。最常用的選擇是“馬氏距離”,它相當(dāng)于考慮樣本各個(gè)特征權(quán)重和特征間相關(guān)性的歐式距離,定義為:

      其中我們要求矩陣是一個(gè)半正定矩陣,即學(xué)到的馬氏距離實(shí)際上是一個(gè)“偽度量”。要學(xué)一個(gè)馬氏距離,實(shí)際上就是要學(xué)一個(gè)矩陣。如此一來,我們就可以依據(jù)這樣一種距離的定義形式來構(gòu)造各種優(yōu)化問題,從而完成各種機(jī)器學(xué)習(xí)任務(wù)。一般來說,基于馬氏距離的度量學(xué)習(xí)任務(wù)可以以優(yōu)化問題的形式描述為:

      其中L是某個(gè)關(guān)于的目標(biāo)函數(shù)。比如說,訓(xùn)練樣本給我們提供了一些弱監(jiān)督信息,即某些樣本是相似的,某些樣本是不相似的。設(shè)P表示相似樣本對(duì)構(gòu)成的集合,即若y)∈P本X和Y是相似的;設(shè)N表示不相似樣本對(duì)構(gòu)成的集合,即若y)∈N本X和Y是不相似的?,F(xiàn)在我們希望在學(xué)到的距離下,相似樣本間的距離較小而不相似樣本間的距離較大,那么可以將優(yōu)化問題構(gòu)造為:

      上式表示我們希望尋找一個(gè)矩陣,使得在這種馬氏距離下,相似樣本的距離之和盡量小,而不相似樣本的就離之和盡量大。有時(shí),我們只需要不相似樣本之間的距離達(dá)到某個(gè)既定的閾值即可,而不需要其盡量大,那么優(yōu)化問題可以寫為:

      這相當(dāng)于對(duì)原優(yōu)化問題的第二項(xiàng)取“hinge”損失。由于通過這樣一種方式學(xué)得的距離考慮了數(shù)據(jù)提供的弱監(jiān)督信息,使得相似樣本距離小而不相似樣本距離大,所以往往可以提高分類器的性能。

      前文說到,使用降維方法本質(zhì)上是在學(xué)習(xí)某種特定的距離度量,而馬氏距離也可以認(rèn)為是對(duì)原空間的樣本做映射之后的歐式距離。設(shè)原數(shù)據(jù)樣本∈R^D,矩陣,那么它可以將數(shù)據(jù)樣本映射為R維。在映射后的空間中,兩個(gè)樣本X和Y之間的歐式距離為:

      若將替換為一個(gè)矩陣,那么就得到了與馬氏距離相同的形式。我們可以將直接使用馬氏距離表示的度量學(xué)習(xí)問題稱為“Mahalanobis Distance Metric Learning”,簡稱為“MDML”[3],而將基于映射矩陣的度量學(xué)習(xí)問題稱為“Projection Distance Metric Learning”,簡稱為“PDML”。我們可以看出,一旦學(xué)得了映射矩陣就可以獲得相應(yīng)的馬氏距離矩陣,也就是說這兩種表示之間是相通的,但在使用時(shí)仍有一些區(qū)別。從優(yōu)化的角度來講,若使用“MDML”,則目標(biāo)函數(shù)往往是關(guān)于矩陣的線性函數(shù),雖然相似樣本間的距離和不相似樣本間的距離符號(hào)相反,但線性函數(shù)必定是凸函數(shù),這使得我們往往可以構(gòu)造關(guān)于矩陣的凸優(yōu)化問題。若使用“PDML”,目標(biāo)函數(shù)往往是關(guān)于矩陣P的二次函數(shù),而且相似樣本間的距離和不相似樣本間的距離符號(hào)相反,雖然凸函數(shù)的非負(fù)線性加權(quán)仍是凸函數(shù),但前后兩部分的凹凸性相反,從而整個(gè)優(yōu)化問題的凸性得不到保證。凸優(yōu)化問題在求解時(shí)有很好的性質(zhì),比如必定可以找到全局最優(yōu)解等。也就是說,使用“MDML”更方便于優(yōu)化。但是,從映射矩陣的角度考慮問題也有其意義,比如可以考慮映射的正交性,可以降低計(jì)算開銷等。

      三、度量學(xué)習(xí)中的前沿問題

      度量學(xué)習(xí)是一個(gè)十分值得研究的話題,度量學(xué)習(xí)領(lǐng)域中也存在一些待解決的問題。本部分將介紹一些關(guān)于度量學(xué)習(xí)可能的研究主題。

      考慮多個(gè)度量的學(xué)習(xí)。度量學(xué)習(xí)的最終目的是提高分類器的性能,一個(gè)具體的距離度量就好比是一種空間變換,或是一種特征提取的方法。我們知道,某個(gè)單一的簡單的學(xué)習(xí)器可能不會(huì)具有特別號(hào)的效果,受此啟發(fā),我們可以在度量學(xué)習(xí)中引入多個(gè)不同的距離,對(duì)不同類的樣本設(shè)計(jì)不同的距離度量,甚至對(duì)每一個(gè)樣本都設(shè)計(jì)一個(gè)特定的距離度量。實(shí)際上這一思路在機(jī)器學(xué)習(xí)中十分常見,比如“Gaussian Mixture”,比如“Ensemble”??梢赃@樣的角度來理解多度量學(xué)習(xí):不同的類的樣本會(huì)來自不同的分布,而不同的分布會(huì)具有不同的規(guī)律,也就具有不同的適用于分類的特征,所以使用多度量是合理的。另外,從映射矩陣的角度來考慮,學(xué)習(xí)一個(gè)馬氏距離相當(dāng)于學(xué)習(xí)一個(gè)線性映射,而簡單的線性關(guān)系未必能很好地刻畫數(shù)據(jù)之間的聯(lián)系,通過引入多個(gè)線性變換,可以使得模型具有更強(qiáng)的表示能力。

      參考文獻(xiàn):

      [1]彭凱,汪偉,楊煜普.基于余弦距離度量學(xué)習(xí)的偽K近鄰文本分類算法[J],上海交通大學(xué)自動(dòng)化系系統(tǒng)控制與信息處理教育部重點(diǎn)實(shí)驗(yàn)室,2014

      [2]梅江元.基于馬氏距離的度量學(xué)習(xí)算法研究及應(yīng)用[J],哈爾濱工業(yè)大學(xué),2016

      [3]楊緒兵,王一雄,陳斌.馬氏度量學(xué)習(xí)中的幾個(gè)關(guān)鍵問題研究及幾何解釋[J],南京林業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院,揚(yáng)州大學(xué)信息工程學(xué)院,2013

      猜你喜歡
      馬氏度量分類器
      有趣的度量
      模糊度量空間的強(qiáng)嵌入
      一類時(shí)間變換的強(qiáng)馬氏過程
      有環(huán)的可逆馬氏鏈的統(tǒng)計(jì)確認(rèn)
      關(guān)于樹指標(biāo)非齊次馬氏鏈的廣義熵遍歷定理
      迷向表示分為6個(gè)不可約直和的旗流形上不變愛因斯坦度量
      一致可數(shù)可加馬氏鏈不變測度的存在性
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      金湖县| 东光县| 龙泉市| 德令哈市| 竹溪县| 东海县| 宁城县| 汾西县| 台东县| 莱州市| 龙山县| 冀州市| 乐山市| 山东省| 赣州市| 宝丰县| 新野县| 佛冈县| 丹江口市| 潢川县| 瑞金市| 吉木萨尔县| 岳普湖县| 和平县| 许昌市| 陇西县| 阳信县| 和顺县| 梁河县| 玛纳斯县| 界首市| 兴义市| 冷水江市| 万源市| 策勒县| 涿州市| 界首市| 措美县| 云梦县| 汤阴县| 吉林市|