甘井中 楊秀蘭 呂 潔 黃恒杰 肖 磊
玉林師范學(xué)院計算機科學(xué)與工程學(xué)院, 廣西 玉林 537000
無監(jiān)督學(xué)習(xí)是指無教師監(jiān)督的學(xué)習(xí)過程, 即其神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)樣例是不帶類別標(biāo)號。它在廣義上可分成兩個子類,一個是強化學(xué)習(xí),一個是自組織學(xué)習(xí)。計算機的出現(xiàn)解決了人腦的邏輯思維問題,而且功能遠超人類,但在當(dāng)前計算機很難代替人腦獨特的形象思維和智能。計算機與人在物體識別方面,花費時間和正確率有很大的差距。這種差距引起了科學(xué)家的關(guān)注,他們研究用工程方法來實現(xiàn)或近似模擬人類智能,從而出現(xiàn)了人工智能及神經(jīng)網(wǎng)絡(luò),但這些都有一定的缺陷。然后,一種結(jié)合人對智能和對世界的理解的,模擬人眼視覺和人類智能的新的智能處理方法—無監(jiān)督學(xué)習(xí)出現(xiàn)了。
人工神經(jīng)網(wǎng)絡(luò)是由許多人工神經(jīng)單元組成的,每個單元能依照“映射”并行計算,同時可通過樣例學(xué)習(xí)。樣例的輸出是已知的,又稱有監(jiān)督學(xué)習(xí)。反之,有一種方法是根據(jù)神經(jīng)元自己所處的狀態(tài)學(xué)習(xí)的。假設(shè)兩個神經(jīng)元輸出分別為xi、yi,wij(=xiyi)為它們之間的連接權(quán),如果兩個神經(jīng)元都處于興奮的狀態(tài),則wij值高;若都處于抑制狀態(tài),即wij=0;這種方法稱為無監(jiān)督的學(xué)習(xí)[1]。
無監(jiān)督學(xué)習(xí)也是自組織學(xué)習(xí)系統(tǒng),學(xué)習(xí)沒有外部監(jiān)督。自組織學(xué)習(xí)的訓(xùn)練目標(biāo)不是產(chǎn)生一個分類系統(tǒng),而是對那些正確或錯誤的行為做出激勵或處罰。所以必須網(wǎng)絡(luò)表達質(zhì)量的任務(wù)度量,讓學(xué)習(xí)根據(jù)這個度量來最優(yōu)化網(wǎng)絡(luò)。為了完成自組織學(xué)習(xí),我們可以使用競爭性學(xué)習(xí)規(guī)則[2]。
所謂強化學(xué)習(xí)是指在此過程中,并不直接告訴機器要做什么或采取哪些行動,而是機器通過一些已有的不確定的信息來進行學(xué)習(xí),做出最優(yōu)的策略,得到最多的獎勵來自己發(fā)現(xiàn)。機器所響應(yīng)的動作的影響不僅是即刻得到的獎勵,還影響接下來的動作和一連串的獎勵。強化學(xué)習(xí)的目標(biāo)是將代價函數(shù)最小化。
自組織映射(SOM)是基于競爭學(xué)習(xí)的,在SOM里,神經(jīng)元被放置在網(wǎng)格節(jié)點上,這個網(wǎng)絡(luò)通常是一維或者是二維的,更高維的映射不常見。在競爭學(xué)習(xí)過程中,用不同輸入模式刺激,網(wǎng)絡(luò)選擇性地調(diào)整,形成對不同輸入特征的機系。
自組織目標(biāo)函數(shù)的互信息:在輸入和輸出隨機過程之間的香農(nóng)互信息具有一些唯一的性質(zhì),這些性質(zhì)使其可作為自組織學(xué)習(xí)的目標(biāo)函數(shù),從而被優(yōu)化。
有以下4種自組織原則[3]:
(1)Infomax原則,其包含了最大化神經(jīng)網(wǎng)絡(luò)的多維輸入和輸出向量之間的互信息,這一原則制定了自組織模型和特征映射的開發(fā)框架。
(2)最小冗余原則,這基本上是另一種最大化網(wǎng)絡(luò)的輸入和輸出之間的互信息導(dǎo)致冗余最小化的方法。
(3)Imax原則,這是最大化一對神經(jīng)網(wǎng)絡(luò)的單一輸出之間的互信息,這對神經(jīng)網(wǎng)絡(luò)是由兩個空間位移多維輸入向量所驅(qū)動的。該原則非常適合于圖像處理,目標(biāo)是發(fā)現(xiàn)帶噪聲傳感的輸入在空間和事件上表現(xiàn)的相干性。
(4)Imin原則,這是最小化一對神經(jīng)網(wǎng)絡(luò)的單一輸出之間互信息,這對神經(jīng)網(wǎng)絡(luò)是由兩個空間位移多維輸入向量所驅(qū)動的。該原則在圖像處理中的應(yīng)用目標(biāo)在于最小化同一環(huán)境中兩幅相關(guān)圖像之間的空間時間相干,圖像是由具有正交性質(zhì)的一對傳感器獲得的。
自組織學(xué)習(xí)的另一個類別是統(tǒng)計力學(xué)。統(tǒng)計力學(xué)作為優(yōu)化技術(shù)表示和機器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)。有以下3種模擬算法[4]:
(1)Metropolis算法,這是MCMC(Markov chain Monte Carlo)針對未知概率分布上的模擬。
(2)模擬退火,這是一個動態(tài)的過程,利用“高溫時觀察到系統(tǒng)的總特點,低溫時出現(xiàn)細節(jié)特征” 來避免局部極小值的一種優(yōu)化算法。
(3)Gibbs抽樣,它產(chǎn)生一個帶Gibbs分布作為平衡分布的馬爾科夫鏈。與Metropolis算法不同,與Gibbs抽樣器相關(guān)的轉(zhuǎn)移概率不是靜態(tài)的。
很多強化學(xué)習(xí)問題被看成一個馬爾可夫決策過程(MDP),主要是圍繞馬爾可夫決策過程來建立模型的。給定動態(tài)系統(tǒng)的初始狀態(tài),馬爾可夫決策過程為選擇決策序列提供數(shù)學(xué)基礎(chǔ),這將最大化N-階段決策過程的返回值。
TD 方法是用于解決時間信度分配問題的方法。能夠有效地解決強化學(xué)習(xí)問題中的暫態(tài)信用分配問題,可被用于評價值函數(shù)的預(yù)測。幾乎所有強化學(xué)習(xí)算法中評價值的預(yù)測法均可看作TD 方法的特例,以至于通常所指的強化學(xué)習(xí)實際上就是TD 類強化學(xué)習(xí)。時序差分學(xué)習(xí)是一種增量式學(xué)習(xí)算法,也是MC和DP方法的結(jié)合,沒有環(huán)境模型,而是根據(jù)經(jīng)驗學(xué)習(xí)[5]。
Q-學(xué)習(xí)是一種增量式的動態(tài)規(guī)劃過程,用逐步方式來決定最優(yōu)策略。它非常適合于求解沒有明顯的轉(zhuǎn)移概率知識的馬爾可夫決策問題。但是和TD相似,成功應(yīng)用Q-學(xué)習(xí)的關(guān)鍵在于假設(shè)環(huán)境狀態(tài)是完全可觀察的,這就意味著環(huán)境的完全可觀察的馬爾可夫鏈。
第一個基于平均報酬模型的強化學(xué)習(xí)算法是由Schwartz 提出的R-學(xué)習(xí)算法,它是一個無模型平均報酬強化學(xué)習(xí)算法。類似于Q-學(xué)習(xí)算法,用動作評價函數(shù)Rπ(s,a) 表達在狀態(tài)s下執(zhí)行以動作a為起點的策略π的平均校準(zhǔn)值。
乳腺癌早期診斷是很困難的,一般攝影只能觀察幾個病變像素,易被作為雜躁而忽視。利用兩個不同的波段紅外感應(yīng)相機同時拍攝兩幅圖像,腫瘤在不同的生長階段,血管血液成分有不同的比例,從而呈現(xiàn)不同的紅外特征。
不同波長的紅外圖像從兩個通道輸入神經(jīng)網(wǎng)絡(luò),用S1,S2表示兩幅紅外圖像中單像素的值,A和B表示混合傳遞函數(shù)的矢量,讓二維向量X=S1A+S2B,如何尋找兩個W1和W2,獲得S1和S2。一個方法是讓W(xué)1與A正交、W2與 B 正交,即 S′2=W1·X=S2W1·B,S′1=W2·X=S1W2·B,這樣得到S′2只與S2有關(guān),而S′1只與S1有關(guān)。這樣對兩幅乳房的圖像進行逐個像素的處理,很快就可得到確診。這種采用正交向量對消元的無監(jiān)督學(xué)習(xí)的方法,稱獨立元分析法。