蔣木奇
恒銀金融科技股份有限公司 天津 300380
計算機(jī)視覺(ComputerVision)是指使用計算機(jī)和相關(guān)設(shè)備對生物視覺建模。通過處理收集的圖像和視頻來獲取相關(guān)信息,可以實現(xiàn)諸如對象識別,形狀和方向確認(rèn)以及運動識別等功能,以適應(yīng)和理解外部環(huán)境并控制其自身的運動。簡而言之,計算機(jī)視覺試圖學(xué)習(xí)機(jī)器如何學(xué)習(xí)“看見”,這是機(jī)器上生物視覺的延伸。ComputerVision 集成了許多學(xué)科,例如計算機(jī)科學(xué)與工程,信號處理,物理學(xué),應(yīng)用數(shù)學(xué)和統(tǒng)計學(xué),并包括許多技術(shù),例如圖像處理,模式識別,人工智能和信號處理。特別是通過深度學(xué)習(xí),計算機(jī)視覺技術(shù)的性能取得了重大突破,已成為人工智能最重要的應(yīng)用技術(shù)之一,是實現(xiàn)自動化和智能化的必要工具。計算機(jī)視覺技術(shù)繼承自機(jī)器視覺和機(jī)器視覺(MachineVision)技術(shù),但卻又不完全一樣,圖像處理主要基于數(shù)字圖像的基本屬性(例如顏色,形狀和大?。﹣硖幚韴D像;機(jī)器視覺使用機(jī)器視覺產(chǎn)品而非人眼來測量和評估目標(biāo)形態(tài)信息;計算機(jī)視覺通常包括圖像處理和其他功能,例如模式識別。與專注于精確幾何測量計算的機(jī)器視覺相比,計算機(jī)視覺專注于感知和識別。
攝像機(jī)鏡頭可捕獲各種人臉圖像,包括靜止圖像,動態(tài)圖像,人臉表情等。圖1 顯示了攝像機(jī)捕獲的人臉,該圖像包含兩個人臉,較小的面部圖像會影響識別效果,而較大的面部圖像會影響識別速度。圖像分辨率越低,識別它的難度就越大。過度曝光或過低的照明環(huán)境會影響人臉識別的效果。相對于攝像機(jī)的臉部運動通常會導(dǎo)致臉部模糊,最好的圖片是不受阻礙的人臉特征和清晰的臉部邊緣圖像[1]。
人臉識別算法經(jīng)歷了三個發(fā)展階段:早期算法,人工字符+分類器和深度學(xué)習(xí)。特征臉法是將一系列臉圖像轉(zhuǎn)換為一組對象向量的對象,這是初始訓(xùn)練圖像集(稱為特征臉法)的主要組成部分。在識別期間,將新圖像投影到人臉的子空間中,并且基于子空間中投影點的位置和投影線的長度來做出決定。特征臉部使用基本成分分析(PCA)方法執(zhí)行空間變換,以獲取臉部部分的分布。主要成分將屬性值分解為訓(xùn)練集中所有圖像的協(xié)方差矩陣,以獲得特征向量。向量的每個元素用于描述人臉之間的特征或記錄變化,因此,特征向量的線性組合可用于表示不同空間。本地二進(jìn)制模式(Local Binary Patterns,LBP)。在圖像處理領(lǐng)域,使用局部二進(jìn)制模式(LBP)來描述圖像的紋理特征并提取局部元素作為標(biāo)準(zhǔn),使用灰度化中心像素的值作為閾值并與其他空間進(jìn)行比較,以確定相應(yīng)的二進(jìn)制值并獲得用于表達(dá)局部紋理的特征,該算法可以大大降低光敏性。
人臉檢測是指使用某些策略提取圖像或視頻流,首先確定圖像或視頻上是否有人臉。然后確定該人臉的位置,位置和大小。這個過程看起來很簡單,實際上存在一個主要問題,因為目標(biāo)是動態(tài)的,具有難以避免的變化,例如外觀,人臉特征,不同的表情,發(fā)型或配飾等,并且外部條件的變化,比如說光線影響,設(shè)備的焦距,拍攝距離等,都會給實際的人臉檢測造成干擾[2]。
人臉識別法的基本原理是使用Karhunen-Loev 變換將圖像從多維矢量轉(zhuǎn)換為低維矢量,消除了每個分量的相關(guān)性,從而簡化了數(shù)據(jù)處理。該方法的優(yōu)點是易于實施和快速,缺點是它會受光照,表情和位置等因素變化的影響,導(dǎo)致檢測率低。一種基于幾何特征的方法。此方法用于確定臉部主要特征器官(如嘴,鼻子,眼睛等)的位置和大小,并使用特征器官的幾何分布比例和比例進(jìn)行比較和識別。這種方法的優(yōu)點是速度更快,并且可以克服光強(qiáng)度對識別速度的影響,缺點是識別速度不夠高,可靠性不夠高,一旦表情姿態(tài)略有變化,識別效果大大降低?;谏疃葘W(xué)習(xí)的方法。由于機(jī)器學(xué)習(xí)的不斷發(fā)展,特別是深度學(xué)習(xí)和大數(shù)據(jù)研究的結(jié)合,人臉識別取得了革命性的成果。深度學(xué)習(xí)方法在面部識別中的特定應(yīng)用包括:基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的面部識別方法,用于區(qū)分面部形狀的深度非線性方法,基于面部姿勢可持續(xù)建模的深度學(xué)習(xí);在狹窄空間內(nèi)的全自動人臉識別;基于深度學(xué)習(xí)的視頻監(jiān)控下的人臉檢測。其中,CNN 權(quán)重分布結(jié)構(gòu)的結(jié)構(gòu)更像是生物神經(jīng)網(wǎng)絡(luò)。該方法通過感知面部圖像,總權(quán)重以及局部時空下采樣來分析局部數(shù)據(jù)中包含的特征,從而優(yōu)化了模型結(jié)構(gòu)。基于機(jī)器的向量支持方法。支持向量法(SVM)基于統(tǒng)計理論,其研究方向是解決樣本分類問題。此方法將圖像轉(zhuǎn)換為一個空間,然后將其分類為其他空間。目前,它被廣泛用于人臉識別,該方法的優(yōu)點是結(jié)構(gòu)相對簡單,可以實現(xiàn)全局優(yōu)化。缺點是它類似于神經(jīng)網(wǎng)絡(luò)方法,后者對計算能力和存儲空間有更高的要求,并且需要更多的時間進(jìn)行訓(xùn)練[3]。
通過以上描述,我們發(fā)現(xiàn)通過使用各種手段,可以有效識別人臉。但還存在一種基于重要特征點的彈性圖比較方法,不僅可以減少光照,縮放比例和畸變對人臉識別的影響,而且可以提高人臉識別的速度和準(zhǔn)確性。但使用此方法的場景相對簡單,對于復(fù)雜的動態(tài)場景無法完成有效的人臉識別。