王鐵勝
摘要:在當(dāng)今社會(huì)的經(jīng)濟(jì)發(fā)展中,伴隨著機(jī)器學(xué)習(xí)算法的應(yīng)用與發(fā)展,以此為基礎(chǔ)的計(jì)算機(jī)視覺處理技術(shù)也開始成為了人工智能領(lǐng)域中的一種關(guān)鍵技術(shù)形式。將機(jī)器學(xué)習(xí)算法合理應(yīng)用到計(jì)算機(jī)視覺處理中,便可讓計(jì)算機(jī)視覺處理更加貼合于人類的思維方式,以此來滿足實(shí)際的視覺處理需求。為實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法在計(jì)算機(jī)視覺處理中的良好應(yīng)用,該文特對(duì)其應(yīng)用進(jìn)行分析,并通過實(shí)際的應(yīng)用案例來分析其應(yīng)用策略。
關(guān)鍵詞:計(jì)算機(jī)? ?視覺處理? ?機(jī)器學(xué)習(xí)? ?應(yīng)用策略
中圖分類號(hào):TP391? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
Abstract: In the economic development of today's society, along with the application and development of machine learning algorithms, computer vision processing technology based on this has also begun to become a key form of technology in the field of artificial intelligence. The reasonable application of machine learning algorithms to computer vision processing can make computer vision processing more suitable for human thinking, so as to meet actual vision processing needs. In order to realize the good application of machine learning algorithm in computer vision processing, this article analyzes its application and analyzes its application strategy through actual application cases.
Key Words: Computer; Vision processing; Machine learning; Application strategy
所謂計(jì)算機(jī)視覺處理,就是以計(jì)算機(jī)算法為基礎(chǔ)的圖像內(nèi)容自動(dòng)識(shí)別技術(shù),這一技術(shù)起源于20世紀(jì)60年代左右,是人工智能與認(rèn)知神經(jīng)學(xué)的結(jié)合產(chǎn)物。在當(dāng)今,隨著社會(huì)的發(fā)展與科技的進(jìn)步,圖像識(shí)別技術(shù)也得到了良好發(fā)展。尤其是自機(jī)器學(xué)習(xí)技術(shù)應(yīng)用以來,計(jì)算機(jī)視覺處理技術(shù)的應(yīng)用及其發(fā)展更是上升到了一個(gè)全新的高度。因此,在計(jì)算機(jī)視覺處理技術(shù)的具體應(yīng)用中,技術(shù)人員一定要注重機(jī)器學(xué)習(xí)算法的科學(xué)應(yīng)用,以此來達(dá)到良好的視覺處理效果。
1 計(jì)算機(jī)視覺處理中機(jī)械學(xué)習(xí)的主要應(yīng)用
1.1圖像檢測技術(shù)的應(yīng)用
所謂圖像檢測技術(shù),就是在進(jìn)行圖像分類過程中,通過矩形框?qū)z測對(duì)象包圍起來。自2014年以來,很多機(jī)器學(xué)習(xí)框架都開始被應(yīng)用到了計(jì)算機(jī)視覺處理中的圖像檢測中,比如R-CNN框架、Fast R -CNN 框架、Faster R-CNN框架、YOLO框架以及SSD框架等[1]。在上述機(jī)器學(xué)習(xí)圖像檢測框架中,YOLO框架具有最高的檢測速度,經(jīng)實(shí)踐研究發(fā)現(xiàn),其檢測速度可以達(dá)到155幀/s,但是其檢測精度卻最低,只有52.7;Faster R-CNN框架雖然具有最高的檢測精度,但是其檢測速度非常慢。相比較其他檢測框架而言,SSD框架在檢測精度和檢測速度方面都更具優(yōu)勢。因此在具體的計(jì)算機(jī)視覺處理中,可將SSD框架作為其圖像檢測框架。
1.2隨機(jī)森林分類模型的應(yīng)用
在對(duì)照片進(jìn)行處理的過程中,計(jì)算機(jī)可借助于相應(yīng)的算法對(duì)語義圖形進(jìn)行分割,同時(shí)也會(huì)對(duì)其中的各種主要元素進(jìn)行合理區(qū)分。為達(dá)到這一目標(biāo),就需要一個(gè)足夠強(qiáng)大的構(gòu)建塊,也就是通過訓(xùn)練分類器來實(shí)現(xiàn)各種分類圖像中像素分布情況的預(yù)測。這一任務(wù)就使得機(jī)器學(xué)習(xí)在計(jì)算方面面臨著很多問題,尤其是在像素量很大的計(jì)算機(jī)中,其圖像分類任務(wù)甚至需要一百萬次以上的培訓(xùn)與測試[2]。針對(duì)這樣的情況,就需要借助于機(jī)器學(xué)習(xí)算法中的隨機(jī)森林分類模型來實(shí)現(xiàn)。具體應(yīng)用中,可按照隨機(jī)的方式來進(jìn)行像素森林構(gòu)造,在完成了森林構(gòu)造之后,每當(dāng)輸入一個(gè)新的樣本,森林中的各個(gè)決策樹便會(huì)分別對(duì)其進(jìn)行判斷;在明確新樣本所述類別之后,便可對(duì)其應(yīng)用的樣本進(jìn)行科學(xué)預(yù)測。借助于這一技術(shù),可在不需要特征選擇的情況下實(shí)現(xiàn)高維數(shù)據(jù)的大量處理,進(jìn)而達(dá)到良好的降維效果。在完成了訓(xùn)練之后,該模型便可準(zhǔn)確判斷出各種類型中的重要像素。另外,該模型也具有很快的訓(xùn)練速度,且能夠在訓(xùn)練過程中實(shí)現(xiàn)各種特征之間的影響作用檢測。
1.3仿生學(xué)方法和工程方法的應(yīng)用
在計(jì)算機(jī)視覺處理技術(shù)的應(yīng)用中,機(jī)器學(xué)習(xí)算法的主要作用是對(duì)人類的學(xué)習(xí)行為進(jìn)行模擬,以此來實(shí)現(xiàn)新知識(shí)和新技能的獲取,然后對(duì)已有的知識(shí)結(jié)構(gòu)重新進(jìn)行總結(jié),進(jìn)而實(shí)現(xiàn)計(jì)算機(jī)視覺處理績效的不斷提升。在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺的結(jié)合中,人工智能是其核心部分,同時(shí)也是實(shí)現(xiàn)計(jì)算機(jī)視覺處理智能化的一個(gè)根本途徑。具體結(jié)合中,為了讓計(jì)算機(jī)視覺處理的各項(xiàng)功能得以良好實(shí)現(xiàn),可將機(jī)器學(xué)習(xí)中的仿生學(xué)方法以及工程方法應(yīng)用其中。通過仿生學(xué)方法的應(yīng)用,可實(shí)現(xiàn)人類視覺系統(tǒng)和人類學(xué)習(xí)能力的良好模擬。但是因?yàn)槿祟愐曈X系統(tǒng)不能直接測量某一個(gè)輸入的輸出,加之人類的視覺系統(tǒng)屬于多種功能系統(tǒng)的組合,即使是在獲得到了輸入和輸出對(duì)的情況下,也難以確定其視覺刺激僅僅是對(duì)當(dāng)前的輸入所產(chǎn)生的響應(yīng)[3]。而通過工程方法的應(yīng)用,便可讓計(jì)算機(jī)視覺系統(tǒng)可以及時(shí)對(duì)當(dāng)前的輸出做出相應(yīng)的刺激響應(yīng),以此來達(dá)到良好的視覺處理效果。
2 計(jì)算機(jī)視覺處理中的機(jī)器學(xué)習(xí)應(yīng)用策略分析
為實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法在計(jì)算機(jī)視覺處理中的良好應(yīng)用,該文特以某藝術(shù)風(fēng)格遷移網(wǎng)站為例,對(duì)計(jì)算機(jī)視覺處理中的機(jī)器學(xué)習(xí)算法應(yīng)用策略進(jìn)行分析。在該網(wǎng)站中,主要的視覺處理目的是將給定的內(nèi)容按照特定的某種圖像風(fēng)格進(jìn)行轉(zhuǎn)化,進(jìn)而形成特定風(fēng)格形式的混合圖像。在通過多次的網(wǎng)絡(luò)運(yùn)算之后,可以讓給定的圖像完全轉(zhuǎn)變成特定的某種圖像風(fēng)格,達(dá)到人眼難以分辨的效果。以下是對(duì)這一過程的具體實(shí)現(xiàn)所進(jìn)行的分析。
2.1藝術(shù)風(fēng)格遷移與機(jī)器學(xué)習(xí)算法引入
所謂藝術(shù)風(fēng)格遷移,就是從一幅既有的圖像中進(jìn)行風(fēng)格提取,比如在梵高的《夜空》中進(jìn)行風(fēng)格提取,再將另一幅其他內(nèi)容、其他風(fēng)格的圖像導(dǎo)入,比如一個(gè)城市的建筑群;然后讓系統(tǒng)按照《夜空》的風(fēng)格再畫一遍城市建筑群[4]。雖然人類都能夠輕松識(shí)別圖像中的風(fēng)格特征,但是對(duì)于計(jì)算機(jī)而言,如何將一個(gè)圖像的風(fēng)格轉(zhuǎn)換成另一個(gè)圖像的風(fēng)格是一個(gè)相等復(fù)雜抽象的問題。傳統(tǒng)的圖像藝術(shù)風(fēng)格遷移方法在視覺效果上難以達(dá)到符合實(shí)際應(yīng)用的要求。為達(dá)到這一效果,在通過計(jì)算機(jī)進(jìn)行視覺處理的過程中,便可引入機(jī)器學(xué)習(xí)算法。而在該藝術(shù)遷移網(wǎng)站中,便將VGG19機(jī)器學(xué)習(xí)算法引入進(jìn)來。
2.2圖像內(nèi)容的定義
在將一幅圖像P導(dǎo)入到VGG(卷積層)機(jī)器學(xué)習(xí)網(wǎng)絡(luò)之后,會(huì)在網(wǎng)絡(luò)第一層獲得到一系列的向量,并在后續(xù)的每個(gè)網(wǎng)絡(luò)層中獲得中間向量,其中的各個(gè)像素都是由紅綠藍(lán)這三個(gè)值組成,代表著圖像特征。因?yàn)閂GG19屬于一個(gè)完成了一系列模擬人類視覺系統(tǒng)訓(xùn)練的機(jī)器學(xué)習(xí)網(wǎng)絡(luò),其中的參數(shù)已經(jīng)被確定,因此通過參數(shù)計(jì)算所獲得到的中間向量便可用來代表這個(gè)圖像。在這樣的情況下,就可以對(duì)某一個(gè)卷積層內(nèi)的featuer map(特征圖)定義為這個(gè)圖像的內(nèi)容[5]。
2.3內(nèi)容重構(gòu)
在給定了一幅圖片和完成模擬人類視覺系統(tǒng)訓(xùn)練的VGG19之后,便可在每一個(gè)卷積層內(nèi)實(shí)現(xiàn)若干個(gè)feature map的獲取,每一層的濾波器個(gè)數(shù)將會(huì)對(duì)feature map的獲取個(gè)數(shù)起到?jīng)Q定性作用。對(duì)每一個(gè)feature map做向量化處理,便可獲得到大小一定的向量,在相應(yīng)的矩陣中對(duì)每一層內(nèi)的向量進(jìn)行存儲(chǔ),其中的元素所表示的是在第I層中第i個(gè)濾波器j位置處的激活響應(yīng)[6]。如果指定了某一層I具體特征,希望可以生成一幅新的圖片X,讓這幅新的圖片在保留原來內(nèi)容的基礎(chǔ)上具備I的特征,便可按照以下公式對(duì)其損失函數(shù)Lcontent進(jìn)行定義:
這里的“內(nèi)容”指的是某個(gè)卷積層內(nèi)的全部feature map,將其與同一卷積層內(nèi)新圖像中的全部feature map比較,然后做平方差求和處理。但是在具體的計(jì)算機(jī)視覺處理中,也可以將某一層中的一個(gè)feature map用作圖像內(nèi)容,但是相比較將所有feature map用作內(nèi)容而言,其計(jì)算量會(huì)減少,模擬人類視覺系統(tǒng)訓(xùn)練速度會(huì)更快,但是精準(zhǔn)度也會(huì)降低,內(nèi)容保真度也無法保障。
2.4圖像風(fēng)格的定義
相比較圖像內(nèi)容的定義而言,圖像風(fēng)格的定義具有更高的難度。風(fēng)格定義中,并不可隨意將某一層內(nèi)的某一個(gè)feature map選作風(fēng)格層,而是需要將一層內(nèi)的全部feature map拿來兩兩作內(nèi)積,然后求出一個(gè)Gram矩陣,其中主要包括圖片顏色信息以及紋理信息,該矩陣也就是圖像的風(fēng)格。以下是圖像風(fēng)格的定義公式:
式中,所代表的是第I層內(nèi)feature map中的i與j的內(nèi)積,k所代表的是feature map內(nèi)與之對(duì)應(yīng)的元素,在某一層內(nèi),feature map中的i與j的內(nèi)積所代表的啟示就是這個(gè)Gram矩陣內(nèi)第i行第j列上的元素值[7]。在這樣的情況下,每一層中的風(fēng)格損失函數(shù)可按照以下公式來進(jìn)行定義:
式中,所代表的是這一層中的feature map總數(shù),所代表的是各個(gè)feature map的具體尺寸。該定義僅僅是針對(duì)某一層進(jìn)行的風(fēng)格定義,在具體的計(jì)算機(jī)視覺處理中,為達(dá)到更好的處理效果,就需要對(duì)其中的每一個(gè)卷積層進(jìn)行風(fēng)格定義,以此來實(shí)現(xiàn)其風(fēng)格損失函數(shù)的科學(xué)計(jì)算。以下是經(jīng)機(jī)器學(xué)習(xí)算法進(jìn)一步運(yùn)算得出的風(fēng)格損失函數(shù):
式中, 所代表的是各個(gè)層中對(duì)應(yīng)風(fēng)格的權(quán)重,處理中,其具體數(shù)值應(yīng)按照實(shí)際情況來確定,也可以將每一層中的數(shù)值設(shè)置為相等的數(shù)值,使其最終的和等于1。
根據(jù)上述計(jì)算,便可進(jìn)一步定義出最終的損失函數(shù):
式中,所代表的是各個(gè)層中對(duì)應(yīng)的內(nèi)容損失權(quán)重; 所代表的是各個(gè)層中的風(fēng)格損失權(quán)重,兩者加和是1。如果需要在最終合成的圖形中突出內(nèi)容,則可以為賦予更大的權(quán)值;如果需要在最終合成的圖像中突出風(fēng)格,則可以為賦予更大的權(quán)值。
2.5合成圖像的生成
在導(dǎo)入了一幅風(fēng)格圖像和一幅內(nèi)容圖像之后,便可通過完成訓(xùn)練的VGG機(jī)器學(xué)習(xí)網(wǎng)絡(luò)來進(jìn)行內(nèi)容和風(fēng)格的提取,然后通過上述機(jī)器學(xué)習(xí)運(yùn)算來實(shí)現(xiàn)最終的合成,進(jìn)而達(dá)到良好的藝術(shù)風(fēng)格遷移效果[8]。
3結(jié)語
綜上所述,在計(jì)算機(jī)視覺處理技術(shù)的具體應(yīng)用中,機(jī)器學(xué)習(xí)算法具有非常好的應(yīng)用優(yōu)勢。早期計(jì)算機(jī)視覺問題的一種解決途徑是通過一些數(shù)學(xué)建模,數(shù)學(xué)分析的方法來做,但是隨著近幾年來機(jī)器學(xué)習(xí)領(lǐng)域的快速發(fā)展,計(jì)算機(jī)視覺結(jié)合機(jī)器學(xué)習(xí)開始得到研究人員更廣泛的關(guān)注,并實(shí)現(xiàn)計(jì)算機(jī)視覺領(lǐng)域了較大的飛躍。因此,技術(shù)人員一定要對(duì)機(jī)器學(xué)習(xí)算法加以深入研究,并根據(jù)實(shí)際情況、結(jié)合具體應(yīng)用需求,使其在計(jì)算機(jī)視覺處理中得以合理應(yīng)用。這樣才可以讓計(jì)算機(jī)視覺處理朝著更加智能化的方向發(fā)展。
參考文獻(xiàn)
[1] 劉迪,賈金露,趙玉卿等. 基于深度學(xué)習(xí)的圖像去噪方法研究綜述[J]. 計(jì)算機(jī)工程與應(yīng)用, 2021, 57(7):1-13.
[2] 楊弋鋆,邵文澤,王力謙,等.面向智能駕駛視覺感知的對(duì)抗樣本攻擊與防御方法綜述[J].南京信息工程大學(xué)學(xué)報(bào),2019,11(6):651-659.
[3] 賀輝,陳思佳,黃靜.一種改善光照對(duì)深度人臉識(shí)別影響的方法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2019,29(4):38-41.
[4] 徐泉新思科技全新嵌入式視覺處理器 為人工智能芯片提供領(lǐng)先性能[J].計(jì)算機(jī)與網(wǎng)絡(luò),2019,45(21):74.
[5] 王一丁,趙晨爽.優(yōu)化視覺聚焦點(diǎn)的手背靜脈識(shí)別方法[J].計(jì)算機(jī)測量與控制,2019,27(7):200-204.
[6] 李章維,胡安順,王曉飛.基于視覺的目標(biāo)檢測方法綜述[J].計(jì)算機(jī)工程與應(yīng)用, 2020,56(8):1-9.
[7] 于淼淼,鄭元林,廖開陽,等.基于視覺感知高度相關(guān)的圖像質(zhì)量評(píng)價(jià)[J].西安理工大學(xué)學(xué)報(bào),2019,35(2):224-233.
[8] 劉佳洛,姚奕,黃松,等. 機(jī)器學(xué)習(xí)圖像分類程序的蛻變測試框架[J].計(jì)算機(jī)工程與應(yīng)用, 2020, 56(17):69-77.