摘要:圖像識別技術(shù)是人工智能實(shí)現(xiàn)的關(guān)鍵技術(shù)。文章以圖像識別技術(shù)及人工智能的概念為切入點(diǎn),簡單介紹了圖像識別技術(shù)的原理及類型,論述了圖像識別技術(shù)的應(yīng)用過程,并對圖像識別技術(shù)在人工智能中的應(yīng)用進(jìn)行了進(jìn)一步探究,希望為圖像識別技術(shù)在人工智能領(lǐng)域應(yīng)用優(yōu)勢的發(fā)揮提供一些參考。
關(guān)鍵詞:圖像識別技術(shù);人工智能;SVM
一、引言
近幾年,計(jì)算機(jī)技術(shù)飛速發(fā)展,人工智能成為炙手可熱的新興產(chǎn)業(yè)。圖像識別技術(shù)是當(dāng)前人工智能中的先導(dǎo)技術(shù),在圖像視頻處理方面可以取得接近甚至超越人類水平的效果。通過在人工智能中應(yīng)用圖像識別技術(shù),可以降低目標(biāo)識別工作的不確定性,為人工智能產(chǎn)業(yè)發(fā)展提供充足支持。因此,探究圖像識別技術(shù)在人工智能中的應(yīng)用具有非常重要的現(xiàn)實(shí)意義。
二、圖像識別技術(shù)及人工智能概述
(一)圖像識別技術(shù)
圖像識別技術(shù)(image recognition)主要本質(zhì)上是通過圖像采集終端傳感器獲取圖像數(shù)據(jù)文件,在數(shù)據(jù)預(yù)先處理過程中實(shí)現(xiàn)特征量類別劃分與預(yù)置特征標(biāo)注,最終識別圖像特征的過程[1]。在長時間發(fā)展過程中,圖像識別技術(shù)完成了從文字識別到數(shù)字圖像識別、再到物體識別的轉(zhuǎn)變,可以借助計(jì)算機(jī)技術(shù)進(jìn)行高精度識別,解決人類無法有效識別的問題。
(二)人工智能
人工智能(Artificial Intelligence)是與自然智能相對的概念,展示載體是機(jī)器。人工智能特指模仿人類、與人類思維相近或相關(guān)的認(rèn)知功能機(jī)器[2]。當(dāng)前,人工智能在語言識別與合成、自然語言翻譯、圖像識別方面具有顯著進(jìn)展,如2022年,新發(fā)布的OPPO Find X5系列手機(jī)ColorOS 12.1系統(tǒng)內(nèi)預(yù)置應(yīng)用程序DeWiCam可以通過檢查無線攝像頭固定(或用戶觸發(fā)的流量模式)實(shí)時判斷隱藏的針孔攝像頭。
三、圖像識別技術(shù)的原理及類型
(一)原理
圖像識別技術(shù)的原理與人類識別物體的原理類似,主要是經(jīng)過分類提取物體重要特征,排除多余信息干擾后識別圖像。以神經(jīng)網(wǎng)絡(luò)圖像識別為例,其需要先訓(xùn)練大量被打上標(biāo)簽的圖片樣本,并對樣本進(jìn)行類別劃分。進(jìn)而將未打標(biāo)簽的圖片輸入神經(jīng)網(wǎng)絡(luò)內(nèi),開始預(yù)訓(xùn)練。在預(yù)訓(xùn)練過程中,經(jīng)神經(jīng)元先后提取簡單形狀(邊緣部分)、復(fù)雜結(jié)構(gòu)、抽象概念,獲得區(qū)分不同圖像的標(biāo)準(zhǔn)后輸出最相似的結(jié)果。
(二)類型
從圖像識別技術(shù)運(yùn)行過程來看,可以將圖像識別技術(shù)劃分為基于神經(jīng)網(wǎng)絡(luò)的圖像識別技術(shù)、基于非線性降維的圖像識別技術(shù)。其中基于神經(jīng)網(wǎng)絡(luò)的圖像識別技術(shù)是將傳統(tǒng)圖像識別方式與神經(jīng)網(wǎng)絡(luò)算法融合后形成的人工模擬動物神經(jīng)網(wǎng)絡(luò)方式,以遺傳算法結(jié)合BP神經(jīng)網(wǎng)絡(luò)最為常見,可以應(yīng)用于智能汽車監(jiān)控等;基于非線性降維的圖像識別技術(shù)是更高維度的識別技術(shù),可以隨圖像進(jìn)行線性降維(線性奇異分析、主成分分析等),進(jìn)而求解投影圖像的數(shù)據(jù)集合,促使數(shù)據(jù)集合低維最優(yōu)。
四、圖像識別技術(shù)的過程分析
圖像識別技術(shù)的過程包括以下幾個環(huán)節(jié):
如圖1所示,圖像識別技術(shù)包括圖像輸入、預(yù)處理、特征提取、分類、匹配幾個環(huán)節(jié)[3]。其中圖像輸入主要是采集圖像并將其輸入計(jì)算機(jī)系統(tǒng)內(nèi);預(yù)處理又包括圖像灰度化、圖像增強(qiáng)、圖像分割、二值化、細(xì)化等幾個部分,其中圖像灰度化主要是剔除原始彩色圖像顏色信息,降低計(jì)算量;圖像增強(qiáng)主要是消除圖像質(zhì)量缺陷,促使圖像結(jié)構(gòu)與原有結(jié)構(gòu)一致;圖像分割主要是分離圖像區(qū)、背景,規(guī)避無效區(qū)域干擾特征提取速度;二值化特指利用二值圖像代替灰度圖像;細(xì)化則是利用線寬為一個像素的點(diǎn)線圖像代替以往不均勻二值圖像;特征提取即利用數(shù)值標(biāo)識圖像僅有特征,規(guī)避虛假特征;圖像分類則是在不同類別圖像庫內(nèi)存入圖像,降低后續(xù)計(jì)算復(fù)雜度與匹配耗時;圖像匹配主要是比對原模板圖像與前期輸入測試圖像特征相似性。
五、圖像識別技術(shù)在人工智能中的應(yīng)用
(一)圖像獲取
圖像識別技術(shù)在人工智能中應(yīng)用的首個環(huán)節(jié)是獲取相關(guān)圖像。常用的圖像采集方法是在視頻監(jiān)控平臺接入若干監(jiān)測點(diǎn)位,在監(jiān)測點(diǎn)位布置攝像頭,經(jīng)攝像頭采集圖像數(shù)據(jù)。除固定監(jiān)測點(diǎn)位攝像頭采集圖像數(shù)據(jù)外,還可利用無人機(jī)/直升機(jī)航拍方式,經(jīng)無人直升機(jī)、多旋翼無人機(jī)、固定翼無人機(jī)掛載的拍攝倉,對重點(diǎn)位置區(qū)域進(jìn)行多視角抓拍采像,可選擇的無人機(jī)型號為EDM-150G、DM-150、CW-300、CW-100。
此外,為解決圖像樣本過少導(dǎo)致地過擬合問題,可以對原始圖像進(jìn)行仿射變換或鏡像變換,促使圖像樣本數(shù)量達(dá)到要求。即應(yīng)用彈性變換算法,面向數(shù)字字符的云圖像識別樣本,為樣本圖像字符擴(kuò)充提供依據(jù)。在具體操作時,首先需要面向圖像內(nèi)的每一個像素點(diǎn)產(chǎn)生2個范圍在[-1,1]之間的隨機(jī)數(shù),標(biāo)注像素點(diǎn)的x方向、y方向移動距離;其次,生成一個以0為均值,以σ為標(biāo)準(zhǔn)差的高斯核k-nn,與隨機(jī)數(shù)做卷積并作用于以往圖像;最后,以k-nn、σ為變量進(jìn)行測試,將以往圖像像素點(diǎn)擴(kuò)充100倍,獲得適宜的扭曲圖像。
(二)預(yù)處理
在獲取相關(guān)圖像后,若直接借助全局圖像進(jìn)行特征提取,算法運(yùn)行耗時較長,且提取特征會分布于圖像多個區(qū)域,可提取的字符特征較少,字符區(qū)分難度較大。因此,應(yīng)進(jìn)行圖像的灰度化、增強(qiáng)與二值化、細(xì)化、分割處理[4]。
1.圖像灰度化
因原始RGB圖像每一個像素值涵蓋了紅色-綠色-藍(lán)色三個通道,根據(jù)三個通道的數(shù)據(jù)結(jié)構(gòu),可知其RGB分量在0~255(黑色~白色)范圍內(nèi)。在圖像灰度化處理時,可以根據(jù)不同比例,對RGB三種顏色進(jìn)行加權(quán)平均處理,滿足灰度值設(shè)定要求。加權(quán)比例受人眼部察覺顏色敏感度的直接影響,紅色加權(quán)比例為0.11,藍(lán)色加權(quán)比例為0.30,綠色加權(quán)比例為0.59。
2.圖像增強(qiáng)
為突出目標(biāo)圖像的有效特征,應(yīng)以圖像內(nèi)有價值信息、低價值或無價值信息區(qū)分為著手點(diǎn),進(jìn)行圖像增強(qiáng)處理。在圖像采集過程中,因場景條件、特殊光照等因素影響,圖像效果較差,應(yīng)著重調(diào)整圖像質(zhì)量,擴(kuò)大目標(biāo)圖像有價值信息區(qū)域。如假定灰度圖像f(x, y)的灰度集中分布在[a,b]區(qū)間內(nèi),a、b分別為最低灰階、最高灰階。此時,可以將圖像的灰度范圍提升到[c,d]區(qū)間內(nèi),完成灰度的變換,變換后灰度圖像f'(x, y)的變換函數(shù)如下:
(1)
根據(jù)式(1),可以完成灰度圖像的變換,促使圖像對比度上升或下降。在式(1)直線斜率小于1時,對灰度圖像f(x, y)進(jìn)行壓縮處理,變換后灰度圖像f'(x, y)對比度小于原灰度圖像f(x, y);在式(1)直線斜率大于1時,對灰度圖像f(x, y)進(jìn)行拉伸處理,變換后灰度圖像f'(x, y)對比度大于原灰度圖像f(x, y)。通過合理變換,可以有選擇地突出目標(biāo)灰度區(qū)間,減弱非必要灰度部分,完成圖像質(zhì)量的優(yōu)化。
3.圖像二值化
在圖像二值化是一種基于閾值的圖像分割方法,可以通過選擇存在差異的閾值,分割圖像內(nèi)目標(biāo)區(qū)域、非必要背景區(qū)域。具體處理時,可以設(shè)定一個閾值T,將超過T的像素點(diǎn)灰度值、與T相等或小于T的像素點(diǎn)灰度值分別設(shè)定為255、0,完成圖像二值化處理。
4.圖像細(xì)化
為順利提取圖像骨架,應(yīng)以圖像細(xì)小部分連通為重點(diǎn),對圖像進(jìn)行細(xì)化處理。圖像細(xì)化本質(zhì)上是一種逐次去除邊界的方法,需要依據(jù)連通性不變的規(guī)律縮小原則,選定一組結(jié)構(gòu)元素,在結(jié)構(gòu)內(nèi)循環(huán)至全部結(jié)果恒定。即在航拍圖初始地址、高度與寬度已知的情況下,開辟一塊內(nèi)存緩存區(qū)進(jìn)行初始化。在當(dāng)前像素為白時跳過,在當(dāng)前像素為黑時定義為一個結(jié)構(gòu)元素,計(jì)算對應(yīng)結(jié)構(gòu)元素內(nèi)各位置數(shù)值。進(jìn)而將模板中心覆蓋到待判斷像素上,在模板圖像所覆蓋位置像素為白時歸零,在模板圖像所覆蓋位置像素不為白時歸1。逐次判定模板圖像像素點(diǎn)是否滿足周圍黑像素大于1小于6、0變1次數(shù)為1、歸零后0變1次數(shù)不為1的條件,若滿足,則將結(jié)構(gòu)元素對應(yīng)的模板圖像像素點(diǎn)刪除,若無法滿足則進(jìn)行后續(xù)模板像素點(diǎn)的判斷,循環(huán)執(zhí)行至無可刪除模板圖像像素點(diǎn)。
5.圖像分割
在人工智能中,常見的圖像分割方法為基于連通域的目標(biāo)分割,即尋找圖像內(nèi)具有相同像素值的區(qū)域并進(jìn)行標(biāo)記。在具有相同像素值的區(qū)域?qū)ふ視r,可以利用兩遍掃描法,首次遍歷每個像素,完成上方、左側(cè)像素檢查;其次,將對應(yīng)像素的標(biāo)簽分配給當(dāng)前像素;最后,由圖像左上角線性移動到右下角,并在檢查當(dāng)前像素標(biāo)簽的同時連接區(qū)域的多個標(biāo)簽,完成圖像目標(biāo)分割。
(三)特征提取
特征提取優(yōu)劣對圖像識別效果具有決定性作用,特征提取的過程本質(zhì)上是一個降維的過程,即在選定特征點(diǎn)后,在特征點(diǎn)所在的區(qū)域內(nèi),將低層次的高維原始圖像像素矩陣抽象為高層次的與圖像識別目標(biāo)關(guān)聯(lián)的低維特征向量。常見的圖像特征提取為紋理密度、紋理方向或HSV色彩。其中HSV色彩主要是借助色相(Hue)、飽和度(Saturation)、明度(Value)對圖像進(jìn)行描述,搭建標(biāo)示圖像色彩屬性、顏色純度與亮度的空間。在空間內(nèi),可以經(jīng)直方圖水平軸將飽和度或明度通道取值范圍等分為若干間隔,以縱軸象征特定取值間隔的像素個數(shù)。在顏色特征提取之后,為避免光照調(diào)節(jié)對特征識別魯棒性造成干擾,可以利用邊緣檢測算子Canny、方向梯度直方圖,進(jìn)行紋理密度與紋理方向特征的提取。在Canny算子中,圖像紋理密度特征指標(biāo)為一幅圖像內(nèi)邊緣像素?cái)?shù)量與全部像素?cái)?shù)量的比值;方向梯度直方圖本質(zhì)上是求解像素點(diǎn)之間梯度變化方向。在方向梯度直方圖中,圖像可以被劃分為若干單元格,每一個單元格可視為一個8維的向量,在特征點(diǎn)所在的區(qū)域內(nèi),經(jīng)若干單元格大小的區(qū)塊滑動掃描圖像,統(tǒng)計(jì)像素點(diǎn)方向劃分到8個方向的梯度變化值,最終實(shí)現(xiàn)圖像紋理梯度方向分布差異程度的刻畫。一般方向梯度直方圖差異為方向梯度直方圖中刻度對應(yīng)取值與總刻度數(shù)量的比值。
(四)分類
在圖像特征提取后,可以借助SVM(Support Vector Machine,支持向量機(jī)),輸入確定的強(qiáng)相關(guān)特征,輸出圖像類別,完成圖像類別的智能劃分。基于SVM的圖像分類本質(zhì)上是一對多策略的實(shí)施,可以將分類器劃分為若干子分類器,將樣本圖像劃分為類別a、b,若航拍圖被分類為a,則繼續(xù)被輸入其中一個或多個子分類器,以進(jìn)一步確定圖像類別;若航拍圖被分類為b,則繼續(xù)被輸入另外的子分類器,以進(jìn)一步確定圖像類別。以河流冰情航拍圖為例,可以將分類器劃分為3個子分類器,將樣本類別劃分為明流和冰塞、流凌和冰蓋,若航拍圖被分類為明流和冰塞,則繼續(xù)輸入到子分類器1-2,以進(jìn)一步確認(rèn)航拍圖是明流或冰塞;若航拍圖被分類為流凌和冰蓋,則繼續(xù)輸入到子分類器1-3,以進(jìn)一步確認(rèn)航拍圖是流凌或冰蓋。匯總?cè)糠诸悢?shù)據(jù)后,可以獲得圖像分類結(jié)果。
(五)匹配
在完成圖像類別劃分之后,應(yīng)對待處理圖像與樣本圖像進(jìn)行配準(zhǔn)。一般無人機(jī)采集的航拍影像攜帶地理信息標(biāo)簽,包括存儲于飛行記錄內(nèi)俯仰角、偏航角、橫滾角等姿態(tài)數(shù)據(jù)以及分辨率、三維坐標(biāo)、焦距。為確保上述地理信息標(biāo)簽與樣本參數(shù)完全相符,可以空間位置特征向量為基礎(chǔ),借助Similarity Search(相似性搜索)算法,進(jìn)行航拍圖像-樣本圖像的初步匹配。即以特征向量為匹配依據(jù),將樣本圖像疊加到航拍圖像中。鑒于特征向量內(nèi)元素為浮點(diǎn)數(shù),可以采用歐式距離進(jìn)行向量間距離計(jì)算,在計(jì)算距離低于前期設(shè)置閾值時,即判定對應(yīng)的航拍圖與樣本圖像特征點(diǎn)成功匹配。
初步匹配后,航拍圖像與樣本圖像仍然存在部分無法對齊的區(qū)域,為提高兩者吻合度,可以圖像配準(zhǔn)為依據(jù),綜合考慮數(shù)據(jù)噪聲、成像畸變、傳感器精度等因素,在同一個坐標(biāo)系內(nèi)進(jìn)行不同空間尺度、不同時間下的圖像匹配。在精準(zhǔn)匹配時,可以將航拍圖像與樣本圖像視為若干傳感器采集的跨模態(tài)數(shù)據(jù),利用基于強(qiáng)度的圖像配準(zhǔn)方法,進(jìn)行圖像配準(zhǔn)。即以互信息(有價值信息度量,隨機(jī)變量內(nèi)涵蓋的另一個隨機(jī)變量信息量)為依據(jù),表征航拍圖像與樣本圖像之間相似性,互信息可表示為:
(2)
式(2)中I(R,B)為航拍圖與樣本圖像之間的互信息指標(biāo);r為航拍圖像素強(qiáng)度;b為樣本圖像像素強(qiáng)度;PRB(r,b)為航拍圖與樣本圖像像素強(qiáng)度聯(lián)合概率分布;PR(r)為航拍圖像素強(qiáng)度邊緣分布;PB(b)為樣本圖像像素強(qiáng)度邊緣分布[8]。在互信息確定后,利用遺傳算法進(jìn)行求解,獲得最大的互信息。遺傳算法的編碼方式為實(shí)數(shù)編碼,適應(yīng)度函數(shù)為互信息指標(biāo),種群大小為500,隨機(jī)產(chǎn)生初始種群,經(jīng)輪盤賭法選擇種群個體并對個體進(jìn)行自適應(yīng)交叉、突變。進(jìn)而選擇優(yōu)化互信息指標(biāo)概率最大的個體作為下一種群變異基礎(chǔ),循環(huán)開展互信息指標(biāo)評價-選?。徊嫱蛔儹h(huán)節(jié),直到獲得最大迭代次數(shù)的終止條件,實(shí)現(xiàn)圖像的高程度匹配。
六、結(jié)束語
綜上所述,圖像識別技術(shù)是人工智能領(lǐng)域至關(guān)重要的一項(xiàng)技術(shù),可以借助計(jì)算機(jī)取得近似于人類識別甚至超越人類識別的效果。在圖像識別技術(shù)應(yīng)用過程中,需要經(jīng)過圖像輸入、預(yù)處理、特征提取、分類、匹配幾個環(huán)節(jié)。通過合理操作各環(huán)節(jié),可以獲得最接近原圖的結(jié)果,為人工智能交互提供支持。
作者單位:李敏? ? 漯河食品職業(yè)學(xué)院
參? 考? 文? 獻(xiàn)
[1]陳逸,張聞中,華守彤,龔孜詣.基于圖像識別的皮帶運(yùn)輸機(jī)故障自動診斷方法[J].制造業(yè)自動化,2022(03):205-207.
[2]李觀發(fā).人工智能背景下圖像識別技術(shù)淺析[J].數(shù)碼世界,2019(06):128-128.
[3]秦放,曾維佳,羅佳偉,徐鵬.基于深度學(xué)習(xí)的多模態(tài)融合圖像識別研究[J].信息技術(shù),2022(04):29-34.
[4]白旭,宋祉明,李成剛.人工智能圖像識別技術(shù)在電力系統(tǒng)中的應(yīng)用[J].中國新技術(shù)新產(chǎn)品,2020(17):14-15.