• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      芻議基于人工智能的圖像處理技術(shù)

      2023-08-09 19:08:54周媛媛
      計算機(jī)應(yīng)用文摘 2023年15期
      關(guān)鍵詞:圖像處理人工智能

      摘 要:文章對基于人工智能的圖像處理技術(shù)中多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)的實現(xiàn)原理、應(yīng)用場景進(jìn)行了介紹,旨在為從業(yè)者提供一定的參考,以及為行業(yè)外感興趣之人提供一定的科普知識。

      關(guān)鍵詞:人工智能:圖像處理:多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)

      中圖法分類號:TP391文獻(xiàn)標(biāo)識碼:A

      基于人工智能的圖像處理主要進(jìn)行“數(shù)字圖像處理”,即通過編制計算機(jī)程序控制算法,在原始數(shù)字圖像中定向執(zhí)行某些功能作業(yè)。在圖像處理的過程中,可以從數(shù)字圖像中完成基本信息的提取。在現(xiàn)代生活中,大眾已經(jīng)習(xí)以為常的“相機(jī)美顏” 功能、電影《流浪地球2》中令劉德華、吳京等人飾演的角色“年輕化”的方法均應(yīng)用了人工智能圖像技術(shù)??傮w而言,對此技術(shù)的實現(xiàn)原理及應(yīng)用展開分析具有重要意義。

      1 基于人工智能的圖像視覺處理技術(shù)原理

      當(dāng)前應(yīng)用較為廣泛的圖像處理技術(shù)以多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(Multi?Task Convolutional Neural Network,MTCNN)為代表[1] 。此項技術(shù)的核心原理是,能夠?qū)ⅰ叭四槄^(qū)域檢測” 以及“人臉關(guān)鍵點檢測” 融合于一體,形成類似cascade 的主題框架[2] 。MTCNN 網(wǎng)絡(luò)一般分成P,R,O 三層?NET 網(wǎng)絡(luò)結(jié)構(gòu)。在上述三個級聯(lián)網(wǎng)絡(luò)形成圖像檢測跟蹤模型之后,進(jìn)一步添加“候選框+分類器”處理機(jī)制,能夠自動捕捉人臉圖像并進(jìn)行檢測。上述三個級聯(lián)網(wǎng)絡(luò)各自具有的功能是:P?NET 具有“快速生成候選窗口”功能;R?NET 具有“基于高精度候選窗口過濾選擇”的功能;O?NET 具有“生成最終邊界框與人臉關(guān)鍵點”的功能[3] 。

      2 基于人工智能的圖像視覺處理技術(shù)的應(yīng)用歷程

      MTCNN 網(wǎng)絡(luò)模型在人臉識別領(lǐng)域的應(yīng)用范圍最廣,處理人臉圖像信息的過程如下。

      (1)圖像金字塔的構(gòu)建。首先,在處理一張人臉圖像之前,需要對圖片進(jìn)行縮放,但縮放的程度并不固定[4] 。如圖1 所示,右側(cè)的效果便是“圖像金字塔”。這一過程在計算機(jī)圖像處理軟件中的實現(xiàn)方法為設(shè)定縮放系數(shù)factor。經(jīng)過對不同人臉圖像的反復(fù)試驗,研究人員得出一個結(jié)論,將factor 取值設(shè)定為0.709,取得的縮放效果最佳。于是“factor= 0.709”被編入控制程序中。圖1 右側(cè)的“金字塔”型人臉圖像的“金字塔具體分層” 取決于人臉圖像的原始大小———“factor= 0.709”實際上是縮小比例,將原始圖像的長度、寬度均乘以這一系數(shù),一直到長度、寬度低于某個特定值(不同處理軟件有不同的標(biāo)準(zhǔn),同樣可以自行設(shè)定) 便停止。經(jīng)過幾輪的“縮放”,圖像的“金字塔層級”便是多少?;谏鲜鲈韺δ橙四槇D片進(jìn)行處理,核心處理程序如下。

      def calculateScales(img):

      copy_img = img.copy()

      pr_scale = 1.0

      h,w,_ = copy_img.shape

      if min(w,h)>500:

      pr_scale = 500.0/ min(h,w)

      w = int(w?pr_scale)

      h = int(h?pr_scale)

      elif max(w,h)<500:

      pr_scale = 500.0/ max(h,w)

      w = int(w?pr_scale)

      h = int(h?pr_scale)

      scales = []

      factor = 0.709

      factor_count = 0

      minl = min(h,w)

      while minl >= 12:

      scales. append(pr_scale?pow(factor,

      factor_count))

      minl ?= factor

      factor_count += 1

      return scales

      按照上述程序?qū)D片進(jìn)行比例縮放,其中存在2個數(shù)據(jù),分別是“500”和“12”。前者指利用處理軟件處理圖片前,可通過人工方式對圖片的長度、寬度進(jìn)行調(diào)整,使其高于500,否則軟件處理的圖片過小,信息提取容易失真[5] 。后者指經(jīng)過多輪次自動縮放,當(dāng)圖片的長度、寬度達(dá)到12 時,縮放即可停止。

      (2)基于P?NET(Proposal Network)的網(wǎng)絡(luò)層。經(jīng)過步驟(1)的縮放處理,在“人臉金字塔”圖像中形成一個“全卷積網(wǎng)絡(luò)”。這一過程的主要作用是通過全卷積網(wǎng)絡(luò),對圖片中的重要區(qū)域———人臉?biāo)谖恢眠M(jìn)行“邊框標(biāo)定”,之后初步提取人臉特征,完成上述作業(yè),還可進(jìn)行窗口調(diào)整及大部分窗口過濾作業(yè)。需要注意,在該階段,P?NET 存在2 個“輸出”,應(yīng)用層的核心控制程序是:

      classifier = Conv2D ( 2, ( 1, 1), activation = 'softmax', name='conv4?1')(x)

      設(shè)置classifier 指令的作用是,對網(wǎng)格點上框的可信度進(jìn)行判斷。在該條控制程序之下,還需編制:

      bbox_ regress = Conv2D (4, (1, 1), name = 'conv4?2')(x)

      對這一條程序的深度理解是:雖然bbox_regress能夠表示相框的位置,但這一位置是經(jīng)過縮放后的圖像中的人臉?biāo)谖恢茫⒎窃颊鎸嵨恢谩?/p>

      (3)將bbox_regress 映射到真實圖像上,然后完成一次解碼作業(yè)。在編制控制程序時,上述“映射+解碼”過程的實現(xiàn)需要調(diào)用函數(shù)庫中的detct_face_12net函數(shù)[6] 。具體的程序是:

      def detect _ face _12net ( cls _ prob, roi, out _ side,

      scale,width,height,threshold):

      # 0,1 表示維度的翻轉(zhuǎn)

      cls_prob = np.swapaxes(cls_prob, 0, 1)

      roi = np.swapaxes(roi, 0, 2)

      stride = 0

      # stride 略等于2,圖片壓縮比例(經(jīng)過p?net導(dǎo)致的),(x,y)是有人臉概率大于threshold 的點

      if out_side ! = 1:

      stride = float(2?out_side?1) / (out_side?1)

      (x,y) = np.where(cls_prob>=threshold)

      boundingbox = np.array([x,y]).T上述程序?qū)?yīng)的解析內(nèi)容是:針對經(jīng)過縮放及P?NET 處理后的圖片,找到其對應(yīng)原圖的位置,反向復(fù)盤“P?NET 比例+圖像黃金比例”,最后完成映射。完成函數(shù)調(diào)用及編制程序控制語句后,需要解決的問題如下。

      ①bbox_regress 映射到真實圖像后,圖片中會出現(xiàn)多個網(wǎng)格點。這些網(wǎng)格點的置信程度有高有低,需要從中篩選出具有高置信度的網(wǎng)格點[7] 。具體的篩選原理是:圍繞“置信程度” 設(shè)定一個“ 臨界值”,超出該臨界值,意味著該網(wǎng)格點內(nèi)存在“人臉信息”;低于該臨界值,表明該網(wǎng)格點內(nèi)不存在人臉信息。為便于理解,筆者舉一個更簡單、更容易驗證的例子。對很多圖像處理初學(xué)者而言,Photoshop 一般是所接觸的第一個圖片處理軟件。在Photoshop軟件中打開一張圖片后,很多人都嘗試過“前推鼠標(biāo)滑輪,放大圖片”的操作。之后看到的景象是,圖片仿佛被切割成多個“小方格”。這些小方格的本質(zhì)是“像素”———如果一張背景是白色的人臉圖像,那么在一定深度色彩的像素區(qū)間內(nèi)便“有圖像內(nèi)容信息”;依然保持白色的像素區(qū)間便“沒有圖像內(nèi)容信息”。這里還需注意一個問題,即當(dāng)前階段的AI 人工智能(可理解為具有多種處理功能的軟件工具)依然停留在“類人化”的階段,而非“完全具備人類大腦的思維能力”。之所以提出該問題,是因為軟件控制程序的“思考判定邏輯”具有極強(qiáng)的“直觀性”,并不懂得“轉(zhuǎn)彎”。比如,在人工處理一張人臉圖片時,如果背景是白色,圖像中人的脖頸處出現(xiàn)了部分白色襯衫,那么其會將該“白色襯衫”所在的像素區(qū)域認(rèn)定為“人臉的一部分”,在手動摳圖時會將該區(qū)域與人臉區(qū)域作為一個整體提取。圖像處理軟件則不具備上述功能,在相關(guān)控制程序啟動后,所有“白色像素區(qū)域”都會被認(rèn)定為“該區(qū)域不存在人臉信息”,故會將該區(qū)域篩除[8] ?;诖?,所設(shè)定的“置信程度臨界值”不能引起歧義,否則會導(dǎo)致人臉識別效果大幅度降低。

      ②對網(wǎng)格點所在的位置進(jìn)行記錄,即記錄框架內(nèi)的x,y 軸信息。

      ③繼續(xù)利用函數(shù),完成圖像中框的左上角基點、右下角基點之間的“像素差”。完成堆疊處理后,可以得到boundingbox。在此基礎(chǔ)上, 可以利用bbox _regress 完成對解碼結(jié)果的計算,對應(yīng)的程序為:boundingbox = boundingbox + offset12.0scale

      (4)R?NET 層(Refine Network)處理。這一層同樣需要構(gòu)造一個“卷積神經(jīng)網(wǎng)絡(luò)”[9] 。與P?NET 層相比,該層多出一個“圈層連接”功能。這樣設(shè)置的目的是,以更加嚴(yán)格的標(biāo)準(zhǔn),對圖像相關(guān)信息及輸入數(shù)據(jù)進(jìn)行篩選。具體來說,當(dāng)圖片進(jìn)入P?NET 層時,很多用于“預(yù)測”的窗口會被留下。通過編制控制算法,將這些預(yù)測窗口送入R?NET 層,接受深度篩選。由于卷積神經(jīng)網(wǎng)絡(luò)的存在,大量效果較差的候選框會在該環(huán)節(jié)被篩除,最后剩下的候選框均具有較為清晰的效果,之后會被送入Bounding?Box Regression,以完成深度優(yōu)化預(yù)測。總體而言,R?NET 層在使用最后一個卷積層后,還會對規(guī)模達(dá)到128 的全連接層進(jìn)行充分利用,以實現(xiàn)“保留更多圖像特征”的目標(biāo)?;诖?,R?NET 處理層的性能、對圖像信息處理的精確度均優(yōu)于P?NET 層。

      (5)O?NET 層(Output Network)處理。該層的基本結(jié)構(gòu)是一個復(fù)雜程度更高的卷積神經(jīng)網(wǎng)絡(luò),比R?NET 層多一個卷積層[10] 。從某種程度上來看,相較于R?NET 層,O?NET 層的主要功能更接近“輔助回歸”功能———可對圖像中的人臉面部區(qū)域進(jìn)行更具側(cè)重性的識別,之后對圖像中能夠體現(xiàn)出人臉面部特征的點位進(jìn)行“回歸處理”。完成相關(guān)作業(yè)之后,在圖片中,篩選出一定數(shù)量的人臉面部信息對應(yīng)的多個面部特征點(可進(jìn)行設(shè)置,按照特征代表性由高到低分布),之后完成輸出。完成上述處理后,還需對NMS結(jié)果進(jìn)行驗證處理,最終生成人臉識別信息。一張圖片中存在多個人,依次完成人臉信息的縮放、篩選、提取,可自動完成識別檢測,效率極高。

      3 結(jié)束語

      人工智能的本質(zhì)是“程序控制”,是指人類編制出具有“定向控制、定向作業(yè)”功能的程序算法,在“跑程序”的過程中,將其對特定對象信息進(jìn)行識別、捕捉、分析、處理,最終給出人們希望看到的結(jié)果。相關(guān)“處理”流程最初由人工完成,但隨著計算機(jī)計算能力的提升,人類大腦的計算速度已經(jīng)遠(yuǎn)遠(yuǎn)低于計算機(jī),人工處理過程還容易受到諸多因素的干擾,最終處理效果遠(yuǎn)遠(yuǎn)無法達(dá)到人們的要求。在這種情況下,人工智能技術(shù)應(yīng)運而生,極大地提高了運算處理效率??傊嘈旁诓痪玫奈磥?,更多令人驚嘆的人工智能圖像處理技術(shù)會在各行各業(yè)得到應(yīng)用,從而使人類世界更加“多姿多彩”。

      參考文獻(xiàn):

      [1] 李峰泉.人工智能的皮革自適應(yīng)視覺圖像處理切割技術(shù)研究[J].中國皮革,2022,51(9):44?48.

      [2] 曾光華,肖洋.人工智能算法在圖像處理中的應(yīng)用見解[J].電子元器件與信息技術(shù),2022,6(7):97?100.

      [3] 宋朝暉.人工智能算法在圖像處理中的應(yīng)用探討[C] / /2022 年第五屆智慧教育與人工智能發(fā)展國際學(xué)術(shù)會議論文集,2022:278?279.

      [4] 何映彤.人工智能技術(shù)下圖像處理教學(xué)的應(yīng)用研究[J].科學(xué)咨詢(教育科研),2022(6):124?126.

      [5] 劉云川,韓夢瑤,王浩全,等.人工智能算法在圖像處理中的應(yīng)用分析[J].電子世界,2021(16):67?68.

      [6] 劉磊,袁林德,王紫寧,等.基于人工智能算法的敦煌舞圖像處理技術(shù)[J].軟件,2021,42(8):39?41.

      [7] 鄧晨曦,蔣一鋤.人工智能算法在圖像處理中的應(yīng)用探討[J].中國新通信,2020,22(18):98?99.

      [8] 張超.人工智能圖像處理的邊緣計算硬件優(yōu)化[D].哈爾濱:哈爾濱工業(yè)大學(xué),2020.

      [9] 梁斌.試論人工智能算法在圖像處理中的應(yīng)用[J].?dāng)?shù)碼世界,2018(9):220.

      [10] 張薇.人工智能算法在圖像處理中的應(yīng)用[J].通訊世界,2018(4):63?64.

      作者簡介:

      周媛媛(1988—),碩士,實驗師,研究方向:教育信息化、圖像識別技術(shù)、數(shù)據(jù)可視化。

      猜你喜歡
      圖像處理人工智能
      我校新增“人工智能”本科專業(yè)
      2019:人工智能
      商界(2019年12期)2019-01-03 06:59:05
      基于圖像處理的機(jī)器人精確抓取的設(shè)計與實現(xiàn)
      機(jī)器學(xué)習(xí)在圖像處理中的應(yīng)用
      電子制作(2018年18期)2018-11-14 01:48:20
      人工智能與就業(yè)
      模糊圖像處理,刑事偵查利器
      圖像處理技術(shù)的實戰(zhàn)應(yīng)用
      數(shù)讀人工智能
      小康(2017年16期)2017-06-07 09:00:59
      下一幕,人工智能!
      下一幕,人工智能!
      云浮市| 贵溪市| 远安县| 牙克石市| 离岛区| 灌南县| 二连浩特市| 黄浦区| 昭觉县| 湄潭县| 龙井市| 唐山市| 若羌县| 沙河市| 黔西| 交口县| 和政县| 长兴县| 昌吉市| 延津县| 吉安县| 同德县| 方正县| 花莲市| 临桂县| 拉萨市| 东港市| 曲阜市| 晋江市| 阳山县| 阜宁县| 隆化县| 封丘县| 永兴县| 全椒县| 珠海市| 马鞍山市| 青冈县| 剑河县| 京山县| 宝清县|