向德輝
(蘇州大學(xué)電子信息學(xué)院,江蘇 蘇州 215006)
2012年,AlexNet在ImageNet大型圖像識(shí)別挑戰(zhàn)賽中精度了顯著的精度提升,這是卷積神經(jīng)網(wǎng)絡(luò)在圖像處理中取得的第一次巨大成功。后來(lái),更多的網(wǎng)絡(luò)模型比如Unet,VGGNet,GoogLeNet和ResNet相繼被提出并進(jìn)一步成功地應(yīng)用于圖像處理領(lǐng)域。人工智能技術(shù)的學(xué)習(xí)與研究成為熱點(diǎn),多媒體、互聯(lián)網(wǎng)、醫(yī)學(xué)、制造業(yè)和遙感等許多行業(yè)也因此正在發(fā)生著前所未有的變化,其中圖像處理技術(shù)的蓬勃發(fā)展尤為突出。
數(shù)字圖像處理是信息學(xué)領(lǐng)域的熱門(mén)方向,也是電子信息、計(jì)算機(jī)、醫(yī)學(xué)影像等多個(gè)專(zhuān)業(yè)的重要課程,并涉及多門(mén)學(xué)科領(lǐng)域包括數(shù)學(xué)、模式識(shí)別、計(jì)算機(jī)科學(xué)、物理學(xué)以及機(jī)器學(xué)習(xí)等。通過(guò)學(xué)習(xí)本課程,信息類(lèi)專(zhuān)業(yè)的本科生不僅可以掌握?qǐng)D像處理的基本概念和原理,而且可以結(jié)合實(shí)驗(yàn)與應(yīng)用體會(huì)到創(chuàng)新的樂(lè)趣。由于數(shù)字圖像處理課程涉及了眾多學(xué)科,內(nèi)容多,交叉性強(qiáng),技術(shù)更新速度快,理論晦澀難懂,實(shí)踐要求高,學(xué)生在學(xué)習(xí)這門(mén)課程中容易產(chǎn)生厭學(xué)、棄學(xué)的情緒,因此,如何改進(jìn)教學(xué)內(nèi)容與教學(xué)模式,順應(yīng)新技術(shù)的發(fā)展,激發(fā)學(xué)生的學(xué)習(xí)興趣,提高教學(xué)效率,是這門(mén)課程實(shí)踐教學(xué)和研究中需要考慮的重要問(wèn)題。本文旨在探討和構(gòu)建數(shù)字圖像處理課程的教學(xué)模式,不僅重視課程的基礎(chǔ)理論教學(xué),而且也要增強(qiáng)大學(xué)生的工程實(shí)踐與創(chuàng)新能力。
傳統(tǒng)教學(xué)中,教師一般按照教材中數(shù)字圖像基礎(chǔ)、圖像增強(qiáng)、頻率域?yàn)V波、圖像復(fù)原與重構(gòu)、圖像分割等章節(jié)依次講授知識(shí)點(diǎn),重點(diǎn)介紹數(shù)字圖像處理的數(shù)學(xué)理論、算法流程、實(shí)驗(yàn)演示以及驗(yàn)證。學(xué)生在課堂上主要學(xué)習(xí)理論與流程,在上機(jī)實(shí)驗(yàn)中主要使用Matlab驗(yàn)證算法的效果,在考試中主要以考察學(xué)生對(duì)簡(jiǎn)單理論知識(shí)點(diǎn)的掌握為主。采用這種傳統(tǒng)教學(xué)模式,較難激發(fā)學(xué)生的學(xué)習(xí)興趣,培養(yǎng)學(xué)生創(chuàng)新實(shí)踐能力,主要體現(xiàn)在以下幾個(gè)方面:
(1)內(nèi)容陳舊。國(guó)內(nèi)高校采用的教材普遍是岡薩雷斯版,雖然內(nèi)容豐富,但是缺少相關(guān)技術(shù)(例如,人工智能等)的介紹,學(xué)生很難接觸到科研的熱點(diǎn)與動(dòng)態(tài),從而降低學(xué)習(xí)好奇心、主動(dòng)性和積極性。
(2)知識(shí)點(diǎn)分散。各章節(jié)之間的相關(guān)性不大,每一章對(duì)應(yīng)著圖像處理領(lǐng)域一個(gè)重要研究方向,在傳統(tǒng)的教學(xué)中,通常對(duì)每章知識(shí)點(diǎn)進(jìn)行逐一講解,從公式推導(dǎo)到算法流程,理論性較強(qiáng),需要學(xué)生扎實(shí)的數(shù)學(xué)功底與算法設(shè)計(jì)的能力,容易讓學(xué)生產(chǎn)生畏懼的心理。這讓學(xué)生學(xué)習(xí)興趣大大降低,同時(shí),很難意識(shí)到知識(shí)點(diǎn)之間聯(lián)系,導(dǎo)致學(xué)生很容易陷入“只見(jiàn)樹(shù)木,不見(jiàn)森林”的境地。
(3)理論基礎(chǔ)薄弱。每一章節(jié)都涉及大量復(fù)雜的數(shù)學(xué)理論,教學(xué)過(guò)程中很容易與矩陣、微積分、信號(hào)與系統(tǒng)等相關(guān)課程脫節(jié),在考試中僅涉及簡(jiǎn)單理論知識(shí)點(diǎn),使得學(xué)生的理論算法的基礎(chǔ)與功底并不扎實(shí),難以培養(yǎng)創(chuàng)新思維。
(4)實(shí)驗(yàn)教學(xué)薄弱。作為理論教學(xué)的輔助手段,大多僅安排了少量的實(shí)驗(yàn)學(xué)時(shí),有不少學(xué)校也沒(méi)有安排。然而,很多實(shí)驗(yàn)教學(xué)使用Matlab,以驗(yàn)證為目的,在實(shí)際應(yīng)用過(guò)程中當(dāng)遇到新問(wèn)題時(shí),很多學(xué)生很難根據(jù)相關(guān)的理論、算法與工程項(xiàng)目結(jié)合起來(lái),導(dǎo)致學(xué)生缺乏實(shí)際問(wèn)題分析能力與動(dòng)手解決能力。
張穎以興趣為導(dǎo)向從教學(xué)內(nèi)容、教學(xué)方式和考試方式三個(gè)角度提出了教學(xué)改革策略,酒明遠(yuǎn)指出應(yīng)以圖像處理的經(jīng)典問(wèn)題為切入點(diǎn),結(jié)合人工智能進(jìn)行教學(xué)方法改革,激發(fā)學(xué)生興趣。陳章寶等人以單層感知機(jī)模型、多層神經(jīng)網(wǎng)絡(luò)到卷積神經(jīng)網(wǎng)絡(luò)案例介紹了深度學(xué)習(xí)的漸進(jìn)式教學(xué)方法。王立等人也指出課程需要教學(xué)與機(jī)器學(xué)習(xí)有機(jī)融合,并介紹了卷積的拓展教學(xué)方法。劉東等人探討人工智能視域下數(shù)字圖像處理課程內(nèi)容、教學(xué)方法到實(shí)驗(yàn)實(shí)施。李新利等人將理論講解與程序演示、教師講解與學(xué)生編程等方式結(jié)合,以便能夠達(dá)到理論與實(shí)踐緊密結(jié)合的目的。
結(jié)合當(dāng)前課程教學(xué)現(xiàn)狀,本文提出一種自頂向下的教學(xué)模式,如圖1所示。首先,以圖像分類(lèi)為出發(fā)點(diǎn),通過(guò)卷積神經(jīng)網(wǎng)絡(luò)模型的搭建、訓(xùn)練與測(cè)試,讓學(xué)生能夠接觸到科研的前沿,激發(fā)學(xué)生的學(xué)習(xí)興趣。然后,針對(duì)卷積神經(jīng)網(wǎng)絡(luò)中的核心技術(shù),講解數(shù)字圖像處理中卷積運(yùn)算的工程實(shí)現(xiàn)及其擴(kuò)展。最后,回歸到卷積的數(shù)學(xué)本質(zhì),讓學(xué)生與前期課程聯(lián)系起來(lái),從而重視理論基礎(chǔ),并意識(shí)到數(shù)學(xué)理論的重要性。
圖1 一種自頂向下的教學(xué)模式
在教學(xué)過(guò)程中,學(xué)習(xí)積極性和主動(dòng)性的提高是教學(xué)成功的關(guān)鍵手段之一,也是大學(xué)培養(yǎng)創(chuàng)新型人才的基本保證。人工智能是當(dāng)前的前沿研究,因此,將前沿研究融入教學(xué)內(nèi)容之中,可以使得數(shù)字圖像處理這門(mén)課程能夠更好地與前沿知識(shí)接軌,吸收國(guó)內(nèi)外最新的研究成果,提升課程教學(xué)內(nèi)容的質(zhì)量,讓學(xué)生感受到與科研之間的零距離。因此,最新的研究熱點(diǎn)應(yīng)該適當(dāng)?shù)剡x擇并加入教學(xué)內(nèi)容,以跟上圖像處理技術(shù)的發(fā)展。下面以MNIST數(shù)據(jù)集圖像分類(lèi)為講解案例。
MNIST(Modified National Institute of Standards and Technology database,美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院的修改數(shù)據(jù)庫(kù))手寫(xiě)數(shù)字圖像分類(lèi)問(wèn)題是圖像處理和深度學(xué)習(xí)中使用大型的標(biāo)準(zhǔn)數(shù)據(jù)集。它是根據(jù)采集的不同人手寫(xiě)數(shù)字筆跡數(shù)字圖像為研究人員提供圖像處理算法訓(xùn)練與測(cè)試的開(kāi)放數(shù)據(jù),如圖2所示,包含60000張訓(xùn)練圖像和10000張測(cè)試圖像。結(jié)合該數(shù)據(jù)庫(kù),可以講解圖像感知、圖像取樣與量化、像素等數(shù)字圖像基礎(chǔ),以及彩色模型、偽彩色處理、彩色變換等彩色圖像處理。
圖2 MNIST數(shù)據(jù)集手寫(xiě)數(shù)字圖像
針對(duì)上述圖像分類(lèi)問(wèn)題,可以使用目前最流行的卷積神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)和練習(xí)如何開(kāi)發(fā)人工智能技術(shù)。定義一個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型,如圖3所示:由卷積和池化層組成的圖像特征提取器以及進(jìn)行預(yù)測(cè)的分類(lèi)器。
圖3 MNIST卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)器模型
模型中圖像特征提取器以卷積層為主。綠色第一卷積層接收了尺寸為28×28的1通道灰度圖像,選擇的卷積核大小為3×3,步長(zhǎng)為1,輸出通道設(shè)置為32個(gè)(將使用32個(gè)卷積核提取32個(gè)特征圖)。以1的填充大小填充圖像,以使輸入和輸出尺寸相同,因此,該層的輸出尺寸為32×28×28。對(duì)第一層卷積輸出應(yīng)用RelU激活,然后是核大小為2且步長(zhǎng)為2的最大池化層,將圖像特征映射下采樣為32×14×14的尺寸。第二卷積層接收了尺寸為32×14×14的特征圖像,選擇的卷積核大小為3×3,步長(zhǎng)為1,輸出通道設(shè)置為64個(gè)(提取64個(gè)特征圖)。以1的填充大小填充圖像,以使輸入和輸出尺寸相同,因此,該層的輸出尺寸為64×14×14。對(duì)第二層卷積輸出應(yīng)用RelU激活,然后是核大小為2且步長(zhǎng)為2的最大池化層,將圖像特征映射下采樣為64×7×7的尺寸。最后,使用兩個(gè)全連接層。從而使輸出尺寸與總分類(lèi)類(lèi)別數(shù)10匹配。教學(xué)中,可以在深度學(xué)習(xí)庫(kù)pytorch、tensorFlow、caffe,實(shí)現(xiàn)、訓(xùn)練與測(cè)試卷積神經(jīng)網(wǎng)絡(luò)。在構(gòu)建MNIST卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)器的同時(shí),學(xué)生可以學(xué)習(xí)深度學(xué)習(xí)庫(kù)的基本構(gòu)建模塊。這樣將最前沿的生動(dòng)實(shí)例和最新的編程練習(xí)方式融合在一起,形成了獨(dú)特的學(xué)習(xí)體驗(yàn)。另外,通過(guò)圖像分類(lèi)這一任務(wù)介紹,可以推廣到圖像分割。
離散卷積是卷積神經(jīng)網(wǎng)絡(luò)的核心操作之一,它是卷積神經(jīng)網(wǎng)絡(luò)能夠在底層的圖像特征到高層次的圖像處理的基礎(chǔ)。卷積神經(jīng)網(wǎng)絡(luò)中的卷積層提取圖像局部區(qū)域的特征,不同的卷積核可以提取不同的圖像特征。在數(shù)字圖像處理中,卷積操作是利用卷積核(也稱(chēng)卷積模板)在圖像上逐步滑動(dòng),將圖像像素的灰度值與對(duì)應(yīng)的卷積核上的數(shù)值相乘,將所有相乘后的值相加,作為卷積核中間像素對(duì)應(yīng)的圖像上像素的灰度值,從上到下、從左到右依次完成圖像所有像素的滑動(dòng)過(guò)程,如圖4所示。在卷積的標(biāo)準(zhǔn)定義基礎(chǔ)上,卷積神經(jīng)網(wǎng)絡(luò)中引入了卷積核的零填充和滑動(dòng)步長(zhǎng)來(lái)增加卷積的多樣性,可以更靈活地進(jìn)行特征提取。根據(jù)輸入與輸出尺寸,卷積可以分為窄卷積、寬卷積與等寬卷積。根據(jù)卷積與原始圖像像素對(duì)應(yīng)關(guān)系,除了標(biāo)準(zhǔn)的方式,還可以擴(kuò)展為膨脹卷積、平鋪卷積等形式。通過(guò)離散卷積運(yùn)算的擴(kuò)展,使學(xué)生對(duì)卷積的理解有了更加開(kāi)闊的視野。
圖4 離散卷積操作
在傳統(tǒng)的圖像處理教學(xué)過(guò)程中,離散卷積通常是空間域的圖像增強(qiáng)內(nèi)容,可以進(jìn)行圖像平滑與銳化的操作。卷積核中所有值都一樣,則是均值濾波;如果值的分布按照高斯函數(shù),那么高斯濾波,這些都可以用來(lái)對(duì)圖像進(jìn)行平滑去噪。卷積核若被定義為一階微分算子(例如Sobel算子、Prewitt算子)、二階微分算子(例如Laplacian算子、LOG算子)可以對(duì)圖像銳化,同時(shí)也可以增強(qiáng)與檢測(cè)圖像的邊緣,如圖5中所示低階特征;Canny算子為了降低噪聲干擾,在用高斯濾波器平滑圖像的基礎(chǔ)之上,增加了非極大值抑制和雙閾值提高邊緣檢測(cè)性能。
圖5 手寫(xiě)數(shù)字圖像的卷積后的特征
在卷積神經(jīng)網(wǎng)絡(luò)中,卷積則是作為特征提取的有效方法。圖像或者圖像特征在經(jīng)過(guò)小窗口的代數(shù)加權(quán)運(yùn)算,實(shí)現(xiàn)對(duì)圖像局部特征的提取與抽象表示。通過(guò)滑動(dòng)一個(gè)卷積核(即濾波器),卷積操作得到一組新的特征,使用的卷積核數(shù)目越多,提取到新特征的可能性越大。隨著卷積層深度的提升,圖像低階的局部細(xì)小特征到高階的抽象特征逐漸被網(wǎng)絡(luò)提取到,如圖5所示的低階到高階特征。將卷積加入神經(jīng)網(wǎng)絡(luò)模型,就可以將特征提取和識(shí)別聯(lián)系起來(lái)完成識(shí)別任務(wù)。
卷積是數(shù)學(xué)中一種重要的運(yùn)算。對(duì)于一幅數(shù)字圖像X∈R(M×N)和 一 個(gè) 卷 積 核W∈R(U×V),U<<M,V<<N,輸入圖像X和濾波器W的二維卷積定義為
式中,*表示二維卷積運(yùn)算。離散卷積的輸出像素計(jì)算方式為
式中,i,j是輸出圖像F索引;u,v是二維卷積核的索引。因此,在離散卷積的計(jì)算過(guò)程中,需要進(jìn)行卷積核翻轉(zhuǎn)。相似地,互相關(guān)輸出像素計(jì)算方式為
在圖像處理或者卷積神經(jīng)網(wǎng)絡(luò)中,一般用互相關(guān)來(lái)代替卷積,從而會(huì)減少一些不必要的運(yùn)算。另外,對(duì)于卷積神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),卷積核的參數(shù)是根據(jù)優(yōu)化算法調(diào)整,卷積核是否進(jìn)行翻轉(zhuǎn)與其特征提取的能力無(wú)關(guān)。
由于很多數(shù)字圖像為一個(gè)二維結(jié)構(gòu),式(2)使用了兩重求和,該式來(lái)自于數(shù)字信號(hào)處理中的一維離散卷積。對(duì)于離散線性時(shí)不變系統(tǒng)來(lái)說(shuō),系統(tǒng)的響應(yīng)可以表示為如下的卷積:
式中,n是離散系統(tǒng)響應(yīng)o索引;k是一維卷積核的索引;h是離散系統(tǒng)的沖激響應(yīng);s是輸入離散信號(hào)。對(duì)于信號(hào)與系統(tǒng)中的線性時(shí)不變系統(tǒng)來(lái)說(shuō),一維連續(xù)信號(hào)的卷積運(yùn)算定義為:
式中,t是連續(xù)系統(tǒng)響應(yīng)o索引;τ是一維卷積核函數(shù)的積分變量;h是連續(xù)系統(tǒng)的沖激響應(yīng);s是輸入連續(xù)信號(hào)。根據(jù)卷積的性質(zhì),兩個(gè)信號(hào)在時(shí)域的卷積積分對(duì)應(yīng)于頻域中該信號(hào)傅里葉變換的乘積。對(duì)于數(shù)字圖像處理來(lái)說(shuō),空域中根據(jù)卷積實(shí)現(xiàn)的圖像平滑與銳化,在頻域中,則對(duì)應(yīng)于低通濾波、高通濾波、帶通濾波、帶阻濾波等。
在人工智能技術(shù)顯著發(fā)展的背景下,本文分析了數(shù)字圖像處理這門(mén)課程在教學(xué)中存在的問(wèn)題以及面臨的挑戰(zhàn)。首先,結(jié)合當(dāng)前科學(xué)研究的熱點(diǎn)問(wèn)題,以學(xué)生的興趣為出發(fā)點(diǎn),將圖像處理與卷積神經(jīng)網(wǎng)絡(luò)緊密結(jié)合,課程內(nèi)容既包含傳統(tǒng)的圖像處理內(nèi)容,又包含了最新的圖像處理方法。同時(shí),學(xué)生可以了解到主流的卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)平臺(tái),也可以通過(guò)搭建自己的網(wǎng)絡(luò)模型,提升動(dòng)手能力。然后,通過(guò)卷積的工程實(shí)現(xiàn),論述了卷積的實(shí)現(xiàn)及其擴(kuò)展、卷積與濾波、特征提取之間的聯(lián)系。最后,在數(shù)學(xué)理論層面將卷積運(yùn)算與相關(guān)運(yùn)算、數(shù)字信號(hào)處理、信號(hào)與系統(tǒng)、頻域?yàn)V波聯(lián)系起來(lái),讓學(xué)生意識(shí)到以前學(xué)習(xí)的知識(shí)與理論是當(dāng)下課程的基礎(chǔ),技術(shù)的創(chuàng)新來(lái)源于理論的支撐。因此,結(jié)合最新技術(shù)與應(yīng)用案例到數(shù)學(xué)基礎(chǔ)的自頂向下的教學(xué)方式,既可以激發(fā)學(xué)生的興趣,又可以讓學(xué)生知其所以然,從而使學(xué)生能夠適應(yīng)新技術(shù)快速的發(fā)展,提高學(xué)生的綜合實(shí)踐能力與理論水平。