張林 沈瑩
摘 要:分析高級(jí)數(shù)字圖像處理課程的教學(xué)內(nèi)容,提出教學(xué)內(nèi)容要緊密圍繞圖像處理研究領(lǐng)域的最新研究成果展開,圍繞課堂授課內(nèi)容、實(shí)踐環(huán)節(jié)、論文閱讀3個(gè)方面對(duì)這門課程的建設(shè)方案進(jìn)行全面闡述。
關(guān)鍵詞:軟件工程;高級(jí)數(shù)字圖像處理;研究生課程
1 背 景
數(shù)字圖像處理作為一門獨(dú)立學(xué)科大約形成于20世紀(jì)60年代初期,它是一種通過(guò)計(jì)算機(jī)對(duì)圖像進(jìn)行去除噪聲、增強(qiáng)、復(fù)原、分割、配準(zhǔn)、壓縮、提取特征等處理的技術(shù)。最近10年以來(lái),伴隨著計(jì)算機(jī)軟硬件水平的快速進(jìn)步,數(shù)字圖像處理的理論與應(yīng)用都進(jìn)入到了迅猛發(fā)展階段,其研究?jī)?nèi)涵、研究方法、應(yīng)用領(lǐng)域等都較之前發(fā)生了很大程度的改變。
在此背景之下,面向研究生開設(shè)的高級(jí)數(shù)字圖像處理課程的教學(xué)內(nèi)容需要反映出這個(gè)學(xué)科的前沿特性,需要結(jié)合當(dāng)前主流的應(yīng)用領(lǐng)域。
2 課堂授課內(nèi)容
數(shù)字圖像處理課程在國(guó)內(nèi)外的很多院校都有了較長(zhǎng)的開設(shè)歷史,相應(yīng)的經(jīng)典教材也有很多,比如岡薩雷斯編著的《Digital Image Processing》[1]等。同濟(jì)軟件學(xué)院在本科大三年級(jí)也開設(shè)了數(shù)字圖像處理課程,講授經(jīng)典數(shù)字圖像處理內(nèi)容。因此,針對(duì)研究生開設(shè)的高級(jí)數(shù)字圖像處理課程絕不能再去炒本科階段的“冷飯”,而應(yīng)該引入新穎的內(nèi)容,從而體現(xiàn)出課程名中的“高級(jí)”二字。考慮到這些因素,我們?cè)谥贫ㄕn堂教學(xué)內(nèi)容時(shí)選取一些近年來(lái)在數(shù)字圖像處理領(lǐng)域所取得的較新的重要研究成果,這種做法使得我們的研究生能夠較為快速全面地了解該領(lǐng)域的前沿情況,為他們?cè)诖朔较蚶^續(xù)進(jìn)行深入研究打下良好的基礎(chǔ)。同時(shí),所選取的授課內(nèi)容比較契合產(chǎn)業(yè)界當(dāng)前的最新需求,從而可以使我們培養(yǎng)的研究生能夠在就業(yè)市場(chǎng)上占得先機(jī)。
2.1 深度卷積神經(jīng)網(wǎng)絡(luò)
最近5年來(lái),深度學(xué)習(xí)(deep learning)技術(shù)給機(jī)器學(xué)習(xí)領(lǐng)域帶來(lái)了許多革命性的變化,解決了很多傳統(tǒng)方法難以克服的問(wèn)題。這項(xiàng)技術(shù)也漸漸在圖像處理領(lǐng)域得到應(yīng)用,并已取得了很好的結(jié)果。比如,深度學(xué)習(xí)已經(jīng)用于解決圖像的超分辨率問(wèn)題、圖像的去模糊問(wèn)題、圖像的去霧霾問(wèn)題、圖像的精細(xì)化分割問(wèn)題等。由于深度學(xué)習(xí)屬于基礎(chǔ)理論范疇,在本課程的其他專題中也會(huì)經(jīng)常使用到,所以先講授這部分內(nèi)容。
自從2012年Alex Krizhevsky等在NIPS上發(fā)表了把深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Network,DCNN)應(yīng)用于解決大規(guī)模圖像分類問(wèn)題的成果以來(lái)[2],在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域掀起一股研究和應(yīng)用深度學(xué)習(xí)技術(shù)的熱潮,并在許多不同領(lǐng)域取得了很大成功。深度學(xué)習(xí)技術(shù)近來(lái)的巨大成功一方面得益于大規(guī)模帶有標(biāo)記的數(shù)據(jù)的出現(xiàn),一方面是由于計(jì)算技術(shù)的進(jìn)步(如GPU)。深度學(xué)習(xí)實(shí)際上是一種對(duì)數(shù)據(jù)表示(representation)的學(xué)習(xí)技術(shù)。深度學(xué)習(xí)模型由多層簡(jiǎn)單模塊疊加形成,每一層都會(huì)對(duì)輸入進(jìn)行變換來(lái)同時(shí)增加數(shù)據(jù)表達(dá)的選擇性和不變性。圖1展示了一個(gè)典型的深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。深度學(xué)習(xí)模型可以從原始數(shù)據(jù)中學(xué)習(xí)到它們具有不同抽象層次的多層表示。深度學(xué)習(xí)技術(shù)的一個(gè)顯著特點(diǎn)就是它對(duì)數(shù)據(jù)特征的學(xué)習(xí)不是手工的,而是用通用的學(xué)習(xí)策略從數(shù)據(jù)中自動(dòng)學(xué)習(xí)到。
在本專題中,教師會(huì)介紹深度神經(jīng)網(wǎng)絡(luò)的基本知識(shí),主要涉及的知識(shí)點(diǎn)有:Softmax回歸(softmax regression)、深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN, Deep Convolutional Neural Networks)、Pooling策略、非線性激勵(lì)策略、訓(xùn)練集測(cè)試集與驗(yàn)證集、隨機(jī)梯度下降法(stochastic gradient descent)、Fast-RCNN(Fast Region-based Convolutional Networks)、CAFFE的應(yīng)用等。
2.2 圖像質(zhì)量評(píng)價(jià)
在大部分的圖像應(yīng)用系統(tǒng)中,圖像質(zhì)量評(píng)價(jià)(image quality assessment, IQA)都扮演著重要的角色[3]。雖然人的主觀評(píng)測(cè)往往能比較準(zhǔn)確地衡量圖像的質(zhì)量,但在很多實(shí)際的應(yīng)用場(chǎng)景中,由人逐一對(duì)圖像的質(zhì)量進(jìn)行評(píng)測(cè)是效率很低的一種做法,甚至是根本不可行的。在這種背景下,構(gòu)建有效的、自動(dòng)化的圖像質(zhì)量評(píng)價(jià)算法就成了一個(gè)具有重大意義的研究課題。圖像質(zhì)量評(píng)價(jià)研究的最終目的是希望提出某些算法,這些算法可以對(duì)圖像的質(zhì)量進(jìn)行自動(dòng)評(píng)價(jià),而且評(píng)價(jià)的結(jié)果能夠和人的主觀感受高度一致。圖2通過(guò)一個(gè)示例展示了IQA算法的目的,(a)~(d)是4幅圖像,人的視覺系統(tǒng)可以很容易對(duì)它們的質(zhì)量水平進(jìn)行排序;IQA研究的目的就是要設(shè)計(jì)出自動(dòng)化算法,該算法可以對(duì)輸入圖像的質(zhì)量進(jìn)行自動(dòng)評(píng)估,而且評(píng)估結(jié)果要和人的主觀感知高度一致。
圖像質(zhì)量評(píng)價(jià)的研究在整個(gè)圖像處理領(lǐng)域中占有重要地位。一方面,它具有很強(qiáng)的理論價(jià)值和科學(xué)價(jià)值,有助于加深人們對(duì)于人腦是如何感知圖像信息這一問(wèn)題的理解,這也是腦科學(xué)和神經(jīng)生物學(xué)所關(guān)注的問(wèn)題;另一方面,它也有很強(qiáng)的應(yīng)用價(jià)值,可以應(yīng)用到多個(gè)與圖像相關(guān)的技術(shù)領(lǐng)域中。目前很多圖像和視頻解決方案的提供商(如華為、中興)都對(duì)IQA問(wèn)題極為重視。
根據(jù)高質(zhì)量參考圖像(這些圖像不存在質(zhì)量失真)的存在性,圖像質(zhì)量評(píng)價(jià)問(wèn)題可以細(xì)分為全參考圖像質(zhì)量評(píng)價(jià)(full-reference IQA,F(xiàn)R-IQA)、部分參考圖像質(zhì)量評(píng)價(jià)(reduced-reference IQA,RR-IQA)和無(wú)參考圖像質(zhì)量評(píng)價(jià)(no-reference IQA,NR-IQA)。在本課程中我們主要講授FR-IQA和NR-IQA的典型算法。在FR-IQA中,高質(zhì)量無(wú)失真的參考圖像是已知的,因此FR-IQA算法可以用來(lái)評(píng)價(jià)同類型的圖像復(fù)原算法的優(yōu)劣。比如,給定多個(gè)圖像去噪算法,好的FR-IQA算法能夠準(zhǔn)確地判斷出它們中的哪一個(gè)能產(chǎn)生主觀感覺上最好的去噪效果,相應(yīng)的去噪算法當(dāng)然就是效果最好的去噪算法。其次,F(xiàn)R-IQA算法還可以用于指導(dǎo)某個(gè)圖像處理算法的參數(shù)選擇,甚至可以直接作為優(yōu)化目標(biāo)來(lái)指導(dǎo)設(shè)計(jì)新的圖像處理算法。在NR-IQA問(wèn)題中,任何有關(guān)無(wú)失真高質(zhì)量圖像的信息都是未知的,NR-IQA算法要對(duì)一個(gè)輸入的圖像直接進(jìn)行質(zhì)量評(píng)價(jià)。NR-IQA計(jì)算模型的應(yīng)用范圍非常廣泛,比如,當(dāng)我們?cè)O(shè)計(jì)一個(gè)基于人臉識(shí)別的門禁系統(tǒng)的時(shí)候,一般需要對(duì)采集到的圖像樣本進(jìn)行質(zhì)量評(píng)測(cè)步驟;只有當(dāng)圖像樣本滿足一定的質(zhì)量要求的時(shí)候,它才會(huì)被輸入到后端特征提取與分類模塊進(jìn)行進(jìn)一步處理。在這種場(chǎng)景下,對(duì)人臉圖像的質(zhì)量評(píng)測(cè)實(shí)際上就是一個(gè)NR-IQA問(wèn)題。
本專題的主要知識(shí)點(diǎn)包括:圖像質(zhì)量評(píng)價(jià)問(wèn)題分類、MSE(mean squared error)指標(biāo)的問(wèn)題、SSIM(structural similarity)算法、相位一致性(phase congruency)、FSIM(feature similarity)算法、BIQI(blind image quality index)算法、NIQE(natural image quality evaluator)算法、IL-NIQE(integrated local natural image quality evaluator)算法、圖像質(zhì)量評(píng)價(jià)算法的性能評(píng)測(cè)策略。
2.3 圖像中霧霾的度量與去除
很多圖像應(yīng)用系統(tǒng)需要在室外條件下采集圖像,如監(jiān)控系統(tǒng)、智能交通系統(tǒng)、輔助駕駛系統(tǒng)、基于手機(jī)的地標(biāo)查詢系統(tǒng)等。這些系統(tǒng)在設(shè)計(jì)與部署的時(shí)候會(huì)假設(shè)成像系統(tǒng)工作時(shí)的天氣條件是良好的,獲取的圖像是正常清晰的,沒有充分考慮惡劣天氣條件對(duì)成像質(zhì)量造成的不利影響。然而,實(shí)際上惡劣天氣條件會(huì)極大地降低圖像質(zhì)量,從而會(huì)影響整個(gè)系統(tǒng)的可用性。影響成像質(zhì)量的惡劣天氣主要包括霧、霾、雨、雪、冰雹等,而這其中霧霾較其他天氣現(xiàn)象而言更易多發(fā),而且對(duì)成像質(zhì)量造成的影響更大。在本專題中,教師將講授當(dāng)前研究領(lǐng)域最新的圖像霧霾程度度量算法和圖像去霧霾算法。圖像中霧霾程度度量研究的最終目的就是構(gòu)造一種算法,它可以對(duì)輸入圖像中的霧霾程度進(jìn)行自動(dòng)地、準(zhǔn)確地度量。圖像去霧霾算法的目的是從含有霧霾的圖像中復(fù)原出沒有霧霾的高質(zhì)量清晰圖像。
本專題的主要知識(shí)點(diǎn)包括:霧霾的物理模型、FADE(Fog Aware Density Evaluator)霧霾度量算法、基于暗通道(dark channel)假設(shè)的去霧霾算法、基于單張圖像的深度估計(jì)、模擬霧霾樣本的生成、基于DCNN的去霧霾模型。
2.4 生物特征識(shí)別
如何進(jìn)行簡(jiǎn)單有效的身份識(shí)別和驗(yàn)證成為各級(jí)政府和企事業(yè)單位需要面對(duì)的一個(gè)日益嚴(yán)峻的問(wèn)題,生物特征識(shí)別技術(shù)目前被公認(rèn)為是一個(gè)較好的解決方案。生物特征識(shí)別技術(shù)通過(guò)計(jì)算機(jī)與光學(xué)、聲學(xué)、傳感器和統(tǒng)計(jì)學(xué)等高科技手段,利用人體固有的生理特征(如指紋、虹膜、人臉、掌紋等)和行為特征(如筆跡、聲音、步態(tài)等)來(lái)進(jìn)行個(gè)人身份識(shí)別和驗(yàn)證[4]。目前,生物特征識(shí)別技術(shù)已廣泛應(yīng)用于我國(guó)的多個(gè)重要行業(yè)部門,如軍事、公安、刑偵、民政、海關(guān)等。未來(lái)的生物特征識(shí)別系統(tǒng)能夠使身份識(shí)別與驗(yàn)證變得更加方便、快捷、可靠,因此,這個(gè)產(chǎn)業(yè)具有廣闊的市場(chǎng)前景和巨大的潛在商業(yè)價(jià)值。圖3展示了常見的生物特征,包括指紋、人耳、人臉、虹膜、掌紋、手掌靜脈、手指靜脈等。
在本專題中,教師會(huì)介紹生物特征識(shí)別領(lǐng)域的基本理論以及典型的生物特征識(shí)別技術(shù),主要知識(shí)點(diǎn)包括:生物特征識(shí)別系統(tǒng)的性能評(píng)價(jià)、虹膜識(shí)別技術(shù)、指紋識(shí)別技術(shù)、人臉識(shí)別技術(shù)、掌紋識(shí)別技術(shù)。
3 實(shí)踐環(huán)節(jié)
通過(guò)課堂內(nèi)容的學(xué)習(xí),學(xué)生可以了解到圖像處理領(lǐng)域目前所使用的主流理論和技術(shù),但高級(jí)數(shù)字圖像處理課程應(yīng)用性極強(qiáng),因此其實(shí)踐環(huán)節(jié)尤為重要。實(shí)踐環(huán)節(jié)要真正起到培養(yǎng)研究生分析問(wèn)題、解決問(wèn)題、綜合運(yùn)用多學(xué)科知識(shí)的作用。在實(shí)踐環(huán)節(jié)中,任課教師設(shè)計(jì)了一組開放性課題,這些課題都與任課教師目前正在從事的科研項(xiàng)目有關(guān)。這樣,當(dāng)學(xué)生在實(shí)踐環(huán)節(jié)中遇到具體問(wèn)題時(shí),任課教師能及時(shí)給出建設(shè)性意見。對(duì)于每一個(gè)開放課題,基礎(chǔ)數(shù)據(jù)和硬件平臺(tái)都由任課教師提供,學(xué)生的任務(wù)主要是運(yùn)用所學(xué)知識(shí)設(shè)計(jì)和實(shí)現(xiàn)解決問(wèn)題的算法。
目前的開放性課題主要包括以下5個(gè):行人的上半身檢測(cè)、自主泊車系統(tǒng)中的車庫(kù)位檢測(cè)(檢測(cè)效果見圖4)、非接觸式掌紋掌脈識(shí)別(任課教師設(shè)計(jì)制備的非接觸式掌紋掌脈采集裝置見圖5)、基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像去霧霾、圖像的視覺顯著性檢測(cè)。這些課題基本上都屬于圖像應(yīng)用領(lǐng)域的研究熱點(diǎn)。
在實(shí)踐環(huán)節(jié)中,一般安排2~3人組成一個(gè)小組來(lái)協(xié)作完成一個(gè)課題,客觀上也培養(yǎng)了研究生團(tuán)結(jié)一致、分工協(xié)作的能力。
4 論文閱讀
科技文獻(xiàn)閱讀能力是研究生教學(xué)過(guò)程中需要重點(diǎn)培養(yǎng)的一種能力。文獻(xiàn)閱讀會(huì)貫穿整個(gè)研究工作的始終,從找到研究問(wèn)題、了解當(dāng)前發(fā)展現(xiàn)狀、提出可行方案、制訂實(shí)驗(yàn)方案,再到最終論文撰寫,都離不開文獻(xiàn)閱讀。因此,在本課程中專門安排了文獻(xiàn)閱讀環(huán)節(jié)。學(xué)生在教師的指導(dǎo)下,從指定的范圍內(nèi)選擇一篇合適的論文進(jìn)行精讀,然后要求在課堂上講演。所選擇的論文主要是近年來(lái)發(fā)表在圖像處理領(lǐng)域頂級(jí)期刊(如IEEE T-PAMI、IEEE T-IP等)或會(huì)議(如CVPR、ICCV、ECCV等)上的論文。講演環(huán)節(jié)的評(píng)分考慮到以下因素:能否清晰介紹問(wèn)題背景、能否清晰介紹論文所提方案的設(shè)計(jì)動(dòng)機(jī)、能否清晰介紹論文所提方案、能否清晰介紹論文方案所取得的效果、能否提出自己的改進(jìn)想法。
5 課程建設(shè)方案的效果評(píng)估
從2013年開始,高級(jí)數(shù)字圖像處理課程已經(jīng)完整開設(shè)了4次,教學(xué)效果良好,在學(xué)生中引起強(qiáng)烈的反響,獲得同濟(jì)大學(xué)相關(guān)專家和學(xué)生很高的評(píng)價(jià)。從精心安排的課堂授課專題中,學(xué)生學(xué)習(xí)或了解到圖像處理領(lǐng)域當(dāng)前最主要的研究問(wèn)題和研究方法;在實(shí)踐環(huán)節(jié)中,學(xué)生以任課教師正在從事的科研項(xiàng)目為載體,鍛煉了分析問(wèn)題、綜合運(yùn)用所學(xué)知識(shí)解決問(wèn)題以及團(tuán)隊(duì)協(xié)作的能力;在文獻(xiàn)閱讀環(huán)節(jié)中,在教師的指導(dǎo)下,學(xué)生提升了查閱文獻(xiàn)、獲取論文中的有效信息、做講演等方面的能力,課程建設(shè)方案達(dá)到了這門課的開設(shè)目的。
6 結(jié) 語(yǔ)
高級(jí)數(shù)字圖像處理課程是同濟(jì)大學(xué)軟件學(xué)院新開設(shè)的一門前沿課程,覆蓋了多項(xiàng)圖像處理領(lǐng)域的前沿研究?jī)?nèi)容。該課程已經(jīng)完整開設(shè)了4個(gè)周期,取得了良好的教學(xué)效果,獲得了相關(guān)專家和修讀此課的學(xué)生的高度評(píng)價(jià)。在今后的教學(xué)實(shí)踐中,我們還會(huì)認(rèn)真聽取相關(guān)專家和學(xué)生的建設(shè)性意見,對(duì)課程建設(shè)方案不斷完善,與時(shí)俱進(jìn),從而持續(xù)提升該課程的教學(xué)質(zhì)量。
參考文獻(xiàn):
[1] Gonazlez R C, Woods R E. Digital Image Processing [M].Upper Saddle River: Prentice Hall, 2008.
[2] Krizhevsky A, Sutskever I, Hinton G E.Image net classification with deep convolutional neural networks[C]//Proceedings of Neural Information Processing Systems.Cambridge: MIT Press,2012:1106-1114.
[3] 高新波,路文.視覺信息質(zhì)量評(píng)價(jià)方法[M]. 西安: 西安電子科技大學(xué)出版社, 2011.
[4] Jain A K, Flynn P J, Ross A. Handbook of Biometrics[M]. Berlin:Springer, 2007.
(編輯:郭田珍)