• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      圖像語義分割方法綜述

      2019-09-23 01:21:06
      測控技術(shù) 2019年7期
      關(guān)鍵詞:語義驅(qū)動特征

      (空軍工程大學(xué) 信息與導(dǎo)航學(xué)院,陜西 西安 710077)

      圖像語義分割(Semantic Segmentation)是一種將圖像劃分成一系列具有特定語義信息的圖像區(qū)域的方法,已成為圖像理解分析領(lǐng)域的一個研究熱點,并展現(xiàn)出廣闊的應(yīng)用前景。例如,在智能汽車領(lǐng)域,通過對無人車前景物體圖像進行語義分割可以有效地幫助計算機判斷路況[1-2];在醫(yī)療領(lǐng)域,通過對醫(yī)學(xué)圖像進行語義分割可幫助醫(yī)生迅速分析和判斷患者病情[3-4]。

      鑒于圖像語義分割方法的巨大應(yīng)用價值,國內(nèi)外大量研究機構(gòu)和學(xué)者開展了相關(guān)研究,并取得大量研究成果。其中國外典型的機構(gòu)包括:加州大學(xué)伯克利分校的機器視覺實驗室、普林斯頓大學(xué)的計算機視覺實驗室、斯坦福大學(xué)的人工智能和視覺實驗室以及卡內(nèi)基梅隆大學(xué)的視覺與自主系統(tǒng)實驗室等[5-7]。在國內(nèi),近年來不少機構(gòu)也對圖像語義分割進行了較為深入的研究工作,如香港中文大學(xué)、清華大學(xué)、國防科技大學(xué)、中國科學(xué)院自動化研究所、西安電子科技大學(xué)、上海交通大學(xué)和中山大學(xué)等[8-12]。

      從方法研究的角度看,圖像語義分割的研究最早可追溯到計算機視覺的研究,早期的代表性成果是美國麻省理工學(xué)院Robertsr[13]提出的三維物體感知。之后麻省理工大學(xué)人工智能實驗室的D.Marr[14-15]將圖像處理與生物神經(jīng)學(xué)等多學(xué)科結(jié)合,提出了著名的馬爾視覺計算理論,極大地促進了計算機視覺的研究進展。Bajcsy[16]和Aloimonos[17]等人針對馬爾視覺計算理論缺乏高層知識反饋等問題相繼提出了目的視覺和主動視覺等理論。從20世紀(jì)80年代以來,馬爾科夫隨機場(Markov Random Field,MRF)和條件隨機場(Conditional Random Field,CRF)理論在圖像語義分割中掀起一陣熱潮。Grenande[18]與Geman[19]的工作給出了計算機視覺問題通過MRF建模的完備數(shù)學(xué)描述,成功將MRF模型引入到圖像分析領(lǐng)域。Kumar[20]將CRF模型擴展到2-維格型結(jié)構(gòu),開始將其引入到圖像分析領(lǐng)域,引起了學(xué)術(shù)界的高度關(guān)注。隨著深度學(xué)習(xí)熱潮的出現(xiàn),很多學(xué)者將其應(yīng)用到圖像語義分割,極大地提高了分割效果[21-23]。

      1 圖像語義分割方法

      圖像語義分割可以視為一種在傳統(tǒng)圖像分割的基礎(chǔ)上,給各圖像區(qū)域賦予某種語義屬性的特殊的圖像分割方法。為便于理解,圖1給出了一幅圖像的語義分割示意圖,其中圖1(a)為原始圖像,圖1(b)為其語義分割結(jié)果,其將圖像分割為畫像、椅子、桌子、地板等語義區(qū)域,每個區(qū)域采用不同顏色進行標(biāo)注區(qū)分[24]。

      圖1 圖像語義分割示意圖

      為了實現(xiàn)圖像語義分割,國內(nèi)外眾多學(xué)者提出了大量方法。從驅(qū)動類型來看,圖像語義分割方法可分為基于模型驅(qū)動的方法和基于數(shù)據(jù)驅(qū)動的方法。

      1.1 基于模型驅(qū)動的圖像語義分割方法

      基于模型驅(qū)動的方法通過圖像語義分割進行數(shù)學(xué)建模,首先建立圖像語義分割的明確的數(shù)學(xué)模型,然后通過訓(xùn)練數(shù)據(jù)確定相應(yīng)數(shù)學(xué)模型的參數(shù),最終利用確定模型實現(xiàn)圖像語義分割。

      根據(jù)建模方法的不同,基于模型驅(qū)動的方法進一步可分為生成式(Generative)和判別式 (Discriminative)兩大類,如表1所示。對于輸入x,類別標(biāo)簽y,用生成式模型估計它們的聯(lián)合概率分布P(x,y),而判別式模型用于估計條件概率分布P(y|x)。

      (1) 生成式模型。

      基于生成式模型的圖像語義分割方法先學(xué)習(xí)圖像特征和標(biāo)簽的聯(lián)合概率,通過貝葉斯公式計算給定圖像特征時各個標(biāo)簽的后驗概率,并依據(jù)后驗概率進行圖像標(biāo)注[25]。這類方法具有可擴展的訓(xùn)練過程,對訓(xùn)練圖像集人工標(biāo)注的質(zhì)量要求較低。目前生成式模型主要有3類:概率潛在語義分析(Probabilistic Latent Semantic Analysis,PLSA)、隱狄利克雷分配(Latent Dirichlet Allocation,LDA)和MRF模型。

      表1 模型驅(qū)動的方法

      PLSA和LDA通過隱主題將圖像的視覺特征與語義特征相關(guān)聯(lián),對圖像進行語義標(biāo)記。Hofmann[26]等人在2001年提出的PLSA模型最開始應(yīng)用于文本與自然語言的研究中,通過計算詞語和文本對應(yīng)的概率分布確定詞語在文本中的相似性。在訓(xùn)練數(shù)據(jù)太少或者存在噪音的情況下, PLSA 有時會出現(xiàn)過擬合的現(xiàn)象,針對這個問題,PLSA 通常采用期望最大化方法(Expectation Maximization,EM)對隱變量模型進行最大似然估計[27]。Blei[28]等人提出的LDA模型將超參層引入PLSA 模型,建立了隱變量的概率分布,在圖像語義分割中得到廣泛應(yīng)用。

      MRF模型是目前應(yīng)用更為廣泛的一種生成式模型。MRF模型能夠很好地利用標(biāo)記圖像的上下文信息,將標(biāo)記圖像中的上下文信息和輸入的圖像特征包含在一個統(tǒng)一的理論框架中?,F(xiàn)有的許多圖像標(biāo)記方法,如對數(shù)回歸分類器[29]、支持向量機(Support Vector Machine,SVM)[30]等,只能用于獨立分布的標(biāo)記數(shù)據(jù),本身很難對表征數(shù)據(jù)相關(guān)性的上下文信息建模。圖像上下文信息只是簡單地用于后處理過程,而沒有應(yīng)用在分類器的分類過程中,可能會降低圖像標(biāo)記精度。MRF模型在分類過程可以利用部分先驗上下文信息和一些通過訓(xùn)練得到的上下文信息,提高初步分類的結(jié)果。

      二是切實強化防洪薄弱環(huán)節(jié)治理,著力提升防洪保安能力。加快推進大中型病險水庫、病險水閘除險加固工程,開工建設(shè)泗河、洙趙新河、大汶河、馬頰河等重要支流治理,力爭完成德惠新河續(xù)建任務(wù);加快進一步治淮前期工作并及早組織實施,加快千里海堤工程建設(shè)。

      (2) 判別式模型。

      基于判別式模型的圖像語義分割方法假設(shè)圖像特征到標(biāo)簽之間的映射是某種參數(shù)化的函數(shù),直接在訓(xùn)練數(shù)據(jù)上學(xué)習(xí)此函數(shù)的參數(shù)。這類方法將各個語義概念視為獨立的類別,一般來說能取得較高的標(biāo)注精度。判別式的圖像語義分割模型主要包括貝葉斯(Bayes)模型、高斯混合模型(Gaussian Mixture Model,GMM)、SVM模型和CRF模型。

      Bayes模型通過Bayes公式求解后驗概率,實現(xiàn)對圖像的語義分割。Shi等人[27]對每個語義概念進行建模,將先驗層次知識與圖像的多級概念結(jié)構(gòu)表示方法相結(jié)合,再利用Bayes框架實現(xiàn)圖像語義分割。在基于模型驅(qū)動的語義分割方法中,建立的模型往往需要大量的圖像數(shù)據(jù)來進行參數(shù)學(xué)習(xí),這種情況下,很多研究者使用GMM模型進行圖像語義分割。Barnard[31]利用GMM模型對圖像中的每個語義類的分布進行建模,最后用EM方法對模型參數(shù)進行學(xué)習(xí)。

      SVM定義為特征空間上的間隔最大的線性分類器,即確定一個最優(yōu)分類超平面,使兩類訓(xùn)練樣本中距離超平面最近的樣本與超平面距離最大。SVM因其可處理非線性、高維小樣本并且具有良好的泛化能力,在圖像語義分割中得到廣泛的應(yīng)用。文獻[32]詳細介紹了SVM,文獻[5]將SVM用于圖像語義分割,在PASACAL 2009和PASACAL 2010數(shù)據(jù)集上進行測試。Felzenszwalb等人[33]組合梯度下降直方圖和SVM在PASACAL圖像分割挑戰(zhàn)賽上獲得第七名的成績。

      CRF是Lafferty等人[34]提出的一種概率圖模型,最初用于處理序列數(shù)據(jù)。由于可以融合多特征和上下文信息,隨后CRF模型在圖像標(biāo)記中得到了成功的應(yīng)用[35]。相比于MRF模型,CRF模型不僅可以利用標(biāo)記圖像上下文信息,還可以利用觀察圖像中從局部到全局各種形式的上下文信息[9]。

      1.2 基于數(shù)據(jù)驅(qū)動的圖像語義分割方法

      與基于模型驅(qū)動的方法不同,基于數(shù)據(jù)驅(qū)動的方法從圖像數(shù)據(jù)本身出發(fā),可利用大量訓(xùn)練數(shù)據(jù)自動學(xué)習(xí)特征,然后聯(lián)合優(yōu)化特征表示和分類器,充分挖掘其中蘊含的類別信息來實現(xiàn)圖像語義分割。最近幾年,深度學(xué)習(xí)技術(shù)在處理多種計算機視覺任務(wù)上取得了巨大進展,尤其是一些處理圖像分類和目標(biāo)檢測問題的方法,如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)等[36-38],越來越多的研究者開始利用CNN來解決圖像標(biāo)記問題。相對于傳統(tǒng)方法, CNN通過訓(xùn)練數(shù)據(jù)自動學(xué)習(xí)特征,可以控制整體模型的擬合能力,是一種典型的數(shù)據(jù)驅(qū)動的語義分割方法。很多基于深度學(xué)習(xí)的方法[39-41]既需要大量的訓(xùn)練數(shù)據(jù)來確定網(wǎng)絡(luò)參數(shù),也需要建立相應(yīng)的模型,本小節(jié)根據(jù)這類方法需要通過大量訓(xùn)練數(shù)據(jù)自動學(xué)習(xí)特征的特點將其統(tǒng)一歸為基于數(shù)據(jù)驅(qū)動的圖像語義分割方法介紹。

      CNN是一種高性能的深層神經(jīng)網(wǎng)絡(luò)模型。一方面,CNN神經(jīng)元間的連接是非全連接的,另一方面,同一層中某些神經(jīng)元之間的連接的權(quán)重是共享的。它的非全連接和權(quán)值共享的網(wǎng)絡(luò)結(jié)構(gòu)使之更類似于生物神經(jīng)網(wǎng)絡(luò),降低了網(wǎng)絡(luò)模型的復(fù)雜度,減少了權(quán)值的數(shù)量。如基于ImageNet訓(xùn)練的AlexNet[37]模型輸出一個1000維的向量表示輸入圖像屬于每一類的概率。AlexNet[42]只能用于對圖像分類,無法完成語義分割任務(wù)。Long等人的FCN(Fully Convolutional Network)[23]提出了使用全卷積網(wǎng)絡(luò)進行語義分割,推廣了原有的基于全連接層的網(wǎng)絡(luò)結(jié)構(gòu),在不帶有全連接層的情況下能進行密集預(yù)測。FCN可以接受任意尺寸的輸入圖像,對最后一個卷積層的feature map進行上采樣,使它恢復(fù)到與輸入圖像相同的尺寸,從而可以對每個像素都產(chǎn)生了一個預(yù)測,同時保留了原始輸入圖像中的空間信息,最后在上采樣的特征圖上進行逐像素分類。

      盡管FCN具有強大的靈活性,但仍然存在其所提取特征的類內(nèi)緊湊度不夠以及類間可分性不高的問題,針對這些問題,目前針對FCN的改善主要集中在引入全局上下文信息以及改善分割邊緣兩個方面。在引入全局上下文信息方面, DeepLab模型[39]將全連接CRF引入到FCN中,對FCN預(yù)測結(jié)果進行后處理。它將每個像素點表示為CRF模型中的節(jié)點,無論兩個像素距離多遠,每個像素對都可以用一個成對項表示。Zheng[40]等人提出了另外一種引入全局上下文信息的方法CRFasRNN,將CRF的求解推理迭代過程看成了RNN的相關(guān)運算,嵌入CNN模型中,最終實現(xiàn)FCN與CRF的端到端結(jié)合訓(xùn)練。文獻[41]提出的深度解析網(wǎng)絡(luò)(Deep Parsing Network,DPN)將MRF與傳統(tǒng)CNN結(jié)合,將MRF的單位置函數(shù)和雙位置函數(shù)的推斷和學(xué)習(xí)統(tǒng)一到CNN中,取得了比CRFasRNN更好的分割性能。在改善分割邊緣方面,文獻[43]針對FCN池化會造成分辨率下降的問題提出使用空洞卷積層(Dilated Convolution Layer),可使感受野呈指數(shù)級增長,而空間維度不至于下降。2016年劍橋大學(xué)提出的SegNet[44],使用不到1000張圖訓(xùn)練出城市道路分割網(wǎng)絡(luò),對很多場景都有很好的泛化性,通過逐步的編碼解碼使其能較好保留細節(jié)信息。文獻[45]利用金字塔池化實現(xiàn)整體輪廓信息與細節(jié)紋理結(jié)合,在一定程度上解決了分割任務(wù)中的多尺度問題。

      基于模型驅(qū)動的語義分割方法對特征和分類器分開優(yōu)化,研究者往往采用手工設(shè)計特征提取方法,再采用合適的分類器對特征進行分類,這類方法可顯式地分析特征的表示方式,但描述能力有限。而典型的基于數(shù)據(jù)驅(qū)動的語義分割方法,如CNN,可通過訓(xùn)練數(shù)據(jù)自動學(xué)習(xí)特征,然后聯(lián)合優(yōu)化特征表示和分類器,最大程度地發(fā)揮了二者聯(lián)合協(xié)作的性能,但是這類方法難以有清晰的數(shù)學(xué)表達。

      2 語義分割方法評價標(biāo)準(zhǔn)

      為評估圖像語義分割方法的性能,除了時間、內(nèi)存開銷外,主要是從語義分割的準(zhǔn)確性進行衡量。目前,圖像語義分割的準(zhǔn)確性度量的指標(biāo)主要包括像素精度(Pixel Accuracy,PA)、平均像素精度(Mean Pixel Accuracy,MPA)和均交并比(Mean Intersection over Union,MIoU),其定義如下。

      假設(shè)測試數(shù)據(jù)集中總共有n個類(從L1~Ln),pij表示第i類數(shù)據(jù)中被標(biāo)記為第j類的數(shù)量,pji表示第j類數(shù)據(jù)中被標(biāo)記為第i類的數(shù)量,則

      ① PA 定義為正確分類像素數(shù)與總像素數(shù)的比值。

      (1)

      ② MPA 相較于PA,在每個類別的基礎(chǔ)上計算正確分類像素的比例再求平均。

      (2)

      ③ MIoU是一種最為常用的準(zhǔn)確性評估標(biāo)準(zhǔn),只需求每一類真實標(biāo)記和預(yù)測標(biāo)記交集與它們并集的比值再取平均,這種評估標(biāo)準(zhǔn)可以較好地評估語義分割方法的性能。

      (3)

      上述的3種評價標(biāo)準(zhǔn)中,PA和MPA僅簡單地計算正確分類像素的比例,而MIoU通過計算每一類真實標(biāo)記和預(yù)測標(biāo)記交集與它們并集的比值的平均值作為評估標(biāo)準(zhǔn),相對于其他兩種方法計算更為精確。目前研究者主要采用MIoU評估其方法性能。

      3 結(jié)束語

      圖像語義分割是圖像理解分析的重要組成內(nèi)容,其研究具有重要理論意義和廣闊應(yīng)用前景。介紹了主流的圖像語義分割方法。目前,圖像語義分割方法的研究已取得巨大進展,隨著深度學(xué)習(xí)等理論的發(fā)展以及海量圖像數(shù)據(jù)的涌現(xiàn),認為圖像語義分割方法面臨的問題及其發(fā)展趨勢包括如下幾方面。

      ① 深度學(xué)習(xí)模型中的參數(shù)設(shè)置問題。深度學(xué)習(xí)模型中的參數(shù)確定在很大程度上會直接影響最終的性能,當(dāng)前的深度學(xué)習(xí)模型的參數(shù)包括網(wǎng)絡(luò)層數(shù)、迭代次數(shù)和學(xué)習(xí)率等基本都是依據(jù)經(jīng)驗得到的,雖然也取得了較為不錯的結(jié)果,但沒有從中總結(jié)出規(guī)律。因此,找到合適的參數(shù)設(shè)置方法是提高深度學(xué)習(xí)模型性能和推動深度學(xué)習(xí)技術(shù)向前邁進的重要方向。

      ② 深度學(xué)習(xí)方法的實時性問題。深度學(xué)習(xí)模型往往包含的層數(shù)較多,其中有海量的參數(shù)需要訓(xùn)練,耗時非常長,嚴(yán)重降低了方法的實時性。因此,如何在保證精度的基礎(chǔ)上提高方法的實時性是后續(xù)研究工作的一個重點研究方向。

      ③ 基于模型驅(qū)動的方法的特征提取問題。當(dāng)前基于模型驅(qū)動的方法需要依據(jù)先驗知識人工設(shè)計特征,很多時候特征設(shè)計不合理會導(dǎo)致特征表征性不強,因此,如何提取更具表征性的特征是后續(xù)研究的一個重要方向。

      猜你喜歡
      語義驅(qū)動特征
      基于模糊PI控制的驅(qū)動防滑仿真系統(tǒng)分析
      屈宏斌:未來五年,雙輪驅(qū)動,砥礪前行
      語言與語義
      如何表達“特征”
      軌旁ATC系統(tǒng)門控柜接收/驅(qū)動板改造
      不忠誠的四個特征
      抓住特征巧觀察
      “上”與“下”語義的不對稱性及其認知闡釋
      基于S3C6410的Wi-Fi驅(qū)動移植實現(xiàn)
      認知范疇模糊與語義模糊
      自贡市| 浦城县| 安龙县| 乌兰察布市| 上林县| 朔州市| 云霄县| 射阳县| 浙江省| 三都| 拉孜县| 呼和浩特市| 定安县| 上杭县| 芷江| 奎屯市| 新安县| 永和县| 常熟市| 筠连县| 兴海县| 巴南区| 前郭尔| 内江市| 祥云县| 伊宁市| 来凤县| 隆林| 白山市| 开原市| 灵石县| 临西县| 视频| 广河县| 屯留县| 玛纳斯县| 临安市| 永川市| 基隆市| 英山县| 景德镇市|