文章編號(hào):1005-5630(2024)05-0001-08 DOI:10.3969/j.issn.1005-5630.202308160108
摘要:建筑風(fēng)格的準(zhǔn)確分類(lèi)對(duì)研究建筑文化和人類(lèi)歷史文明具有重要意義。基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的模型由于其強(qiáng)大的特征提取能力,在建筑風(fēng)格分類(lèi)領(lǐng)域取得了良好的效果。但是,目前大多數(shù)的CNN模型只提取了建筑的局部特征,而基于Transformer的模型在注意力機(jī)制的作用下,可以提取建筑的全局特征。為了提高建筑風(fēng)格分類(lèi)的準(zhǔn)確性,提出了一種融合CNN和Transformer的建筑風(fēng)格分類(lèi)方法,該網(wǎng)絡(luò)的核心部分為CT-Block結(jié)構(gòu)。該結(jié)構(gòu)在通道維度上分為CNN和Transformer兩個(gè)分支,特征分別通過(guò)這兩個(gè)通道之后再拼接起來(lái)。該結(jié)構(gòu)不僅能融合CNN提取的局部特征和Transformer提取的全局特征,而且還能減輕雙分支結(jié)構(gòu)帶來(lái)的模型變大,參數(shù)量增多的問(wèn)題。在Architectural Style Dataset和WikiChurches數(shù)據(jù)集上,該算法的準(zhǔn)確率分別為79.83%和68.41%,優(yōu)于建筑風(fēng)格分類(lèi)領(lǐng)域其他模型。
關(guān)鍵詞:建筑風(fēng)格分類(lèi);卷積神經(jīng)網(wǎng)絡(luò);Transformer模型;網(wǎng)絡(luò)融合;注意力機(jī)制中圖分類(lèi)號(hào):TP 183文獻(xiàn)標(biāo)志碼:A
Architectural style classification algorithm fusing CNN and Transformer
LIU Dong,ZHANG Rongfu,QIN Junxiang,GONG Junzhe,CAO Zhibin
(School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China)
Abstract:The accurate classification of architectural style is of great significance to the study of architectural culture and human history and civilization.Models based on convolutional neural network(CNN)has achieved good performance in the field of architectural style classification due to its powerful feature extraction ability.However,most current CNN models only extract the local features of architecture buildings.With the attention mechanism,a model based on Transformer can extract the globle features of architecture buildings.In order to improve the accuracy of architectural style classification,an architectural style classification method fusing CNN and Transformer is proposed.The core of the network is CT-Block structure.In terms of channel dimension,the structure is divided into two branches,CNN and Transformer,and the features pass through the two channels respectively and then concatenate together.This structure then concatenate together.This structure can not only fuse the local features extracted by CNN and the global features extracted by Transformer,but also alleviate the problem of model size and parameter number increase caused by the two-branch structure.The experimental results of Architectural Style Dataset and WikiChurches dataset were 79.83%and 68.41%respectively,which was better than other models in the field of architectural style classification.
Keywords:architectural style classification;convolutional neural network;Transformer model;network fusion;attention mechanism
引言
建筑風(fēng)格是建筑本身自帶的屬性,它通常代表著在某段時(shí)期的歷史文化,反映著當(dāng)時(shí)的時(shí)代背景和人文藝術(shù)。建筑作為人類(lèi)創(chuàng)造的藝術(shù),包含一定的人文因素,宗教建筑更能體現(xiàn)這個(gè)特點(diǎn)。佛教建筑包括佛寺、佛塔和石窟,一般都是由主房、配房等組成的嚴(yán)格對(duì)稱(chēng)的多院落結(jié)構(gòu)?;浇痰慕ㄖ饕辛_馬式、拜占庭式和哥特式3種風(fēng)格。而伊斯蘭教的建筑恢宏精致,具有比較明顯的特征,包括:圓形的穹頂、墻壁上的紋樣等。所以對(duì)建筑風(fēng)格進(jìn)行分類(lèi),有助于幫助人們了解當(dāng)?shù)氐娜宋谋尘?。建筑風(fēng)格也反映著時(shí)代背景。世界七大奇跡之一的埃及金字塔,不僅要耗費(fèi)大量的人力、物力,還要花費(fèi)非常久的時(shí)間設(shè)計(jì)建造,但卻作為了古埃及最高統(tǒng)治者法老的墳?zāi)?,這就反映了當(dāng)時(shí)統(tǒng)治階級(jí)對(duì)奴隸階級(jí)的剝削。因此,對(duì)建筑風(fēng)格進(jìn)行準(zhǔn)確的分類(lèi),不僅有助于人們了解建筑文明,也能更好地反映當(dāng)時(shí)的歷史文化信息。
近年來(lái),建筑風(fēng)格分類(lèi)的研究多借助機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)技術(shù)。在早期,學(xué)者們主要利用機(jī)器學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)分類(lèi)任務(wù)。Zhang等[1]將基本的建筑構(gòu)件以塊的形式表示,通過(guò)對(duì)塊采用分層稀疏編碼進(jìn)行建模來(lái)表示空間關(guān)系。然而,一些外觀看起來(lái)完全不同的塊可能具有相近的特征空間,這導(dǎo)致了擁有豐富細(xì)節(jié)構(gòu)件的建筑分類(lèi)不準(zhǔn)確的問(wèn)題。Xu等[2]提出了一種基于可變形的組件模型(deformable part-based model,DPM),對(duì)全局和局部特征進(jìn)行建模,將建筑構(gòu)件草圖化,從而捕捉到了更多的細(xì)節(jié)特征,實(shí)現(xiàn)了更精細(xì)的分類(lèi)。趙佩佩等[3]在DPM算法的基礎(chǔ)上,采用基于集成投影的二次分類(lèi)算法并結(jié)合支持向量機(jī)(support vector machine,SVM),對(duì)建筑風(fēng)格進(jìn)行分類(lèi),降低了非建筑元素對(duì)分類(lèi)結(jié)果的影響。
隨著深度學(xué)習(xí)的發(fā)展,建筑風(fēng)格分類(lèi)領(lǐng)域廣泛采用了卷積神經(jīng)網(wǎng)絡(luò)。郭昆等[4]使用卷積神經(jīng)對(duì)建筑圖像進(jìn)行風(fēng)格分類(lèi),并確定了卷積神經(jīng)網(wǎng)絡(luò)的最佳層數(shù),但是分類(lèi)效果較為粗糙。Wang等[5]設(shè)計(jì)了一個(gè)雙分支的網(wǎng)絡(luò)結(jié)構(gòu),不僅可以判斷輸入的圖片是否為哥特式建筑,還可以得出哥特式建筑來(lái)自哪個(gè)國(guó)家。但是該方法只能區(qū)分是不是哥特式這一種建筑風(fēng)格。Yi等[6]通過(guò)重新定義不同房屋風(fēng)格的特征元素,然后使用深度學(xué)習(xí)方法進(jìn)行分類(lèi),區(qū)分出了8種難以區(qū)分的房屋風(fēng)格,滿(mǎn)足了更細(xì)致的分類(lèi)要求。
由于注意力機(jī)制在自然語(yǔ)言處理任務(wù)中表現(xiàn)突出,計(jì)算機(jī)視覺(jué)任務(wù)中也引入了注意力機(jī)制。這類(lèi)工作主要分為兩類(lèi)。一類(lèi)是網(wǎng)絡(luò)只有注意力模塊組成。例如,Zhao等[7]提出了含有兩種注意力機(jī)制的SAN網(wǎng)絡(luò),Ramachandran等[8]將ResNet的空間卷積全部替換成自注意力機(jī)制等。這類(lèi)模型雖然獲取了局部和全局的聯(lián)系,具有低復(fù)雜度的優(yōu)點(diǎn),但是通常需要龐大的數(shù)據(jù)量和強(qiáng)大的計(jì)算力作為支撐。另一類(lèi)是同時(shí)使用注意力模塊和卷積神經(jīng)網(wǎng)絡(luò)。Wang等[9]將空間注意力機(jī)制與通道注意力機(jī)制結(jié)合并加入到卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)骨干網(wǎng)絡(luò)中,以提高網(wǎng)絡(luò)對(duì)建筑圖像紋理特征的提取能力,使網(wǎng)絡(luò)擁有關(guān)注不同建筑特征的空間位置信息的能力,從而提高分類(lèi)準(zhǔn)確率。
近年來(lái),CNN和Transformer[10]結(jié)合的方法也成為了計(jì)算機(jī)視覺(jué)領(lǐng)域關(guān)注的重點(diǎn)問(wèn)題。Peng等[11]提出了Conformer,通過(guò)設(shè)計(jì)特征耦合單元(feature coupling unit,F(xiàn)CU),將CNN和Transformer并行連接起來(lái),使得模型能夠融合不同分辨率下的全局特征和局部特征。雖然Conformer在許多任務(wù)上有不錯(cuò)的表現(xiàn),但是存在模型大,參數(shù)量多等缺點(diǎn)。Chen等[12]提出了Mobile-Former,在MobileNet[13]和Trasnformer兩個(gè)并行結(jié)構(gòu)之間設(shè)計(jì)了一個(gè)雙向連接橋,實(shí)現(xiàn)局部特征和全局特征雙向融合,從而融合了CNN和Transformer。該方法繼承了輕量級(jí)網(wǎng)絡(luò)MobileNet的優(yōu)點(diǎn),節(jié)省了一定的計(jì)算量,但是仍然屬于雙網(wǎng)絡(luò)分支結(jié)構(gòu),依然存在模型大,參數(shù)量多的缺點(diǎn)。
對(duì)建筑風(fēng)格分類(lèi)是一項(xiàng)復(fù)雜且困難的工作。一方面,建筑風(fēng)格的形成是一個(gè)漸進(jìn)的過(guò)程,當(dāng)某個(gè)風(fēng)格傳播到其他地方時(shí),都會(huì)融合當(dāng)?shù)靥厣?。另一方面,由于設(shè)計(jì)師設(shè)計(jì)建筑時(shí)并不是與世隔絕的,他們或多或少會(huì)受到已經(jīng)存在的風(fēng)格特點(diǎn)的影響,所以建筑風(fēng)格之間存在相似之處是很常見(jiàn)的。例如,愛(ài)德華式建筑(圖1)包含巴克洛式穹頂和希臘復(fù)興式門(mén)窗立柱。因此,在不同建筑圖像中找出屬于相同風(fēng)格的建筑特征,以及突出單個(gè)建筑的風(fēng)格特征都是很有挑戰(zhàn)性的工作。
針對(duì)以上問(wèn)題,本文提出一種融合CNN和Transformer的網(wǎng)絡(luò),使其具有CNN良好的提取局部特征的能力和Transformer聯(lián)系全局特征的能力。它能夠應(yīng)對(duì)不同場(chǎng)景下建筑風(fēng)格分類(lèi)的任務(wù),并且同時(shí)緩解了由兩個(gè)網(wǎng)絡(luò)分支帶來(lái)的網(wǎng)絡(luò)模型大、參數(shù)量多的問(wèn)題。
本文的主要?jiǎng)?chuàng)新點(diǎn)包括3個(gè)方面:(1)通過(guò)研究一種CNN和Transformer的融合方式,使得融合后的網(wǎng)絡(luò)兼具良好的提取特征的能力和聚焦重要區(qū)域的能力;(2)設(shè)計(jì)了融合模塊CT-Block,該模塊能使CNN提取的特征平緩地過(guò)渡到Transformer結(jié)構(gòu)中去,增加分類(lèi)準(zhǔn)確率;(3)將三元組損失運(yùn)用到建筑風(fēng)格分類(lèi)上,讓網(wǎng)絡(luò)能夠區(qū)分不同建筑風(fēng)格之間微小的差別,增強(qiáng)其分辨能力。
1建筑風(fēng)格分類(lèi)網(wǎng)絡(luò)設(shè)計(jì)
自從深度學(xué)習(xí)網(wǎng)絡(luò)相比傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)在圖像分類(lèi)任務(wù)比賽中以巨大的優(yōu)勢(shì)獲勝之后,大量深度學(xué)習(xí)技術(shù)被開(kāi)發(fā)利用。以CNN為骨干的網(wǎng)絡(luò)在分類(lèi)任務(wù)上都有著突出的表現(xiàn)。但是隨著研究的不斷深入,Transformer從自然語(yǔ)言處理領(lǐng)域被引入到計(jì)算機(jī)視覺(jué)領(lǐng)域。作為一種新的模型結(jié)構(gòu),Transformer在一些分類(lèi)任務(wù)中的表現(xiàn)比以CNN為骨干的網(wǎng)絡(luò)要好。許多研究[14-16]也表明,以CNN為骨干的網(wǎng)絡(luò)在數(shù)據(jù)集規(guī)模不大,數(shù)據(jù)集不復(fù)雜的時(shí)候分類(lèi)表現(xiàn)較好,而以Transformer為骨干的網(wǎng)絡(luò)在數(shù)據(jù)量很大且數(shù)據(jù)復(fù)雜的情況下分類(lèi)表現(xiàn)更好。這是因?yàn)镃NN是用多層卷積提取特征,卷積有強(qiáng)大的局部特征提取能力;而Transformer的核心組件則是注意力機(jī)制,注意力機(jī)制不僅能提取全局特征而且能聚焦重點(diǎn),能夠使網(wǎng)絡(luò)對(duì)分類(lèi)結(jié)果中貢獻(xiàn)較大的特征分配更大的權(quán)重。因此,本文研究如何融合兩種網(wǎng)絡(luò)框架,使新的網(wǎng)絡(luò)同時(shí)具備以上兩種優(yōu)點(diǎn),即在小規(guī)模數(shù)據(jù)集下表現(xiàn)出良好的特征提取能力和重要區(qū)域特征得到關(guān)注。
1.1網(wǎng)絡(luò)總體結(jié)構(gòu)
本文所提出的FCT-Net的總體框架如圖2所示。輸入的建筑風(fēng)格圖片先通過(guò)分塊(Stem Cell)操作,實(shí)現(xiàn)降采樣。通常Transformer在這一步會(huì)使用Patch Embedding,等效于和卷積核大小相同步幅的卷積,但是這種操作會(huì)丟失位置信息。所以本文使用了Stem Cell,即大小為7根7的卷積核加上重疊卷積,同時(shí)加入了位置編碼(positional encoding)。模型的主體部分為CT-Block,由CNN和Transformer共同組成。本文選用分類(lèi)領(lǐng)域最常用的ResNet-50[17]作為CNN部分的骨干網(wǎng)絡(luò),多頭自注意力機(jī)制(multi-headself-attention,MHSA)作為T(mén)ransformer的核心部分也被運(yùn)用在CT-Block中。考慮到Stem Cell為重疊卷積,降采樣能力不足,在4個(gè)CT-Block前分別加入了卷積核大小為2 2的Patch Embedding層。CT-Block中的CNN和Transformer共同處理圖片特征。最后,將得到的特征送入由全連接層組成的分類(lèi)頭,得到分類(lèi)結(jié)果。
1.2注意力機(jī)制
注意力機(jī)制是一種模擬人類(lèi)注意力行為的方法。在CNN中,特征是以固定權(quán)重進(jìn)行傳遞和處理的,但是在現(xiàn)實(shí)中,人們處理信息時(shí)往往會(huì)根據(jù)不同情形賦予不同的注意力,這就是注意力機(jī)制的靈感來(lái)源。在神經(jīng)網(wǎng)絡(luò)中,注意力機(jī)制使模型動(dòng)態(tài)地針對(duì)不同特征分配不同權(quán)重。注意力機(jī)制模塊為T(mén)ransformer網(wǎng)絡(luò)的核心組件,也是本文網(wǎng)絡(luò)結(jié)構(gòu)的重要組成部分。使用注意力機(jī)制不僅可以提取建筑的全局特征,而且還能讓模型對(duì)建筑結(jié)構(gòu)中貢獻(xiàn)較大部分賦予更大的權(quán)重。注意力機(jī)制分為加性注意力機(jī)制和乘性注意力機(jī)制,本文使用后者,其具體表達(dá)式為
式中:Q,K,V分別代表query,key,value;F是輸入注意力機(jī)制前的特征;A是注意力分?jǐn)?shù);d是向量Q,K,V的維度;“是注意力機(jī)制的結(jié)果。若Q、K、V三者相等,此時(shí)就是自注意力(self-attention,SA),本文就使用的是自注意力機(jī)制。式(1)將特征向量映射為query,key,value的線(xiàn)性變換,體現(xiàn)了特征由CNN結(jié)構(gòu)變換到Transformer結(jié)構(gòu)的過(guò)程。
1.3 CT-Block模塊
CT-Block為本文模型的主體部分,結(jié)合了CNN和Transformer兩者的優(yōu)點(diǎn)。Conformer和Mobile-Former都是雙分支的融合網(wǎng)絡(luò),CNN部分的特征和Transformer部分的特征經(jīng)過(guò)特定的模塊進(jìn)行交互。但是,通常這種網(wǎng)絡(luò)結(jié)構(gòu)模型大、參數(shù)多,對(duì)于小數(shù)據(jù)集來(lái)說(shuō)并不友好,會(huì)導(dǎo)致訓(xùn)練時(shí)間變長(zhǎng),而且還有可能出現(xiàn)過(guò)擬合。CT-Block則很好地解決了這個(gè)問(wèn)題。圖3為CT-Block的結(jié)構(gòu)圖,輸入的特征經(jīng)過(guò)卷積之后,在通道維度被分為兩組。兩組特征分別經(jīng)過(guò)卷積操作和注意力機(jī)制之后在通道維度進(jìn)行拼接。這種在通道維度對(duì)特征進(jìn)行處理的方法不僅實(shí)現(xiàn)了兩個(gè)網(wǎng)絡(luò)的融合,而且還節(jié)省了網(wǎng)絡(luò)參數(shù),提前將少部分特征送入到MHSA中,使得特征由CNN結(jié)構(gòu)更加平滑地過(guò)渡到Transformer結(jié)構(gòu)中。
M為MHSA的通道數(shù),為模型超參數(shù)。為突出本文模型與純CNN或者純Transformer的不同,將圖3中第一個(gè)Block中的M設(shè)置為0,即第一個(gè)Block為純CNN。并且將最后一個(gè)Block中的M設(shè)置為4N,N為通道數(shù),即最后一個(gè)Block為純Transformer。第2個(gè)和第3個(gè)Block中的M在面對(duì)不同數(shù)據(jù)集、不同訓(xùn)練方法時(shí)會(huì)不同。
1.4損失函數(shù)
針對(duì)部分不同建筑風(fēng)格之間差距過(guò)小導(dǎo)致分類(lèi)準(zhǔn)確率較低的問(wèn)題,本文采用了三元組損失函數(shù)[18]。三元組損失函數(shù)相比一般的損失函數(shù)可以通過(guò)增大類(lèi)類(lèi)之間的距離來(lái)增加網(wǎng)絡(luò)的判別能力。對(duì)建筑風(fēng)格特征f使用三元組損失函數(shù),即
式中,Dap=distance(fa;fp)表示建筑圖像a與對(duì)應(yīng)的正樣本p的特征fa與fp之間的歐式距離;Dan=distance(fa;fn)表示建筑圖像a與對(duì)應(yīng)的負(fù)樣本n的特征fa與fn之間的歐式距離;β表示正樣本與負(fù)樣本之間的最小距離。
同時(shí),為了輔助網(wǎng)絡(luò)訓(xùn)練,本文也使用了交叉熵?fù)p失函數(shù),即
Losse=yilog+(1-)log(1-)
式中:m表示建筑圖像總數(shù);yi表示建筑風(fēng)格圖像的預(yù)(圖像的真)測(cè)(實(shí))標(biāo)(標(biāo))簽。(簽);表示網(wǎng)絡(luò)輸出的建筑風(fēng)格
最終,損失函數(shù)由上述兩部分組成
Loss=λLosst+(1-λ)Losse(6)
式中,λ為系數(shù),本文設(shè)定為0.3。
2實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
2.1實(shí)驗(yàn)環(huán)境
本實(shí)驗(yàn)使用的GPU為NVIDIA RTX 3 090,顯存24 GB,操作系統(tǒng)為Ubuntu 20.04,python版本為3.8,pytorch版本為1.11.0。
2.2數(shù)據(jù)集和數(shù)據(jù)預(yù)處理
本實(shí)驗(yàn)采用2個(gè)數(shù)據(jù)集來(lái)驗(yàn)證FCT-Net的有效性。數(shù)據(jù)集A為公開(kāi)數(shù)據(jù)集Architectural Style Dataset。該數(shù)據(jù)集是Xu等[2]于2014年從維基百科上收集到的關(guān)于建筑風(fēng)格的圖像,有25個(gè)建筑風(fēng)格分類(lèi),共包含4 794張圖像。這也是建筑分格分類(lèi)領(lǐng)域使用最多的數(shù)據(jù)集。數(shù)據(jù)集B為WikiChurches,是Barz等[19]于2021年制作的教堂建筑風(fēng)格的數(shù)據(jù)集,由9 485張教堂建筑圖像組成。圖片和樣式標(biāo)簽都來(lái)自維基百科。由于圖像尺寸大小不一,所以在實(shí)驗(yàn)前將圖像大小統(tǒng)一調(diào)整為224根224。同時(shí),為了避免訓(xùn)練時(shí)過(guò)擬合,除了使用常用的隨機(jī)裁剪和隨機(jī)水平翻轉(zhuǎn)數(shù)據(jù)增強(qiáng)方式,還使用了mixup[20]增強(qiáng)方式。訓(xùn)練集大小設(shè)置為數(shù)據(jù)集總數(shù)的80%,剩下的20%為測(cè)試數(shù)據(jù)。一共訓(xùn)練200個(gè)epoch,batch size設(shè)置為64。
2.3實(shí)驗(yàn)結(jié)果和分析
在Architectural Style Dataset上,設(shè)計(jì)兩種實(shí)驗(yàn):一種是使用數(shù)據(jù)集的全部數(shù)據(jù);另一種在該數(shù)據(jù)集中隨機(jī)選出40%的類(lèi)別作為實(shí)驗(yàn)的數(shù)據(jù)集。同時(shí),由于建筑分類(lèi)領(lǐng)域可參考的模型較少,為了確保對(duì)比實(shí)驗(yàn)的充分性,對(duì)比的模型也都來(lái)自不同的領(lǐng)域。在傳統(tǒng)CNN中,選擇ResNet-50和Inception-v3[21]作為參考對(duì)象;在Transformer模型中,選擇Vision Transformer(ViT)和Swin-Transformer[22]作為參考對(duì)象;在CNN和Transformer結(jié)合的模型中選擇Visformer[23]作為參考對(duì)象。同時(shí)也對(duì)比了建筑風(fēng)格分類(lèi)相關(guān)領(lǐng)域的模型。
由表1可知,本文模型FCT-Net在整個(gè)Architectural Style Dataset數(shù)據(jù)集和含有40%類(lèi)別的數(shù)據(jù)集上的準(zhǔn)確率分別是79.83%和83.09%。在含有40%類(lèi)別的數(shù)據(jù)集上,F(xiàn)CT-Net比DCNN[6],MonuNet[24],ResNet-50,Inception-v3,ViT,Swin-Transformer,Visformer分別高出10.67%,11.89%,2.90%,15.94%,13.08%,7.73%和6.76%。
在含有100%類(lèi)別的數(shù)據(jù)集上,F(xiàn)CT-Net比DCNN,MonuNet,ResNet-50,Inception-v3,ViT,Swin-Transformer,Visformer分別高出13.23%、17.90%、12.42%、19.77%、22.69%、14.55%、9.34%。而在小規(guī)模數(shù)據(jù)集上,卷積操
作提取特征的能力更強(qiáng),因此,ResNet-50在含有40%類(lèi)別的數(shù)據(jù)集上的結(jié)果優(yōu)于除本文模型外的其他模型。
WikiChurches數(shù)據(jù)集為長(zhǎng)尾分布,為避免不同建筑風(fēng)格類(lèi)別的圖像數(shù)量差距過(guò)大出現(xiàn)極端情況,去掉了2個(gè)圖像數(shù)量最多和數(shù)量最少的種類(lèi)。由于該數(shù)據(jù)集較新,所以選取常見(jiàn)的模型作為對(duì)比模型。由表2可知,F(xiàn)CT-Net在WikiChurches數(shù)據(jù)集上的表現(xiàn)優(yōu)于同類(lèi)其他模型,驗(yàn)證了FCT-Net的泛化性能。
圖4為FCT-Net在實(shí)驗(yàn)數(shù)據(jù)集Architectural Style Dataset上部分結(jié)果的混淆矩陣,本文提出的模型在個(gè)別類(lèi)上的分類(lèi)準(zhǔn)確率高達(dá)100%,證明了本文模型在該實(shí)驗(yàn)數(shù)據(jù)集上的有效性。但是在一些類(lèi)別上,F(xiàn)CT-Net的分類(lèi)結(jié)果卻低于平均分類(lèi)準(zhǔn)確率。經(jīng)過(guò)仔細(xì)對(duì)比發(fā)現(xiàn),分類(lèi)準(zhǔn)確率較低的類(lèi)別中的部分圖片與其它某些類(lèi)別中的一些圖片,在視覺(jué)觀感上十分相似,從而難以區(qū)分,而模型缺少對(duì)圖像的細(xì)粒度分類(lèi)能力,導(dǎo)致分類(lèi)準(zhǔn)確率不高。
2.4消融實(shí)驗(yàn)
為進(jìn)一步驗(yàn)證融合CNN和Transformer的方法的有效性,在2個(gè)數(shù)據(jù)集上做了對(duì)比實(shí)驗(yàn),分別對(duì)比了ResNet-50和MobileNet-V2(代表CNN模型)與ViT和Swin-Transformer(代表Transformer模型)。由表3可知,F(xiàn)CT-Net的表現(xiàn)優(yōu)于純CNN或者純Transformer的模型。
表4為在Architectural Style Dataset數(shù)據(jù)集上驗(yàn)證CT-Block有效性的實(shí)驗(yàn)結(jié)果。Net1的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置為前3個(gè)Block是CNN結(jié)構(gòu),第4個(gè)Block是MHSA結(jié)構(gòu)。Net2的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置為第1個(gè)Block是CNN結(jié)構(gòu),后3個(gè)Block是MHSA結(jié)構(gòu)。由實(shí)驗(yàn)結(jié)果可知,含有過(guò)渡模塊CT-Block的網(wǎng)絡(luò)結(jié)構(gòu)的效果要比沒(méi)有過(guò)渡模塊的網(wǎng)絡(luò)結(jié)構(gòu)的效果好。
3結(jié)論
本文針對(duì)建筑風(fēng)格分類(lèi)數(shù)據(jù)集小、建筑風(fēng)格特征相互融合難以分類(lèi)等問(wèn)題,提出融合了CNN和Transformer的FCT-Net。該網(wǎng)絡(luò)以CNN作為網(wǎng)絡(luò)的淺層部分,充分發(fā)揮卷積操作提取特征的能力;以注意力機(jī)制模塊作為網(wǎng)絡(luò)的深層部分,在提取特征的同時(shí),讓網(wǎng)絡(luò)關(guān)注重要區(qū)域,更好地解決含有相同特征的不同建筑風(fēng)格分類(lèi)問(wèn)題。并且,該網(wǎng)絡(luò)含有過(guò)渡模塊CT-Block,兼顧融合特征的同時(shí),減小模型大小,降低模型參數(shù)量,加快網(wǎng)絡(luò)訓(xùn)練,適應(yīng)小型建筑風(fēng)格分類(lèi)數(shù)據(jù)集。同時(shí),為了進(jìn)一步提高網(wǎng)絡(luò)的區(qū)分能力,使用了三元組損失函數(shù)。實(shí)驗(yàn)結(jié)果表明,提出的FCT-Net模型在Architectural Style Dataset和WikiChurches數(shù)據(jù)集上達(dá)到了很好效果,但是在相似的建筑風(fēng)格圖片之間的分類(lèi)準(zhǔn)確率仍有待改進(jìn)提高。
參考文獻(xiàn):
[1]ZHANG L M,SONG M L,LIU X,et al.Recognizing architecture styles by hierarchical sparse coding of blocklets[J].Information Sciences,2014,254d98e2c17fe6c42b84ef4faeb71ed44f8:141–154.
[2]XU Z,TAO D C,ZHANG Y,et al.Architectural style classification using multinomial latent logistic regression[C]//13th European Conference on Computer Vision–ECCV 2014.Zurich,Switzerland:Springer,2014:600–615.
[3]趙佩佩.基于集成投影及卷積神經(jīng)網(wǎng)cceda9fa359309bf2bb66902dc8f98b6絡(luò)的建筑風(fēng)格分類(lèi)算法研究[D].西安:西安電子科技大學(xué),2015.
[4]郭昆.基于卷積神經(jīng)網(wǎng)絡(luò)的建筑風(fēng)格圖像分類(lèi)的研究[D].武漢:武漢理工大學(xué),2017.
[5]WANG R,GU D H,WEN Z J,et al.Intra-class classification of architectural styles using visualization of CNN[C]//5th International Conference on Artificial Intelligence and Security.New York:Springer,2019:205–216.
[6]YI Y K,ZHANG Y H,MYUNG J.House stylerecognition using deep convolutional neural network[J].Automation in Construction,2020,118:103307.
[7]ZHAO H S,JIA J Y,KOLTUN V.Exploring self-attention for image recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Seattle:IEEE,2020:10073–10082.
[8]RAMACHANDRAN P,PARMAR N,VASWANI A,et al.Stand-alone self-attention in vision models[C]//Proceedings of the 33rd International Conference on Neural Information Processing Systems.Vancouver:ACM,2019:7.
[9]WANG B,ZHANG S L,ZHANG J F,et al.Architectural style classification based on CNN and channel–spatial attention[J].Signal,Image and Video Processing,2023,17(1):99–107.
[10]ASHISH V,NOAM S,NIKI P,et al.Attention is all you need[C]//Annual Conference on Neural Information Processing Systems 2017.Long Beach:NIPS,2017:5998–6008.
[11]PENG Z L,HUANG W,GU S Z,et al.Conformer:Local features coupling global representations for visual recognition[C]//Proceedings of the 2021 IEEE/CVF International Conference on ComputerVision.Montreal:IEEE,2021:357–366.
[12]CHEN Y P,DAI X Y,CHEN D D,et al.Mobile-former:bridging mobilenet and transformer[C]//Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition.New Orleans:IEEE,2022:5260–5269.
[13]SANDLER M,HOWARD A,ZHU M L,et al.MobileNetV2:Inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:4510–4520.
[14]CORDONNIER J B,LOUKAS A,JAGGI M.On the relationship between self-attention and convolutional layers[C]//8th International Conference on LearningRepresentations.Addis Ababa:ICLR,2019.
[15]SRINIVAS A,LIN T Y,PARMAR N,et al.Bottleneck transformers for visual recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition.Nashville:IEEE,2021:16514–16524.
[16]TOUVRON H,CORD M,DOUZE M,et al.Training data-efficient image transformers&distillation through attention[C]//International conference on machine learning.PMLR,2021:10347–10357.
[17]HE K M,ZHANG X Y,REN S Q,et al.Deep residuallearning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:770–778.
[18]SCHROFF F,KALENICHENKO D,PHILBIN J.FaceNet:a unified embedding for face recognition and clustering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Boston:IEEE,2015:815–823.
[19]BARZ B,DENZLER J.Wikichurches:A fine-grained dataset of architectural styles with real-world challenges[J].arXiv preprint arXiv:,2108,06959:2021
[20]ZHANG H Y,CISSéM,DAUPHIN Y N,et al.mixup:Beyond empirical risk minimization[C]//6th International Conference on Learning Representations.Vancouver:ICLR,2018.
[21]SZEGEDY C,VANHOUCKE V,IOFFE S,et al.Rethinking the inception architecture for computer vision[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE,2016:2818–2826.
[22]LIU Z,LIN Y T,CAO Y,et al.Swin transformer:Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.Montreal:IEEE,2021:9992–10002.
[23]CHEN Z S,XIE L X,NIU J W,et al.Visformer:The vision-friendly transformer[C]//Proceedings of the IEEE/CVF International Conference on ComputerVision.Montreal:IEEE,2021:569–578.
[24]LAMAS A,TABIK S,CRUZ P,et al.MonuMAI:Dataset,deep learning pipeline and citizen science based app for monumental heritage taxonomy and classification[J].Neurocomputing,2021,420:266–280.
(編輯:李曉莉)