摘 要:針對現(xiàn)有基于擴散模型的圖像編輯方法存在無法靈活控制圖像編輯區(qū)域以及生成個性化內(nèi)容等問題,提出一種基于擴散模型微調(diào)的局部定制圖像編輯算法。該方法借助穩(wěn)定擴散模型作為基礎(chǔ)框架,首先從給定的一組圖像和詞嵌入中學(xué)習(xí)概念嵌入,并且為了提高模型的訓(xùn)練效率,解決由少量數(shù)據(jù)訓(xùn)練而產(chǎn)生的過擬合問題,在微調(diào)過程中通過分析訓(xùn)練過程中各層參數(shù)變化的程度降低訓(xùn)練參數(shù)數(shù)量;然后在聯(lián)合分割模型中通過局部選擇步驟得到掩碼特征,進一步精確識別編輯區(qū)域邊界,從而保護了非編輯區(qū)域內(nèi)容;最后將參考圖像、掩碼特征和與定制概念綁定相關(guān)的條件文本描述共同輸入微調(diào)模型中,使其在編輯區(qū)域精確生成定制內(nèi)容,增加了在編輯區(qū)域生成用戶定制內(nèi)容的靈活性。在DreamBench數(shù)據(jù)集上的實驗結(jié)果顯示,相較于其他先進方法,該方法在CLIP-T、MS-SSIM評價指標上分別提高了12.2%、13.9%,表明該方法在文本對齊和結(jié)構(gòu)一致性等方面均優(yōu)于其他的主流方法,為用戶提供了更加準確的個性化概念圖像編輯方法。
關(guān)鍵詞:圖像編輯;擴散模型;模型微調(diào);局部定制
中圖分類號:TP391.41 文獻標志碼:A 文章編號:1001-3695(2025)02-042-0623-07
doi:10.19734/j.issn.1001-3695.2024.04.0175
Local customized image editing algorithm based on diffusion model fine tuning
Du Jiajun1,Lan Hong1,Wang Chaofan2’
(1.College of Information Engineering,Jiangxi University of Science amp; Technology,Ganzhou Jiangxi 341000,China;2.Guangdong Provincial Key Laboratory of Diabetology,Dept.of Endocrinology amp; Metabolism,The Third Affiliated Hospital of Sun Yat-sen University,Guangzhou 510630,China)
Abstract:In response to the limitations of existing image editing methods based on diffusion models,such as inflexible control over editing regions and the generation of personalized content,this paper proposed a locally customized image editing algorithm based on fine-tuning of diffusion models.Leveraging a stable diffusion model as the foundational framework,the method initially learnt concept embeddings from a given set of images and word embeddings.To enhance training efficiency and mitigate overfitting caused by limited data,the method reduced the number of training parameters during fine-tuning by analyzing the degree of parameter changes across layers during training.Subsequently,in the joint segmentation model for local selection,it obtained mask features to precisely identify the boundaries of the editing area,thereby preserving the content of non-editing areas.Finally,it jointly input the reference image,mask features,and condition text descriptions associated with customized concepts into the fine-tuning model,enabling precise generation of customized content in the editing area and enhancing flexibility in generating user-customized content in the editing area.Experimental results on the DreamBench dataset demonstrate that compared to other state-of-the-art methods,the method achieves the best experimental results,with improvements of 12.2% and 13.9% in CLIP-T and MS-SSIM,respectively.This indicates that the method outperforms mainstream methods in text alignment and structural consistency,providing users with a more accurate personalized concept image editing approach.
Key words:image editing;conditional diffusion model;model fine-tuning;localized customization
0 引言
近年來,擴散模型[1~7]和各類大型多模態(tài)模型的優(yōu)異進展極大地推動了AIGC領(lǐng)域的發(fā)展,其在圖像生成、AI繪畫、藝術(shù)生成等應(yīng)用中的使用越來越廣泛。在計算機視覺領(lǐng)域中,圖像編輯作為一項核心研究任務(wù),面臨著重大的挑戰(zhàn)。首先,編輯區(qū)域和非編輯區(qū)域進行分割需要算法能夠理解并區(qū)分圖像中不同的元素;其次,填補編輯區(qū)域需要算法具備強大的推理和預(yù)測能力來生成需要的元素;最后,在編輯過程中要保持編輯區(qū)域和非編輯區(qū)域的內(nèi)容一致性和紋理一致性,同時保持非編輯區(qū)域的不可破壞性。由于擴散模型是一種強大的生成模型,具備強大的推理和預(yù)測能力,越來越多的研究者將該模型應(yīng)用在圖像編輯的工作中。擴散模型在文本到圖像生成模型方面的工作[8,9]取得了令人矚目的進展,為圖像生成研究[10~13]奠定了堅實的基礎(chǔ)。這些模型能夠通過簡單的文本描述,生成隨機的高分辨率圖像,為創(chuàng)意設(shè)計、藝術(shù)創(chuàng)作等領(lǐng)域提供了無限的可能性,不僅可以生成高質(zhì)量的圖像,還可以將文本和圖像聯(lián)合在一起進行訓(xùn)練,理解兩者之間的關(guān)系,從而實現(xiàn)更加精準的圖像生成。雖然這些先進的文本到圖像生成模型可以生成多種多樣的圖像,但用戶往往更希望在生成的圖像中保留特定的概念或元素,比如特定的寵物、獨特的物體或者特定的場景等。這激發(fā)了對編輯定制化的需求,即用戶可以根據(jù)自己的需求和喜好,將特定的概念或元素融入到圖像生成中。
針對上述挑戰(zhàn)和需求,國內(nèi)外研究者們提出了一些基于預(yù)訓(xùn)練的文本到圖像擴散模型的微調(diào)方法,主要包括改進擴散模型中的網(wǎng)絡(luò)結(jié)構(gòu)和結(jié)合其他多模態(tài)大模型聯(lián)合訓(xùn)練。InstructPix2Pix[14]模型是將預(yù)訓(xùn)練語言模型GPT-3[15]和預(yù)訓(xùn)練文本到圖像擴散模型Stable Diffusion[3]結(jié)合使用,通過這兩個模型之間文本和圖像的互補知識實現(xiàn)圖像編輯任務(wù),但由于編輯內(nèi)容與文本描述高度相關(guān),很容易導(dǎo)致在編輯過程中出現(xiàn)編輯主體錯誤,甚至?xí)绊懛蔷庉媴^(qū)域的內(nèi)容。Kawar等人提出了一個基于文本的真實圖像編輯模型[16],通過加入文本嵌入之間的線性插值,從而微調(diào)預(yù)訓(xùn)練文本到圖像擴散模型的網(wǎng)絡(luò)結(jié)構(gòu),旨在最大程度地實現(xiàn)輸入圖像和編輯文本之間的語義對齊,但由于模型的局限性,只能做一些樣式改變和姿勢轉(zhuǎn)換的任務(wù)。現(xiàn)有自定義文本到圖像生成方法通常通過微調(diào)單詞嵌入或模型參數(shù)將目標概念與用戶指定的單詞對齊,如DreamBooth[17]、Textual Inversion[18]模型。由于樣本的數(shù)量較少,容易引起模型過擬合,并且模型學(xué)習(xí)到的概念還容易和一些其他與主體無關(guān)的信息結(jié)合,以至于造成了概念混亂等問題。為了解決上述過擬合問題, Kumari等人[19] 在數(shù)據(jù)集LAION-400M[20]中隨機抽取一組正則化集合的圖像用于訓(xùn)練。由于其有效性,本文引入該方法解決少量數(shù)據(jù)訓(xùn)練所導(dǎo)致的過擬合問題。
為了能夠支持用戶靈活地控制圖像編輯,并實現(xiàn)定制概念的生成,本文提出了一種基于擴散模型的局部定制圖像編輯算法LCDiffusion(localized customization diffusion),不僅在編輯過程中保持定制概念的一致性,也可以借助多模態(tài)信息進行可控性的編輯。為簡化模型結(jié)構(gòu),本文調(diào)整了模型的訓(xùn)練(微調(diào)擴散模型)和推理(模型推理)兩個過程。在訓(xùn)練過程中,首先引入一個預(yù)訓(xùn)練的穩(wěn)定擴散模型,然后通過將一組描述某個定制概念的圖像和詞嵌入進行聯(lián)合訓(xùn)練,使得模型學(xué)習(xí)概念嵌入,并且凍結(jié)模型網(wǎng)絡(luò)中其他層的參數(shù)權(quán)重,單獨訓(xùn)練交叉注意力層的{K、V}矩陣,得到微調(diào)后的擴散模型。在推理過程中,首先借助SAM(segment anything model)模型對提供的參考圖像進行圖像分割,從而獲得編輯區(qū)域的掩碼特征,然后再將參考圖像、對應(yīng)的掩碼特征和與定制概念相關(guān)的條件文本描述共同輸入微調(diào)模型中,實現(xiàn)在編輯區(qū)域中定制內(nèi)容的生成,并且只需要對定制概念進行50步的微調(diào),這在單個GPU上花費不到1 min。本文方法貢獻可概括如下:a)為了解決現(xiàn)有基于擴散模型的圖像編輯方法存在無法靈活控制圖像編輯區(qū)域以及生成個性化內(nèi)容等問題,本文提出了一種基于擴散模型微調(diào)的局部定制圖像編輯算法,能夠支持用戶靈活地控制圖像編輯,并實現(xiàn)定制概念的生成。b)為了緩解在少量數(shù)據(jù)訓(xùn)練過程中可能出現(xiàn)的過擬合問題,本文引入了Custom Diffusion[19]模型中的正則化集技術(shù),提高了模型的泛化能力,從而確保在少量數(shù)據(jù)的情況下也能獲得穩(wěn)定且可靠的訓(xùn)練效果。c)為了實現(xiàn)精確的編輯效果,本文在模型推理階段提出了局部區(qū)域選擇方法,顯著提高了編輯區(qū)域的精細度和準確度。d)實驗證明,本文方法可以顯著增強定制編輯圖像性能,不僅可以保持非編輯區(qū)域不變,而且還能精確地生成用戶所定制的主體內(nèi)容,從而為用戶提供了更加精準和個性化的圖像編輯體驗。
1 相關(guān)工作
1.1 文本到圖像的圖像編輯
近年來,隨著生成模型的不斷發(fā)展,擴散模型在圖像合成領(lǐng)域取得了令人矚目的成績,隨后越來越多的研究開始探索基于擴散模型的條件生成。在2022年,Ho等人[20]提出了一種基于條件概率的無分類器引導(dǎo),通過聯(lián)合大量數(shù)據(jù),產(chǎn)生了可靠和細節(jié)保留的生成效果。隨后,受益于語言模型和多模態(tài)模型的進步,如CLIP[21]和BERT[22],進一步的圖像編輯工作致力于文本到圖像擴散模型。
文本到圖像擴散模型是通過預(yù)訓(xùn)練語言模型,從文本條件提取的嵌入輸入到圖像采樣過程中來完成條件生成的。例如,Imagen[2]模型集合語言模型和擴散模型來實現(xiàn)具有語言理解能力的文本到圖像的生成。還有一些工作使用文本作為控制圖像合成的條件,如DiffusionCLIP[23]通過語言模型強大的信息提取能力和無分類器指導(dǎo)技術(shù),促進了跨模態(tài)之間的語義對齊。Rombach等人[3]提出了潛在擴散模型,其在強大的預(yù)訓(xùn)練自動編碼器的潛在空間上應(yīng)用擴散模型,從而進行高分辨率圖像合成。通過對大量數(shù)據(jù)樣本的大規(guī)模訓(xùn)練,它們?nèi)〉昧肆钊擞∠笊羁痰奈谋镜綀D像合成結(jié)果。潛在擴散模型將數(shù)據(jù)壓縮到低維潛在空間中,在降低計算復(fù)雜度和保留細節(jié)之間找到平衡?;贚DM的文本到圖像模型,如穩(wěn)定擴散,表現(xiàn)出更有效的文本驅(qū)動合成能力,達到高水平的多樣性和通用性。文獻[16]借助穩(wěn)定擴散模型提出了Imagic模型,利用擴散模型的文本嵌入層來進行語義編輯,并微調(diào)生成模型重建輸入圖像,從而實現(xiàn)單一真實圖像復(fù)雜的文本引導(dǎo)的語義編輯。
雖然現(xiàn)有的文本到圖像擴散模型有著強大的生成性能,但往往只能依賴于自然語言提示作為指導(dǎo),不能生成定制概念內(nèi)容,這導(dǎo)致定制內(nèi)容生成研究的出現(xiàn)。
1.2 個性化圖像生成
近年來,個性化已經(jīng)成為了機器學(xué)習(xí)中各個領(lǐng)域的重要因素。在計算機視覺領(lǐng)域,解決個性化生成的工作很少。而現(xiàn)有的自定義文本到圖像生成方法通常通過微調(diào)單詞嵌入或模型參數(shù)將目標概念與用戶指定的單詞對齊,如DreamBooth[17]、Textual Inversion[18]模型。但由于樣本的數(shù)量較少,容易引起模型過擬合,并且模型學(xué)習(xí)到的概念還容易和一些其他與主體無關(guān)的信息結(jié)合,以至于造成了概念混亂等問題。為了解決過擬合問題, Kumari等人[19] 在數(shù)據(jù)集LAION-400M[24]中隨機抽取一組正則化集合的圖像用于訓(xùn)練。由于其有效性,本文引入了該方法解決少量數(shù)據(jù)訓(xùn)練所導(dǎo)致的過擬合問題。然而,Custom Diffusion[19]只能隨機生成包含特定概念的圖像,降低了用戶編輯圖像的靈活性,因此本文方法加入了局部選擇策略,使用掩碼技術(shù)將編輯區(qū)域與非編輯區(qū)域很好地分割開。一些研究同樣利用了主體掩碼技術(shù)來明確主體位置區(qū)域,從而使得主體能和其他信息分割開,但由于主體掩碼沒有完全概括主體信息,導(dǎo)致部分缺失,效果并不好,如DiffEdit[25]和Prompt-to-prompt[26]模型等。還有部分研究者提出了一些基于GAN模型的編輯方法,比如MyStyle[27]是一種基于GAN模型的自定義身份圖像編輯方法,利用特定主體的幾張參考照片對預(yù)先訓(xùn)練的StyleGAN[28]模型進行微調(diào),從而保持在修復(fù)過程中主體部分不變。但MyStyle模型需要用戶提供超過35張圖像才能保持圖像質(zhì)量,圖像數(shù)量越少,圖像質(zhì)量越差。相比之下,基于擴散模型的Custom Diffusion模型只需要3~5張圖像就可以生成高質(zhì)量的圖像,這種差異主要是由于擴散模型與GAN模型在訓(xùn)練方式上的不同所致。擴散模型通過學(xué)習(xí)從隨機噪聲到有意義圖像的逐步生成過程,能夠更好地捕獲圖像結(jié)構(gòu)和細節(jié),從而在較少的圖像數(shù)量下實現(xiàn)高質(zhì)量的生成,但缺點就是計算資源和時間較大。為了降低擴散模型的計算資源開銷,本文也引入了一種減少訓(xùn)練參數(shù)的微調(diào)方法,即單獨訓(xùn)練網(wǎng)絡(luò)中的部分參數(shù)。DisenBooth[29]通過在微調(diào)過程中將與定制概念無關(guān)的信息與定制概念解耦,從而將文本嵌入分解為定制相關(guān)和定制無關(guān)的部分來生成新的圖像。本文采用了掩碼技術(shù)來分割無關(guān)區(qū)域與有關(guān)區(qū)域。
2 基于擴散模型微調(diào)的局部定制圖像編輯算法
在計算機視覺領(lǐng)域中,圖像編輯任務(wù)主要是根據(jù)用戶提供的文本和圖像對待編輯圖像進行圖像處理,為了實現(xiàn)模型定制化生成,本文提出了一種基于擴散模型的局部定制圖像編輯算法LCDiffusion,用于保障編輯過程中模型潛在空間參數(shù)的穩(wěn)定性和可靠性,其模型結(jié)構(gòu)如圖1所示。
2.1 微調(diào)擴散模型
2.1.1 穩(wěn)定擴散模型
隨著計算機技術(shù)的不斷進步,擴散模型已經(jīng)成為了一類強大的生成模型。與GAN模型相比,它能夠生成更高質(zhì)量的圖像,其主要目的是使用概率分布pθ(z0)來近似原始數(shù)據(jù)分布qθ(z0),如式(1)所示。
其中:z1~zt都是前向加噪過程中馬爾可夫鏈的潛在特征表示,且zt=αtz0+1-αtε。通過給定時間步長t的噪聲圖像zt,模型通過條件或無條件特征進行降噪,得到去噪圖像zt-1,其訓(xùn)練函數(shù)可簡化為式(2),隨后在模型推理過程中,固定時間步長t,對隨機噪聲圖像zt進行去噪。
Eε,z,c,t[ωt‖ε-ε(zt,c,t)‖](2)
為了更加高效、可控地生成圖像,同時降低計算機資源的消耗,本文采用預(yù)訓(xùn)練的穩(wěn)定擴散(stable diffusion,SD)作為方法的基礎(chǔ)框架,SD在大規(guī)模數(shù)據(jù)集上進行了充分的訓(xùn)練,提高了數(shù)據(jù)對齊的準確性。SD是基于潛在擴散模型(latent diffusion model,LDM),其網(wǎng)絡(luò)結(jié)構(gòu)主要包括變分編碼器(vector quantised variational autoencoder,VAE)和擴散模型(diffusion model,DM)兩個組成部分。首先,VAE是由編碼器和解碼器組成,能夠通過自動編碼器將源圖像映射到較低維的潛在空間中,隨后再通過解碼器重建得到輸出圖像,過程如式(3)所示。在潛在空間上通過訓(xùn)練基于文本條件y的條件擴散模型來生成潛在特征。為了訓(xùn)練擴散模型,SD采用了一個簡單的均方損失函數(shù),如式(4)所示。
其中:、t、zt、τθ分別為添加的噪聲、時間步長、時間步長為t的圖像潛在特征、預(yù)訓(xùn)練的自動編碼器函數(shù)。
2.1.2 訓(xùn)練參數(shù)優(yōu)化
為了提升模型訓(xùn)練效率和性能,本文采用預(yù)訓(xùn)練的穩(wěn)定擴散模型作為方法的基礎(chǔ)框架,并提出了一種微調(diào)策略。而簡單的微調(diào)過程是在給定訓(xùn)練的文本圖像對中,通過更新模型中網(wǎng)絡(luò)所有層的參數(shù)最小化式(4)中的訓(xùn)練損失,從而得到合適的參數(shù)值。然而對于大模型而言,這會導(dǎo)致計算資源的加劇占用,并且對少量圖像進行訓(xùn)練很容易導(dǎo)致過擬合,因此應(yīng)當確定一個最小的權(quán)重集合,即盡量少地改變每一層的參數(shù)數(shù)量。本文進行了對所有層的一個微調(diào)實驗,從而分析了在微調(diào)過程中,目標數(shù)據(jù)集上每一層參數(shù)的變化。微調(diào)參數(shù)變化函數(shù)為
Δl=‖μ′l-μl‖‖μl‖(5)
其中:μl和μ2是模型網(wǎng)絡(luò)中第L層的更新權(quán)重和預(yù)訓(xùn)練權(quán)重。
更直觀地來分析,模型的這些參數(shù)主要是來自交叉注意力層、自注意力層和其他層三種類型的層,其中其他層包括卷積層和歸一化層等,圖2展示了三種類型的層的平均值。顯而易見,在微調(diào)過程中,與其他層參數(shù)的變化對比,交叉注意力層參數(shù)的變化尤為明顯,這表明在微調(diào)模型的過程中,交叉注意力起著非常重要的作用,因此本文提出在微調(diào)過程中,凍結(jié)預(yù)訓(xùn)練的擴散模型其他層參數(shù)的權(quán)重,只訓(xùn)練U-Net中的交叉注意力層。
為了進一步地減少計算資源的使用,本文進一步分析了交叉注意力層的參數(shù)在微調(diào)過程中的使用情況。交叉注意力層是根據(jù)條件特征修改模型中潛在空間參數(shù),如在文本到圖像的擴散模型中,條件特征就是文本特征。然而,由于本文微調(diào)的任務(wù)是基于給定的文本描述,更新圖像分布的映射關(guān)系,并且潛在特征z被投影到查詢矩陣Q,文本特征c被投影到鍵矩陣K和值矩陣V中。所以,本文提出在微調(diào)過程中僅更新交叉注意力層中的鍵key和值value。給定文本特征c和潛在特征z,以及一個包含Q、K、V的單頭交叉注意力,其注意力映射值為式(6),交叉注意力層的簡單實例如圖3所示。
attention(Q,K,V)=softmax(QKTd)V(6)
其中:Q、K和V就是將輸入映射到查詢query、鍵key和值value特征;d是key和query特征的輸出維度。
2.1.3 定制概念LoRA微調(diào)
定制概念編輯是用戶希望在編輯區(qū)域中生成的圖像是自己自定義的特定主體或?qū)傩裕缬脩粝M梢环白约杭业墓贰痹谝惠v復(fù)古汽車上坐著的圖像。而定制概念LoRA微調(diào)指的是利用LoRA微調(diào)技術(shù)將定制概念的視覺特征和可學(xué)習(xí)的詞嵌入與偽詞關(guān)聯(lián)起來,從而在生成圖像時,用戶只需要在文本提示中使用相應(yīng)的偽詞就能得到符合定制概念的圖像。具體來說,給定一組圖像共同描述某個定制概念,并通過一個可學(xué)習(xí)的詞嵌入v來代表定制概念。為了實現(xiàn)這個目標,一個偽詞[P]被進一步引入到詞匯表中,并且將v作為其對應(yīng)的詞嵌入。而且,通過引入偽詞[P],用戶可以在文本提示中使用[P]來指代這個定制概念,并生成具有該概念的新圖像。為了讓模型學(xué)習(xí)將與定制概念綁定的詞嵌入v融入到圖像生成過程中,在訓(xùn)練過程中使用了式(4)來最小化給定圖像與生成圖像之間的差異,同時優(yōu)化了詞嵌入v以及交叉注意力層中K和V映射的參數(shù)。并且,為了將v合并到生成過程中,本文將輸入文本提示y規(guī)范化為一個模板,即“A photo of P [class]”,其中[class]是定制概念的類別。模型微調(diào)過程如圖4所示。此外,為了保持預(yù)訓(xùn)練SD模型的先驗特征,本文采用了先驗損失Lp,損失函數(shù)如式(7)所示,因此,微調(diào)總損失為
由于少量的訓(xùn)練可用樣本,微調(diào)過后的模型很可能出現(xiàn)過擬合現(xiàn)象,這是具有挑戰(zhàn)性的。所以,本文采用了Custom Diffusion模型[19]中的正則化集技術(shù)來防止過擬合現(xiàn)象,即從LAION-400M數(shù)據(jù)集[24]中選擇一組200個正則化圖像,并且對應(yīng)的文字描述與目標文本描述應(yīng)具有高度相似性,高于CLIP[21]文本編碼器特征空間中的閾值0.85。通過結(jié)合參數(shù)固定、交叉注意力層訓(xùn)練和正則化集技術(shù),可以有效地微調(diào)文本到圖像擴散模型,使得模型可以在少量訓(xùn)練樣本的情況下仍然保持強大的生成能力,并防止過擬合現(xiàn)象的產(chǎn)生。
2.2 模型推理
在2.1節(jié)的微調(diào)模型結(jié)束之后,就開始進行局部定制圖像編輯,具體要經(jīng)過以下兩個步驟。
2.2.1 局部區(qū)域選擇
局部區(qū)域選擇是精準選擇編輯區(qū)域,保持非編輯區(qū)域的不變性,以確保只改變編輯區(qū)域內(nèi)容。在局部區(qū)域選擇中,本文采用了掩碼的方式來確定編輯區(qū)域與非編輯區(qū)域。掩碼的主要作用是在擴散過程中逐步揭示圖像的細節(jié),從而從隨機噪聲中生成與給定文本描述相匹配的圖像。
在掩碼的生成中,存在使用隨機掩碼和基于模型預(yù)測兩種方式。隨機掩碼是在每個擴散過程中隨機生成的,用于確定哪些部分應(yīng)該保持不變,哪些部分應(yīng)該根據(jù)模型預(yù)測進行更新。而基于模型預(yù)測的方式,是根據(jù)當前圖像和相應(yīng)的文本描述來預(yù)測下一個擴散步驟中應(yīng)該保留哪些部分,從而生成掩碼。然而,本文微調(diào)模型的任務(wù)并不適用于這兩種方式,而是采用了一個用于圖像分割的模型來分割編輯區(qū)域和非編輯區(qū)域,從而確定掩碼。首先將SAM[30]對圖像進行預(yù)分割,然后將這些分割結(jié)果作為條件輸入到模型中,從而引入了更多的語義信息,最后針對編輯區(qū)域,通過定制生成更符合語義的圖像。通過將SAM和文本到圖像擴散模型結(jié)合使用,為模型的區(qū)域選擇提供了很大的幫助,局部選擇步驟如圖5所示。
2.2.2 定制概念圖像編輯
定制概念圖像編輯是一個精細化過程,允許用戶通過結(jié)合參照圖像、對應(yīng)的掩碼特征和規(guī)范化的條件文本描述來在特定的編輯區(qū)域生成具有定制概念的內(nèi)容。在定制概念圖像編輯過程中,首先,需要提供一張參考圖像以確保整體結(jié)構(gòu)和內(nèi)容。然后,通過2.2.1節(jié)局部區(qū)域選擇獲得的掩碼特征以確保參考圖像哪個區(qū)域是需要進行編輯的,哪些是保持不變的。接著,結(jié)合2.1.3節(jié)規(guī)范化的條件文本描述以確保精準生成定制概念內(nèi)容。最后,將這些輸入(參照圖像、對應(yīng)的掩碼特征和規(guī)范化的條件文本描述)共同輸入到經(jīng)過2.1節(jié)微調(diào)之后的擴散模型中,從而實現(xiàn)對特定區(qū)域的定制化編輯,過程如圖1(b)所示。
3 實驗結(jié)果與分析
3.1 實驗環(huán)境
本文所有的實驗均通過深度學(xué)習(xí)框架PyTorch實現(xiàn),且整個訓(xùn)練過程都在24 GB顯存的RTX 4090上進行。在訓(xùn)練中,本文采用了Stable Diffusion v1.5作為預(yù)訓(xùn)練的文本到圖像擴散模型,并選取了優(yōu)化器AdamW[31],將學(xué)習(xí)率設(shè)定為0.000 01,設(shè)置批次大小為4,并進行600次迭代訓(xùn)練。在推理過程中,選用了60步DDIM,且無分類引導(dǎo)器設(shè)置為6,并且為了統(tǒng)一訓(xùn)練,將所有圖像大小調(diào)整為512×512的尺寸。
3.2 數(shù)據(jù)集及評價指標
a)數(shù)據(jù)集。實驗在DreamBooth[17]提出的DreamBench數(shù)據(jù)集上進行測試與評估,該數(shù)據(jù)集由30個不同類別的主體組成,分別為動物、玩具等,并且每個類別都至少有5張圖像。本文隨機在每個類別中抽取5張圖像用于訓(xùn)練,每個類別都有相應(yīng)的文本描述。
b)評價指標。本文算法主要是通過將圖像和文本兩種模態(tài)輸入到模型中,從而產(chǎn)生高質(zhì)量的圖像編輯內(nèi)容,因此選擇評價指標要看是否可以評估文本描述和圖像的一致性,以及是否可以驗證多樣化圖像在語義和結(jié)構(gòu)上是否保持一致性。本文選取了CLIP-T、CLIP-I、DINO-I和MS-SSIM[32]四種評價指標和一種用戶評價指標。CLIP-T指標是計算生成圖像的CLIP視覺特征和對應(yīng)的文本描述特征之間的平均余弦相似度。CLIP-I指標是計算生成圖像和真實圖像之間的CLIP視覺特征平均余弦相似度。DINO-I指標是計算生成圖像和真實圖像之間的DINO特征平均余弦相似度。MS-SSIM稱作多尺度結(jié)構(gòu)相似度指數(shù),是用來衡量樣本圖像和生成圖像之間結(jié)構(gòu)的相似度的,分數(shù)越大代表兩個圖像失真越小,即結(jié)構(gòu)保持得越好,這有助于分析圖像文本之間的相似度以及其他區(qū)域是否出現(xiàn)失真。用戶評估是通過邀請20位用戶對生成的圖像進行真實性和準確率的評價。每位用戶會隨機評估一組圖像,并根據(jù)圖像的真實感和與給定條件的一致性,在1~5分的范圍內(nèi)進行打分。最后,計算所有用戶打分的平均值,得出用戶評價指標的數(shù)值,從而全面反映用戶對生成圖像質(zhì)量的整體感知和定制化生成的準確度。在消融實驗中,為了評估非編輯區(qū)域的保持程度,采用了LPIPS[33]評價指標,LPIPS用于衡量參考圖像和生成圖像之間的相似度。
3.3 定量分析
在本節(jié)中,為了評估本文算法實現(xiàn)局部定制圖像編輯的效果,將使用本文方法在DreamBench數(shù)據(jù)集上與一些基于文本到圖像擴散模型的基線方法進行實驗對比,并通過CLIP-T、CLIP-I、DINO-I和MS-SSIM評估指標進行定量分析,具體數(shù)值如表1所示。DiffEdit[21]作為一種基于文本導(dǎo)向的圖像編輯模型,其獨特之處在于它利用文本直接編輯圖像中的特定區(qū)域,而無須用戶提供編輯區(qū)域的掩碼。而Custom Diffusion[19]、DreamBooth[17]和Textual Inversion[18]與本文方法在核心思路上具有相似之處,即它們都屬于在圖像處理過程中自定義主體生成,確保用戶需要的主體元素得以保留,并生成與文本描述相關(guān)的內(nèi)容。從表1可以得出以下結(jié)論:
a)與DiffEdit[21]模型相比,本文方法在很小的數(shù)據(jù)集上訓(xùn)練不僅沒有造成過擬合現(xiàn)象,而且還可以實現(xiàn)更好的CLIP-T、CLIP-I、DINO-I和MS-SSIM指標,這表明本文方法在文本對齊、圖像對齊和結(jié)構(gòu)一致性方面取得顯著效果。
b)與Custom Diffusion[19]、DreamBooth[17]和Textual Inversion[18]模型相比,雖然本文方法在CLIP-I、DINO-I沒有明顯提高,但是在CLIP-T和MS-SSIM指標上實現(xiàn)了顯著提高,這表明本文方法實現(xiàn)了更好的文本對齊,并且保持了結(jié)構(gòu)一致性。
c)與其他方法相比,本文方法在訓(xùn)練時間效率上有顯著提升。
d)通過用戶指標數(shù)值的對比,與其他方法對比,本文方法根據(jù)文本描述和少量樣本生成了更準確和真實的效果。
3.4 定性分析
在本節(jié)中,為了更加直觀地對比本文方法和其他方法,將各個模型在DreamBench數(shù)據(jù)集上進行了可視化分析,實驗結(jié)果如圖6所示。從圖6可以看出,本文提出的局部定制圖像編輯算法根據(jù)文本描述和定制概念圖,能夠很好地在編輯區(qū)域生成定制概念主體,并且保持非編輯區(qū)域不變。由于DiffEdit模型中掩碼是根據(jù)文本描述進行生成的,導(dǎo)致編輯區(qū)域邊界失真,并且不能生成用戶指定的定制概念。雖然DreamBooth和Textual Inversion兩種模型可以生成更為逼真的圖像,但是不能保持非編輯區(qū)域的不變性,失去了圖像編輯模型的靈活性。因此,本文方法不僅可以保留用戶指定的概念嵌入,還可以選擇性地保留非編輯區(qū)域內(nèi)容,從而允許用戶可以更加靈活地控制圖像編輯。
3.5 消融實驗
為了評估本文方法中的訓(xùn)練參數(shù)優(yōu)化、局部區(qū)域選擇、定制概念生成各個組件的效果,本文進行了一系列的消融實驗。
3.5.1 訓(xùn)練參數(shù)優(yōu)化
微調(diào)模型是為了使用較少的計算機資源完成特定的編輯任務(wù)。為了評估在微調(diào)模型過程中提出的使用預(yù)訓(xùn)練的穩(wěn)定擴散模型作為本文方法基礎(chǔ)框架以及訓(xùn)練參數(shù)優(yōu)化的有效性,本文將沒有微調(diào)模型的方法、微調(diào)時未采用參數(shù)優(yōu)化的方法和本文方法進行對比實驗,訓(xùn)練參數(shù)和訓(xùn)練時間的具體數(shù)值如表2所示。
從表2可以看出,本文提出微調(diào)的方法大大降低了訓(xùn)練參數(shù)的數(shù)量,從而減少了訓(xùn)練時長,減少了訓(xùn)練帶來的計算機資源的損耗,并且優(yōu)化降低了訓(xùn)練參數(shù)。
3.5.2 局部區(qū)域選擇
本文所提出的局部區(qū)域選擇提供了編輯區(qū)域的掩碼,使得本文模型只進行編輯區(qū)域內(nèi)容的更改,并保持非編輯區(qū)域不變。為了驗證其有效性,本文將沒有使用區(qū)域選擇的方法、使用文本預(yù)測區(qū)域的方法和本文方法進行了對比實驗,具體數(shù)值如表3所示。
從表3可以看出,與沒有使用區(qū)域選擇的方法相比,加入了局部區(qū)域選擇之后,LPIPS指標降低了46.71%,表明引入局部區(qū)域選擇的方法大大提高了編輯圖像的保真度,保持了非編輯區(qū)域的一致性。同時,本文方法與文本預(yù)測區(qū)域的方法相比,本文所提出的區(qū)域選擇方法更為精準且較少失真。
3.5.3 定制概念生成
定制概念生成是利用定制概念綁定的詞嵌入、編輯區(qū)域的掩碼和參考圖像進行圖像編輯的。為了評估其語義對齊和圖像對齊程度,本文將沒有使用定制概念生成的方法和本文方法在COCO數(shù)據(jù)集[34]中6個類別上進行對比實驗,語義對齊和圖像對齊均值如表4所示,沒有使用定制概念生成的方法和本文方法的語義圖像對齊程度如圖7所示。
從表4可以得出,本文方法在引入定制概念綁定之后,語義和圖像對齊程度有很大的提升,驗證了定制概念生成方法的有效性,實現(xiàn)了定制概念綁定,從而使得用戶能夠更加靈活地控制定制概念內(nèi)容。
4 結(jié)束語
本文提出了一種基于擴散模型微調(diào)的局部定制圖像編輯算法LCDiffusion。該方法微調(diào)了預(yù)訓(xùn)練的穩(wěn)定擴散模型,并且進行了定制概念圖像編輯,實現(xiàn)了靈活地控制圖像編輯生成的效果。在微調(diào)過程中,通過將一組描述定制概念的圖像與詞嵌入進行關(guān)聯(lián)來實現(xiàn)定制概念與偽詞[P]的綁定,并通過分析預(yù)訓(xùn)練模型每個層參數(shù)權(quán)重變化的程度,凍結(jié)模型中其他參數(shù)的權(quán)重,只訓(xùn)練交叉注意力層中的K、V參數(shù),盡可能地減少了訓(xùn)練參數(shù)的數(shù)量,從而降低了訓(xùn)練中的計算資源損耗。在模型推理過程中,先借助SAM模型得到參考圖像掩碼特征,獲得了較為精準的編輯區(qū)域,然后再將參考圖像、掩碼特征和規(guī)范化的條件文本描述通過微調(diào)后的擴散模型下實現(xiàn)用戶定制化圖像編輯。LCDiffusion模型與其他先進方法在DreamBench數(shù)據(jù)集上進行了對比實驗,本文方法在文本對齊和結(jié)構(gòu)性一致方面取得了顯著成效,從而驗證了本文方法在指定區(qū)域中能夠有效地生成定制內(nèi)容。由于本文是基于預(yù)訓(xùn)練的擴散模型進行微調(diào)的,所以本文模型也繼承了預(yù)訓(xùn)練模型的限制,例如人臉定制的編輯和實時性。未來將專注于提高圖像編輯的實時性和對人臉定制概念生成的研究,并且在實驗資源上提升算力來提高模型的計算能力。
參考文獻:
[1]Ramesh A,Dhariwal P,Nichol A,et al.Hierarchical text-conditional image generation with clip latents[EB/OL].(2022-04-13).https://arxiv.org/abs/2204.06125.
[2]Saharia C,Chan W,Saxena S,et al.Photorealistic text-to-image diffusion models with deep language understanding[EB/OL].(2022-05-23).https://arxiv.org/abs/2205.11487.
[3]Rombach R,Blattmann A,Lorenz D,et al.High-resolution image synthesis with latent diffusion models[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:10674-10685.
[4]Nichol A Q,Dhariwal P,Ramesh A,et al.GLIDE:towards photorealistic image generation and editing with text-guided diffusion models[C]//Proc of International Conference on Machine Learning.[S.l.]:PMLR,2022:16784-16804.
[5]Ramesh A,Pavlov M,Goh G,et al.Zero-shot text-to-image generation[C]// Proc of International Conference on Machine Learning.[S.l.]:PMLR,2021:8821-8831.
[6]Yu Jiahui,Xu Yuanzhong,Koh J Y,et al.Scaling autoregressive mo-dels for content-rich text-to-image generation[EB/OL].(2022-06-22).https://arxiv.org/abs/2206.10789.
[7]Isola P,Zhu J Y,Zhou T,et al.Image-to-image translation with conditional adversarial networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:1125-1134.
[8]Huang Yi,Huang Jiancheng,Liu Yifan,et al.Diffusion model-based image editing:a survey [EB/OL].(2024-03-16).https://arxiv.org/abs/2402.17525.
[9]閆志浩,周長兵,李小翠.生成擴散模型研究綜述[J].計算機科學(xué),2024,51(1):273-283.(Yan Zhihao,Zhou Changbing,Li Xiaocui.A survey of generative diffusion models[J].Computer Science,2024,51(1):273-283.)
[10]趙宏,李文改.基于擴散生成對抗網(wǎng)絡(luò)的文本生成圖像模型研究[J].電子與信息學(xué)報,2023,45(12):4371-4381.(Zhao Hong,Li Wengai.Research on text-to-image generation model based on diffusion generative adversarial networks[J].Journal of Electronics amp; Information Technology,2023,45(12):4371-4381.)
[11]Creswell A,White T,Dumoulin V,et al.Generative adversarial networks:an overview[J].IEEE Signal Processing Magazine,2018,35(1):53-65.
[12]Wang Kunfeng,Gou Chao,Duan Yanjie,et al.Generative adversarial networks:introduction and outlook [J].IEEE/CAA Journal of Automatica Sinica,2017,4(4):588-598.
[13]Mirza M,Osindero S.Conditional generative adversarial nets[EB/OL].(2014-11-06).https://arxiv.org/abs/1411.1784.
[14]Brooks T,Holynski A,Efros A.InstructPix2Pix:learning to follow image editing instructions[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023:18392-18402.
[15]Floridi L,Chiriatti M.GPT-3:its nature,scope,limits,and consequences[J].Minds and Machines,2020,30:681-694.
[16]Kawar B,Zada S,Lang O,et al.Imagic:text-based real image editing with diffusion models[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023:6007-6017.
[17]Ruiz N,Li Yuanzhen,Jampani V,et al.DreamBooth:fine tuning text-to-image diffusion models for subject-driven generation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023:22500-22510.
[18]Gal R,Alaluf Y,Atzmon Y,et al.An image is worth one word:persona-lizing text-to-image generation using Textual Inversion [EB/OL].(2022-08-02).https://arxiv.org/abs/2208.01618.
[19]Kumari N,Zhang Bingliang,Zhang R,et al.Multi-concept customization of text-to-image diffusion[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023:1931-1941.
[20]Ho J,Salimans T.Classifier-free diffusion guidance [EB/OL].(2022-07-26).https://arxiv.org/abs/2207.12598.
[21]Radford A,Kim J W,Hallacy C,et al.Learning transferable visual models from natural language supervision[C]//Proc of International Conference on Machine Learning.[S.l.]:PMLR,2021:8748-8763.
[22]Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[EB/OL].(2019-05-24).https://arxiv.org/abs/1810.04805.
[23]Kim G,Kwon T,Ye J C.DiffusionCLIP:text-guided diffusion models for robust image manipulation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:2416-2425.
[24]Schuhmann C,Vencu R,Beaumont R,et al.LAION-400M:open dataset of clip-filtered 400 million image-text pairs[EB/OL].(2021-11-03).https://arxiv.org/abs/2111.02114.
[25]Couairon G,Verbeek J,Schwenk H,et al.DiffEdit:diffusion-based semantic image editing with mask guidance[EB/OL].(2022-10-20).https://arxiv.org/abs/2210.11427.
[26]Hertz A,Mokady R,Tenenbaum J,et al.Prompt-to-prompt image editing with cross attention control [EB/OL].(2022-08-02).https://arxiv.org/abs/2208.01626.
[27]Nitzan Y,Aberman K,He Q,et al.MyStyle:a personalized generative prior[J].ACM Trans on Graphics,2022,41(6):1-10.
[28]Karras T,Laine S,Aila T.A style-based generator architecture for generative adversarial networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:4401-4410.
[29]Chen Hong,Zhang Yipeng,Wu Simin,et al.DisenBooth:identity-preserving disentangled tuning for subject-driven text-to-image generation [EB/OL].(2024-02-27).https://arxiv.org/abs/2305.03374.
[30]Kirillov A,Mintun E,Ravi N,et al. Segment anything[EB/OL].(2023-04-05).https://arxiv.org/abs/2304.02643.
[31]Kingma D P,Ba J.Adam:a method for stochastic optimization[EB/OL].(2017-01-30).https://arxiv.org/abs/1412.6980.
[32]Wang Z,Simoncelli E P,Bovik A C.Multiscale structural similarity for image quality assessment[C]//Proc of the 37th Asilomar Conference on Signals,Systems amp; Computers.Piscataway,NJ:IEEE Press,2003:1398-1402.
[33]Zhang R,Isola P,Efros A A,et al.The unreasonable effectiveness of deep features as a perceptual metric[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:586-595.
[34]Lin T Y,Maire M,Belongie S,et al. Microsoft COCO:common objects in context[C]//Proc of European Conference on Computer Vision.Cham:Springer,2014:740-755.