在日常生活中,我們會經(jīng)常用到圖像編輯軟件,讓照片有更好的效果和呈現(xiàn)。近日一項關(guān)于交互式人臉編輯框架的研究更新了人們的認(rèn)知,讓操作者不需要更多的操作,只需對著軟件說出想要的編輯效果,那么想要的效果圖片就會自動生成出來了。
人臉編輯是視覺和圖形領(lǐng)域的一項重要任務(wù),有著廣泛的應(yīng)用。然而,現(xiàn)有的成果無法提供與操作者自然交互的連續(xù)、精細的編輯模式,例如將一張略帶微笑的臉編輯成一張大笑的臉。
在這項研究工作中,科研人員提出了Talk to Edit,一個交互式面部編輯框架,通過操作者與機器之間的對話就能進行非常精細的操作和編輯。
研究的關(guān)鍵是在潛在空間中建立一個連續(xù)的“語義場”模型。1、與以往將編輯視為穿越潛在空間中的直線的工作不同,這里的細粒度編輯實際上是一條細粒度屬性的曲線軌跡。2、每個步驟里面的曲率是基于位置因素的,并且由圖像和用戶的語言請求決定。3、研究體系的系統(tǒng)會根據(jù)用戶請求和語義場狀態(tài)來生成反饋,這樣有助于用戶體驗操作的對話。
科研人員還提供了Celeb ADialog,一個可視化語言面部編輯數(shù)據(jù)集, 以促進大規(guī)模研究。具體來說, 每個圖像都有手動注釋的細粒度屬性注釋以及自然語言中基于模板的文本描述。大量的定量和定性實驗證明了此項研究的框架在以下方面的優(yōu)越性:1、細粒度編輯的平滑性;2、身份/屬性保留;3、視覺真實感和對話流暢性。值得注意的是, 用戶研究驗證了整個系統(tǒng)始終受到大約80%參與者的青睞。
面部編輯的目標(biāo)是使用戶能夠以自己想要的方式操作面部圖像。由于GANs等深層生成模型的進步, 近年來面部編輯得到了快速發(fā)展, 尤其在圖像的保真度上面。
雖然有人幾次嘗試過提高面部編輯質(zhì)量,但通常缺乏與用戶的交互,或者要求用戶需要按一些固定的控制模式進行操作。例如,圖像到圖像的轉(zhuǎn)換模型只在幾個離散和固定狀態(tài)之間轉(zhuǎn)換人臉圖像,用戶無法對系統(tǒng)進行任何主觀控制。
其他人臉編輯方法為用戶提供一些控制,例如,表示圖像布局的語義圖,顯示目標(biāo)樣式的參考圖像,以及描述所需效果的句子。然而,用戶必須遵循固定模式,這對大多數(shù)用戶來說要求太高且不靈活。此外,系統(tǒng)提供的唯一反饋是編輯后的圖像本身。
為了學(xué)習(xí)語意和編輯對話框, 研究人員提供了叫做CelebA-dialog的可視化語言的數(shù)據(jù)集。與以前不同的是,研究采用細粒度的屬性標(biāo)簽對圖像進行注釋。
這項研究的主要貢獻是:1、研究建議通過對話執(zhí)行細粒度的面部編輯,這是一種更方便用戶交互的方式。2、實現(xiàn)更連續(xù)和細粒度的面部編輯,研究建議對特定于位置的語義場進行建模。3、與其他對等部分相比,研究實現(xiàn)了更好的身份保留和更平滑的更改。4、研究提供了一個大規(guī)??梢暬Z言數(shù)據(jù)集CelebA對話框,其中包含細粒度的屬性標(biāo)簽和文本描述。
此項研究提出了一個基于對話的細粒度人臉編輯系統(tǒng)Talk-to-Edit。用戶的語言請求驅(qū)動所需的人臉編輯,該系統(tǒng)能夠向用戶提供反饋,使人臉編輯更具可行性。研究提出的方法能夠提供更連續(xù)和細粒度的編輯結(jié)果。
研究還提供了一個名為CelebA Dialog的大規(guī)模視覺語言人臉屬性數(shù)據(jù)集,科研人員相信這將有助于細粒度和語言驅(qū)動的人臉編輯任務(wù)。在未來的工作中,通過結(jié)合反轉(zhuǎn)方法和更強的身份保持正則化,可以進一步提高真實人臉圖像編輯的性能。研究人員還希望通過利用高級預(yù)訓(xùn)練語言模型來處理更復(fù)雜的文本請求。