一、AIGC時代下攝影教育的最大“誤區(qū)”
隨著以ChatGPT(自然語言對話)、Midjourney(文本生成圖像/文生圖)、Sora(文本生成視頻)為代表的通用大模型人工智能(AGI)的到來,很多人對于攝影發(fā)展的理解持“技術(shù)替代”論。攝影術(shù)從1839年誕生以來,它的進化方向一直是“簡易化、移動化和計算化”:從早期的銀版法、火棉膠,到手持相機、柯達膠卷,再到數(shù)碼相機、數(shù)字后期處理,現(xiàn)在則是以手機為載體的移動計算攝影,都遵循這一路線。但是,攝影的核心教育并沒有變,依然是學習“如何用光影塑造現(xiàn)實之事物”,令人驚愕的是,在人工智能時代,這一點也正在被懷疑,“光影塑造現(xiàn)實之事物”,也可以變成“人工智能下的攝影圖像的機器生成”。很多大學居然將攝影教育視為一種“落后的教育”“該淘汰的教育”,以及“不必要的教育”,甚至有大規(guī)模取消攝影課的趨勢。
當然,也有維護攝影的說法,這類觀點強調(diào)攝影的客觀性基礎(chǔ),這里的“客觀性”不是文化狡辯意義上的客觀性。蘇珊·桑塔格經(jīng)常反對攝影的客觀性,她講述的其實是“拍攝者主觀意識中的偏見”[1]。攝影的拍攝對象的確是現(xiàn)實存物,即使這是由拍攝者用自己的意圖去“非客觀”地表現(xiàn)出來,但它的確是一個實在的東西。然而,在AIGC(生成式人工智能)時代,以Midjourney、Stable Diffusion為代表的工具是“生成的”,這是一種“子虛烏有的創(chuàng)造”。所以,攝影唯一能阻擋AIGC的是它的“新聞紀實性”。如果用不到紀實,都是可以被AIGC取代的。言下之意,如果不是單純培養(yǎng)攝影記者或者紀實攝影師,攝影沒有必要存在。
上述觀點不僅低估了攝影之于反映人類真實生存狀態(tài)和文明生存境地的重要性,而且還高度誤解了AIGC的操作原理—以“提示詞驅(qū)動”(Prompt Engineering)為界面所必需的“操作素養(yǎng)”。該觀點似乎將這種“操作素養(yǎng)”當作是無源之水、無本之木。
以“文生圖”中最熱的人工智能Midjourney為例,用它來生成“類攝影圖像”(Midjourney可以生成更廣泛性的圖像,比如漫畫、油畫等),需要用一個提示詞(Prompt)格式—“/imagine”。沒有“操作素養(yǎng)”的人可以隨意填寫一些簡單的詞語,比如“一個亞洲中年婦女”,Midjourney會理解輸入的自然語言,生成與該描述匹配的圖像。用戶描述得越籠統(tǒng),它就越會根據(jù)機器學習到的“亞洲中年女性”的“最大公約數(shù)”來生成圖像。
Midjourney已經(jīng)給出了“提示詞”的指引,它的基本結(jié)構(gòu)如下:
(1)主體描述
清晰地描述生成圖像的主題或主體,如“一個亞洲婦女”,對其人體結(jié)構(gòu)、面部細節(jié)也要做出準確、細致的描述。
(2)藝術(shù)風格
指定所需的藝術(shù)流派,比如“快照式黑白照片”。
(3)視角/構(gòu)圖
注明希望的視角、角度以及構(gòu)圖方式,如“正側(cè)取景”“對稱構(gòu)圖”等。
(4)光影細節(jié)
描述期望的光線方向、質(zhì)感、陰影投射等,這就需要掌握相應(yīng)的專業(yè)術(shù)語和描述方式。
(5)色彩關(guān)系
包括色調(diào)、飽和度、對比關(guān)系等方面,運用色彩關(guān)系能夠生成理想中圖像的色彩效果。
(6)主題修飾
為主題增加細節(jié)和修飾性描述,如“被雨水打濕的玫瑰花瓣”等。
(7)場景陳設(shè)、細節(jié)堆積
一張優(yōu)秀的攝影作品往往富有細節(jié),要對場景細節(jié)描述有好的堆疊和渲染能力。
(8)質(zhì)感描述
對畫面中物體的材質(zhì)和質(zhì)感做出描述,如“絹緞般光滑的花瓣”。
(9)情緒氛圍渲染
為畫面渲染一種情緒基調(diào),如“北野武電影”式的青春殘酷。
毫無疑問,撰寫出優(yōu)質(zhì)的提示詞,就是AIGC時代商業(yè)攝影教育新增的重要內(nèi)容,但這與傳統(tǒng)攝影教育并不沖突。筆者所著的《商業(yè)攝影實訓教程》 [2]就是扎根于“傳統(tǒng)”商業(yè)攝影教育的高校教材。該書自2010年初版以來,在不斷的修訂中,融入商業(yè)攝影業(yè)界的革新技術(shù)和觀念,正在修訂的第4版將增加AI圖像生成的提示詞教學,并展現(xiàn)AIGC教學實踐成果。
撰寫出準確、細致的提示詞,是AIGC時代的關(guān)鍵能力,這些關(guān)鍵能力可以通過攝影課程的學習來獲得。只不過,它不是一個“怎么拍”的教學,而是“想著怎么拍”的攝影意識和攝影想象力的養(yǎng)成。從這個意義上說,扎實全面的攝影課程,能夠培養(yǎng)學生理解和把握攝影技術(shù)、視覺美學以及藝術(shù)風格的能力,最終能讓他們具有撰寫令人賞心悅目的提示詞的能力,從而讓Midjourney這樣的工具不是根據(jù)“最大公約數(shù)”概率來生成圖像,而是根據(jù)提示詞的指引,精準地刻畫出理想中的攝影畫面。
二、準確理解AIGC的“生成原理”
撰寫出優(yōu)質(zhì)的提示詞可以視為商業(yè)攝影教育在AIGC時代重要的教學目標之一,但并非唯一目標。因為AIGC并不僅僅是“生成”,還蘊含著其他更重要的技術(shù)理解問題。這些問題,也應(yīng)當通過攝影教育予以講解,讓學生們知道AIGC的來龍去脈以及AIGC的可為與不可為。
首先,AIGC“文生圖”(Text-to-image model)的技術(shù),并不是于Midjourney、DALL-E和Stable Diffusion在2022年“橫空出世”之后才有的,早在2015年,加拿大多倫多大學的研究人員就提出了“文生圖”的第一個模型:alignDRAW。alignDRAW模型是一種機器學習的“注意力機制”,通過關(guān)注圖像的特點來學習圖像(集中注意力于圖像的特定區(qū)域),然后與“輸入的文字”進行匹配,所以它生成的圖像經(jīng)常是“圖像拼貼”,這尚且是一種非常幼稚的方法。
2016年,生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,簡稱GAN)在“文生圖”上開始流行。GAN的核心思想是訓練兩個互相競爭的神經(jīng)網(wǎng)絡(luò):生成器(Generator)和判別器(Discriminator)[3]。生成器的任務(wù)是生成與訓練數(shù)據(jù)相似的新數(shù)據(jù)樣本。判別器的任務(wù)是對生成器生成的數(shù)據(jù)進行分類,區(qū)分生成的數(shù)據(jù)與真實的訓練數(shù)據(jù)。判別器接收生成器生成的樣本以及真實的訓練數(shù)據(jù),并嘗試將其分類為真實數(shù)據(jù)和虛假數(shù)據(jù)。判別器的目標是準確識別生成的數(shù)據(jù),使其與真實數(shù)據(jù)區(qū)分開。生成器的目標是盡可能地“欺騙”判別器,使其無法區(qū)分生成的數(shù)據(jù)和真實的訓練數(shù)據(jù)。經(jīng)過足夠多次訓練,生成器就能夠生成以假亂真的高質(zhì)量圖像。GAN的進步之處在于,它并非通過簡單復(fù)制、拼接已有圖像元素,而是學習底層數(shù)據(jù)分布,“創(chuàng)造”出新圖像。[4]
2022年是“文生圖”發(fā)生革命性變化的一年,出現(xiàn)了擴散模型(Diffusion Model)。“擴散模型”讓Midjourney這類人工智能的“文生圖”的能力呈指數(shù)級提高。想象這里有一幅完整的圖像,我們往上面不斷噴灑“顏料霧”,使整個圖像變得越來越模糊,直到它完全變成一片噪聲。這就是所謂的“前向過程”(forward process)。然后,我們訓練一個模型,它的目標是從這片噪聲中還原出原始的清晰圖像,學會“反向”執(zhí)行前面那個噴灑“圖像噪聲”的過程,一步步地將“噪聲”去除,還原圖像細節(jié),這叫作“逆向過程”(reverse process)。訓練時,我們給模型大量的“圖像—噪聲”對比作為示例,讓它學習如何從噪聲中識別出原始圖像的結(jié)構(gòu)和特征。經(jīng)過足量的訓練,模型就能掌握數(shù)據(jù)集中圖像的內(nèi)在分布和規(guī)律了。一旦模型學會了“去噪”這個技能后,我們就可以執(zhí)行采樣過程(sampling procedure)—我們給模型一個完全隨機的噪聲圖像,它會自動地將噪聲去除,最終“生成”出一幅全新的、有意義的圖像。擴散模型的魔力在于,盡管我們給它的只是隨機噪聲,但它能利用學到的知識,重建出逼真并有意義的新圖像。擴散模型的“添加噪聲—逆向去噪”過程在Midjourney“文生圖”任務(wù)中扮演著核心角色。[5]
三、“文生圖”里的機器邏輯引發(fā)攝影教育變革
了解“文生圖”的原理,并不意味著我們要將攝影課變成人工智能課,而是要清楚地知道AIGC能夠給攝影課堂帶來何種改變。
第一,提示詞不能是否定性的表述,否則就會出現(xiàn)理解偏差。這是因為生成對抗網(wǎng)絡(luò)(GAN)與擴散模型(Diffusion Model)是一個“對抗”和“去噪”的過程,它本身就是一個“否定性”的生成過程。因此,攝影課老師在講解“如何撰寫出優(yōu)質(zhì)提示詞”的時候,一定要講清楚背后的原理,否則“文生圖”會生成出大量的機器圖像幻覺。
第二,提示詞中細節(jié)越多,生成的圖像質(zhì)量通常會越高,但過于細節(jié)化也可能引導模型產(chǎn)生一些意料之外的元素,故而需要平衡細節(jié)和開放性[6]。從上述“文生圖”的原理中看到,AI圖像生成的創(chuàng)造性受到其訓練數(shù)據(jù)和算法的限制,大而化之的提示詞讓它們傾向于生成與訓練數(shù)據(jù)中的常見模式相似的圖像,而缺乏創(chuàng)新和想象力。
第三,“文生圖”提示詞訓練本質(zhì)上是一種新形式的視覺編碼研究,它將傳統(tǒng)攝影、人工智能和視覺傳播學融合在一起。在傳統(tǒng)攝影中,攝影師通過構(gòu)圖、光線、色彩等手段來編碼視覺信息,這種視覺編碼過程需要攝影師具備專業(yè)的視覺造詣和審美能力,而在“文生圖”中,提示詞就相當于一種新型的視覺編碼方式。從這個角度來看,“文生圖”提示詞訓練正在拓展視覺編碼研究的全新維度,也將極大拓展人類進行視覺表達和藝術(shù)創(chuàng)作的能力。
第四,在攝影教學實踐中,我們要在攝影課程中融入對AIGC工具和技術(shù)的學習,同時加強對人文素養(yǎng)、創(chuàng)新思維、審美能力的培養(yǎng)。我們要用實踐教學和項目驅(qū)動來重構(gòu)攝影作業(yè)體系,要求學生結(jié)合傳統(tǒng)技藝和AIGC工具完成作業(yè)。例如,筆者最近主講的本科生《廣告攝影》課程,除了從產(chǎn)品、時尚、建筑等類別的商業(yè)攝影教學中讓學生掌握最基本的攝影語言和視覺傳播策略外,還引導學生使用 Midjourney進行攝影風格的主題性創(chuàng)作,為三甲醫(yī)院的“藝術(shù)療愈”項目生成攝影風格的作品—《AI的療愈》[7]。藝術(shù)療愈是通過藝術(shù)創(chuàng)作和藝術(shù)欣賞等活動,幫助人們提升心理健康、調(diào)節(jié)情緒、緩解壓力及焦慮的一種療愈方法。它包括視覺藝術(shù)療法、音樂治療、舞蹈治療、戲劇治療等形式,通過創(chuàng)作、表達、觀賞和體驗藝術(shù),幫助人們解決心理健康問題、康復(fù)心靈創(chuàng)傷。在《AI的療愈》中,學生們用想象力驅(qū)動Midjourney生成具有情感治愈力量的“攝影圖像”,淬煉出寧靜、祥和、希望的氣息,以期觀者能夠“被療愈”。
另外,我們也必須講授AIGC所帶來的版權(quán)和知識產(chǎn)權(quán)等法律層面的挑戰(zhàn)。深度偽造是目前AIGC最令人擔憂的全球性問題,在攝影教育中,一定要注意培養(yǎng)學生的職業(yè)道德操守,規(guī)范使用 AIGC,尊重原創(chuàng)。AIGC時代的攝影教育不僅僅是一種與時俱進的技術(shù)教育,也是一種堅守初心的道德教育。
(楊莉莉,深圳大學傳播學院副教授)
注釋:
*本文為國家社科基金項目“‘他塑視角下中國故事的圖像敘事機制和策略研究”(20BXW064)階段性成果。
[1][美]蘇珊·桑塔格:《論攝影》,黃燦然譯,上海譯文出版社2021年版,第13-17頁。
[2]楊莉莉:《商業(yè)攝影實訓教程(第3版)》,中國人民大學出版社2021年版。
[3]關(guān)于“生成對抗網(wǎng)絡(luò)”的原理描述,可見:https://proceedings.neurips.cc/paper_files/paper/2014/file/5ca3e9b122f61f8f06494c97b1afccf3-Paper.pdf
[4]關(guān)于“生成對抗網(wǎng)絡(luò)”如何用于“文生圖”的機器學習機制,可見:https://proceedings.mlr.press/v48/reed16.pdf
[5]關(guān)于擴散模型(Diffusion Model)如何用于“文生圖”的機器學習機制,可見Jay Alammar的教學演示:https://jalammar.github.io/illustratedstable-diffusion/
[6]哈佛大學網(wǎng)站有關(guān)于“文生圖”的通俗課程講解,可見:https://scholar.harvard.edu/files/binxuw/files/stable_diffusion_a_tutorial.pdf
[7]《AI的療愈》為“深圳大學全國教材建設(shè)獎優(yōu)秀教材培育項目”的階段性成果。
實習編輯/邢樹宜