隨著科技的迅猛發(fā)展,人工智能生成內(nèi)容(AIGC, Artificial Intelligence Generated Content)作為近年來興起的技術(shù)潮流,已經(jīng)在眾多領(lǐng)域掀起了變革[1]。特別是在科普視頻創(chuàng)作領(lǐng)域展現(xiàn)了巨大的應用潛力。本文綜述了人工智能生成內(nèi)容在科普視頻中的應用現(xiàn)狀及技術(shù)實現(xiàn),分析了國內(nèi)外典型案例,并探討了其未來發(fā)展趨勢。人工智能生成內(nèi)容技術(shù)不僅顯著提升了內(nèi)容創(chuàng)作的效率,還明顯降低了創(chuàng)作門檻。盡管如此,人工智能生成內(nèi)容在科普視頻的應用中仍面臨技術(shù)局限、倫理和版權(quán)問題等挑戰(zhàn)。未來,人工智能生成內(nèi)容與增強現(xiàn)實(AR)和虛擬現(xiàn)實(VR)等技術(shù)的結(jié)合,有望為科普內(nèi)容的創(chuàng)作與傳播提供新的路徑和可能性。
1 人工智能生成內(nèi)容在科普視頻中的應用現(xiàn)狀
1.1 自動生成視頻內(nèi)容
新華網(wǎng)推出的“新華智云”平臺是一個典型的例子,該平臺運用了人工智能生成內(nèi)容技術(shù)來自動生成科普視頻內(nèi)容。比如,“新華智云”曾推出的一系列關(guān)于火星探測的視頻,不僅展現(xiàn)了火星的地貌,還通過人工智能生成內(nèi)容技術(shù)模擬了火星車的探測過程,為觀眾提供了一個身臨其境的體驗,極大地提升了科普的效果。
1.2 虛擬主播與講解
嗶哩嗶哩上的虛擬主播“洛天依”是人工智能生成內(nèi)容技術(shù)應用的一個成功案例。利用深度學習算法,洛天依能夠用自然語言進行科學知識的講解。比如,在一個關(guān)于“宇宙起源”的視頻中,她通過生動的語言和擬人化的表達方式解釋了大爆炸理論、恒星演化等復雜的天文學知識。虛擬主播不僅提高了視頻的互動性,還通過其個性化和高度擬真的形象吸引了大量年輕觀眾。
1.3 數(shù)據(jù)可視化
騰訊新聞的“天文頻道”常采用人工智能生成內(nèi)容技術(shù)進行數(shù)據(jù)可視化展示,這在解釋復雜科學現(xiàn)象時尤為有效。例如,在報道一次新的黑洞發(fā)現(xiàn)時,騰訊新聞利用人工智能生成內(nèi)容技術(shù)生成了詳細的黑洞光盤模擬圖和X射線光譜圖。這些高質(zhì)量的可視化內(nèi)容使得觀眾能夠更直觀地理解科學現(xiàn)象和研究結(jié)果。
1.4 個性化科普內(nèi)容
科大訊飛的“AI小助手”是人工智能生成內(nèi)容技術(shù)在個性化科普內(nèi)容方面的代表應用。該應用根據(jù)用戶的興趣和學習進度,利用人工智能生成內(nèi)容技術(shù)動態(tài)生成個性化的科普視頻內(nèi)容。例如,對于中小學生,系統(tǒng)可能生成淺顯易懂的動畫版黑洞介紹,視頻中用通俗的語言和簡單的圖案來解釋復雜的科學概念;而對于科學愛好者,則會推送更專業(yè)深入的講解視頻,詳細探討黑洞的物理特性、空間與時間的扭曲等專業(yè)知識。這種個性化的內(nèi)容推薦不僅提高了學習效果,還顯著提升了用戶體驗和滿意度。
2 人工智能生成內(nèi)容在天文科普視頻中的技術(shù)實現(xiàn)
人工智能生成內(nèi)容在視頻中的應用離不開計算機技術(shù)的支持,計算機技術(shù)在人工智能生成內(nèi)容中主要用于圖像生成與處理、視頻編輯等,讓生成的內(nèi)容更具視覺吸引力[2]。
2.1 圖像生成
生成對抗網(wǎng)絡(GAN)和裝飾板(DALLE)的圖像生成技術(shù),根據(jù)文本描述,生成高質(zhì)量的圖像。例如,裝飾板是一種變體自回歸模型,可以生成高度符合文本描述的圖片,其實現(xiàn)方法包括:
①文本編碼:將輸入的文本描述轉(zhuǎn)化為特征向量。②圖像生成:通過解碼器網(wǎng)絡生成符合文本描述的圖像。③對抗訓練:使用生成對抗網(wǎng)絡的方式,通過生成器和判別器的對抗訓練,提高生成圖像的逼真度和一致性。
2.2 圖像處理與編輯
圖像處理與編輯技術(shù)用于生成視頻內(nèi)容或?qū)ΜF(xiàn)有視頻進行編輯。例如,深度視頻肖像(Deep Video Portraits)技術(shù)能夠?qū)崿F(xiàn)虛擬角色的視頻生成,通過捕捉真人的動作和表情,生成逼真的虛擬講解員視頻。其實現(xiàn)方法包括:
①動作捕捉:使用攝像頭捕捉真人的面部表情和動作。②生成網(wǎng)絡:通過神經(jīng)網(wǎng)絡模型,將捕捉到的動作應用到虛擬角色上,生成動態(tài)視頻。③后期處理:對生成的視頻進行優(yōu)化和渲染,提高視頻質(zhì)量和自然度。
2.3 生成對抗網(wǎng)絡
生成對抗網(wǎng)絡由生成器和判別器組成,通過相互對抗訓練,使生成器生成的內(nèi)容越來越逼真。風格生成對抗網(wǎng)絡(StyleGAN)和大生成對抗性網(wǎng)絡(BigGAN)是其中的成熟技術(shù),它們被廣泛應用于高質(zhì)量圖像和視頻生成。其實現(xiàn)方法包括:
①生成器訓練:生成器通過隨機噪聲輸入生成圖像。②判別器訓練:判別器對生成的圖像進行真?zhèn)闻袛?,給予反饋。③對抗訓練:生成器和判別器交替訓練,生成器不斷提高生成圖像的質(zhì)量,使判別器越來越難以分辨真實圖像和生成圖像。④風格轉(zhuǎn)移:通過風格生成對抗網(wǎng)絡,可以進行圖像的風格轉(zhuǎn)移,生成多樣化的圖像風格,提升視覺表現(xiàn)力。
3 生成對抗網(wǎng)絡在科普視頻創(chuàng)作中的優(yōu)勢
3.1 提升內(nèi)容創(chuàng)作效率
傳統(tǒng)的科普視頻制作通常需要長時間的準備、拍攝和后期制作,而生成對抗網(wǎng)絡技術(shù)則能夠大大縮短這一過程。通過自動化工具,創(chuàng)作者可以在短時間內(nèi)完成從腳本到成品視頻的制作流程。這種高效性對于科普創(chuàng)作的普及和推廣具有重要意義[3]。
3.2 降低創(chuàng)作門檻
過去,制作高質(zhì)量的科普視頻往往需要專業(yè)的天文知識和視頻制作技能。而生成對抗網(wǎng)絡技術(shù)的出現(xiàn),使得即便是非專業(yè)人士,也能夠參與到科普視頻的創(chuàng)作中來。這不僅擴大了創(chuàng)作者的群體,也使得更多優(yōu)質(zhì)內(nèi)容得以傳播。
3.3 增強視頻的互動性和趣味性
通過虛擬主播、動態(tài)生成內(nèi)容等生成對抗網(wǎng)絡技術(shù),科普視頻能夠提供更具互動性和趣味性的觀影體驗。觀眾可以根據(jù)自己的需求和興趣,實時調(diào)整視頻內(nèi)容,甚至參與到內(nèi)容的生成過程中。這種互動性大大提升了觀眾的參與感和學習效果[4]。
3.4 科學性與視覺效果的平衡
科普視頻在追求科學嚴謹?shù)耐瑫r,也需要兼顧視覺效果的吸引力[5]。生成對抗網(wǎng)絡技術(shù)通過物理模擬、數(shù)據(jù)可視化等手段,使得復雜的天文現(xiàn)象得以以科學、真實且觀賞性強的方式呈現(xiàn)出來。這種平衡對于增強科普視頻的傳播效果至關(guān)重要。
4 國內(nèi)生成對抗網(wǎng)絡文生視頻產(chǎn)品
4.1 華為盤古大模型
盤古大模型是華為開發(fā)的基于深度學習的系列大模型,覆蓋了多模態(tài)任務。盤古視頻(Pangu Video)是其中的視頻生成模塊。依托華為在自然語言處理和計算機視覺領(lǐng)域的技術(shù)積累,該模型結(jié)合了語言理解和視頻合成技術(shù),能夠根據(jù)復雜的文本描述生成多樣化的高質(zhì)量視頻。
4.2 百度文心一格
文心一格是百度基于文心大模型開發(fā)的多模態(tài)生成模型,能夠從文本生成圖片和視頻。該模型結(jié)合了大規(guī)模預訓練模型的強大語言理解能力和圖像、視頻生成能力,生成的視頻細節(jié)豐富、風格多樣,且可根據(jù)不同輸入生成定制化內(nèi)容。 生成時長通常為幾秒到數(shù)十秒的視頻,適合短視頻制作,但由于模型的靈活性較強,也可以生成更長的視頻。
4.3 騰訊混元助手(AIDE)
混元助手是騰訊推出的大型人工智能模型,具備多模態(tài)生成能力,包括從文本生成圖像和視頻的功能。該模型基于騰訊在自然語言處理和視覺計算領(lǐng)域的深厚積累,能有效生成復雜場景下的動畫視頻或?qū)憣嵰曨l,適用于多種行業(yè)需求。生成時長可以從幾秒到數(shù)分鐘不等。模型可以根據(jù)輸入的文本復雜度和用戶需求,生成不同長度的視頻,較長的敘事性視頻可能需要更多的生成時間和計算資源。
4.4 阿里巴巴 M6
阿里巴巴M6大模型是超大規(guī)模的多模態(tài)生成模型,具備圖像和視頻生成能力。M6結(jié)合了阿里巴巴的自然語言處理和視覺生成技術(shù),特別適合電商領(lǐng)域的產(chǎn)品視頻展示和廣告生成。此外,該模型還能根據(jù)用戶需求生成創(chuàng)意視頻,提升品牌推廣的視覺效果。
5 生成對抗網(wǎng)絡在科普視頻中的挑戰(zhàn)
5.1 技術(shù)的局限性
盡管生成對抗網(wǎng)絡技術(shù)在內(nèi)容生成方面展現(xiàn)了巨大的潛力,但目前仍存在一些技術(shù)局限。例如,生成的虛擬主播在表現(xiàn)復雜情感和細微表情時,仍然無法與真人相媲美。此外,生成內(nèi)容的科學性和準確性仍然依賴于輸入數(shù)據(jù)的質(zhì)量,若數(shù)據(jù)存在偏差,可能導致誤導性內(nèi)容的產(chǎn)生。
5.2 倫理與版權(quán)問題
生成對抗網(wǎng)絡的廣泛應用也帶來了倫理和版權(quán)問題。自動生成內(nèi)容是否侵犯了原作者的知識產(chǎn)權(quán),以及虛擬人物的肖像權(quán)如何界定,都是需要解決的問題[6]。此外,如何確保生成對抗網(wǎng)絡生成內(nèi)容的真實性和科學性,避免虛假信息的傳播,也成了一個亟待關(guān)注的領(lǐng)域。
5.3 跨學科合作與技術(shù)整合
科普視頻的創(chuàng)作不僅僅依賴于天文學科等相關(guān)領(lǐng)域的知識,還需要計算機科學、藝術(shù)設計等多學科的合作。未來,生成對抗網(wǎng)絡的發(fā)展趨勢之一是更為緊密的跨學科合作,結(jié)合多領(lǐng)域的技術(shù)優(yōu)勢,生成更為豐富和多樣化的科普內(nèi)容。
5.4 內(nèi)容個性化與定制化趨勢
隨著用戶需求的多元化發(fā)展,生成對抗網(wǎng)絡在內(nèi)容個性化方面的潛力將進一步釋放[7]。未來,科普視頻可能不再是“千篇一律”的,而是可以根據(jù)不同用戶的需求和學習進度,實時生成專屬的科普內(nèi)容。這種定制化趨勢將使得科普更加貼近觀眾,提高用戶的學習體驗。
5.5 增強現(xiàn)實與虛擬現(xiàn)實的結(jié)合
生成對抗網(wǎng)絡與增強現(xiàn)實和虛擬現(xiàn)實技術(shù)的結(jié)合,將開辟科普的新天地。例如,通過沉浸式體驗,觀眾可以“身臨其境”地探索宇宙,感受天文現(xiàn)象的震撼。這不僅提高了科普視頻的吸引力,也為天文學的教育和傳播提供了全新的視角。
6 結(jié)語
生成對抗網(wǎng)絡技術(shù)的興起為科普視頻創(chuàng)作帶來了前所未有的機遇和挑戰(zhàn)。它不僅提高了內(nèi)容生產(chǎn)的效率,降低了創(chuàng)作門檻,還為科普內(nèi)容的表現(xiàn)形式注入了更多的創(chuàng)新可能性。中國的領(lǐng)先人工智能公司,如百度、華為、騰訊和阿里巴巴,已在生成對抗網(wǎng)絡科普視頻創(chuàng)作領(lǐng)域做出了重要貢獻。盡管在技術(shù)、倫理和跨學科合作等方面仍面臨諸多挑戰(zhàn),但隨著技術(shù)的不斷發(fā)展和完善,生成對抗網(wǎng)絡必將在科普領(lǐng)域發(fā)揮越來越重要的作用。
引用
[1] 劉明亮.人工智能生成內(nèi)容(AIGC)技術(shù)特征及應用場景分析[J].信息記錄材料,2023,24(10):234-236.
[2] 趙宇.人工智能生成內(nèi)容(AIGC)在虛擬現(xiàn)實交互影像中的應用與探索[J].現(xiàn)代電影技術(shù),2023(8):59-64.
[3] 姜莎,趙明峰,張高毅.生成式人工智能(AIGC)應用進展淺析[J].移動通信,2023,47(12):71-78.
[4] 胡冬梅,雷桐.AIGC:影視內(nèi)容生產(chǎn)的變革動能[J].科技傳播,2023(21):101-105.
[5] 寧蔚然.AIGC對影視實踐教學的教育應用與展望[J].教育進展,2023,13(12):10130-10135.
[6] 劉海明,陶鵬輝.媒體數(shù)字內(nèi)容AIGC版權(quán)實踐的模仿倫理:爭議、界限與原則[J].新聞愛好者,2024(7):27-31.
[7] 楊敏然,張新興,陶榮湘.現(xiàn)狀與趨勢:國內(nèi)人工智能生成內(nèi)容(AIGC)研究透視[J].圖書館理論與實踐,2024(2):56-65.
作者簡介:肖疆(1994—),男,重慶人,碩士,助理館員,就職于上海天文館(上??萍拣^分館)。