AI圖像生成技術(shù)在公共圖書館的應(yīng)用與思考

2024-12-04 00:00:00朱云琪趙慎安

新世紀(jì)圖書館 2024年10期

摘要圖像生成技術(shù)是當(dāng)前多模態(tài)人工智能生成的關(guān)鍵中轉(zhuǎn)點(diǎn)，在公共圖書館有著巨大的應(yīng)用潛力。公共圖書館需要與時俱進(jìn)，抓住這一歷史機(jī)遇，圍繞新技術(shù)拓寬已有的思路，為讀者提供更高質(zhì)量、更富有創(chuàng)意的服務(wù)內(nèi)容。論文以Stable Diffusion等平臺所帶來的AI繪畫浪潮為例，簡要介紹其關(guān)鍵技術(shù)；通過對海內(nèi)外圖像生成平臺的使用調(diào)研，并結(jié)合已有的實(shí)踐經(jīng)驗(yàn)，探索圖書館可能的應(yīng)用場景，分析其落地要求和潛在風(fēng)險。，以期為公共圖書館在AI技術(shù)賦能下進(jìn)一步擴(kuò)大公共服務(wù)的競爭力、改善日常業(yè)務(wù)水平提供經(jīng)驗(yàn)借鑒。

關(guān)鍵詞人工智能生成內(nèi)容；圖像生成技術(shù)；公共圖書館

分類號 G250

DOI 10.16810/j.cnki.1672-514X.2024.10.008

Application and Thinking of AI Image Generation Technology in Public Libraries

Zhu Yunqi， Zhao Shen’an

Abstract Image generation technology performs a key intermediate point in current multi-modal artificial intelligence generation， demonstrating enormous potential for application in public libraries. Public libraries need to keep up with the times， seize this historical opportunity， broaden existing ideas around new technologies， and provide readers with higher quality and more creative service content. This article briefly introduces the key technologies involved in the AI painting wave brought about by platforms such as Stable Diffusion. By conducting research on the use of image generation platforms both domestically and internationally， and combining existing practical experience， this study explored the possible application scenarios of libraries and analysed both implementation requirements and potential risks. This paper can provide experience and reference for public libraries to further expand their competitiveness in public services and improve their daily service level under the empowerment of AI technology.

Keywords Artificial intelligence generated content. Image generation technology. Public library.

2022年末，隨著OpenAI公司的ChatGPT發(fā)布，生成式AI浪潮席卷了世界各行各業(yè)。人們紛紛在自己的領(lǐng)域?qū)で驛IGC（AI-Generated Content，人工智能生成內(nèi)容）的應(yīng)用可能性。以ChatGPT為代表的大模型、多模態(tài)、強(qiáng)交互的生成式AI技術(shù)，通過對已有數(shù)據(jù)進(jìn)行學(xué)習(xí)和模式識別，能夠以適當(dāng)?shù)姆夯芰ι上嚓P(guān)內(nèi)容，造就了新一代的內(nèi)容生成模式[1]。

圖像生成作為AIGC的重要能力之一，是“多模態(tài)融合驅(qū)動”[2]的關(guān)鍵中轉(zhuǎn)點(diǎn)。但目前公共圖書館界缺乏對圖像生成領(lǐng)域的實(shí)踐方案研究。本文從閉源與開源兩種商業(yè)模式的比較入手，探討了圖書館應(yīng)用AI圖像生成技術(shù)功能的可行方案，并通過對開源平臺Stable Diffusion（以下簡稱SD）的實(shí)踐研究，討論了AI圖像生成技術(shù)在公共圖書館的潛在應(yīng)用場景。研究表明，AI除了能為圖書館提供海量的美術(shù)資源外，還是未來公共圖書館“智慧化”發(fā)展的關(guān)鍵支撐技術(shù)，其應(yīng)用范圍涵蓋了讀者服務(wù)、館員創(chuàng)作、數(shù)據(jù)加工、虛擬現(xiàn)實(shí)等。公共圖書館應(yīng)該建立與之配套的工作團(tuán)隊(duì)和管理制度，為隨之而來的風(fēng)險與挑戰(zhàn)做好準(zhǔn)備。

1 AI圖像生成技術(shù)在圖書館的落地方案

目前AI生成服務(wù)的產(chǎn)品方案可分為閉源和開源兩種商業(yè)模式。閉源模式是由科技廠商布署在自己的私有化服務(wù)器上向用戶提供服務(wù)，用戶無法了解其模型算法細(xì)節(jié)并根據(jù)具體業(yè)務(wù)場景自由微調(diào)。開源模式以SD為代表，能夠在任意配備了消費(fèi)級顯卡的計(jì)算機(jī)上方便、快速地部署本地服務(wù)。

1.1 閉源與開源方案

自2020年起，DALL-E系列以及MidJourney的陸續(xù)推出，用戶可以選擇大平臺廠商提供的付費(fèi)使用方案[3]，證明了當(dāng)前生成式大模型已具備商業(yè)化運(yùn)營的可能?？萍季揞^的技術(shù)積累雄厚，但缺點(diǎn)在于價格高昂。以百度“文言一格”為例，最基礎(chǔ)出圖價格為0.25元/幅，而小平臺的每日免費(fèi)額度則非常寬裕（如Draft），售價也只有0.16元/幅（如“造夢日記”）。因此，大平臺勝在語義理解能力、圖文映射的契合度以及泛化表現(xiàn)非常好，缺點(diǎn)在于價格偏高，而中小平臺雖然較之使用成本低，但使用門檻較高、出圖效果仍有一定差距。

值得一提的是，有相當(dāng)一部分中小型平臺（如“造夢日記”、Draft等）選擇對開源的SD架構(gòu)進(jìn)行改良，并集成大量插件功能，提供自己獨(dú)有的風(fēng)格模型。2022年Stability AI開源了旗下的NovelAI，宣告了SD的誕生。該模型使用的是改良的Latent Diffusion模型，核心原理是通過模擬擴(kuò)散過程，將噪聲圖像逐漸轉(zhuǎn)化為目標(biāo)圖像。整個模型計(jì)算復(fù)雜度較低，在高分辨率任務(wù)下出圖效果較好，并支持多模態(tài)訓(xùn)練[4]。盡管如此，SD也因其提示詞編制的學(xué)習(xí)門檻高，存在易上手但難精通的缺陷。開源的SD之所以能叫板閉源的商業(yè)大模型，源于其凝聚了全世界開源社區(qū)開發(fā)者的集體智慧。大量開發(fā)者在社區(qū)上傳自己微調(diào)和定制的預(yù)訓(xùn)練模型、功能拓展插件，支撐著SD模型生態(tài)的不斷優(yōu)化。微調(diào)和預(yù)訓(xùn)練模型是其獲得成功的關(guān)鍵技術(shù)。

（1）微調(diào)。微調(diào)需求的出現(xiàn)源自目前大模型的參數(shù)膨脹，巨量參數(shù)帶來益處的同時也導(dǎo)致了模型遷移能力下降。傳統(tǒng)的訓(xùn)練方法無法適應(yīng)這么巨大的模型——既耗時耗“力”，也無法“記住”下游任務(wù)提供的數(shù)據(jù)集[5]。在圖像生成領(lǐng)域，微調(diào)可以在保證原有擴(kuò)散模型泛化能力的基礎(chǔ)上，盡可能擬合出貼近用戶自定義的圖像數(shù)據(jù)，使得生成的圖像更精準(zhǔn)地符合提示詞。微調(diào)的另一個優(yōu)點(diǎn)是耗費(fèi)的算力資源遠(yuǎn)低于全調(diào)。

（2）預(yù)訓(xùn)練模型。預(yù)訓(xùn)練模型是一個用大量數(shù)據(jù)和任務(wù)訓(xùn)練出的通用模型，它是用來理解數(shù)據(jù)集中通用的知識，是下游任務(wù)特化模型的來源與訓(xùn)練基礎(chǔ)。其最大的優(yōu)勢在于，使用預(yù)訓(xùn)練模型可以降低（忽視）訓(xùn)練的成本，用戶在執(zhí)行圖像生成任務(wù)時只需要關(guān)注目標(biāo)數(shù)據(jù)與已有模型的相似程度，從而選擇合適的預(yù)訓(xùn)練模型，而非從頭開始訓(xùn)練、建模[6]。目前在SD平臺解決不同任務(wù)需求最主要的方法就是選擇下載合適的預(yù)訓(xùn)練大模型。

1.2 實(shí)現(xiàn)路線與應(yīng)用脈絡(luò)

目前大部分公共圖書館都處于將AI引入工作流的起步期，AI圖像生成技術(shù)多被用來輔助創(chuàng)作。因此，開源方案在內(nèi)部工作流中具備了上手快、成本低、規(guī)避版權(quán)風(fēng)險、防止信息外泄等優(yōu)勢。一些業(yè)界的研究者已開始探索全面推進(jìn)館所業(yè)務(wù)AI化的解決方案，例如在第七屆未來智慧圖書館發(fā)展論壇上，云瀚聯(lián)盟發(fā)布了云瀚本地大模型應(yīng)用套件[7]。從目前的行業(yè)趨勢來看，一部分圖書館會采取與云瀚聯(lián)盟類似的方式，試圖建立能本地部署且支持靈活配置的行業(yè)標(biāo)準(zhǔn)套件。套件內(nèi)盡可能地集成各種多模態(tài)的開源模型，依靠其擴(kuò)展性強(qiáng)的優(yōu)勢，為廠商、圖書館構(gòu)建AI應(yīng)用領(lǐng)域的合作平臺和技術(shù)社區(qū)，以一種開放的姿態(tài)緊跟AI技術(shù)步伐。另一些則選擇與商業(yè)企業(yè)合作，依靠商業(yè)AI大模型建立自己的應(yīng)用平臺，如國家圖書館與百度達(dá)成的戰(zhàn)略合作協(xié)議，借助“文言一心”大模型落地自己的智能化應(yīng)用[8]。但無論采取何種路線，AI繪畫（文生圖）作為框架中最基礎(chǔ)的功能之一，需要提前布局，盡早將其納入到圖書館整體AI戰(zhàn)略考量中。在圖書館應(yīng)用圖像生成技術(shù)中，短期內(nèi)將主要集中在生成服務(wù)上，輔助館員的文案創(chuàng)作和資源加工，以及對讀者的藝術(shù)教育和訂制服務(wù)。未來公共圖館將應(yīng)用AI生成技術(shù)的視覺呈現(xiàn)，加強(qiáng)館藏資源的廣度和深度開發(fā)，通過虛擬形象設(shè)計(jì)擴(kuò)大和提升服務(wù)的影響力，發(fā)展“智慧圖書館”“元宇宙圖書館” 增強(qiáng)讀者的沉浸式閱讀體驗(yàn)。

2 AI圖像生成技術(shù)在圖書館的生成服務(wù)

SD平臺通過社區(qū)貢獻(xiàn)和微調(diào)、預(yù)訓(xùn)練大模型的加持，應(yīng)用場景不斷被拓寬。因此本文通過調(diào)研已實(shí)現(xiàn)的功能，將其遷移至圖書館中，并以SD為主要生成平臺，嘗試驗(yàn)證業(yè)務(wù)落地的可行性。AI圖像生成技術(shù)在圖書館的應(yīng)用短期內(nèi)將主要集中在生成服務(wù)上，即對部分人力勞動的替代，其中又分為對館員的勞動輔助及對讀者的訂制服務(wù)。

2.1 面向館員的創(chuàng)作輔助

公共圖書館的很多日常工作需要使用美術(shù)資源。如完成文案配圖、展陳設(shè)計(jì)工作時，可以運(yùn)用SD的局部重繪、ControlNet等插件調(diào)整圖像細(xì)節(jié)，輔助館員開展控線、上色、“3渲2”等美術(shù)創(chuàng)作，甚至可利用多模態(tài)模型的文圖互生功能，實(shí)現(xiàn)文案圖片的一條龍配套生成。如圖1所示，上海圖書館已在工作中運(yùn)用AI技術(shù)輔助展陳設(shè)計(jì)的工作。利用類似功能，AI也可被用于視頻的后期制作[9]。

2023年底，SD平臺Stable Video Diffusion模型的開源，讓AI視頻生成得到了極大的普及。該模型以單一圖像為輸入，可以生成無縫、逼真的視頻。目前已經(jīng)可以制作一些實(shí)景、實(shí)物的三維展示短片、動圖[10]。而在其之后，Sora、Gen-2等文生視頻商業(yè)大模型不斷發(fā)布，也讓AI視頻生成真正走向了應(yīng)用階段。AI也成功地解放了圍繞視覺藝術(shù)的閱讀推廣活動設(shè)計(jì)思路，使其不再受出版物配套資源的限制，讓活動方自由地選定主題以開展活動。已有韓國學(xué)者在少兒教學(xué)中作出嘗試，利用ChatGPT和SD制作圖片AI生成系統(tǒng)來快速生成教學(xué)相關(guān)的圖片[11]。

2.2 面向館員的資源加工

資源標(biāo)引是圖書館檢索和利用信息資源的先決條件。圖片數(shù)據(jù)作為圖書館信息資源的重要組成之一，卻由于標(biāo)引標(biāo)準(zhǔn)不一和易受標(biāo)引人員主觀影響的問題，難以對圖片中的時間、人物、出處等信息形成準(zhǔn)確描述。面對這樣的問題，可以利用AI圖像生成技術(shù)中的“圖生文”功能，即“文生圖”的逆向過程，逆向抽取給定圖片的描述（如圖2所示）。該功能在多個繪圖平臺得到支持，例如MidJourney的“describe”命令，SD的CLIP Interrogator等插件。抽取出圖片描述信息后，可以對圖片分類歸檔，實(shí)現(xiàn)基于圖片內(nèi)容的細(xì)粒度檢索，也可用作模型訓(xùn)練數(shù)據(jù)，對外提供智慧服務(wù)。

進(jìn)入數(shù)字化時代，圖書館館藏的老舊圖片（影?。┵Y料需要預(yù)先進(jìn)行高清修復(fù)處理。英偉達(dá)早在2018年就推出了一個基于AI生成的軍人舊相片修復(fù)項(xiàng)目，能從照片的折痕、磨損、破洞中恢復(fù)照片原來的像素矩陣[12]。而在SD平臺，利用發(fā)布的DiffBIR模型可以將低像素的、有鋸齒的圖片轉(zhuǎn)化為相當(dāng)自然的高清像素圖片[13]。圖書館可以依靠這些技術(shù)從館藏的老舊照片中挖掘圖片細(xì)節(jié)，尋找遺失的歷史信息。

2.3 面向讀者的藝術(shù)教育

AI圖像生成可以被用于藝術(shù)教育。例如，有學(xué)者總結(jié)了一套SD提示詞的使用規(guī)范，并以靜物攝影課為例，將生成種子固定后改變?nèi)我鈭雒嬲{(diào)度（Mise-en-scene）描述來直觀感受不同鏡頭語言間所蘊(yùn)含的巨大故事差異[14]。同理，公共圖書館也可以用它來豐富自己的美育活動。例如，2024年上海圖書館東館少兒閱讀區(qū)曾使用適配少兒體驗(yàn)的SD改良界面（圖3）開展過“二月二龍?zhí)ь^”AI畫龍活動。少年兒童可以通過動手調(diào)整不同風(fēng)格、不同元素的圖片輸出，來繪制屬于自己的“龍”，直觀感受傳統(tǒng)民俗與美術(shù)知識。

2.4 面向讀者的文創(chuàng)定制

DALL-E官網(wǎng)曾展示了一個有趣的應(yīng)用場景，即對美術(shù)家維米爾的《帶珍珠耳環(huán)的少女》進(jìn)行擴(kuò)畫（outpainting）。該示例擴(kuò)展了原始圖片的邊界，并盡可能地按照維米爾的風(fēng)格模仿原作的陰影和亮點(diǎn)，生成新的視覺效果，或按提示詞生成新的組件。公共圖書館可以借鑒這一思路，開展更多的針對個人的文創(chuàng)訂制服務(wù)。浙江大學(xué)軟件學(xué)院團(tuán)隊(duì)曾于2020年推出過一款人工智能文創(chuàng)產(chǎn)品定制服務(wù)平臺，提供風(fēng)格遷移技術(shù)，可以將大師作品、非遺藝術(shù)表現(xiàn)在終端用戶的個人照片上[15]。除此以外，利用SD的局部重繪以及擴(kuò)畫等功能，也可以對圖片數(shù)據(jù)進(jìn)行二次創(chuàng)作，添加、補(bǔ)全個性化元素，最后基于POD（按需印刷）服務(wù)，為讀者制作抱枕、文化衫等個性化的文創(chuàng)用品。

3 AI圖像生成技術(shù)在圖書館的視覺呈現(xiàn)

目前來看，AI生成圖像的應(yīng)用優(yōu)勢在于工作效率的提高、創(chuàng)造力的激發(fā)、圖像元素調(diào)整的能力以及成本的大幅降低。更重要的是，AI圖像生成技術(shù)是未來公共圖館發(fā)展“智慧圖書館”“元宇宙圖書館”的基點(diǎn)之一，是公共圖書館業(yè)務(wù)創(chuàng)新的有力工具。AI圖像生成除了可以輔助館員的創(chuàng)作、代替館員的勞動以外，還可進(jìn)一步滿足館內(nèi)的視覺任務(wù)需求，深度介入圖書館的館藏開發(fā)、虛擬形象設(shè)計(jì)以及“元宇宙”未來發(fā)展戰(zhàn)略。

3.1 開發(fā)館藏?cái)?shù)字藏品

AI生成技術(shù)改變了館藏資源開發(fā)的廣度和深度。基于圖像生成技術(shù)，公共圖書館可以更多地圍繞圖書資源（包括獨(dú)特印刷工藝、版式設(shè)計(jì)、書中故事場景人物等）、古籍文物、物理裝置裝飾（包括建筑與其內(nèi)一切有標(biāo)識度的地標(biāo)設(shè)計(jì)，如雕塑、擺件等）開展創(chuàng)意研發(fā)工作。2022年山東省藝術(shù)研究院聯(lián)合濟(jì)南皮影戲傳承人和支付寶“超維空間”，共同推出了國內(nèi)首個由AI打造的數(shù)字皮影藏品[16]。同年6月，百度應(yīng)邀為西安美術(shù)學(xué)院的畢業(yè)展創(chuàng)作了AI數(shù)字藏品[17]。圖書館為了追求文化公益性，擴(kuò)大影響力，更可以提供AI工具，鼓勵讀者對數(shù)字藏品進(jìn)行二次創(chuàng)作，促進(jìn)資源活化利用，反哺數(shù)字藏品的價值增值。

3.2 自建主題生成式大模型

AI大模型的參數(shù)是訓(xùn)練樣本隱藏特征的高度濃縮，常常可以發(fā)現(xiàn)人眼所不能看到的細(xì)節(jié)。圖書館可以將特定領(lǐng)域的藏品（例如所有館藏的某大師作品、具有當(dāng)?shù)靥厣姆沁z藝術(shù)作品等）輸入進(jìn)大模型中，從而訓(xùn)練（或微調(diào)）獲得有針對性生成能力的模型。例如，中央美術(shù)學(xué)院于2024年初發(fā)布了自己的AI繪畫大模型，充分利用了其教學(xué)資源，并博采院內(nèi)前輩的創(chuàng)作理念與美術(shù)技巧，形成了國畫技法、風(fēng)格和特點(diǎn)數(shù)據(jù)庫，以此訓(xùn)練出獨(dú)有的繪畫大模型[18]。

同樣地，對公共圖書館而言，豐富的地方資源也是亟待開拓的沃土。例如，上海圖書館可以將收錄的大量民間年畫作為數(shù)據(jù)，訓(xùn)練得到AI上海年畫生成模型，并使之成為供圖書館活動項(xiàng)目使用的藝術(shù)體驗(yàn)工具。此外，還可作為模型競賽對象，向社會開放訓(xùn)練接口，舉辦生成效果評價比賽，鼓勵公眾利用AI研究館藏文獻(xiàn)資源所蘊(yùn)含的藝術(shù)元素與畫法技巧。

3.3 制作特色虛擬人物形象

為了貼合年輕讀者群體，豐富活動形式，減少人員支出，可以將AI語言生成與圖像生成相結(jié)合，創(chuàng)建符合活動需求的、具有特定風(fēng)格的虛擬數(shù)字人。在此基礎(chǔ)上，還可以利用人像動畫技術(shù)配合語音加以驅(qū)動，讓虛擬數(shù)字人生動起來。典型的有首都圖書館舉辦的“魯迅與首都三館”特展中推出的“AI魯迅”，魯迅的形象和面部表情都通過人工智能復(fù)原，再加上語言模型賦予的“魯迅口吻”，成功地讓讀者有機(jī)會與之來一場跨越時空的交流[19]。

3.4 打造元宇宙空間展呈

生成式AI的成熟，為“元宇宙”這一概念注入了新的發(fā)展動力。AIGC在革命元宇宙、改善沉浸式虛擬體驗(yàn)方面有著巨大的潛力。當(dāng)前，有許多研究嘗試將圖像生成技術(shù)應(yīng)用于元宇宙中，從而代替人類完成諸如虛擬形象與NPC（非玩家角色）設(shè)計(jì)、數(shù)字模型內(nèi)容的創(chuàng)作、虛擬世界擬真等工作。許多學(xué)者正試圖解決虛擬2D-3D人臉轉(zhuǎn)換生成、表達(dá)情感的步態(tài)設(shè)計(jì)、草圖快速生成、以及自動光源、擬真材質(zhì)紋理等問題[20]。因此，AI圖像生成技術(shù)是構(gòu)建未來元宇宙圖書館的重要技術(shù)支撐。目前應(yīng)用大多集中在形象與NPC設(shè)計(jì)上，尤其是在虛擬會展方面，例如2022年上海外國語大學(xué)舉辦的“元宇宙與智慧圖書館”高端學(xué)術(shù)論壇，就同時將會議場所設(shè)置在元宇宙場景中，與會人員需要用AI生成自己的個性化“數(shù)字人”形象[21]。

除元宇宙圖書館外， AI還可以輔助設(shè)計(jì)沉浸式閱讀體驗(yàn)活動，構(gòu)建小型“元宇宙空間”。當(dāng)需要用虛擬現(xiàn)實(shí)進(jìn)行古籍、書籍場景（包含內(nèi)容、創(chuàng)作軼事、來歷說明等）展示時，可以用圖像生成技術(shù)繪制大量非核心要素的3D模型或貼圖素材。例如，新加坡國立圖書館已經(jīng)在館內(nèi)為讀者提供類似虛擬搭建的服務(wù)，可以根據(jù)書籍中的角色、類型、故事等關(guān)鍵詞生成相應(yīng)場景，甚至能為故事添加轉(zhuǎn)折，呈現(xiàn)出不同的面貌，進(jìn)一步增強(qiáng)讀者的閱讀體驗(yàn)。

4 AI圖像生成技術(shù)在圖書館應(yīng)用的實(shí)踐思考

根據(jù)前文提到的短期內(nèi)的應(yīng)用場景，結(jié)合工作中的一些實(shí)踐經(jīng)驗(yàn)，本文提出了在工作制度、“硬件”支持以及合作機(jī)制上的思考。與此同時，AI在圖像生成領(lǐng)域還具有實(shí)踐層面的風(fēng)險，值得圖書館界警惕。

4.1 完善工作制度，保障業(yè)務(wù)正常開展

將AI繪畫納入進(jìn)日常業(yè)務(wù)流程中，需要制度的保障。資源挖掘、設(shè)計(jì)開發(fā)、方案評定、版權(quán)歸屬、以及后續(xù)生成、修改、審核、發(fā)布等各個環(huán)節(jié)都需要建立起標(biāo)準(zhǔn)規(guī)范，以高效、穩(wěn)定地推進(jìn)業(yè)務(wù)。例如，制定使用規(guī)范，合理分配計(jì)算資源，統(tǒng)籌建立使用協(xié)調(diào)機(jī)制；完善審核機(jī)制，采取多輪、多人、AI輔助的原則，排除各類風(fēng)險內(nèi)容生成；引入專家評議機(jī)制，評估AI生成作品的完成度；總結(jié)經(jīng)驗(yàn)，不斷迭代優(yōu)化館員使用說明等。

4.2 培養(yǎng)高水平管理團(tuán)隊(duì)，注重“硬件”支持

AI圖像生成技術(shù)的的硬件門檻并不高。在消費(fèi)級顯卡支持下，任何計(jì)算機(jī)都可以本地部署SD，甚至僅需12G顯存就可實(shí)現(xiàn)模型微調(diào)。其他商業(yè)平臺除了可以訂閱付費(fèi)以外，也都提供了一定的免費(fèi)使用額度，以滿足臨時需求。但更重要的是培養(yǎng)和建立高水平的管理團(tuán)隊(duì)。面對AI領(lǐng)域的技術(shù)更新，館員在日常工作中需要注意提高自己的創(chuàng)造力，在了解館內(nèi)的各類資源特色的基礎(chǔ)上，保持對新技術(shù)的敏感度，在充分發(fā)掘技術(shù)潛力的基礎(chǔ)上打開思路，從多種維度的文化資源入手，快速準(zhǔn)確地找到當(dāng)下讀者復(fù)雜多變的文化需求“痛點(diǎn)”，拓寬AI應(yīng)用場景，創(chuàng)造技術(shù)應(yīng)用的“新跑道”，加強(qiáng)館藏資源利用的廣度與深度。

4.3 建立合作機(jī)制，提升AI的服務(wù)能力

公共圖書館受到外部環(huán)境和技術(shù)進(jìn)步的雙重影響，轉(zhuǎn)型升級壓力比較大，需要開展大量的外部合作。尤其是AI領(lǐng)域，目前一些公共圖書館選擇與高校、科研機(jī)構(gòu)、高新技術(shù)企業(yè)合作，通過學(xué)術(shù)講座、技術(shù)培訓(xùn)、競賽等形式，實(shí)現(xiàn)AI技術(shù)的普及，并進(jìn)一步尋求技術(shù)落地機(jī)會。圖書館應(yīng)該鼓勵員工和讀者體驗(yàn)AI工具，通過使用后的探討來反過來督促合作單位提升AI的服務(wù)能力。但在合作中，也需要摒棄一些“局外人”的思維，避免讓技術(shù)成為裝飾，要注意建立完善的溝通糾錯制度，減少“為展而展”的情況。

4.4 尊重著作權(quán)人權(quán)利，警惕侵權(quán)風(fēng)險

AI圖像生成自誕生之初就伴隨著版權(quán)爭論。目前實(shí)務(wù)中一般判斷版權(quán)存在的前提是不能脫離人的創(chuàng)作介入[22]。國內(nèi)第一起因使用AI生成圖片的著作權(quán)糾紛案（2023京0491民初11279號）的文書也顯示，具備“獨(dú)創(chuàng)性”要件、并體現(xiàn)了人的獨(dú)創(chuàng)性智力投入，才能被認(rèn)定為作品、具有著作權(quán)。同時，由商業(yè)平臺產(chǎn)出的AI作品的著作權(quán)歸屬也非常嚴(yán)格[23]，如“文心一格”的用戶協(xié)議就約定任何產(chǎn)出都?xì)w屬于百度公司。與之相對的是以SD為基礎(chǔ)的開源平臺（包括SD），著作權(quán)則完全歸于用戶——當(dāng)然Stability AI也不承擔(dān)任何相應(yīng)責(zé)任。

此外，除了“著作權(quán)”歸屬爭議以外，其他類型的“侵權(quán)”風(fēng)險也需要警惕。例如全球最大的圖片版權(quán)方蓋蒂（Getty）起訴SD的母公司Stability AI，指控其利用他們旗下的圖片產(chǎn)品進(jìn)行訓(xùn)練[24]。所以為了盡量避免引起紛爭，目前商業(yè)上流行的做法是在使用非開源的圖片集時，直接向版權(quán)所有者購買訓(xùn)練輸入的權(quán)利。公共圖書館在自行訓(xùn)練的時候，同樣需要判斷訓(xùn)練用的圖片是否已經(jīng)開放版權(quán)，是否本館所有，是否符合所購買的數(shù)據(jù)庫的使用協(xié)議等。同理，圖書館需要預(yù)先制定好方案，以應(yīng)對自己的館藏被未經(jīng)授權(quán)地訓(xùn)練，并界定訓(xùn)練模型所產(chǎn)出的作品的版權(quán)等。

4.5 健全AI生成得法，歸避內(nèi)容生成風(fēng)險

影響圖書館的并非只有技術(shù)，背后折射的還有法律、倫理、價值觀上的問題，還需要公共圖書館界早做準(zhǔn)備，注意歸避內(nèi)容風(fēng)險。OpenAI可能會選擇犧牲出圖效果來規(guī)避用戶生成帶有不良信息的、高度吻合他人作品構(gòu)圖的、侵犯他人肖像權(quán)的圖片，如DALL-E 3會完全屏蔽包含有近100年內(nèi)藝術(shù)家作品風(fēng)格的提示詞。此外，當(dāng)前的生成算法還有可能生成一些令人不適的元素，所以在業(yè)務(wù)中必須做到與讀者的“隔離”——例如在即時業(yè)務(wù)場景中使用UI界面等方式，人為制造與讀者見面的“時間差”（見前文AI畫龍活動）。另外，公共圖書館也需要保護(hù)自己的形象以免被惡意嫁接其他元素以生成不宜的圖像。

5 結(jié)語

本文在考察了國內(nèi)外主流AI圖像生成平臺的基礎(chǔ)上，分析并提出了有代表性的應(yīng)用場景和圖書館建設(shè)需求。通過調(diào)查與實(shí)踐研究，現(xiàn)階段AI圖像生成技術(shù)已經(jīng)可以提高圖書館日常工作的效率，并在可視的未來進(jìn)一步擴(kuò)大公共服務(wù)的競爭力、改善日常業(yè)務(wù)水平。公共圖書館需要重視AI圖像生成技術(shù)的發(fā)展?jié)摿?，從團(tuán)隊(duì)、制度、合作上建立合格的保障制度，不斷深入挖掘特色館藏與文化資源，從而設(shè)計(jì)富有創(chuàng)意和文化內(nèi)涵的活動和產(chǎn)品。最后，本文討論了新技術(shù)的部分局限和風(fēng)險，公共圖書館需為此盡快布局，制定相應(yīng)預(yù)案以應(yīng)對后續(xù)風(fēng)險挑戰(zhàn)，以確保圖書館充分利用新技術(shù)優(yōu)勢，發(fā)揮自身的專長。

參考文獻(xiàn)：

馬樂存，詹希旎，朱齊宇，等.AIGC驅(qū)動的GLAM數(shù)智融合創(chuàng)新發(fā)展研究[J].農(nóng)業(yè)圖書情報(bào)學(xué)報(bào)，2023，35（5）：4-15.

蔡子凡，蔚海燕.人工智能生成內(nèi)容（AIGC）的演進(jìn)歷程及其圖書館智慧服務(wù)應(yīng)用場景[J].圖書館雜志，2023，42（4）：34-43，135-136.

BORJI A. Generated faces in the wild： quantitative comparison of stable diffusion， midjourney and dall-e 2[J]. arXiv preprint arXiv：2210.00586， 2022.

YANG L， ZHAN Z， SONG Y， et al. Diffusion models：a comprehensive survey of methods and applications[J]. arXiv preprint arXiv：2209.00796， 2022.

林令德，劉納，王正安.Adapter與Prompt Tuning微調(diào)方法研究綜述[J].計(jì)算機(jī)工程與應(yīng)用，2023，59（2）：12-21.

ZHOU C， LI Q， LI C， et al. A comprehensive survey on pretrained foundation models： a history from bert to chatgpt[J]. arxiv preprint arxiv：2302.09419， 2023.

教育裝備采購網(wǎng).第七屆未來智慧圖書館發(fā)展論壇暨第二十屆數(shù)智圖書館前沿問題高級研討會隆重開幕[EB/OL].[2024-06-04].https：//www.caigou.com.cn/news/202405274.shtml.

國家圖書館.國家圖書館與百度開展戰(zhàn)略合作“文心一言”助力館藏文化資源活化[EB/OL].[2024-06-04].https：//www.nlc.cn/web/dsb_zx/gtxw/20230905_2635873.shtml.

邊鈺.未來影視行業(yè)，一定會有AI的身影？[N].四川日報(bào)，2023-07-21（009）.

BLATTMANN A， DOCKHORN T， KULAL S， et al. Stable video diffusion： scaling latent video diffusion models to large datasets[J]. arxiv preprint arxiv：2311.15127， 2023.

LEE S H， SONG K S. Exploring the possibility of usingChatGPT and Stable Diffusion as a tool to recommendpicture materials for teaching and learning[J]. Journalof the Korea Society of Computer and Information， 2023， 28（4）： 209-216.

LIU G， REDA F A， SHIH K J， et al. Image inpainting for irregular holes using partial convolutions[C]//Proceedings of the European conference on computer vision （ECCV）. 2018： 85-100.

LIN X， HE J， CHEN Z， et al. Diffbir： Towards blindimage restoration with generative diffusion prior[J]. arxiv preprint arxiv：2308.15070， 2023.

DEHOUCHE N， DEHOUCHE K. What’s in a text-to-image prompt？ The potential of stable diffusion in visual arts education[J]. Heliyon， 2023.

軟件學(xué)院.浙大軟件學(xué)院學(xué)子作品“想定”斬獲中國設(shè)計(jì)智造大獎，亮相杭州文博會[EB/OL].[2024-06-04].http：//www.cst.zju.edu.cn/2020/1124/c36202a2220275/page.htm.

蘇銳.文化科技融合迎來“創(chuàng)新表達(dá)”[N].中國文化報(bào)，2022-01-18（007）.

李洋.“度曉曉”高考作文對人工智能的拷問[N].中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào)，2022-06-13（003）.

新華網(wǎng).央美發(fā)布AI大模型，助力藝術(shù)與科技產(chǎn)業(yè)升級[EB/OL].[2024-06-04].http：//www.xinhuanet.com/tech/20240115/67befc73040442478469e4ccfe8dc16a/c.html.

首圖快訊.北京城市圖書館四大特色爆款，亮相“5.19中國旅游日”北京分會場[EB/OL].[2024-06-04].https：//www.clcn.net.cn/news/default/detail？id=3364.

QIN H X， HUI P. Empowering the metaverse with generative ai： Survey and future directions[C]//2023 IEEE 43rd International Conference on Distributed Computing Systems Workshops （ICDCSW）. IEEE， 2023： 85-90.

陳彬.國內(nèi)圖書館界元宇宙會議上演“首秀”[EB/OL].[2024-06-04]. https：//news.sciencenet.cn/htmlnews/2022/12/490853.shtm.

劉琳.人工智能生成成果的法律定性：以著作權(quán)法與專利法的異質(zhì)性為視角[J].科技與法律（中英文），2022（3）：93-99.

趙凱.版權(quán)、倫理與價值觀審核：人工智能生成內(nèi)容（AIGC）對編輯職業(yè)能力的新挑戰(zhàn)[J].科技與出版，2023（8）：62-68.

Matt O’Brien. Photo giant Getty took a leading AI image-maker to court. Now it’s also embracing the technology[EB/OL].[2024-06-04]. https：//apnews.com/article/getty-images-artificial-intelligence-ai-image-generator-stable-diffusion-a98eeaaeb2bf13c5e8874ceb6a8ce196.

朱云琪上海圖書館（上?？茖W(xué)技術(shù)情報(bào)研究所）館員。上海，201204。

趙慎安上海圖書館（上?？茖W(xué)技術(shù)情報(bào)研究所）館員。上海，201204。

（收稿日期：2024-01-11 編校：劉明）

新世紀(jì)圖書館2024年10期

新世紀(jì)圖書館的其它文章: 《國際圖聯(lián)趨勢報(bào)告（2024版）》發(fā)布; 南京圖書館藏孤本《藏山稿外編》考述; 南京圖書館藏《金箱薈說》抄本述略; 越南紙本文獻(xiàn)保護(hù)現(xiàn)狀的調(diào)研與思考; 近代中國民營圖書流通事業(yè)論略; 非遺數(shù)字資源從元數(shù)據(jù)到語義知識圖譜一體化構(gòu)建

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

AI圖像生成技術(shù)在公共圖書館的應(yīng)用與思考