陳星潼
ChatGPT作為首批可以與用戶在廣泛主題里進(jìn)行令人較為信服對話的人工智能生成模型,自2022年11月上線以來,引起了國內(nèi)外各行各業(yè)的高度關(guān)注。僅兩月內(nèi),ChatGPT的月活躍用戶數(shù)已達(dá)1億,是史上用戶數(shù)增長最快的消費(fèi)者應(yīng)用。
在學(xué)術(shù)出版領(lǐng)域,ChatGPT已經(jīng)成為合著作者,出現(xiàn)在了多篇發(fā)表的論文和預(yù)印本中。ChatGPT在學(xué)術(shù)寫作中的作用引發(fā)了廣泛爭議,有學(xué)者認(rèn)為它是提升效率、簡化流程的高效工具,也有學(xué)者認(rèn)為其對作者身份的完整性構(gòu)成威脅。包括《自然》《科學(xué)》在內(nèi)的期刊為此更新了規(guī)則,國內(nèi)部分刊物也對此發(fā)表了聲明,限制ChatGPT作為作者署名。而在我國,包括百度在內(nèi)的科技公司已經(jīng)聲明,也將推出類似工具。因此,關(guān)注并思考這一主題具有現(xiàn)實(shí)意義。本文探索新一代人工智能與出版深度融合進(jìn)程中存在的潛在風(fēng)險和應(yīng)用前景,為后續(xù)研究提供參考。
ChatGPT是由美國OpenAI公司開發(fā)的會話語言模型。它集成了自然語言處理的各種能力,包括問答、講故事、邏輯推理、代碼調(diào)試等。GPT是生成式預(yù)訓(xùn)練(Generative Pre-Training)的縮寫,其發(fā)展主要得益于近年來大規(guī)模語言模型(Large Language Model,LLM)的發(fā)展。這些模型使用語言模型(Language Model,LM)對大規(guī)模數(shù)據(jù)進(jìn)行訓(xùn)練,并構(gòu)建巨大的神經(jīng)網(wǎng)絡(luò)模型。語言模型是一種自監(jiān)督的文本信號, 旨在基于上述上下文預(yù)測下一個單詞的概率。其起源于GPT-3,是InstructGPT的后續(xù)模型。2018年6月,OpenAI發(fā)表論文《通過生成式預(yù)訓(xùn)練加強(qiáng)語言理解》,首次介紹了自己的語言模型GPT-1。它在深度學(xué)習(xí)模型Transformer架構(gòu)上, 使用了內(nèi)含幾十億個文本文檔的超大規(guī)模語言資料庫進(jìn)行訓(xùn)練,參數(shù)量為1.17億。2019年2月,升級版GPT-2發(fā)布,模型參數(shù)達(dá)到15億,且訓(xùn)練模型的數(shù)據(jù)庫也更大。2020年, 規(guī)模達(dá)1750億參數(shù)的GPT-3誕生?;诨ヂ?lián)網(wǎng)包含大規(guī)模的文本數(shù)據(jù),通過不斷地增加數(shù)據(jù)、增加模型大小,模型的能力不斷提升;通過指令微調(diào)、代碼訓(xùn)練以及強(qiáng)化學(xué)習(xí)等[1],其高級思維能力出現(xiàn)了跨越式的增長, 產(chǎn)生了思維鏈 (Chain-of-Thought,CoT)能力和涌現(xiàn)能力(Emergent Ability)。它具備連續(xù)對話、上下文理解、用戶意圖捕捉,以及敢于質(zhì)疑的能力,在寫郵件、翻譯、編寫代碼等各項應(yīng)用上的表現(xiàn)令人印象深刻。2023年3月14日,OpenAI發(fā)布GPT-4。其不僅可以對文本進(jìn)行處理和分析,還可以處理圖像、音頻和視頻等多種模態(tài)的數(shù)據(jù), 且在對話交互和情感分析方面有了進(jìn)一步提升。
以ChatGPT代表的人工智能大模型被認(rèn)為是實(shí)現(xiàn)人工通用智能(AGI)的可能方法。當(dāng)前,布局大規(guī)模智能模型已成為全球引領(lǐng)性趨勢。 除了ChatGPT這樣的語言理解類生成模型,還有圖片生成、代碼生成、音頻生成、視頻生成等多種類別。
2023年1月,美國89%的大學(xué)生注冊并使用ChatGPT做作業(yè), 部分學(xué)生借助ChatGPT完成的論文獲得了授課老師的最高評價等級?!蹲匀弧冯s志報道稱,一些科學(xué)家已經(jīng)在使用聊天機(jī)器人作為研究助手——幫助組織他們的思維、產(chǎn)生對工作的反饋、協(xié)助編寫代碼和總結(jié)研究文獻(xiàn)。由于一些預(yù)印本和發(fā)表的文章已經(jīng)把ChatGPT作為署名作者之一, 關(guān)于ChatGPT等人工智能工具能否署名引起了廣泛關(guān)注。 鑒于軟件不能對出版物承擔(dān)有意義的責(zé)任,不能為其工作主張知識產(chǎn)權(quán),許多大型出版機(jī)構(gòu)對此紛紛更新了收稿要求, 禁止或限制撰稿人使用類似ChatGPT的人工智能工具。在國內(nèi),包括《天津師范大學(xué)學(xué)報(基礎(chǔ)教育版)》《暨南學(xué)報(哲學(xué)社會科學(xué)版)》等期刊也在第一時間做出更新。
出版商或編輯部的聲明只能從道德層面來約束作者行為,而從實(shí)際看,ChatGPT及其他生成式人工智能的廣泛應(yīng)用可能對科技出版提出以下挑戰(zhàn):
1.識別難度巨大。雖然計算機(jī)程序(如Microsoft Word和Grammarly)多年來一直包含自動文本編輯功能,例如檢查拼寫和語法,但這些程序并非旨在創(chuàng)建內(nèi)容。新興的生成式人工智能為研究倫理和研究誠信提出了重要問題,尤其是在傳統(tǒng)的抄襲檢測軟件對其失靈的情況下。ChatGPT能夠在不添加其他想法的情況下, 使用程序來改寫句子,從而減少被視作抄襲的百分比,這顯然是違反學(xué)術(shù)誠信的行為。已有研究表明,使用ChatGPT生成的研究摘要,基本可以通過抄襲檢測器、AI輸出檢測器和人工審查員的檢查[2]。在一項研究中,ChatGPT撰寫的50篇文章中,有40篇表現(xiàn)出令人矚目的原創(chuàng)水平[3]。為了回應(yīng)科學(xué)出版界的擔(dān)憂,OpenAI宣布訓(xùn)練了一個分類器來區(qū)分人類和AI作者,但目前分類器的效果還有待提升[4]。對于期刊編輯而言,未來如何保證來稿的原創(chuàng)性將是一個難點(diǎn)。
2.虛假內(nèi)容泛濫。由于對話型人工智能沒有解釋和理解內(nèi)容的能力, 它經(jīng)常會自動生成并不存在的參考文獻(xiàn)。因此,ChatGPT生成的手稿可能具有誤導(dǎo)性——基于不可信或完全虛構(gòu)的來源。 正如ChatGPT的創(chuàng)建者所承認(rèn)的那樣:“ChatGPT有時會寫出看似合理但不正確或荒謬的答案?!比斯ぶ悄苷Z言機(jī)器人無法理解新信息、產(chǎn)生見解或深入分析,這將極大影響論文的質(zhì)量。ChatGPT寫出的文本甚至可能會欺騙審稿人和讀者, 導(dǎo)致錯誤信息的大量積累,可能會帶來重大的社會危害。
3.偏見與有害信息尚存。ChatGPT是在大量現(xiàn)有文本數(shù)據(jù)上進(jìn)行訓(xùn)練的, 這意味著它可能會從訓(xùn)練數(shù)據(jù)中繼承偏見和刻板印象。在其預(yù)訓(xùn)練數(shù)據(jù)中,92.647%的數(shù)據(jù)為英文,而中文僅占據(jù)0.099%,對于其他語言和文化,可能會生成偏見和不當(dāng)內(nèi)容。同時,由于ChatGPT是一種功能強(qiáng)大的人工智能技術(shù),它可能被惡意利用,造成嚴(yán)重的安全隱患,產(chǎn)生法律風(fēng)險。
在科技期刊編輯出版過程中,ChatGPT及生成式人工智能有著廣闊的應(yīng)用前景,具體如下:
1.選題策劃。一方面,使用ChatGPT等工具,在適當(dāng)提示詞引導(dǎo)的情況下,可以對不同的概念和想法進(jìn)行類比,并可能產(chǎn)生創(chuàng)造性的聯(lián)系, 生成有啟發(fā)性和創(chuàng)意性的內(nèi)容,為策劃???gòu)思主題等提供新路徑。另一方面,通過其開展信息抽取、知識圖譜構(gòu)建,能夠?qū)δ骋活I(lǐng)域的知識進(jìn)行完整掃描分析,并從中發(fā)現(xiàn)可能的前沿方向。
2.編輯加工。第一,ChatGPT等新一代人工智能工具可以提供語言潤色和語法檢查服務(wù),由于其基于海量語言訓(xùn)練,行文邏輯清晰、用語較為準(zhǔn)確,可以為編校工作提供幫助;第二,其可以協(xié)助期刊編輯檢查實(shí)驗報告與數(shù)據(jù)、美化圖表,提升編輯效率。
3.傳播推送。優(yōu)秀成果展示也是科技期刊的使命和服務(wù)內(nèi)容之一。利用生成式人工智能工具,可以基于期刊論文,自動生成定制化、高水平的推廣內(nèi)容。例如,適用于不同社交平臺推廣的文案、富有吸引力的郵件、基于稿件內(nèi)容制作的圖像與視頻、 適用于不同年齡段讀者的科普文案,從而豐富傳播路徑,擴(kuò)大期刊的影響面。
4.閱讀體驗。中文科技期刊的國際化、數(shù)字化轉(zhuǎn)型升級,首先要突破語言隔閡。目前,僅通過摘要翻譯模式,很難提升中文科技期刊的國際影響力。 由于受母語遷移的影響和英語水平的限制, 國內(nèi)科技期刊的摘要翻譯良莠不齊。通過ChatGPT等工具,可開啟類似科技學(xué)術(shù)期刊外文版工程的全文翻譯工程, 甚至探索同時刊發(fā)多種語言版本的新出版模式, 讓中國科技期刊更加靈活快速地在國際舞臺展現(xiàn)風(fēng)采。
5.讀者服務(wù)。ChatGPT可以基于上下文信息,生成與用戶意圖相匹配的多輪回答,增強(qiáng)會話交互模式下的用戶體驗。如將大模型基于期刊語料庫進(jìn)行二次預(yù)訓(xùn)練,可以使其在工作場景中成為“代言人”,極大暢通與作者、審稿人、讀者的交流渠道,解決溝通不及時的問題。
對于ChatGPT和生成式人工智能這樣的技術(shù)浪潮,既不能過于擔(dān)心、一禁了之,也不能毫不擔(dān)心、放之任之。我們必須未雨綢繆、趨利避害。為此,筆者提出以下建議。
1.從國家層面,應(yīng)規(guī)范生成式人工智能的發(fā)展和應(yīng)用。我國近年把人工智能作為戰(zhàn)略性新興產(chǎn)業(yè),并且重視其中的倫理規(guī)范問題, 國家新一代人工智能治理專業(yè)委員會出臺了《新一代人工智能治理原則——發(fā)展負(fù)責(zé)任的人工智能》和《新一代人工智能倫理規(guī)范》等文件。面對新技術(shù)的沖擊, 一要修訂《網(wǎng)絡(luò)安全法》《數(shù)據(jù)安全審計法》等已有互聯(lián)網(wǎng)法律法規(guī),明確生成式AI技術(shù)和應(yīng)用中涉及政治、民族、宗教和互聯(lián)網(wǎng)等相關(guān)的法律底線和紅線問題,明確“可為”與“不可為”的范圍和內(nèi)容;二要加快生成式AI知識產(chǎn)權(quán)保護(hù)研究, 明確人工智能生成的數(shù)字內(nèi)容知識產(chǎn)權(quán)與數(shù)據(jù)權(quán)益保護(hù)規(guī)則, 建立大模型產(chǎn)出物的內(nèi)容審定和版權(quán)界定標(biāo)準(zhǔn); 三要推進(jìn)生成式AI內(nèi)容監(jiān)控平臺建設(shè),加強(qiáng)對生成式AI應(yīng)用的內(nèi)容監(jiān)管和監(jiān)控,對以生成式AI為技術(shù)手段的新型網(wǎng)絡(luò)欺騙、 網(wǎng)絡(luò)詐騙等違法違規(guī)行為加快、加重處罰,維護(hù)人工智能產(chǎn)業(yè)健康生態(tài)。
2.從期刊層面,應(yīng)審慎探索出版領(lǐng)域人工智能實(shí)踐。一要針對人工智能工具, 提前制定學(xué)術(shù)規(guī)章制度, 按照“允許人工智能提升研究論文可讀性,但不能取代作者完成關(guān)鍵任務(wù)”的原則,規(guī)范作者來稿;二要探索建立人工智能寫作識別和懲戒機(jī)制, 積極應(yīng)用新一代抄襲檢測工具,將檢測重點(diǎn)從相似性檢查轉(zhuǎn)移到驗證內(nèi)容來源上;三要大力推動人工智能應(yīng)用,在期刊經(jīng)營管理、數(shù)據(jù)整合、資源平臺、安全防護(hù)等方面,運(yùn)用新一代人工智能做好國際交流和科研引領(lǐng)工作。
3.從編輯層面,應(yīng)積極主動提升數(shù)字素養(yǎng)。雖然“Chat-GPT取代編輯”的新聞標(biāo)題滿天飛,但真正取代編輯崗位的并非人工智能, 而更可能是其他善于使用人工智能的人。因此,作為期刊編輯,一要樹立終身學(xué)習(xí)的思維觀念,以積極包容的心態(tài)了解并學(xué)習(xí)新一代人工智能工具,創(chuàng)新應(yīng)用場景,將其應(yīng)用于采編、策劃、科研工作中,推進(jìn)人機(jī)融合,大力推動科技期刊的數(shù)字化轉(zhuǎn)型;二要跟進(jìn)了解國內(nèi)外人工智能前沿發(fā)展,洞悉新一代人工智能工具可能帶來的對編輯崗位職責(zé)的沖擊和安全風(fēng)險問題,牢牢把握新時代我國科技期刊的本質(zhì)屬性與出版規(guī)律,為提升學(xué)術(shù)引領(lǐng)貢獻(xiàn)力量。
雖然國內(nèi)的科技期刊界至今還未受到ChatGPT的明顯沖擊,但生成式人工智能的顛覆式創(chuàng)新終將波及這一行業(yè)。我們不必“妖魔化”或過高估計ChatGPT,但仍需未雨綢繆,擇善而從。新技術(shù)的應(yīng)用如水,宜通不宜堵,宜順不宜逆,相信通過科技出版同仁的不懈努力,生成式人工智能及其應(yīng)用將成為提升我國科技期刊出版智能化水平的重要工具,在建設(shè)世界一流科技期刊的道路上,更好地推動科學(xué)研究和科技傳播的百花齊放。