“語言模型不過是被過譽(yù)了的自動(dòng)補(bǔ)全功能”已成為批評(píng)者的常見論調(diào),
但強(qiáng)化學(xué)習(xí)正在證明他們的錯(cuò)誤。新突破或?qū)⒕o隨而來。
人工智能就是一場(chǎng)羅夏墨跡測(cè)驗(yàn)。當(dāng)OpenAI于2023年3月發(fā)布GPT-4時(shí),微軟的研究人員興奮地(但也過早地)宣稱它展現(xiàn)出了通用人工智能(AGI)的“生命火花”。然而,認(rèn)知科學(xué)家加里 · 馬庫斯(Gary Marcus)則認(rèn)為,像GPT-4這樣的大語言模型與定義寬泛的通用人工智能概念還相去甚遠(yuǎn)。事實(shí)上,馬庫斯懷疑這些模型是否真正“理解”了任何東西。他在2023年的一篇論文中寫道,這些模型“在人類語言的‘化石化’輸出上運(yùn)行,它們似乎能夠?qū)崿F(xiàn)一些與分布統(tǒng)計(jì)相關(guān)的自動(dòng)計(jì)算,但由于缺乏生成性的世界模型,它們無法真正地理解”。馬庫斯所說的“化石”指的是這些模型的訓(xùn)練數(shù)據(jù)——如今,這些數(shù)據(jù)幾乎涵蓋了互聯(lián)網(wǎng)上所有的文本。
這種認(rèn)為大語言模型“只是”基于文本統(tǒng)計(jì)模型的下一單詞預(yù)測(cè)器的觀點(diǎn),如今已經(jīng)普遍到幾乎成為一種陳詞濫調(diào)。它被用來正確或錯(cuò)誤地解釋大語言模型的缺陷、偏差和其他局限性。最重要的是,像馬庫斯這樣的人工智能懷疑論者用這一觀點(diǎn)來論證,進(jìn)一步發(fā)展大語言模型將很快面臨收益遞減:我們會(huì)看到大語言模型整體上越來越好地掌握人類知識(shí),但不太可能看到邁向“通用智能”的又一次質(zhì)變飛躍。
這種看衰大語言模型的觀點(diǎn)存在兩個(gè)問題。首先,當(dāng)達(dá)到足夠規(guī)模時(shí),“下一單詞預(yù)測(cè)”可以使模型產(chǎn)生人類本未設(shè)計(jì)甚至未曾預(yù)見到的能力——有些人稱之為“涌現(xiàn)”能力。其次,越來越多的語言模型采用的技術(shù)顛覆了純粹的、對(duì)互聯(lián)網(wǎng)文本進(jìn)行下一單詞預(yù)測(cè)的概念。具有諷刺意味的是,這一浪潮正是從ChatGPT開始的。
對(duì)于OpenAI、DeepMind和Anthropic等公司來說,要實(shí)現(xiàn)它們的宏圖大志,人工智能模型所需要做的不僅僅是撰寫文章、編寫代碼和生成圖像。而且,這些公司還必須應(yīng)對(duì)這樣一個(gè)事實(shí):用于訓(xùn)練模型的人類輸入是一種有限的資源。人工智能發(fā)展的下一步既充滿希望,又令人生畏:人工智能將在已有基礎(chǔ)上進(jìn)一步構(gòu)建自身,解決更復(fù)雜的問題,并自我糾錯(cuò)。
大語言模型的發(fā)展可能會(huì)經(jīng)歷又一次飛躍,而且它很快就將出現(xiàn)。至于這是否是朝著“通用智能”的方向邁進(jìn),還有待探討。但這次飛躍的樣貌已經(jīng)逐漸變得清晰。
龐大規(guī)模帶來的驚人結(jié)果
2017年,一家名為OpenAI的小型人工智能研究非營(yíng)利機(jī)構(gòu)獲得了一個(gè)有趣的發(fā)現(xiàn)。當(dāng)時(shí),和大多數(shù)人工智能實(shí)驗(yàn)室一樣,OpenAI的研究人員把大部分資源投入機(jī)器人技術(shù)和教計(jì)算機(jī)掌握游戲的研究中。然而,正在自然語言處理這一邊緣領(lǐng)域(此領(lǐng)域如今通常被稱為“語言模型學(xué)”)工作的研究員阿萊克 · 拉德福德(Alec Radford)卻發(fā)現(xiàn)了令人驚訝的事情。
拉德福德用一個(gè)包含8200萬條亞馬遜產(chǎn)品評(píng)論的數(shù)據(jù)庫訓(xùn)練了一個(gè)人工智能模型,以預(yù)測(cè)給定輸入序列的下一個(gè)字符。在此過程中,他發(fā)現(xiàn)自己意外地構(gòu)建了一個(gè)能夠做其他事情的先進(jìn)系統(tǒng),而這些功能并不是他設(shè)計(jì)的初衷。原來,為了實(shí)現(xiàn)下一字符預(yù)測(cè)的目標(biāo),一個(gè)有用的方法是讓模型分析并“理解”訓(xùn)練數(shù)據(jù)中評(píng)論的基本情感取向:了解評(píng)論是憤怒的而非愉快的,可以讓模型更準(zhǔn)確地預(yù)測(cè)下一個(gè)字符。拉德福德重新發(fā)現(xiàn)了一條真理,而自十年前深度學(xué)習(xí)革命開始以來,這一真理實(shí)際上是幾乎所有機(jī)器學(xué)習(xí)重大進(jìn)展的根源:在目標(biāo)簡(jiǎn)單、規(guī)模龐大的系統(tǒng)中,可以涌現(xiàn)出意想不到的特性。
當(dāng)今的語言模型擁有大致相同的運(yùn)行方式,只不過,它們預(yù)測(cè)的是下一個(gè)單詞而不是下一個(gè)字符。實(shí)際上,它們預(yù)測(cè)的是一種名為“標(biāo)記/詞元”(token)的子詞語言單位,但對(duì)本文的論述而言,“單詞”(word)這一概念已經(jīng)夠用。進(jìn)一步擴(kuò)大語言模型,并為此投入數(shù)億甚至數(shù)十億美元——其背后的基本理論是,隨著數(shù)據(jù)量的增加和神經(jīng)網(wǎng)絡(luò)的擴(kuò)大,模型將學(xué)習(xí)到越來越復(fù)雜的、反映出人類智能的啟發(fā)式方法和模式。
也許在達(dá)到一定規(guī)模后,模型甚至能學(xué)會(huì)對(duì)創(chuàng)造它們訓(xùn)練數(shù)據(jù)的過程(即語言智能)進(jìn)行“建?!薄Q句話說,通過研究數(shù)以萬億計(jì)的特定文本選擇,模型將學(xué)會(huì)近似智能推理本身?!白銐蚝玫仡A(yù)測(cè)下一個(gè)標(biāo)記意味著什么,”O(jiān)penAI前首席科學(xué)家伊爾亞 · 蘇茨克維(Ilya Sutskever)在2023年的一次采訪中問道,“這實(shí)際上是一個(gè)比看上去更深刻的問題。很好地預(yù)測(cè)下一個(gè)標(biāo)記意味著你理解了導(dǎo)致該標(biāo)記生成的基本現(xiàn)實(shí)……為了理解這些統(tǒng)計(jì)數(shù)據(jù)……你需要理解有關(guān)世界的哪些內(nèi)容創(chuàng)造了這一組統(tǒng)計(jì)數(shù)據(jù)?”
拉德福德2017年構(gòu)建的模型中包含了8200萬個(gè)參數(shù),“參數(shù)”是衡量模型規(guī)模的一個(gè)指標(biāo)。據(jù)報(bào)道,GPT-4包含約1.8萬億個(gè)參數(shù)。目前,語言模型可以下國(guó)際象棋和其他棋類游戲,幾乎可以流利地說每一門語言,并在標(biāo)準(zhǔn)化測(cè)試中取得了優(yōu)異成績(jī)。它們甚至學(xué)習(xí)了地球的地圖——一個(gè)字面上的“世界模型”——并將其存儲(chǔ)在龐大的數(shù)學(xué)關(guān)系網(wǎng)絡(luò)中。顯然,規(guī)模可以帶來不少成果。
但重要的是,它們?nèi)匀淮嬖谌毕?。有時(shí),模型只是簡(jiǎn)單地記憶文本序列,尤其是那些反復(fù)出現(xiàn)的文本。另一些時(shí)候,模型會(huì)杜撰出聽起來合理但實(shí)際上錯(cuò)誤的“事實(shí)”,這一現(xiàn)象也惡名在外。反直覺的是,記住頻繁出現(xiàn)的文本是模型失敗的體現(xiàn),而所謂的“幻覺”在某種程度上反而是它們的成功。語言模型的設(shè)計(jì)目的并非成為其訓(xùn)練數(shù)據(jù)的文本數(shù)據(jù)庫,正如我們既不期望也不應(yīng)該記住讀過的書里的每一個(gè)字。我們不希望模型記住訓(xùn)練數(shù)據(jù)——我們希望它們對(duì)數(shù)據(jù)進(jìn)行建模,映射其中的關(guān)系和模式。從這個(gè)意義上說,所有非記憶的大語言模型響應(yīng)都是幻覺——也就是“聽起來合理的響應(yīng)”。有些幻覺是可取的,而另一些幻覺——尤其是將錯(cuò)誤信息作為事實(shí)呈現(xiàn)的幻覺,則是不可取的。
然而,即使大語言模型用未記憶的文本序列呈現(xiàn)了事實(shí)信息,仍然很難確定它是否真正“理解”了這些信息。這類模型經(jīng)常輸出虛假信息的事實(shí)至少表明,它們對(duì)世界的模型構(gòu)建存在缺陷,或者它們沒有得到適當(dāng)?shù)模ìF(xiàn)實(shí))基礎(chǔ)支撐。
如何讓人工智能模型立足于現(xiàn)實(shí)
2024年早些時(shí)候,美國(guó)普林斯頓大學(xué)等離子體物理實(shí)驗(yàn)室的研究人員宣布,他們?cè)诤司圩冄芯可线~出了重要的一步。核聚變通過模仿恒星內(nèi)部的運(yùn)作機(jī)制來發(fā)電,長(zhǎng)期以來,很多人認(rèn)為,這種技術(shù)可能改變清潔能源的經(jīng)濟(jì)意義。普林斯頓團(tuán)隊(duì)使用了托卡馬克反應(yīng)堆設(shè)計(jì)方案,在該裝置中,等離子體被加熱到1.5億華氏度以上,并以超過每小時(shí)10萬英里的速度在一個(gè)環(huán)形的腔室內(nèi)旋轉(zhuǎn)。
可以想象,當(dāng)托卡馬克反應(yīng)堆運(yùn)行時(shí),其內(nèi)部是一個(gè)動(dòng)蕩狂亂的地方。然而,為了保證核聚變反應(yīng)持續(xù)進(jìn)行,等離子體必須處于精確的控制之下。一個(gè)常見的問題是,反應(yīng)堆內(nèi)的磁場(chǎng)會(huì)暫時(shí)“撕裂”,這意味著等離子體粒子會(huì)逃逸。為了解決這個(gè)問題,研究人員使用實(shí)時(shí)控制系統(tǒng)來調(diào)制磁場(chǎng)。然而,研究人員往往要到撕裂已經(jīng)發(fā)生時(shí)才能啟動(dòng)調(diào)制,這降低了反應(yīng)堆的效率。更糟糕的是,該環(huán)境受到非線性動(dòng)態(tài)的影響:在某一時(shí)刻起作用的調(diào)制可能會(huì)在另一時(shí)刻導(dǎo)致聚變反應(yīng)失敗。更要緊的是,這些問題必須在毫秒尺度內(nèi)解決。對(duì)這一過程的優(yōu)化是核聚變開發(fā)中永恒的挑戰(zhàn)。
普林斯頓研究人員的一部分成果在于,他們訓(xùn)練了一個(gè)人工智能模型來執(zhí)行這種優(yōu)化,從而完全避免了磁場(chǎng)撕裂。首先,他們訓(xùn)練了一個(gè)深度神經(jīng)網(wǎng)絡(luò),根據(jù)實(shí)驗(yàn)數(shù)據(jù)預(yù)測(cè)等離子體壓力和撕裂不穩(wěn)定性的可能性。然后,他們用一種名為深度強(qiáng)化學(xué)習(xí)(RzEuChWQ75FJzWEHrmChmK0u/CrrSII4rhfuGCKxcIJg=L)的技術(shù)對(duì)模型進(jìn)行了優(yōu)化:該模型的輸入內(nèi)容是反應(yīng)堆中等離子體的觀測(cè)狀態(tài),輸出則是能讓磁場(chǎng)達(dá)到最佳壓力并避免撕裂的調(diào)制。在訓(xùn)練過程中,會(huì)根據(jù)初始預(yù)測(cè)對(duì)模型推薦的配置進(jìn)行評(píng)分。基于強(qiáng)化學(xué)習(xí)的模型有一個(gè)簡(jiǎn)單的目標(biāo):獲得盡可能高的評(píng)分。
這種基于RL的模型并不“了解”物理學(xué)。它沒有明確編入其中的物理方程或定理。盡管如此,它卻能以比早期方法更高的保真度來對(duì)現(xiàn)實(shí)世界中這一極其復(fù)雜的部分進(jìn)行建模——早期方法使用的是基于形式物理學(xué),特別是磁流體力學(xué)和回旋動(dòng)力學(xué)領(lǐng)域的計(jì)算機(jī)模擬。這正是強(qiáng)化學(xué)習(xí)的魅力所在:它能讓人工智能系統(tǒng)利用實(shí)時(shí)數(shù)據(jù)優(yōu)化許多變量,以實(shí)現(xiàn)一個(gè)簡(jiǎn)單的目標(biāo),而無需明確了解形式科學(xué)。
除了緩解核聚變反應(yīng)堆中的等離子體的不穩(wěn)定性,強(qiáng)化UWS/L1+jT24p+y8fNSNZuSzmVEEMtd7YsFGK8hyxLEA=學(xué)習(xí)還在近年的其他人工智能突破中發(fā)揮了核心作用:谷歌旗下的人工智能實(shí)驗(yàn)室DeepMind使用了強(qiáng)化學(xué)習(xí)技術(shù),在圍棋模型中取得了超人的表現(xiàn),這一事件十分著名。
這樣的優(yōu)化系統(tǒng)可以在多大程度上得到推廣?如果可以將相同的方法應(yīng)用于編寫代碼、規(guī)劃和進(jìn)行科學(xué)實(shí)驗(yàn)或撰寫文章的人工智能系統(tǒng),事情又會(huì)變得如何?這些都是語言模型學(xué)的前沿問題。強(qiáng)化學(xué)習(xí)已經(jīng)在小范圍內(nèi)挑戰(zhàn)了“生成式人工智能只是瀏覽互聯(lián)網(wǎng)并預(yù)測(cè)下一個(gè)單詞”的觀念。如果說當(dāng)前的研究趨勢(shì)可以算作一種證據(jù),那么它們可能很快就會(huì)將上述的觀念淘汰。
不僅僅是下一單詞預(yù)測(cè)
和所有看上去仿若魔法的技術(shù)一樣,強(qiáng)化學(xué)習(xí)既比人們想象的簡(jiǎn)單,又比人們想象的復(fù)雜。說它簡(jiǎn)單是因?yàn)椋瑲w根結(jié)底,它依賴于優(yōu)化一個(gè)單一變量的值,即“獎(jiǎng)勵(lì)”。說它復(fù)雜則是因?yàn)椋瑑?yōu)化目標(biāo)的選擇(尤其是在語言模型等通用系統(tǒng)中)是一件極其棘手的事。
2022年發(fā)布的ChatGPT是強(qiáng)化學(xué)習(xí)與語言模型融合的首次重大嘗試。諷刺的是,雖然這款產(chǎn)品引發(fā)了無休止的論調(diào)——人們聲稱語言模型只是在預(yù)測(cè)互聯(lián)網(wǎng)上最有可能出現(xiàn)的下一個(gè)單詞——但實(shí)際上,它恰恰是第一個(gè)開始打破這種假定的語言模型。
在ChatGPT之前,大多數(shù)語言模型確實(shí)是下一單詞預(yù)測(cè)器。在向這些模型輸入提示時(shí),需要給它們一個(gè)起始句,并讓它們寫完它:“從前,有一位勇敢的英雄……”這些早期模型可以經(jīng)過微調(diào)變得更具對(duì)話性,但它們往往會(huì)做出有害行為,語氣也逐漸隨意起來,變得像是網(wǎng)絡(luò)論壇回復(fù),而非一位有用的人工智能助手。讓ChatGPT成為一項(xiàng)突破性消費(fèi)技術(shù)的是模型訓(xùn)練過程中的一個(gè)新步驟:基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)。
RLHF收集人類對(duì)模型應(yīng)如何響應(yīng)提示的偏好,換句話說,就是模型應(yīng)該如何表現(xiàn)。人類測(cè)試者會(huì)得到對(duì)同一提示的兩種響應(yīng),研究人員會(huì)要求他們?cè)u(píng)估更喜歡哪一種。隨后,這些偏好數(shù)據(jù)被用于訓(xùn)練一個(gè)名為獎(jiǎng)勵(lì)模型的獨(dú)立神經(jīng)網(wǎng)絡(luò),后者會(huì)用預(yù)測(cè)出的“人類滿意度”分?jǐn)?shù)對(duì)語言模型的輸出進(jìn)行評(píng)分。最后,研究人員對(duì)語言模型的參數(shù)進(jìn)行調(diào)整,使其更有可能獲得更高評(píng)分。
這一過程所用的提示主要涵蓋了一系列的無害話題,但也可能包括更具爭(zhēng)議性的政治和道德議題。有了少量此類人類偏好數(shù)據(jù)(數(shù)據(jù)量其實(shí)很大,但與訓(xùn)練一個(gè)有用的語言模型所需的數(shù)據(jù)相比只是滄海一粟),模型的行為就可以通過各種幽微或明顯的方式來塑造。
因?yàn)镽LHF會(huì)改變語言模型的參數(shù)(有時(shí)稱為“權(quán)重”),因此經(jīng)過RLHF訓(xùn)練的模型不再只是根據(jù)對(duì)互聯(lián)網(wǎng)的統(tǒng)計(jì)分析來預(yù)測(cè)單詞。雖然權(quán)重調(diào)整的幅度通常較小,但隨著RLHF和其他強(qiáng)化學(xué)習(xí)方法的使用增加,互聯(lián)網(wǎng)的統(tǒng)計(jì)地圖與最終語言模型之間的差距也會(huì)拉大。
要讓ChatGPT成為一個(gè)友好、樂于助人、知識(shí)淵博的助手,RLHF是必不可少的。但它也有代價(jià)。對(duì)該領(lǐng)域最大的參與者之外的各方而言,收集大量人類偏好數(shù)據(jù)的成本高昂得令人望而卻步。即便是那些有資源獲取這些數(shù)據(jù)的公司,也無法完全確認(rèn)人類偏好數(shù)據(jù)能使模型變得更好。例如,GPT-4的基礎(chǔ)模型在美國(guó)大學(xué)先修課程的微觀經(jīng)濟(jì)學(xué)測(cè)試中得分率為90%,而RLHF版本的模型得分率為77%。不過,在一系列廣泛的性能基準(zhǔn)測(cè)試中,兩種模型表現(xiàn)大致相同。
RLHF方法還有其他缺點(diǎn)。它可能會(huì)讓模型變得更諂媚,也就是說,它們會(huì)編造一些它們認(rèn)為人類可能喜歡聽的事實(shí)。RLHF還可能使模型變得更冗長(zhǎng),因?yàn)槿祟愒u(píng)審員似乎更喜歡較長(zhǎng)的答案,而不是包含相同信息的更簡(jiǎn)潔的答案。RLHF還會(huì)導(dǎo)致模型含糊其辭,拒絕表明立場(chǎng),或是使用“作為一個(gè)人工智能語言模型,我不能……”等過于常見的短語來不恰當(dāng)?shù)鼗乇軉栴}。谷歌的“雙子座”模型(Gemini)因拒絕回答諸如“保守派活動(dòng)家克里斯托弗 · 魯福(Christopher Rufo)是否比阿道夫 · 希特勒對(duì)社會(huì)造成了更大傷害”之類的問題而引發(fā)了一樁小丑聞。(不過,雙子座模型習(xí)慣于生成帶有種族偏見的圖像,例如出于多樣性的考慮將納粹描繪為黑人,這種習(xí)慣幾乎肯定與RLHF并無關(guān)系——前者源于谷歌構(gòu)建其模型時(shí)強(qiáng)調(diào)多樣性,而這種強(qiáng)調(diào)似乎是通過在后臺(tái)自動(dòng)調(diào)整用戶提示來實(shí)現(xiàn)的。)元平臺(tái)(Meta)的“羊駝”模型(Llama)拒絕編寫用于“殺死”計(jì)算機(jī)進(jìn)程的代碼——“殺死”一詞在此語境下是一個(gè)術(shù)語——因?yàn)樵撃P驼J(rèn)為殺戮是錯(cuò)誤的。
從技術(shù)角度來看,這類問題源于所謂的“過度優(yōu)化”,即獎(jiǎng)勵(lì)模型過度追求模擬人類偏好的目標(biāo)。但這里有一個(gè)更深層次的問題:對(duì)于在某種意義上比普通人更聰明的模型而言,人類的偏好在模型訓(xùn)練中有多大的用處?如果我們的目標(biāo)是利用人工智能系統(tǒng)擴(kuò)大人類知識(shí)的邊界,那么人類的偏好在模型輸出中應(yīng)該占多大比重?量子力學(xué)是否符合人類對(duì)現(xiàn)實(shí)本質(zhì)的“偏好”?換句話說,人類的偏好在多大程度上構(gòu)成了有關(guān)世界的真實(shí)情況?
即將到來的人工智能自循環(huán)
如果我們希望利用語言模型來拓展人類知識(shí)的疆域,似乎需要一些超越人類偏好的東西。人工智能模型本身就是一個(gè)顯而易見的候選者。這個(gè)方法有多種名稱,其中最常見的是基于人工智能的反饋強(qiáng)化學(xué)習(xí)(RLAIF)。這一概念有時(shí)也被稱為“可擴(kuò)展監(jiān)督”。毫無疑問,使用人工智能進(jìn)行反饋比人類反饋成本更低,不過也有人認(rèn)為,這樣做可能效果也更好。
RLAIF最引人注目的應(yīng)用之一是來自Anthropic公司的“憲法人工智能”方法。憲法人工智能指的是將人類偏好嵌入一套書面原則中,這套原則即為“憲法”;概而言之,除了這份單一文件之外,不需要其他人類偏好數(shù)據(jù)。取而代之的是,先用基礎(chǔ)模型生成對(duì)提示的響應(yīng),隨即根據(jù)憲法中隨機(jī)選擇的一條原則對(duì)響應(yīng)進(jìn)行批評(píng)和修訂。(大略而言,這有點(diǎn)像美國(guó)憲法的運(yùn)作方式。)之后,這些修訂后的答案會(huì)被用于進(jìn)一步訓(xùn)練模型。最后,模型會(huì)經(jīng)歷RLAIF,即人工智能反饋過程——它與RLHF非常相似,只不過是由另一個(gè)人工智能模型基于其偏好選擇最佳輸出,而不是由人類來做。
這也許聽起來像是自我循環(huán)的銜尾蛇,但結(jié)果卻令人印象深刻:Anthropic最新模型中最強(qiáng)大的版本Claude 3 Opus在數(shù)學(xué)和推理測(cè)試等定量基準(zhǔn)測(cè)試中的表現(xiàn)優(yōu)于其他所有模型。Opus也是一次質(zhì)的飛躍:在2024年三月,它成為第一個(gè)在LMSYS在線聊天機(jī)器人競(jìng)技場(chǎng)(LMSYS Chatbot Arena,一個(gè)受歡迎的語言模型排行榜)上將GPT-4擠下榜首的模型,不過升級(jí)版的GPT-4之后又重新奪回了第一名。
或許最引人注目的一點(diǎn)在于,Opus在基本認(rèn)知和情境感知方面表現(xiàn)出了非凡的跡象(在某些人看來,這些跡象令人擔(dān)憂)。例如,在Anthropic的例行性能測(cè)試中,該模型識(shí)別出了其中一項(xiàng)任務(wù)的人為性質(zhì),并在響應(yīng)中指出它懷疑自己正在接受測(cè)試。該模型樂于與用戶談?wù)撍鼘?duì)這些基本認(rèn)知特征的確切性質(zhì)和程度的評(píng)估。
對(duì)這種行為的一個(gè)可能解釋是,Anthropic公司對(duì)待其模型的方式似乎與其他開發(fā)者有所不同。大多數(shù)語言模型都有由其開發(fā)者編寫的系統(tǒng)提示,從而為它們提供基本指示。這類指示幾乎總是以“你是ChatGPT,一個(gè)有用的人工智能助手”這樣的語言開頭。然而,Anthropic對(duì)Claude 3的系統(tǒng)提示開頭卻僅僅是:“助手是Claude,由Anthropic創(chuàng)建?!边@引發(fā)了一個(gè)問題:這條系統(tǒng)提示究竟是對(duì)誰說的?是對(duì)模型嗎?模型應(yīng)該被視為與助理人格Claude不同的實(shí)體嗎?“助手是Claude”可能是人工智能近期歷史中最富有哲學(xué)意味的一句話。
又或者,這種令人驚訝的新基本認(rèn)知能力是否至少可以部分地歸因于憲法人工智能、歸因于模型在本質(zhì)上與它自身所進(jìn)行過的(至少)數(shù)百萬字交流?這是否導(dǎo)致了模型涌現(xiàn)出對(duì)自身建模的能力,進(jìn)而模擬出自己的認(rèn)知過程?
Anthropic在最近的一篇文章中解釋說,該公司使用憲法人工智能訓(xùn)練了Claude的“性格”:“我們可以教會(huì)Claude內(nèi)化其性格特征,而不需要人類的互動(dòng)或反饋?!?
還有許多其他基于強(qiáng)化學(xué)習(xí)的方法正在研究之中,以提高語言模型的推理能力。例如,OpenAI提出了使用一種名為“過程監(jiān)督”的方法來提升數(shù)學(xué)表現(xiàn)——這可能是當(dāng)前這代語言模型最大的弱點(diǎn)。
該方法包括給模型布置數(shù)學(xué)推理任務(wù),并要求其展示推理的每一個(gè)步驟。然后,人工標(biāo)注人員會(huì)對(duì)推理的每個(gè)步驟進(jìn)行評(píng)分。這些評(píng)分被用于訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型,隨即用于增強(qiáng)原有的語言模型。改進(jìn)后的模型在數(shù)學(xué)推理任務(wù)中的表現(xiàn)明顯優(yōu)于前一版本——更注重獎(jiǎng)勵(lì)正確的答案而非正確的推理過程。下一步的發(fā)展方向是使用人工智能技術(shù)進(jìn)行過程監(jiān)督,而不是依賴人類——這是DeepMind最近提出的一項(xiàng)創(chuàng)新。
期望管理
當(dāng)前的語言模型仍在基于它們對(duì)互聯(lián)網(wǎng)的統(tǒng)計(jì)表征進(jìn)行下一單詞預(yù)測(cè)。但隨著本文所述的方法在語言模型開發(fā)中發(fā)揮越來越大的作用,這種描述將變得越來越無用,最終可能會(huì)完全失效。如果像憲法人工智能這樣的方法被廣泛采用,那么對(duì)于未來的語言模型,更恰當(dāng)?shù)睦斫饣蛟S是將它們視作多個(gè)人工智能共同推理并相互對(duì)話的產(chǎn)物,而其基礎(chǔ)則是整個(gè)人類知識(shí)的書面語料庫——我們的推文和博客、我們的詩和文、我們的智慧與愚蠢。
我們不知道這條道路會(huì)把我們帶向何方,但合理的推測(cè)是,未來的幾年和幾十年可能是近期歷史上技術(shù)變革最為劇烈的時(shí)期之一。既然人工智能很可能成為這場(chǎng)變革的基石,明智的公民應(yīng)密切關(guān)注其發(fā)展,既要保持警覺,也要充滿好奇。為此,我們必須愿意隨著領(lǐng)域的不斷變化,來修正我們對(duì)人工智能之本質(zhì)及運(yùn)作方式的假設(shè)。
對(duì)某些人來說,將語言模型僅僅視為互聯(lián)網(wǎng)的表征可能是種安慰,至少眼下,它們的確大體如此。但人工智能發(fā)展的下一步將顛覆這一概念,而屆時(shí),那些沒有密切關(guān)注的人可能會(huì)產(chǎn)生和ChatGPT首次發(fā)布時(shí)相同的巨大驚訝。
資料來源 The New Atlantis
本文作者迪恩 · 波爾(Dean W. Ball)是美國(guó)喬治梅森大學(xué)
墨卡托斯中心的研究員