文_王卓爾
陳光
1978 年6 月出生,北京郵電大學人工智能學院副教授,主要研究方向是模式識別與機器學習,目前主要研究自然語言處理,在國際高水平期刊和學術(shù)會議發(fā)表論文數(shù)十篇,主持和參與多項國家自然科學基金、重點研發(fā)計劃等國家級項目。其創(chuàng)辦的微博賬號“愛可可-愛生活”,聚焦人工智能主題,以專業(yè)的學術(shù)品味、廣闊的領(lǐng)域視野、敏銳的業(yè)界觀察、豐富優(yōu)質(zhì)的資源推薦,為廣大人工智能、機器學習和數(shù)據(jù)科學愛好者所熟悉和喜愛。
陳光的一天,以分享論文始,以分享論文終。從2014年開始,每天早上5點左右,他會先在自己的微博“@愛可可-愛生活”上發(fā)布國內(nèi)外行業(yè)內(nèi)值得推薦的論文、觀點或動態(tài)。很多關(guān)注他的粉絲一大早打開微博,多半會被他刷屏。晚上10 點,他還要把近期分享過的50 條重點信息整理在一篇文章中。在微信公眾號上,他每天詳細摘錄5篇論文的主要內(nèi)容,提煉要點,總結(jié)可借鑒的方法。
盡管在社交平臺很活躍,有著近82萬粉絲,但陳光并非全職的信息共享博主。他的主職是在北京郵電大學人工智能學院擔任副教授,主研機器學習與文本計算方向。2000年,在陳光剛讀北郵模式識別與智能系統(tǒng)專業(yè)研究生的時候,國內(nèi)學術(shù)論文分享的途徑較多地集中在學術(shù)期刊訂閱、網(wǎng)絡(luò)數(shù)據(jù)庫訂閱中,即使去國外參加學術(shù)會議,帶回來厚厚的論文集或光盤,分享和傳播也很受限制?,F(xiàn)在大家熟悉的預印本網(wǎng)站如arXiv 在那時起步不久,受眾有限。陳光覺得這是個機會,自己又恰好有資源、有興趣、也有精力。2001年,他開始著手建立旨在推廣和分享模式識別相關(guān)論文和資源的實驗室網(wǎng)站PRIS,比后來在科研圈中比較有名的“小木蟲論壇”等網(wǎng)站都要早。截至2006年陳光博士畢業(yè)時,網(wǎng)站論文資源的總下載次數(shù)超過了230萬。很多年后,他受邀參加一個行業(yè)頂會分享會的圓桌會議,偶然從閑聊中得知,邀請他的微軟亞洲研究院的專家,便是PRIS 最早的一批受眾。那個小而全的網(wǎng)站,影響了很多人。
隨著畢業(yè)后留校當老師,陳光遇到了一批又一批浮沉在論文苦海中的學生,他們總是對老師發(fā)出“什么是好論文”的“靈魂”之問。到現(xiàn)在,還是每天大量閱讀科研論文的陳光也一直在琢磨這個問題。這更多的有種哲學上“說不可說”的意味。頂尖院校學者寫的論文就一定是好論文嗎?能提出可操作性、可復現(xiàn)性強的方法的論文就一定是好論文嗎?不絕對。尤其在人工智能領(lǐng)域日新月異、科研論文井噴的今天,連ChatGPT等大語言模型都能快速生成一篇像模像樣的論文,關(guān)于論文“品味”的思考就顯得更有意義。
說到當博主這件事,陳光覺得跟其他老師相比,自己有點“不務(wù)正業(yè)”,但說到底,依然是在教師這個職業(yè)的基礎(chǔ)上做了延伸。他始終堅信一句話:學習,是老師最基本的職責。經(jīng)常有學生希望導師為自己指定某一個研究方向,最好直接指定一個題目。陳光認為,作為高校教師,首先應(yīng)該幫學生建立對所在領(lǐng)域整體的把握,再引導其聚焦于某一點進行研究。運用社交網(wǎng)絡(luò)等新媒體工具,也只不過換了一種更具“網(wǎng)感”的形態(tài)來幫大家拓寬眼界。
在陳光看來,學術(shù)研究和技術(shù)應(yīng)用是兩種工作思路。做應(yīng)用是從實際需求出發(fā),尋找合適的方法去解決,是個從問題回溯、發(fā)散的過程。但做研究,首先是立足于“面”,既要把握行業(yè)基礎(chǔ)和趨勢,更要靠內(nèi)驅(qū)力發(fā)現(xiàn)自己想研究、又值得研究的方向,最終聚焦于一個“點”。這個過程猶如獨自行進在山巒起伏的曠野,只有自己實際接觸并了解得足夠多,才能掌握全局地形,對往哪里走有更深刻的洞察和思考。陳光舉例,在使用機器學習解決問題的時候,除了所用到的具體模型和方法,還要廣泛了解和把握其他機器學習方法的特點和適用場景,多看數(shù)據(jù),結(jié)合任務(wù)分析和理解數(shù)據(jù),進而標注數(shù)據(jù)。如果忽視這些作為“上下文”存在的工作,僅把目光落在改進當前方法這一點上,很難找到“運籌帷幄”的感覺。
這是必須下的“笨功夫”,其中的思考過程也是人類區(qū)別于機器的重要標志。如今,AIGC 技術(shù)的發(fā)展使很多人嘗到了“一鍵生成”的便利,甚至在論文寫作領(lǐng)域,ChatGPT 也能“以假亂真”。2023 年8 月,物理學期刊PhysicaScripta上發(fā)表了一篇關(guān)于揭示復雜數(shù)學方程新解的論文。但有教授在翻閱論文時偶然發(fā)現(xiàn)了Regenerateresponse的字樣,這其實是ChatGPT里的按鈕標簽,意為“重新生成回答”。在一片對評審環(huán)節(jié)的質(zhì)疑聲中,出版方最終撤回了論文。
陳光覺得,論文不是為了發(fā)表而寫,而是應(yīng)該寫下值得借鑒的研究新角度或新方向,體現(xiàn)作者的深度思考,為他人進一步的工作提供“踏腳石”。“如果本身不熱愛思考,最終會淪為‘機器生產(chǎn)者’,”他說,“但熱愛思考、能在他人思考基礎(chǔ)上做出創(chuàng)造性延伸和拓展的人,機器是很難替代的?!?/p>
在知乎上有這樣一個提問:“大模型是參數(shù)量越大越好嗎?邊界在哪里?”陳光以“愛可可”的身份寫了800字左右的回答。但后來,這條回答被折疊了,理由是:疑似AI創(chuàng)作。
陳光不喜歡長篇大論式的回答,盡量以簡潔的答案給予提問者足夠的信息。就比如在推薦論文時,他總是用條目式要點概括文章的重點信息,這對讀者而言非常高效,但恰恰也是生成式AI“偏愛”的方式。由于目前生成類算法的基礎(chǔ)和本質(zhì)還屬于概率模型,偏向于把握主流普適的文字長度、上下文關(guān)聯(lián)、書寫習慣等,想要逃過目前還有很大局限的AI 判定手段,意味著人類創(chuàng)作者還需進一步思考、提升自己的獨特性。
隨著AIGC技術(shù)的不斷發(fā)展,陳光認為,機器生成和人類創(chuàng)作的邊界會越來越模糊,人們判斷機器生成內(nèi)容的難度也會越來越大。如果一開始就沒有建立對于好論文的正確判斷,那么無論面前是機器還是人類寫就的論文,對人們來說都沒有太大區(qū)別。從本質(zhì)功能角度來看,生成類模型的長處不是“創(chuàng)造”和“思考”,而在于“記憶”和“混合”,換句話說,它是對已有知識的聯(lián)想和重組,某種程度上,是從語料庫里“引用”來的。所以,從機制上,生成類模型很難提出一些原創(chuàng)性的觀點或角度。
既然不能指望AI 在論文寫作領(lǐng)域發(fā)揮重要的輔助作用,那能否訓練一些模型“記住”個人對于好論文的品味來實現(xiàn)個性化推薦呢?盡管從研究生時期開始,陳光就在研究這個問題,到目前為止,他的答案依然是:很難。
首先,從內(nèi)容本身來說,哪些指標決定了一篇論文足夠好?主題的選取、問題提出的角度、內(nèi)容的組織、作者的身份和所在機構(gòu)等因素都能在推薦系統(tǒng)中占有權(quán)重。比如極端情況下,出自美國加州大學伯克利分校的、關(guān)于機器人領(lǐng)域的論文就是權(quán)威之作,可以入圍好論文之列,但在一般條件下,對照以上指標,有些論文就很難“出圈”了。這頗如“坎貝爾定律”。陳光談到,實際上,即使“師出名門”,很多論文其實也沒那么靠譜,有大量論文在“占坑”“刷指標”,并沒有給出特別有價值、值得借鑒的思考,單靠作者、機構(gòu)信息等單一維度,很難篩選出真正優(yōu)秀的作品。
其次,推薦系統(tǒng)的機制還做不到真正的千人千面。在主流的推薦算法——協(xié)同過濾中,基于從物(內(nèi)容)到人的推薦方式無法真正匹配個性化的品味——用戶通過相似內(nèi)容找到的具有類似品味的其他用戶,只能說明兩人對某些具體方面內(nèi)容的品味相似,很難推及其他內(nèi)容,也很容易在推薦方向上固化形成“信息繭房”。
陳光認為,對于論文的判斷最終還是要回到讀者視角,從能否獲得啟發(fā)性思考的角度來評價論文的質(zhì)量。如果以更廣闊的范圍來看,好的內(nèi)容創(chuàng)作都應(yīng)該如此,包括媒體生產(chǎn)的內(nèi)容。但這意味著我們應(yīng)該放棄語言模型在創(chuàng)作時帶來的便利嗎?當然不是。
各類復雜的系統(tǒng),都可能具備共同的特征——涌現(xiàn),它是指當許多小的個體相互作用后產(chǎn)生了大的整體,而這個整體展現(xiàn)了構(gòu)成它的個體所不具備的新特性的現(xiàn)象。在計算機科學領(lǐng)域,很多人認為大規(guī)模語言模型的參數(shù)在突破某個規(guī)模時,性能得到顯著提升,就能具備“涌現(xiàn)”的特征。這也是弱人工智能向強人工智能,也就是通用人工智能(Artificial General Intelligence)進化的關(guān)鍵。
在以往通用任務(wù)的解決方案中,不同任務(wù)需要訓練不同的模型,在對數(shù)據(jù)做知識圖譜、制作文本分類器和實體識別等任務(wù)中需要進行大量的人工標注。而隨著計算設(shè)備的進步,人們將參數(shù)規(guī)模呈指數(shù)級提升至10 億級別后,以GPT 系列(全稱為Generative Pre-training Transformer,意為生成式預訓練變換模型)為代表的預訓練模型,無需通過標注,只需針對下游任務(wù)和行業(yè)特性微調(diào)便能完成特定任務(wù),比如媒體行業(yè)的“傳播大模型”,也是這樣生成的。這在陳光看來,是大規(guī)模語言模型具有劃時代意義的地方。所以,ChatGPT 能掀起熱度的原因就在于,人們通過嘗試挖掘了其諸多潛力,比如收集材料、寫采訪大綱、制作PPT等。另一方面,這些任務(wù)的完成也促使大模型收集了更多語料,能以更快速度更新和演進。
在與模型互動過程中,一個關(guān)鍵步驟是如何引導其作出用戶想要的回答。更多時候,人們把向模型提問這個環(huán)節(jié)稱作“提示”,一個引子,其作用在于限制模型查找“記憶”的范圍以及后續(xù)合成時對內(nèi)容的側(cè)重,更準確地匹配意圖,哪怕提示并不構(gòu)成一個完整的句子。陳光舉了個例子,同樣是查找一段代碼,如果用戶在提示中說“你是一位資深程序員”,那么模型就會在聯(lián)想、記憶、組織內(nèi)容時提高相關(guān)詞的權(quán)重,更傾向于篩選出在教科書上出現(xiàn)或權(quán)威項目中的代碼,因為這些資料有更高概率與“資深程序員”相關(guān)的“上下文”共同出現(xiàn),最后得到的結(jié)果也更能接近用戶需求。類似的,只要設(shè)計好提示來引導模型,像新聞記者這樣的內(nèi)容創(chuàng)作者是可以從中獲得足夠的素材、有用的線索或有趣的角度來促進思考、發(fā)揮創(chuàng)意的。
提示工程的最大意義在于貫通了人與機器思維的方式,讓語言模型能更好地理解人類的訴求。陳光開玩笑說,或許以后不用教學生怎么寫論文,教他們怎么做好提示工程就可以了。
陳光稱自己為技術(shù)“呆子”,在他身上,我們看不到太多科研上所謂的“野心”。盡管他癡迷于前沿技術(shù)的突破,但是至于今后大規(guī)模語言模型能進化到何種高度,他也沒有明確的答案,有的只是對目前技術(shù)進展的冷靜觀察和對未來的無限期待。更多時候,他在教書育人、拓寬學術(shù)視野的過程中,起著“踏腳石”的作用,以量變推動質(zhì)變。至于為什么要對“好論文的品味”孜孜以求,在科技的創(chuàng)造力得以涌現(xiàn)的時候,自然也就有了答案。