吳洋洋
ChatGPT的發(fā)布改變了很多人的工作,首先就是那些處理自然語(yǔ)言的工程師。
正在清華大學(xué)電子信息專業(yè)讀研二的蔡紫宴3年前決定換掉自己的專業(yè),從經(jīng)濟(jì)學(xué)轉(zhuǎn)到人工智能相關(guān)專業(yè)—“自然語(yǔ)言處理”(Natural L anguageProcessing,NLP)。
這是一個(gè)當(dāng)時(shí)聽起來十分時(shí)髦的研究領(lǐng)域。非計(jì)算機(jī)專業(yè)的人對(duì)這個(gè)領(lǐng)域或許陌生,但只要你曾與蘋果的Siri等聊天機(jī)器人互動(dòng)過,或是使用過Google翻譯、輸入法中的關(guān)鍵詞聯(lián)想功能,那么你就或多或少地接觸過NLP。
然而研究生入學(xué)一年多后,蔡紫宴就發(fā)現(xiàn),他在課堂和比賽中學(xué)到的自然語(yǔ)言處理技術(shù),正在快速迭代。
“我們看到NLP領(lǐng)域很多研究都被ChatGPT‘消滅了?!彼拇ù髮W(xué)神經(jīng)網(wǎng)絡(luò)方向副研究員郭泉說,如果說此前學(xué)校里的學(xué)生、研究員們還在試圖通過不同的模型使機(jī)器更準(zhǔn)確地完成分詞、提取人名等傳統(tǒng)N L P任務(wù),那么ChatGPT已經(jīng)可以跳過這些中間環(huán)節(jié),直接生成結(jié)果,而且做得很好。
NLP是個(gè)古老的領(lǐng)域,但技術(shù)迭代周期在以翻倍的速度縮短。早在1940年代,工程師們就嘗試用提前設(shè)定好的規(guī)則(比如語(yǔ)法),訓(xùn)練機(jī)器理解語(yǔ)言。1990年代,基于統(tǒng)計(jì)的技術(shù)開始應(yīng)用到NLP中。2010年之后,深度學(xué)習(xí)成為主流。然后就來到了2020年,當(dāng)年3月,OpenAI發(fā)布了其第3代大語(yǔ)言模型(LargeLanguage Model,LLM)GPT-3(基于Transformer)。
從時(shí)間跨度來看,NLP領(lǐng)域的技術(shù)迭代時(shí)間從最早的30年、20年減少到了10年—差不多是一位在這一領(lǐng)域求學(xué)的學(xué)生從大學(xué)入學(xué)到博士畢業(yè)的時(shí)長(zhǎng)。
蔡紫宴擔(dān)心,再過兩年,他在學(xué)校和實(shí)踐中所學(xué)的技術(shù)都會(huì)被淘汰,“你對(duì)一些自然語(yǔ)言的理解可能被完全顛覆,在考試、實(shí)習(xí)時(shí)你當(dāng)作定理來背的很多東西都沒意義了。”蔡紫宴說,他3年前開始學(xué)習(xí)自然語(yǔ)言處理的相關(guān)知識(shí),當(dāng)時(shí)主要與預(yù)訓(xùn)練語(yǔ)言模型相關(guān),雙向編碼的BERT模型更被看好,而如今GPT模型表現(xiàn)出了更好的潛力。
“這就像一棵進(jìn)化樹,在一個(gè)分支十分輝煌后突然走向盡頭,另一個(gè)分支逐漸登上舞臺(tái)。”蔡紫宴說,如果早些年N L P 的研究類似于純手工的作坊,在2 017年G oogle提出Transformer和后來預(yù)訓(xùn)練語(yǔ)言模型一統(tǒng)天下后,NLP領(lǐng)域的研究就像擁有了自動(dòng)縫紉機(jī)的紡織工—現(xiàn)在,則進(jìn)一步轉(zhuǎn)向全自動(dòng)化底座的流水線。
學(xué)術(shù)期刊和會(huì)議對(duì)收錄論文的要求也一夕之間發(fā)生改變。蔡紫宴發(fā)現(xiàn),但凡論文涉及模型效果,只要論文沒有理論性創(chuàng)新,就必須考慮“大模型”。不然,審稿人基本都會(huì)問“你的研究結(jié)果與ChatGP T相比表現(xiàn)如 何”。
進(jìn)入“大模型時(shí)代”以來,技術(shù)的演進(jìn)速度并沒有慢下來,而是更快了。從本科開始就在做自然語(yǔ)言處理研究的李然告訴《第一財(cái)經(jīng)》雜志,2 019年到2021年,基于Transformer的語(yǔ)言處理模型主要還集中在BERT、GPT-2這類規(guī)模較小的模型上,但從2022年年末開始,GPT-3、GPT-4這類更大規(guī)模的預(yù)訓(xùn)練處理模型能夠生成更長(zhǎng)文本序列、具有更高的語(yǔ)義理解和生成能力。很快,李然就發(fā)現(xiàn),實(shí)驗(yàn)室里幾乎所有人都開始討論大模型。
2022年下半年,語(yǔ)言處理技術(shù)全面從傳統(tǒng)NL P轉(zhuǎn)入大模型的時(shí)候,李然結(jié)束了他的本科學(xué)習(xí),進(jìn)入研究生階段。
“那時(shí)就感覺地球要結(jié)束了。”李然說,之前的研究到底要不要繼續(xù)做下去、已有的技術(shù)積累是不是應(yīng)該被推翻了、如果堅(jiān)持的話堅(jiān)持的意義是什么、之前研究的東西在未來還有沒有深入應(yīng)用的價(jià)值……李然每天都在思考這些問題,但沒有答案。
蔡紫宴、李然所在的實(shí)驗(yàn)室都開始嘗試轉(zhuǎn)型,從傳統(tǒng)NLP轉(zhuǎn)向“大模型”。不過這種轉(zhuǎn)向并非簡(jiǎn)單改變研究興趣就能實(shí)現(xiàn),而是涉及從芯片資源到數(shù)據(jù)資源的整體硬件改造。
李然稱,他所在的實(shí)驗(yàn)室只能做一些參數(shù)量在10億到100億之間的模型訓(xùn)練。而像擁有1750億個(gè)參數(shù)的GPT-3就“絕對(duì)做不了”。有消息稱,GP T-4的參數(shù)量已經(jīng)達(dá)到1萬億。
蔡紫宴有相同的擔(dān)憂。在沒有GPT-3、GPT-4這些“大模型”的時(shí)候,單個(gè)實(shí)驗(yàn)室甚至單個(gè)學(xué)生利用實(shí)驗(yàn)室的普通服務(wù)器都可以做自然語(yǔ)言處理的研究,但只要想研究“大語(yǔ)言模型”(Large Language Models,L LMs),就需要聯(lián)合不同實(shí)驗(yàn)室,甚至要帶著老師、實(shí)驗(yàn)室的資源與校外公司合作,依靠對(duì)方提供的數(shù)據(jù)來做研究。即使是在清華,能做這種“龐大工程”的實(shí)驗(yàn)室都不多,首先在算力上就有很高的門檻。
數(shù)據(jù)來源:根據(jù)公開資料整理注:GPT-3在2020年3月發(fā)布
大模型熱潮下,NLP領(lǐng)域變得更“卷”了。李然發(fā)現(xiàn),自己好幾次冥思苦想找到的點(diǎn)子還沒付諸實(shí)踐,就已經(jīng)被掛在了ArXiv(arxiv.org)上—該網(wǎng)站的論文通常是未經(jīng)同行評(píng)審的預(yù)印本,但先發(fā)布就意味著先占坑。前幾天,李然做了半年的研究正要收尾,檢索ArXiv了解最新的研究進(jìn)展和趨勢(shì)時(shí),發(fā)現(xiàn)又有人做過了。
蔡紫宴相對(duì)“幸運(yùn)”一些。他感興趣的是大語(yǔ)言模型如何與人類的價(jià)值觀對(duì)齊,使大模型輸出的內(nèi)容更加安全并符合人類偏好。剛開始做研究時(shí),這還是一個(gè)關(guān)注度不是很高的方向,畢竟當(dāng)時(shí)的模型離“電子鸚鵡”相去甚遠(yuǎn),更談不上關(guān)注大模型的倫理與治理問題,業(yè)內(nèi)一個(gè)月或者一個(gè)季度才會(huì)更新幾篇有重要貢獻(xiàn)的論文。但現(xiàn)在,ArXiv上不到兩天就會(huì)有一篇新的相關(guān)論文。
“論文更新的速度,普通研究者完全跟不上,大家都瘋狂往這個(gè)領(lǐng)域卷,羊駝、原駝……各種動(dòng)物的名字都被用來命名大模型,從3月到現(xiàn)在新論文已經(jīng)數(shù)不勝數(shù)?!辈套涎缯f。
技術(shù)大轉(zhuǎn)身,畢業(yè)后的去向成為NLP研究生們需要重新思考的問題。
蔡紫宴發(fā)現(xiàn),身邊一些原本“很厲害”的同學(xué)都已經(jīng)放棄讀博。他們一方面想要趕一趕“行業(yè)風(fēng)口”,抓緊投身于這個(gè)急需算法工程師的行業(yè),以快速積累經(jīng)驗(yàn)—以及財(cái)富。另一方面,蔡紫宴發(fā)現(xiàn)他們也擔(dān)心“如果四五年后讀完博士,可能技術(shù)通過迭代又發(fā)生了革命性的改變”。
“最糟糕的情況是你已經(jīng)在NLP讀博一或者博二,研究目的是提高算法效率,但研究?jī)?nèi)容與大模型無關(guān),那可能就要調(diào)整研究方向了。”蔡紫宴說。
本來想讀博的李然也開始迷茫。他發(fā)現(xiàn),隨著技術(shù)前沿的劇烈變化,開展前沿研究的門檻越來越高,成本也越來越高,因此前沿研究更傾向于去工業(yè)界和企業(yè)做,而不是在高校實(shí)驗(yàn)室里,高校學(xué)生想在算法研究領(lǐng)域發(fā)表論文越來越難,“我也不是天才”。李然說,他打算在前沿研究領(lǐng)域就此打住,去行業(yè)里面做一些落地的工程化應(yīng)用。
蔡紫宴也看到了算法工程化—而非基礎(chǔ)研究方面—的學(xué)術(shù)和就業(yè)機(jī)會(huì)。
“大模型應(yīng)用肯定會(huì)在近幾年徹底革命各類應(yīng)用和系統(tǒng),到時(shí)候所有的應(yīng)用都可能被替換,這需要大量的工程師來維護(hù),解決各種優(yōu)化迭代、運(yùn)營(yíng)維護(hù),或者是信息安全等問題。很多公司也有定制化模型的需求?!辈套涎缯f,比如,如果在移動(dòng)設(shè)備端編譯運(yùn)行大語(yǔ)言模型,工程師就可以通過編譯優(yōu)化和壓縮模型權(quán)重,用低精度的方式來減少算力需求。
2018年,國(guó)內(nèi)共有35所高校獲得人工智能專業(yè)建設(shè)資格,其中多數(shù)為985、211院校。某種程度上,人工智能專業(yè)的設(shè)置體現(xiàn)了高校的前瞻性,但其學(xué)習(xí)和研究速度仍然遠(yuǎn)遠(yuǎn)趕不上技術(shù)迭代的速度。如果這群處在技術(shù)前沿專業(yè)的學(xué)生,在面臨技術(shù)拐點(diǎn)時(shí)都如此脆弱,那教育的價(jià)值到底是什么?
郭泉不需要像李然和蔡紫宴那樣焦慮自己的職業(yè)前景,他已經(jīng)是四川大學(xué)神經(jīng)網(wǎng)絡(luò)方向的副研究員。在ChatGPT發(fā)布之后,他進(jìn)一步思考教育到底應(yīng)該教什么這個(gè)問題。
他仍然贊同本科生和研究生要有不同的教學(xué)模式這種傳統(tǒng)。比如對(duì)于本科生,就要教他們打好學(xué)科基礎(chǔ),高等代數(shù)、線性代數(shù)、概率論、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等課程需要長(zhǎng)期留在教學(xué)方案中。
“不需要跟著行業(yè)走,看行業(yè)里出現(xiàn)了自動(dòng)駕駛、語(yǔ)音識(shí)別,課程就跟著調(diào)整,而是要看學(xué)生的思維構(gòu)成需要哪些知識(shí),要培養(yǎng)他們?cè)谝粋€(gè)領(lǐng)域思考的能力,前沿的行業(yè)應(yīng)用只作為擴(kuò)展和了解內(nèi)容?!彼麑?duì)《第一財(cái)經(jīng)》雜志說。
但是到了研究生階段,就要強(qiáng)調(diào)“提出問題的思維能力和解決問題的思維能力以及科研過程中的的動(dòng)手能力”。
“我們不能把計(jì)算機(jī)當(dāng)成理學(xué)來教,這必須是一個(gè)工程實(shí)踐相關(guān)的科學(xué),所以我們要培養(yǎng)學(xué)生‘提出問題并解決它的能力?!惫f。這一點(diǎn)可以類比化學(xué)實(shí)驗(yàn),一個(gè)實(shí)驗(yàn)需要某種特殊形狀的試管,但市面上沒有賣,如果學(xué)生有很好的實(shí)踐能力,就可以用酒精噴燈把實(shí)驗(yàn)室里的試管燒成實(shí)驗(yàn)需要的形狀。燒試管這件事情不會(huì)被發(fā)成論文,但燒試管后做出的實(shí)驗(yàn)有可能產(chǎn)生重要的科研成果。
作為研究者,郭泉也反思了他對(duì)“問題”的定義。ChatGPT發(fā)布以前,他一直覺得“涌現(xiàn)”是偽科學(xué),但現(xiàn)在,ChatGPT的出現(xiàn)讓他開始認(rèn)為“涌現(xiàn)”是一個(gè)可以被提出、需要被思考的問題(注:ChatGPT發(fā)布后,很多人將神經(jīng)網(wǎng)絡(luò)大到一定程度、喂養(yǎng)足夠規(guī)模的數(shù)據(jù)后出現(xiàn)的智能躍升現(xiàn)象,稱作“涌現(xiàn)”)。他對(duì)這個(gè)問題還沒有答案,但已將其列入自己的下一個(gè)研究課題。