袁凱
做ChatGPT好比踢足球,踢足球都是盤帶、射門,但是要做到梅西那么好也不容易。
以ChatGPT為代表的人工智能內容生成技術能為人們做些什么?文案宣傳、智能營銷、智能風控、代碼編寫……近期,國內如雨后春筍般冒出的眾多團隊與公司,都試圖用自己的途徑回答問題。但ChatGPT真的這么簡單嗎?
“踢足球都是盤帶、射門,但是要做到梅西那么好也不容易。”3月5日,中國科技部部長王志剛用踢足球比喻ChatGPT,直言“從這一點看,ChatGPT在技術進步上,特別是保證算法的實時性與算法質量的有效性上,非常難”。
復旦MOSS團隊:路還很長
前不久,復旦大學計算機科學技術學院邱錫鵬團隊發(fā)布類ChatGPT模型MOSS。一經(jīng)發(fā)布,MOSS就“火”了。2月20日發(fā)布當日,MOSS就收到大量內測申請、采訪、投資、合作邀約——因為ChatGPT的火熱,公眾對于這項原本局限于NLP(自然語言處理)學術圈的新技術熱情高漲。
據(jù)了解,早在2021年,邱錫鵬團隊就已經(jīng)在探索中文生成式預訓練領域,還做了相關模型,并開源供他人下載,平均每月都有上萬次下載。隨著研究的深入,團隊提出了“語言模型即服務”概念,將基礎語言模型視作語言服務的基石。2022年,邱錫鵬團隊開始在訓練大型語言模型上下功夫。此后,又用了半年時間,研究如何使大型語言模型理解人類指令以及具備對話能力。
令邱錫鵬團隊最興奮的一天,是今年春節(jié)前的臘月二十八。項目主開發(fā)者、計算機科學技術學院博士研究生孫天祥,在常規(guī)的測試過程中輸入了一個中文問題,MOSS卻以英文正確回答,“就像一個不會說但聽得懂中文的人”。值得注意的是,當時那個版本的MOSS還很初級,中文語料占所有訓練數(shù)據(jù)不到0.1%。
“很神奇,我們沒有教過它機器翻譯。”MOSS顯示出的潛能讓邱錫鵬當晚激動到失眠。他把MOSS比作一個“聰明的小孩”,即便現(xiàn)在還不擅長寫詩、解題或很多具體的事,但已展示出成為通用人工智能(AGI)大框架的潛能,“很多遙不可及的事情,它一點就通了”。
在不少人看來,ChatGPT、MOSS這類大型語言模型與現(xiàn)在我們日常使用的小愛同學、Siri這樣的語音助手似乎差別不大。真的是這樣嗎?邱錫鵬打了個比方,解釋道:“這兩者的關系就像智能手機和功能手機。之前的聊天系統(tǒng)還屬于弱人工智能,設計它們就是用來聊天的,正如傳統(tǒng)的功能手機只能用來打電話;而現(xiàn)在的大型語言模型,像ChatGPT、MOSS,它們能做很多事,聊天只是功能之一,就像智能手機可以用來打電話,但它的功能遠遠不止于此?!?/p>
邱錫鵬也坦言,與ChatGPT相比,MOSS的最大差異還是參數(shù)規(guī)模。?“ChatGPT的參數(shù)量多達1750億個,而MOSS的參數(shù)量比其小一個數(shù)量級,大約是前者的1/10左右。”?邱錫鵬團隊認為,這個規(guī)模在財力物力承受范圍之內,也使模型具備一定的智能。實驗結果證實了團隊的猜想,MOSS模型可以非常順利地與人類進行聊天互動。邱錫鵬介紹,MOSS的特點是小規(guī)模,比較容易適應個性化模型,可以賦予更多專業(yè)化能力,利于企業(yè)內部私有部署,經(jīng)過一些數(shù)據(jù)微調就可以轉化為生產(chǎn)力。
2月20日,MOSS上線當晚,網(wǎng)站一度癱瘓。邱錫鵬團隊在官方回應中表示,MOSS還是一個不太成熟的模型,計算資源不足以支撐龐大的訪問量,距離ChatGPT還有很長的路要走。在MOSS完成初步驗證之后,團隊會將經(jīng)驗、代碼、模型參數(shù)開源出來供大家參考。中國版ChatGPT的誕生還需要中國全體AI從業(yè)者的共同努力,更需要不斷和人交互以提高能力。團隊也將堅持對最前沿AI模型的不懈追求。
AI從業(yè)者:一天成本要3億
在國內ChatGPT的追逐賽道上,除了作為重頭戲的頭部科技公司與專家研究團隊,還有不少想要嘗鮮ChatGPT的個人,但他們往往無法邁出第一步。
“若用ChatGPT的方法,以小冰框架當前支撐的對話交互量計算,每天成本將高達3億元,一年成本超過1000億元?!?在來自大洋彼岸的這股科技潮最初傳導至國內之時,小冰CEO李笛就為不少想要嘗試做國內ChatGPT的人潑了一盆冷水。
馬新幾乎是國內最早接觸到ChatGPT那批人。2022年11月30日,ChatGPT發(fā)布,5天內涌入100萬用戶。馬新深受觸動,開始考慮自己做類ChatGPT的可行性。
“我本身從事的是AI行業(yè)。ChatGPT擁有持續(xù)的上下文對話能力,同時支持文章寫作、詩詞生成、代碼生成等。這讓我很是驚訝。”馬新知道,這對AI行業(yè)是顛覆性的,它不在于技術上的創(chuàng)新,而在于向大眾展示了一個全新的使用技術的途徑,那就是NLP任務(自然語言處理)中基于大型語言模型(LLM,Large?Language?Model)演進出的GPT。馬新認為,NLP任務(自然語言處理)的核心邏輯是?“猜概率”。“現(xiàn)階段所有的NLP任務,都不意味著機器真正理解這個世界,他只是在玩文字游戲,進行一次又一次的概率解謎,本質上和我們玩報紙上的填字游戲是一個邏輯。只是我們靠知識和智慧,AI靠概率計算。”這決定了如果沒有大量資金支持,AI便無法進行足夠的“語言預訓練”。正如ChatGPT鋪天蓋地的宣傳里總是離不開這樣一句話:在擁有3000億單詞的語料基礎上預訓練出擁有1750億參數(shù)的模型?!叭绻f3000億單詞是訓練數(shù)據(jù),那么1750億參數(shù)就是沉淀下來的AI對這個世界的理解?!绷私獾接柧毑襟E需要花費的資金后,馬新徹底打消了試水ChatGPT的念頭?!白鲋袊鍯hatGPT是百度、阿里這樣的大廠才敢擁有的野心。而其它掛著ChatGPT概念的公司,幾乎只能局限在很小的領域,資金不足以支撐語言訓練是最大的問題?!?/p>
而在多位行業(yè)人士看來,要做中國ChatGPT,不光是“語言預訓練”的問題。與OpenAI相比,國內大廠在算力和算法方面與之同樣有差距。高性能GPU是人工智能的基石。去年英偉達高端GPU芯片對中國供應受限,有行業(yè)人士算了一筆賬:想要訓練與ChatGPT相匹敵的大模型,每年在顯卡、CPU等設備方面投入的成本高達10億美元。面對如此龐大的現(xiàn)金流需求,不少人預判,“微軟、谷歌這樣的硅谷大廠有這個能力,國內大廠有這一實力的也少”。
李笛認為,與其說中美兩國在人工智能領域有巨大的“技術壁壘”,不如說有一定的“時間壁壘”?!皶r間壁壘”帶來的則是算法方面的差距。一個基礎常識是,算法訓練是一件沒有辦法彎道超車的事情。自2018年推出第一代生成式預訓練模型GPT-1起,OpenAI用了近6年的時間沉淀出了當前的大語言模型?!斑@6年的差距沒辦法用半年的時間實現(xiàn)超越,除非有天才少年用更加完善的算法框架實現(xiàn)降維打擊?!?/p>
其實,不少AI從業(yè)人士同樣認為,由于人工智能對算力、算法、時間的要求很大,其成本壓力太高,因此,AI必須要找到一個明確具體的垂直場景。
與其臨淵羨魚,不如退而結網(wǎng)。對于許多國內公司而言,基于ChatGPT的場景賦能應用,或許是新一輪科技軍備競賽中的理性選擇。