游戲公司的大模型好用嗎？天工3.5水平如何

2023-05-30 17:53:08顏媛媛

電腦報(bào) 2023年20期

顏媛媛

游戲行業(yè)競(jìng)相入局AI

從游戲人物角色設(shè)計(jì)、環(huán)境輔助生成到NPC對(duì)話、分支劇情設(shè)計(jì)等等應(yīng)用，游戲被普遍認(rèn)為是AI賦能的確定性受益者，AI技術(shù)在游戲生產(chǎn)的上、中、下游環(huán)節(jié)均可提供助力。

對(duì)游戲廠商而言，AIGC其實(shí)不是一個(gè)陌生概念。廠商們?cè)谔剿鞴I(yè)化開(kāi)發(fā)管線的過(guò)程中，實(shí)則已經(jīng)探索AIGC技術(shù)多年。例如，美國(guó)游戲廠商Rockstar，之前在旗下游戲《俠盜獵車手5》和《荒野大鏢客2》的NPC交互、人物建模、環(huán)境渲染等環(huán)節(jié)，均使用了AIGC技術(shù)輔助開(kāi)發(fā)。

在這樣的大趨勢(shì)下，游戲企業(yè)布局AI技術(shù)也就不足為奇了。如騰訊已有自主研發(fā)的“混元”AI大模型，并將AI技術(shù)定位為推進(jìn)業(yè)務(wù)發(fā)展的“加速器”，有著較為清晰的布局方向和后續(xù)應(yīng)用場(chǎng)景：除了通過(guò)AIGC技術(shù)輔助游戲開(kāi)發(fā)創(chuàng)作外，還將在社交、廣告、內(nèi)容創(chuàng)作、數(shù)字人等場(chǎng)景應(yīng)用AI技術(shù)。另一頭部廠商網(wǎng)易此前則在2022年年報(bào)中提到，公司自2018年起啟動(dòng)GPT模型研究，已自研數(shù)十個(gè)超大規(guī)模預(yù)訓(xùn)練模型，目前公開(kāi)的大模型僅有伏羲實(shí)驗(yàn)室研發(fā)的“玉言”大模型（如圖1）。

而除騰訊、網(wǎng)易兩大游戲圈巨擘外，昆侖萬(wàn)維、巨人網(wǎng)絡(luò)、湯姆貓等國(guó)內(nèi)知名游戲企業(yè)同樣積極布局AI生態(tài)，自身“降本增效”的同時(shí)，更能在AI游戲時(shí)代攫取更多話語(yǔ)權(quán)，其中，游戲廠商選擇自研大模型的畢竟是少數(shù)，而昆侖萬(wàn)維自宣布和奇點(diǎn)智源合作推出自研“天工”AI大模型后就備受市場(chǎng)關(guān)注，這一熱度更是隨著“天工3.5”大語(yǔ)言模型的出現(xiàn)而攀升至巔峰。

承載昆侖萬(wàn)維野心的天工3.5

“中國(guó)第一個(gè)真正實(shí)現(xiàn)智能涌現(xiàn)的國(guó)產(chǎn)大語(yǔ)言模型”——昆侖萬(wàn)維對(duì)“天工3.5”的評(píng)價(jià)極高，而在大語(yǔ)言模型混戰(zhàn)的當(dāng)下，昆侖萬(wàn)維更是在近期預(yù)告旗下大模型“天工”邀測(cè)的公告中直接叫板友商稱，自己才是“中國(guó)第一個(gè)真正實(shí)現(xiàn)智能涌現(xiàn)的國(guó)產(chǎn)大語(yǔ)言模型”，友商則依賴“定向優(yōu)化”“人工打補(bǔ)丁”來(lái)“覆蓋特定題庫(kù)”。對(duì)于“天工3.5”，昆侖萬(wàn)維更是毫不掩飾地稱天工大模型“已經(jīng)非常接近OpenAIChatGPT的智能水平”。之所以把這個(gè)版本命名為天工3.5，就是因?yàn)镃hatGPT是基于GPT3.5大模型。

如此高調(diào)出廠，顯然充分激起了廣大網(wǎng)友的興趣，在有幸通過(guò)內(nèi)測(cè)申請(qǐng)后，筆者第一時(shí)間就對(duì)“天工3.5”定位進(jìn)行了問(wèn)詢。根據(jù)首界面顯示，“天工3.5”語(yǔ)言大模型自稱“天工AI助手”并表示“作為一款大型語(yǔ)言模型，我擁有強(qiáng)大的自然語(yǔ)言處理和智能交互能力，能夠智能答、聊天互動(dòng)、創(chuàng)作文本等等。并且我有豐富的知識(shí)儲(chǔ)備，涵蓋科學(xué)、技術(shù)、文化、藝術(shù)、歷史等領(lǐng)域。希望我能幫助到你”（如圖2）。

“天工3.5”語(yǔ)言對(duì)話界面同其他大語(yǔ)言模型類似，除自我介紹和熱門(mén)話題外，就是底部的聊天輸入框了。當(dāng)筆者以“同ChatGPT3.5、文心一言、阿里通義等大語(yǔ)言模型相比，天工3.5處于怎樣的水平？”為問(wèn)題，向天工AI助手提問(wèn)時(shí)，天工AI助手的回答還是相當(dāng)?shù)驼{(diào)的（如圖3）。

天工AI助手雖然沒(méi)有明確答復(fù)三款大語(yǔ)言模型高下，而是反復(fù)強(qiáng)調(diào)“天工3.5”的優(yōu)秀，不過(guò)明確表明“天工3.5在處理長(zhǎng)文本和復(fù)雜任務(wù)方面具有更強(qiáng)的能力”，這讓筆者非常好奇“天工3.5”在這兩部分的表現(xiàn)。

“長(zhǎng)文本能力”檢驗(yàn)：沒(méi)有想象的強(qiáng)

漢語(yǔ)言文學(xué)本身博大精深，大部分語(yǔ)言模型都能在“幫我寫(xiě)一篇贊美‘秋天的文章”“高考前15天應(yīng)該如何緩解孩子緊張、焦慮情緒”等開(kāi)放式命題中取得不錯(cuò)的成績(jī)，但一旦需要大語(yǔ)言模型對(duì)語(yǔ)義、語(yǔ)境進(jìn)行分析乃至品讀時(shí)，往往很難取得讓人滿意的結(jié)果。

在“長(zhǎng)文本能力”檢驗(yàn)環(huán)節(jié)，我們首先通過(guò)一道古詩(shī)詞鑒別題目測(cè)試“天工3.5”對(duì)于長(zhǎng)文本語(yǔ)義、語(yǔ)境的理解，本身古詩(shī)詞句意在網(wǎng)絡(luò)上也有大量的語(yǔ)料可供查詢，按理說(shuō)這是比較簡(jiǎn)單的題目，“天工3.5”的答案卻讓人大跌眼鏡（如圖4）。

顯然，“天工3.5”沒(méi)有理解“下列哪一首詩(shī)句不屬于送別詩(shī)？”的題目，雖然給出答案A屬于送別詩(shī)，可同筆者最終想要的答案多少有些牛頭不對(duì)馬嘴的感覺(jué)。而古詩(shī)詞含義測(cè)試未能通過(guò)，筆者還是決定再給“天工3.5”一次機(jī)會(huì)，嘗試讓它完成一道長(zhǎng)文本的語(yǔ)序排列題目（如圖5）。

問(wèn)題和前面的古詩(shī)詞一樣，“天工3.5”并不能很好地理解題目的意思，即便是小學(xué)四年級(jí)的語(yǔ)文語(yǔ)序題目，“天工3.5”也沒(méi)辦法給出參考答案和建議。當(dāng)然，在面對(duì)“幫我寫(xiě)一篇有關(guān)重慶夏天的文章”一類開(kāi)放式題目的時(shí)候，“天工3.5”還是能夠給出一份讓人滿意的答案。

從“長(zhǎng)文本能力”檢驗(yàn)環(huán)節(jié)可以看出，“天工3.5”對(duì)于限定范圍的語(yǔ)句、語(yǔ)序理解上，同人們一貫的認(rèn)知還有一段相當(dāng)大的差距。

“復(fù)雜任務(wù)能力”檢驗(yàn)：未通過(guò)并不意外

在“復(fù)雜任務(wù)”處理方面，更多時(shí)候數(shù)學(xué)思維題目往往能體現(xiàn)各家AI語(yǔ)言大模型的能力，尤其是數(shù)學(xué)思維這塊，即便是人腦也存在“數(shù)論決定下限，組合決定上限”的說(shuō)法，目前筆者測(cè)試過(guò)的ChatGPT3.5、文心一言、通義大模型中，暫時(shí)沒(méi)有任何一款語(yǔ)言大模型能夠通過(guò)相對(duì)復(fù)雜的數(shù)論和組合題目，而“天工3.5”在這一塊的測(cè)試上也不出意外的沒(méi)有通過(guò)（如圖6）。

無(wú)論從分析方法還是答案看，“天工3.5”都沒(méi)有正確地理解題意并且完成正確答案的驗(yàn)算。嘗試著將數(shù)學(xué)思維題目難度降低，讓“天工3.5”計(jì)算相對(duì)基礎(chǔ)的環(huán)形跑道問(wèn)題，因?yàn)樯婕岸啻蜗嘤龊退俣炔?、順時(shí)針等語(yǔ)言問(wèn)題，“在400米的環(huán)形跑道上，甲、乙兩人同時(shí)從某地出發(fā)，按順時(shí)針?lè)较蚺懿剑酌棵肱?米，乙每秒跑4米，兩人每跑100米，都要停10秒鐘，那么甲第二次追上乙需要的時(shí)間是多少秒？”這道題目也可以算是復(fù)雜的任務(wù)，可從“天工3.5”的答案可以看出，其挑戰(zhàn)復(fù)雜數(shù)學(xué)問(wèn)題再次失敗（如圖7）。

接下來(lái)我們不斷嘗試將題目化簡(jiǎn)，直至“一條環(huán)形跑道長(zhǎng)400米，小青每分鐘跑260米，小蘭每分鐘跑210米，兩人同時(shí)出發(fā)同向而行，經(jīng)過(guò)多少分鐘追上？”，可非常遺憾的是即便將環(huán)形跑道問(wèn)題化簡(jiǎn)至此，“天工3.5”依舊無(wú)法演算出正確答案（如圖8）。

“開(kāi)放性問(wèn)題”檢驗(yàn)：工整但無(wú)優(yōu)勢(shì)

“長(zhǎng)文本能力”和“復(fù)雜任務(wù)能力”兩個(gè)“天工3.5”自認(rèn)為較擅長(zhǎng)的領(lǐng)域測(cè)試中，其給出的結(jié)果顯然達(dá)不到人們的預(yù)期目標(biāo)，無(wú)論是對(duì)題目本身的理解還是面對(duì)復(fù)雜問(wèn)題時(shí)給出的解決辦法，“天工3.5”都多少讓人有些失望。而在“開(kāi)放性問(wèn)題”檢驗(yàn)中，我們也嘗試使用“高考最后15天如何快速提分？”“高考失利的話應(yīng)該如何選擇今后的路？”這樣的問(wèn)題去考查“天工3.5”的邏輯思維能力是否清晰（如圖9）。

顯然，在面對(duì)開(kāi)放性的問(wèn)題時(shí)，“天工3.5”還是能夠給出條理、邏輯清楚的答案，對(duì)于廣告文案撰寫(xiě)、簡(jiǎn)單文本寫(xiě)作等應(yīng)用，“天工3.5”還是能夠較好地滿足用戶所需，不過(guò)話題又回到最開(kāi)始，如果“天工3.5”只是能夠?qū)崿F(xiàn)人機(jī)對(duì)話并在開(kāi)放語(yǔ)境下才能給出答案，恐怕很難體現(xiàn)出其生產(chǎn)力屬性以及同其他語(yǔ)言大模型相比的差異性。

期待語(yǔ)言大模型的差異化

回顧過(guò)去一年，大模型的誕生宣告了整個(gè)人工智能進(jìn)入全新的重工業(yè)時(shí)代。而從文心一言開(kāi)始，國(guó)內(nèi)大語(yǔ)言模型進(jìn)入熱鬧非凡、陣營(yíng)林立的百家爭(zhēng)鳴時(shí)代。據(jù)不完全統(tǒng)計(jì)，在ChatGPT發(fā)布后的短短4個(gè)月時(shí)間里，已經(jīng)有至少30個(gè)國(guó)內(nèi)研發(fā)機(jī)構(gòu)與企業(yè)紛紛推出自己品牌的大模型與相關(guān)產(chǎn)品。一時(shí)間，整個(gè)產(chǎn)業(yè)圈熱鬧紛呈、爭(zhēng)先恐后，“類ChatGPT”漫天飛舞，“國(guó)內(nèi)首發(fā)”比比皆是。

浮華之下，真正的生產(chǎn)力屬性與差異化又在哪里？單從人機(jī)對(duì)話來(lái)講，早在智能音箱混戰(zhàn)時(shí)，人機(jī)對(duì)話就已經(jīng)普及，尤其是各智能手機(jī)品牌嵌入的語(yǔ)音助手，完全可以在功能上同這些語(yǔ)言大模型相重疊。相比之下，國(guó)內(nèi)大語(yǔ)言模型的根又在哪里？

單從商業(yè)模式上看，ChatGPT已經(jīng)明確指向API、訂閱制和戰(zhàn)略合作（嵌入微軟Bing、Office等軟件）三種營(yíng)收方式，且已在用戶數(shù)據(jù)積累、產(chǎn)品布局和生態(tài)建設(shè)層面充分領(lǐng)先；Google雖有意追趕，但由于聊天機(jī)器人這樣的產(chǎn)品形態(tài)對(duì)于其主營(yíng)的搜索引擎業(yè)務(wù)的助益有限，因此在與搜索引擎結(jié)合方面較為審慎，更希望借助大模型能力開(kāi)展“模型即服務(wù)”范式，開(kāi)拓其當(dāng)前市占率較低的云服務(wù)業(yè)務(wù)的市場(chǎng)空間。

在這樣的大環(huán)境下，國(guó)內(nèi)大語(yǔ)言模型們，或許是時(shí)候思考下自己未來(lái)的定位和發(fā)展方向了。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看