近日,谷歌開發(fā)了一個名為“麥內(nèi)瓦”的自然語言處理(NLP)模型,能夠回答微分方程、化學(xué)、狹義相對論等高難度學(xué)科問題。
據(jù)了解,現(xiàn)在已有的NLP模型(如Open AI的GPT-3、Deep Mind的Gopher等)可以較好地執(zhí)行總結(jié)、翻譯、寫作等各類文本處理任務(wù)。但目前,這類神經(jīng)網(wǎng)絡(luò)模型在解決所謂的定量推理問題(如數(shù)學(xué)問題)方面的能力還有不足。
“定量推理是語言模型仍然遠(yuǎn)遠(yuǎn)低于人類水平表現(xiàn)的一個領(lǐng)域,”研究人員在谷歌官方博文中解釋說,“通常認(rèn)為,用機器學(xué)習(xí)解決定量推理問題需要模型架構(gòu)和訓(xùn)練技術(shù)的重大進(jìn)步。”
其中還提到,數(shù)學(xué)等復(fù)雜學(xué)科問題的解決需要使用自然語言和數(shù)學(xué)公式解析問題,以及生成數(shù)值計算的分步解決方法等多種技能的組合。
由于這些挑戰(zhàn),谷歌打造了“麥內(nèi)瓦”這種可以解決定量推理問題的人工智能模型。
2022年6月29日,相關(guān)論文以《用語言模型解決定量推理問題》為題提交在arXiv上。
據(jù)了解,麥內(nèi)瓦建立在PaLM(5400億參數(shù)模型,谷歌2022年4月發(fā)布)基礎(chǔ)之上,并在一個118GB數(shù)據(jù)集(包括科學(xué)論文和含有數(shù)學(xué)表達(dá)式的網(wǎng)頁)上進(jìn)行訓(xùn)練。
研究人員還提到,他們沒有刪除這些數(shù)據(jù)中對數(shù)學(xué)表達(dá)式的語義意義至關(guān)重要的符號和格式。因此,麥內(nèi)瓦學(xué)會了如何使用標(biāo)準(zhǔn)數(shù)學(xué)符號來表達(dá)它生成的答案。并在博文中補充道:“為實現(xiàn)STEM(Science、Technology、Engineering、Mathematics)推理任務(wù)的最先進(jìn)性能,麥內(nèi)瓦結(jié)合了小樣本提示、思維鏈或暫存器提示以及多數(shù)投票等提示和評估技術(shù)。”
比如通過思維鏈提示,研究人員不僅可以讓麥內(nèi)瓦回答問題,還可以嘗試讓它解釋是如何計算答案的。在某些情況下,這種方法使神經(jīng)網(wǎng)絡(luò)能夠解決過于復(fù)雜的問題。
“麥內(nèi)瓦”對兩個數(shù)學(xué)問題的輸出解答
另外,在解答數(shù)學(xué)問題時,該模型可以找到多種計算相同結(jié)果的方法,然后,對生成的不同解決方案進(jìn)行比較,根據(jù)多數(shù)投票原則選擇最有可能成為正確答案的解決方案。
值得一提的是,用戶還可以使用谷歌推出的交互式網(wǎng)頁試用麥內(nèi)瓦的輸出效果。
為了測試“麥內(nèi)瓦”的準(zhǔn)確性,研究人員讓其回答跨越多個領(lǐng)域的問題,難度從小學(xué)水平到研究生水平,涵蓋小學(xué)和高中數(shù)學(xué)競賽、大規(guī)模多任務(wù)語言理解基準(zhǔn)子集MMLU-STEM、麻省理工學(xué)院開放課件等中的各種問題。620億參數(shù)的麥內(nèi)瓦在波蘭國家數(shù)學(xué)考試(每年參加人數(shù)約有27萬名)中達(dá)到了57%的分?jǐn)?shù),這恰好是2021年該國的平均水平,而5400億參數(shù)版本實現(xiàn)了65%的分?jǐn)?shù)。
麥內(nèi)瓦示例瀏覽網(wǎng)站
研究人員表示,在所有情況中,相較之下,麥內(nèi)瓦都能獲得最先進(jìn)的結(jié)果。但值得注意的是,麥內(nèi)瓦還是會犯不少錯誤,其中計算錯誤和推理錯誤約各占50%,這些錯誤大都比較容易解釋。而結(jié)果正確,推理過程錯誤的情況被研究者稱為“誤報”,誤報率相對較低,620億參數(shù)的麥內(nèi)瓦在數(shù)學(xué)上產(chǎn)生的誤報率低于8%。
谷歌對這些錯誤樣本進(jìn)行了分析,以確定模型后續(xù)需要改進(jìn)的地方。以下是模型犯的兩個示例錯誤。
計算錯誤
由于麥內(nèi)瓦并沒有使用底層數(shù)學(xué)結(jié)構(gòu)來回答問題,這使其無法自動驗證答案,因而檢測不到“誤報”情況。該模型還無法利用計算器或Python解釋器等外部工具。因此,它進(jìn)行需要復(fù)雜數(shù)值計算的定量推理任務(wù)的能力有限。麥內(nèi)瓦模型的性能目前與人類的表現(xiàn)還有不小差距。
總的來說,通過在大量定量推理數(shù)據(jù)上訓(xùn)練大模型,并采用一流的人工智能技術(shù),從而讓麥內(nèi)瓦在多類定量推理任務(wù)上實現(xiàn)較高的提升。
最后,機器學(xué)習(xí)模型已在許多科學(xué)學(xué)科中發(fā)揮重要作用,但它們通常局限于解決特定范圍的任務(wù)。像麥內(nèi)瓦這類能夠進(jìn)行定量推理的模型有許多潛在的應(yīng)用,包括作為研究人員的輔助工具、為學(xué)生提供新的學(xué)習(xí)機會等?!拔覀兿M鉀Q定量推理問題的通用模型能夠有助于推動科學(xué)和教育的進(jìn)一步發(fā)展。麥內(nèi)瓦已經(jīng)朝這個方向邁出一步?!毖芯咳藛T表示。