谷歌開發(fā)語言模型在數(shù)學(xué)考試中可達(dá)到人類平均水準(zhǔn)

2022-09-22 09:45:42

海外星云 2022年17期

近日，谷歌開發(fā)了一個名為“麥內(nèi)瓦”的自然語言處理（NLP）模型，能夠回答微分方程、化學(xué)、狹義相對論等高難度學(xué)科問題。

據(jù)了解，現(xiàn)在已有的NLP模型（如Open AI的GPT-3、Deep Mind的Gopher等）可以較好地執(zhí)行總結(jié)、翻譯、寫作等各類文本處理任務(wù)。但目前，這類神經(jīng)網(wǎng)絡(luò)模型在解決所謂的定量推理問題（如數(shù)學(xué)問題）方面的能力還有不足。

“定量推理是語言模型仍然遠(yuǎn)遠(yuǎn)低于人類水平表現(xiàn)的一個領(lǐng)域，”研究人員在谷歌官方博文中解釋說，“通常認(rèn)為，用機器學(xué)習(xí)解決定量推理問題需要模型架構(gòu)和訓(xùn)練技術(shù)的重大進(jìn)步。”

其中還提到，數(shù)學(xué)等復(fù)雜學(xué)科問題的解決需要使用自然語言和數(shù)學(xué)公式解析問題，以及生成數(shù)值計算的分步解決方法等多種技能的組合。

由于這些挑戰(zhàn)，谷歌打造了“麥內(nèi)瓦”這種可以解決定量推理問題的人工智能模型。

2022年6月29日，相關(guān)論文以《用語言模型解決定量推理問題》為題提交在arXiv上。

據(jù)了解，麥內(nèi)瓦建立在PaLM（5400億參數(shù)模型，谷歌2022年4月發(fā)布）基礎(chǔ)之上，并在一個118GB數(shù)據(jù)集（包括科學(xué)論文和含有數(shù)學(xué)表達(dá)式的網(wǎng)頁）上進(jìn)行訓(xùn)練。

研究人員還提到，他們沒有刪除這些數(shù)據(jù)中對數(shù)學(xué)表達(dá)式的語義意義至關(guān)重要的符號和格式。因此，麥內(nèi)瓦學(xué)會了如何使用標(biāo)準(zhǔn)數(shù)學(xué)符號來表達(dá)它生成的答案。并在博文中補充道：“為實現(xiàn)STEM（Science、Technology、Engineering、Mathematics）推理任務(wù)的最先進(jìn)性能，麥內(nèi)瓦結(jié)合了小樣本提示、思維鏈或暫存器提示以及多數(shù)投票等提示和評估技術(shù)。”

比如通過思維鏈提示，研究人員不僅可以讓麥內(nèi)瓦回答問題，還可以嘗試讓它解釋是如何計算答案的。在某些情況下，這種方法使神經(jīng)網(wǎng)絡(luò)能夠解決過于復(fù)雜的問題。

“麥內(nèi)瓦”對兩個數(shù)學(xué)問題的輸出解答

另外，在解答數(shù)學(xué)問題時，該模型可以找到多種計算相同結(jié)果的方法，然后，對生成的不同解決方案進(jìn)行比較，根據(jù)多數(shù)投票原則選擇最有可能成為正確答案的解決方案。

值得一提的是，用戶還可以使用谷歌推出的交互式網(wǎng)頁試用麥內(nèi)瓦的輸出效果。

為了測試“麥內(nèi)瓦”的準(zhǔn)確性，研究人員讓其回答跨越多個領(lǐng)域的問題，難度從小學(xué)水平到研究生水平，涵蓋小學(xué)和高中數(shù)學(xué)競賽、大規(guī)模多任務(wù)語言理解基準(zhǔn)子集MMLU-STEM、麻省理工學(xué)院開放課件等中的各種問題。620億參數(shù)的麥內(nèi)瓦在波蘭國家數(shù)學(xué)考試（每年參加人數(shù)約有27萬名）中達(dá)到了57%的分?jǐn)?shù)，這恰好是2021年該國的平均水平，而5400億參數(shù)版本實現(xiàn)了65%的分?jǐn)?shù)。

麥內(nèi)瓦示例瀏覽網(wǎng)站

研究人員表示，在所有情況中，相較之下，麥內(nèi)瓦都能獲得最先進(jìn)的結(jié)果。但值得注意的是，麥內(nèi)瓦還是會犯不少錯誤，其中計算錯誤和推理錯誤約各占50%，這些錯誤大都比較容易解釋。而結(jié)果正確，推理過程錯誤的情況被研究者稱為“誤報”，誤報率相對較低，620億參數(shù)的麥內(nèi)瓦在數(shù)學(xué)上產(chǎn)生的誤報率低于8%。

谷歌對這些錯誤樣本進(jìn)行了分析，以確定模型后續(xù)需要改進(jìn)的地方。以下是模型犯的兩個示例錯誤。

計算錯誤

由于麥內(nèi)瓦并沒有使用底層數(shù)學(xué)結(jié)構(gòu)來回答問題，這使其無法自動驗證答案，因而檢測不到“誤報”情況。該模型還無法利用計算器或Python解釋器等外部工具。因此，它進(jìn)行需要復(fù)雜數(shù)值計算的定量推理任務(wù)的能力有限。麥內(nèi)瓦模型的性能目前與人類的表現(xiàn)還有不小差距。

總的來說，通過在大量定量推理數(shù)據(jù)上訓(xùn)練大模型，并采用一流的人工智能技術(shù)，從而讓麥內(nèi)瓦在多類定量推理任務(wù)上實現(xiàn)較高的提升。

最后，機器學(xué)習(xí)模型已在許多科學(xué)學(xué)科中發(fā)揮重要作用，但它們通常局限于解決特定范圍的任務(wù)。像麥內(nèi)瓦這類能夠進(jìn)行定量推理的模型有許多潛在的應(yīng)用，包括作為研究人員的輔助工具、為學(xué)生提供新的學(xué)習(xí)機會等?！拔覀兿Ｍ鉀Q定量推理問題的通用模型能夠有助于推動科學(xué)和教育的進(jìn)一步發(fā)展。麥內(nèi)瓦已經(jīng)朝這個方向邁出一步?！毖芯咳藛T表示。

谷歌開發(fā)語言模型 在數(shù)學(xué)考試中可達(dá)到人類平均水準(zhǔn)

谷歌開發(fā)語言模型在數(shù)學(xué)考試中可達(dá)到人類平均水準(zhǔn)