• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      谷歌開發(fā)語言模型 在數(shù)學(xué)考試中可達(dá)到人類平均水準(zhǔn)

      2022-09-22 09:45:42
      海外星云 2022年17期
      關(guān)鍵詞:定量錯誤人員

      近日,谷歌開發(fā)了一個名為“麥內(nèi)瓦”的自然語言處理(NLP)模型,能夠回答微分方程、化學(xué)、狹義相對論等高難度學(xué)科問題。

      據(jù)了解,現(xiàn)在已有的NLP模型(如Open AI的GPT-3、Deep Mind的Gopher等)可以較好地執(zhí)行總結(jié)、翻譯、寫作等各類文本處理任務(wù)。但目前,這類神經(jīng)網(wǎng)絡(luò)模型在解決所謂的定量推理問題(如數(shù)學(xué)問題)方面的能力還有不足。

      “定量推理是語言模型仍然遠(yuǎn)遠(yuǎn)低于人類水平表現(xiàn)的一個領(lǐng)域,”研究人員在谷歌官方博文中解釋說,“通常認(rèn)為,用機器學(xué)習(xí)解決定量推理問題需要模型架構(gòu)和訓(xùn)練技術(shù)的重大進(jìn)步。”

      其中還提到,數(shù)學(xué)等復(fù)雜學(xué)科問題的解決需要使用自然語言和數(shù)學(xué)公式解析問題,以及生成數(shù)值計算的分步解決方法等多種技能的組合。

      由于這些挑戰(zhàn),谷歌打造了“麥內(nèi)瓦”這種可以解決定量推理問題的人工智能模型。

      2022年6月29日,相關(guān)論文以《用語言模型解決定量推理問題》為題提交在arXiv上。

      據(jù)了解,麥內(nèi)瓦建立在PaLM(5400億參數(shù)模型,谷歌2022年4月發(fā)布)基礎(chǔ)之上,并在一個118GB數(shù)據(jù)集(包括科學(xué)論文和含有數(shù)學(xué)表達(dá)式的網(wǎng)頁)上進(jìn)行訓(xùn)練。

      研究人員還提到,他們沒有刪除這些數(shù)據(jù)中對數(shù)學(xué)表達(dá)式的語義意義至關(guān)重要的符號和格式。因此,麥內(nèi)瓦學(xué)會了如何使用標(biāo)準(zhǔn)數(shù)學(xué)符號來表達(dá)它生成的答案。并在博文中補充道:“為實現(xiàn)STEM(Science、Technology、Engineering、Mathematics)推理任務(wù)的最先進(jìn)性能,麥內(nèi)瓦結(jié)合了小樣本提示、思維鏈或暫存器提示以及多數(shù)投票等提示和評估技術(shù)。”

      比如通過思維鏈提示,研究人員不僅可以讓麥內(nèi)瓦回答問題,還可以嘗試讓它解釋是如何計算答案的。在某些情況下,這種方法使神經(jīng)網(wǎng)絡(luò)能夠解決過于復(fù)雜的問題。

      “麥內(nèi)瓦”對兩個數(shù)學(xué)問題的輸出解答

      另外,在解答數(shù)學(xué)問題時,該模型可以找到多種計算相同結(jié)果的方法,然后,對生成的不同解決方案進(jìn)行比較,根據(jù)多數(shù)投票原則選擇最有可能成為正確答案的解決方案。

      值得一提的是,用戶還可以使用谷歌推出的交互式網(wǎng)頁試用麥內(nèi)瓦的輸出效果。

      為了測試“麥內(nèi)瓦”的準(zhǔn)確性,研究人員讓其回答跨越多個領(lǐng)域的問題,難度從小學(xué)水平到研究生水平,涵蓋小學(xué)和高中數(shù)學(xué)競賽、大規(guī)模多任務(wù)語言理解基準(zhǔn)子集MMLU-STEM、麻省理工學(xué)院開放課件等中的各種問題。620億參數(shù)的麥內(nèi)瓦在波蘭國家數(shù)學(xué)考試(每年參加人數(shù)約有27萬名)中達(dá)到了57%的分?jǐn)?shù),這恰好是2021年該國的平均水平,而5400億參數(shù)版本實現(xiàn)了65%的分?jǐn)?shù)。

      麥內(nèi)瓦示例瀏覽網(wǎng)站

      研究人員表示,在所有情況中,相較之下,麥內(nèi)瓦都能獲得最先進(jìn)的結(jié)果。但值得注意的是,麥內(nèi)瓦還是會犯不少錯誤,其中計算錯誤和推理錯誤約各占50%,這些錯誤大都比較容易解釋。而結(jié)果正確,推理過程錯誤的情況被研究者稱為“誤報”,誤報率相對較低,620億參數(shù)的麥內(nèi)瓦在數(shù)學(xué)上產(chǎn)生的誤報率低于8%。

      谷歌對這些錯誤樣本進(jìn)行了分析,以確定模型后續(xù)需要改進(jìn)的地方。以下是模型犯的兩個示例錯誤。

      計算錯誤

      由于麥內(nèi)瓦并沒有使用底層數(shù)學(xué)結(jié)構(gòu)來回答問題,這使其無法自動驗證答案,因而檢測不到“誤報”情況。該模型還無法利用計算器或Python解釋器等外部工具。因此,它進(jìn)行需要復(fù)雜數(shù)值計算的定量推理任務(wù)的能力有限。麥內(nèi)瓦模型的性能目前與人類的表現(xiàn)還有不小差距。

      總的來說,通過在大量定量推理數(shù)據(jù)上訓(xùn)練大模型,并采用一流的人工智能技術(shù),從而讓麥內(nèi)瓦在多類定量推理任務(wù)上實現(xiàn)較高的提升。

      最后,機器學(xué)習(xí)模型已在許多科學(xué)學(xué)科中發(fā)揮重要作用,但它們通常局限于解決特定范圍的任務(wù)。像麥內(nèi)瓦這類能夠進(jìn)行定量推理的模型有許多潛在的應(yīng)用,包括作為研究人員的輔助工具、為學(xué)生提供新的學(xué)習(xí)機會等?!拔覀兿M鉀Q定量推理問題的通用模型能夠有助于推動科學(xué)和教育的進(jìn)一步發(fā)展。麥內(nèi)瓦已經(jīng)朝這個方向邁出一步?!毖芯咳藛T表示。

      猜你喜歡
      定量錯誤人員
      靈活就業(yè)人員參保如何繳費
      工會博覽(2024年8期)2024-03-31 03:53:14
      在錯誤中成長
      顯微定量法鑒別林下山參和園參
      讓刑滿釋放人員找到家的感覺
      當(dāng)歸和歐當(dāng)歸的定性與定量鑒別
      中成藥(2018年12期)2018-12-29 12:25:44
      10 種中藥制劑中柴胡的定量測定
      中成藥(2017年6期)2017-06-13 07:30:35
      慢性HBV感染不同狀態(tài)下HBsAg定量的臨床意義
      不犯同樣錯誤
      急救人員已身心俱疲
      《錯誤》:怎一個“美”字了得
      短篇小說(2014年11期)2014-02-27 08:32:41
      静乐县| 吉首市| 宁化县| 蓬溪县| 长顺县| 平潭县| 乌兰县| 大姚县| 文水县| 桃源县| 合作市| 鸡西市| 沙坪坝区| 娱乐| 昔阳县| 攀枝花市| 津南区| 抚松县| 禹城市| 吴川市| 宾川县| 琼中| 新丰县| 东方市| 巴彦淖尔市| 巴彦县| 通州市| 囊谦县| 年辖:市辖区| 浦城县| 永济市| 柳河县| 南部县| 迁西县| 冕宁县| 华宁县| 尉犁县| 班玛县| 青州市| 维西| 呈贡县|