“技術(shù)升級(jí)+一站構(gòu)建”助大模型降本增效

2023-12-29 08:20:24羅云鵬

科學(xué)導(dǎo)報(bào) 2023年88期

羅云鵬

如何在算力緊缺的背景下提升大模型訓(xùn)練和推理的效率，并降低成本？這已成為一眾大模型企業(yè)不得不面對(duì)的難題之一。

日前，騰訊披露，騰訊混元大模型背后的自研機(jī)器學(xué)習(xí)框架Angel再次升級(jí)。“自研機(jī)器學(xué)習(xí)框架升級(jí)后，騰訊大模型訓(xùn)練效率可提升至主流開(kāi)源框架的2.6倍，用該框架訓(xùn)練千億級(jí)大模型可節(jié)省50%算力成本，大模型推理速度提高了1.3倍?！?1月30日，騰訊機(jī)器學(xué)習(xí)平臺(tái)部總監(jiān)陶陽(yáng)宇向科技日?qǐng)?bào)記者表示。

不只是騰訊，在提升大模型訓(xùn)練效率、加速大模型落地應(yīng)用方面，一批中國(guó)企業(yè)交出了自己的“答卷”。

在大型模型訓(xùn)練和推理過(guò)程中，需要消耗大量算力資源。因此，提高硬件資源利用率，對(duì)國(guó)產(chǎn)大模型技術(shù)的發(fā)展至關(guān)重要。

陶陽(yáng)宇介紹，面向大模型訓(xùn)練，騰訊自研了機(jī)器學(xué)習(xí)框架Angel。該框架針對(duì)預(yù)訓(xùn)練、模型精調(diào)和強(qiáng)化學(xué)習(xí)等全流程進(jìn)行了加速和優(yōu)化。據(jù)悉，它采用FP8混合精度訓(xùn)練技術(shù)，并深度優(yōu)化了4D混合并行訓(xùn)練策略，還在ZeROCache技術(shù)基礎(chǔ)上減少了冗余模型存儲(chǔ)和內(nèi)存碎片，提升了內(nèi)存的利用率。同時(shí)，該框架還可兼容適配多款國(guó)產(chǎn)化硬件。

而據(jù)媒體披露，除了提高硬件資源利用率，針對(duì)通信策略、AI框架、模型編譯等進(jìn)行系統(tǒng)級(jí)優(yōu)化，亦可大幅節(jié)約訓(xùn)練調(diào)優(yōu)和算力成本。

此外，隨著模型參數(shù)的增大，大模型推理的成本也隨之攀升。陶陽(yáng)宇介紹，騰訊自研的大模型機(jī)器學(xué)習(xí)框架Angel通過(guò)擴(kuò)展并行、向量數(shù)據(jù)庫(kù)、批處理等多種優(yōu)化手段，提高了吞吐能力，達(dá)到了更快的推理性能，降低了成本。

不只是騰訊，在第二十屆中國(guó)計(jì)算機(jī)大會(huì)上，百度首席技術(shù)官王海峰就公開(kāi)透露，文心大模型4.0從今年3月發(fā)布至今，其訓(xùn)練算法效率已提升3.6倍；通過(guò)百度飛槳與文心大模型的協(xié)同優(yōu)化，文心大模型周均訓(xùn)練有效率超過(guò)98%，推理性能提升50倍。

此外，據(jù)公開(kāi)資料顯示，阿里云通義大模型則聚焦于規(guī)模定理，基于小模型數(shù)據(jù)分布、規(guī)則和配比，研究大規(guī)模參數(shù)規(guī)模下如何提升模型能力，并通過(guò)對(duì)底層集群的優(yōu)化，將模型訓(xùn)練效率提升了30%，訓(xùn)練穩(wěn)定性提升了15%。

不難看出，調(diào)整和優(yōu)化模型的訓(xùn)練和推理方式，其最終目的都指向使模型更好地適應(yīng)實(shí)際應(yīng)用場(chǎng)景、降低在終端應(yīng)用中的額外成本?！按竽Ｐ偷膽?yīng)用和研發(fā)同樣重要?！彬v訊機(jī)器學(xué)習(xí)平臺(tái)專(zhuān)家工程師姚軍說(shuō)，只有提供方便、強(qiáng)大的接入平臺(tái)，才能讓大模型真正走向應(yīng)用。

百度創(chuàng)始人、董事長(zhǎng)兼首席執(zhí)行官李彥宏也曾表示，大模型本身是不直接產(chǎn)生價(jià)值的，基于大模型開(kāi)發(fā)出來(lái)的應(yīng)用才是大模型存在的意義。然而，很多大模型落地的難度很大，因?yàn)橐粋€(gè)大模型往往會(huì)對(duì)應(yīng)著很多不同種類(lèi)的應(yīng)用，這需要大量的接口和流量支持。

如何破解這道難題？據(jù)悉，基于自研機(jī)器學(xué)習(xí)框架Angel，騰訊打造了大模型接入和應(yīng)用開(kāi)發(fā)的一站式平臺(tái)，讓針對(duì)業(yè)務(wù)場(chǎng)景的數(shù)據(jù)處理、模型微調(diào)、評(píng)測(cè)部署和應(yīng)用構(gòu)建等多個(gè)環(huán)節(jié)，從以往“散裝”的多團(tuán)隊(duì)協(xié)作方式，轉(zhuǎn)化成流水線平臺(tái)上自動(dòng)化生產(chǎn)方式，讓大模型的“開(kāi)箱即用”成為可能?！伴_(kāi)箱即用”的關(guān)鍵在于預(yù)訓(xùn)練基礎(chǔ)模型的泛化能力，高性能框架提供的微調(diào)或擴(kuò)展工程能力，以及應(yīng)用平臺(tái)的靈活構(gòu)建能力等支撐。據(jù)媒體披露，目前騰訊會(huì)議、騰訊新聞、騰訊視頻等超過(guò)300個(gè)騰訊產(chǎn)品及場(chǎng)景均已接入騰訊混元大模型進(jìn)行內(nèi)測(cè)，數(shù)量相比10月份翻了一倍，覆蓋文本總結(jié)、摘要、創(chuàng)作、翻譯、代碼等多個(gè)場(chǎng)景。比如，騰訊混元大模型就可支持智能化的廣告素材創(chuàng)作，滿足“千人千面”的需求。

《北京市人工智能行業(yè)大模型創(chuàng)新應(yīng)用白皮書(shū)（2023年）》數(shù)據(jù)顯示，截至2023年10月，我國(guó)10億參數(shù)規(guī)模以上的大模型廠商及高校院所共計(jì)254家，分布于20余個(gè)省市/地區(qū)。

“未來(lái)大模型產(chǎn)品的發(fā)展趨勢(shì)可能是通用大模型與垂直領(lǐng)域細(xì)分模型的結(jié)合?！敝袊?guó)人民大學(xué)數(shù)字經(jīng)濟(jì)研究中心主任李三希此前表示，這不僅需要具備堅(jiān)實(shí)的技術(shù)基礎(chǔ)，如大規(guī)模、高質(zhì)量、多樣化的語(yǔ)料庫(kù)，創(chuàng)新的大模型算法，自研的機(jī)器學(xué)習(xí)框架和強(qiáng)大的算力基礎(chǔ)設(shè)施等，也需要大模型產(chǎn)品具有堅(jiān)實(shí)的基于場(chǎng)景的應(yīng)用。未來(lái)，從實(shí)踐中來(lái)，到實(shí)踐中去的“實(shí)用級(jí)”大模型將成為趨勢(shì)。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

“技術(shù)升級(jí)+一站構(gòu)建”助大模型降本增效