大模型技術(shù)行業(yè)研究與應(yīng)用進(jìn)展

2024-05-07 07:44:08中國鐵道學(xué)會(huì)智能鐵路委員會(huì),中國鐵道科學(xué)研究院集團(tuán)有限公司科學(xué)技術(shù)信息研究所

鐵路計(jì)算機(jī)應(yīng)用 2024年4期

大模型是指在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域中，利用大規(guī)模數(shù)據(jù)和復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建的龐大神經(jīng)網(wǎng)絡(luò)模型。大模型往往由數(shù)以億計(jì)甚至更多的可訓(xùn)練參數(shù)組成，通過學(xué)習(xí)海量數(shù)據(jù)中的模式和規(guī)律來實(shí)現(xiàn)各種智能任務(wù)，具有更強(qiáng)的泛化能力和表達(dá)能力。大規(guī)模預(yù)訓(xùn)練模型的發(fā)展歷程可以追溯到2017年，當(dāng)時(shí)谷歌提出Transformer架構(gòu)，奠定了當(dāng)前大模型領(lǐng)域主流的算法架構(gòu)基礎(chǔ)。到2022年年底，OpenAI推出的ChatGPT掀起了一場人工智能領(lǐng)域的“大火”，使得大模型成為人工智能新基建領(lǐng)域新興并快速發(fā)展的熱點(diǎn)方向之一。

隨著生成式人工智能大模型技術(shù)的不斷創(chuàng)新和發(fā)展，大模型在自然語言處理、圖像識別等領(lǐng)域展現(xiàn)出強(qiáng)大的應(yīng)用潛力，能源、航空、汽車、通信、金融、醫(yī)療等垂直行業(yè)也基于領(lǐng)域人工智能技術(shù)和數(shù)據(jù)積累等能力，在通用基礎(chǔ)大模型的底座上，推出行業(yè)大模型，深度賦能各行業(yè)人工智能應(yīng)用場景。如表1所示。

表1 大模型技術(shù)行業(yè)應(yīng)用進(jìn)展

1 基礎(chǔ)大模型研究進(jìn)展

隨著數(shù)據(jù)量的爆炸性增長，硬件算力設(shè)備以及算法模型的標(biāo)準(zhǔn)化，大模型技術(shù)開啟人工智能新時(shí)代。國內(nèi)外科技巨頭積極布局，紛紛推出自己的通用基礎(chǔ)大模型，積極搶占人工智能大模型領(lǐng)域的戰(zhàn)略高地。如圖1所示。

圖1 人工智能大模型技術(shù)發(fā)展歷程

1.1 語言大模型

自2017年Transformer架構(gòu)推出后，語言大模型技術(shù)發(fā)展迅速。2018年，OpenAI推出了具有1.17億參數(shù)的GPT-1模型，極大地推動(dòng)了自然語言處理領(lǐng)域的發(fā)展。此后，大量新式預(yù)訓(xùn)練語言模型不斷涌現(xiàn)，預(yù)訓(xùn)練技術(shù)在自然語言處理領(lǐng)域蓬勃發(fā)展。到2020年，OpenAI的GPT-3模型參數(shù)規(guī)模達(dá)到了1 750億，實(shí)現(xiàn)了模型規(guī)模從億級到上千億級的突破，標(biāo)志著深度學(xué)習(xí)和自然語言處理領(lǐng)域的一個(gè)新高度。2022年11月，OpenAI公司基于GPT-3.5推出了ChatGPT，掀起了人工智能領(lǐng)域新一輪的浪潮。ChatGPT發(fā)布后，用戶數(shù)持續(xù)暴漲，2個(gè)月實(shí)現(xiàn)月活用戶過億，成為史上增速最快的消費(fèi)級應(yīng)用。之后，OpenAI的GPT-4、Meta的LLaMA、谷歌PaLM-2等大模型被相繼推出，并在多樣化和高難度的任務(wù)中表現(xiàn)出色。

在ChatGPT被推出后，中國本土廠商積極跟進(jìn)，百度的“文心一言”、阿里云的“通義千問”、科大訊飛的“訊飛星火認(rèn)知大模型”、百川智能的“Baichuan系列大模型”以及清華大學(xué)的“GLM系列大模型”等相繼被推出，并取得了出色表現(xiàn)。

1.2 計(jì)算機(jī)視覺大模型

繼語言模態(tài)之后，視覺大模型的研究也逐步受到重視。2020年，谷歌提出ViT模型證明了Transformer架構(gòu)在計(jì)算機(jī)視覺領(lǐng)域的可行性，拉開了視覺大模型的序幕。之后，微軟亞洲研究院的研究團(tuán)隊(duì)提出Swin Transformer視覺大模型，該模型是基于Transformer架構(gòu)的一種變體，在圖像分類、目標(biāo)檢測和語義分割等計(jì)算機(jī)視覺任務(wù)中展示了出色的性能。2023年4月，Meta開源了圖像分割模型—Segment Anything Model，簡稱SAM，SAM是一個(gè)提示型模型，其在1 100萬張圖像上訓(xùn)練了超過10億個(gè)掩碼，實(shí)現(xiàn)了強(qiáng)大的零樣本泛化。2023年，谷歌宣布了他們最先進(jìn)的圖像生成模型Imagen2，該模型不僅在參考圖片和文本的基礎(chǔ)上生成新圖片，而且在局部編輯和細(xì)節(jié)處理方面表現(xiàn)出強(qiáng)大的效果，Imagen2的推出進(jìn)一步證明了AI技術(shù)在模擬和增強(qiáng)人類視覺能力方面的巨大潛力，標(biāo)志著人工智能在視覺創(chuàng)造和理解方面又邁出了一大步。

國內(nèi)方面，華為推出了盤古CV大模型，盤古CV大模型是基于海量圖像、視頻數(shù)據(jù)和盤古獨(dú)特技術(shù)構(gòu)筑的視覺基礎(chǔ)模型，利用少量場景數(shù)據(jù)對模型微調(diào)即可實(shí)現(xiàn)特定場景任務(wù)，極大提升了AI開發(fā)效率。商湯科技與上海人工智能實(shí)驗(yàn)室聯(lián)合發(fā)布書生2.5大模型，其中大規(guī)模視覺基礎(chǔ)模型InternImage是一種新的基于 CNN的大規(guī)?；A(chǔ)模型，可以為圖像分類、對象檢測和語義分割等多功能視覺任務(wù)提供強(qiáng)大的表示。

1.3 多模態(tài)大模型

繼語言模態(tài)和視覺模態(tài)的大模型研究之后，進(jìn)一步地，單模態(tài)的大模型被統(tǒng)一整合起來，模擬人腦多模態(tài)感知的大模型出現(xiàn)。OpenAI的DALL-E、Google的Gemini1.5、OpenAI的Sora以及國內(nèi)中科院的“紫東太初”等多模態(tài)大模型不僅在理論上具有創(chuàng)新性，而且在面對多模態(tài)或跨模態(tài)任務(wù)時(shí)，具有更強(qiáng)的靈活性和適應(yīng)性，在實(shí)際應(yīng)用中顯示出巨大的潛力和價(jià)值。

2 行業(yè)大模型應(yīng)用進(jìn)展

大模型具備良好的泛化能力，可支撐多種碎片化應(yīng)用場景，大幅降低了人工智能的應(yīng)用門檻。當(dāng)前，大模型在各行業(yè)的應(yīng)用邊界正在不斷拓展，相關(guān)技術(shù)和應(yīng)用在多個(gè)行業(yè)領(lǐng)域初具成效。

2.1 能源行業(yè)大模型應(yīng)用

（1）南方電網(wǎng)“大瓦特CV大模型”

南方電網(wǎng)廣西電網(wǎng)公司輸電人工智能大模型（大瓦特CV）的發(fā)布標(biāo)志著全國首個(gè)全棧自主可控電力生產(chǎn)應(yīng)用場景大模型在廣西落地。該大模型致力于解決在生產(chǎn)運(yùn)行、工程建設(shè)、客戶服務(wù)中面臨的智能化不足、人力資源緊缺、作業(yè)流程繁瑣、實(shí)時(shí)響應(yīng)難等技術(shù)問題，通過持續(xù)夯實(shí)人工智能平臺算力能力，以人工智能技術(shù)解放生產(chǎn)力，賦能電網(wǎng)公司高質(zhì)量發(fā)展。在輸電線路運(yùn)行維護(hù)方面，算力、框架、算法全棧國產(chǎn)化適配的廣西輸電人工智能大模型，相比傳統(tǒng)小模型，在準(zhǔn)確率、泛化能力、識別效率等方面都有更優(yōu)越的表現(xiàn)。如圖2所示。

圖2 輸電線路運(yùn)行維護(hù)

此外，大瓦特CV大模型，能夠更加精準(zhǔn)地識別輸電線路缺陷類型和位置，相比傳統(tǒng)小模型，大模型的識別效率提升了5倍，準(zhǔn)確率提升了15%，能夠更加精準(zhǔn)地表述缺陷隱患類型和位置，解決模型碎片化問題，更好地處理未見過的電力業(yè)務(wù)場景缺陷。

（2）山東能源“盤古礦山大模型”

盤古礦山大模型由山東能源集團(tuán)、華為、云鼎科技聯(lián)手研發(fā)，該模型涵蓋采煤、掘進(jìn)、主運(yùn)、輔運(yùn)、提升、安監(jiān)、防沖、洗選、焦化9大專業(yè)場景應(yīng)用。目前，山東能源集團(tuán)已經(jīng)實(shí)現(xiàn)AI大模型在人員誤入危險(xiǎn)區(qū)域及關(guān)鍵崗位行為狀態(tài)監(jiān)護(hù)、變電所巡檢合規(guī)性監(jiān)測、采煤轉(zhuǎn)載裝運(yùn)異常AI智能控制、防沖卸壓工程打鉆深度監(jiān)管、介質(zhì)桶跑粗智能監(jiān)測、智慧配煤、煤倉運(yùn)行異常狀態(tài)監(jiān)控等場景的落地，在興隆莊煤礦、李樓煤業(yè)、濟(jì)二煤礦、鑫泰能源等煤礦完成試點(diǎn)建設(shè)。利用該模型，實(shí)現(xiàn)煤炭智能開采產(chǎn)量占比超過80%，減少井下作業(yè)人員1.2萬人，為煤礦行業(yè)乃至整個(gè)能源行業(yè)高質(zhì)量發(fā)展注入了新動(dòng)能。如圖3所示。

圖3 AI智能監(jiān)控

2.2 民航領(lǐng)域大模型應(yīng)用

（1）中國航信“千穰大模型”

中國航信旗下航旅縱橫團(tuán)隊(duì)于2023年8月25日發(fā)布了首個(gè)民航領(lǐng)域垂直大模型“千穰”。千穰大模型是融合了視覺大模型、語言大模型、多模態(tài)大模型和計(jì)算大模型的圖文計(jì)算多智體，以強(qiáng)大的人工智能技術(shù)，賦能民航產(chǎn)業(yè)數(shù)智化建設(shè)和民航旅客智慧出行。面向旅客，千穰大模型不僅具備日常閑聊、百科常識等通用大模型的通識能力，還能垂直深入民航，給用戶提供專業(yè)、實(shí)時(shí)、準(zhǔn)確、全面的民航信息。面向行業(yè)，千穰打造了數(shù)字機(jī)坪全景、保障節(jié)點(diǎn)感知、機(jī)位違規(guī)預(yù)警、智能機(jī)位分配、區(qū)域態(tài)勢感知、客群行為分析、風(fēng)險(xiǎn)行為識別等面向行業(yè)的解決方案，幫助工作人員監(jiān)測、分析行業(yè)運(yùn)行情況，提高決策能力。如圖4所示。

圖4 千穰大模型

2.3 汽車行業(yè)大模型應(yīng)用

（1）吉利汽車“吉利星睿AI大模型”

2024年1月，吉利正式發(fā)布汽車行業(yè)全棧自研全場景AI大模型——吉利星睿AI大模型。星睿AI大模型包括語言大模型、多模態(tài)大模型、數(shù)字孿生大模型3大基礎(chǔ)模型，并由此衍生出NLP語言大模型、NPDS研發(fā)大模型、多模態(tài)感知大模型、多模態(tài)生成大模型、AI DRIVE大模型、數(shù)字生命大模型6大能力模型。不同于科技巨頭開發(fā)的通用大模型，星睿AI大模型深度聚焦汽車垂直領(lǐng)域，對車輛功能使用、常見車輛問題、交通法規(guī)、售后服務(wù)等海量知識庫進(jìn)行大規(guī)模學(xué)習(xí)，擁有汽車行業(yè)最完備的專業(yè)知識儲(chǔ)備，僅星睿語言大模型訓(xùn)練過程中就特別補(bǔ)充了汽車領(lǐng)域39類知識庫。未來，星睿AI大模型知識結(jié)構(gòu)還將持續(xù)更新迭代，成為用戶趁手的“汽車百科全書”。

2.4 通信行業(yè)大模型應(yīng)用

（1）中國電信“星辰系列大模型”

星辰系列大模型是由中國電信完全自主研發(fā)的國內(nèi)領(lǐng)先AI大模型，具備了語義、語音、視覺及多模態(tài)大模型的完備基礎(chǔ)框架。其中語義大模型于2023年11月份發(fā)布千億參數(shù)版本，在大模型知名榜單CSL排名第五、GAOKAO排名第七、AGIEval排名第八。視覺大模型賦能100多個(gè)城市治理下游任務(wù)，算法日均調(diào)用量達(dá)3.3億次。多模態(tài)大模型聚焦圖文生成和圖文理解能力，采集超過12億的風(fēng)格數(shù)據(jù)，文圖檢索精度達(dá)到SOTA，支持20多種風(fēng)格生成。語音大模型可實(shí)現(xiàn)高精度多方言的語音識別以及多語種、多風(fēng)格、多音色的語音合成。2024年1月，中國電信星辰語義大模型TeleChat-7B版本宣布開源，開放1T高質(zhì)量清洗數(shù)據(jù)集。之后，中國電信開源12B版本模型，為國產(chǎn)大模型的發(fā)展注入新動(dòng)能。

（2）中國移動(dòng)“九天AI大模型”

在2023年世界人工智能大會(huì)“大模型與深度行業(yè)智能”創(chuàng)新論壇上，中國移動(dòng)正式發(fā)布“九天·海算政務(wù)大模型”和“九天·客服大模型”。其中，“九天·海算政務(wù)大模型”主要目標(biāo)是對數(shù)字政府的全流程進(jìn)行深層賦能，助力政府提供更加便捷和智能的政務(wù)服務(wù)。“九天·客服大模型”基于中國移動(dòng)幾億用戶數(shù)據(jù)，把人工智能相關(guān)能力賦能客服領(lǐng)域多項(xiàng)任務(wù)，提升服務(wù)質(zhì)量并降低服務(wù)成本。之后，以九天基礎(chǔ)模型為基礎(chǔ)，中國移動(dòng)聯(lián)合通信、能源、航空等行業(yè)的骨干企業(yè)共建“九天·眾擎基座大模型”。目前，“九天·眾擎基座大模型”已得到中國遠(yuǎn)洋、中智集團(tuán)、中國鐵建、中國信科、中國航信、中國航油等多家龍頭及骨干企業(yè)支持。下一步，中國移動(dòng)將深化產(chǎn)學(xué)研用合作，依托“九天·眾擎基座大模型”持續(xù)促進(jìn)數(shù)字經(jīng)濟(jì)與實(shí)體經(jīng)濟(jì)深度融合，把人工智能技術(shù)的創(chuàng)造力轉(zhuǎn)化為促進(jìn)經(jīng)濟(jì)社會(huì)高質(zhì)量發(fā)展的新質(zhì)生產(chǎn)力，助力實(shí)現(xiàn)國家智能化水平整體躍升。

（3）中國聯(lián)通“鴻湖圖文大模型1.0”

2023年6月，中國聯(lián)通發(fā)布了“鴻湖圖文大模型1.0”，該模型目前擁有 8 億訓(xùn)練參數(shù)和 20 億訓(xùn)練參數(shù)兩個(gè)版本，支持以文生圖、以圖生圖、視頻剪輯等多樣化AI能力，是首個(gè)面向運(yùn)營商增值業(yè)務(wù)的圖文雙模態(tài)大規(guī)模預(yù)訓(xùn)練模型?！傍櫤D文大模型1.0”立足文旅產(chǎn)業(yè)的真實(shí)需求和年輕用戶群的增值業(yè)務(wù)場景，主打國風(fēng)水墨畫生成。該大模型已成功賦能文旅數(shù)字人的建設(shè)，實(shí)現(xiàn)了降本增效。

2.5 金融行業(yè)大模型應(yīng)用

（1） Bloomberg“BloombergGPT”

Bloomberg依托其四十多年來積累的大量金融數(shù)據(jù)源，創(chuàng)建了一個(gè)包含3 630億token的金融數(shù)據(jù)集FinPile，又與公共數(shù)據(jù)集疊加成為了包含超7 000億token的大型訓(xùn)練語料庫。基于該大型訓(xùn)練語料庫，訓(xùn)練了具有500億個(gè)參數(shù)的大規(guī)模生成式人工智能模型BloombergGPT。BloombergGPT能夠針對金融領(lǐng)域的專業(yè)術(shù)語、行業(yè)趨勢、經(jīng)濟(jì)數(shù)據(jù)等為用戶提供專業(yè)的高質(zhì)量的信息和分析服務(wù)。此外，BloombergGPT模型在金融領(lǐng)域取得好效果的同時(shí)，并沒有犧牲模型通用能力，根據(jù)Bloomberg公開的信息，在金融領(lǐng)域任務(wù)上，BloombergGPT與GPTNeoX、OPT、BLOOM、GPT-3等模型相比，綜合表現(xiàn)最好；在通用任務(wù)上，BloombergGPT的綜合得分同樣優(yōu)于相同參數(shù)量級的其他模型，并且在某些任務(wù)上的得分要高于參數(shù)量更大的模型。出于行業(yè)安全性的考慮，BloogbergGPT模型未被公開。

（2）Broadridge“BondGPT”

2023年6月，Broadridge子公司LTX宣布，通過GPT-4打造了BondGPT，主要用于幫助客戶回答各種與債券相關(guān)的問題。為了增強(qiáng)ChatGPT的輸出準(zhǔn)確性并滿足金融業(yè)務(wù)場景需求，LTX將Liquidity Cloud中的實(shí)時(shí)債券數(shù)據(jù)，輸入到GPT-4大語言模型中，幫助金融機(jī)構(gòu)、對沖基金等簡化債券投資流程以及提供投資組合建議。BondGPT能夠根據(jù)用戶輸入的問題，回答符合需求的公司名字、利率、價(jià)格、發(fā)布日期、到期日期、債券評級等信息。同時(shí)支持連續(xù)、深度對同一個(gè)問題進(jìn)行發(fā)問，使用方法與ChatGPT基本相似。目前，BondGPT已經(jīng)投入使用。如圖5所示。

圖5 BondGPT產(chǎn)品展示

2.6 醫(yī)療行業(yè)大模型應(yīng)用

（1）谷歌“Med-PaLM 2”以及“Med-PaLM M”

Med-PaLM 2由谷歌DeepMind的醫(yī)療健康團(tuán)隊(duì)基于谷歌的基礎(chǔ)大語言模型PaLM 2微調(diào)得到的一款針對醫(yī)學(xué)領(lǐng)域醫(yī)療問題問答的醫(yī)療聊天機(jī)器人。Med-PaLM 2是第一個(gè)在美國醫(yī)師執(zhí)照考試（USMLE）的MEDQA數(shù)據(jù)集上達(dá)到“專家”考生水平的大模型，其準(zhǔn)確率達(dá)85分以上，也是第一個(gè)在包括印度AIIMS和NEET醫(yī)學(xué)考試問題的MEDMCQA數(shù)據(jù)集上達(dá)到及格分?jǐn)?shù)的人工智能系統(tǒng)，得分為72.3分。此外，在用戶隱私方面，谷歌確保測試Med-PaLM 2的客戶能夠在加密設(shè)置中保留對其數(shù)據(jù)的控制權(quán)，科技公司無法訪問，并且人工智能程序不會(huì)攝取任何數(shù)據(jù)。

而谷歌的Med-PaLM M 是一個(gè)大型多模態(tài)生成模型，可以靈活地編碼和解釋臨床語言、醫(yī)學(xué)圖像和基因組學(xué)等各種類型的生物醫(yī)學(xué)數(shù)據(jù)，在醫(yī)學(xué)問答、生成放射學(xué)報(bào)告和識別基因組變異等任務(wù)中表現(xiàn)優(yōu)異。Med-PaLM M是在谷歌的PaLM-E基礎(chǔ)大模型上進(jìn)行微調(diào)得到的，為了評估Med-PaLM M在實(shí)際臨床環(huán)境中的效果，放射科醫(yī)生對由AI生成的不同規(guī)模的報(bào)告進(jìn)行了評估。研究結(jié)果顯示，人工智能的錯(cuò)誤率與放射科醫(yī)生的錯(cuò)誤率相當(dāng)，這表明了Med-PaLM M在臨床場景中的應(yīng)用潛力。