• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于遷移學(xué)習(xí)的LLaMA 2大語言模型微調(diào)優(yōu)化方法

      2024-09-22 00:00:00孫倩石競澤裴麗君張倩怡徐鳳強
      軟件工程 2024年9期

      關(guān)鍵詞:大語言模型;微調(diào)優(yōu)化;遷移學(xué)習(xí)

      中圖分類號:TP312 文獻標(biāo)志碼:A

      0 引言(Introduction)

      近年來,大型語言模型[1]的出現(xiàn)和發(fā)展對自然語言處理和人工智能領(lǐng)域產(chǎn)生了變革性影響。自GPT-3(Generative Pre-Trained Transformer v3)問世以來,逐漸涌現(xiàn)出一批具有強大競爭力的語言模型,例如ChatGPT[2]、Meta LLaMA[3]、文心一言、盤古大模型等。利用大模型技術(shù)解決實際任務(wù),已經(jīng)成為人工智能領(lǐng)域的發(fā)展趨勢。然而,大模型技術(shù)應(yīng)用于下游任務(wù)時,常常面臨諸多挑戰(zhàn),例如數(shù)據(jù)規(guī)模龐大、計算資源有限,以及模型微調(diào)所需的訓(xùn)練成本高、微調(diào)時間長等,因此大模型難以通過傳統(tǒng)的模型訓(xùn)練方式來進一步提高自身的性能。因此,本文主要研究大模型微調(diào)優(yōu)化方法并對其進行改進,通過遷移學(xué)習(xí)[4]將預(yù)訓(xùn)練模型遷移至下游任務(wù)場景,然后進行模型微調(diào)(Fine-tuning)優(yōu)化,在繼承預(yù)訓(xùn)練模型的泛化能力的同時,使模型能夠適應(yīng)下游任務(wù)場景,從而提高LLaMA 2[5]預(yù)訓(xùn)練大模型在特定任務(wù)場景下的應(yīng)用性能。

      1LLaMA 2大語言模型介紹(Introduction of LLaMA 2 pre-trained large model)

      本文采用的預(yù)訓(xùn)練模型是由Meta AI正式發(fā)布的最新一代開源大模型LLaMA 2[5],是一種用于自然語言處理的深度學(xué)習(xí)模型。LLaMA 2大語言模型是基于原始Transformers架構(gòu)[6]的生成式預(yù)訓(xùn)練模型,其訓(xùn)練數(shù)據(jù)集包括2萬億個token,上下文長度為4 096,參數(shù)包括7 B、13 B和70 B,在各種基準(zhǔn)集的測試上的表現(xiàn)突出,并且在多個下游任務(wù)上的表現(xiàn)超過了GPT-3。

      1.1LLaMA 2大語言模型結(jié)構(gòu)

      LLaMA 2大語言模型基于自回歸Transformer架構(gòu)實現(xiàn),采用32層Transformer的解碼器(decoder-only)作為主干網(wǎng)絡(luò),通常用于條件生成任務(wù)。模型首先通過詞嵌入(WordEmbedding)將輸入文本轉(zhuǎn)換為詞向量;其次將詞向量輸入解碼器網(wǎng)絡(luò),學(xué)習(xí)詞向量之間的語義關(guān)系,通過解碼器的迭代學(xué)習(xí)提高模型對文本信息的處理能力;最后根據(jù)給定的條件信息,可以通過解碼器生成相應(yīng)的答案進行輸出,LLaMA 2大語言模型結(jié)構(gòu)圖如圖1所示。

      1.2 模型訓(xùn)練及遷移應(yīng)用

      LLaMA 2大語言模型訓(xùn)練過程如下:首先需要準(zhǔn)備大規(guī)模的文本語料庫作為訓(xùn)練數(shù)據(jù),并進行預(yù)處理;其次采用詞嵌入技術(shù)將文本數(shù)據(jù)向量化;最后使用數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,通過定義的損失函數(shù)和優(yōu)化算法調(diào)整模型參數(shù)。在訓(xùn)練過程中,參數(shù)更新分為前向傳播和反向傳播兩個階段。前向傳播是指將訓(xùn)練數(shù)據(jù)從輸入層傳遞到輸出層的過程,反向傳播則是計算模型參數(shù)的梯度并利用優(yōu)化器更新參數(shù)。經(jīng)過多次迭代后,模型逐步學(xué)習(xí)到語料庫中的語言規(guī)律和概率分布。

      LLaMA 2大語言模型訓(xùn)練過程中,淺層語言知識,如詞法、詞性、句法等存儲在模型的底層和中層,而抽象類的語言知識,如語義、邏輯、推理等廣泛分布在模型的中層和頂層結(jié)構(gòu)中,這種模型可以被視為通用的語言理解系統(tǒng)。因此,可以利用遷移學(xué)習(xí)思想將訓(xùn)練好的LLaMA 2大語言模型用于各種下游任務(wù),例如智能問答、文本分類、情感分析、機器翻譯等。

      受訓(xùn)練數(shù)據(jù)集的影響,在下游任務(wù)中,原始模型一般會面臨不完全適配具體任務(wù)場景的問題。因此,需要通過微調(diào)訓(xùn)練,將模型的語言理解能力遷移到特定的下游任務(wù)中,并與下游任務(wù)的語境知識進行適配,提高模型的應(yīng)用性能。

      2LLaMA 2大語言模型微調(diào)優(yōu)化方法(LLaMA 2large language model fine-tuning optimizationmethods)

      2.1LLaMA 2大語言模型微調(diào)

      微調(diào)LLaMA 2大語言模型的核心技術(shù)包含兩個部分:一部分是損失函數(shù),用來驗證模型輸出的優(yōu)劣;另一部分是優(yōu)化器,通過損失函數(shù)的梯度更新模型的參數(shù),使模型的輸出更接近正確的目標(biāo)。

      為了提高大語言模型的微調(diào)效率,本文分別對損失函數(shù)和優(yōu)化器進行改進。通過在損失函數(shù)中引入權(quán)重方向懲罰因子,減少多頭自注意力機制中對輸入向量的加權(quán)值與其梯度方向相反的情況;通過改進優(yōu)化器權(quán)重衰減策略,平衡模型權(quán)重參數(shù)的衰減程度,進一步提高模型的優(yōu)化性能。

      本文分別對原有損失函數(shù)和優(yōu)化器進行改進,加快了LLaMA 2預(yù)訓(xùn)練大模型的微調(diào)收斂速度。同時,本文優(yōu)化的方法不僅適用于LLaMA 2預(yù)訓(xùn)練大模型,還適用于其他具有前向傳播和后向傳播機制的網(wǎng)絡(luò)模型。

      3 實驗(Experiment)

      為了驗證本文方法的效果,設(shè)計了基于LLaMA 2預(yù)訓(xùn)練模型的微調(diào)優(yōu)化實驗。

      3.1 數(shù)據(jù)集

      本文的數(shù)據(jù)集來源是huggingface 2.4.1的問答任務(wù)。問答任務(wù)(Question Answering)[10]是根據(jù)提出的問題生成使用自然語言的回答,數(shù)據(jù)集如表1所示。

      3.2 參數(shù)設(shè)置

      模型由24層編碼器和解碼器組成,模型的隱層維度(Hidden State Dimensions)為1024,前饋網(wǎng)絡(luò)維度(FeedForward Dimensions)為[1 024, 4 096, 1 024],設(shè)置參數(shù)更新步數(shù)(Steps)為1000,最大輸入序列長度(Maximum SequenceLength)為1 024,最大輸出序列長度(Maximum TargetLength)為512,批樣本容量(Batch Size)為16。使用改進后的優(yōu)化器,其中β1=0.9,β2=0.95,ε=8×10-4,并設(shè)置學(xué)習(xí)率初始為0,在前10%的步數(shù)中逐漸預(yù)熱至峰值,隨后在剩余的步數(shù)中逐漸衰減至8×10-5,學(xué)習(xí)率變化曲線如圖2所示。設(shè)置權(quán)重方向懲罰的權(quán)重α=0.3。

      3.3 問答任務(wù)實驗結(jié)果與分析

      為驗證本文預(yù)訓(xùn)練大模型微調(diào)優(yōu)化方法的性能,基于LLaMA 2大語言模型進行問答任務(wù)微調(diào)實驗。采用問答任務(wù)數(shù)據(jù)集分別在原方法和改進后的優(yōu)化方法上迭代微調(diào)1 000次,對實驗結(jié)果進行對比。為保證實現(xiàn)效果,本文使用相同的學(xué)習(xí)率設(shè)置策略。

      3.3.1 問答任務(wù)損失情況分析

      本實驗將訓(xùn)練過程和驗證過程的損失收斂情況進行可視化,問答任務(wù)訓(xùn)練損失曲線如圖3所示,問答任務(wù)驗證損失曲線如圖4所示,圖中的實線為優(yōu)化后的訓(xùn)練損失曲線和驗證損失曲線,虛線為未優(yōu)化的訓(xùn)練損失曲線和驗證損失曲線。

      對訓(xùn)練數(shù)據(jù)和驗證數(shù)據(jù)的損失函數(shù)收斂情況進行分析發(fā)現(xiàn),無論是在訓(xùn)練過程還是在驗證過程中,尤其是在迭代次數(shù)較小的情況下,經(jīng)優(yōu)化后的損失函數(shù)收斂速度更快。這說明本文提出的損失函數(shù)在較少的迭代步數(shù)下可以加速模型的學(xué)習(xí),并且可以使模型的輸出更接近正確的目標(biāo)。

      3.3.2 問答任務(wù)實例

      為了進一步驗證改進后的模型微調(diào)優(yōu)化方法的性能,分別利用未改進與通過改進的微調(diào)優(yōu)化方法的模型進行問答任務(wù)測試。當(dāng)向模型提問“先天性單管擴張疾病是什么?”時,使用本文提出的改進的微調(diào)優(yōu)化方法的模型在訓(xùn)練初期(迭代第100輪時)便可得到正確答案,而此時未使用改進的微調(diào)優(yōu)化方法的模型仍沒有得到正確答案,甚至出現(xiàn)亂碼等情況。通過實例說明本文提出的改進微調(diào)優(yōu)化方法短時間內(nèi)達到的收斂速率更快,問答任務(wù)實例如表2所示。

      4 結(jié)論(Conclusion)

      本文針對大模型在應(yīng)用于實際任務(wù)場景的微調(diào)過程中面臨的時間過長、成本高等問題,提出一種基于遷移學(xué)習(xí)的LLaMA 2預(yù)訓(xùn)練大模型微調(diào)優(yōu)化方法。該方法通過改進自注意力驗jDXXGAILiQEHyjMPvPL+9Q==證的損失函數(shù)及優(yōu)化器,加快模型的收斂速度。在問答任務(wù)的數(shù)據(jù)集上進行實驗驗證,通過訓(xùn)練損失對比和驗證損失對比,可以看出改進后的模型收斂速度更快,因此改進后的微調(diào)優(yōu)化方法可以有效減少微調(diào)的迭代次數(shù),提高微調(diào)效率,從而提升大語言模型在下游任務(wù)的遷移應(yīng)用能力。

      作者簡介:

      孫倩(1993-),女,碩士,講師。研究領(lǐng)域:深度學(xué)習(xí),自然語言處理。

      石競澤(2004-),男,本科生。研究領(lǐng)域:人工智能,深度學(xué)習(xí)。

      裴麗君(1987-),女,碩士,講師。研究領(lǐng)域:人工智能,自然語言處理。

      張倩怡(1994-),女,碩士,講師。研究領(lǐng)域:人工智能,自然語言處理。

      徐鳳強(1991-),男,博士,講師。研究領(lǐng)域:人工智能,深度學(xué)習(xí),圖像識別。

      江阴市| 隆安县| 大名县| 普安县| 长白| 阿瓦提县| 梓潼县| 博爱县| 浦北县| 梓潼县| 慈溪市| 新化县| 肃南| 布拖县| 宁波市| 冷水江市| 西平县| 海原县| 酒泉市| 全椒县| 社旗县| 江城| 尼木县| 定结县| 泾源县| 万载县| 大城县| 扎鲁特旗| 拉孜县| 桃江县| 灵武市| 苍溪县| 深水埗区| 大化| 讷河市| 库车县| 积石山| 乌鲁木齐县| 洪泽县| 新邵县| 韶关市|