• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于預(yù)訓(xùn)練模型的深度學(xué)習(xí)算法優(yōu)化研究

      2023-06-15 22:08:55顧玉蓉
      無線互聯(lián)科技 2023年3期
      關(guān)鍵詞:信息時(shí)代深度學(xué)習(xí)計(jì)算機(jī)

      顧玉蓉

      摘要:近年來,預(yù)訓(xùn)練模型在深度學(xué)習(xí)算法中的應(yīng)用越發(fā)廣泛,其具體功能愈加完善。文章首先闡述了深度學(xué)習(xí)的研究進(jìn)展及其存在的問題,其次由深度學(xué)習(xí)的應(yīng)用引入預(yù)訓(xùn)練模型的概念、應(yīng)用方式及其在深度學(xué)習(xí)算法優(yōu)化中的作用,最后總結(jié)了預(yù)訓(xùn)練模型存在的不足及發(fā)展前景。隨著自然語言處理技術(shù)的進(jìn)一步發(fā)展,基于預(yù)訓(xùn)練模型的深度學(xué)習(xí)算法的弊端得到部分消除,未來發(fā)展前景值得期待。

      關(guān)鍵詞:預(yù)訓(xùn)練模型;深度學(xué)習(xí);計(jì)算機(jī);信息時(shí)代

      中圖分類號:TP39? 文獻(xiàn)標(biāo)志碼:A

      0 引言

      信息時(shí)代的深度發(fā)展,促使計(jì)算機(jī)應(yīng)用在各行各業(yè)深入滲透,由此形成了諸多廣泛而豐富的功能需求。在這種背景下,基于人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)(Deep Learning,DL)算法應(yīng)運(yùn)而生。同時(shí),隨著信息技術(shù)的全面發(fā)展,深度學(xué)習(xí)算法在許多新興技術(shù)中扮演著重要的角色,例如無人駕駛汽車、人臉識別、圖片識別及分類、機(jī)器翻譯、目標(biāo)識別、情感識別和藝術(shù)創(chuàng)作等。

      1 深度學(xué)習(xí)算法發(fā)展現(xiàn)狀

      任何事物的發(fā)展都具有兩面性,深度學(xué)習(xí)算法也不例外。深度學(xué)習(xí)算法區(qū)別于傳統(tǒng)的機(jī)器學(xué)習(xí),網(wǎng)絡(luò)層級更為復(fù)雜,需要更多的訓(xùn)練樣本。盡管深度學(xué)習(xí)算法應(yīng)用廣泛,功能強(qiáng)大,但隨著應(yīng)用需求的多樣性拓展和對海量訓(xùn)練樣本的操作需求,其缺陷也逐漸浮現(xiàn)。

      1.1 只能根據(jù)既有的樣本數(shù)據(jù)學(xué)習(xí),無法判斷數(shù)據(jù)是否正確

      深度學(xué)習(xí)模仿樣本數(shù)據(jù)中的內(nèi)容,對于數(shù)據(jù)正確與否無法判斷。即深度學(xué)習(xí)側(cè)重“學(xué)習(xí)”,基于數(shù)據(jù)中內(nèi)容出現(xiàn)的頻率而做出判斷,對于數(shù)據(jù)的內(nèi)涵無法深刻理解,這導(dǎo)致深度學(xué)習(xí)得出的結(jié)果常常違背社會發(fā)展的規(guī)則,甚至令人啼笑皆非。例如,某公司員工樣本模型中男性多于女性,那么深度學(xué)習(xí)在招聘中則會優(yōu)先篩選和識別男性應(yīng)聘者。這一結(jié)論顯然是違背公平原則的,因而深度學(xué)習(xí)判斷結(jié)果需要大量、豐富且多元的樣本支持。

      1.2 無法自動修正學(xué)習(xí)結(jié)果

      深度學(xué)習(xí)的訓(xùn)練結(jié)果無法自動修正,即無法在訓(xùn)練之后再加以局部修補(bǔ),這是因?yàn)槠鋬H僅是一個(gè)神經(jīng)網(wǎng)絡(luò),不具備智能修正功能。此外,數(shù)據(jù)、網(wǎng)絡(luò)和連接具有復(fù)雜性,哪怕是微小的變化,也會引發(fā)深度學(xué)習(xí)模型的重大失誤,對訓(xùn)練結(jié)果造成重大影響,使結(jié)論偏離原有的方向。深度學(xué)習(xí)算法的訓(xùn)練取決于深度學(xué)習(xí)模型的數(shù)據(jù)特征,因而深度學(xué)習(xí)要想獲得一個(gè)有效的、實(shí)用性強(qiáng)的訓(xùn)練結(jié)果,技術(shù)人員就必須構(gòu)建一個(gè)數(shù)據(jù)多元、完全平衡、公正公平且鮮少難見的真實(shí)世界的數(shù)據(jù)模型,對其進(jìn)行訓(xùn)練[1]。

      1.3 無法解釋做出的決策

      深度學(xué)習(xí)的原則是利用深度來取代廣度,這樣可以進(jìn)一步減少參數(shù)的應(yīng)用范圍,提高數(shù)據(jù)擬合能力。因此,在很多情況下,深度學(xué)習(xí)算法在大多數(shù)情況下比傳統(tǒng)的機(jī)器學(xué)習(xí)更具有優(yōu)勢。但其擺脫不了固有的原理,即深度學(xué)習(xí)仍然是一個(gè)映射f(x)=y,例如x是輸入的手寫數(shù)字圖片,那么y就是0~9中的一個(gè)。深度學(xué)習(xí)給出的是非自然(合法)語言解釋的結(jié)果,這樣的結(jié)果往往符合代碼和算法規(guī)則,卻很難被人類理解并接受。它無法理解人類的情感、倫理,例如公平、正義和道德,只會根據(jù)樣本的偏好訓(xùn)練獲得傾向性結(jié)果。

      1.4 缺乏先驗(yàn)性

      深度學(xué)習(xí)是相對獨(dú)立的一種算法,它一次只能解決一個(gè)問題,無法跨越多個(gè)域獲取數(shù)據(jù)并創(chuàng)建復(fù)雜算法[2]。訓(xùn)練模型不會對數(shù)據(jù)進(jìn)行自適應(yīng),一旦數(shù)據(jù)發(fā)生變化,深度學(xué)習(xí)系統(tǒng)就要重新進(jìn)行模型培訓(xùn)和測試。關(guān)于人類最基礎(chǔ)的物理學(xué)和基礎(chǔ)數(shù)學(xué),深度學(xué)習(xí)中也無法自主獲得,必須通過明確的編程將其納入人工智能系統(tǒng)才可能實(shí)現(xiàn)。

      1.5 需要耗費(fèi)巨大的算力資源

      一個(gè)普通的深度學(xué)習(xí)模型往往需要強(qiáng)大的CPU能力支持,甚至是GPUs,這會導(dǎo)致應(yīng)用成本十分高昂,一般企業(yè)或地方政府鮮有余力承受這樣高額的經(jīng)濟(jì)支出。

      2 預(yù)訓(xùn)練模型

      深度學(xué)習(xí)算法存在的諸多問題都與訓(xùn)練模型中的樣本數(shù)據(jù)有關(guān)。因而,在正式訓(xùn)練開展之前,要想提高深度學(xué)習(xí)算法的準(zhǔn)確性和可行性,需要建立預(yù)訓(xùn)練模型,對其加以反復(fù)訓(xùn)練,并對訓(xùn)練結(jié)果加以分析,不斷修正數(shù)據(jù)偏差,建立相對公平、公正且符合人類期待的預(yù)訓(xùn)練模型。

      2.1 預(yù)訓(xùn)練模型的概念

      預(yù)訓(xùn)練模型是使自然語言處理由原來的手工調(diào)整參數(shù)、依靠ML專家的階段,進(jìn)入可以大規(guī)模、可復(fù)制的大工業(yè)實(shí)戰(zhàn)階段[3],從單語言擴(kuò)展到多語言、多模態(tài)任務(wù),具備更豐富、更智能的特征。預(yù)訓(xùn)練模型基于遷移學(xué)習(xí)原理,賦予計(jì)算機(jī)聽說讀寫、搜索翻譯、問答對話和摘要總結(jié)等能力。

      2.2 預(yù)訓(xùn)練模型的應(yīng)用特征

      首先,預(yù)訓(xùn)練模型實(shí)質(zhì)是一種遷移學(xué)習(xí)的應(yīng)用,其利用幾近無限的文本,學(xué)習(xí)輸入的句子中每一個(gè)部分上下文相關(guān)的表示,從隱藏層面的學(xué)習(xí)升級為通用的語法和語義知識[4]。

      其次,預(yù)訓(xùn)練模型將從開放領(lǐng)域?qū)W到的知識遷移到下游任務(wù),目標(biāo)在于改善低資源任務(wù)這樣非常有利于處理的資源語言。

      再次,預(yù)訓(xùn)練模型在幾乎全部的自然語言處理任務(wù)中都獲得了目前最好的成績。因而利用這樣的預(yù)訓(xùn)練模型獲得的結(jié)果更符合人類需求,其可行性更強(qiáng),應(yīng)用更能落到實(shí)處。

      最后,預(yù)訓(xùn)練模型+微調(diào)機(jī)制擁有良好的可擴(kuò)展性,當(dāng)需要支持一個(gè)新任務(wù)時(shí),技術(shù)人員僅僅將該任務(wù)中的標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)即可。微調(diào)是將頂部的幾層解凍,將解凍的幾層和新增的部分,如全連接層聯(lián)合訓(xùn)練。微調(diào)是略微調(diào)整復(fù)用模型更加抽象的表示部分,這樣可以使模型與當(dāng)前求解問題更加相關(guān)。

      3 預(yù)訓(xùn)練模型在深度學(xué)習(xí)算法中的應(yīng)用

      當(dāng)需要使用深度學(xué)習(xí)算法執(zhí)行某個(gè)任務(wù)時(shí),在一個(gè)原始任務(wù)上預(yù)先訓(xùn)練一個(gè)初始模型,然后在目標(biāo)任務(wù)上使用該模型,針對目標(biāo)任務(wù)的特性,精細(xì)調(diào)整該初始模型,進(jìn)而實(shí)現(xiàn)目標(biāo)任務(wù)甚至超要求完成任務(wù)。從根本上而言,這是一種遷移學(xué)習(xí)的方式,使用預(yù)先訓(xùn)練好的模型,完成當(dāng)前的目標(biāo)任務(wù)。這對文本語言而言,具有一定的天然的標(biāo)注特征存在。這是因?yàn)槲谋居?xùn)練模型不僅可以根據(jù)之前輸入的詞語進(jìn)行預(yù)測,而且文本詞語一般較為豐富且數(shù)量眾多,可形成一個(gè)巨大的預(yù)訓(xùn)練數(shù)據(jù),提供自監(jiān)督效果。這是依據(jù)之前詞語輸出的,具有自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練[3]。

      具體而言,針對深度學(xué)習(xí)算法存在的問題,可以考慮使用ELMo模型、GPT模型兩個(gè)預(yù)訓(xùn)練模型加以改進(jìn)。

      3.1 ELMo模型

      早前的深度學(xué)習(xí)算法,無法解決一詞多義的問題,無法理解任務(wù)復(fù)雜的語境。ELMo模型針對這種情況具有靶向改善效果。該模型通過深層雙向語言模型構(gòu)建文本,可以有效解決一詞多義的問題。

      ELMo基于大規(guī)模的無監(jiān)督語料,構(gòu)建了一個(gè)預(yù)訓(xùn)練雙向LSTM語言模型。該模型分為兩個(gè)階段:第一階段是大規(guī)模語料庫上利用語言模型進(jìn)行預(yù)訓(xùn)練;第二個(gè)階段是在做下游任務(wù)時(shí),從預(yù)訓(xùn)練網(wǎng)絡(luò)中提取的對應(yīng)單詞的網(wǎng)絡(luò)各層詞嵌入作為新特征補(bǔ)充到下游任務(wù)中。它是一種典型的基于特征融合的預(yù)訓(xùn)練模型,它的模型結(jié)構(gòu)如圖1所示。

      ELMo模型大大減少了所需訓(xùn)練數(shù)據(jù)數(shù)量,不僅縮短了深度學(xué)習(xí)算法的學(xué)習(xí)時(shí)間,也能賦予深度學(xué)習(xí)算法一定程度的理解能力,提升用戶對訓(xùn)練結(jié)果的滿意度,可以減少訓(xùn)練結(jié)果不盡如人意的情況,使訓(xùn)練結(jié)果更具有可操作性和落地時(shí)效性。

      3.2 GPT模型

      ELMo使計(jì)算機(jī)界意識到了基于大規(guī)模預(yù)料集預(yù)訓(xùn)練的語言模型的效果,與此同時(shí),Transformer的提出使得其在處理長期依賴性任務(wù)方面比LSTM有更好的表現(xiàn),它在機(jī)器翻譯等任務(wù)上取得的成果也被認(rèn)為是LSTM的替代品。在此背景下,OpenAI的ALEC R等[5]提出了生成式預(yù)訓(xùn)練語言模型。

      GPT模型也分為兩階段:第一階段利用無監(jiān)督的預(yù)訓(xùn)練語言模型進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的初始參數(shù);第二階段通過有監(jiān)督的微調(diào)模式解決下游任務(wù),這是一種半監(jiān)督的方法,結(jié)合了非監(jiān)督的預(yù)訓(xùn)練模型和監(jiān)督的微調(diào)模型,是一種通用的表示法。

      GPT模型的部分凍結(jié)網(wǎng)絡(luò)結(jié)構(gòu),微調(diào)操作可以減少重新訓(xùn)練的計(jì)算量,提升訓(xùn)練速度,同時(shí)優(yōu)化深度學(xué)習(xí)空間。中小型預(yù)訓(xùn)練模型可有效節(jié)約算力資源,節(jié)省深度學(xué)習(xí)算法所需的空間,降低操作成本。

      4 預(yù)訓(xùn)練模型存在的不足

      預(yù)訓(xùn)練模型雖然在優(yōu)化深度學(xué)習(xí)算法方面有很大優(yōu)勢,但由于模型數(shù)量、類別眾多,訓(xùn)練目標(biāo)任務(wù)也各不相同,其也不可避免地存在一些缺陷。

      (1)一般預(yù)訓(xùn)練模型都較大,包含的參數(shù)數(shù)量眾多,凍結(jié)的模型結(jié)構(gòu)固化,靈活性相對較弱,網(wǎng)絡(luò)結(jié)構(gòu)可調(diào)節(jié)性弱。由于模型規(guī)模較大,計(jì)算量隨之增加,應(yīng)用場景有一定限制。

      (2)分類較多,促使預(yù)訓(xùn)練模型在執(zhí)行監(jiān)測任務(wù)時(shí)容易導(dǎo)致函數(shù)丟失,與類別分布差異較大,優(yōu)化空間的功能因不同的任務(wù)模型存在差異。

      (3)凍結(jié)微調(diào)部分網(wǎng)絡(luò)結(jié)構(gòu)時(shí),需指定目標(biāo)類別,對于差異較大的目標(biāo)類別分布,微調(diào)效果微弱。

      具體而言,最大的缺陷集中在過擬合模型上。在深度學(xué)習(xí)中,假設(shè)數(shù)據(jù)滿足獨(dú)立同分布(Independently & Identically Distributed,IID),即當(dāng)前已產(chǎn)生的數(shù)據(jù)可以對未來的數(shù)據(jù)進(jìn)行推測與模擬,使用歷史數(shù)據(jù)建立模型,即使用已經(jīng)產(chǎn)生的數(shù)據(jù)去訓(xùn)練,然后使用該模型去擬合未來的數(shù)據(jù)。但是一般獨(dú)立同分布的假設(shè)往往不成立,即數(shù)據(jù)的分布可能會發(fā)生變化(Distribution Drift),并且可能當(dāng)前的數(shù)據(jù)量過少,不足以對整個(gè)數(shù)據(jù)集進(jìn)行分布估計(jì),因此往往需要防止模型過擬合,提高模型泛化能力。為了達(dá)到該目的,最常見的方法便是正則化,即在對模型的目標(biāo)函數(shù)(Objective Function)或代價(jià)函數(shù)(Cost Function)加上正則項(xiàng)[6]。

      這樣會導(dǎo)致訓(xùn)練模型需要緊密或精確地匹配特定數(shù)據(jù)集,以至于無法良好地?cái)M合其他數(shù)據(jù)或預(yù)測未來的觀察結(jié)果的現(xiàn)象。在對參數(shù)過多或者結(jié)構(gòu)過于復(fù)雜的統(tǒng)計(jì)模型進(jìn)行訓(xùn)練時(shí),有可能由于預(yù)訓(xùn)練模型數(shù)據(jù)不夠,即訓(xùn)練數(shù)據(jù)無法對整個(gè)數(shù)據(jù)的分布進(jìn)行估計(jì)的時(shí)候,或者在對模型進(jìn)行過度訓(xùn)練(Overtraining)時(shí),常常會導(dǎo)致模型的過擬合(Overfitting)[6],如圖2所示。

      從圖2可以看出,隨著模型正式用于深度學(xué)習(xí)算法的訓(xùn)練,模型的復(fù)雜度逐漸增加,此時(shí)模型在訓(xùn)練數(shù)據(jù)集上的訓(xùn)練誤差會逐漸減小,但是在模型的復(fù)雜度達(dá)到一定程度時(shí),模型在驗(yàn)證集上的誤差反而隨著模型的復(fù)雜度增加而增大。此時(shí)便發(fā)生了過擬合,即模型的復(fù)雜度升高,但是該模型在除訓(xùn)練集之外的數(shù)據(jù)集上卻不奏效[7]。

      5 結(jié)語

      當(dāng)前,深度學(xué)習(xí)算法隨著智能時(shí)代的到來,應(yīng)用愈加深入,未來也將發(fā)揮更加重要的作用。本研究針對深度學(xué)習(xí)算法發(fā)展中存在的幾個(gè)常見問題,提出了利用ELMo模型和GPT模型改善缺點(diǎn)的策略。ELMo模型通過深層雙向語言模型構(gòu)建文本表示改善了特征維度過多的問題,對于深度學(xué)習(xí)存在的無法解釋的傾向性訓(xùn)練結(jié)果有改進(jìn)效果。GPT模型采用的微調(diào)模型,順應(yīng)局部性原理,簡化了模型假設(shè)復(fù)雜的體量,這些策略都極大地提高了計(jì)算卷積的速度。盡管預(yù)訓(xùn)練模型仍存在一定缺陷,但是隨著計(jì)算機(jī)技術(shù)的發(fā)展,未來這些缺陷也將一一克服,其發(fā)展前景依然廣闊。

      參考文獻(xiàn)

      [1]張超群.基于深度學(xué)習(xí)的字符識別[D].成都:電子科技大學(xué),2016.

      [2]加里·馬庫斯.深度學(xué)習(xí):批判性思維的研究[EB/OL].(2019-09-11)[2022-08-16].https://www.bilibili.com/video/av67393092.

      [3]王浩暢,孫孟冉,趙鐵軍.基于ELMO的低資源神經(jīng)機(jī)器翻譯[J].計(jì)算機(jī)與現(xiàn)代化,2021(7):38-42.

      [4]DXW.李理:從Image Caption Generation理解深度學(xué)習(xí)(part II)[EB/OL].(2016-09-06)[2022-12-20].http://www.360doc.com/content/16/0905/09/31460730_588500799.shtml.

      [5]ALEC R, KARTHIK N, TIM S, et al.Improving language understanding by generative pre-training[EB/OL].(2019-08-16)[2023-02-15].https://www.docin.com/p-2176538517.html.

      [6]深度機(jī)器學(xué)習(xí).深度學(xué)習(xí),過擬合問題[EB/OL].(2018-06-20)[2022-12-20].https://www.cnblogs.com/eilearn/p/9203186.html.

      [7]微軟亞洲研究院.為什么要做預(yù)訓(xùn)練模型[EB/OL].(2022-08-05)[2022-08-13].https://www.zhihu.com/question/327642286.

      (編輯 王雪芬)

      Optimization study of deep learning algorithm based on pre-training model

      Gu? Yurong

      (Bayin Guo Leng Vocational and Technical College, Korla 841000, China)

      Abstract:? In recent years, pre-trained models have been more widely used in deep learning algorithms, and their specific functions have become more perfect. The paper first expounds the research progress of deep learning and its problems existing. Secondly, it introduces the concept, application mode and its role in the optimization of deep learning algorithm, and finally summarizes the shortcomings, solution strategies and development prospects of the pre-training model. With the further development of natural language processing technology, the drawbacks of deep learning algorithms based on pre-training models have been partially eliminated, and the future development prospect is worth looking forward to.

      Key words: pre-training model; deep learning; computer; information age

      猜你喜歡
      信息時(shí)代深度學(xué)習(xí)計(jì)算機(jī)
      計(jì)算機(jī)操作系統(tǒng)
      基于計(jì)算機(jī)自然語言處理的機(jī)器翻譯技術(shù)應(yīng)用與簡介
      科技傳播(2019年22期)2020-01-14 03:06:34
      面對信息時(shí)代 成長的孩子們
      中華家教(2018年8期)2018-09-25 03:22:42
      信息時(shí)代的智慧教育
      商周刊(2018年14期)2018-07-14 02:41:08
      統(tǒng)計(jì)工作如何應(yīng)對信息時(shí)代的挑戰(zhàn)
      信息系統(tǒng)審計(jì)中計(jì)算機(jī)審計(jì)的應(yīng)用
      信息時(shí)代
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      甘谷县| 哈密市| 龙南县| 乐业县| 遂川县| 龙南县| 宝坻区| 大竹县| 海伦市| 迁西县| 天气| 陈巴尔虎旗| 双鸭山市| 陇西县| 兖州市| 新巴尔虎左旗| 青海省| 崇文区| 玉林市| 合水县| 安仁县| 上虞市| 额敏县| 方城县| 淮南市| 巴中市| 襄汾县| 凤凰县| 墨竹工卡县| 元江| 伊吾县| 微博| 庄河市| 洪泽县| 团风县| 丰城市| 黑河市| 阿拉善右旗| 南召县| 丰县| 包头市|