• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      神通Transformer:深度學(xué)習(xí)領(lǐng)域的黑科技

      2023-06-07 16:31:17
      中國信息技術(shù)教育 2023年11期
      關(guān)鍵詞:微調(diào)領(lǐng)域文本

      主持人:

      楊? 磊? 天津市第五中學(xué)

      嘉? 賓:

      邱元陽? 河南省安陽縣職業(yè)中專

      劉宗凡? 廣東省四會(huì)市四會(huì)中學(xué)

      金? 琦? 浙江師范大學(xué)附屬中學(xué)

      倪俊杰? 浙江省桐鄉(xiāng)市鳳鳴高中

      應(yīng)用沙龍

      編者按:大型神經(jīng)網(wǎng)絡(luò)模型具備龐大的參數(shù)數(shù)量和計(jì)算量,被稱為大模型,可解決自然語言處理、圖像識(shí)別和語音識(shí)別等各類任務(wù)。訓(xùn)練大模型通常需要高性能計(jì)算設(shè)備和大規(guī)模數(shù)據(jù)集。由于Transformer可以處理大規(guī)模文本數(shù)據(jù)并構(gòu)建更復(fù)雜的語言模型,因此它被廣泛應(yīng)用于大模型中。本期我們將繼續(xù)介紹Transformer在深度學(xué)習(xí)領(lǐng)域中的應(yīng)用。

      模型、大模型與超大模型

      楊磊:隨著技術(shù)的不斷發(fā)展和迭代,越來越多的大模型和超大模型被應(yīng)用于各種領(lǐng)域,并取得了顯著的成果。那么,如何界定模型、大模型和超大模型?

      劉宗凡:模型是機(jī)器學(xué)習(xí)的核心概念,是從數(shù)據(jù)中映射出規(guī)律和模式的函數(shù),它的本質(zhì)是對(duì)現(xiàn)實(shí)世界中數(shù)據(jù)和規(guī)律的描述和抽象。機(jī)器學(xué)習(xí)是一種人工智能技術(shù),其目的是通過計(jì)算機(jī)算法從現(xiàn)有數(shù)據(jù)中學(xué)習(xí)和發(fā)現(xiàn)應(yīng)用模式,以便預(yù)測或做出決策。在機(jī)器學(xué)習(xí)中,模型是一個(gè)重要的概念,因?yàn)槠浒缪萘藢W(xué)習(xí)和預(yù)測的核心角色。簡而言之,模型就是從給定數(shù)據(jù)的輸入中預(yù)測出對(duì)應(yīng)輸出的函數(shù),其核心任務(wù)是利用給定的數(shù)據(jù)集訓(xùn)練模型并調(diào)節(jié)其參數(shù),使其能夠更好地?cái)M合數(shù)據(jù)進(jìn)行預(yù)測。模型的本質(zhì)是對(duì)真實(shí)世界中的數(shù)據(jù)和規(guī)律進(jìn)行抽象和描述,對(duì)現(xiàn)實(shí)世界的復(fù)雜性進(jìn)行簡化。例如,對(duì)于一個(gè)簡單的二分類問題,模型可以是一個(gè)樣本點(diǎn)的一堆數(shù)學(xué)表達(dá)式的組合,但這些表達(dá)式背后的數(shù)學(xué)原理、公式和變量,卻是對(duì)整個(gè)問題的描述和抽象。因此,模型在機(jī)器學(xué)習(xí)中是無可替代的,其得出的結(jié)果決定了訓(xùn)練模型的準(zhǔn)確性和泛化能力。在機(jī)器學(xué)習(xí)中,模型可以是線性、非線性、簡單或復(fù)雜的。其中,最常用的模型是線性模型和隨機(jī)森林模型。線性模型是最簡單的模型之一,它利用線性方程對(duì)數(shù)據(jù)進(jìn)行建模,如單一變量、多元線性回歸等。線性模型受限于其簡潔性,需要根據(jù)實(shí)際情況加以改進(jìn)。

      大規(guī)模深度神經(jīng)網(wǎng)絡(luò)模型已成為機(jī)器學(xué)習(xí)和人工智能領(lǐng)域的一個(gè)熱門話題,尤其是在處理具有挑戰(zhàn)性的問題方面,這類模型可以通過在大規(guī)模的數(shù)據(jù)集中進(jìn)行訓(xùn)練和調(diào)整來達(dá)到極高的精度。在這些模型中,大模型和超大模型是最常見的兩種,雖然兩者在參數(shù)數(shù)量和規(guī)模上存在一定的差異,但它們的作用和意義都是一樣的。

      大模型通常指的是那些具有大量參數(shù),需要大規(guī)模數(shù)據(jù)集和計(jì)算資源以進(jìn)行訓(xùn)練和調(diào)整的深度神經(jīng)網(wǎng)絡(luò)模型。這樣的網(wǎng)絡(luò)可以被用于各種任務(wù),如語音識(shí)別、圖像識(shí)別、自然語言翻譯等。在這些任務(wù)中,網(wǎng)絡(luò)需要學(xué)習(xí)從輸入中抽取出有用的特征,并輸出相應(yīng)的結(jié)果。例如,輸入一張圖片并輸出它所代表的物體類別。對(duì)于這種模型,訓(xùn)練所需的計(jì)算資源是一個(gè)重要的限制因素。因?yàn)橛?jì)算資源越多,網(wǎng)絡(luò)就可以擁有更多的層和參數(shù),而這些層和參數(shù)是用來捕捉輸入數(shù)據(jù)中更多的信息。由于訓(xùn)練速度的限制,大型網(wǎng)絡(luò)的訓(xùn)練可能需要花費(fèi)數(shù)天、數(shù)周乃至數(shù)月的時(shí)間。此外,大規(guī)模數(shù)據(jù)集也需要足夠多的數(shù)據(jù)以減少過度擬合的情況,如ImageNet數(shù)據(jù)集就包括了超過一千萬張圖片以及超過一千個(gè)物體類別。雖然大型神經(jīng)網(wǎng)絡(luò)的計(jì)算和訓(xùn)練需求巨大,但這樣的網(wǎng)絡(luò)結(jié)構(gòu)已經(jīng)成為許多領(lǐng)域中最先進(jìn)的解決方案,在計(jì)算機(jī)視覺和語音處理領(lǐng)域也表現(xiàn)出了很好的應(yīng)用效果。這意味著,在未來,大模型仍然會(huì)繼續(xù)發(fā)揮重要的作用,并且可能會(huì)變得更加精細(xì)和復(fù)雜。

      隨著大型網(wǎng)絡(luò)在深度學(xué)習(xí)中的成功,研究者們開始考慮是否可以創(chuàng)建更大的神經(jīng)網(wǎng)絡(luò)模型以解決更加困難的問題。在這樣的情況下,超大模型便應(yīng)運(yùn)而生。超大模型擁有數(shù)萬億到數(shù)千萬億的參數(shù),是目前計(jì)算機(jī)科學(xué)領(lǐng)域中最大的網(wǎng)絡(luò)模型之一。這種超大的神經(jīng)網(wǎng)絡(luò)模型需要大量的計(jì)算資源和訓(xùn)練數(shù)據(jù)。例如,OpenAI在訓(xùn)練超大模型GPT-3時(shí)使用了3200個(gè)V100 GPU和1750億個(gè)參數(shù)。雖然這些超大模型的訓(xùn)練成本極高,但是對(duì)于具有挑戰(zhàn)性的任務(wù),如自然語言處理、語音合成和音樂生成等,這些模型通常要比小型的模型能夠產(chǎn)生更好的性能。

      倪俊杰:超大模型有著廣泛的應(yīng)用前景。例如,在自然語言處理方面,超大模型可以通過學(xué)習(xí)大量的文本語料庫來構(gòu)建語言模型,在文本生成、文本分類和命名實(shí)體識(shí)別等任務(wù)方面表現(xiàn)出色。在圖像識(shí)別和計(jì)算機(jī)視覺領(lǐng)域,通過使用超大模型,可以更好地捕捉圖像中的細(xì)節(jié)和上下文,并減少類似于過度擬合的問題。

      超大模型的發(fā)展在一定程度上受到計(jì)算資源限制。如果沒有大量的計(jì)算資源,研究者和開發(fā)者們就無法訓(xùn)練和優(yōu)化這些模型。除此之外,超大模型還面臨著缺少分類和其他領(lǐng)域的支持?jǐn)?shù)據(jù),因此,研究者需要重新思考如何更好地挖掘這些極值模型的價(jià)值。

      大模型和超大模型對(duì)未來人工智能的發(fā)展具有深遠(yuǎn)的影響。在機(jī)器學(xué)習(xí)、深度學(xué)習(xí)領(lǐng)域以及解決大型復(fù)雜問題的算法研究中,這些模型可以在數(shù)據(jù)處理和計(jì)算能力方面提高模型的表現(xiàn)并產(chǎn)生新的應(yīng)用。未來,我們可能會(huì)看到更加復(fù)雜并高效的大型和超大型模型的出現(xiàn),這些模型將推動(dòng)人工智能領(lǐng)域的飛速發(fā)展。

      谷歌的BERT和OpenAI的GPT

      楊磊:BERT和GPT都是基于Transformer架構(gòu)的預(yù)訓(xùn)練模型,用于自然語言處理任務(wù)。那么從預(yù)訓(xùn)練的角度看,它們之間有什么區(qū)別呢?

      邱元陽:自然語言處理是一項(xiàng)日益重要的任務(wù),需要將人類語言轉(zhuǎn)換為計(jì)算機(jī)可處理的形式,從而使計(jì)算機(jī)能夠理解和處理文本數(shù)據(jù)。在這個(gè)領(lǐng)域中,預(yù)訓(xùn)練模型在最近幾年中引起了人們極大的興趣。其中,使用Transformer架構(gòu)的預(yù)訓(xùn)練模型(如BERT、GPT等)已經(jīng)成為自然語言處理領(lǐng)域的頂尖解決方案。

      BERT(Bidirectional Encoder Representations from Transformers)是一種雙向語言模型,由Google在2018年提出。它通過預(yù)訓(xùn)練和微調(diào)的方式,可以用于文本分類、問答等任務(wù)。在預(yù)訓(xùn)練階段,BERT利用大規(guī)模無標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,學(xué)習(xí)到自然語言的語義和語法信息。BERT采用了雙向語言模型,即利用上下文信息來預(yù)測當(dāng)前詞語,主要方法有兩種:Masked Language Model(MLM)和Next Sentence Prediction(NSP)。MLM方法首先會(huì)在輸入文本序列中隨機(jī)選擇一定比例的詞語,并將這些被選中的詞語隨機(jī)替換成一個(gè)特殊的標(biāo)記,稱為[MASK]。其次,模型會(huì)嘗試預(yù)測這些被覆蓋的[MASK]標(biāo)記的正確詞語。預(yù)測的方式是利用模型對(duì)整個(gè)輸入序列的理解實(shí)現(xiàn)上下文感知的預(yù)測。對(duì)于預(yù)訓(xùn)練過程中提供的輸入文本序列中未被替換的詞語,模型則可以從上下文中準(zhǔn)確地學(xué)習(xí)它們的表示。而NSP方法是為了讓模型具有理解文本上下文之間關(guān)系的能力。具體來說,NSP的預(yù)訓(xùn)練任務(wù)是從一大堆文本中提供兩個(gè)句子。在這兩個(gè)句子之間隨機(jī)選取一個(gè)標(biāo)志,在輸入中把這個(gè)標(biāo)志插入第一個(gè)句子和第二個(gè)句子之間,然后將文本輸入BERT模型中,生成一個(gè)表示兩個(gè)句子連接的向量。預(yù)訓(xùn)練任務(wù)的目標(biāo)是讓模型學(xué)會(huì)理解兩個(gè)句子之間是否有聯(lián)系,并預(yù)測下一個(gè)句子是什么。采用這個(gè)方法的目的是教會(huì)模型理解和處理不同的文本任務(wù)(如問答、命名實(shí)體識(shí)別、情感分析等),因?yàn)樵S多任務(wù)都需要模型理解文本上下文之間的關(guān)系。通過訓(xùn)練模型推斷下一個(gè)句子,模型能夠在各種自然語言處理任務(wù)中更好地理解文本的含義和結(jié)構(gòu)。這兩種方法通過語言模型和推斷兩個(gè)方面來預(yù)訓(xùn)練模型,使BERT能夠理解上下文關(guān)系并將其應(yīng)用于各種自然語言處理任務(wù)中。在微調(diào)階段,BERT利用有標(biāo)注數(shù)據(jù)進(jìn)行微調(diào),以適應(yīng)具體任務(wù)的需求,即將已經(jīng)經(jīng)過大規(guī)模預(yù)訓(xùn)練的語言模型微調(diào)到特定的自然語言處理任務(wù)上。在微調(diào)之前,首先需要在大規(guī)模的語料庫上進(jìn)行預(yù)訓(xùn)練,得到語言模型的參數(shù)。在微調(diào)時(shí),BERT模型需要通過微調(diào)進(jìn)一步調(diào)整模型參數(shù)以適應(yīng)具體的任務(wù),而通常只需要微調(diào)較少的參數(shù)就可以達(dá)到良好的效果。BERT的微調(diào)方式可以有效地提高模型在具體任務(wù)中的準(zhǔn)確率,尤其適用于需要理解上下文信息的任務(wù)。

      GPT(Generative Pre-training Transformer)是一種單向語言模型,由OpenAI在2018年提出。它主要用于生成文本,如自動(dòng)寫作、對(duì)話生成等任務(wù)。現(xiàn)在大紅大紫的ChatGPT并不是橫空出世的變革性產(chǎn)物,它及其近親GPT-1/2/3在模型本質(zhì)上沒有重大改變。GPT的預(yù)訓(xùn)練過程只包括MLM任務(wù),它采用了“預(yù)訓(xùn)練—微調(diào)”的訓(xùn)練方式。在預(yù)訓(xùn)練階段,GPT利用大規(guī)模無標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,學(xué)習(xí)到自然語言的語義和語法信息。GPT的預(yù)訓(xùn)練方法主要是基于單向語言模型,即利用上文信息來預(yù)測當(dāng)前詞語。預(yù)訓(xùn)練階段主要是學(xué)習(xí)文本的表示,使得模型在微調(diào)階段能夠更好地適應(yīng)具體任務(wù)的需求。與BERT不同,GPT通過提示詞(Prompt)的方式進(jìn)行微調(diào),通過在一個(gè)較大的語言模型上進(jìn)行迭代訓(xùn)練,根據(jù)給定的Prompt生成相應(yīng)的輸出。Prompt是指為生成語言任務(wù)提供的一些提示,如前面一小段文本或一些關(guān)鍵詞等。GPT將Prompt的輸入與訓(xùn)練后的語言模型結(jié)合,生成與Prompt相關(guān)的輸出結(jié)果。GPT的提示詞方式使得模型在針對(duì)特定任務(wù)時(shí)能夠更好地基于一些提示信息生成相應(yīng)的文本輸出,適用于需要生成自然語言文本的任務(wù)。

      無論是BERT還是GPT,它們都證明了Transformer架構(gòu)在自然語言處理領(lǐng)域的優(yōu)秀性能,并且為自然語言處理任務(wù)的解決提供了強(qiáng)大的工具。

      Transformer在視覺領(lǐng)域的發(fā)展

      楊磊:眾所周知,Transformer已經(jīng)在自然語言處理領(lǐng)域大放異彩,那么在視覺領(lǐng)域,如圖像分類和視頻生成等表現(xiàn)如何呢?

      金琦:在視覺領(lǐng)域,Transformer模型也被應(yīng)用于圖像分類和視頻生成等任務(wù),但是相對(duì)于自然語言處理領(lǐng)域,它的表現(xiàn)可能并不那么出色。這主要是因?yàn)門ransformer模型在自然語言處理領(lǐng)域中的優(yōu)勢在于其能夠處理序列數(shù)據(jù),而圖像和視頻數(shù)據(jù)則是二維和三維的數(shù)據(jù)結(jié)構(gòu),與序列數(shù)據(jù)有很大的區(qū)別。目前,已經(jīng)有一些基于Transformer的視覺模型被提出,如Vision Transformer(ViT)和Swin Transformer等。

      ViT最初由Google Brain團(tuán)隊(duì)在2020年提出,它是一種基于Transformer的圖像分類模型,采用了將圖像劃分為若干個(gè)小塊,然后利用Transformer進(jìn)行編碼的方式,實(shí)現(xiàn)對(duì)整個(gè)圖像的理解,模型原理如下頁圖1所示。

      使用大規(guī)模數(shù)據(jù)集對(duì)ViT進(jìn)行預(yù)訓(xùn)練,然后對(duì)小型下游任務(wù)進(jìn)行微調(diào)。為此,刪除預(yù)訓(xùn)練的預(yù)測頭,添加一個(gè)用0初始化的D*K前饋層,其中K是下游任務(wù)的類別數(shù)。對(duì)于高分辨率任務(wù),微調(diào)通常很有幫助。ViT能夠處理任意長度的序列,但預(yù)訓(xùn)練的位置嵌入可能不再適用。因此,根據(jù)預(yù)訓(xùn)練位置嵌入在原始圖像中的位置,對(duì)它們進(jìn)行2D插值操作。需要注意的是,這種分辨率調(diào)整和塊的抽象只有在手動(dòng)注入到視覺Transformer的2D結(jié)構(gòu)的歸納偏置的情況下才有效。在中等規(guī)模數(shù)據(jù)集上,這種模型可以產(chǎn)生適中的結(jié)果,其精度比ResNets低幾個(gè)百分點(diǎn)。由于Transformer缺乏CNN固有的歸納偏置,因此,在訓(xùn)練不足的數(shù)據(jù)集上可能不能很好地泛化。然而,如果在大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練,則可以獲得出色的結(jié)果。在JFT-300M數(shù)據(jù)集上預(yù)訓(xùn)練的ViT在許多圖像訓(xùn)練基準(zhǔn)上準(zhǔn)確率可以達(dá)到或超越最先進(jìn)的結(jié)果——ImageNet(88.36%)、CIFAR-10(90.50%)、CIFAR-100(94.55%)以及VTAB的19個(gè)任務(wù)(77.16%),這在一定程度上挑戰(zhàn)了傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的地位。

      邱元陽:隨著ViT的提出,越來越多的研究者開始關(guān)注基于Transformer的視覺模型。雖然ViT在圖像分類領(lǐng)域表現(xiàn)出色,但由于其編碼器輸入固定為16×16的圖像塊,因此無法適用于需要更細(xì)致視覺細(xì)節(jié)的密集視覺任務(wù),如目標(biāo)檢測和語義分割。這些任務(wù)的圖像通常比圖像分類數(shù)據(jù)集中的圖像更大,使用較小的圖像塊將增加自注意力層必須處理的塊數(shù),導(dǎo)致注意力機(jī)制計(jì)算復(fù)雜度隨著圖像塊數(shù)量的增加而增加。在2021年,微軟發(fā)布了一款新的視覺Transformer,稱之為Swin Transformer。它可用作計(jì)算機(jī)視覺任務(wù)(如圖像分類、物體檢測和語義分割)的骨干。Swin代表著Shifted windows,為Transformer提供了分層視覺,使用4×4的塊大小在高分辨率圖像上表現(xiàn)更為優(yōu)秀,因?yàn)閂iT的全局注意力方法不適合進(jìn)行語義分割。因此,我們需要更細(xì)致的像素級(jí)預(yù)測,同時(shí)需要考慮注意機(jī)制的計(jì)算復(fù)雜度的改進(jìn)和優(yōu)化方法,Swin Transformer采用了分層的策略,將圖像分為多個(gè)子區(qū)域進(jìn)行編碼,從而實(shí)現(xiàn)對(duì)全局信息的建模,并采用了窗口交換策略,將相鄰子區(qū)域之間的信息進(jìn)行交換,從而實(shí)現(xiàn)了不同子區(qū)域之間的信息交互,具有更好的信息傳遞能力。Swin Transformer通過從小的patch開始逐漸合并深層Transformer層中的相鄰patch來構(gòu)建分層特征映射。例如,Swin Transformer從不重疊的16(4×4)個(gè)本地窗口開始(圖2(a)中底部的紅色正方形),每個(gè)本地窗口都有16(4×4)個(gè)圖像patch。隨著自注意力層在每個(gè)本地窗口內(nèi)計(jì)算,它們只處理16個(gè)圖像patch之間的關(guān)系。與此相反,ViT的注意力層適用于整個(gè)圖像patch(如圖2(b))。如果它使用相同的較小的patch尺寸,則注意力層需要處理256個(gè)patch。由于ViT是一個(gè)圖像分類模型,因此使用較大的patch(粗略特征)是可以的。然而,Swin Transformer需要細(xì)粗特征。在層次結(jié)構(gòu)的下一級(jí)中,Swin Transformer合并相鄰patch以形成4(2×2)個(gè)本地窗口,同樣,自注意力層在每個(gè)本地窗口內(nèi)計(jì)算。因此,這些層只處理16個(gè)特征patch。換句話說,在任何級(jí)別上,每個(gè)窗口中的patch數(shù)量都是相同的。最終,一個(gè)本地窗口覆蓋整個(gè)圖像,并包含16個(gè)特征patch。因此,計(jì)算復(fù)雜度與輸入圖像大小成線性關(guān)系。下面以4×4的patch尺寸處理各種圖像大小來說明這一點(diǎn)。合并相鄰patch會(huì)減小圖像大小,同時(shí)增加每個(gè)patch的感受野,就像ResNet的卷積和最大池層減小特征映射大小,同時(shí)增加感受野一樣。

      與自然語言領(lǐng)域的發(fā)展相比較,Transformer在視覺領(lǐng)域的發(fā)展還處于起步階段,但已經(jīng)展現(xiàn)出了不少有趣的應(yīng)用,前景十分樂觀。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,這種模型將有更廣泛的應(yīng)用,也許未來可以更好地發(fā)揮這種模型的潛力。

      結(jié)語

      楊磊:Transformer和大模型技術(shù)的不斷發(fā)展,在給我們帶來便利的同時(shí),也增加了我們學(xué)習(xí)人工智能的難度。因此,我們只有不斷地學(xué)習(xí)、實(shí)踐和創(chuàng)新,才能更好地掌握這些技術(shù),應(yīng)對(duì)人工智能領(lǐng)域的變化和挑戰(zhàn),發(fā)揮潛力和創(chuàng)造力,創(chuàng)造更多的價(jià)值。希望本期討論可以讓讀者了解Transformer在深度學(xué)習(xí)領(lǐng)域的應(yīng)用,以更好地應(yīng)對(duì)大模型時(shí)代的機(jī)遇和挑戰(zhàn)。

      猜你喜歡
      微調(diào)領(lǐng)域文本
      在808DA上文本顯示的改善
      領(lǐng)域·對(duì)峙
      青年生活(2019年23期)2019-09-10 12:55:43
      基于doc2vec和TF-IDF的相似文本識(shí)別
      電子制作(2018年18期)2018-11-14 01:48:06
      一種新型微調(diào)擠塑模具的設(shè)計(jì)及應(yīng)用
      電線電纜(2018年2期)2018-05-19 02:03:44
      靈活易用,結(jié)合自動(dòng)和手動(dòng)微調(diào)達(dá)到好效果 StormAudio ISP 3D.16 ELITE/PA 16 ELITE
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
      新常態(tài)下推動(dòng)多層次多領(lǐng)域依法治理初探
      全國大部省份結(jié)束2014高考 多地高考模式微調(diào)
      如何快速走進(jìn)文本
      肯定與質(zhì)疑:“慕課”在基礎(chǔ)教育領(lǐng)域的應(yīng)用
      涿鹿县| 信丰县| 微山县| 息烽县| 邵阳市| 昌邑市| 仙居县| 叶城县| 密山市| 喜德县| 大冶市| 沽源县| 桂平市| 安国市| 潍坊市| 马鞍山市| 班玛县| 武义县| 凤冈县| 英超| 通山县| 西安市| 磴口县| 忻州市| 明溪县| 雷山县| 临城县| 林甸县| 涡阳县| 衡东县| 手游| 蚌埠市| 嵊州市| 安徽省| 海盐县| 富民县| 兴义市| 牟定县| 昭通市| 郴州市| 清丰县|