• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      探秘自然語(yǔ)言處理

      2022-03-18 22:39:51
      中國(guó)信息技術(shù)教育 2022年5期
      關(guān)鍵詞:語(yǔ)義向量詞語(yǔ)

      主持人:

      楊? 磊? 天津市第五中學(xué)

      嘉? 賓:

      劉宗凡? 廣東省四會(huì)市四會(huì)中學(xué)

      邱元陽(yáng)? 河南省安陽(yáng)縣職業(yè)中專

      金? 琦? 浙江師范大學(xué)附屬中學(xué)

      倪俊杰? 浙江省桐鄉(xiāng)市鳳鳴高級(jí)中學(xué)

      高手論技

      編者按:深度學(xué)習(xí)是新一代機(jī)器學(xué)習(xí)技術(shù),深度學(xué)習(xí)技術(shù)的不斷發(fā)展對(duì)自然語(yǔ)言處理技術(shù)產(chǎn)生了深遠(yuǎn)的影響。本期我們將討論傳統(tǒng)自然語(yǔ)言處理技術(shù)和以深度學(xué)習(xí)為基礎(chǔ)的新一代自然語(yǔ)言處理技術(shù)基本方法,以及利用深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)自然語(yǔ)言處理應(yīng)用案例。

      計(jì)算機(jī)如何理解自然語(yǔ)言?

      楊磊:人類的語(yǔ)言是交流的有效工具,語(yǔ)言交流也是一種交流方式。人們彼此間的交流離不開語(yǔ)言,盡管可以通過(guò)動(dòng)作和表情傳遞人們的思想,但是語(yǔ)言是其中最重要的,盡管世界各地的人們所用的語(yǔ)言各不相同,但都遵循共同采用的溝通符號(hào)、表達(dá)方式與處理規(guī)則,符號(hào)會(huì)以視覺(jué)、聲音或者觸覺(jué)方式來(lái)傳遞。那么,和人與人的溝通相比,計(jì)算機(jī)是如何理解人類語(yǔ)言的呢?

      倪俊杰:“教”計(jì)算機(jī)理解人類的自然語(yǔ)言,就是將自然語(yǔ)言轉(zhuǎn)化為計(jì)算機(jī)可讀的結(jié)構(gòu)化數(shù)據(jù),使計(jì)算機(jī)能夠理解自然語(yǔ)言在特定領(lǐng)域里所代表的語(yǔ)義、意圖,從用戶輸入中提取出所需的信息理解人類意圖,我們把這個(gè)稱作自然語(yǔ)言理解(NLU)。它是自然語(yǔ)言處理(NLP)的一部分,以語(yǔ)言為對(duì)象,在計(jì)算機(jī)的支持下對(duì)語(yǔ)言信息進(jìn)行定量化的研究,并提供可以讓人與計(jì)算機(jī)共同使用的語(yǔ)言描寫。就像人類擁有可以收集有關(guān)我們周圍世界的信息的眼睛和耳朵等傳感器一樣,計(jì)算機(jī)系統(tǒng)可以配備傳感器來(lái)收集數(shù)據(jù)并提供程序,使它們能夠處理并將這些信息轉(zhuǎn)換為它們可以理解的東西。NLP的兩個(gè)主要階段是數(shù)據(jù)預(yù)處理和模型開發(fā)。數(shù)據(jù)預(yù)處理是準(zhǔn)備數(shù)據(jù)的階段,便于計(jì)算機(jī)處理數(shù)據(jù)。這可以通過(guò)多個(gè)過(guò)程實(shí)現(xiàn),包括:①標(biāo)記化——文本被分成更小的部分;②停用詞去除——從數(shù)據(jù)樣本中去除一些詞,只留下傳達(dá)最多信息的詞;③詞形還原和詞干化——詞被簡(jiǎn)化為它們的詞根形式;④詞性標(biāo)注——詞被標(biāo)注為名詞、動(dòng)詞、形容詞等。模型開發(fā)階段是計(jì)算機(jī)理解自然語(yǔ)言的核心。模型是基于數(shù)據(jù),在算法的控制下,經(jīng)由訓(xùn)練得到的。兩種最廣泛使用的自然語(yǔ)言處理算法類型是:①基于規(guī)則的系統(tǒng)——這種類型的算法在NLP的早期階段就使用過(guò),并且仍在使用中,它基于精心設(shè)計(jì)的語(yǔ)言規(guī)則;②基于機(jī)器學(xué)習(xí)的系統(tǒng)——這類算法依賴于統(tǒng)計(jì)方法,并通過(guò)訓(xùn)練數(shù)據(jù)進(jìn)行改進(jìn)。這些算法在使用機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的組合處理新數(shù)據(jù)集時(shí)改進(jìn)自己的規(guī)則。

      邱元陽(yáng):計(jì)算機(jī)理解人類語(yǔ)言還是極具挑戰(zhàn)性的。當(dāng)前的NLP技術(shù)基于深度學(xué)習(xí),這是人工智能的一個(gè)子集,可以在數(shù)據(jù)中發(fā)現(xiàn)模式并使用這些模式來(lái)提高其理解能力。深度學(xué)習(xí)算法需要大量的標(biāo)記數(shù)據(jù)來(lái)訓(xùn)練和發(fā)現(xiàn)與目標(biāo)的相關(guān)性。收集合適的數(shù)據(jù)集是NLP中最大的挑戰(zhàn)之一。在自然語(yǔ)言處理的早期,基本的機(jī)器學(xué)習(xí)算法被賦予了要搜索的單詞和短語(yǔ)列表,以及對(duì)這些單詞和短語(yǔ)的精確響應(yīng)。深度學(xué)習(xí)提供了更大的靈活性。算法學(xué)習(xí)從大量樣本中識(shí)別說(shuō)話者的意圖,類似于兒童學(xué)習(xí)人類語(yǔ)言的方式。計(jì)算機(jī)系統(tǒng)可以通過(guò)結(jié)合句法和語(yǔ)義技術(shù)來(lái)更好地理解語(yǔ)言。使用句法分析根據(jù)正式的語(yǔ)法規(guī)則來(lái)解析自然語(yǔ)言的有效性,并且語(yǔ)義分析允許計(jì)算機(jī)系統(tǒng)破譯其含義,這就是計(jì)算機(jī)學(xué)習(xí)理解自然語(yǔ)言的方式,但這并不容易。人類花了數(shù)千年的時(shí)間來(lái)發(fā)展自己的語(yǔ)言系統(tǒng),使得人類通過(guò)語(yǔ)言進(jìn)行交流而不必考慮太多,因?yàn)槿祟悘男【驮谟?xùn)練大腦如何使用語(yǔ)言。作為一個(gè)物種在進(jìn)化過(guò)程中,人類的大腦也已經(jīng)適應(yīng)了幾代人的學(xué)習(xí)。通過(guò)語(yǔ)言相互交流涉及復(fù)雜的多感官努力,大腦中的語(yǔ)言中心一直在工作。這就是為什么教計(jì)算機(jī)系統(tǒng)如何理解和使用人類語(yǔ)言是一項(xiàng)如此艱巨的任務(wù)。單詞可以根據(jù)上下文改變含義,并且可以以無(wú)限的方式組合它們。通常,所傳達(dá)信息的含義還取決于文化背景,為計(jì)算機(jī)系統(tǒng)導(dǎo)航增加了另一層模糊性。計(jì)算機(jī)系統(tǒng)通常需要人們通過(guò)一種明確且高度組織化的編程語(yǔ)言與它們進(jìn)行通信。語(yǔ)言——以及人們?nèi)绾问褂盟粩嘧兓氖聦?shí)使這一過(guò)程更加復(fù)雜。語(yǔ)言有規(guī)則,但它們不是一成不變的,可以隨著時(shí)間的推移而發(fā)展。如果現(xiàn)實(shí)世界的語(yǔ)言隨著時(shí)間而改變,那么現(xiàn)在有效的計(jì)算規(guī)則可能會(huì)過(guò)時(shí)。眾所周知,計(jì)算機(jī)難以解釋抽象語(yǔ)言的使用。例如,諷刺很難用NLP技術(shù)檢測(cè)出來(lái)。另外,句子的含義可能會(huì)根據(jù)說(shuō)話者強(qiáng)調(diào)的任何單詞或音節(jié)而改變。在執(zhí)行語(yǔ)音識(shí)別時(shí),NLP算法可能會(huì)忽略一個(gè)人聲音中微小但重要的音調(diào)變化。此外,語(yǔ)音的語(yǔ)氣和語(yǔ)調(diào)會(huì)根據(jù)一個(gè)人的口音而變化,從而使計(jì)算機(jī)系統(tǒng)難以解析。

      自然語(yǔ)言處理的表示學(xué)習(xí)

      金琦:自然語(yǔ)言是典型的非結(jié)構(gòu)化信息,表示學(xué)習(xí)旨在學(xué)習(xí)原始數(shù)據(jù)的表征,作為進(jìn)一步分類或預(yù)測(cè)的有用信息。自然語(yǔ)言的表示可從多個(gè)角度加以定義。從認(rèn)知科學(xué)角度來(lái)說(shuō),語(yǔ)言表示是語(yǔ)言在人腦中的表現(xiàn)形式,關(guān)系到人類如何理解和產(chǎn)生語(yǔ)言;從人工智能角度來(lái)說(shuō),語(yǔ)言表示是語(yǔ)言的形式化或數(shù)學(xué)描述,以便在計(jì)算機(jī)中表示語(yǔ)言,并能讓計(jì)算機(jī)程序進(jìn)行自動(dòng)處理。一個(gè)好的文本表示,首先要具備很強(qiáng)的表示能力,如模型具有一定的深度;其次要使后續(xù)的學(xué)習(xí)任務(wù)變得簡(jiǎn)單,能夠帶來(lái)下游任務(wù)性能的提升;最后應(yīng)具有一般性,是任務(wù)或領(lǐng)域獨(dú)立的。早期的語(yǔ)言表示方法主要采用符號(hào)化的離散表示。詞表示為One-Hot向量(一維為1、其余維為0的向量),句子或篇章通過(guò)詞袋模型、TF-IDF模型、N元模型等方法進(jìn)行轉(zhuǎn)換。離散表示的缺點(diǎn)在于詞與詞之間沒(méi)有距離的概念,如“電腦”和“計(jì)算機(jī)”被看成是兩個(gè)不同的詞,這顯然是不合理的。當(dāng)前,主流的語(yǔ)言表示采用更加精確的數(shù)學(xué)表示,通常通過(guò)基于深度學(xué)習(xí)的表示模型獲得。目前,比較成熟的應(yīng)用是詞向量表示,即將每一個(gè)詞語(yǔ)用不同的向量表示。其中,向量就是一種有大小、有方向的度量值,如果一個(gè)詞具有了一定的向量,如果一大批文檔信息不再是由簡(jiǎn)簡(jiǎn)單單的詞組成,而是由一組組向量組成,那么計(jì)算機(jī)就很容易對(duì)要處理的文檔進(jìn)行加工處理,這就是要將詞轉(zhuǎn)化為向量的目的。在計(jì)算機(jī)上看到的形形色色的多媒體文件都只是電腦二進(jìn)制的表示,如何將大自然中的語(yǔ)言、圖形、聲音轉(zhuǎn)化為計(jì)算機(jī)能夠識(shí)別的二進(jìn)制機(jī)器語(yǔ)言是一個(gè)問(wèn)題。解決該問(wèn)題就是要找出一種將符號(hào)轉(zhuǎn)化為數(shù)字的方法。

      楊磊:2013年,Google開發(fā)出了基于神經(jīng)網(wǎng)絡(luò)的word2vec工具,其主要思想是一個(gè)詞的上下文可以很好地表達(dá)出詞的語(yǔ)義,它是一種通過(guò)無(wú)監(jiān)督的學(xué)習(xí)文本來(lái)產(chǎn)生詞向量的方式。它成功訓(xùn)練出了包含詞間語(yǔ)義信息的詞向量,以便精確度量不同詞語(yǔ)之間的聯(lián)系或關(guān)系,如詞語(yǔ)“電腦”和“計(jì)算機(jī)”是兩個(gè)相似詞,經(jīng)常出現(xiàn)的語(yǔ)義環(huán)境(上下文語(yǔ)境)是相似的。兩個(gè)詞語(yǔ)本身具有很高的相似性,詞語(yǔ)向量化后“電腦”和“計(jì)算機(jī)”在向量空間中表示為兩個(gè)點(diǎn),則可以通過(guò)度量?jī)牲c(diǎn)之間的cosine距離定量表示兩個(gè)詞語(yǔ)的語(yǔ)義相似性。不同的詞語(yǔ)在向量空間中的距離越近,相似性越高。此外,word2vec還表現(xiàn)出一個(gè)有趣的現(xiàn)象:向量(“King”)-向量(“Man”)+向量(“Woman”)=向量(“Queen”)。可以看出,word2vec在文本語(yǔ)義表示上擁有很好的效果。word2vec模型根本原理其實(shí)是采用了一個(gè)三層的神經(jīng)網(wǎng)絡(luò),它們分別為輸入層、隱含層和輸出層。通過(guò)訓(xùn)練大規(guī)模的語(yǔ)料數(shù)據(jù),將訓(xùn)練文本中的詞映射到一個(gè)n維空間,并使用一個(gè)低維的、稠密的詞向量來(lái)表示詞語(yǔ),使用向量距離來(lái)計(jì)算詞之間相似度,該模型可以很好地提取詞語(yǔ)的語(yǔ)義信息,語(yǔ)義接近的詞在向量空間具有相似的向量表達(dá)。word2vec有CBOW和Skip-Gram兩種訓(xùn)練模型,從圖1可以看到,兩種模型的網(wǎng)絡(luò)結(jié)構(gòu)都由輸入層、投影層和輸出層組成。但是,CBOW模型是利用詞語(yǔ)Wt的前后各c個(gè)詞語(yǔ)預(yù)測(cè)當(dāng)前詞語(yǔ)Wt,而skip-gram模型與之相反,是利用當(dāng)前詞語(yǔ)Wt去預(yù)測(cè)前后各c個(gè)詞語(yǔ)。預(yù)測(cè)方法是,大規(guī)模語(yǔ)料經(jīng)過(guò)預(yù)處理,輸入詞語(yǔ)通過(guò)投影操作利用softmax進(jìn)行分類預(yù)測(cè),CBOW要求中心詞的softmax值最高,Skip-gram希望是上文詞語(yǔ)的softmax值比非上下文詞語(yǔ)的高。

      Gensim是做自然語(yǔ)言處理常用的一個(gè)工具庫(kù),主要用來(lái)以無(wú)監(jiān)督的方式從原始的非結(jié)構(gòu)化文本中學(xué)習(xí)到文本隱藏層的主題向量表達(dá)。主要包括TF-IDF、LSA、LDA、word2vec、doc2vec等多種模型。利用Gensim庫(kù)實(shí)現(xiàn)word2vec如圖2所示。

      自然語(yǔ)言處理的預(yù)訓(xùn)練模型

      劉宗凡:近年來(lái),預(yù)訓(xùn)練模型(PLMs)的出現(xiàn)將自然語(yǔ)言處理帶入了一個(gè)新的時(shí)代。最近幾年出現(xiàn)了許多可以改變整個(gè)NLP世界格局的文章。PLMs技術(shù)已逐漸發(fā)展成為NLP領(lǐng)域不可或缺的主流技術(shù)。PLMs主要是用來(lái)解決深度學(xué)習(xí)中大規(guī)模參數(shù)學(xué)習(xí)問(wèn)題,其核心思想是在大數(shù)據(jù)上對(duì)深層次神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練得到模型參數(shù),然后將這些訓(xùn)練好的模型運(yùn)用到具體的下游任務(wù)中。在現(xiàn)代自然語(yǔ)言處理任務(wù)中,用大規(guī)模語(yǔ)料庫(kù)進(jìn)行無(wú)監(jiān)督訓(xùn)練得到的詞的分布式表示被廣泛使用,其中word2vec實(shí)現(xiàn)了在低維條件下用稠密向量對(duì)詞進(jìn)行表示,但是這種方式只能提取淺層文本表征,忽略了上下文,無(wú)法在不同語(yǔ)境下對(duì)詞的句法和語(yǔ)義進(jìn)行有效表示;ELMo采用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)語(yǔ)言模型實(shí)現(xiàn)了基于上下文的詞嵌入表示;Google在Transformer中引入了注意力機(jī)制,為之后的BERT和GPT奠定了基礎(chǔ)。

      通過(guò)利用大型語(yǔ)料庫(kù)學(xué)習(xí)通用語(yǔ)義表示的新方法,傳統(tǒng)的基于詞袋模型的文本特征提取方法,如詞的獨(dú)熱編碼,會(huì)參數(shù)很高的詞向量維度,不能體現(xiàn)詞之間語(yǔ)義信息和相對(duì)位置,n-gram算法和共現(xiàn)矩陣的出現(xiàn)緩解了區(qū)分詞序的問(wèn)題;通過(guò)結(jié)合神經(jīng)網(wǎng)絡(luò)和語(yǔ)言模型,詞的分布式表示取得了巨大突破。神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型通過(guò)n-gram方法對(duì)輸入語(yǔ)言模型長(zhǎng)文本進(jìn)行簡(jiǎn)化處理,忽略長(zhǎng)度大于n的詞,不同于傳統(tǒng)的語(yǔ)言模型,它在詞語(yǔ)的表示上采用低維向量,當(dāng)遇到語(yǔ)義相近的上文時(shí),可以對(duì)目標(biāo)詞進(jìn)行相似的預(yù)測(cè)。由于在前饋神經(jīng)網(wǎng)絡(luò)中使用了全連接的結(jié)構(gòu),只能處理定長(zhǎng)的文本信息;采用循環(huán)神經(jīng)網(wǎng)絡(luò)在預(yù)測(cè)目標(biāo)詞時(shí)通過(guò)迭代的方式獲取所有上文信息,使得模型能夠處理長(zhǎng)度變化的文本序列。

      大量的文獻(xiàn)已經(jīng)表明,預(yù)訓(xùn)練語(yǔ)言模型在通用基準(zhǔn)測(cè)試、問(wèn)答、情感分析、命名實(shí)體識(shí)別、機(jī)器翻譯、摘要等眾多下游任務(wù)中可以帶來(lái)喜人的性能提升。目前,將預(yù)訓(xùn)練語(yǔ)言模型應(yīng)用到下游任務(wù)中主要還是依賴于遷移學(xué)習(xí)進(jìn)行,遷移學(xué)習(xí)可以把從大規(guī)模語(yǔ)料中學(xué)習(xí)到的通用語(yǔ)言知識(shí)遷移到特定的下游任務(wù)上。通常遷移學(xué)習(xí)包含兩個(gè)階段,一是預(yù)訓(xùn)練,二是微調(diào)。對(duì)于一些任務(wù),在微調(diào)階段,預(yù)訓(xùn)練模型作為特征抽取器,其參數(shù)被固化。而對(duì)于大多數(shù)任務(wù),微調(diào)階段預(yù)訓(xùn)練模型的參數(shù)不固化,仍在微調(diào)階段進(jìn)行調(diào)整,以適應(yīng)下游任務(wù)。

      總之,PLMs已經(jīng)在很多NLP任務(wù)中展現(xiàn)出了其強(qiáng)大的能力,然而由于自然語(yǔ)言處理的復(fù)雜性,仍存在諸多挑戰(zhàn)。

      中文文本情緒分析案例

      楊磊:本案例的目的是了解文本處理的一般流程,僅采用比較少的數(shù)據(jù)作為處理對(duì)象。本例中每個(gè)步驟都可以展開,重點(diǎn)在于了解流程,分清上下游任務(wù),細(xì)節(jié)方面僅知道有哪些庫(kù)可以解決哪些問(wèn)題即可。關(guān)鍵流程如下頁(yè)圖3所示。

      (1)采集數(shù)據(jù):導(dǎo)入數(shù)據(jù)集(利用Excel制作兩個(gè)文件:pos.xlsx和neg.xlsx)(如下頁(yè)圖4)。

      (2)詞向量與序列處理:利用gensim進(jìn)行詞向量訓(xùn)練(如圖5)。

      (3)序列特征處理,求向量均值(如圖6)。

      (4)訓(xùn)練模型:利用tensorflow2.0框架(如圖7)。

      (5)驗(yàn)證(如圖8)。

      結(jié)語(yǔ)

      自然語(yǔ)言處理是人工智能領(lǐng)域中的重要方向之一,被譽(yù)為人工智能皇冠上的“明珠”。當(dāng)前,深度學(xué)習(xí)、圖計(jì)算等方法被廣泛應(yīng)用于各種自然語(yǔ)言處理任務(wù),取得了不錯(cuò)的研究成果,但也面臨著全新的挑戰(zhàn)。隨著人工智能領(lǐng)域不斷突破瓶頸,相信未來(lái)幾年,語(yǔ)音識(shí)別、語(yǔ)義識(shí)別和語(yǔ)音合成技術(shù)將全面進(jìn)入工業(yè)、通信、家電、醫(yī)療、汽車電子、家庭服務(wù)等領(lǐng)域,更好地服務(wù)于我們的生活。

      3645500589294

      猜你喜歡
      語(yǔ)義向量詞語(yǔ)
      容易混淆的詞語(yǔ)
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      找詞語(yǔ)
      語(yǔ)言與語(yǔ)義
      詞語(yǔ)欣賞
      “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      一枚詞語(yǔ)一門靜
      吴川市| 北安市| 密山市| 桂阳县| 长乐市| 吐鲁番市| 呼图壁县| 兴安县| 攀枝花市| 隆回县| 泸水县| 西华县| 甘谷县| 开平市| 六盘水市| 安泽县| 黑河市| 西华县| 谢通门县| 新兴县| 沈丘县| 高唐县| 邹城市| 墨竹工卡县| 龙南县| 马尔康县| 灵宝市| 汝城县| 湘潭县| 西昌市| 株洲市| 凤阳县| 马鞍山市| 平凉市| 巫山县| 成武县| 佳木斯市| 库伦旗| 广安市| 沛县| 策勒县|