• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      優(yōu)化預(yù)訓(xùn)練模型的小語(yǔ)料中文文本分類方法

      2022-10-24 09:28:06陳藍(lán)楊帆曾楨
      現(xiàn)代計(jì)算機(jī) 2022年16期
      關(guān)鍵詞:數(shù)據(jù)量準(zhǔn)確率向量

      陳藍(lán),楊帆,曾楨

      (貴州財(cái)經(jīng)大學(xué)信息學(xué)院,貴陽(yáng) 550000)

      0 引言

      數(shù)字信息資源是指所有以數(shù)字形式將文字、數(shù)值等多種信息存儲(chǔ)在計(jì)算機(jī)中,通過(guò)網(wǎng)絡(luò)通信、計(jì)算機(jī)或終端再現(xiàn)出來(lái)的資源。近年來(lái),數(shù)字信息資源的快速增長(zhǎng),為用戶帶來(lái)便利的同時(shí)也導(dǎo)致了“信息爆炸”。數(shù)字信息資源的重要組成部分之一就是文本,針對(duì)種類繁多的文本信息資源,運(yùn)用現(xiàn)代化的管理手段和管理方法,將資源按照一定的方式組織和存儲(chǔ)起來(lái),能夠使用戶在查找海量信息時(shí)實(shí)現(xiàn)高效檢索。

      目前,將文本信息轉(zhuǎn)換為計(jì)算機(jī)能夠識(shí)別的數(shù)據(jù)是自然語(yǔ)言處理的一個(gè)重要問(wèn)題。其中最普及的解決方法是將文本轉(zhuǎn)換為向量的形式,將一句文本語(yǔ)言轉(zhuǎn)化為一個(gè)向量矩陣,通過(guò)相似詞具有相近的向量,對(duì)詞義進(jìn)行表示。目前,由于深度學(xué)習(xí)的發(fā)展及應(yīng)用,學(xué)者們通過(guò)各種神經(jīng)網(wǎng)絡(luò)對(duì)生成的多個(gè)維度的詞向量進(jìn)行特征提取,降低損失函數(shù)值從而對(duì)詞向量進(jìn)行優(yōu)化,增強(qiáng)向量對(duì)詞義的表達(dá)能力。

      在現(xiàn)實(shí)需求以及自然語(yǔ)言處理技術(shù)的基礎(chǔ)上,本文提出了一種中文文本字向量的表示模型,使用GloVe模型和BERT模型生成的字向量進(jìn)行融合后,通過(guò)文本特征提取得到對(duì)應(yīng)的字粒度向量。

      1 研究現(xiàn)狀

      在中文自然語(yǔ)言處理領(lǐng)域,計(jì)算機(jī)無(wú)法對(duì)非結(jié)構(gòu)化的文本數(shù)據(jù)進(jìn)行處理,因此在對(duì)中文文本信息進(jìn)行處理時(shí),需要經(jīng)過(guò)分詞以及向量化的過(guò)程,也就是將文本信息轉(zhuǎn)化為計(jì)算機(jī)能夠識(shí)別的數(shù)值數(shù)據(jù)。其中在文本向量化方面,最早的文本轉(zhuǎn)換方式為one-hot(獨(dú)熱)編碼形式,one-hot編碼雖然解決了分類器處理離散數(shù)據(jù)困難的問(wèn)題,但是沒(méi)有考慮詞與詞之間的相互關(guān)系,并且由one-hot生成的特征矩陣較為稀疏,增加了機(jī)器運(yùn)算的負(fù)擔(dān)。在2014年前后,主要有兩種文本向量化方法,一種是矩陣分類算法,另一種是基于淺窗口的方法?;跍\窗口方法的代表模型就是Word2Vec,為了獲得更多的語(yǔ)義信息,Mikolov等提出了基于深度表示的模型—Word2Vec,該模型為輸入文本搭建一個(gè)具備上下文信息的神經(jīng)網(wǎng)絡(luò),從而計(jì)算得到含有上下文信息的詞向量,該向量也在一定程度上反映了詞與詞之間的相關(guān)性。雖然Word2Vec可以利用上下文信息預(yù)測(cè)詞向量使得生成的詞向量包含了語(yǔ)義信息,但由于其構(gòu)建過(guò)程是單向?qū)W習(xí),沒(méi)有充分利用所有語(yǔ)料。而基于矩陣分解算法通過(guò)文本共現(xiàn)矩陣表達(dá)文本詞向量,通過(guò)奇異值分解(singular value decomposion,SVD)對(duì)共現(xiàn)矩陣進(jìn)行降維,章秀華等提出一種奇異值分解域差異性度量的低景深圖像目標(biāo)提取方法,其能夠完整提取目標(biāo),但SVD的計(jì)算代價(jià)過(guò)大,并且難以將新的詞匯或者文本合并進(jìn)去。2014年Stanford NLP Group結(jié)合Word2Vec以及SVD的優(yōu)點(diǎn)提出了GloVe(global vectors for word representation)模型,該模型基于全局詞頻統(tǒng)計(jì)將一個(gè)詞語(yǔ)表達(dá)為一個(gè)向量,通過(guò)單詞之間的相似性、類比性等,計(jì)算出兩個(gè)詞語(yǔ)之間的語(yǔ)義相似性。方炯焜等結(jié)合GloVe詞向量與GRU模型提高了文本分類性能。石雋鋒等通過(guò)并行實(shí)現(xiàn)統(tǒng)計(jì)共現(xiàn)矩陣和訓(xùn)練學(xué)習(xí),從而在中文和英文的詞語(yǔ)推斷任務(wù)上,顯著地提高了預(yù)測(cè)的準(zhǔn)確率。FANG等以GloVe為基礎(chǔ)建立情感分析系統(tǒng),雖然GloVe能夠最大限度地利用全局和局部信息進(jìn)行語(yǔ)料庫(kù)訓(xùn)練,但無(wú)法應(yīng)對(duì)一詞多義或者新詞組合的情況。針對(duì)該問(wèn)題,2019年Devlin等引入動(dòng)態(tài)詞向量BERT(bidirectional encoder representations from transformers)模 型,BERT模 型 利 用Transformer結(jié)構(gòu)的encoder部分對(duì)文本進(jìn)行雙向?qū)W習(xí)和處理,主要包含MLM(masked language model)任務(wù) 和NSP(next sentence prediction)任務(wù)。其中,核心任務(wù)是MLM任務(wù),通過(guò)對(duì)目標(biāo)單詞進(jìn)行掩碼來(lái)預(yù)測(cè)詞語(yǔ)的向量,利用自注意力機(jī)制學(xué)習(xí)詞與詞間關(guān)系,使得詞向量的表示能夠融入句子級(jí)的語(yǔ)義信息。段丹丹等使用BERT預(yù)訓(xùn)練語(yǔ)言模型對(duì)短文本進(jìn)行句子層面的特征向量表示,并將獲得的特征向量輸入Softmax回歸模型進(jìn)行訓(xùn)練與分類,實(shí)驗(yàn)證明BERT有效地表示句子層面的語(yǔ)義信息,具有更好的中文短文本分類效果。Chao等結(jié)合動(dòng)態(tài)掩碼與靜態(tài)掩碼,提出新的MLM任務(wù)與層間共享注意力機(jī)制,有效地提高了BERT在實(shí)體關(guān)系提取上的性能。Danilov等提出了一種基于雙向編碼轉(zhuǎn)換(BERT)和圖卷積網(wǎng)絡(luò)的門上下文感知文本分類模型(GC-GCN),通過(guò)使用帶有門控機(jī)制的GCN將圖嵌入和BERT嵌入集成在一起,以實(shí)現(xiàn)上下文編碼的獲取。雖然BERT解決了詞向量無(wú)法表示一詞多義的問(wèn)題,但通過(guò)BERT進(jìn)行向量化的過(guò)程中,缺乏了整體的詞和詞之間的關(guān)系。綜上所述,現(xiàn)在國(guó)內(nèi)外學(xué)者在文本向量化領(lǐng)域做了一些相關(guān)工作,但目前的文本向量化在中文文本語(yǔ)料的處理上仍然存在表義不足,因此,中文文本向量化具有研究潛力與價(jià)值。

      本文在上述研究的基礎(chǔ)上提出了基于GloVe與BERT字向量模型的融合字向量模型。通過(guò)GloVe領(lǐng)域預(yù)訓(xùn)練產(chǎn)生的文本向量無(wú)法解決一字多義的情況,但是能夠最大限度地利用全局和局部信息進(jìn)行語(yǔ)料庫(kù)訓(xùn)練,從而給每一個(gè)字都提供一個(gè)相對(duì)穩(wěn)定的字向量,在投入的數(shù)據(jù)量較小的情況下,通過(guò)BERT領(lǐng)域預(yù)訓(xùn)練難以達(dá)到訓(xùn)練效果,更多的是依賴初始權(quán)重集的選擇。因此,GloVe與BERT在訓(xùn)練時(shí)各有優(yōu)劣,本文通過(guò)擴(kuò)充GloVe字向量產(chǎn)生的維度,與BERT字向量進(jìn)行向量融合,從而在預(yù)訓(xùn)練生成的融合字向量中,既體現(xiàn)了GloVe字向量的全局穩(wěn)定性,也通過(guò)BERT字向量的展現(xiàn)解決了一字多義的問(wèn)題。

      本文采用今日頭條發(fā)布的中文新聞數(shù)據(jù),該數(shù)據(jù)屬于短文本類型,且包含大量同義或異義字詞。新聞文本數(shù)據(jù)通過(guò)GloVe及BERT模型生成的融合字向量矩陣,該矩陣通過(guò)卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)文本特征的提取后進(jìn)行字向量訓(xùn)練優(yōu)化,通過(guò)全連接層對(duì)新聞數(shù)據(jù)的分類結(jié)果的準(zhǔn)確率、召回率等一系列指標(biāo)進(jìn)行評(píng)判,對(duì)文本詞向量的詞義表示能力進(jìn)行評(píng)價(jià)。

      2 思路與框架

      2.1 融合向量模型

      融合字向量模型基于GloVe字向量模型以及BERT字向量模型,主要分為四個(gè)部分:輸入處理層、融合層、特征提取層以及分類輸出層,其具體結(jié)構(gòu)如圖1所示。

      圖1 融合字向量模型結(jié)構(gòu)

      在該融合字向量模型中,以今日頭條發(fā)布的條新聞數(shù)據(jù)作為輸入,選取數(shù)據(jù)中的文本數(shù)據(jù)以及標(biāo)簽數(shù)據(jù),提取文本數(shù)據(jù)中的中文字詞后,為了使GloVe與BERT的分詞結(jié)果相同以達(dá)到詞向量矩陣的數(shù)據(jù)量相同,從而進(jìn)行BERT_tokenize單字分字處理,得到字粒度的中文文本語(yǔ)料庫(kù)。

      將該語(yǔ)料庫(kù)輸入GloVe字向量模型中,本文以300維的中文GloVe模型作為預(yù)訓(xùn)練模型獲取字向量,在該字向量的表示中,GloVe模型通過(guò)語(yǔ)料的全局信息進(jìn)行訓(xùn)練后,相同字有相同的字向量,因此不能表達(dá)一詞多義。同時(shí),將處理好的語(yǔ)料庫(kù)輸入BERT模型,生成768維的文本字向量,將GloVe向量與BERT向量通過(guò)點(diǎn)加的方式獲得融合字向量。

      融合字向量通過(guò)文本卷積神經(jīng)網(wǎng)絡(luò)獲取多層級(jí)的語(yǔ)義特征信息,通過(guò)訓(xùn)練發(fā)現(xiàn)該字向量的關(guān)鍵信息,從而對(duì)768維的向量進(jìn)行特征抽取,實(shí)現(xiàn)詞向量降維。

      在進(jìn)行特征提取后,經(jīng)過(guò)全連接層對(duì)文本數(shù)據(jù)進(jìn)行分類處理。

      2.2 輸入處理層

      在GloVe詞向量模型中,將×個(gè)字中第一次出現(xiàn)的字挑選出來(lái),若共有個(gè)不重復(fù)字,這個(gè)字組成共現(xiàn)矩陣的坐標(biāo)標(biāo)簽,那么共現(xiàn)詞頻矩陣可表示為式(1):

      最后,通過(guò)AdaGrad的梯度下降算法對(duì)該函數(shù)進(jìn)行訓(xùn)練,從而獲取較優(yōu)的詞向量。GloVe詞向量模型訓(xùn)練過(guò)程如圖2所示。

      圖2 GloVe詞向量模型結(jié)構(gòu)

      BERT以Transformer的encoder結(jié)構(gòu)為基礎(chǔ),主要包含MLM掩碼任務(wù)和NSP語(yǔ)句預(yù)測(cè)任務(wù),BERT在輸入嵌入層(input embedding)通過(guò)查詢?cè)~典中每個(gè)詞語(yǔ)對(duì)應(yīng)的向量表得到句子的向量矩陣,與GloVe不同的是,BERT在輸入嵌入層的基礎(chǔ)上增加了體現(xiàn)詞語(yǔ)在句子中所在位置的位置嵌入層,具體計(jì)算方式見(jiàn)式(5):

      其中,為該詞在句子中的位置,根據(jù)出現(xiàn)位置的單數(shù)或雙數(shù),以sin或cos方式生成的位置值交替出現(xiàn),為模型需要訓(xùn)練的參數(shù)。BERT在位置嵌入層的基礎(chǔ)上增添了體現(xiàn)句子在文本語(yǔ)料的位置關(guān)系的句子嵌入層,根據(jù)句子出現(xiàn)的位置,表示為[,,…,,,,…,,…]的形式,E表示第個(gè)句子的第個(gè)詞,且E=E=…=E,用以區(qū)分該句中的詞語(yǔ)與其它句子中的詞語(yǔ)。這三個(gè)嵌入層共同組成encoder結(jié)構(gòu)的輸入層。

      三個(gè)矩陣、、與相乘得到q,k,v,∈( 1,2,…,),將qk做 點(diǎn) 積 得 到αα通過(guò)全連接層后得到0~1之間的','與對(duì)應(yīng)位置的v相乘且求和得到輸出b,這就是多頭注意力機(jī)制,具體過(guò)程如圖3所示。

      圖3 多頭注意力機(jī)制

      多頭注意力機(jī)制生成的b通過(guò)前饋神經(jīng)網(wǎng)絡(luò)的訓(xùn)練生成BERT詞向量,BERT詞向量模型結(jié)構(gòu)如圖4所示。

      圖4 BERT詞向量模型結(jié)構(gòu)

      2.3 融合層

      圖5 融合字向量

      2.4 特征提取層

      圖6 文本卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

      2.5 分類輸出層

      3 實(shí)證研究

      3.1 實(shí)驗(yàn)數(shù)據(jù)

      本實(shí)驗(yàn)以今日頭條發(fā)布的開(kāi)源新聞數(shù)據(jù)集作為輸入數(shù)據(jù),原數(shù)據(jù)集包含15類共382669條數(shù)據(jù),每條數(shù)據(jù)包含文本id名、文本類別數(shù)值代號(hào)、文本類別名、文本內(nèi)容、關(guān)鍵詞五列。從15類新聞中抽取“文化”和“娛樂(lè)”兩個(gè)板塊的新聞,其中文化新聞共28030條,娛樂(lè)新聞共39396條,滿足實(shí)驗(yàn)所需。從這兩個(gè)類別的數(shù)據(jù)中抽取文本類別數(shù)值代號(hào)和文本內(nèi)容兩列內(nèi)容后,分別抽取250條、500條、2500條、5000條,組成共有500條數(shù)據(jù)、1000條數(shù)據(jù)、5000條數(shù)據(jù)、10000條數(shù)據(jù)的4個(gè)不同大小的文本語(yǔ)料庫(kù)。

      將文本內(nèi)容進(jìn)行文本正則化處理,僅保存文本中的中文字,并且按照字粒度對(duì)文本進(jìn)行分詞后,將其按照類別標(biāo)簽存儲(chǔ)在各自類別的文件夾里,每一條文本存儲(chǔ)在以索引編號(hào)命名的文件里。將文本數(shù)據(jù)進(jìn)行打亂順序處理,選取其中20%的數(shù)據(jù)作為評(píng)估集,80%的數(shù)據(jù)作為訓(xùn)練集,并且評(píng)估集與訓(xùn)練集相互獨(dú)立。由于單次劃分得出的結(jié)果并不穩(wěn)定,因此每個(gè)輸入數(shù)據(jù)集進(jìn)行20次實(shí)驗(yàn),選取20次實(shí)驗(yàn)中效果最好的5次實(shí)驗(yàn)結(jié)果的平均值做為最終的實(shí)驗(yàn)結(jié)果。

      3.2 評(píng)價(jià)指標(biāo)

      本文實(shí)驗(yàn)的評(píng)估指標(biāo)有:評(píng)估集的準(zhǔn)確率、評(píng)估集的查全率、評(píng)估集的查準(zhǔn)率,評(píng)估集的值四個(gè)。

      將“文化”類的數(shù)據(jù)設(shè)為負(fù)類,“娛樂(lè)”類的文本數(shù)據(jù)設(shè)為正類,得到的預(yù)測(cè)類別與實(shí)際類別的情況見(jiàn)表1。

      (3)梁彎曲撓度分布在裂紋處存在尖點(diǎn),且對(duì)于開(kāi)裂紋,當(dāng)載荷較小時(shí),撓度在裂縫處的尖點(diǎn)現(xiàn)象并不明顯,但隨著載荷的增加,尖點(diǎn)現(xiàn)象愈加明顯.同時(shí),梁橫截面轉(zhuǎn)角在裂紋處發(fā)生突變,轉(zhuǎn)角不連續(xù).

      表1 二分類混淆矩陣

      將預(yù)測(cè)為正類且實(shí)際類別也為正類的結(jié)果記為,預(yù)測(cè)為負(fù)類但實(shí)際類別為正類的結(jié)果記為,將預(yù)測(cè)為正類但實(shí)際類別為負(fù)類的結(jié)果記為,預(yù)測(cè)為負(fù)類且實(shí)際類別也為負(fù)類的結(jié)果記為,那么有:

      其中展示了分類正確的數(shù)據(jù)條數(shù)與數(shù)據(jù)總數(shù)的比值,可以在總體上衡量一個(gè)預(yù)測(cè)的性能;表示被正確分類的正類數(shù)據(jù)條數(shù)與所有應(yīng)該被判斷為正類的數(shù)據(jù)條數(shù)之間的比值,展示正類樣本被誤判的程度;展示了被正確分類的正類數(shù)據(jù)條數(shù)與所有被判斷為正類的數(shù)據(jù)條數(shù)之間的比值,找到所有的正類防止漏掉正類樣本。將和視為相同重要的兩個(gè)評(píng)估標(biāo)準(zhǔn),對(duì)模型的性能進(jìn)行了一個(gè)綜合評(píng)價(jià)。

      3.3 參數(shù)設(shè)置

      GloVe詞向量基于全局詞頻統(tǒng)計(jì)把單詞表現(xiàn)為一個(gè)300維的向量形式,詞典大小為352221;BERT預(yù)訓(xùn)練模型采用bert-basechinese模型,包含12個(gè)encoder單元,768個(gè) 隱藏單元數(shù),12個(gè)注意力機(jī)制的頭數(shù),110M參數(shù),詞典大小為21128,生成768維的詞向量。在文本卷積神經(jīng)網(wǎng)絡(luò)中,選取兩層卷積神經(jīng),為了查看兩個(gè)字組成的詞語(yǔ)之間的關(guān)系,將第一層卷積核的大小設(shè)為2;為了查看主謂賓之間的關(guān)系,將第二個(gè)卷積核的大小設(shè)為三;由于是二分類,在全連接層采用sigmoid激活函數(shù),將數(shù)據(jù)特征分為正負(fù)兩類。具體參數(shù)見(jiàn)表2。

      表2 卷積層參數(shù)設(shè)置

      4 結(jié)果與分析

      為了驗(yàn)證該融合向量算法的有效性,將今日頭條的4種不同大小的數(shù)據(jù)集在GloVe預(yù)訓(xùn)練算法、BERT預(yù)訓(xùn)練模型以及融合詞向量預(yù)訓(xùn)練模型中進(jìn)行訓(xùn)練,得到的準(zhǔn)確率見(jiàn)表3。

      表3 準(zhǔn)確率

      各個(gè)模型在不同數(shù)據(jù)集上的召回率見(jiàn)表4。

      表4 召回率

      模型在不同數(shù)據(jù)集上的查全率如圖7所示。

      圖7 查全率

      模型在不同數(shù)據(jù)集上的值如圖8所示。

      圖8 F1值

      由實(shí)驗(yàn)得出如下結(jié)論:

      (2)通過(guò)表4中召回率的展示可以發(fā)現(xiàn),GloVe模型的表現(xiàn)不比BERT模型表現(xiàn)差。在表2中,輸入數(shù)據(jù)為500條時(shí),GloVe模型產(chǎn)生的詞向量最終訓(xùn)練后的準(zhǔn)確率為77.00%,而BERT預(yù)訓(xùn)練模型產(chǎn)生的詞向量訓(xùn)練后的準(zhǔn)確率為75.80%,這是由于小數(shù)據(jù)量時(shí)的同詞異義的情況出現(xiàn)的概率較小,采用詞頻統(tǒng)計(jì)的方法構(gòu)建字典從而生成詞向量,相比使用數(shù)據(jù)進(jìn)行迭代優(yōu)化出來(lái)的詞向量,在數(shù)據(jù)量較小時(shí)能夠更加準(zhǔn)確地表達(dá)詞義。

      (3)在圖8中,融合向量模型的值總是略高于單一模型的值,并且數(shù)據(jù)量越小,融合向量模型的優(yōu)勢(shì)越明顯。圖7顯示,相較于單一模型產(chǎn)生的詞向量,融合向量模型的查全率在1000條以及5000條數(shù)據(jù)組成的語(yǔ)料庫(kù)中都高于單一模型的訓(xùn)練效果。在表3中,融合向量準(zhǔn)確率在數(shù)據(jù)量較小時(shí)有小幅度的提升,當(dāng)數(shù)據(jù)量為500時(shí),融合詞向量相較于BERT詞向量提升了5個(gè)百分點(diǎn),相較于GloVe詞向量提升了3個(gè)百分點(diǎn);當(dāng)數(shù)據(jù)量為1000時(shí),融合詞向量相較于BERT詞向量的精確率提升了3.1個(gè)百分點(diǎn),相較于GloVe詞向量提升了3.4個(gè)百分點(diǎn)。

      (4)上述圖表顯示,當(dāng)輸入的數(shù)據(jù)量較大時(shí),各個(gè)模型訓(xùn)練出來(lái)的詞向量的最終準(zhǔn)確率都在86%~88%之間,準(zhǔn)確率相差一個(gè)百分點(diǎn)以內(nèi),并沒(méi)有顯著的區(qū)別。這是由于輸入模型的數(shù)據(jù)量足夠讓BERT訓(xùn)練出一個(gè)較好的結(jié)果,同時(shí)也反映了融合詞向量模型在大數(shù)據(jù)量時(shí)的訓(xùn)練效果,雖然沒(méi)有明顯優(yōu)于BERT詞向量模型,但也并不遜色于BERT詞向量模型。

      從5000條輸入數(shù)據(jù)增加至10000條輸入數(shù)據(jù)時(shí),GloVe模型與融合詞向量模型的準(zhǔn)確率沒(méi)有明顯的變化,而BERT詞向量模型的準(zhǔn)確率提升了0.82個(gè)百分點(diǎn),但BERT模型依靠增加數(shù)據(jù)量來(lái)提升準(zhǔn)確度的收效減小,代價(jià)過(guò)大。

      5 結(jié)語(yǔ)

      本文的研究?jī)r(jià)值主要體現(xiàn)在:通過(guò)對(duì)BERT與GloVe模型生成的詞向量進(jìn)行融合,獲取兩種詞向量的語(yǔ)義信息,從而在小數(shù)據(jù)量的語(yǔ)料庫(kù)中,融合詞向量的語(yǔ)義信息表示能力有一定的增強(qiáng),采用淺層文本卷積神經(jīng)網(wǎng)絡(luò)對(duì)融合詞向量進(jìn)行特征提取,使得該融合詞向量能夠準(zhǔn)確表達(dá)詞義的同時(shí),也降低了實(shí)驗(yàn)中對(duì)硬件的要求,降低了模型的部署難度。

      本文詳細(xì)闡述了融合詞向量的整體框架、模型結(jié)構(gòu),以及相關(guān)的計(jì)算公式,并用不同大小的數(shù)據(jù)集來(lái)驗(yàn)證模型的有效性。實(shí)驗(yàn)表明,相較于傳統(tǒng)的GloVe模型和單一的BERT預(yù)訓(xùn)練模型,融合詞向量模型的準(zhǔn)確率在較小數(shù)據(jù)量的情況下都能得到提升。這說(shuō)明融合不同詞向量方法的文本表示能夠獲取字詞的先驗(yàn)知識(shí),同時(shí)根據(jù)數(shù)據(jù)特征進(jìn)行優(yōu)化,從而獲得詞向量更好的表示方法。

      在未來(lái)的研究中,可以嘗試采用不同維度的文本信息,比如詞粒度文本信息,在詞向量融合時(shí)引入注意力機(jī)制,為BERT詞向量以及GloVe詞向量加一個(gè)權(quán)重之后進(jìn)行詞向量融合,從而進(jìn)一步提升文本的表達(dá)能力。

      猜你喜歡
      數(shù)據(jù)量準(zhǔn)確率向量
      向量的分解
      基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      計(jì)算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
      聚焦“向量與三角”創(chuàng)新題
      高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
      寬帶信號(hào)采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計(jì)與研究
      電子制作(2019年13期)2020-01-14 03:15:18
      高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      图们市| 淮南市| 临武县| 崇左市| 榆林市| 上犹县| 无棣县| 绥中县| 洪泽县| 孙吴县| 灵武市| 昭苏县| 全南县| 开封县| 河间市| 绍兴市| 周口市| 兴宁市| 东城区| 咸丰县| 绥德县| 卓尼县| 河曲县| 浦县| 长岛县| 鹤山市| 海南省| 乌兰察布市| 安岳县| 贵溪市| 安新县| 陈巴尔虎旗| 台湾省| 晋江市| 奎屯市| 祁门县| 松桃| 乌苏市| 绿春县| 彭阳县| 冀州市|