• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于文本增強(qiáng)的民航安全信息自動(dòng)分類

      2022-08-03 01:30:38崔振新張卓言
      關(guān)鍵詞:數(shù)量級(jí)子集性能

      崔振新,張卓言

      (中國(guó)民航大學(xué)飛行技術(shù)學(xué)院,天津 300300)

      隨著中國(guó)民航業(yè)的高速發(fā)展,公眾對(duì)航空安全水平的期望越來(lái)越高,而安全管理水平的提升依賴于行業(yè)安全信息。航空安全信息是民航實(shí)施安全風(fēng)險(xiǎn)控制和事故預(yù)防的基礎(chǔ),對(duì)提高航空安全水平具有重要作用,在整個(gè)安全管理系統(tǒng)中具有超前和預(yù)防意義[1]。

      隨著民航安全工作中廣泛應(yīng)用的不安全事件報(bào)告信息(簡(jiǎn)稱安全信息)管理的規(guī)范化,安全信息量越來(lái)越大,在數(shù)據(jù)驅(qū)動(dòng)管理階段,深入分析安全信息的需求增加,需要針對(duì)現(xiàn)有或新的分類維度重新分類信息。因此,利用現(xiàn)有系統(tǒng)中較長(zhǎng)的事件信息描述部分基于機(jī)器學(xué)習(xí)構(gòu)建分類器,實(shí)現(xiàn)信息自動(dòng)分類,提高現(xiàn)有信息系統(tǒng)的利用價(jià)值。

      實(shí)現(xiàn)信息自動(dòng)分類首先要對(duì)信息數(shù)據(jù)進(jìn)行人工標(biāo)注,標(biāo)注的信息量越少,人工成本越低。此外,還有一些事件類型發(fā)生概率不高,如空中相撞,在處理時(shí)必然會(huì)存在數(shù)據(jù)量不足的問(wèn)題,因此,本文結(jié)合數(shù)據(jù)增強(qiáng)技術(shù)解決上述問(wèn)題。

      為提高數(shù)據(jù)利用率,數(shù)據(jù)增強(qiáng)在可用數(shù)據(jù)量不足時(shí)成為必要手段。數(shù)據(jù)增強(qiáng)多用于計(jì)算機(jī)視覺(jué)領(lǐng)域,通過(guò)改變圖片像素顏色、尺寸、方向等方法,增加數(shù)據(jù)噪點(diǎn),同時(shí)可以增加數(shù)據(jù)集規(guī)模,提高模型的泛化能力。在自然語(yǔ)言處理方面,可以對(duì)數(shù)據(jù)進(jìn)行加噪處理,也可以對(duì)文本數(shù)據(jù)進(jìn)行增強(qiáng)。Zhang 等[2]利用英文同義詞詞典進(jìn)行同義詞替換,直接修改文本中的詞,但會(huì)存在沒(méi)有同義詞的詞語(yǔ),對(duì)原句的修改幅度有限;Kobayashi[3]使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)增強(qiáng),在去掉一個(gè)詞后,通過(guò)上下文預(yù)測(cè)該詞,將預(yù)測(cè)出的詞替換原詞,雖然相比使用同義詞替換有更多增強(qiáng)的可能性,但在分類任務(wù)中,難以保證增強(qiáng)后的數(shù)據(jù)標(biāo)簽保持不變;回譯是將文本翻譯成其他語(yǔ)言再翻譯回原文,生成新的文本[4],但對(duì)專業(yè)詞匯的翻譯不一定準(zhǔn)確,可能會(huì)影響原意。針對(duì)以上方法的不足,擬采用簡(jiǎn)單數(shù)據(jù)增強(qiáng)(EDA,easy data augment)方法綜合增強(qiáng)文本數(shù)據(jù)。

      應(yīng)用于機(jī)器學(xué)習(xí)的文本需要使用語(yǔ)言表示模型,將非結(jié)構(gòu)化的文本表示為結(jié)構(gòu)化的數(shù)學(xué)形式,同時(shí)保持?jǐn)?shù)據(jù)標(biāo)簽不變。詞袋模型作為經(jīng)典語(yǔ)言模型,將文本視為相互獨(dú)立的詞語(yǔ)組合,以詞為基本處理單元得到向量化表示。隨著互聯(lián)網(wǎng)的發(fā)展,大量無(wú)標(biāo)注數(shù)據(jù)產(chǎn)生,由此產(chǎn)生基于連續(xù)詞袋(CBOW,continuous bag of words)模型和連續(xù)跳躍元語(yǔ)法模型(Skip-Gram,continuous skip-gram model)的淺層神經(jīng)網(wǎng)絡(luò)模型Word2vec[5],該模型以詞袋模型產(chǎn)生的稀疏向量作為模型輸入,將其映射為稠密向量,同時(shí)保留詞序信息。

      相比Word2vec,Peters 等[6]提出的基于語(yǔ)言模型的詞向量(ELMo,embedding from languagemodels)模型,利用雙層雙向的長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM,long short term memory networks)提取特征,利用上下文進(jìn)行表征。Radford 等[7]提出的生成式預(yù)訓(xùn)練模型(GPT,generative pretraining model)使用Transformer 作為特征提取網(wǎng)絡(luò),性能優(yōu)于ELMo;Devlin 等[8]提出的雙向編碼器表示技術(shù)(BERT,bidirectional encoder representations from transformers)模型結(jié)合了上述兩個(gè)模型的優(yōu)勢(shì),基于Transformer 的雙向表示,在自然語(yǔ)言處理任務(wù)上的性能有大幅提升,在某些任務(wù)上甚至超過(guò)了人類的處理水平,開(kāi)啟了自然語(yǔ)言處理領(lǐng)域的新時(shí)代。

      綜上,為實(shí)現(xiàn)數(shù)據(jù)量不足時(shí)民航安全信息自動(dòng)分類,以中國(guó)民用航空安全信息分類系統(tǒng)(中國(guó)民航官方收集不安全事件強(qiáng)制報(bào)告信息的工作平臺(tái))中的不安全事件信息為樣本,因此,文中使用BERT 預(yù)訓(xùn)練模型進(jìn)行文本表征,從事件類型分類維度分析文本增強(qiáng)在民航領(lǐng)域小數(shù)據(jù)集上的適用性,以及在民航不安全事件信息自動(dòng)分類方面的有效性。

      1 安全信息自動(dòng)分類

      1.1 模型及算法

      1.1.1 語(yǔ)言表示模型

      BERT 模型對(duì)自然語(yǔ)言進(jìn)行處理的環(huán)節(jié)包括:建立基于大型語(yǔ)料庫(kù)的訓(xùn)練模型,并對(duì)此模型微調(diào)以適用下游任務(wù)。

      BERT 模型所使用的特征提取器為T(mén)ransformer,Transformer 是一個(gè)帶有自注意力機(jī)制的Seq2seq 模型,由若干編碼器和解碼器堆疊形成,編碼器用于將語(yǔ)料轉(zhuǎn)化為特征向量,編碼器的輸出以及已經(jīng)預(yù)測(cè)的結(jié)果為解碼器的輸入,用于輸出最后結(jié)果的條件概率。

      BERT 網(wǎng)絡(luò)結(jié)構(gòu)示意如圖1 所示,其中:Ei表示輸入的一個(gè)詞向量表示;Trm 表示Transformer 編碼器,Ti表示輸入的一個(gè)上下文表示,即對(duì)應(yīng)的特征向量;M表示輸入個(gè)數(shù)。

      圖1 BERT 結(jié)構(gòu)示意圖Fig.1 Structure of BERT model

      BERT 模型的輸入以字符為單位,經(jīng)過(guò)詞、位置和句子(segment)3 種信息的3 層向量表示(embedding),得到Trm 的輸入向量。

      BERT 在預(yù)訓(xùn)練時(shí)主要完成2 個(gè)任務(wù):①遮蔽語(yǔ)言模型,隨機(jī)對(duì)15%的詞進(jìn)行處理,在這些詞中,有80%的詞被遮擋,使用[MASK]代替,10%的詞替換為另一個(gè)隨機(jī)詞,剩余10%的詞保持不變,然后根據(jù)該詞的左右語(yǔ)境預(yù)測(cè)該詞;②預(yù)測(cè)下一句,理解句子之間的關(guān)系。結(jié)合以上2 個(gè)任務(wù)的訓(xùn)練得到的深層雙向模型,一定程度可實(shí)現(xiàn)不同文本任務(wù)的通用性。

      傳統(tǒng)的文本處理方法依賴于人工選取數(shù)據(jù)特征,但民航事件信息類型多樣,不同類型所包含的特征信息也不盡相同,人工提取事件信息的公共特征費(fèi)時(shí)費(fèi)力,準(zhǔn)確率得不到保證,也不利于持續(xù)處理新事件信息。與人工規(guī)則構(gòu)造特征的方法相比,利用大數(shù)據(jù)來(lái)學(xué)習(xí)特征,可使文本處理方法具備自動(dòng)抽取和組織信息的能力,更能夠刻畫(huà)數(shù)據(jù)的豐富內(nèi)在信息。

      BERT 模型的訓(xùn)練是基于大型語(yǔ)料庫(kù)進(jìn)行的,使用BERT 模型可以省去中間處理過(guò)程,實(shí)現(xiàn)從輸入文本到輸出向量表示的端到端方法。BERT 模型因其龐大的訓(xùn)練數(shù)據(jù)集和較多的網(wǎng)絡(luò)層數(shù),為現(xiàn)階段最好的通用語(yǔ)言表示模型。

      1.1.2 分類算法

      支持向量機(jī)[9](SVM,support vector machine)通常用于二元分類場(chǎng)景,是將數(shù)據(jù)的特征向量映射為空間中的點(diǎn),通過(guò)監(jiān)督學(xué)習(xí)(利用帶標(biāo)簽的數(shù)據(jù)進(jìn)行學(xué)習(xí))確定一條最能將兩類數(shù)據(jù)區(qū)分開(kāi)的線,該線受樣本局部擾動(dòng)影響最小,對(duì)未知數(shù)據(jù)的泛化能力最強(qiáng)。

      SVM 算法分類原理示意如圖2 所示,其中,分割線表示為

      圖2 SVM 算法原理示意圖Fig.2 The principle of SVM algorit hm

      兩條虛線為兩類樣本的邊界線,在該線上的樣本稱為支持向量,當(dāng)分割線與兩條邊界線的距離相等且最大時(shí),為最優(yōu)分割線。通過(guò)計(jì)算間隔,尋找分割效果最佳時(shí)分割線的權(quán)重w 和b。

      兩條邊界線的間隔為兩類支持向量的差在w 上的投影,即

      式中:x+為正支持向量;x-為負(fù)支持向量。由于支持向量在邊界線上,可以表示為

      得到

      代入式(2)中,可得

      根據(jù)間隔最大化,得到

      式中m 為待分類的樣本數(shù)。為計(jì)算方便,轉(zhuǎn)化為

      在二維空間中,數(shù)據(jù)為線性可分(可以找到一個(gè)線性函數(shù)將兩類樣本分開(kāi))時(shí),由1 條一維直線分割,該直線距離兩類數(shù)據(jù)的決策邊界距離最遠(yuǎn)。在二維以上的多維空間中,SVM 將數(shù)據(jù)映射到更高維的空間,將線性不可分轉(zhuǎn)化為線性可分的情況,進(jìn)而確定分割位置。

      SVM 是對(duì)數(shù)據(jù)邊界進(jìn)行決策,一定程度上可以防止模型過(guò)擬合。

      1.1.3 數(shù)據(jù)增強(qiáng)算法

      通過(guò)對(duì)幾種數(shù)據(jù)增強(qiáng)算法的比較,采用Wei 等[10]提出的EDA 算法,除同義詞替換方法外,首次提出對(duì)一句話中的詞進(jìn)行插入、交換、刪除的方法,對(duì)文本數(shù)據(jù)具有一定的通用性。EDA 方法對(duì)一句話中詞(不包含停用詞)的處理包含以下4 種方法:

      (1)同義詞替換(SR,synonym replacement),隨機(jī)選擇n 個(gè)詞,再隨機(jī)選擇每個(gè)詞的一個(gè)同義詞替換該詞;

      (2)隨機(jī)插入(RI,random insertion),隨機(jī)選擇一個(gè)詞,再隨機(jī)選擇該詞的一個(gè)同義詞,插入句中隨機(jī)位置,重復(fù)n 次;

      (3)隨機(jī)交換(RS,random swap),隨機(jī)選擇兩個(gè)詞,交換其在句中的位置,重復(fù)n 次;

      (4)隨機(jī)刪除(RD,random deletion),對(duì)句中每個(gè)詞以概率p 刪除。

      方法中涉及的變量及相互關(guān)系如下

      式中:N 為一個(gè)樣本的每種增強(qiáng)技術(shù)執(zhí)行次數(shù);Naug為增強(qiáng)的樣本數(shù),即增強(qiáng)后從每個(gè)原樣本擴(kuò)充的新樣本數(shù)量;n 為每次增強(qiáng)所變動(dòng)的詞的個(gè)數(shù);??為向下取整;L 為一個(gè)樣本中詞的總數(shù);α 為變動(dòng)詞占比(%),即每種增強(qiáng)技術(shù)在一個(gè)樣本中所改動(dòng)的詞數(shù)占該樣本總詞數(shù)L 的比例。

      上述4 種方法等同于對(duì)樣本數(shù)據(jù)進(jìn)行了加噪處理,減少數(shù)據(jù)過(guò)擬合情況,雖然從語(yǔ)義上會(huì)存在不通順情況,但保持了較高的相似度,盡量保留了樣本原標(biāo)簽。

      文獻(xiàn)[10]在同義詞替換方法中使用Python 的nltk庫(kù)中的語(yǔ)義詞典Wordnet 獲取英文同義詞。本文基于增強(qiáng)方法[11]增強(qiáng)中文數(shù)據(jù),采用中文近義詞工具包Synonyms 獲取同義詞。

      在使用EDA 算法過(guò)程中,選詞的隨機(jī)性會(huì)導(dǎo)致選中的詞可能沒(méi)有同義詞以及原詞包含在自己的同義詞集合中等情況,在增強(qiáng)后的集合中可能存在重復(fù)數(shù)據(jù)。基于該情況增加了對(duì)一句話的循環(huán)增強(qiáng),直至所有在設(shè)定參數(shù)下的增強(qiáng)數(shù)據(jù)及原數(shù)據(jù)不完全相同,對(duì)數(shù)據(jù)進(jìn)行最大化加噪。

      1.2 自動(dòng)分類設(shè)計(jì)

      1.2.1 實(shí)驗(yàn)框架

      為便于觀察,本實(shí)驗(yàn)根據(jù)一個(gè)事件類型下的事件信息數(shù)量的數(shù)量級(jí),從原數(shù)據(jù)集中劃分出3 個(gè)數(shù)據(jù)子集,每種事件類型的事件數(shù)分別為十?dāng)?shù)量級(jí)、百數(shù)量級(jí)和千數(shù)量級(jí),在各子集下劃分出訓(xùn)練集和測(cè)試集,前者用于數(shù)據(jù)增強(qiáng)以及模型的訓(xùn)練,后者用于模型測(cè)試,最后評(píng)價(jià)分析。實(shí)驗(yàn)流程如圖3 所示。

      圖3 實(shí)驗(yàn)流程圖Fig.3 Experimental flow chart

      具體步驟如下:

      步驟1將初始數(shù)據(jù)集轉(zhuǎn)存為.csv 格式文件,整理后的第1 列數(shù)據(jù)內(nèi)容為“事件類型”,第2 列數(shù)據(jù)內(nèi)容為事件信息的“簡(jiǎn)要經(jīng)過(guò)”,作為原數(shù)據(jù)集;

      步驟2初始數(shù)據(jù)集中,各事件類型的事件數(shù)量最少為4,最大為12 209,為了降低不同類型下事件數(shù)量差別對(duì)模型性能的影響,依據(jù)一個(gè)事件類型所包含的事件信息數(shù)量的數(shù)量級(jí),將原數(shù)據(jù)集劃分為3 個(gè)數(shù)據(jù)子集,各子集對(duì)應(yīng)的事件信息數(shù)量級(jí)分別為十、百、千數(shù)量級(jí);

      步驟3將3 個(gè)數(shù)據(jù)子集各采用分層采樣的方式按7 ∶3 的一般比例劃分為訓(xùn)練集和測(cè)試集(即每個(gè)事件類型的不同數(shù)量級(jí)的事件信息都按7∶3 的比例劃分,再各自組為整體的訓(xùn)練集和測(cè)試集),分別用BERT 模型表示為數(shù)組形式,訓(xùn)練模型并判斷模型性能,該部分作為基準(zhǔn)實(shí)驗(yàn),與后續(xù)實(shí)驗(yàn)作對(duì)照;

      步驟4針對(duì)3 個(gè)數(shù)據(jù)子集,設(shè)定不同的測(cè)試集比例,對(duì)訓(xùn)練集進(jìn)行EDA 增強(qiáng)處理,增強(qiáng)后的數(shù)據(jù)在表示為高維向量形式后作為新的訓(xùn)練集,未增強(qiáng)的測(cè)試集數(shù)據(jù)在表示為高維向量形式后,作為新的測(cè)試集,觀察不同測(cè)試集占比對(duì)模型性能的影響;

      步驟5按照步驟4 的方法,判斷文本增強(qiáng)涉及的參數(shù)α 和Naug對(duì)不同數(shù)量級(jí)子集模型性能的影響;

      步驟6從十?dāng)?shù)量級(jí)經(jīng)增強(qiáng)后的數(shù)據(jù)中選取達(dá)到百數(shù)量級(jí)的數(shù)據(jù)子集,從千數(shù)量級(jí)中選取數(shù)據(jù)組成百數(shù)量級(jí)子集,從百數(shù)量級(jí)子集經(jīng)增強(qiáng)后的數(shù)據(jù)中選取達(dá)到千數(shù)量級(jí)的數(shù)據(jù)子集,計(jì)算各自增強(qiáng)后的性能,并分別與原十?dāng)?shù)量級(jí)子集、百數(shù)量級(jí)子集和千數(shù)量級(jí)子集增強(qiáng)后性能進(jìn)行對(duì)比,判斷不同事件類型按相同數(shù)量級(jí)劃分所得結(jié)果的通用性。

      1.2.2 評(píng)價(jià)指標(biāo)

      本實(shí)驗(yàn)采用的評(píng)價(jià)指標(biāo)如下。

      1)加權(quán)準(zhǔn)確率

      加權(quán)準(zhǔn)確率計(jì)算如下

      式中:ni為第i 個(gè)事件類型包含的事件信息數(shù)量;Ne為要評(píng)價(jià)的模型包含的所有事件信息數(shù)量;k 為事件類型數(shù);Ai為第i 個(gè)事件類型對(duì)應(yīng)的準(zhǔn)確率,準(zhǔn)確率計(jì)算如下

      式中:TP 為將正類預(yù)測(cè)為正類的事件數(shù)量;FN 為將正類預(yù)測(cè)為負(fù)類的事件數(shù)量;FP 為將負(fù)類預(yù)測(cè)為正類的事件數(shù)量;TN 為將負(fù)類預(yù)測(cè)為負(fù)類的事件數(shù)量(所關(guān)注的類為正類,其他類為負(fù)類)。

      2)加權(quán)F1

      加權(quán)F1計(jì)算如下

      式中:F1i為第i 個(gè)事件類型的F1,F(xiàn)1為精確率和召回率的調(diào)和平均數(shù),F(xiàn)1越高,模型越穩(wěn)健,F(xiàn)1計(jì)算如下

      式中:P 為精確率又稱查準(zhǔn)率,表示模型不將負(fù)樣本標(biāo)記為正樣本的能力,即

      R 為召回率又稱查全率,表示模型找到所有正樣本的能力,即

      1.3 實(shí)驗(yàn)環(huán)境

      實(shí)驗(yàn)環(huán)境整體配置較簡(jiǎn)單,具體環(huán)境如表1 所示。

      表1 實(shí)驗(yàn)環(huán)境Tab.1 Experimental environment

      1.4 數(shù)據(jù)準(zhǔn)備

      數(shù)據(jù)來(lái)源為中國(guó)民用航空安全信息系統(tǒng)事件庫(kù)中的事件信息,使用“事件類型”及“簡(jiǎn)要經(jīng)過(guò)”2 個(gè)數(shù)據(jù)內(nèi)容,選擇系統(tǒng)中2013 年6 月7 日(該系統(tǒng)中事件信息數(shù)據(jù)最早記錄的日期)至2020 年5 月14日之間的所有事件信息數(shù)據(jù),其中:①去除“其他”事件類型;②系統(tǒng)中存在不同時(shí)間上報(bào)同一事件的情況,如兩條上報(bào)信息“發(fā)生時(shí)間”不同,但其他信息相同,只關(guān)注“簡(jiǎn)要經(jīng)過(guò)”和“事件類型”2 個(gè)內(nèi)容,因此對(duì)“簡(jiǎn)要經(jīng)過(guò)”和“事件類型”存在重復(fù)的事件信息進(jìn)行去重,保留其一,保留所述事件相同,但“簡(jiǎn)要經(jīng)過(guò)”表述不完全相同的事件信息;③去除導(dǎo)出文件中“事件類型”和“簡(jiǎn)要經(jīng)過(guò)”字符串中的空格。

      經(jīng)過(guò)上述處理,共得到包含74 個(gè)事件類型的43 297 個(gè)初始數(shù)據(jù),每個(gè)數(shù)據(jù)包含“標(biāo)簽”和“內(nèi)容”2部分。

      1.5 模型參數(shù)

      實(shí)驗(yàn)選擇BERT 模型中的“BERT-Base,Chinese”模型[12],神經(jīng)網(wǎng)絡(luò)包含12 個(gè)隱藏層,每個(gè)隱藏層的大小為768 維,共有1.1×108個(gè)參數(shù)。

      2 實(shí)驗(yàn)結(jié)果分析

      實(shí)驗(yàn)主要觀察不同數(shù)量級(jí)子集的測(cè)試集和增強(qiáng)后的訓(xùn)練集所對(duì)應(yīng)的Aw和F1w,以及各子集下的實(shí)驗(yàn)運(yùn)行總耗時(shí)(包括數(shù)據(jù)增強(qiáng)、模型訓(xùn)練及模型評(píng)價(jià)的運(yùn)行耗時(shí))。實(shí)驗(yàn)結(jié)果如表2 所示。

      表2 基準(zhǔn)實(shí)驗(yàn)的Aw、F1w 和耗時(shí)Tab.2 Aw,F(xiàn)1w and elapsed time of benchmark experiment

      (1)由表2 可得,在未增強(qiáng)的基準(zhǔn)試驗(yàn)中,千數(shù)量級(jí)子集可以直接獲得85%以上的性能,相比千數(shù)量級(jí)子集,百數(shù)量級(jí)子集性能較低,有提升空間,而十?dāng)?shù)量級(jí)子集所得性能較差。

      (2)相同測(cè)試集比例下,不同子集性能增量程度不同,性能增量(ΔF1w)如圖4 所示。

      圖4 文本增強(qiáng)對(duì)模型性能的影響示意圖Fig.4 Abridged general view of the impact of text enhancement on model performance

      圖4 中黑色部分為在測(cè)試集比例為0.30,Naug=4時(shí),3 個(gè)子集對(duì)應(yīng)的基準(zhǔn)實(shí)驗(yàn)的測(cè)試集F1w值,灰色部分為經(jīng)過(guò)增強(qiáng)后的性能增量。

      (3)各事件類型數(shù)量級(jí)在不同測(cè)試集比例(0.05,0.10,0.20,0.30,0.50,0.70,0.90)下得到的模型性能增量如圖5 所示。

      圖5 3 個(gè)數(shù)量級(jí)子集在不同測(cè)試集比例下性能增量Fig.5 Performance increments of three subsets under different test set ratios

      由圖5 可得:百數(shù)量級(jí)和千數(shù)量級(jí)子集的測(cè)試集比例分別在0.05 和0.20 時(shí)性能較好;十?dāng)?shù)量級(jí)子集因原數(shù)據(jù)集各事件類型的事件數(shù)量較少,增強(qiáng)后模型性能增量較大,隨著測(cè)試集占比增加,性能下降明顯;十?dāng)?shù)量級(jí)子集測(cè)試集比例在0.05 和0.30 的性能增量都相對(duì)較高。在測(cè)試集比例為0.05 時(shí),每個(gè)類型的測(cè)試數(shù)據(jù)樣本數(shù)都在個(gè)位數(shù),且Aw和F1w為1 的事件類型較多,同時(shí)也存在性能指標(biāo)為0 的情況,即該參數(shù)下,雖然性能增量較高,但模型性能表現(xiàn)較為極端,不具有代表性;測(cè)試集比例為0.30 時(shí),性能指標(biāo)不存在為0 的情況,運(yùn)行時(shí)間也比測(cè)試集比例為0.05 時(shí)短,ΔF1w與測(cè)試集比例為0.05 時(shí)基本相同。因此在數(shù)量級(jí)為十時(shí),測(cè)試集比例為0.30 較好。

      (4)各事件類型數(shù)量級(jí)在不同的變動(dòng)詞數(shù)占比α=0.05,0.10,0.15,0.20,0.25 下得到的模型的性能增量如圖6 所示。

      由圖6 可得:隨著α 的增加,訓(xùn)練集性能下降,可能因?yàn)橐痪湓捴凶儎?dòng)詞數(shù)增加,影響了一個(gè)事件信息原本的特征,而訓(xùn)練集中增強(qiáng)后的語(yǔ)句占比較大,因此,在數(shù)據(jù)量較大的情況下,整體識(shí)別能力有所下降,但測(cè)試集中的事件信息特征保留相對(duì)完整,性能相對(duì)穩(wěn)定。

      圖6 3 種事件數(shù)量級(jí)在不同α 下的性能增量Fig.6 Performance increments of three subsets under different α

      (5)千數(shù)量級(jí)子集在測(cè)試集比例為0.7 以下時(shí),性能變化小,選擇比例為0.6 進(jìn)行下一步實(shí)驗(yàn)。各數(shù)量級(jí)在不同增強(qiáng)樣本數(shù)Naug=4,8,12,16,20,24 下的模型性能增量如圖7 所示。

      圖7 3 種事件數(shù)量級(jí)在不同Naug 下的性能增量Fig.7 Performance increment of three subsets under different Naug

      由圖7 可得,隨著Naug的增加,十?dāng)?shù)量級(jí)子集和千數(shù)量級(jí)子集性能逐漸增加,但速度變緩,在Naug=8 時(shí),百數(shù)量級(jí)子集性能最大,千數(shù)量級(jí)子集性能增幅最大。

      (6)從十?dāng)?shù)量級(jí)子集中選取增強(qiáng)后達(dá)到百數(shù)量級(jí)子集的數(shù)據(jù),與原來(lái)的百數(shù)量級(jí)子集進(jìn)行對(duì)比;從千數(shù)量級(jí)子集中選取部分?jǐn)?shù)據(jù)作為新的百數(shù)量級(jí)子集,并與原來(lái)的百數(shù)量級(jí)子集采用相同的增強(qiáng)參數(shù),觀察性能結(jié)果;再?gòu)陌贁?shù)量級(jí)子集中選取增強(qiáng)后達(dá)到千數(shù)量級(jí)子集的數(shù)據(jù),與原來(lái)的千數(shù)量級(jí)子集做對(duì)比,結(jié)果如表3 所示。

      由表3 可得:模型性能與事件類型的事件數(shù)量級(jí)相關(guān);十?dāng)?shù)量級(jí)子集模型因原數(shù)據(jù)集小,增強(qiáng)后性能增量較大但性能相對(duì)較低;百數(shù)量級(jí)子集的模型性能相對(duì)較好,不論是原數(shù)據(jù)集、從千數(shù)量級(jí)子集中選擇部分?jǐn)?shù)據(jù),還是將其增強(qiáng)至千數(shù)量級(jí),性能都相對(duì)較好。具有不同特征的事件類型對(duì)模型結(jié)果影響不大,說(shuō)明BERT 語(yǔ)言表示模型能較好地表示出民航不安全事件信息類型的特征。

      各子集模型局部最優(yōu)參數(shù)及性能如表4 所示。

      3 結(jié)語(yǔ)

      針對(duì)民航不安全事件信息的特點(diǎn),通過(guò)對(duì)比分析不同量級(jí)的事件類型經(jīng)過(guò)文本增強(qiáng)后再實(shí)現(xiàn)自動(dòng)分類的模型性能,結(jié)論如下:

      (1)在數(shù)據(jù)量相對(duì)較少的情況下,采用文本增強(qiáng)技術(shù),分類器性能提升明顯,事件類型的事件信息數(shù)量級(jí)為十?dāng)?shù)量級(jí)時(shí),F(xiàn)1w提升31.21%,百數(shù)量級(jí)時(shí),F(xiàn)1w提升9.66%,千數(shù)量級(jí)時(shí),F(xiàn)1w提升3.35%;

      (2)事件數(shù)量為百數(shù)量級(jí)的數(shù)據(jù)集時(shí),模型性能相對(duì)較好,因此在實(shí)際應(yīng)用中,人工標(biāo)注至百數(shù)量級(jí)再完成下游任務(wù)即可;

      (3)在經(jīng)典機(jī)器學(xué)習(xí)方法SVM 的基礎(chǔ)上進(jìn)行文本增強(qiáng),獲得的模型Aw和F1w可以達(dá)到85%以上,屬于可接受范圍,可以應(yīng)用。

      下一步研究將考慮不安全事件信息的多標(biāo)簽屬性,探索提高性能的其他技術(shù),提高模型的泛化能力。

      猜你喜歡
      數(shù)量級(jí)子集性能
      由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
      拓?fù)淇臻g中緊致子集的性質(zhì)研究
      關(guān)于奇數(shù)階二元子集的分離序列
      提供將近80 Gbps的帶寬性能 DisplayPort 2.0正式發(fā)布
      論簡(jiǎn)單估算數(shù)量級(jí)的數(shù)學(xué)方法
      Al-Se雙元置換的基于LGPS的thio-LISICON的制備與性能表征
      西門(mén)子PLC編程中關(guān)于流量累計(jì)結(jié)果的限制及改善方法
      強(qiáng)韌化PBT/PC共混物的制備與性能
      講故事 學(xué)進(jìn)制
      每一次愛(ài)情都只是愛(ài)情的子集
      都市麗人(2015年4期)2015-03-20 13:33:22
      乌兰察布市| 新闻| 德清县| 大洼县| 金乡县| 张家界市| 平远县| 手游| 青州市| 江油市| 临安市| 湘潭市| 呼和浩特市| 名山县| 仁寿县| 特克斯县| 奉新县| 略阳县| 凤城市| 鄱阳县| 偏关县| 游戏| 论坛| 仙居县| 万源市| 高阳县| 邹平县| 宣化县| 正定县| 建水县| 宁阳县| 靖边县| 芜湖市| 浦东新区| 平阳县| 平江县| 郑州市| 阿拉善右旗| 铁力市| 桃源县| 布拖县|