• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于AdaBoost的核素識(shí)別方法

      2019-03-06 10:26:22茵,劉
      關(guān)鍵詞:核素能譜特征向量

      仝 茵,劉 麗

      (1.中國原子能科學(xué)研究院,北京 102413;2.中國電子科學(xué)研究院,北京 100041)

      0 引 言

      核素鑒別具有實(shí)際應(yīng)用意義。在多種的測量環(huán)境中,放射性核素經(jīng)過γ能譜儀等核物理設(shè)備儀器進(jìn)行鑒別,探測器接收發(fā)射的γ射線源生成能譜數(shù)據(jù),能譜獲取后通過特定的方法進(jìn)行分析,實(shí)現(xiàn)對(duì)核素的種類鑒別。目前成熟的核探測解譜方法,通常采用全能峰法、逐次差引法等技術(shù)來進(jìn)行核素分析解譜[1]。傳統(tǒng)的方法存在的問題主要有:(1)獲取到的能量峰值向量的峰值信息不能涵蓋全部峰值,能譜的信息具有局部特征,或存在重疊峰值,從而可能導(dǎo)致核素判別出現(xiàn)錯(cuò)失、誤判結(jié)果。(2)對(duì)于能譜隨測量環(huán)境變化的動(dòng)態(tài)改變,傳統(tǒng)方法不具有強(qiáng)適應(yīng)性,核素識(shí)別率會(huì)降低。

      近年來核工業(yè)領(lǐng)域積極結(jié)合人工智能思想進(jìn)行研究和應(yīng)用,探索解決傳統(tǒng)方法中存在的短板,結(jié)合機(jī)器學(xué)習(xí)算法,進(jìn)行工業(yè)創(chuàng)新。本文的思想,介紹了一個(gè)基于AdaBoost算法的核素識(shí)別系統(tǒng),將采樣生成的能譜數(shù)據(jù)理解為向量和圖片形式的數(shù)據(jù),將原始的能譜數(shù)據(jù)處理為矩陣形式,然后通過SVD方法對(duì)能譜矩陣進(jìn)行特征信息提取,得到能譜特征向量作為后續(xù)模型的訓(xùn)練數(shù)據(jù),使用AdaBoost算法來建立訓(xùn)練模型識(shí)別核素種類,將每一輪弱分類器在訓(xùn)練數(shù)據(jù)集上的結(jié)果與實(shí)際真實(shí)的類別結(jié)果進(jìn)行對(duì)比,根據(jù)每一輪對(duì)比結(jié)果的偏差度,復(fù)調(diào)下一輪整模型的參數(shù),從而提高核素識(shí)別的準(zhǔn)確度。

      1 數(shù)據(jù)預(yù)處理

      1.1 數(shù)據(jù)采樣生成

      核素識(shí)別需要以大量的樣本為鑒別基礎(chǔ),得到包含更為全面的核素能譜數(shù)據(jù)的特征信息,從而提高核素識(shí)別準(zhǔn)確度。此處使用MCNP(Monte Carlo N Particle Transport Code)基于蒙特卡羅方法模擬生成能譜數(shù)據(jù)樣本,包括Eu152、AM241、Na22、I131等9種類別單一核素以及混合核素的能譜數(shù)據(jù)樣本。MCNP是美國洛斯阿拉莫斯國家實(shí)驗(yàn)室開發(fā)的一個(gè)開源工具包,能夠模擬比較逼真的物理實(shí)驗(yàn)過程[2],在本文應(yīng)用中,用來模擬構(gòu)建粒子類型、記錄能譜及定義衰變鏈的過程,生成多個(gè)能譜數(shù)據(jù)集。能譜數(shù)據(jù)形態(tài)見圖1。

      圖1為核素I131和AM241的混合能譜圖,橫軸是能量道址區(qū)間,縱軸是能量計(jì)數(shù),每一個(gè)蒙特卡洛能譜數(shù)據(jù)集看做一個(gè)向量,γ能譜的道數(shù)作為向量的維度,每個(gè)能譜向量為:

      Ui={u1,u2,u3…un}

      (1)

      式中,n∈{1,1500},共1500個(gè)波道。每個(gè)能量計(jì)數(shù)作為向量的一個(gè)維度,其中i∈{1,m},m是樣本數(shù)量。本次共生成1100個(gè)能譜數(shù)據(jù)樣本。

      1.2 Z-score標(biāo)準(zhǔn)化

      當(dāng)γ能譜的能量計(jì)數(shù)取值范圍較大時(shí),比如計(jì)數(shù)的區(qū)間為幾百甚至上千,為了減輕各個(gè)維度間取值的量綱影響,使得各維度的數(shù)值趨向同一數(shù)量級(jí)[3],我們對(duì)能譜數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理如下:

      i∈{1,m},j∈{1,n}

      (2)

      1.3 零均值化

      標(biāo)準(zhǔn)化能譜數(shù)據(jù)后,繼續(xù)進(jìn)行零均值化,得到標(biāo)準(zhǔn)差為1,均值為零的標(biāo)準(zhǔn)正太分布的能譜數(shù)據(jù),如下:

      i∈{1,m},j∈{1,n}

      (3)

      2 特征提取

      2.1 能譜特征向量

      在對(duì)γ能譜數(shù)據(jù)樣本集進(jìn)行預(yù)處理后,將其由原來的一維向量表示為二維的矩陣形式來應(yīng)用AdaBoost算法進(jìn)行分類,實(shí)際環(huán)境中,生成的全能譜數(shù)據(jù)由于存在儀器誤差或環(huán)境干擾的原因,包含噪音和非特征因素,為了保證最終機(jī)器學(xué)習(xí)模型效果,需要對(duì)能譜數(shù)據(jù)維度規(guī)約,此處使用特征提取來減小特征的維度,提取到能譜數(shù)據(jù)中最明顯的能量特征值,以更小數(shù)據(jù)維度更有效的表示AdaBoost模型的數(shù)據(jù)輸入。矩陣形式如為:

      (4)

      SVD是機(jī)器學(xué)習(xí)中常用的線性回歸問題去噪、降維方法,其原理是因數(shù)分解矩陣的線性代數(shù)[4-5]。被廣泛的用在特征提取和矩陣壓縮存儲(chǔ)問題。本問題中考慮一個(gè)由m個(gè)樣本的能譜數(shù)據(jù)集,每個(gè)樣本包含n道數(shù)據(jù)維度。SVD對(duì)樣本集進(jìn)行特征抽取來獲得奇異值特征分解向量ξi(i∈1,2,3,…m),SVD奇異值分解形式如下:

      (5)

      奇異值特征的權(quán)重下降的較快,奇異值矩陣ξi的前t個(gè)奇異值包含Ai矩陣的大部分信息量,對(duì)待不同核素形成不同的奇異值矩陣長度,我們統(tǒng)一抽取其奇異值長度的前t個(gè)奇異值構(gòu)成t維奇異值向量,令t為10,提取到能譜的多于90%的能量,得到X1×10的特征向量。

      2.2 特征向量有效性驗(yàn)證

      將上節(jié)得到特征向量X1×10作為AdaBoost模型的輸入樣本特征,選取核素中的五種核素的特征向量,驗(yàn)證其做為輸入樣本的有效性,分別取向量t=2和t=3時(shí),兩維和三維子空間的空間分布狀況。經(jīng)過空間投射驗(yàn)證,多種類核素在降維子空間分布有顯著不同,分布識(shí)別度高,由二維、三維推及更高維度,可以作為準(zhǔn)確輸入樣本特征進(jìn)行識(shí)別,部分核素的降維空間分布如圖2。

      圖2 核素前兩維和前三維特征向量空間分布對(duì)比

      圖中坐標(biāo)軸表示特征向量的前二維、及三維的維度,每一個(gè)種類的核素衰變仿真模擬生成100組數(shù)據(jù),每組核素?cái)?shù)據(jù)對(duì)應(yīng)一個(gè)特征向量X1×10和核素標(biāo)簽y。組成數(shù)據(jù)(X(i),y(i))作為模型訓(xùn)練數(shù)據(jù)集。

      3 核素識(shí)別算法

      3.1 獨(dú)立分類器做預(yù)測

      為了對(duì)核素分類效果做區(qū)分對(duì)比,防止建立的模型對(duì)數(shù)據(jù)集數(shù)據(jù)過擬合或欠擬合等問題,影響模型的實(shí)際應(yīng)用效果,將數(shù)據(jù)集分別應(yīng)用到多個(gè)識(shí)別算法進(jìn)行分析,多個(gè)獨(dú)立分類器的對(duì)比效果見圖3。

      圖3 多個(gè)分類器分類效果對(duì)比

      通過核素測試數(shù)據(jù)集與訓(xùn)練數(shù)據(jù)集在不同分類方法上產(chǎn)生效果的對(duì)比,可以看到?jīng)Q策樹方法和K近鄰方法在核素?cái)?shù)據(jù)集上的擬合效果方面和數(shù)據(jù)預(yù)測方面都有出色表現(xiàn)[6],考慮到k近鄰方法分類效果較依賴初始中心值參數(shù)的設(shè)置[7],并且無法作為弱分類器進(jìn)一步應(yīng)用到AdaBoost集成算法中提升模型的性能,兼顧核素特征樣本數(shù)據(jù)為離散值的特性。本文選擇分類決策樹方法對(duì)核素識(shí)別處理。分類決策樹CART算法建立決策樹算法描述如下:

      算法1:分類決策樹CART算法

      輸入:D=(X(i),y(i))i∈{1,m},y(i)∈{1,8},特征屬性A=ajj∈{1,n},樣本類別k∈{1,K},aj特征取值v∈{V}={1,V}

      初始化:基尼系數(shù)閾值εGini, 樣本個(gè)數(shù)|m|閾值εm,

      輸出:決策樹T

      1.當(dāng)前節(jié)點(diǎn)node,if|m|<εm||{A}=φ,返回決策子樹T,當(dāng)前節(jié)點(diǎn)停止遞歸

      2.對(duì)于樣本集D,IfGini(D)<εGini,返回決策子樹T,當(dāng)前節(jié)點(diǎn)停止遞歸

      3.當(dāng)前節(jié)點(diǎn)node,為node選擇最優(yōu)屬性a*,a*對(duì)應(yīng)的最優(yōu)值vbest,將數(shù)據(jù)集D劃分為子數(shù)據(jù)集{DVbest}和{DV*}

      4.a*取值v∈{1,V}其中,a*=argmin Gini(D,aj)

      5.While ?v∈{V}={1,V} ?v*∈{V*}={V}-v,|DV|為a*=v的樣本個(gè)數(shù) do

      6. For (w=1, w

      {V*} -= {V}-vw

      If Gini(D,a*)w > Gini(D,a*)w+1

      vbest=vw+1

      else

      vbest=vw

      End if

      End For

      7.End While

      8.根據(jù)最優(yōu)特征a*和a*對(duì)應(yīng)的最優(yōu)值vbest,生成二叉樹節(jié)點(diǎn)Nsub(即第3步的節(jié)點(diǎn)node),并把數(shù)據(jù)集劃分為兩部分,建立Nsub節(jié)點(diǎn)的左右節(jié)點(diǎn),左節(jié)點(diǎn)對(duì)應(yīng)數(shù)據(jù)集{DVbest},右節(jié)點(diǎn)對(duì)應(yīng)數(shù)據(jù)集{DV*},對(duì)左右節(jié)點(diǎn)重復(fù)調(diào)用1-7,生成決策樹T

      v的數(shù)量由特征屬性A的值個(gè)數(shù)決定,不同的特征值aj有不同數(shù)目的取值集合{V},當(dāng)前核素識(shí)別任務(wù)中,每個(gè)樣本的核素特征向量是十維,每個(gè)樣本的特征屬性A的數(shù)量為10,共有10類特征屬性去計(jì)算基尼系數(shù),取基尼系數(shù)最小的特征a*,對(duì)二叉樹進(jìn)行劃分。K是核素標(biāo)簽的數(shù)量,此處K值取6,共6類單一核素標(biāo)簽。

      分類決策樹模型,使用多組核素?cái)?shù)據(jù)進(jìn)行訓(xùn)練,訓(xùn)練過程如下:

      (1)讀取m組大小的核素特征向量,每條特征向量匹配實(shí)際的核素標(biāo)簽,形成數(shù)據(jù)集D(X(i),y(i))去做訓(xùn)練。

      (2)確定算法1輸入?yún)?shù)和初始化參數(shù),調(diào)用算法1進(jìn)行計(jì)算,得到?jīng)Q策樹T。

      (3)取非屬于m組的,同樣格式的一組核素特征向量作為測試數(shù)據(jù)集,在訓(xùn)練的決策樹T上,測試生成決策樹分類模型的準(zhǔn)確率。核素測試集的是識(shí)別精度約為73.33。

      (4)使用決策樹T對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行預(yù)測,精度為91.43。

      在對(duì)生成的決策樹做預(yù)測時(shí),測試集的樣本劃分到某葉子節(jié)點(diǎn)后,如果該葉子節(jié)點(diǎn)里有多個(gè)訓(xùn)練樣本,那么該測試樣本取該葉子節(jié)點(diǎn)的概率最大的類別作為預(yù)測類別。

      總結(jié),決策樹CART分類模型作為核素識(shí)別分類器,從預(yù)測結(jié)果來看,存在的一下問題:

      (1)決策樹模型在核素?cái)?shù)據(jù)的應(yīng)用效果有輕度過擬合。該問題可以通過調(diào)節(jié)樹深度或者計(jì)算決策子樹的損失函數(shù)的剪枝算法來提高模型泛化能力。

      (2)為了提高模型的準(zhǔn)確率,也可以特征屬性擇優(yōu)時(shí),選擇多變量特征屬性組合來做最優(yōu)劃分屬性。

      (3)核素特征屬性提取維數(shù)增加,樣本結(jié)構(gòu)發(fā)生變化,會(huì)導(dǎo)致決策樹結(jié)構(gòu)的改變,另外尋優(yōu)決策樹過程是NP-hard,得到的最優(yōu)解有可能是局部最優(yōu)解,影響精確率。這些問題可以通過集成學(xué)習(xí)改進(jìn)。

      3.2 AdaBoost集成算法對(duì)獨(dú)立分類器模型的融合

      單個(gè)決策樹分類器在訓(xùn)練集樣本上的結(jié)果表現(xiàn)出一定的錯(cuò)誤率,如上節(jié)訓(xùn)練結(jié)果錯(cuò)誤率為0.2666,集成算法AdaBoost集合了多個(gè)決策樹分類器對(duì)核素?cái)?shù)據(jù)集進(jìn)行多輪訓(xùn)練,每一輪都根據(jù)單個(gè)決策樹分類器的錯(cuò)誤率不斷修正核素?cái)?shù)據(jù)集中樣本的權(quán)值分布,增加分類錯(cuò)誤的核素樣本的權(quán)重,同時(shí)減小分類正確核素樣本的權(quán)重,最后根據(jù)每一輪決策樹分類器的權(quán)重系數(shù),形成多輪形成的相應(yīng)決策樹分類器組合,構(gòu)建一個(gè)泛化性能好的強(qiáng)分類器模型,降低單個(gè)決策樹分類器的訓(xùn)練結(jié)果的偏差,從而提高集成模型的分類精確度[8][9]。

      AdaBoost集成算法進(jìn)行核素識(shí)別過程如下:

      算法2:AdaBoost集成算法對(duì)核素的識(shí)別輸入:D=(X(i),y(i))i∈{1,m} y(i)∈{1,8}弱分類器:算法1產(chǎn)生的分類器f(X(i))初始化:第一個(gè)決策樹分類器的樣本權(quán)重分布D(1)=(w11,w12,w13…w1m) ,w1i=1/m訓(xùn)練輪數(shù):K輸出:強(qiáng)分類器F(X(i))=sign(∑K k=1αkfk(X(i)))1.計(jì)算第一個(gè)決策樹分類器在D上的加權(quán)誤差率為e1=P(f1(X(i)-y(i))>0.5)=∑mi=1w1iI(f1(X(i)-y(i))>0.5)2.計(jì)算第一個(gè)分類器的權(quán)重系數(shù)為α1=1/2[log(1-e1)/e1]規(guī)范化因子Zk=∑m i=1w1iexp(-αkI(f1(X(i)-y(i))>0.5))3.更新第2個(gè)決策樹分類器的樣本集權(quán)重系數(shù)分布W2i=[w1iexp(-αkI(f1(X(i)-y(i))>0.5))]/Z14.If e1<0.5 重復(fù)1-3步,訓(xùn)練第2、3...輪決策樹分類器,直到訓(xùn)練輪數(shù)到K次停止,最終得到對(duì)應(yīng)的決策樹分類器對(duì)應(yīng)的權(quán)重系數(shù)αk和相應(yīng)的分類器fk(X(i))結(jié)果5.集成策略采用K輪類別投票法,得到樣本X(i)的最終強(qiáng)分類器F(X(i))

      如果訓(xùn)練過程中,ei>0.5,導(dǎo)致整個(gè)強(qiáng)學(xué)習(xí)器沒有循環(huán)到K輪就停止。如果出現(xiàn)未迭代完成就終止的情況,放棄當(dāng)前決策樹分類器,基于當(dāng)前輪次的數(shù)據(jù)樣本分布重新采樣,生成新的核素樣本數(shù)據(jù)集,重新訓(xùn)練決策樹分類器,使得K輪迭代完成,不影響到最終強(qiáng)學(xué)習(xí)器的效果。

      總結(jié),AdaBoost集成模型應(yīng)用在真實(shí)的能譜測量環(huán)境中,提高能譜數(shù)據(jù)分析識(shí)別分類的精準(zhǔn)度。根據(jù)每一輪決策樹分類器的錯(cuò)誤率調(diào)整更新分類錯(cuò)誤樣本的權(quán)重值,最終將多輪的決策樹分類器的的訓(xùn)練結(jié)果的融合。在存在噪音的真實(shí)衰減環(huán)境中,對(duì)能譜數(shù)據(jù)識(shí)別預(yù)測的訓(xùn)練結(jié)果有良好的泛化能力,經(jīng)過檢測,模型在核素測試數(shù)據(jù)集的預(yù)測精準(zhǔn)度表現(xiàn)為98.33%。

      4 測試結(jié)果及分析

      4.1 模型參數(shù)尋優(yōu)

      在AdaBoost集成算法對(duì)核素?cái)?shù)據(jù)建模階段,使用交叉驗(yàn)證的方法[10],對(duì)模型參數(shù)學(xué)習(xí)率和訓(xùn)練器個(gè)數(shù)進(jìn)行優(yōu)化,設(shè)定模型的學(xué)習(xí)率范圍為v:[0.1,1.0],模型進(jìn)行迭代訓(xùn)練的決策樹分類器個(gè)數(shù)為n:[100,1000],通過5折交叉驗(yàn)證調(diào)參來獲得模型在測試樣本集上的準(zhǔn)確率表現(xiàn),如圖4,決策樹分類器的個(gè)數(shù)為300,學(xué)習(xí)率取0.8,得到核素測試數(shù)據(jù)集的分類預(yù)測精確度為98.33%。

      圖4 AdaBoost算法參數(shù)尋優(yōu)

      4.2 多重核素鑒別結(jié)果

      模型對(duì)包含部分混合能譜向量的測試數(shù)據(jù)集進(jìn)行預(yù)測,(混合核素的能譜數(shù)據(jù)樣本包含三類混合數(shù)據(jù),為AM241+Na22、Eu152+Na22、I131+AM241三組不同混合類別核素的能譜數(shù)據(jù)樣本),AdaBoost模型在混合核素?cái)?shù)據(jù)集上得到的預(yù)測效果如表1,可以看到,模型對(duì)多重核素混疊的能譜的識(shí)別效果,仍有較高的識(shí)別精確度,能夠精準(zhǔn)識(shí)別出單一核素和混合核素的區(qū)別,效果如圖5所示(圖中,三組不同混合核素種類的表示形式分別為12、34、56)。

      表1 混合核素識(shí)別效果

      圖5 混合核素識(shí)別精準(zhǔn)度

      5 結(jié) 語

      本文的工作內(nèi)容包括:(1)對(duì)高維度能譜數(shù)據(jù)向量的降維處理,提取到包含大部分能譜數(shù)據(jù)特征的前十維數(shù)據(jù),降低了高維能譜數(shù)據(jù)處理難度和存在的噪音問題,為核素識(shí)別奠定基礎(chǔ)。(2)比較不同的建模算法,選擇單元分類器決策樹對(duì)核素?cái)?shù)據(jù)集進(jìn)行訓(xùn)練,進(jìn)一步應(yīng)用AdaBoost集成學(xué)習(xí)算法對(duì)單元分類器效果的弱性能進(jìn)行提升,通過對(duì)學(xué)習(xí)步長和決策樹分類器個(gè)數(shù)這兩個(gè)參數(shù)的調(diào)優(yōu),構(gòu)建一個(gè)在訓(xùn)練集和測試集上具有良好分類效果的模型,解決了傳統(tǒng)能譜分析解譜方法中,重疊的能譜數(shù)據(jù)和能譜局部特征導(dǎo)致識(shí)別能譜精確度低的問題,可以高精確度的對(duì)核素識(shí)別分類。

      本文不足處,在于樣本數(shù)據(jù)集中的核素種類為9種固定類型,對(duì)于衰減生成的能譜數(shù)據(jù)中,能量復(fù)雜的未知能譜數(shù)據(jù)集的識(shí)別需要在下一步繼續(xù)研究。

      猜你喜歡
      核素能譜特征向量
      二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
      核素分類開始部分的6種7核素小片分布
      能譜CT在術(shù)前預(yù)測胰腺癌淋巴結(jié)轉(zhuǎn)移的價(jià)值
      克羅內(nèi)克積的特征向量
      核素分類的4量子數(shù)
      一類特殊矩陣特征向量的求法
      EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
      M87的多波段輻射過程及其能譜擬合
      電子材料分析中的能譜干擾峰
      能譜CT和MRI小腸造影的護(hù)理配合
      连南| 阜阳市| 蛟河市| 乐清市| 黄浦区| 曲阜市| 绥化市| 灵川县| 永昌县| 曲阳县| 彭州市| 霍山县| 项城市| 大悟县| 白银市| 青海省| 龙井市| 丰城市| 会昌县| 灵宝市| 呼和浩特市| 喀喇沁旗| 青河县| 岳阳市| 清流县| 株洲市| 修武县| 正镶白旗| 通渭县| 景东| 英山县| 黄梅县| 井研县| 尉氏县| 曲松县| 正定县| 乌审旗| 陈巴尔虎旗| 德安县| 平阴县| 观塘区|