• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于雙通道卷積模型對(duì)人群的分類

      2020-12-23 03:17:14胡慧瑩張帆
      汽車實(shí)用技術(shù) 2020年23期
      關(guān)鍵詞:雙通道分詞卷積

      胡慧瑩,張帆

      (中國(guó)汽車技術(shù)研究中心有限公司,天津 300300)

      前言

      近年來(lái)中國(guó)新能源汽車市場(chǎng)飛速發(fā)展,無(wú)論是從企業(yè)推出的車型數(shù)量還是保有用戶的數(shù)量都在持續(xù)上漲。根據(jù)中國(guó)汽車技術(shù)研究中心有限公司CATARC調(diào)研2020年對(duì)中國(guó)新能源汽車用戶地調(diào)研,不同用戶的社會(huì)特征和購(gòu)車特征差異很大。在用戶特征具有較大差異的背景下,如果將市場(chǎng)上的所有用戶作為一個(gè)整理來(lái)研究,用戶的特征和需求會(huì)非常分散,不僅不能挖掘出用戶的共性,而且會(huì)忽略具有不同特性的用戶。因此進(jìn)行新能源汽車用戶的人群分類,將具有類似特征的用戶化為一個(gè)群體進(jìn)行研究是非常重要的[1-4]。

      目前新能源領(lǐng)域人群分類的方法主要是基于 kmeans聚類,該方法可以很好地對(duì)數(shù)值型數(shù)據(jù)進(jìn)行分類,但是對(duì)文本型數(shù)據(jù)的分類效果不明顯,準(zhǔn)確率不高。因此,本文提出一種“基于雙通道卷積模型”對(duì)人群的分類,該方法是以新能源汽車調(diào)研問(wèn)卷為數(shù)據(jù)源,利用雙通道卷積模型對(duì)問(wèn)卷的文本數(shù)據(jù)進(jìn)行人群分類[5-7],該方法可以提高自然語(yǔ)言文本的分類效果,非常有利于對(duì)問(wèn)卷的答案進(jìn)行有效地分析。

      1 實(shí)證研究

      1.1 數(shù)據(jù)準(zhǔn)備

      數(shù)據(jù)是本文的基礎(chǔ),本數(shù)據(jù)來(lái)自CATARC新能源汽車調(diào)研問(wèn)卷,通過(guò)近幾年的積累,積累了將近10000份樣本問(wèn)卷,樣本問(wèn)卷有關(guān)人群的問(wèn)題及答案如下表1所示,由于篇幅原因,在這里只給出3個(gè)示例。

      表1 樣本問(wèn)卷有關(guān)人群的問(wèn)題及答案

      1.2 樣本分句

      因?yàn)槊總€(gè)樣本的答案語(yǔ)句字?jǐn)?shù)長(zhǎng)度以及維度不一致,在這里利用正則表達(dá)式把每個(gè)樣本答案按照“,”,“?!钡葮?biāo)點(diǎn)符號(hào)分隔開(kāi),目的是“大化小、長(zhǎng)化短”,以便于后期計(jì)算方便,加快求解速度以及提高模型準(zhǔn)確率,分割后的樣本數(shù)據(jù)如下表2所示。

      表2 分割后的樣本數(shù)據(jù)

      1.3 語(yǔ)句分詞

      接下來(lái)對(duì)樣本答案進(jìn)行分詞,采用的方法是基于python語(yǔ)言和維特比算法來(lái)進(jìn)行分詞,下面介紹一下詞圖、節(jié)點(diǎn)間的距離計(jì)算以及維特比算法。

      1.3.1 詞圖

      對(duì)要分詞的語(yǔ)句利用有向無(wú)環(huán)圖進(jìn)行分詞,每一條分支都是可以分詞路徑,比如對(duì)第一個(gè)樣本答案“表示我已經(jīng)取得成功”這句話進(jìn)行分詞,那么這句話可以形成的詞圖可以用下面的圖1表示。

      圖1 樣本數(shù)據(jù)的詞圖

      由圖1可知,每一個(gè)分支都是從開(kāi)始到結(jié)束形成一個(gè)有向無(wú)環(huán)圖,每個(gè)有向無(wú)環(huán)圖[8]。

      1.3.2 計(jì)算節(jié)點(diǎn)之間的距離

      在這里以圖 1詞圖中每條邊以二元語(yǔ)法的概率作為距離,那么中文分詞任務(wù)轉(zhuǎn)換為有向無(wú)環(huán)圖上的最長(zhǎng)路徑問(wèn)題[9]。為了使理論更加貼近實(shí)際工程在文本中分詞使用公式1,將浮點(diǎn)數(shù)概率值連續(xù)相乘轉(zhuǎn)化為負(fù)對(duì)數(shù)之間的加法。

      圖1詞圖多個(gè)有向無(wú)環(huán)圖計(jì)算節(jié)點(diǎn)之間距離,添加計(jì)算節(jié)點(diǎn)之間距離的詞圖如下圖2所示。

      圖2 計(jì)算節(jié)點(diǎn)間距離后的示意圖

      1.3.3 詞圖的維特比算法

      因?yàn)槎Z(yǔ)法可以看作隱馬爾科夫模型的特例,只需要將此網(wǎng)中的詞語(yǔ)看作顯狀態(tài),只不過(guò)是隱狀態(tài)到顯狀態(tài)的發(fā)射概率為1。表1的樣本數(shù)據(jù)經(jīng)過(guò)維特比分詞得到的結(jié)果如表3所示。

      1.4 語(yǔ)句詞語(yǔ)打標(biāo)簽

      對(duì)表3樣本中的數(shù)據(jù)給出分類標(biāo)簽以及相對(duì)應(yīng)分詞結(jié)果的標(biāo)簽,在本文中分為6類人群,維特比分詞后加標(biāo)簽后的數(shù)據(jù)如下表3所示,由于篇幅原因,在這里只列舉出部分示例。

      表3 維特比分詞后加標(biāo)簽后的數(shù)據(jù)

      1.5 模型介紹及參數(shù)確定

      1.5.1 模型介紹

      雙通道中的一個(gè)通道指的是語(yǔ)句的輸入及相對(duì)應(yīng)的CNN模塊對(duì)句子進(jìn)行卷積、另一個(gè)通道是指分詞短語(yǔ)的輸入及相對(duì)應(yīng)的 CNN模塊對(duì)分詞短語(yǔ)進(jìn)行卷積,然后對(duì)二者的結(jié)果統(tǒng)一進(jìn)行 softmax多分類操作[10-13],因此而形成雙通道卷積模型。

      雙通道卷積模型是一種涉及 CNN的神經(jīng)網(wǎng)絡(luò)的模型,因此研究的內(nèi)容會(huì)包括卷積層、池化層和 softmax層等網(wǎng)絡(luò)結(jié)構(gòu),每個(gè)CNN模塊由以下五部分組成。

      分句后的新句子包括標(biāo)點(diǎn)符號(hào)最長(zhǎng)有m個(gè)字?jǐn)?shù),大約有m//2+1個(gè)詞語(yǔ)。

      (1)原始數(shù)據(jù):因?yàn)樾戮渥幼铋L(zhǎng)有m//2+1個(gè)詞語(yǔ)m個(gè)字?jǐn)?shù),所以詞向量維度為m//2+1,字向量為m,那么整個(gè)句子矩陣大小為(m-1)×(m-1)(因?yàn)闃?biāo)點(diǎn)符號(hào)不參與計(jì)算);

      (2)第一步:卷積核的區(qū)域大小可以?。╩1,m2,,m3)3種(如圖8,每相似顏色的為一種),每種又有兩個(gè)不同的取值(因?yàn)槭请p通道模型,每個(gè)通道對(duì)應(yīng)一個(gè)取值),所以一共是有6個(gè)取值,即6個(gè)不同的卷積模板;

      (3)第二步:特征模板制作,即數(shù)學(xué)中的積計(jì)算;即(m+2-mk(k=1,2,3)),計(jì)算出來(lái)是特征模板的大小,一共有3類(因?yàn)槭请p通道,所以每類兩個(gè))共有6個(gè);

      (4)第三、四步:因?yàn)橛貌煌笮〉木矸e核獲取到的特征模板大小也不一樣,為了解決這個(gè)問(wèn)題,添加一層最大池化層,即選取一個(gè)最大值,然后相同大小的組合在一起形成特征向量;

      (5)第五步:基于特征向量利用邏輯回歸的多分類模型softmax進(jìn)行分類。

      注意:m的取值由分割后的語(yǔ)句決定,不需要利用模型來(lái)求出。

      1.5.2 確定最佳參數(shù)

      前文介紹模型以及模型的相關(guān)參數(shù),本小結(jié)來(lái)確定m1、m2、m3的參數(shù),在這里使用800樣本作為訓(xùn)練集,目的是訓(xùn)練出模型地最佳參數(shù);使用200樣本作為測(cè)試集,目的是測(cè)試模型的可靠性。利用控制變量法和損失函數(shù)在確定最佳參數(shù),模型經(jīng)過(guò)控制變量法訓(xùn)練之后,經(jīng)過(guò)10次迭代后確定最佳參數(shù):m1取值2、m2取值3、m3取值4。

      1.6 預(yù)測(cè)新數(shù)據(jù)

      經(jīng)過(guò)前文確定了模型及模型地最佳參數(shù),可以通過(guò)此模型對(duì)新的數(shù)據(jù)實(shí)現(xiàn)自動(dòng)化分類,總體的正確率達(dá)到了80%左右,因?yàn)槠?,下?只給出了部分?jǐn)?shù)據(jù)的預(yù)測(cè)結(jié)果。

      表4 部分?jǐn)?shù)據(jù)的預(yù)測(cè)結(jié)果

      2 分析與結(jié)論

      本模型正確率達(dá)到80%左右,基本可以達(dá)到企業(yè)的要求和目的,為了精益求精,文本后期可以增加多個(gè)卷積層來(lái)優(yōu)化此模型,或者增加多個(gè)樣本量加大模型訓(xùn)練基數(shù),以此來(lái)提高模型的精度。

      猜你喜歡
      雙通道分詞卷積
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      近端胃切除雙通道重建及全胃切除術(shù)用于胃上部癌根治術(shù)的療效
      結(jié)巴分詞在詞云中的應(yīng)用
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      值得重視的分詞的特殊用法
      采用6.25mm×6.25mm×1.8mm LGA封裝的雙通道2.5A、單通道5A超薄微型模塊穩(wěn)壓器
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
      分類高考能否打通“雙通道”
      高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
      汉川市| 华阴市| 土默特左旗| 潍坊市| 高平市| 澜沧| 桐乡市| 大城县| 天津市| 凯里市| 大丰市| 崇左市| 元氏县| 德保县| 昌江| 含山县| 习水县| 莱西市| 吐鲁番市| 姜堰市| 佛山市| 云南省| 高阳县| 宿州市| 梁河县| 买车| 五台县| 慈溪市| 咸宁市| 习水县| 灌阳县| 贺州市| 新野县| 卫辉市| 寻乌县| 寿宁县| 那曲县| 泸西县| 炎陵县| 龙南县| 柏乡县|