• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      普通話水平測(cè)試命題說(shuō)話模塊自動(dòng)評(píng)分技術(shù)研究

      2022-05-31 01:13:50申云飛劉嘉俊范智星早克熱·卡德?tīng)?/span>艾山·吾買(mǎi)爾
      電腦知識(shí)與技術(shù) 2022年11期

      申云飛 劉嘉俊 范智星 早克熱·卡德?tīng)? 艾山·吾買(mǎi)爾

      摘要:命題說(shuō)話是至今唯一采用人工方式評(píng)分的普通話水平測(cè)試考題,實(shí)現(xiàn)高精度命題說(shuō)話評(píng)測(cè)技術(shù)有利于國(guó)家通用語(yǔ)言文字的推廣普及。該文提出了基于回歸模型的PSC命題說(shuō)話模塊評(píng)分模型,并在自建的PSC命題說(shuō)話數(shù)據(jù)集上對(duì)比了基于不同回歸模型的預(yù)測(cè)精度。實(shí)驗(yàn)結(jié)果表明,基于XGBoost的PSC命題說(shuō)話模塊評(píng)分模型在測(cè)試集上與綜合專(zhuān)家評(píng)分的皮爾遜相關(guān)系數(shù)達(dá)到了0.860,相比線性回歸模型提升了17.5%,與人工專(zhuān)家評(píng)分具有較高的相關(guān)度,具有一定的實(shí)用價(jià)值。

      關(guān)鍵詞:普通話水平測(cè)試考試;命題說(shuō)話;發(fā)音自動(dòng)評(píng)測(cè);皮爾遜相關(guān)系數(shù)

      中圖分類(lèi)號(hào):TP18? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1009-3044(2022)11-0007-04

      1 引言

      普通話是我國(guó)的國(guó)家通用語(yǔ)言,全面加強(qiáng)國(guó)家通用語(yǔ)言文字教育,是堅(jiān)持以人民為中心的發(fā)展思想的內(nèi)在要求,是鑄牢中華民族共同體意識(shí)的重要途徑。人工智能(Artificial Intelligence, AI) 是引領(lǐng)現(xiàn)代教育革命的重要驅(qū)動(dòng)力,這門(mén)技術(shù)已經(jīng)被廣泛應(yīng)用于教育的各個(gè)環(huán)節(jié),深刻地改變了過(guò)去的教、學(xué)、考的教育形式。國(guó)內(nèi)外研究人員圍繞教育領(lǐng)域的常規(guī)教學(xué)業(yè)務(wù)工作自動(dòng)化,研發(fā)了寫(xiě)作評(píng)測(cè)技術(shù)、發(fā)音評(píng)測(cè)技術(shù)、自動(dòng)化口語(yǔ)評(píng)測(cè)技術(shù),在TOFEL、GRE、SAT等測(cè)試及我國(guó)普通話水平測(cè)試(Putonghua Shuiping Ceshi, PSC)、漢語(yǔ)水平考試(HSK) 、中國(guó)少數(shù)民族漢語(yǔ)水平等級(jí)考試(MHK) 等測(cè)試使用計(jì)算機(jī)輔助測(cè)試部分口語(yǔ)測(cè)試題,極大提高了自動(dòng)化程度。命題說(shuō)話題型屬于文本無(wú)關(guān)口語(yǔ)評(píng)測(cè)技術(shù),它測(cè)查應(yīng)試人在無(wú)文字憑借的情況下說(shuō)普通話的水平,重點(diǎn)測(cè)查語(yǔ)音標(biāo)準(zhǔn)程度、詞匯語(yǔ)法規(guī)范程度和自然流暢程度。由于命題說(shuō)話題型評(píng)測(cè)的復(fù)雜性,目前,在普通話水平測(cè)試中及各種公開(kāi)的普通話學(xué)習(xí)軟件及服務(wù)中,朗讀題型大多已經(jīng)實(shí)現(xiàn)了機(jī)器自動(dòng)評(píng)分,但是命題說(shuō)話部分仍然需要通過(guò)由專(zhuān)家人工評(píng)分的方式來(lái)取得較準(zhǔn)確的評(píng)測(cè)結(jié)果。研究與人工專(zhuān)家打分結(jié)果具有較高相關(guān)度的普通話命題說(shuō)話題型模塊的自動(dòng)評(píng)測(cè)技術(shù),對(duì)普通話的推廣具有重要的現(xiàn)實(shí)意義。

      對(duì)命題說(shuō)話題型的自動(dòng)評(píng)測(cè)是自動(dòng)口語(yǔ)評(píng)測(cè)(Automated Speech Scoring, ASS) 的一項(xiàng)子任務(wù)。目前國(guó)際上對(duì)命題說(shuō)話自動(dòng)評(píng)測(cè)的研究集中在英語(yǔ)上,并且取得了較好的進(jìn)展。當(dāng)前命題說(shuō)話自動(dòng)評(píng)測(cè)技術(shù)的主要難點(diǎn)是需要綜合提取多種評(píng)分特征并進(jìn)行融合,以實(shí)現(xiàn)更全面、更準(zhǔn)確、與專(zhuān)家人工打分一致性更高的機(jī)器評(píng)分。命題說(shuō)話自動(dòng)評(píng)測(cè)的通常實(shí)現(xiàn)途徑為通過(guò)自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition, ASR) 識(shí)別待評(píng)測(cè)音頻,隨后基于待評(píng)測(cè)音頻與語(yǔ)音識(shí)別結(jié)果進(jìn)行發(fā)音錯(cuò)誤檢測(cè)(Mispronunciation Detection and Diagnosis, MDD) 、語(yǔ)法糾錯(cuò)(Grammar Error Correction, GEC) 、離題檢測(cè)(Off-Topic Spoken Response Detection) 與流暢度評(píng)測(cè)等多項(xiàng)子評(píng)測(cè),得到多維度的評(píng)分特征,最終通過(guò)評(píng)分模型得到整體性的評(píng)分結(jié)果。美國(guó)教育考試服務(wù)中心(Educational Testing Service, ETS)研發(fā)的托福口語(yǔ)自動(dòng)評(píng)分系統(tǒng)SpeechRater就是基于大量人工設(shè)計(jì)的評(píng)分特征的英文命題說(shuō)話自動(dòng)評(píng)測(cè)系統(tǒng)[1]。許蘇魁針對(duì)PSC命題說(shuō)話題型的機(jī)器評(píng)測(cè)進(jìn)行了詳細(xì)的研究,基于DNN-HMM語(yǔ)音識(shí)別模型得到待評(píng)測(cè)語(yǔ)音的識(shí)別結(jié)果后驗(yàn)概率,利用RNNLM語(yǔ)言模型重打分與方言模型進(jìn)行修正后作為主要機(jī)器打分特征,同時(shí)引入基于條件隨機(jī)場(chǎng)(Conditional Random Field, CRF) 的語(yǔ)速特征提取模型、基于矢量空間模型(Vector Space Model, VSM) 的離題檢測(cè)模型等輔助打分特征,利用線性回歸模型作為機(jī)器評(píng)分的打分模型,最終獲得了0.757的機(jī)器分與人工分的回歸系數(shù)[2]。湯國(guó)春在研究針對(duì)漢語(yǔ)水平口語(yǔ)考試(HSKK) 的看圖說(shuō)話題自動(dòng)評(píng)分模型時(shí),通過(guò)對(duì)不同圖片人工預(yù)設(shè)與其內(nèi)容相關(guān)的關(guān)鍵詞,隨后通過(guò)計(jì)算關(guān)鍵詞覆蓋率作為主題相關(guān)特征,結(jié)合字?jǐn)?shù)、重復(fù)字?jǐn)?shù)與語(yǔ)法錯(cuò)誤數(shù)這四個(gè)特征,構(gòu)建了基于線性回歸的評(píng)分模型[3]。以上研究均使用線性回歸作為評(píng)分模型,李淇澳在研究開(kāi)放式英語(yǔ)口語(yǔ)考試自動(dòng)評(píng)測(cè)時(shí),使用BP神經(jīng)網(wǎng)絡(luò)(也被稱(chēng)為多層感知機(jī)回歸,MLP Regressor) 作為評(píng)分模型[4]。

      綜上,目前的命題說(shuō)話等自由表述口語(yǔ)自動(dòng)評(píng)分研究,主要使用線性回歸或多層感知機(jī)回歸等機(jī)器學(xué)習(xí)方法,構(gòu)建基于單個(gè)模型的評(píng)分模型,尚未見(jiàn)到基于集成學(xué)習(xí)(Ensemble Learning) 方法的自動(dòng)評(píng)分研究。目前,梯度提升回歸樹(shù)(Gradient Boosted Regression Tree, GBRT) 等集成學(xué)習(xí)類(lèi)的機(jī)器學(xué)習(xí)方法由于優(yōu)異的性能表現(xiàn)及良好的可解釋性[5],在信用評(píng)級(jí)[6]、電網(wǎng)負(fù)荷[7]及房租預(yù)測(cè)[8]等多種多樣的領(lǐng)域中得到了廣泛的運(yùn)用。本文在基于人工設(shè)計(jì)特征與回歸模型的PSC命題說(shuō)話模塊的自動(dòng)評(píng)測(cè)模型框架的基礎(chǔ)上,在自建的PSC命題說(shuō)話數(shù)據(jù)集上通過(guò)實(shí)驗(yàn)對(duì)比了采用線性回歸、支持向量回歸(Support Vector Regression, SVR) 、多層感知機(jī)回歸、LightGBM和XGBoost等回歸模型時(shí)的評(píng)分模型性能。實(shí)驗(yàn)結(jié)果顯示該機(jī)器評(píng)分方法具有可行性,且基于XGBoost的PSC命題說(shuō)話評(píng)分模型性能最好,得到的機(jī)器分與專(zhuān)家分間的相關(guān)系數(shù)達(dá)到了0.860,已經(jīng)具有較高的相關(guān)度。

      2 基于梯度提升方法的集成學(xué)習(xí)模型

      2.1 集成學(xué)習(xí)與提升方法

      集成學(xué)習(xí)是一種典型的模型獨(dú)立學(xué)習(xí)方式,它通過(guò)一定的策略將多個(gè)模型進(jìn)行集成,以多個(gè)模型進(jìn)行綜合決策的方式來(lái)提升模型預(yù)測(cè)的準(zhǔn)確率。常用的集成學(xué)習(xí)策略包括裝袋算法(Bagging) 與提升算法(Boosting) ,其中提升算法通過(guò)按順序訓(xùn)練一系列基模型,每一個(gè)模型均針對(duì)前序模型的錯(cuò)誤來(lái)調(diào)整訓(xùn)練樣本的權(quán)重,從而不斷提升模型性能[9]。梯度提升(Gradient Boosting) 是一類(lèi)改進(jìn)提升算法,它將提升算法的優(yōu)化對(duì)象擴(kuò)展到了一般的損失函數(shù)[10],得到了廣泛的運(yùn)用。以下介紹基于梯度提升方法的梯度提升回歸樹(shù),以及它的改進(jìn)實(shí)現(xiàn)LightGBM與XGBoost。

      2.2 梯度提升回歸樹(shù)

      梯度提升回歸樹(shù)是一類(lèi)被廣泛運(yùn)用的機(jī)器學(xué)習(xí)算法,它基于提升樹(shù)方法(Boosting Tree) 與梯度提升方法,也被稱(chēng)為梯度提升機(jī)(Gradient Boosting Machine, GBM) [11]。梯度提升回歸樹(shù)與梯度提升決策樹(shù)(Gradient Boosted Decision Tree, GBDT) 的區(qū)別在于選取的基模型是回歸樹(shù)還是分類(lèi)樹(shù)。提升樹(shù)方法是使用決策樹(shù)作為基模型、使用加法模型對(duì)基模型進(jìn)行線性組合的提升方法,它可以表示為:

      對(duì)于回歸問(wèn)題,提升樹(shù)方法在訓(xùn)練模型時(shí)通過(guò)前向分步算法進(jìn)行迭代,即以損失函數(shù)作為優(yōu)化目標(biāo),計(jì)算出當(dāng)前回歸樹(shù)模型在訓(xùn)練集上的殘差(Residual) 后,擬合殘差得到下一個(gè)模型的參數(shù)?;貧w提升樹(shù)模型常用的目標(biāo)函數(shù)是平方損失函數(shù),一般損失函數(shù)可能面臨著殘差計(jì)算困難的問(wèn)題,梯度提升方法利用最速下降法,將損失函數(shù)的負(fù)梯度作為回歸提升樹(shù)的殘差的近似值,從而將回歸提升樹(shù)擴(kuò)展到使用任意連續(xù)可微的損失函數(shù)作為優(yōu)化目標(biāo)的場(chǎng)景,也就是梯度提升回歸樹(shù)。

      在當(dāng)今的大數(shù)據(jù)時(shí)代,機(jī)器學(xué)習(xí)任務(wù)中數(shù)據(jù)樣本數(shù)量及特征維度快速增加,傳統(tǒng)的梯度提升樹(shù)算法在實(shí)際運(yùn)用時(shí)面臨著由于計(jì)算復(fù)雜度提升而不得不在準(zhǔn)確度與執(zhí)行效率中進(jìn)行權(quán)衡[12]。針對(duì)這一現(xiàn)狀,LightGBM與XGBoost這兩種改進(jìn)的梯度提升樹(shù)框架應(yīng)運(yùn)而生,并得到了廣泛的運(yùn)用。

      2.3 LightGBM

      LightGBM是由微軟公司研究院提出的改進(jìn)梯度提升算法框架及相應(yīng)的軟件實(shí)現(xiàn),它提供了高效易用的GBDT與GBRT模型實(shí)現(xiàn)[12]。針對(duì)大數(shù)據(jù)下GBDT與GBRT計(jì)算復(fù)雜度過(guò)高的問(wèn)題,LightGBM提出了基于梯度的單邊梯度采樣(Gradient-based One-Side Sampling, GOSS) 與相斥特征打包(Exclusive Feature Bundling, EFB) 算法,在保證模型預(yù)測(cè)準(zhǔn)確度的前提下大幅提升了GBDT與GBRT模型的訓(xùn)練速度。GOSS算法在訓(xùn)練階段通過(guò)隨機(jī)去掉梯度較小的樣本實(shí)現(xiàn)訓(xùn)練數(shù)據(jù)的下采樣。EFB算法將選擇相斥特征的問(wèn)題轉(zhuǎn)化為圖著色問(wèn)題后,通過(guò)貪婪算法求解,這樣就可以將相斥的特征進(jìn)行打包以減少特征數(shù)量。此外,LightGBM選擇使用基于直方圖算法的決策樹(shù)分裂點(diǎn)搜索方法,該算法在模型訓(xùn)練過(guò)程中將連續(xù)特征值通過(guò)分箱操作離散化,有效提升了模型訓(xùn)練速度[12-13]。

      2.4 XGBoost

      XGBoost是由華盛頓大學(xué)DMLC組(Distributed (Deep) Machine Learning Community) 提出的分布式梯度提升算法庫(kù)軟件,目標(biāo)在于提供高效可擴(kuò)展的GBDT與GBRT實(shí)現(xiàn)。為了對(duì)抗過(guò)擬合,XGBoost為目標(biāo)函數(shù)添加了正則化懲罰以降低模型的復(fù)雜度,同時(shí)對(duì)特征進(jìn)行下采樣[11]。為了加快決策樹(shù)模型分裂點(diǎn)的搜索,XGBoost提出了一種在構(gòu)造目標(biāo)函數(shù)時(shí),使用損失函數(shù)的二階泰勒展開(kāi)進(jìn)行近似的方法[14],同時(shí)它也支持與LightGBM相同的直方圖算法①。在可用的基模型方面,XGBoost支持決策樹(shù)與線性模型。

      3 研究方法

      3.1 命題說(shuō)話評(píng)測(cè)系統(tǒng)設(shè)計(jì)

      本文提出的命題說(shuō)話評(píng)分模型及相應(yīng)的評(píng)分環(huán)節(jié)是基于語(yǔ)音識(shí)別的PSC命題說(shuō)話模塊自動(dòng)評(píng)測(cè)系統(tǒng)的一部分,該系統(tǒng)的結(jié)構(gòu)如圖1所示。該系統(tǒng)包含用于獲得評(píng)測(cè)參考文本的語(yǔ)音識(shí)別子系統(tǒng)與在此基礎(chǔ)上通過(guò)參考文本相關(guān)方法實(shí)現(xiàn)發(fā)音錯(cuò)誤檢測(cè)的發(fā)音錯(cuò)誤檢測(cè)子系統(tǒng),通過(guò)按照一定的規(guī)則解析子系統(tǒng)的輸出,即可獲得命題說(shuō)話評(píng)分模型的評(píng)分特征。在進(jìn)行本文的研究時(shí),語(yǔ)音識(shí)別子系統(tǒng)采用百度智能云提供的普通話語(yǔ)音識(shí)別公開(kāi)接口服務(wù)②,而發(fā)音錯(cuò)誤檢測(cè)子系統(tǒng)采用云知聲提供的普通話語(yǔ)音評(píng)測(cè)公開(kāi)接口服務(wù)③。

      3.2 基于回歸模型的命題說(shuō)話評(píng)分方法

      本文所述的評(píng)分方法基于回歸模型,使用人工設(shè)計(jì)的評(píng)分特征作為模型輸入,模型的輸出即為機(jī)器評(píng)分。由于PSC命題說(shuō)話題的分?jǐn)?shù)范圍是[[0,40]],故超出這一范圍的模型輸出值將被相應(yīng)地裁剪,確保最終得到的機(jī)器分?jǐn)?shù)符合要求。于是本文所描述的命題說(shuō)話評(píng)分模型可以表示為:

      在選擇評(píng)分特征時(shí),我們參考PSC命題說(shuō)話的評(píng)分規(guī)范,從流暢度、發(fā)音準(zhǔn)確度等方面選取了一系列特征,這些評(píng)分在表1中給出。這些特征可以從待評(píng)測(cè)語(yǔ)音的元信息、發(fā)音錯(cuò)誤檢測(cè)子系統(tǒng)輸出結(jié)果中計(jì)算得到。

      3.3 模型超參數(shù)優(yōu)化

      對(duì)于GBRT等較為復(fù)雜的模型,超參數(shù)的設(shè)置會(huì)顯著影響模型性能,所以需要通過(guò)超參數(shù)優(yōu)化找到使該模型性能最佳的超參數(shù)組合,這一過(guò)程也被稱(chēng)為“調(diào)參”。本文使用的超參數(shù)搜索方法是網(wǎng)格搜索(Grid Search) ,它是通過(guò)嘗試所有超參數(shù)的組合來(lái)尋址合適一組超參數(shù)配置的方法[9],利用Scikit-learn中提供的GridSearchCV功能即可便利地實(shí)現(xiàn)網(wǎng)格搜索。本文中使用的MLP回歸、GBRT、LightGBM、XGBoost模型需要進(jìn)行超參數(shù)優(yōu)化。

      4 實(shí)驗(yàn)與數(shù)據(jù)分析

      4.1 數(shù)據(jù)集

      本文實(shí)驗(yàn)在自建的PSC命題說(shuō)話數(shù)據(jù)集上進(jìn)行。該數(shù)據(jù)集包括400份普通話水平測(cè)試命題說(shuō)話測(cè)試音頻,數(shù)據(jù)來(lái)源為考場(chǎng)數(shù)據(jù)及組織大學(xué)生進(jìn)行錄音,錄音環(huán)境為安靜的室內(nèi),錄音設(shè)備為臺(tái)式電腦及頭戴式耳麥。這400份數(shù)據(jù)來(lái)自124名說(shuō)話人,囊括了PSC命題說(shuō)話題型的全部30個(gè)話題,這些話題全部來(lái)自于PSC命題說(shuō)話題庫(kù),從而確保與考試形式一致。原始數(shù)據(jù)集以7:3的比例隨機(jī)劃分為訓(xùn)練集與測(cè)試集,故訓(xùn)練集包括280份音頻,測(cè)試集包括120份音頻。該數(shù)據(jù)集由具有PSC評(píng)測(cè)員資格的普通話評(píng)測(cè)專(zhuān)家,在自建的Web打分系統(tǒng)上根據(jù)相應(yīng)的評(píng)分規(guī)則進(jìn)行評(píng)分。數(shù)據(jù)的人工標(biāo)注內(nèi)容包括整體評(píng)分以及發(fā)音標(biāo)準(zhǔn)度、流暢度、詞匯語(yǔ)法規(guī)范度、是否離題等多個(gè)方面的打分細(xì)節(jié),在進(jìn)行本文所述的研究時(shí)只使用整體評(píng)分。為了確保數(shù)據(jù)標(biāo)注的客觀性,所有數(shù)據(jù)均由三名專(zhuān)家進(jìn)行標(biāo)注。在訓(xùn)練模型時(shí)及驗(yàn)證模型性能時(shí),我們使用每份樣本的三個(gè)專(zhuān)家評(píng)分的平均值作為該樣本的真實(shí)分?jǐn)?shù),并將其稱(chēng)為所有專(zhuān)家綜合評(píng)分。

      本文使用皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient, CC) 衡量專(zhuān)家評(píng)分間,以及專(zhuān)家評(píng)分與所有專(zhuān)家綜合評(píng)分間的相關(guān)性。皮爾遜相關(guān)系數(shù)常被用于度量真實(shí)值與預(yù)測(cè)值間的相關(guān)程度。人工打分[Y]與機(jī)器打分[Y]間的相關(guān)系數(shù)的計(jì)算公式是:

      其中[μY]表示[Y]的均值。皮爾遜相關(guān)系數(shù)的取值范圍是-1~1,值為1則兩個(gè)變量完全正相關(guān),值為0則二者完全不相關(guān),值為-1則二者完全負(fù)相關(guān)。當(dāng)被衡量的兩組變量數(shù)據(jù)均已經(jīng)被標(biāo)準(zhǔn)化時(shí),皮爾遜相關(guān)系數(shù)與余弦相似度等價(jià)[15]。專(zhuān)家打分的相關(guān)系數(shù)見(jiàn)表2,根據(jù)表2中的數(shù)據(jù)可以得到三名專(zhuān)家的打分結(jié)果間的相關(guān)系數(shù)的均值為0.871,三名專(zhuān)家的打分結(jié)果與綜合打分結(jié)果間的相關(guān)系數(shù)的均值為0.956。由于每位專(zhuān)家的評(píng)分與綜合評(píng)分間的相關(guān)系數(shù)更高,故綜合評(píng)分的可靠性更高,可以作為評(píng)價(jià)命題說(shuō)話評(píng)測(cè)系統(tǒng)性能的對(duì)象。

      4.2 實(shí)驗(yàn)設(shè)置

      本文的實(shí)驗(yàn)在x86服務(wù)器上進(jìn)行,操作系統(tǒng)為Ubuntu 20.04,GPU為NVIDIA Tesla V10016GB,代碼運(yùn)行環(huán)境為Python 3.8,使用的回歸算法實(shí)現(xiàn)來(lái)自于Scikit-learn、LightGBM與XGboost庫(kù)。實(shí)驗(yàn)中使用的回歸模型包括Scikit-learn提供的線性回歸、MLP回歸、SVR、GBRT,以及由相應(yīng)的庫(kù)獨(dú)立提供的LightGBM回歸與XGBoost回歸。本文將線性回歸模型作為基線模型。對(duì)于性能會(huì)顯著受超參數(shù)影響的MLP回歸、GBRT、LightGBM、XGBoost模型,本文使用皮爾遜相關(guān)系數(shù)作為超參數(shù)優(yōu)化的目標(biāo),在訓(xùn)練集上通過(guò)K-Fold交叉驗(yàn)證與超參數(shù)優(yōu)化找到使模型性能最佳的超參數(shù)組合,隨后使用該超參數(shù)組合在全部的訓(xùn)練集數(shù)據(jù)上訓(xùn)練模型,在測(cè)試集上驗(yàn)證模型最終性能。K-Fold的折數(shù)根據(jù)相關(guān)研究,通過(guò)對(duì)訓(xùn)練集樣本的數(shù)量取自然對(duì)數(shù)[16],確定為6折。在模型配置方面,SVR模型使用RBF核,GBRT模型使用Huber Loss作為損失函數(shù)并限制最大深度為3,XGBoost模型使用與LightGBM類(lèi)似的基于直方圖算法的決策樹(shù)分裂點(diǎn)搜索算法。進(jìn)行實(shí)驗(yàn)時(shí)的全局隨機(jī)種子為1234,從而確保實(shí)驗(yàn)結(jié)果可復(fù)現(xiàn)。

      4.3 模型性能評(píng)估指標(biāo)

      為了衡量不同模型的性能,本文采用回歸模型的通用評(píng)估方法及普通話口語(yǔ)自動(dòng)評(píng)測(cè)領(lǐng)域常用的評(píng)測(cè)方法完成對(duì)模型的評(píng)估。本文使用評(píng)估指標(biāo)包括均方誤差(Mean Squared Error,MSE) 、判定系數(shù)(Coefficient of Determination,[R2]) 與皮爾遜相關(guān)系數(shù)。模型性能評(píng)估在測(cè)試集上進(jìn)行,方法是將專(zhuān)家綜合評(píng)分作為真實(shí)值,評(píng)分模型輸出的機(jī)器分作為預(yù)測(cè)值,計(jì)算上述評(píng)估指標(biāo),通過(guò)比較評(píng)估指標(biāo)的大小找到性能最佳的模型。以下介紹MSE與[R2]指標(biāo)的計(jì)算方法。

      1) MSE用于衡量預(yù)測(cè)值與真實(shí)值間的誤差,整體誤差越小則MSE的值越低。當(dāng)數(shù)據(jù)集中有N個(gè)語(yǔ)音樣本時(shí),將它們的人工打分記為[Y],機(jī)器打分記為[Y],此時(shí)[Y=Y1,Y2,…,YN],[Y=Y1,Y2,…,YN],則向量[Y]與[Y]間的MSE可以通過(guò)以下公式計(jì)算:

      2) [R2]用于衡量回歸模型的解釋力。人工打分[Y]與機(jī)器打分[Y]間的[R2]可以通過(guò)以下公式計(jì)算:

      其中[μY=1Ni=1NYi],表示[Y]的均值。[R2]的取值范圍為0~1,值越接近于1則回歸模型對(duì)因變量中的變異有更強(qiáng)的解釋能力。

      4.4 實(shí)驗(yàn)結(jié)果與分析

      實(shí)驗(yàn)結(jié)果如表3所示,表中結(jié)果為不同模型在測(cè)試集上的性能。結(jié)果顯示MLP回歸的性能略低于作為基線的線性回歸模型,原因是本文使用的數(shù)據(jù)集規(guī)模較小,導(dǎo)致神經(jīng)網(wǎng)絡(luò)不能充分發(fā)揮出其對(duì)非線性函數(shù)的擬合能力。GBRT、LightGBM、XGBoost這三種基于集成學(xué)習(xí)思想與梯度提升方法的模型的性能顯著強(qiáng)于線性回歸、MLP回歸、SVR這些單體模型,在相關(guān)系數(shù)指標(biāo)上相對(duì)于SVR獲得了至少6.9%的相對(duì)提升,表明梯度提升方法可以有效改善PSC命題說(shuō)話評(píng)分任務(wù)的最終性能。特別的,基于XGBoost的評(píng)分模型在MSE、[R2]、相關(guān)系數(shù)這三項(xiàng)指標(biāo)上均取得了最佳的性能,在相關(guān)系數(shù)指標(biāo)上,它相對(duì)于作為基線模型的線性回歸獲得了17.5%的相對(duì)提升,相對(duì)于原始版本的GBRT模型提升了2.7%。

      5 結(jié)束語(yǔ)

      本論文使用機(jī)器學(xué)習(xí)方法對(duì)命題說(shuō)話開(kāi)展了自動(dòng)評(píng)分研究,使用正確發(fā)音的音節(jié)數(shù)、錯(cuò)讀為其他字的音節(jié)數(shù)、發(fā)音錯(cuò)誤或不標(biāo)準(zhǔn)的音節(jié)數(shù)、整體流暢度評(píng)分、整體發(fā)音標(biāo)準(zhǔn)度評(píng)分、音頻時(shí)長(zhǎng)等特征,針對(duì)PSC的命題說(shuō)話模塊的自動(dòng)評(píng)分任務(wù)提出了基于XGBoost的評(píng)分模型。實(shí)驗(yàn)結(jié)果表明,本論文提出的模型的機(jī)器評(píng)分與專(zhuān)家評(píng)分之間的相關(guān)度較高,表明該方法具備較高的可實(shí)用性。

      注釋?zhuān)?/p>

      ①https://xgboost.readthedocs.io/en/latest/treemethod.html.

      ②https://cloud.baidu.com/product/speech/asr.

      ③https://ai.unisound.com/sa-call-eval.

      參考文獻(xiàn):

      [1] Zechner K,Higgins D,Xi X.SpeechRater:A construct-driven approach to scoring spontaneous non-native speech[C].Proc.SLaTE,2007.

      [2] 許蘇魁.普通話自由表述口語(yǔ)評(píng)測(cè)關(guān)鍵技術(shù)的研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2016.

      [3] 湯國(guó)春.對(duì)外漢語(yǔ)看圖說(shuō)話題自動(dòng)評(píng)分模型的構(gòu)建研究[D].南京:南京師范大學(xué),2019.

      [4] 李淇澳,文福安.基于神經(jīng)網(wǎng)絡(luò)的開(kāi)放式口語(yǔ)評(píng)分系統(tǒng)研究[D].北京:北京郵電大學(xué),2020.

      [5] Fang W J,Zhou J,Li X L,et al.Unpack local model interpretation for GBDT[C]//Database Systems for Advanced Applications.Cham:Springer International Publishing,2018:764-775.

      [6] 馬曉君,沙靖嵐,牛雪琪.基于LightGBM算法的P2P項(xiàng)目信用評(píng)級(jí)模型的設(shè)計(jì)及應(yīng)用[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2018,35(5):144-160.

      [7] 王華勇,楊超,唐華.基于LightGBM改進(jìn)的GBDT短期負(fù)荷預(yù)測(cè)研究[J].自動(dòng)化儀表,2018,39(9):76-78,82.

      [8] 謝勇,項(xiàng)薇,季孟忠,等.基于Xgboost和LightGBM算法預(yù)測(cè)住房月租金的應(yīng)用分析[J].計(jì)算機(jī)應(yīng)用與軟件,2019,36(9):151-155,191.

      [9] 邱錫鵬.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)[M].北京:機(jī)械工業(yè)出版社,2020.

      [10] 李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].2版.北京:清華大學(xué)出版社,2019.

      [11] Chen T,Guestrin C.XGBoost:A Scalable Tree Boosting System[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York,NY,USA:ACM,2016:785-794.

      [12] Ke G,Meng Q,F(xiàn)inley T,et al.LightGBM:A Highly Efficient Gradient Boosting Decision Tree[C]//Guyon I,Luxburg U V,Bengio S,et al.Advances in Neural Information Processing Systems:卷 30.Curran Associates,Inc.,2017:3146-3154.

      [13] Alsabti K,Ranka S,Singh V.CLOUDS:A decision tree classifier for large datasets[C]//Proceedings of the 4th knowledge discovery and data mining conference,1998,2(8).

      [14] 陳振宇,劉金波,李晨,等.基于LSTM與XGBoost組合模型的超短期電力負(fù)荷預(yù)測(cè)[J].電網(wǎng)技術(shù),2020,44(2):614-620.

      [15] Berthold M R,Hoppner F.On Clustering Time Series Using Euclidean Distance and Pearson Correlation[J/OL].arXiv:1601.02213[cs,stat],2016[2021-12-16].http://arxiv.org/abs/1601.02213.

      [16] Jung Y.Multiple predicting K-fold cross-validation for model selection[J].Journal of Nonparametric Statistics,2018,30(1):197-215.

      收稿日期:2022-02-25

      基金項(xiàng)目:北京信息科學(xué)與技術(shù)國(guó)家研究中心開(kāi)放課題(項(xiàng)目編號(hào):BNR2021KF02005) ;《多模態(tài)信息感知與智能處理創(chuàng)新團(tuán)隊(duì)》天山創(chuàng)新團(tuán)隊(duì)計(jì)劃(項(xiàng)目編號(hào):2020D14044)

      作者簡(jiǎn)介:申云飛(1995—) ,男,江蘇連云港人,助理,碩士,研究方向?yàn)檎Z(yǔ)音識(shí)別、口語(yǔ)自動(dòng)評(píng)測(cè)、機(jī)器學(xué)習(xí)系統(tǒng);劉嘉?。?998—) ,女,湖南祁陽(yáng)人,碩士,研究方向?yàn)榭谡Z(yǔ)自動(dòng)評(píng)測(cè);范智星(1997—) ,男,遼寧大連人,碩士,研究方向?yàn)榭谡Z(yǔ)自動(dòng)評(píng)測(cè);早克熱·卡德?tīng)枺?982—) ,女,新疆哈密人,實(shí)驗(yàn)師,碩士,研究方向?yàn)榍楦蟹治?艾山·吾買(mǎi)爾(1981—) ,男,新疆庫(kù)車(chē)人,通信作者,教授,博士,研究領(lǐng)域?yàn)槎嗄B(tài)自然語(yǔ)言處理。

      略阳县| 双城市| 长顺县| 金华市| 繁昌县| 托克逊县| 萝北县| 石楼县| 博兴县| 南澳县| 张北县| 永登县| 八宿县| 肇州县| 甘孜| 鹿泉市| 隆化县| 南靖县| 右玉县| 滦南县| 马公市| 田东县| 山东省| 普安县| 鄂伦春自治旗| 奈曼旗| 蒙山县| 牙克石市| 大丰市| 谢通门县| 大冶市| 固镇县| 玛多县| 彰化县| 宜章县| 石台县| 香港| 云和县| 河北区| 兴仁县| 任丘市|