• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于音節(jié)時(shí)間長度高斯擬合的漢語音節(jié)切分方法

      2016-05-14 10:37張揚(yáng)趙曉群王締罡
      計(jì)算機(jī)應(yīng)用 2016年5期
      關(guān)鍵詞:漢語

      張揚(yáng) 趙曉群 王締罡

      摘要:研究漢語自然語音音節(jié)切分方法具有明顯現(xiàn)實(shí)意義,比較準(zhǔn)確的自然語音切分方法可以代替人工對(duì)一些擁有參照文本的語音進(jìn)行標(biāo)注。然而至今為止并沒有完全準(zhǔn)確的漢語語音音節(jié)切分方法。依據(jù)相同發(fā)音環(huán)境下漢語語音音節(jié)時(shí)間長度服從某種高斯分布和相鄰語音音節(jié)之間存在短時(shí)能量波谷兩個(gè)假設(shè),提出了基于音節(jié)時(shí)間長度高斯擬合的漢語音節(jié)切分方法。對(duì)算法進(jìn)行分析,根據(jù)初步切分短時(shí)能量波谷分散到各分語音段的特性,提出了簡化算法,有效降低了該音節(jié)切分方法的時(shí)間復(fù)雜度。實(shí)驗(yàn)結(jié)果表明,音節(jié)切分準(zhǔn)確度(與人工標(biāo)注切分時(shí)間距離平方的均值)達(dá)到小數(shù)點(diǎn)后3位,在臺(tái)式機(jī)Matlab環(huán)境下運(yùn)算時(shí)間均不超過1s,可以達(dá)到應(yīng)用要求。

      關(guān)鍵詞:漢語;自然語音;音節(jié)切分;時(shí)間長度;波谷;高斯分布

      中圖分類號(hào):TP391.4 文獻(xiàn)標(biāo)志碼:A

      Abstract:So far away, there is no accurate method for Chinese natural speech segmentation of syllables,which is meaningful in labeling speech with reference text instead of people. According to two hypotheses that time spans of Chinese syllables under the same pronunciation obey Gauss distribution and shorttime energy valley exists between two adjacent syllables, Chinese speech segmentation method based on Gauss distribution of time spans of syllables was proposed. A simplified method based on distribution of energy valleys was given, which effectively reduced the time complexity of this speech segmentation method. The experimental results show that segmentation accuracy (mean square value of time spans between artificial labels and labels created by this method) achieve 10-3 and computing times are less than 1s in Matlab of PC.

      Key words:Chinese; natural speech; speech segmentation; time span; valley; Gauss distribution

      0 引言

      在信息科學(xué)領(lǐng)域,語音切分指辨識(shí)出語音段中所需單位語音(如音素、音節(jié))的時(shí)間位置。目前為止,語音切分用到的方法基本分為基于隱馬爾可夫模型(Hidden Markov Model,HMM)的方法[1-2]、基于邊界模型的方法[3]以及HMM與邊界模型混合的方法[4]。在國內(nèi),從事相關(guān)研究的主要有中國科學(xué)院研究生院、北京郵電大學(xué)及哈爾濱工業(yè)大學(xué)等,研究方向有語音音素切分[5]、音節(jié)切分[6]及語句切分[7]等。其中音節(jié)切分研究結(jié)果并不理想,表現(xiàn)在對(duì)音節(jié)開始、音節(jié)結(jié)束和音節(jié)交界處的分類很差[6]。在國外,從事相關(guān)研究的有韓國建國大學(xué)、劍橋大學(xué)及哥倫比亞大學(xué)等。由于英語等印歐語系語言的特點(diǎn),對(duì)音節(jié)切分的研究較少,主要研究集中在音素切分[8-9]。

      研究自然語音切分技術(shù)具有明顯現(xiàn)實(shí)意義,較準(zhǔn)確的自然語音切分方法可以代替人工對(duì)一些擁有參照文本的語音進(jìn)行標(biāo)注,大大減少類似語料庫建設(shè)或廣播語料后期處理中的標(biāo)注時(shí)間,同時(shí)降低人工標(biāo)注成本。本文將語音音節(jié)時(shí)間長度的分布規(guī)律應(yīng)用到擁有參考文本的自然語音切分當(dāng)中,提出了相同發(fā)音環(huán)境下漢語語音音節(jié)時(shí)間長度符合高斯分布及相鄰語音音節(jié)之間存在短時(shí)能量波谷的假設(shè)并予以驗(yàn)證。以改進(jìn)的雙門限法對(duì)語音進(jìn)行第一次切分,在此基礎(chǔ)上計(jì)算各種波谷組合情況下語音切分構(gòu)成可能音節(jié)的存在概率的和(可能音節(jié)存在概率來源于相同環(huán)境下少量已切分語段擬合的分布),得到存在概率和最大的切分。同時(shí)提出了簡化算法,大大縮減了語音切分花費(fèi)的時(shí)間。實(shí)驗(yàn)結(jié)果表明,本文方法切分音節(jié)準(zhǔn)確度(與人工標(biāo)注切分時(shí)間距離平方的均值)達(dá)到小數(shù)點(diǎn)后3位,同時(shí)在臺(tái)式機(jī)Maltab環(huán)境下運(yùn)算時(shí)間均不超過1s,可以達(dá)到應(yīng)用要求。

      1 基于高斯擬合的語音切分方法

      在相同的發(fā)音環(huán)境下,又已知漢語語音段中包含的音節(jié)數(shù)(以字為單位)時(shí),可以抽取小部分語音統(tǒng)計(jì)發(fā)音音節(jié)時(shí)間長度,擬合音節(jié)時(shí)間長度的分布,利用傳統(tǒng)方法對(duì)其進(jìn)行初步切分,再利用波谷及擬合的音節(jié)時(shí)間長度分布,對(duì)語音段進(jìn)行再切分,最終達(dá)到切分出語音段各音節(jié)時(shí)間位置的目的,流程如圖1。

      基于高斯擬合的語音切分方法,可以用來對(duì)擁有對(duì)應(yīng)文本的漢語語音段進(jìn)行切分并標(biāo)注。其在傳統(tǒng)雙門限方法的基礎(chǔ)上,引入音節(jié)時(shí)間長度分布,以波谷為依據(jù),實(shí)現(xiàn)了以音節(jié)(以字為單位)為切分目的的語音切分。

      1.1 兩個(gè)合理假設(shè)的提出

      本文算法依托于兩個(gè)假設(shè):1)在相同發(fā)音環(huán)境下,漢語語音音節(jié)(以字為單位)時(shí)間長度(后面簡稱長度)服從某種高斯(正態(tài))分布;2)漢語語音相鄰音節(jié)(以字為單位)之間一定存在短時(shí)能量的波谷。對(duì)兩個(gè)假設(shè)進(jìn)行驗(yàn)證:選取2段語音(一段為男聲朗讀語音,共451個(gè)字節(jié),一段為女聲新聞?wù)Z音,共581個(gè)字節(jié))并進(jìn)行人工標(biāo)注,根據(jù)人工檢驗(yàn),標(biāo)注點(diǎn)均落在短時(shí)能量波谷附近,假設(shè)2得以驗(yàn)證;根據(jù)標(biāo)注分別計(jì)算兩端語音的音節(jié)長度,進(jìn)行正態(tài)化檢驗(yàn)測試,測試結(jié)果理想,假設(shè)1得以驗(yàn)證。正態(tài)化檢驗(yàn)方法參照文獻(xiàn)[10]。圖2為根據(jù)正態(tài)化檢驗(yàn)測試結(jié)果繪制的圖形。

      測試音節(jié)長度由其標(biāo)注的起始時(shí)間減去終止時(shí)間所得,所以圖中音節(jié)長度均為負(fù)值。測試語音長度及所屬分位數(shù)所對(duì)應(yīng)坐標(biāo)以“+”標(biāo)出。若測試音節(jié)長度符合高斯(正態(tài))分布,則其對(duì)應(yīng)坐標(biāo)應(yīng)該接近圖中實(shí)線。根據(jù)圖2(a)、(c)中標(biāo)出的數(shù)據(jù)坐標(biāo)可以看出,兩段測試語音音節(jié)長度均符合高斯(正態(tài))分布。根據(jù)數(shù)據(jù)計(jì)算擬合得到男聲語音段音節(jié)長度均值為-0.1899s,方差為0.0571s,正態(tài)分布圖如圖2(b)所示,女生語音段音節(jié)長度均值為-0.1654s,方差為0.0516s,正態(tài)分布圖如圖2(d)所示。

      1.2 改進(jìn)雙門限端點(diǎn)檢測算法

      原雙門限端點(diǎn)檢測算法(本文討論的雙門限算法是以短時(shí)能量和短時(shí)過零率為檢測門限的端點(diǎn)檢測算法)在沒有背景噪聲的情況下,已經(jīng)可以較準(zhǔn)確地將語音段及靜音段區(qū)分。具體算法實(shí)現(xiàn)見文獻(xiàn)[11]。本文算法首先利用雙門限法對(duì)語音段及靜音段作初步分割,因?yàn)檎w算法需要,對(duì)原雙門限法作以下改進(jìn):

      1)對(duì)初始無話幀判斷的改進(jìn)。在對(duì)語音數(shù)據(jù)進(jìn)行分幀,求取平均能量及平均過零率以后,需要通過語音起始靜音段的短時(shí)能量及短時(shí)過零率來設(shè)定兩個(gè)門限。原方法起始靜音段由人工給出,對(duì)其進(jìn)行相應(yīng)改進(jìn),使其盡量能夠自動(dòng)給出。自動(dòng)給出要求背景噪聲不明顯。自動(dòng)給出的方法會(huì)有少數(shù)情況不準(zhǔn)確,并影響后續(xù)判斷,但由于這種不準(zhǔn)確十分突出,可以被判斷出,在改變能量判別門限時(shí)區(qū)分對(duì)待即可。假設(shè)輸入語音段分幀后第i幀短時(shí)過零率為zcr(i),則尋找?guī)瑪?shù)j,使得:

      則判斷從第0幀到第j幀為靜音段,其中Z為過零率突變門限。本文不考慮含背景噪聲情況,如果語音段含較強(qiáng)背景噪聲,則上述改進(jìn)失效。

      2)動(dòng)態(tài)改變能量判別門限,使語音段初步切分?jǐn)?shù)目達(dá)到音節(jié)數(shù)目的一半及以上。依據(jù)自動(dòng)劃分的初始靜音段的短時(shí)能量大小,可以分為兩種情況: 一種是劃分初始靜音段短時(shí)能量遠(yuǎn)小于語音段平均能量(文中方法以語音段平均能量的0.125倍為判別是否遠(yuǎn)小于的門限),即準(zhǔn)確劃分靜音段情況;另一種是劃分初始靜音段短時(shí)能量接近甚至遠(yuǎn)大于語音段平均能量,即沒能準(zhǔn)確劃分靜音段情況。能量判別門限ampth變化規(guī)則如下:

      其中: ampth1表示初始靜音段短時(shí)能量最大值,avamp表示語音段平均能量。

      隨著能量判別門限的增加,被判斷為靜音的幀數(shù)增加,從而增加了切分出的語音段數(shù)目。這樣做的原因是,如果初始語音段切分?jǐn)?shù)目太少,將完全依靠波谷及存在概率對(duì)語音段切分,準(zhǔn)確性將大大降低,同時(shí)計(jì)算時(shí)間將大大增加(時(shí)間增加原因詳見2.1節(jié))。

      3)將最小靜音長度改為幀數(shù)平均值的0.3倍。最小靜音長度主要作用是,在靜音長度不滿足最小靜音長度時(shí),將這部分靜音長度判斷為有話幀,以防止偶爾的低能量幀影響判斷準(zhǔn)確性。幀數(shù)平均值指根據(jù)假設(shè)1擬合出相同發(fā)音人及相似發(fā)音環(huán)境下單音節(jié)包含幀數(shù)的平均值。

      4)初步切分出的分語音段的起始幀向前移動(dòng)兩幀。動(dòng)態(tài)改變能量判別門限使語音段切分?jǐn)?shù)目達(dá)到音節(jié)數(shù)目的一半及以上后,由于聲母能量少,有可能出現(xiàn)丟掉部分聲母幀的情況,起始幀向前移動(dòng)兩幀可以將丟掉的聲母幀包含一部分。

      1.3 動(dòng)態(tài)調(diào)整參與競選波谷數(shù)量

      短時(shí)能量波谷是對(duì)已經(jīng)初步切分的分語音段進(jìn)行精確切分的參照標(biāo)準(zhǔn)。將其作為主要參照標(biāo)準(zhǔn)的依據(jù)是假設(shè)2,即漢語語音相鄰音節(jié)之間一定存在短時(shí)能量的波谷。首先,需要對(duì)語音短時(shí)能量進(jìn)行中值濾波,消除跳躍點(diǎn),即消除突發(fā)性噪聲的影響。然后,進(jìn)行j階的波形平滑,設(shè)第i幀的短時(shí)能量為amp(i),平滑后的短時(shí)能量為A(i),則j階波形平滑表示為:

      2 時(shí)間復(fù)雜度分析及簡化算法

      2.1 時(shí)間復(fù)雜度分析

      上述方法中,影響時(shí)間復(fù)雜度的主要是1.4節(jié)中計(jì)算不同語音切分存在概率和的部分。在對(duì)一段含有12個(gè)音節(jié)的語音(3.1節(jié)中出現(xiàn)的“test_11.wav”)進(jìn)行切分過程中,運(yùn)行1.4節(jié)(波谷組合及語音段再切分)之前的程序在普通臺(tái)式機(jī)Matlab環(huán)境下耗費(fèi)時(shí)間為0.399s,將語音段初步切分為8段;計(jì)算一次概率和花費(fèi)的時(shí)間為0.0554s左右(對(duì)不同切分判決花費(fèi)時(shí)間差距很小,此處做大概計(jì)算),但計(jì)算次數(shù)為8568次,即總體時(shí)間471.240s。而在一些初始切分段落數(shù)量相對(duì)音節(jié)數(shù)較少的語音段,后續(xù)判決將花費(fèi)更多時(shí)間。如3.1節(jié)中出現(xiàn)的“test_6.wav”,包含音節(jié)數(shù)為16,運(yùn)行1.4節(jié)(波谷組合及語段再切分)之前的程序在相同環(huán)境下耗費(fèi)時(shí)間為0.257s,將語音段初步切分為8段;計(jì)算一次概率和花費(fèi)的時(shí)間為0.047s,但計(jì)算次數(shù)為203490,即總體時(shí)間9564s。這樣的計(jì)算時(shí)間難以滿足實(shí)際應(yīng)用需求。

      設(shè)需要切分的語音段采樣點(diǎn)儲(chǔ)存在數(shù)組x中,語音段初步切分(即1.4節(jié)之前)程序耗費(fèi)時(shí)間為f(x),對(duì)第i次波谷組合再切分進(jìn)行可能音節(jié)存在概率和計(jì)算耗費(fèi)的時(shí)間為gi(x),初始切分后剩余波谷數(shù)目為n,需要挑選參與再切分的波谷數(shù)目為m,則耗費(fèi)總時(shí)間t(x)為:

      2.2 簡化算法

      雖然減少初步切分后語音段內(nèi)波谷數(shù)目n及減少需要得到的波谷數(shù)目m都是不可行的,對(duì)語音段進(jìn)行初步切分后,語音段被切分為許多分語音段,與此同時(shí),波谷n也被分別切分到不同的分語音段中。利用這個(gè)規(guī)律,可以得到如下簡化算法。為了配合簡化算法的說明,選取以原方法計(jì)算花費(fèi)時(shí)間最長的“test_6.wav”語音跟隨簡化算法步驟。在此給出以第1章中描述的方法對(duì)語音段“test_6.wav”進(jìn)行切分的最終結(jié)果(單位為幀):3469;7196;96121;121145;145163;169197;197232;232258;265287;293324;324345;345366;366390;390411;420430;439461。符號(hào)“”之前數(shù)字表示起始幀,之后數(shù)字表示結(jié)束幀。

      簡化算法步驟如下:

      1)對(duì)語音段進(jìn)行初步切分、確定參與競選波谷(即1.1節(jié)~1.3節(jié)涉及算法)。對(duì)語音段“test_6.wav”進(jìn)行初步切分,其中參數(shù)取值:采樣率為16kHz,幀長為200個(gè)采樣點(diǎn),幀移為100個(gè)采樣點(diǎn),擬合均值為-25.8623幀,擬合方差為11.0625。其初步切分結(jié)果為(單位為幀):3469;71163;169197;197258;265287;293411;420430;439461,共計(jì)8個(gè)分段。確定參與競選的波谷幀數(shù)值為:55;82;86;96;110;121;126;145;202;207;214;232;311;324;345;355;366;376;390;393;405共計(jì)21個(gè)波谷。

      2)將參與競爭的波谷,按照所屬關(guān)系分配給初步切分的分語音段。語音段“test_6.wav”的波谷分配給初步切分的分語音段:345569;71828696160121126145163;169197;197202207214232258;265287;293311324345355366376390393405411;420430;439461。其中每一行第一個(gè)數(shù)字和最后一個(gè)數(shù)字是初步切分語音段的起始幀數(shù)值和結(jié)束幀數(shù)值,中間數(shù)字為按照要求分配的波谷幀數(shù)值。

      3)引入最大平均概率值概念,即概率和最大值與切分后分段數(shù)目的商。分別計(jì)算每一個(gè)分段選取i(i取值從0開始,到本分段波谷值)個(gè)波谷組合作為切分點(diǎn)的最大平均概率,并記錄最大平均概率對(duì)應(yīng)的波谷組合,以分段數(shù)及選取波谷數(shù)為表頭對(duì)最大平均概率值列表。如語音段“test_6.wav”第二個(gè)分段選取2個(gè)波谷進(jìn)行組合作為切分點(diǎn),計(jì)算得到最大平均概率為0.0180,對(duì)應(yīng)的波谷組合為96幀、126幀。語音段“test_6.wav” 以分段數(shù)及選取波谷數(shù)為表頭對(duì)最大概率值列表結(jié)果如表1。

      3 仿真結(jié)果與分析

      實(shí)驗(yàn)在Matlab環(huán)境下進(jìn)行,語音選取新聞聯(lián)播某分段,共計(jì)21段語音(命名為“test_1~21.wav”),每段語音包含4到16個(gè)音節(jié)不等。不在實(shí)驗(yàn)中采用標(biāo)準(zhǔn)語音語料庫,因?yàn)闈h語標(biāo)準(zhǔn)語音語料庫中,除了訊飛公司發(fā)布的語料庫外,其他語料庫如863語音語料庫、CASS漢語口語語料庫等,存在標(biāo)注不準(zhǔn)確問題,而訊飛公司發(fā)布的語料庫為非共享資源[12]。另外,上述語料庫多為語音識(shí)別服務(wù),語音采集重視多人數(shù)、短語句,而本文方法適用于同環(huán)境下的語音切分,同一發(fā)音人長時(shí)間發(fā)音可以看作一種苛刻的同環(huán)境,故選取新聞聯(lián)播某分段進(jìn)行實(shí)驗(yàn)。語音采樣率fs為16kHz,幀長wlen為200個(gè)采樣點(diǎn),幀移inc為100個(gè)采樣點(diǎn)。對(duì)21段語音進(jìn)行人工標(biāo)注,選取前四段擬合其音節(jié)長度的高斯分布,得到高斯分布均值mu為-0.1554s,方差sigma為0.0629s。對(duì)語音段音節(jié)切分,切分音節(jié)位置包含音節(jié)起點(diǎn)及音節(jié)終點(diǎn),因?yàn)閷?duì)起點(diǎn)及終點(diǎn)的分析方法相同,相鄰音節(jié)常常出現(xiàn)前音節(jié)終點(diǎn)為后音節(jié)起點(diǎn)的情況,在以下實(shí)驗(yàn)中,選擇音節(jié)起點(diǎn)進(jìn)行分析。

      傳統(tǒng)端點(diǎn)檢測方法可以較準(zhǔn)確檢出靜音段,但在切分音節(jié)方面效果不好。以基于能量和過零率的雙門限法為例,以不同門限對(duì)語音段“test_6.wav”進(jìn)行切分。設(shè)靜音段短時(shí)能量均值為ampth,短時(shí)過零率均值為zcrth,則設(shè)置高閾值能量門限amp1、低閾值能量門限amp2及過零率門限zcr如下:

      從圖3中可以看出,利用雙門限法,最優(yōu)的切分情況同人工標(biāo)注差距仍舊比較大。其最好切分情況下,幀距離平方和大于2×104,即起始幀平均相差35.3553幀,換算成時(shí)間則相差0.2147s。造成這種差距的原因是語音“test_6.wav”中有許多連續(xù)發(fā)音的音節(jié)。

      文獻(xiàn)[7]提出了基于歸并的語音音節(jié)切分方法。其原理為:把語音特征參數(shù)相似的相鄰幀進(jìn)行歸并,形成類似段;將特征發(fā)生突然變化的位置記作1類轉(zhuǎn)折,將特征發(fā)生緩慢變化的位置記作2類轉(zhuǎn)折;將不同聲韻母及靜音按照其特性劃分到1或2類轉(zhuǎn)折中;利用文本信息及轉(zhuǎn)折位置進(jìn)行劃分。

      利用本文方法對(duì)語音段“test_6.wav”進(jìn)行切分,并與文獻(xiàn)[7]提出的歸并切分方法、雙門限切分的最優(yōu)情況中的一種(p1=1、p2=3、p3=20、maxsilence=8)及人工切分進(jìn)行比較,切分結(jié)果如圖4所示。

      利用本文方法對(duì)實(shí)驗(yàn)語音進(jìn)行自動(dòng)行切,其切分準(zhǔn)確度S達(dá)到小數(shù)點(diǎn)后3位。其中S最大值(S大表示切分不準(zhǔn)確)為0.0031,即與人工標(biāo)注起始點(diǎn)相差0.0557s,差距在可接受范圍內(nèi)。利用簡化算法后,本文方法計(jì)算效率明顯提升,在對(duì)實(shí)驗(yàn)語音進(jìn)行自動(dòng)切分過程中,在臺(tái)式機(jī)Matlab環(huán)境下,平均運(yùn)算時(shí)間為0.3035s,最長運(yùn)算時(shí)間為0.81s,達(dá)到應(yīng)用水平。

      4 結(jié)語

      準(zhǔn)確自動(dòng)切分語音段中的音節(jié),為語料庫及廣播語音的標(biāo)注等工作提供許多便利。本文在傳統(tǒng)雙門限法的基礎(chǔ)上,對(duì)其進(jìn)行4方面改進(jìn);進(jìn)而利用相同發(fā)音環(huán)境下音節(jié)發(fā)音時(shí)間長度的分布規(guī)律,以波谷為依據(jù),計(jì)算波谷組合下可能音節(jié)存在概率的和,進(jìn)而得到最有可能的語音音節(jié)位置。利用本文算法兩次切分的特點(diǎn),對(duì)其進(jìn)行簡化。實(shí)驗(yàn)仿真結(jié)果表明,本文方法切分音節(jié)準(zhǔn)確度(與標(biāo)注切分時(shí)間距離平方的均值)達(dá)到小數(shù)點(diǎn)后3位,同時(shí)在臺(tái)式機(jī)Maltab環(huán)境下運(yùn)算時(shí)間均不超過1s,可以達(dá)到應(yīng)用要求。然而本文方法主要針對(duì)較短語音段,適用于更長語音段的音節(jié)切分方法還有待進(jìn)一步深入研究。

      參考文獻(xiàn):

      [1]TOLEDANO D T, GOMEZ L A H, GRANDE L V . Automatic phonetic segmentation[J]. IEEE Transactions on Speech and Audio Processing, 2003,11(6):617-625.

      [2]WU Y J, KAWAI H, NI J, et al. Discriminative training and explicit duration modeling for HMMbased automatic segmentation[J]. Speech Communication, 2005,47(3): 397-410.

      [3]van HEMERT J P. Automatic segmentation of speech[J]. IEEE Transactions on Signal Processing,1991,39(4):1008-1012.

      [4]CHOU F C, TSENG C Y, LEE L S. A set of corpusbased texttospeech synthesis technologies for Mandarin Chinese[J]. IEEE Transactions on Speech and Audio Processing,2002,10(7):481-494.

      [5]杜守栓. 方言口音普通話語音自動(dòng)切分算法研究[D].北京: 中國科學(xué)院,2006:15-26.(DU S S. Research on robust automatic segmentation of dialectal speech[D]. Beijing: University of Chinese Academy of Sciences, 2006:15-26.)

      [6]何可嘉. 廣播語言的自動(dòng)標(biāo)注系統(tǒng)[D].北京: 北京郵電大學(xué),2010:22-47.(HE K J. An automatic labeling system for broadcast news[D]. Beijing: Beijing University of Posts and Telecommunications, 2010:22-47.)

      [7]韓虎. 漢語連續(xù)語音的音節(jié)自動(dòng)標(biāo)注算法研究及實(shí)現(xiàn)[D].哈爾濱: 哈爾濱工業(yè)大學(xué),2008:21-44.(HAN H. Research and realization of the automatic syllable marking algorithm for Chinese continuous speech[D]. Harbin: Harbin Institute of Technology, 2008: 21-44.)

      [8]LEE K S. MLPbased phone boundary refining for a TTS database[J]. IEEE Transactions on Audio, Speech and Language Processing, 2006,14(3):981-989.

      [9]BROGNAUX S, DRUGMAN T. HMMbased speech segmentation: improvements of fully automatic approaches[J]. IEEE Transactions on Audio, Speech and Language Processing,2016,24(1):5-15

      [10]廖文輝,劉炎.數(shù)據(jù)分析與SAS實(shí)驗(yàn)[M].北京:經(jīng)濟(jì)科學(xué)出版社,2010:13-32.(LIAO W H,LIU Y. Data Analysis and SAS Experiment[M]. Beijing: Economic Science Press,2010:13-32.)

      [11]宋知用.Matlab在語音信號(hào)分析與合成中的應(yīng)用[M].北京:北京航空航天大學(xué)出版社,2013:117-129.(SONG Z Y. Application of Matlab in Speech Signal Analysis and Synthesis[M].Beijing: Beihang University Press, 2013:117-129.)

      [12]章森,劉磊,刁麓弘.大規(guī)模語音語料庫及其在TTS中應(yīng)用的幾個(gè)問題[J].計(jì)算機(jī)學(xué)報(bào),2010,33(4):667-696.(ZHANG S,LIU L,DIAO L H. Problems on largescale speech corpus and the applications in TTS[J]. Chinese Journal of Computers, 2010,33(4):667-696.)

      猜你喜歡
      漢語
      漢語教學(xué)被多國納入教育體系
      學(xué)漢語
      學(xué)漢字
      韓國語 "V+ " 與漢語"V+死了"對(duì)比研究
      關(guān)于日語中漢語聲調(diào)最新變化的考察
      關(guān)于日語中漢語聲調(diào)最新變化的考察
      追劇宅女教漢語
      母語
      漢語與拼音
      教育部出臺(tái)《民族中小學(xué)漢語課程標(biāo)準(zhǔn)(義務(wù)教育)》
      益阳市| 金寨县| 武穴市| 商城县| 微山县| 泰顺县| 江口县| 九江市| 凌海市| 大连市| 光山县| 称多县| 晋江市| 灵宝市| 梅州市| 武冈市| 香格里拉县| 原阳县| 开鲁县| 岫岩| 西藏| 贵州省| 梅河口市| 哈密市| 牡丹江市| 万源市| 香港| 兴宁市| 子洲县| 高碑店市| 望城县| 蓝田县| 台湾省| 石城县| 滁州市| 庆阳市| 兴文县| 于田县| 五大连池市| 海宁市| 沁阳市|