• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種用于語音挖掘和聚類的嵌入式分段KMeans方法

      2022-01-15 03:05:50楊小虎朱蒼璐
      綏化學(xué)院學(xué)報(bào) 2021年12期
      關(guān)鍵詞:貝葉斯高斯分段

      楊小虎 程 錦 朱蒼璐

      (1.安徽醫(yī)學(xué)高等專科學(xué)校公共基礎(chǔ)學(xué)院;2.安徽三聯(lián)學(xué)院計(jì)算機(jī)工程學(xué)院 安徽合肥 230601)

      零資源語音處理領(lǐng)域的發(fā)展旨在開發(fā)無監(jiān)督的方法,在轉(zhuǎn)錄、詞匯和語言建模文本不可用的情況下,可以直接從原始語音音頻中學(xué)習(xí)。這些方法對(duì)于在轉(zhuǎn)錄數(shù)據(jù)難以收集的語言中提供語音技術(shù)是至關(guān)重要的,例如,一些不成文或?yàn)l危的語言[1]。此外,這些方法的發(fā)展可能會(huì)揭示人類是如何進(jìn)行語言的學(xué)習(xí)[2,3]?,F(xiàn)有的幾個(gè)零資源學(xué)習(xí)任務(wù)主要包括聲學(xué)單元發(fā)現(xiàn)[4-6],無監(jiān)督表示學(xué)習(xí)[7-9],示例查詢搜索[10,11]和主題建模[12,13]。早期的工作主要集中在無監(jiān)督的術(shù)語發(fā)現(xiàn)上,目標(biāo)是在一組語音中自動(dòng)找到重復(fù)的單詞或短語模式[14-16]。雖然有用,但發(fā)現(xiàn)的模式通常是分散在數(shù)據(jù)上的孤立片段,留下許多語音作為背景。這促使了一些關(guān)于全覆蓋方法的研究,其中整個(gè)語音輸入被分割并聚集成類似單詞的單元[17-21]。兩種典型應(yīng)用在零資源語音挑戰(zhàn)中賽上的全覆蓋系統(tǒng)提供了一個(gè)有用的對(duì)比基準(zhǔn):1、貝葉斯嵌入的分段高斯混合模型[22]:一種概率模型,它將潛在的詞段表示為固定維的聲學(xué)詞嵌入,然后在這個(gè)嵌入空間中構(gòu)建一個(gè)全詞聲學(xué)模型,同時(shí)共同進(jìn)行分割。2、循環(huán)音節(jié)單元分割器[23]:這是一種認(rèn)知驅(qū)動(dòng)的快速啟發(fā)式方法,它應(yīng)用無監(jiān)督音節(jié)分段和聚類,然后預(yù)測(cè)作為單詞的循環(huán)音節(jié)序列。這兩個(gè)模型代表了零資源系統(tǒng)中常見的兩個(gè)方法論極端,即要么使用具有收斂保證的概率貝葉斯模型[6,19],要么在管線方法中使用啟發(fā)式技術(shù)[18]。

      針對(duì)該問題,本文提出了一個(gè)介于這兩個(gè)極端之間的高斯混合模型近似,即嵌入式分段K-Means模型,使用硬聚類和分段,而不是完全基于貝葉斯的推理過程。然而,與啟發(fā)式方法不同的是,它有一個(gè)明確的目標(biāo)函數(shù)。與貝葉斯嵌入分段的高斯混合模型相比,由于不需要概率抽樣,因此嵌入式分段K-Means方法超參數(shù)少,優(yōu)化算法簡(jiǎn)單,效率更高。從監(jiān)督語音識(shí)別發(fā)展以來,就一直使用硬近似法進(jìn)行概率建模,因此本文也遵循使用這種方法。然而,所有這些研究都將其應(yīng)用到逐幀建模方法中,而本文的方法是對(duì)整個(gè)語音片段的嵌入式表示進(jìn)行操作。人們?cè)絹碓疥P(guān)注這種聲學(xué)單詞嵌入方法[11],因?yàn)樗鼈兪沟迷诠潭ňS度空間中容易且有效地比較可變長(zhǎng)度的語音片段成為可能。本文分析了相對(duì)于原始的貝葉斯嵌入分段高斯混合模型等方法,嵌入式分段KMeans方法的硬近似是如何影響速度和精度的。在英語和聰加語數(shù)據(jù)上,我們表明嵌入式分段K-Means在分詞方面優(yōu)于循環(huán)音節(jié)單位分割器,并給出與貝葉斯嵌入分段高斯混合模型相似的分?jǐn)?shù),同時(shí)速度快5倍。然而,嵌入式分段K-Means的聚類純度落后于其他兩種模型,貝葉斯嵌入分段高斯混合模型的高純度是因?yàn)樗鼉A向于產(chǎn)生更小的聚類,這種聚類不同于嵌入式分段K-Means,也可以使用超參數(shù)來改變。

      一、嵌入式分段K-Means方法

      從標(biāo)準(zhǔn)的K-Means方法出發(fā),本節(jié)描述了嵌入式分段K-Means算法的優(yōu)化目標(biāo)和具體算法實(shí)現(xiàn)。

      (一)從K-Means到嵌入式分段K-Means目標(biāo)函數(shù)。給定一個(gè)由聲學(xué)幀組成的語音y1:m=y1,y2,…,yM(例如MFCC),我們的目標(biāo)是將序列分解成類似單詞的片段,并將這些片段聚類成假設(shè)的單詞類型。如果已知分段(即在單詞邊界出現(xiàn)的地方),數(shù)據(jù)將由幾個(gè)不同持續(xù)時(shí)間的段組成,如圖1的底部所示。為了對(duì)這些數(shù)據(jù)進(jìn)行聚類,我們需要一種方法來比較可變長(zhǎng)度的向量序列。一種選擇是使用基于對(duì)準(zhǔn)的距離測(cè)量,例如動(dòng)態(tài)時(shí)間扭曲。這里我們采用聲學(xué)單詞嵌入方法[11]:嵌入函數(shù)fe用于將可變長(zhǎng)度的語音段映射到固定維度空間中的單個(gè)嵌入向量x∈RD,即將段yt1:t2映射到一個(gè)向量xi=fe(yt1:t2),用水平向量表示。其基于的思想和假設(shè)是,聲學(xué)上相似的語音片段應(yīng)該在RD中緊密地放在一起,允許片段在嵌入空間中直接有效地比較,而無需先進(jìn)行對(duì)齊。目前已經(jīng)存在各種各樣的嵌入方法,從基于圖的方法到無監(jiān)督的遞歸神經(jīng)方法。我們對(duì)每個(gè)片段進(jìn)行均勻的下采樣,使其成為相同固定數(shù)量的向量表示,然后對(duì)其進(jìn)行展開,以獲得嵌入的特征向量。嵌入式分段K-Means對(duì)嵌入的方法是不可知的,所以后續(xù)可以直接合并對(duì)嵌入的改進(jìn)。

      將數(shù)據(jù)集中所有的片段進(jìn)行嵌入會(huì)得到一組向量,可以使用K-Means將其聚類成K個(gè)假設(shè)的詞類,如圖1頂部所示。標(biāo)準(zhǔn)的K-Means方法旨在最小化每個(gè)聚類均值的平方歐幾里德距離之和。在將向量重新分配給最接近的聚類均值,然后更新均值,并反復(fù)交替迭代。

      如果分段是已知的,則常規(guī)的K-Means方法是比較合適的,但在零資源設(shè)置中則相反,嵌入X可以根據(jù)當(dāng)前的分段而變化。對(duì)于一個(gè)話語的數(shù)據(jù)集S,我們把分段表示為Q={qi}Si=1,其中qi表示話語i的邊界。X(Q)用于表示當(dāng)前分段下的嵌入。我們的目標(biāo)是聯(lián)合優(yōu)化聚類分配z和分段Q。

      其中Xc∩X(Q)是分段Q下分配給聚類c的嵌入。但這是有問題的,我們不是為每個(gè)片段指定一個(gè)分?jǐn)?shù),而是為每個(gè)幀指定一個(gè)分?jǐn)?shù)。該分?jǐn)?shù)由該幀所屬的片段獲得的分?jǐn)?shù)統(tǒng)一給出,這意味著片段分?jǐn)?shù)由持續(xù)時(shí)間的加權(quán)獲得:

      其中l(wèi)en(x)是序列中用于計(jì)算嵌入x的幀數(shù)。

      整個(gè)嵌入式分段K-Means算法隨機(jī)初始化單詞的邊界,然后通過在保持聚類分配z和均值{μc}Kc=1固定的同時(shí)利用公式1來交替優(yōu)化分段Q (圖1中從上到下所示),然后在保持分段固定的情況下優(yōu)化聚類分配和均值(圖中從下到上)。

      圖1 用于語音無監(jiān)督分段和聚類的嵌入式分段K-Means模型

      (二)分段。在固定的聚類z的情況下,目標(biāo)(1)變?yōu)椋?/p>

      公式2可以針對(duì)每個(gè)話語分別進(jìn)行優(yōu)化。我們希望找到每個(gè)話語的分段q,并給出該分段下的嵌入分?jǐn)?shù)總和的最小值。這正是最短路徑算法(Viterbi)使用動(dòng)態(tài)規(guī)劃來解決的問題。

      假設(shè)qt是在假設(shè)的以幀t結(jié)束的分段(詞)中的幀數(shù):如果qt=j,那么yt-j+1:t是一個(gè)詞。我們將前向變量γ[t]定義為直到邊界位置的最優(yōu)得分,其中q:t是直到t的分段決策序列??梢酝ㄟ^如下公式進(jìn)行遞歸計(jì)算:

      具體來說,從γ[0]=0開始,我們對(duì)1≤t≤M-1分別遞歸計(jì)算公式3。我們跟蹤每個(gè)γ[t]的最佳選擇,然后通過從最終位置t=M開始并向后移動(dòng),重復(fù)選擇最佳邊界來給出整體最佳分段。

      (三)聚類分配和均值更新。對(duì)于固定的分段Q,目標(biāo)(1)變?yōu)椋?/p>

      最后,我們修正分配的聚類中心z并更新其均值:

      公式6是分配給聚類c中所有向量的平均值,由持續(xù)時(shí)間進(jìn)行加權(quán),保證公式1的正向優(yōu)化。我們使用近似值,即如果所有分段具有相同的持續(xù)時(shí)間,該近似值也是準(zhǔn)確的,以再次進(jìn)行K-Means方法的匹配過程,Nc是當(dāng)前分配給聚類c的嵌入數(shù)量。

      (四)貝葉斯嵌入分段高斯混合模型。貝葉斯高斯混合模型將其混合權(quán)重π和分量均值作為隨機(jī)變量,而不是點(diǎn)估計(jì),就像常規(guī)高斯混合模型的做法一樣。我們使用共軛先驗(yàn):π上的狄利克雷先驗(yàn)和μc上的球協(xié)方差高斯先驗(yàn)。所有分量共享相同的固定協(xié)方差矩陣σ2I。模型定義為:

      在這個(gè)模型下,組件分配和分段可以使用折疊吉布斯采樣器進(jìn)行聯(lián)合推斷。然而,對(duì)于貝葉斯嵌入分段高斯混合模型,組件分配和分段是遵循的概率抽樣。當(dāng)方差接近零時(shí),標(biāo)準(zhǔn)的K-Means由高斯混合模型產(chǎn)生。以類似的方式,可以證明貝葉斯嵌入高斯混合模型方法中的分段和分量分配過程分別和(3)和(5)步驟相似,當(dāng)所有其他超參數(shù)都固定時(shí),σ2趨近0。

      二、實(shí)驗(yàn)

      本文分別進(jìn)行兩組實(shí)驗(yàn)。首先,我們?cè)诹阗Y源語音挑戰(zhàn)賽2015的數(shù)據(jù)上比較嵌入式分段K-Means與循環(huán)音節(jié)單元分割器以及貝葉斯嵌入分段高斯混合模型。后兩個(gè)方法都曾應(yīng)用于該較小的語料庫,是用于方法比較分析的理想選擇。

      (一)實(shí)驗(yàn)設(shè)置和評(píng)估。正如在[20,22]中一樣,我們使用幾個(gè)指標(biāo)來進(jìn)行方法評(píng)估。通過將每個(gè)發(fā)現(xiàn)的單詞標(biāo)記映射到與其重疊最多的真實(shí)標(biāo)記,然后將每個(gè)聚類映射到其最常見的單詞,可以計(jì)算平均聚類純度和無監(jiān)督單詞錯(cuò)誤率(WER)。相反,通過將每個(gè)標(biāo)記映射到與其重疊最多的真實(shí)音素序列,可以計(jì)算同一聚類中所有片段之間的歸一化編輯距離(NED);NED越低越好,分?jǐn)?shù)從0到1。而詞邊界精度、召回率和F-score通過比較提出的和真實(shí)的詞邊界來評(píng)估切分性能;同樣,單詞標(biāo)記精度、召回率和F-score衡量提出的單詞標(biāo)記間隔的準(zhǔn)確性。單詞類型精度、召回率和F-score將唯一音素映射的集合與真實(shí)詞典中的集合進(jìn)行比較。在該數(shù)據(jù)集中不考慮聚類(簇)純度和WER指標(biāo),因此對(duì)于某些方法并沒有報(bào)告這些指標(biāo)。

      本文嵌入分段K-Means方法的實(shí)現(xiàn)盡可能遵循[22]中的貝葉斯嵌入分段高斯混合模型的實(shí)現(xiàn)。兩者都使用均勻下采樣作為嵌入函數(shù)fe:一個(gè)段由10個(gè)等間距的MFCCs通過適當(dāng)?shù)牟逯祦肀硎尽煞N模型都使用無監(jiān)督音節(jié)預(yù)切分[23]來限制單詞邊界。對(duì)于貝葉斯嵌入分段高斯混合模型,我們使用模擬退火,一個(gè)全零矢量的和σ2=0.001。

      (二)與其他方法的比較和分析。在第一組實(shí)驗(yàn)中,我們使用了兩個(gè)數(shù)據(jù)集:一個(gè)是來自12個(gè)說話者的大約5個(gè)小時(shí)的英語語料庫,一個(gè)是來自24個(gè)說話者的2.5個(gè)小時(shí)的聰加語料庫。我們還使用一套單獨(dú)的6小時(shí)英語語料庫進(jìn)行開發(fā)。為了與以前方法的結(jié)果[22,23]進(jìn)行比較,這里的所有系統(tǒng)都應(yīng)用于與說話者相關(guān)的設(shè)置,并且結(jié)果在不同說話者之間進(jìn)行平均。如[22]中所述,對(duì)于嵌入式分段KMeans和貝葉斯嵌入式分段高斯混合模型,K被設(shè)置為首過分段音節(jié)數(shù)的20%。候選單詞最多只能跨越6個(gè)音節(jié),并且持續(xù)時(shí)間必須至少為200毫秒。

      表1顯示了三種模型在英語和聰加語料庫上的表現(xiàn)。循環(huán)音節(jié)單元分割器的一些分?jǐn)?shù)是未知的,因?yàn)檫@些分?jǐn)?shù)不是該挑戰(zhàn)賽中評(píng)估的一部分[23]。與貝葉斯嵌入分段高斯混合模型相比,嵌入分段KMeans的純度、WER以及NED指標(biāo)更差,但邊界、標(biāo)記和F-score相似。這帶來了5倍的運(yùn)行時(shí)間提升。同時(shí),其NED指標(biāo)也比循環(huán)音節(jié)單元分割器差,但單詞邊界、標(biāo)記和F-score要好得多,然而循環(huán)音節(jié)單元分割器的速度是它的兩倍。

      表1 模型在兩個(gè)測(cè)試語料庫上的表現(xiàn)

      因此,在分詞分?jǐn)?shù)(邊界分?jǐn)?shù)、標(biāo)記分?jǐn)?shù))和詞匯質(zhì)量(類型分?jǐn)?shù))方面,嵌入分段K-Means是有競(jìng)爭(zhēng)力的,但在基于純度的度量標(biāo)準(zhǔn)(純度、WER、NED)方面落后。與貝葉斯嵌入分段高斯混合模型的區(qū)別特別有趣,因?yàn)棣?被設(shè)置得相當(dāng)小,而嵌入分段K-Means是在σ2趨于0的限制下從貝葉斯嵌入分段高斯混合模型得到的結(jié)果。為了理解純度上的差異,我們?cè)谝粋€(gè)英語說話者身上分析對(duì)比了這兩種方法。

      圖2顯示了兩種模型的5個(gè)最大聚類(簇)。與嵌入分段K-Means相比,貝葉斯嵌入分段高斯混合模型輸出更多更小的具有更高純度的團(tuán)簇(通常在不同的團(tuán)簇上分離相同的詞)。通過觀察嵌入分段K-Means分配給同一個(gè)聚類的標(biāo)記,發(fā)現(xiàn)盡管標(biāo)記與不同的真實(shí)標(biāo)簽重疊,聚類分配在質(zhì)量上是可感知的。例如圖3顯示了分配給圖2中“be”簇標(biāo)記的光譜圖,也顯示了具有最大重疊的真實(shí)單詞標(biāo)簽。對(duì)于“seventy”和“already”標(biāo)記,這些段只覆蓋了一部分真實(shí)單詞(粗體),而“that you”標(biāo)記實(shí)際上在上下文中發(fā)音為[dh uw]。因此,盡管映射到不同的真實(shí)標(biāo)簽,這些片段形成一個(gè)合理的聲學(xué)組。

      圖2 嵌入分段K-Means和貝葉斯嵌入分段高斯混合模型的最大5個(gè)簇(聚類)(圓半徑根據(jù)簇的大小;陰影表示純度。還顯示了聚類到真實(shí)單詞的映射)

      圖3 圖2中映射為“be”的嵌入分段K-Means群的隨機(jī)標(biāo)記的光譜圖。每個(gè)真實(shí)單詞中被該段覆蓋的部分以粗體顯示

      通過將發(fā)現(xiàn)的令牌更均勻地分布在聚類上(圖2),貝葉斯嵌入分段高斯混合模型產(chǎn)生了一個(gè)聚類,可以更好地匹配評(píng)價(jià)指標(biāo),雖然嵌入分段K-Means的聚類可能主觀上是更加合理的。貝葉斯嵌入分段高斯混合模型的這種擴(kuò)展(或稀疏性)可以通過固定的球形協(xié)方差參數(shù)σ2來控制,該參數(shù)影響嵌入到聚類的軟分配和分段。表2顯示了σ2變化時(shí)開發(fā)集上的性能。當(dāng)σ2太大時(shí),大部分標(biāo)記被大量的大無關(guān)簇吸上來;當(dāng)σ2較小時(shí),更多的標(biāo)記被分配給單獨(dú)的簇。相比之下,嵌入分段K-Means方法沒有σ2參數(shù),只考慮單個(gè)最接近的聚類。

      表2 隨著方差的變化,在英語開發(fā)集上的表現(xiàn)(%)

      三、結(jié)語

      本文提出了一種嵌入式分段K-Means模型,這是一種介于完全貝葉斯嵌入分段高斯混合模型和認(rèn)知驅(qū)動(dòng)啟發(fā)式方法之間的方法。其分詞性能與貝葉斯嵌入式分段高斯混合模型不相上下,優(yōu)于循環(huán)音節(jié)單位分割器,但聚類純度比其他兩種方法都差。就效率而言,它比貝葉斯嵌入式分段高斯混合模型快5倍,但只有循環(huán)音節(jié)單位分割器的一半。盡管使用了硬聚類和分段,嵌入式分段K-Means仍然有一個(gè)明確的目標(biāo)函數(shù),保證了到局部最優(yōu)解的收斂。由于其效率的顯著提高,我們還能夠?qū)⑶度胧椒侄蜬-Means應(yīng)用于更大的語料庫,并展現(xiàn)出更好的性能。

      猜你喜歡
      貝葉斯高斯分段
      小高斯的大發(fā)現(xiàn)
      一類連續(xù)和不連續(xù)分段線性系統(tǒng)的周期解研究
      天才數(shù)學(xué)家——高斯
      分段計(jì)算時(shí)間
      貝葉斯公式及其應(yīng)用
      3米2分段大力士“大”在哪兒?
      太空探索(2016年9期)2016-07-12 10:00:04
      基于貝葉斯估計(jì)的軌道占用識(shí)別方法
      一種基于貝葉斯壓縮感知的說話人識(shí)別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      有限域上高斯正規(guī)基的一個(gè)注記
      IIRCT下負(fù)二項(xiàng)分布參數(shù)多變點(diǎn)的貝葉斯估計(jì)
      高邑县| 兴文县| 都匀市| 时尚| 洪雅县| 昌图县| 廉江市| 佛学| 武宁县| 泰顺县| 大埔县| 且末县| 徐闻县| 万源市| 江达县| 大名县| 青岛市| 洛阳市| 天峨县| 全州县| 宜良县| 甘德县| 万山特区| 扶风县| 镇原县| 施甸县| 美姑县| 禹城市| 鄂伦春自治旗| 黄浦区| 承德市| 临潭县| 昭苏县| 江永县| 苏尼特左旗| 永兴县| 临颍县| 西乡县| 桓台县| 大理市| 宜城市|