• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      樂(lè)器輔助學(xué)習(xí)器音調(diào)保持算法的設(shè)計(jì)與實(shí)現(xiàn)

      2020-01-11 01:07靳思雨韓宇龍吳秉坤苗洪睿黨柳邵淑穎宗天禹

      靳思雨 韓宇龍 吳秉坤 苗洪睿 黨柳 邵淑穎 宗天禹

      摘? ?要: 多普勒效應(yīng)的存在,使得音頻在加速或減速播放時(shí),音調(diào)變得尖銳或低沉,無(wú)法滿(mǎn)足很多場(chǎng)景的應(yīng)用需求。以樂(lè)器輔助學(xué)習(xí)器為研究對(duì)象,兼顧考慮軟件復(fù)雜程度和硬件實(shí)現(xiàn)成本,優(yōu)選時(shí)間域的剪貼法,設(shè)計(jì)2倍速和1/2倍速下的音調(diào)保持算法;以有限時(shí)長(zhǎng)二胡樂(lè)曲為例,采用改變音頻速度時(shí)變調(diào)的普通算法和音調(diào)保持算法進(jìn)行音頻處理,并對(duì)處理結(jié)果進(jìn)行對(duì)比分析。研究發(fā)現(xiàn),普通算法2倍速(或1/2倍速)處理得到的音頻頻率范圍明顯拓寬(或收窄),同時(shí)在原始頻率范圍內(nèi)的高頻(或低頻)段出現(xiàn)了1~2個(gè)顯著的頻率分量,為音調(diào)變尖銳(或低沉)提供了理論證據(jù)。音調(diào)保持算法基本達(dá)到了預(yù)期效果,實(shí)現(xiàn)了“變速不變調(diào)”,并且處理步驟簡(jiǎn)單、易于硬件集成,為樂(lè)器輔助學(xué)習(xí)器等產(chǎn)品的音效處理模塊提供了開(kāi)發(fā)思路。

      關(guān)鍵詞: 音調(diào)保持算法;多普勒效應(yīng);樂(lè)器輔助學(xué)習(xí)器;時(shí)間域;剪貼法;變速不變調(diào)

      中圖分類(lèi)號(hào):TN912? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? 文章編號(hào):2095-8412 (2020) 06-121-06

      工業(yè)技術(shù)創(chuàng)新 URL: http://gyjs.cbpt.cnki.net? ? DOI: 10.14103/j.issn.2095-8412.2020.06.022

      引言

      在播放音頻時(shí),我們常有這樣的遭遇:如果加快播放速度,聲音的音調(diào)就會(huì)變得尖銳刺耳;相反,如果降低播放速度,聲音的音調(diào)就會(huì)變得粗而低沉。這是由多普勒效應(yīng)造成的,該效應(yīng)在醫(yī)學(xué)、交通和航天等領(lǐng)域同樣普遍存在。但是,該效應(yīng)在很多應(yīng)用場(chǎng)景中并不受到期待,人們往往希望聲音在播放速度發(fā)生改變后,音調(diào)仍然保持原樣。比如樂(lè)器的初學(xué)者往往希望將一些優(yōu)秀曲目的音頻放慢到幾分之一倍速,以方便聆聽(tīng)和模仿,或者將自己演奏的音頻錄下來(lái)慢速播放,以便發(fā)現(xiàn)演奏過(guò)程中存在的問(wèn)題;再比如外語(yǔ)學(xué)習(xí)者在練習(xí)聽(tīng)力時(shí),也許希望減慢或加快聽(tīng)力資料的播放,以適應(yīng)自身的學(xué)習(xí)狀況等。在這些應(yīng)用場(chǎng)景下,如果聲音的音調(diào)發(fā)生扭曲,就會(huì)嚴(yán)重影響聲音聆聽(tīng)者的體驗(yàn)。

      在音調(diào)規(guī)整方面,早期的研究論文大多關(guān)注算法模型的改進(jìn)和參數(shù)的選擇等,而現(xiàn)在的大量研究則聚焦于語(yǔ)音增強(qiáng)[1-2]。這些研究往往并不針對(duì)特定的應(yīng)用場(chǎng)景,不具針對(duì)性。本文旨在專(zhuān)門(mén)對(duì)樂(lè)器輔助學(xué)習(xí)器的音調(diào)保持功能進(jìn)行研究。這是因?yàn)殡S著人們生活質(zhì)量的提高,人們對(duì)樂(lè)器學(xué)習(xí)的需求和要求也越來(lái)越高,樂(lè)器輔助學(xué)習(xí)器作為輔助學(xué)習(xí)樂(lè)器的工具,在將音頻加速或減速播放時(shí)保持音調(diào)不變,是其應(yīng)具有的基礎(chǔ)且重要的功能之一。為樂(lè)器輔助學(xué)習(xí)器設(shè)計(jì)音調(diào)保持算法,初衷就是要“變速不變調(diào)”,提升樂(lè)器初學(xué)者的學(xué)習(xí)體驗(yàn),解決音調(diào)扭曲帶來(lái)的產(chǎn)品痛點(diǎn)。

      1? 基本原理與算法比選

      1.1? 音調(diào)變化的基本原理

      音調(diào)是人類(lèi)相對(duì)主觀的一種感受。聲音中的基頻決定了音調(diào)的高低,頻率越高,音調(diào)就會(huì)越高;頻率降低,音調(diào)就會(huì)變得更加厚重。諧波分布決定了音樂(lè)的音色,而單位時(shí)間內(nèi)的節(jié)拍數(shù)決定了音樂(lè)的快慢。所以,聲音的“速”和“調(diào)”是兩個(gè)不同的概念。變速不變調(diào)就是指改變播放速度的大小,同時(shí)保持基頻不變。但二者不是相互獨(dú)立的,一方的改變會(huì)影響另一方,不能完全割裂開(kāi)來(lái)。

      音頻的音調(diào)保持技術(shù)是一種時(shí)域修正技術(shù),即在保證音頻中音調(diào)、音色等特征不改變的情況下,對(duì)播放時(shí)長(zhǎng)進(jìn)行伸縮。

      1.2? 音調(diào)保持的常見(jiàn)算法

      音調(diào)保持算法有三大類(lèi):時(shí)域法、頻域法、參量法。

      剪貼法和同步波形疊加法是時(shí)域法中兩種最常用的方法。

      剪貼法是時(shí)域法中最為基礎(chǔ)的一種方式。首先將音樂(lè)劃分為若干連續(xù)不重疊的幀,然后重復(fù)這些幀,使得播放速度變慢;或舍棄一些幀,讓播放速度變快。這種方法原理和操作都很簡(jiǎn)單,但在疊加或舍棄幀時(shí)會(huì)導(dǎo)致相鄰兩幀之間波形不連續(xù),即使得基音發(fā)生斷裂,音頻質(zhì)量變差。

      為減輕基音斷裂現(xiàn)象,Roucos等提出了同步波形疊加法(SOLA)[3-8]。如圖1所示,該算法有分解、合成兩階段。分解階段對(duì)原始信號(hào)進(jìn)行分幀,在分幀的同時(shí)進(jìn)行加窗平滑處理。合成階段又分成兩步:第一步,確定初步合成重疊距離。在保證第1幀不變的前提下,移動(dòng)之后的各幀,調(diào)整相鄰兩幀的距離為Ss。第二步,確定最終合成幀的起始位置。在已合成的第m幀第Ss個(gè)采樣點(diǎn)的某個(gè)鄰域[-Kmax, Kmax]內(nèi),移動(dòng)搜索與分解階段第m幀信號(hào)的波形相關(guān)性最大的位置Km。因?yàn)槠渑c疊加部分波形最為相似,因此也就減小了基音斷裂,但由于不能精確控制音頻處理以后的時(shí)間,故容易造成音頻的疊加。

      頻域法可以基于短時(shí)傅里葉變換原理,利用最小均方誤差原則,通過(guò)在時(shí)域?qū)ふ乙粋€(gè)最為靠近理想變速信號(hào)頻譜的短時(shí)傅里葉變換幅度譜,實(shí)現(xiàn)變速不變調(diào)。

      參量法需要首先對(duì)語(yǔ)音信號(hào)建立模型,然后根據(jù)需要修改模型的參數(shù)。相位聲碼器通過(guò)帶通濾波器將語(yǔ)音分解成無(wú)數(shù)個(gè)正弦信號(hào),然后對(duì)幅度和相位進(jìn)行時(shí)域壓擴(kuò),再合成之,從而實(shí)現(xiàn)變速不變調(diào)。

      考慮到軟件復(fù)雜程度和硬件實(shí)現(xiàn)成本,本文采用時(shí)間域的剪貼法實(shí)現(xiàn)變速過(guò)程中的音調(diào)保持。

      2? 音調(diào)保持的軟件實(shí)現(xiàn)

      根據(jù)章節(jié)1.2對(duì)剪貼法的介紹,構(gòu)建軟件實(shí)現(xiàn)過(guò)程,如圖2所示。

      圖2所示的處理過(guò)程也可稱(chēng)為等間隔抽樣法,或直線等距抽樣法,即把總體所有單元排列成一條直線,設(shè)總體的單元數(shù)為N,所抽樣的樣本單元數(shù)為n,計(jì)算出系統(tǒng)抽樣的間隔k,其中k的計(jì)算公式為

      (1)

      如果N不能夠被n整除,就取k為最接近的整數(shù)(假設(shè)為L(zhǎng))。這實(shí)際就是把一條長(zhǎng)度為N的直線分成n條線段,每條線段包含有k個(gè)單元。抽樣時(shí),如圖3所示,先在第一條線段的1~k個(gè)單元中隨機(jī)抽取一個(gè)隨機(jī)數(shù)i,擇選第i單元作為第1個(gè)樣本單元,然后每隔L個(gè)單元抽取一個(gè)單元,這樣就一共抽取了n個(gè)樣本單元.

      這樣的規(guī)則使得初始樣本一旦確定,其他的樣本單元也就隨之確定了。另外,當(dāng)

      (2)

      成立時(shí),無(wú)論采用哪種方法,總體單元的入樣率都是1/k,即實(shí)現(xiàn)了等概率抽樣。

      總之,在剪貼法中可以用等概率抽樣的方法對(duì)音頻中的某一分段進(jìn)行重復(fù)或丟棄,從而達(dá)到變速不變調(diào)。

      2.1? 2倍速處理

      2倍速的處理對(duì)象為一段時(shí)長(zhǎng)為90 s的二胡樂(lè)曲片段,處理步驟如下。

      第一步:分幀處理,取N=90,因?yàn)闃?lè)曲時(shí)長(zhǎng)為90 s;

      第二步:取k=0.05,也就是將音頻按照每0.05 s進(jìn)行劃分;

      第三步:按照式(1)計(jì)算得出樣本單元數(shù),即n=N/k=90/0.05=1 800;

      第四步:重新分組,即把相鄰的每?jī)蓚€(gè)樣本單元不重復(fù)地分為一個(gè)大組,1 800個(gè)樣本單元由此變成了900個(gè)大組;

      第五步:丟棄后原序組合,即丟棄每一個(gè)大組中兩段音頻中的后一段,這樣每一大組的時(shí)間減少一半,再按照抽取前的順序,將每個(gè)大組保留的音頻再次組合起來(lái)。

      這樣得到的音頻片段,時(shí)間自然縮短了一半。由于只進(jìn)行了抽取,并未明顯改變音頻的頻率,因此音調(diào)也就不會(huì)發(fā)生大的改變。

      人耳由于具有自動(dòng)填充的功能,因此很難分辨等間隔出現(xiàn)的0.05 s的音頻缺失。

      2.2? 1/2倍速處理

      1/2倍速處理同樣使用剪貼法,但分幀后的重新組合與2倍速有所不同,下面是具體處理流程。

      第一步至第三步:方法和數(shù)據(jù)均同2倍速;

      第四步:復(fù)制插入后按原序組合,不同于2倍速的丟棄,1/2倍速分幀后的每一個(gè)樣本單元,都以自身為模板進(jìn)行復(fù)制,再將復(fù)制后的音頻片段直接接續(xù)組合到被復(fù)制的原音頻樣本之后,這樣得到的組合音頻的時(shí)間拉長(zhǎng)為原來(lái)的2倍。

      由于第四步只是對(duì)原有音頻片段進(jìn)行復(fù)制,故頻率不會(huì)有明顯變化,音調(diào)也會(huì)基本保持不變。

      如果要進(jìn)行更高倍速的快放和慢放,同樣可以使用剪貼法。只需記?。嚎旆艑?duì)應(yīng)分幀后丟棄,慢放則是分幀后重復(fù),至于如何分幀,則要視情況與需求的不同而定。

      這里還需要強(qiáng)調(diào)的是:時(shí)間劃分得過(guò)細(xì)或過(guò)粗都會(huì)影響最終的效果。時(shí)間劃分得過(guò)細(xì),間隔就會(huì)過(guò)多,拼接后產(chǎn)生基音斷裂的情況就會(huì)越多,這會(huì)經(jīng)常引起刺耳的噪音;反之,時(shí)間劃分得過(guò)粗,丟棄或重復(fù)的音頻片段過(guò)長(zhǎng),人耳無(wú)法進(jìn)行自動(dòng)填充,導(dǎo)致聽(tīng)到的音頻效果面目全非。k=0.05是經(jīng)過(guò)大量測(cè)試后優(yōu)選的較為合適的時(shí)間劃分值。

      3? 結(jié)果與討論

      3.1? 測(cè)試結(jié)果

      對(duì)于處理后音頻相比原音頻的變化,有三個(gè)方法可以鑒別:實(shí)際聽(tīng)覺(jué)評(píng)價(jià)、時(shí)域波形分析和頻域波形分析。本節(jié)列出了同一個(gè)音頻,在普通情況(即改變音頻速度變調(diào)的情況)和變速不變調(diào)情況下所產(chǎn)生的時(shí)域譜和頻域譜。

      當(dāng)以2倍速播放時(shí),原音頻、普通2倍速和不變調(diào)2倍速的時(shí)頻域波形及對(duì)比如圖4所示。

      從圖4a~4c的時(shí)域波形可以清楚地看到:時(shí)長(zhǎng)為90 s的原音頻經(jīng)過(guò)普通2倍速和不變調(diào)2倍速的處理后,時(shí)間均變?yōu)?5 s,達(dá)到了2倍速的目的。

      為了更加明顯地觀察音頻處理后的變化,將三個(gè)音頻的頻域波形綜合在一起,如圖4d所示。可以很明顯地看出,原音頻和變速不變調(diào)的2倍速音頻的頻率全部集中在3 kHz以?xún)?nèi);而經(jīng)過(guò)普通2倍速的處理以后,一部分能量出現(xiàn)在5.5 kHz左右,增加了約2.5 kHz(近一倍),同時(shí)在3 kHz附近出現(xiàn)了一個(gè)比較明顯的頻率分量,這些都使音調(diào)變得尖銳刺耳在情理之中了。對(duì)比原音頻和不變調(diào)2倍速的頻譜,二者近似程度更高,盡管也不可避免地產(chǎn)生了一些音調(diào)的變化,但已基本能滿(mǎn)足變速不變調(diào)的要求。

      1/2倍速處理的情況與2倍速類(lèi)似,只是音頻時(shí)間由原來(lái)的90 s變?yōu)?80 s。限于篇幅,僅給出頻域的對(duì)比圖,如圖5所示。不難看出,原音頻頻率主要集中在3 kHz以?xún)?nèi),而普通1/2倍速音頻的頻率范圍卻少了約一半,主要集中在1 kHz~1.5 kHz之間;同時(shí),普通1/2倍速音頻在100 Hz以?xún)?nèi)出現(xiàn)了2個(gè)比較明顯的頻率分量,這就使得聲音聽(tīng)起來(lái)顯得更慢且低沉,音調(diào)變化明顯。而經(jīng)過(guò)不變調(diào)處理后的音頻,依舊保持著與原音頻相近的頻率,失真有限,聲音聽(tīng)上去只是速度變慢而已。

      3.2? 討論與引申

      由章節(jié)3.1展示的結(jié)果可知,利用時(shí)域剪貼法進(jìn)行2倍速和1/2倍速處理,基本實(shí)現(xiàn)了音調(diào)保持的目的。如果要進(jìn)一步實(shí)現(xiàn)4倍速或1/4倍速處理,也可以用同樣的方法直接實(shí)現(xiàn),或者連續(xù)調(diào)用2次2倍速或1/2倍速的處理程序。這種方法的優(yōu)點(diǎn)是實(shí)現(xiàn)步驟少,實(shí)現(xiàn)成本低,且易于在硬件平臺(tái)上集成,適用于對(duì)產(chǎn)品成本敏感且對(duì)音頻處理質(zhì)量要求不是很高的場(chǎng)合。

      但是,如果繼續(xù)以時(shí)域剪貼法進(jìn)行更高或更低倍速下的音調(diào)保持處理,音頻中信息的損失也會(huì)隨之加大,這時(shí)可以結(jié)合使用同步波形疊加法或其他更為復(fù)雜的改進(jìn)處理方法。

      當(dāng)然,音調(diào)保持只是音效處理的情景之一,后續(xù)還可以進(jìn)一步探索在放慢或加速樂(lè)曲時(shí),保持相對(duì)強(qiáng)弱、頻率和音色等特征不變的處理算法。

      4? 結(jié)束語(yǔ)

      對(duì)于學(xué)習(xí)樂(lè)器或聲樂(lè)的人,通過(guò)樂(lè)器輔助學(xué)習(xí)器,隨時(shí)能得到一份學(xué)習(xí)者能理解的練習(xí)效果評(píng)估明細(xì)單,對(duì)提高學(xué)習(xí)效果和質(zhì)量都大有裨益。

      但是,如何對(duì)音效及其處理結(jié)果進(jìn)行量化和精確評(píng)價(jià),是很有挑戰(zhàn)性的工作。目前的評(píng)價(jià)體系還是以質(zhì)化為主,結(jié)論依賴(lài)人的實(shí)際感受,容易受到測(cè)試者的生理、心理還有環(huán)境等的影響,不僅費(fèi)時(shí)費(fèi)力,也很難保證客觀和公正。后續(xù)研究可以在這方面努力突破。

      基金項(xiàng)目:

      2020年北京市級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目

      參考文獻(xiàn)

      [1] 周俊, 陳硯圃, 譚薇, 等. 語(yǔ)音時(shí)長(zhǎng)規(guī)整SOLA算法的最佳參數(shù)選擇[J]. 微電子學(xué)與計(jì)算機(jī), 2007(24): 54-58, 62.

      [2] 鄭展恒, 曾慶寧. 語(yǔ)音增算法的研究與改進(jìn)[J]. 現(xiàn)代電子技術(shù), 2020(43): 27-30.

      [3] MOULINES E, LAROCHE J. Non-parametric technique for pitch-scale and time-scale modification of speech[J]. Speech Communication, 1995, 16(2): 175-205.

      [4] LAELOR B, FAGAM A D. A novel high quality efficient algorithm for time-scale modification of speech[C]// Proc of the 6th European Conference on Speech Communication and Technology, Budapest, Hungary, 1999: 231-235.

      [5] 楊洪柏, 陳蕾蕾, 李戰(zhàn)偉. 基于短時(shí)傅里葉變換的音頻變速算法及其DSP實(shí)現(xiàn)[J]. 微型機(jī)與應(yīng)用, 2013(16): 42-44, 47.

      [6] 郭華帥, 王暉, 李傳珍. 音頻原聲變速軟件的設(shè)計(jì)與應(yīng)用[J]. 廣播與電視技術(shù), 2008(1): 51-54.

      [7] 劉剛, 張琴珠. 語(yǔ)音變速不變調(diào)軟體化處理方法[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2005(7): 47-48, 96.

      [8] 楊波, 傅汝林, 張知易. 一種改進(jìn)的客觀音質(zhì)評(píng)價(jià)方法[J]. 成都理工大學(xué)學(xué)報(bào)(自然科學(xué)版), 2004, 31(1): 108-110.

      [9] 胡冰心. 錄音設(shè)備音質(zhì)評(píng)價(jià)系統(tǒng)的研究[D]. 北京: 北京化工大學(xué), 2015.

      作者簡(jiǎn)介:

      靳思雨(1998—),通信作者,女,漢族,北京人,碩士在讀。研究方向:信號(hào)處理。

      E-mail: 497817035@qq.com

      (收稿日期:2020-11-16)

      临沭县| 竹山县| 墨竹工卡县| 利辛县| 南康市| 同仁县| 田林县| 邮箱| 德令哈市| 隆回县| 康定县| 巴彦淖尔市| 绥中县| 保靖县| 青海省| 莆田市| 新津县| 互助| 洮南市| 普格县| 布拖县| 甘洛县| 万州区| 兰溪市| 龙里县| 汤原县| 丰原市| 淮北市| 广东省| 崇左市| 扎鲁特旗| 洪泽县| 垣曲县| 长顺县| 五寨县| 筠连县| 江西省| 扶余县| 广宁县| 泊头市| 黑水县|