樂(lè)器輔助學(xué)習(xí)器音調(diào)保持算法的設(shè)計(jì)與實(shí)現(xiàn)

2020-01-11 01:07靳思雨韓宇龍吳秉坤苗洪睿黨柳邵淑穎宗天禹

工業(yè)技術(shù)創(chuàng)新 2020年6期

靳思雨韓宇龍吳秉坤苗洪睿黨柳邵淑穎宗天禹

摘? ?要：多普勒效應(yīng)的存在，使得音頻在加速或減速播放時(shí)，音調(diào)變得尖銳或低沉，無(wú)法滿(mǎn)足很多場(chǎng)景的應(yīng)用需求。以樂(lè)器輔助學(xué)習(xí)器為研究對(duì)象，兼顧考慮軟件復(fù)雜程度和硬件實(shí)現(xiàn)成本，優(yōu)選時(shí)間域的剪貼法，設(shè)計(jì)2倍速和1/2倍速下的音調(diào)保持算法;以有限時(shí)長(zhǎng)二胡樂(lè)曲為例，采用改變音頻速度時(shí)變調(diào)的普通算法和音調(diào)保持算法進(jìn)行音頻處理，并對(duì)處理結(jié)果進(jìn)行對(duì)比分析。研究發(fā)現(xiàn)，普通算法2倍速（或1/2倍速）處理得到的音頻頻率范圍明顯拓寬（或收窄），同時(shí)在原始頻率范圍內(nèi)的高頻（或低頻）段出現(xiàn)了1～2個(gè)顯著的頻率分量，為音調(diào)變尖銳（或低沉）提供了理論證據(jù)。音調(diào)保持算法基本達(dá)到了預(yù)期效果，實(shí)現(xiàn)了“變速不變調(diào)”，并且處理步驟簡(jiǎn)單、易于硬件集成，為樂(lè)器輔助學(xué)習(xí)器等產(chǎn)品的音效處理模塊提供了開(kāi)發(fā)思路。

關(guān)鍵詞：音調(diào)保持算法;多普勒效應(yīng);樂(lè)器輔助學(xué)習(xí)器;時(shí)間域;剪貼法;變速不變調(diào)

中圖分類(lèi)號(hào)：TN912? ? 文獻(xiàn)標(biāo)識(shí)碼：A? ? 文章編號(hào)：2095-8412 （2020） 06-121-06

工業(yè)技術(shù)創(chuàng)新 URL： http：//gyjs.cbpt.cnki.net? ? DOI： 10.14103/j.issn.2095-8412.2020.06.022

引言

在播放音頻時(shí)，我們常有這樣的遭遇：如果加快播放速度，聲音的音調(diào)就會(huì)變得尖銳刺耳;相反，如果降低播放速度，聲音的音調(diào)就會(huì)變得粗而低沉。這是由多普勒效應(yīng)造成的，該效應(yīng)在醫(yī)學(xué)、交通和航天等領(lǐng)域同樣普遍存在。但是，該效應(yīng)在很多應(yīng)用場(chǎng)景中并不受到期待，人們往往希望聲音在播放速度發(fā)生改變后，音調(diào)仍然保持原樣。比如樂(lè)器的初學(xué)者往往希望將一些優(yōu)秀曲目的音頻放慢到幾分之一倍速，以方便聆聽(tīng)和模仿，或者將自己演奏的音頻錄下來(lái)慢速播放，以便發(fā)現(xiàn)演奏過(guò)程中存在的問(wèn)題;再比如外語(yǔ)學(xué)習(xí)者在練習(xí)聽(tīng)力時(shí)，也許希望減慢或加快聽(tīng)力資料的播放，以適應(yīng)自身的學(xué)習(xí)狀況等。在這些應(yīng)用場(chǎng)景下，如果聲音的音調(diào)發(fā)生扭曲，就會(huì)嚴(yán)重影響聲音聆聽(tīng)者的體驗(yàn)。

在音調(diào)規(guī)整方面，早期的研究論文大多關(guān)注算法模型的改進(jìn)和參數(shù)的選擇等，而現(xiàn)在的大量研究則聚焦于語(yǔ)音增強(qiáng)[1-2]。這些研究往往并不針對(duì)特定的應(yīng)用場(chǎng)景，不具針對(duì)性。本文旨在專(zhuān)門(mén)對(duì)樂(lè)器輔助學(xué)習(xí)器的音調(diào)保持功能進(jìn)行研究。這是因?yàn)殡S著人們生活質(zhì)量的提高，人們對(duì)樂(lè)器學(xué)習(xí)的需求和要求也越來(lái)越高，樂(lè)器輔助學(xué)習(xí)器作為輔助學(xué)習(xí)樂(lè)器的工具，在將音頻加速或減速播放時(shí)保持音調(diào)不變，是其應(yīng)具有的基礎(chǔ)且重要的功能之一。為樂(lè)器輔助學(xué)習(xí)器設(shè)計(jì)音調(diào)保持算法，初衷就是要“變速不變調(diào)”，提升樂(lè)器初學(xué)者的學(xué)習(xí)體驗(yàn)，解決音調(diào)扭曲帶來(lái)的產(chǎn)品痛點(diǎn)。

1? 基本原理與算法比選

1.1? 音調(diào)變化的基本原理

音調(diào)是人類(lèi)相對(duì)主觀的一種感受。聲音中的基頻決定了音調(diào)的高低，頻率越高，音調(diào)就會(huì)越高;頻率降低，音調(diào)就會(huì)變得更加厚重。諧波分布決定了音樂(lè)的音色，而單位時(shí)間內(nèi)的節(jié)拍數(shù)決定了音樂(lè)的快慢。所以，聲音的“速”和“調(diào)”是兩個(gè)不同的概念。變速不變調(diào)就是指改變播放速度的大小，同時(shí)保持基頻不變。但二者不是相互獨(dú)立的，一方的改變會(huì)影響另一方，不能完全割裂開(kāi)來(lái)。

音頻的音調(diào)保持技術(shù)是一種時(shí)域修正技術(shù)，即在保證音頻中音調(diào)、音色等特征不改變的情況下，對(duì)播放時(shí)長(zhǎng)進(jìn)行伸縮。

1.2? 音調(diào)保持的常見(jiàn)算法

音調(diào)保持算法有三大類(lèi)：時(shí)域法、頻域法、參量法。

剪貼法和同步波形疊加法是時(shí)域法中兩種最常用的方法。

剪貼法是時(shí)域法中最為基礎(chǔ)的一種方式。首先將音樂(lè)劃分為若干連續(xù)不重疊的幀，然后重復(fù)這些幀，使得播放速度變慢;或舍棄一些幀，讓播放速度變快。這種方法原理和操作都很簡(jiǎn)單，但在疊加或舍棄幀時(shí)會(huì)導(dǎo)致相鄰兩幀之間波形不連續(xù)，即使得基音發(fā)生斷裂，音頻質(zhì)量變差。

為減輕基音斷裂現(xiàn)象，Roucos等提出了同步波形疊加法（SOLA）[3-8]。如圖1所示，該算法有分解、合成兩階段。分解階段對(duì)原始信號(hào)進(jìn)行分幀，在分幀的同時(shí)進(jìn)行加窗平滑處理。合成階段又分成兩步：第一步，確定初步合成重疊距離。在保證第1幀不變的前提下，移動(dòng)之后的各幀，調(diào)整相鄰兩幀的距離為Ss。第二步，確定最終合成幀的起始位置。在已合成的第m幀第Ss個(gè)采樣點(diǎn)的某個(gè)鄰域[-Kmax， Kmax]內(nèi)，移動(dòng)搜索與分解階段第m幀信號(hào)的波形相關(guān)性最大的位置Km。因?yàn)槠渑c疊加部分波形最為相似，因此也就減小了基音斷裂，但由于不能精確控制音頻處理以后的時(shí)間，故容易造成音頻的疊加。

頻域法可以基于短時(shí)傅里葉變換原理，利用最小均方誤差原則，通過(guò)在時(shí)域?qū)ふ乙粋€(gè)最為靠近理想變速信號(hào)頻譜的短時(shí)傅里葉變換幅度譜，實(shí)現(xiàn)變速不變調(diào)。

參量法需要首先對(duì)語(yǔ)音信號(hào)建立模型，然后根據(jù)需要修改模型的參數(shù)。相位聲碼器通過(guò)帶通濾波器將語(yǔ)音分解成無(wú)數(shù)個(gè)正弦信號(hào)，然后對(duì)幅度和相位進(jìn)行時(shí)域壓擴(kuò)，再合成之，從而實(shí)現(xiàn)變速不變調(diào)。

考慮到軟件復(fù)雜程度和硬件實(shí)現(xiàn)成本，本文采用時(shí)間域的剪貼法實(shí)現(xiàn)變速過(guò)程中的音調(diào)保持。

2? 音調(diào)保持的軟件實(shí)現(xiàn)

根據(jù)章節(jié)1.2對(duì)剪貼法的介紹，構(gòu)建軟件實(shí)現(xiàn)過(guò)程，如圖2所示。

圖2所示的處理過(guò)程也可稱(chēng)為等間隔抽樣法，或直線等距抽樣法，即把總體所有單元排列成一條直線，設(shè)總體的單元數(shù)為N，所抽樣的樣本單元數(shù)為n，計(jì)算出系統(tǒng)抽樣的間隔k，其中k的計(jì)算公式為

（1）

如果N不能夠被n整除，就取k為最接近的整數(shù)（假設(shè)為L(zhǎng)）。這實(shí)際就是把一條長(zhǎng)度為N的直線分成n條線段，每條線段包含有k個(gè)單元。抽樣時(shí)，如圖3所示，先在第一條線段的1～k個(gè)單元中隨機(jī)抽取一個(gè)隨機(jī)數(shù)i，擇選第i單元作為第1個(gè)樣本單元，然后每隔L個(gè)單元抽取一個(gè)單元，這樣就一共抽取了n個(gè)樣本單元.

這樣的規(guī)則使得初始樣本一旦確定，其他的樣本單元也就隨之確定了。另外，當(dāng)

（2）

成立時(shí)，無(wú)論采用哪種方法，總體單元的入樣率都是1/k，即實(shí)現(xiàn)了等概率抽樣。

總之，在剪貼法中可以用等概率抽樣的方法對(duì)音頻中的某一分段進(jìn)行重復(fù)或丟棄，從而達(dá)到變速不變調(diào)。

2.1? 2倍速處理

2倍速的處理對(duì)象為一段時(shí)長(zhǎng)為90 s的二胡樂(lè)曲片段，處理步驟如下。

第一步：分幀處理，取N=90，因?yàn)闃?lè)曲時(shí)長(zhǎng)為90 s;

第二步：取k=0.05，也就是將音頻按照每0.05 s進(jìn)行劃分;

第三步：按照式（1）計(jì)算得出樣本單元數(shù)，即n=N/k=90/0.05=1 800;

第四步：重新分組，即把相鄰的每?jī)蓚€(gè)樣本單元不重復(fù)地分為一個(gè)大組，1 800個(gè)樣本單元由此變成了900個(gè)大組;

第五步：丟棄后原序組合，即丟棄每一個(gè)大組中兩段音頻中的后一段，這樣每一大組的時(shí)間減少一半，再按照抽取前的順序，將每個(gè)大組保留的音頻再次組合起來(lái)。

這樣得到的音頻片段，時(shí)間自然縮短了一半。由于只進(jìn)行了抽取，并未明顯改變音頻的頻率，因此音調(diào)也就不會(huì)發(fā)生大的改變。

人耳由于具有自動(dòng)填充的功能，因此很難分辨等間隔出現(xiàn)的0.05 s的音頻缺失。

2.2? 1/2倍速處理

1/2倍速處理同樣使用剪貼法，但分幀后的重新組合與2倍速有所不同，下面是具體處理流程。

第一步至第三步：方法和數(shù)據(jù)均同2倍速;

第四步：復(fù)制插入后按原序組合，不同于2倍速的丟棄，1/2倍速分幀后的每一個(gè)樣本單元，都以自身為模板進(jìn)行復(fù)制，再將復(fù)制后的音頻片段直接接續(xù)組合到被復(fù)制的原音頻樣本之后，這樣得到的組合音頻的時(shí)間拉長(zhǎng)為原來(lái)的2倍。

由于第四步只是對(duì)原有音頻片段進(jìn)行復(fù)制，故頻率不會(huì)有明顯變化，音調(diào)也會(huì)基本保持不變。

如果要進(jìn)行更高倍速的快放和慢放，同樣可以使用剪貼法。只需記?。嚎旆艑?duì)應(yīng)分幀后丟棄，慢放則是分幀后重復(fù)，至于如何分幀，則要視情況與需求的不同而定。

這里還需要強(qiáng)調(diào)的是：時(shí)間劃分得過(guò)細(xì)或過(guò)粗都會(huì)影響最終的效果。時(shí)間劃分得過(guò)細(xì)，間隔就會(huì)過(guò)多，拼接后產(chǎn)生基音斷裂的情況就會(huì)越多，這會(huì)經(jīng)常引起刺耳的噪音;反之，時(shí)間劃分得過(guò)粗，丟棄或重復(fù)的音頻片段過(guò)長(zhǎng)，人耳無(wú)法進(jìn)行自動(dòng)填充，導(dǎo)致聽(tīng)到的音頻效果面目全非。k=0.05是經(jīng)過(guò)大量測(cè)試后優(yōu)選的較為合適的時(shí)間劃分值。

3? 結(jié)果與討論

3.1? 測(cè)試結(jié)果

對(duì)于處理后音頻相比原音頻的變化，有三個(gè)方法可以鑒別：實(shí)際聽(tīng)覺(jué)評(píng)價(jià)、時(shí)域波形分析和頻域波形分析。本節(jié)列出了同一個(gè)音頻，在普通情況（即改變音頻速度變調(diào)的情況）和變速不變調(diào)情況下所產(chǎn)生的時(shí)域譜和頻域譜。

當(dāng)以2倍速播放時(shí)，原音頻、普通2倍速和不變調(diào)2倍速的時(shí)頻域波形及對(duì)比如圖4所示。

從圖4a～4c的時(shí)域波形可以清楚地看到：時(shí)長(zhǎng)為90 s的原音頻經(jīng)過(guò)普通2倍速和不變調(diào)2倍速的處理后，時(shí)間均變?yōu)?5 s，達(dá)到了2倍速的目的。

為了更加明顯地觀察音頻處理后的變化，將三個(gè)音頻的頻域波形綜合在一起，如圖4d所示。可以很明顯地看出，原音頻和變速不變調(diào)的2倍速音頻的頻率全部集中在3 kHz以?xún)?nèi);而經(jīng)過(guò)普通2倍速的處理以后，一部分能量出現(xiàn)在5.5 kHz左右，增加了約2.5 kHz（近一倍），同時(shí)在3 kHz附近出現(xiàn)了一個(gè)比較明顯的頻率分量，這些都使音調(diào)變得尖銳刺耳在情理之中了。對(duì)比原音頻和不變調(diào)2倍速的頻譜，二者近似程度更高，盡管也不可避免地產(chǎn)生了一些音調(diào)的變化，但已基本能滿(mǎn)足變速不變調(diào)的要求。

1/2倍速處理的情況與2倍速類(lèi)似，只是音頻時(shí)間由原來(lái)的90 s變?yōu)?80 s。限于篇幅，僅給出頻域的對(duì)比圖，如圖5所示。不難看出，原音頻頻率主要集中在3 kHz以?xún)?nèi)，而普通1/2倍速音頻的頻率范圍卻少了約一半，主要集中在1 kHz～1.5 kHz之間;同時(shí)，普通1/2倍速音頻在100 Hz以?xún)?nèi)出現(xiàn)了2個(gè)比較明顯的頻率分量，這就使得聲音聽(tīng)起來(lái)顯得更慢且低沉，音調(diào)變化明顯。而經(jīng)過(guò)不變調(diào)處理后的音頻，依舊保持著與原音頻相近的頻率，失真有限，聲音聽(tīng)上去只是速度變慢而已。

3.2? 討論與引申

由章節(jié)3.1展示的結(jié)果可知，利用時(shí)域剪貼法進(jìn)行2倍速和1/2倍速處理，基本實(shí)現(xiàn)了音調(diào)保持的目的。如果要進(jìn)一步實(shí)現(xiàn)4倍速或1/4倍速處理，也可以用同樣的方法直接實(shí)現(xiàn)，或者連續(xù)調(diào)用2次2倍速或1/2倍速的處理程序。這種方法的優(yōu)點(diǎn)是實(shí)現(xiàn)步驟少，實(shí)現(xiàn)成本低，且易于在硬件平臺(tái)上集成，適用于對(duì)產(chǎn)品成本敏感且對(duì)音頻處理質(zhì)量要求不是很高的場(chǎng)合。

但是，如果繼續(xù)以時(shí)域剪貼法進(jìn)行更高或更低倍速下的音調(diào)保持處理，音頻中信息的損失也會(huì)隨之加大，這時(shí)可以結(jié)合使用同步波形疊加法或其他更為復(fù)雜的改進(jìn)處理方法。

當(dāng)然，音調(diào)保持只是音效處理的情景之一，后續(xù)還可以進(jìn)一步探索在放慢或加速樂(lè)曲時(shí)，保持相對(duì)強(qiáng)弱、頻率和音色等特征不變的處理算法。

4? 結(jié)束語(yǔ)

對(duì)于學(xué)習(xí)樂(lè)器或聲樂(lè)的人，通過(guò)樂(lè)器輔助學(xué)習(xí)器，隨時(shí)能得到一份學(xué)習(xí)者能理解的練習(xí)效果評(píng)估明細(xì)單，對(duì)提高學(xué)習(xí)效果和質(zhì)量都大有裨益。

但是，如何對(duì)音效及其處理結(jié)果進(jìn)行量化和精確評(píng)價(jià)，是很有挑戰(zhàn)性的工作。目前的評(píng)價(jià)體系還是以質(zhì)化為主，結(jié)論依賴(lài)人的實(shí)際感受，容易受到測(cè)試者的生理、心理還有環(huán)境等的影響，不僅費(fèi)時(shí)費(fèi)力，也很難保證客觀和公正。后續(xù)研究可以在這方面努力突破。

基金項(xiàng)目：

2020年北京市級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目

參考文獻(xiàn)

[1] 周俊，陳硯圃，譚薇，等. 語(yǔ)音時(shí)長(zhǎng)規(guī)整SOLA算法的最佳參數(shù)選擇[J]. 微電子學(xué)與計(jì)算機(jī)， 2007（24）： 54-58， 62.

[2] 鄭展恒，曾慶寧. 語(yǔ)音增算法的研究與改進(jìn)[J]. 現(xiàn)代電子技術(shù)， 2020（43）： 27-30.

[3] MOULINES E， LAROCHE J. Non-parametric technique for pitch-scale and time-scale modification of speech[J]. Speech Communication， 1995， 16（2）： 175-205.

[4] LAELOR B， FAGAM A D. A novel high quality efficient algorithm for time-scale modification of speech[C]// Proc of the 6th European Conference on Speech Communication and Technology， Budapest， Hungary， 1999： 231-235.

[5] 楊洪柏，陳蕾蕾，李戰(zhàn)偉. 基于短時(shí)傅里葉變換的音頻變速算法及其DSP實(shí)現(xiàn)[J]. 微型機(jī)與應(yīng)用， 2013（16）： 42-44， 47.

[6] 郭華帥，王暉，李傳珍. 音頻原聲變速軟件的設(shè)計(jì)與應(yīng)用[J]. 廣播與電視技術(shù)， 2008（1）： 51-54.

[7] 劉剛，張琴珠. 語(yǔ)音變速不變調(diào)軟體化處理方法[J]. 計(jì)算機(jī)應(yīng)用與軟件， 2005（7）： 47-48， 96.

[8] 楊波，傅汝林，張知易. 一種改進(jìn)的客觀音質(zhì)評(píng)價(jià)方法[J]. 成都理工大學(xué)學(xué)報(bào)（自然科學(xué)版）， 2004， 31（1）： 108-110.

[9] 胡冰心. 錄音設(shè)備音質(zhì)評(píng)價(jià)系統(tǒng)的研究[D]. 北京：北京化工大學(xué)， 2015.

作者簡(jiǎn)介：

靳思雨（1998—），通信作者，女，漢族，北京人，碩士在讀。研究方向：信號(hào)處理。

E-mail： 497817035@qq.com

（收稿日期：2020-11-16）

工業(yè)技術(shù)創(chuàng)新2020年6期

工業(yè)技術(shù)創(chuàng)新的其它文章: 纖維鋅礦Cu2ZnSnS4納米晶的微波法制備與性能研究; 玻纖含量對(duì)玻纖增強(qiáng)尼龍66復(fù)合材料性能的影響; 用于行星齒輪支架加工的核心零件智能生產(chǎn)線; 船用發(fā)動(dòng)機(jī)V型缸體精鏜孔組合機(jī)床研制; CPC1600閥控充液型液力偶合器研發(fā)及應(yīng)用; 球面管接頭零件快換工裝設(shè)計(jì)與應(yīng)用

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

樂(lè)器輔助學(xué)習(xí)器音調(diào)保持算法的設(shè)計(jì)與實(shí)現(xiàn)