基于矢量量化生成對抗網(wǎng)絡(luò)的老電影音頻增強(qiáng)算法研究

2022-04-19 02:34:16王雨田

現(xiàn)代電影技術(shù) 2022年4期

王童王雨田王暉張勤

(中國傳媒大學(xué)媒介音視頻教育部重點(diǎn)實(shí)驗室，北京 100024)

1 引言

隨著科技手段的進(jìn)步，電影錄音設(shè)備和錄音工藝在不斷改進(jìn)，從最早的無聲電影到光學(xué)錄音，再到如今廣泛使用的數(shù)字錄音，電影音質(zhì)越來越清晰，觀眾獲得的聽感也越來越舒適。雖然運(yùn)用的感光膠片作為聲音存放媒介的時代已經(jīng)終結(jié)，但是這些老電影具有其特殊的歷史價值，記錄了膠片電影時代影視工作者珍貴的勞動成果和智慧，是值得被好好保護(hù)和留存的。由于受到當(dāng)時錄音手段和存放條件的限制，這一時期的老電影音頻出現(xiàn)了嚴(yán)重的背景噪聲。因此如何對這些受到噪聲 “污染”的老電影音頻進(jìn)行修復(fù)，讓這些老電影煥然新生成為了值得關(guān)注的問題。

1930年至1950年間，我國各大電影制片廠使用的錄音設(shè)備都是光學(xué)錄音機(jī)。其錄音方法是將聲音轉(zhuǎn)變?yōu)楣庑盘枺偈褂酶泄饽z片作為媒介記錄聲音。受到錄音設(shè)備和錄音原理的限制，使用光學(xué)錄音機(jī)在記錄聲音時本身就會產(chǎn)生細(xì)小的片面噪聲，影響語音質(zhì)量。另外，感光膠片對存放條件的要求也很苛刻，如果存放不當(dāng)，使得膠片上出現(xiàn)霉斑、污漬、劃痕、手印等痕跡，就會對音頻產(chǎn)生損傷，致使還音時出現(xiàn)噪聲。

目前對老電影的音頻修復(fù)主要依賴于人工，使用iZotope和DE-Noise等插件進(jìn)行聲音的數(shù)字化修復(fù)。數(shù)字化修復(fù)需要培養(yǎng)專門的修復(fù)人員，使用特定軟件一幀一幀手動降噪，對修復(fù)人員的專業(yè)素質(zhì)要求很高，而且修復(fù)時間很長。一段90分鐘的電影音頻，從還音到修復(fù)平均需要約20天的時間，這使得老電影音頻的修復(fù)效率難以提高。隨著人工智能的發(fā)展，將深度學(xué)習(xí)的方法引入到膠片數(shù)字化修復(fù)當(dāng)中，為老電影音頻修復(fù)提供了新的思路。該方法通過訓(xùn)練網(wǎng)絡(luò)來達(dá)到降噪的目的，可以大大減少人力，提高修復(fù)效率。

本文將一個基于深度學(xué)習(xí)的語音增強(qiáng)網(wǎng)絡(luò)SEGAN應(yīng)用到了老電影音頻降噪當(dāng)中。該模型是一個端到端的網(wǎng)絡(luò)，在網(wǎng)絡(luò)訓(xùn)練前不需要再對音頻做變換處理，能夠盡最大可能重構(gòu)音頻的幅度和相位信息，保留老電影音頻特點(diǎn)，降低對人工的依賴，使老電影音頻降噪自動化成為可能。但該模型存在以下兩個問題:(1)判別器性能過于強(qiáng)大，易導(dǎo)致生成器失去生成方向；(2)生成器的損失函數(shù)只包含時域損失，不適用于寬帶噪聲、脈沖型噪聲和交流電聲等老電影音頻中普遍存在的噪聲。因此本文針對該模型的問題提出了兩點(diǎn)改進(jìn)舉措:(1)在判別器中加入矢量量化層，用來減少信息冗余，削弱判別器性能，提高判別器和生成器的性能匹配程度；(2)在生成器的損失函數(shù)中加入頻域損失，使生成器生成的增強(qiáng)音頻不但在時域上能更接近干凈音頻，在頻域上也可以更加相似。結(jié)果表明，本文所提出的方法能夠進(jìn)一步提高老電影音頻的降噪效果，語音質(zhì)量感知評估PESQ 和可懂度評價STOI分別提高了0.18和0.05。

2 國內(nèi)外研究現(xiàn)狀

目前，針對老電影音頻存在的各類噪聲，國內(nèi)外都沒有一個很好的以不破壞原本音質(zhì)為前提，盡可能去除雜音的解決辦法。當(dāng)前主流的方法還是采用人工修復(fù)，先使用光學(xué)還音機(jī)將感光膠片轉(zhuǎn)換為數(shù)字聲音格式，再使用軟件修復(fù)插件對噪聲進(jìn)行去除。該方法一方面需要培養(yǎng)專業(yè)的修復(fù)人員，修復(fù)周期長，無法大批量操作；另一方面，這些軟件的核心算法大多采用傳統(tǒng)的語音增強(qiáng)方法，比如譜減法和維納濾波法等，存在一定的局限性。譜減法假定加性噪聲與語音相互獨(dú)立，即從帶噪語音的功率譜中減去噪聲功率譜來進(jìn)行語音降噪。但是使用譜減法進(jìn)行降噪時會產(chǎn)生明顯的 “音樂噪聲”。維納濾波法則是通過帶噪語音確定濾波器的沖激響應(yīng)，將帶噪語音經(jīng)過該濾波器后得到干凈語音。以上這些插件中所使用的方法在降噪時需要手動進(jìn)行參數(shù)設(shè)置，而且針對不同類型的噪聲還需要使用不同的操作方法，對于人工的依賴程度很大，費(fèi)時費(fèi)力，無法滿足海量修復(fù)的需求。

為了能夠?qū)崿F(xiàn)自動且快速的修復(fù)，有學(xué)者提出使用非負(fù)矩陣分解的方法來進(jìn)行老電影音頻的降噪。這種方法將帶噪音頻視為非帶噪語音和噪聲相加后的結(jié)果，將語音增強(qiáng)問題轉(zhuǎn)換為盲源分離問題，即從帶噪音頻中分別提取出干凈語音信號和噪聲。通過建立老電影音頻噪聲庫，提取噪聲的先驗特征，再利用非負(fù)矩陣分解，將噪聲從老電影音頻中提取出來。這種方法相比于人工修復(fù)能夠節(jié)省部分時間，減少人工干預(yù)，但是由于很難從現(xiàn)有的老電影中獲取大量的純粹噪聲片段，其降噪效果受到了很大的限制。

近十幾年來，深度學(xué)習(xí)發(fā)展迅速，眾多學(xué)者都在語音增強(qiáng)方面進(jìn)行了大量的研究工作，為語音降噪提供了新的思路和方法。將其應(yīng)用在老電影音頻修復(fù)當(dāng)中，或?qū)?shí)現(xiàn)海量電影的自動修復(fù)。

基于深度學(xué)習(xí)的語音增強(qiáng)方法大致可以分為兩類:其中一類是基于時頻掩蔽的方法，另一類則是基于特征映射的方法。基于時頻掩蔽的語音增強(qiáng)算法利用神經(jīng)網(wǎng)絡(luò)來判斷帶噪語音的每一個時頻點(diǎn)是由語音主導(dǎo)還是由噪聲主導(dǎo)，若是由語音主導(dǎo)則保留，若是由噪聲主導(dǎo)則去除。2012年Wang首次提出了理想二值掩蔽 (Ideal Binary Mask，IBM)和理想浮值掩蔽 (Ideal Ratio Mask，IRM)，將語音增強(qiáng)問題轉(zhuǎn)化為時頻單元的分類問題。基于特征映射的方法則是將帶噪語音的特征直接映射為相應(yīng)的干凈語音特征。這類方法使用大量的帶噪語音及其配對的干凈語音進(jìn)行訓(xùn)練，使網(wǎng)絡(luò)學(xué)習(xí)到帶噪語音和干凈語音的映射關(guān)系，從而達(dá)到降噪的目的。

本文將一個基于時域特征映射的語音增強(qiáng)模型SEGAN 應(yīng)用到了老電影音頻修復(fù)當(dāng)中，并針對老電影音頻存在的噪聲類型對模型進(jìn)行了改進(jìn)，提高了增強(qiáng)效果。在使用該模型進(jìn)行修復(fù)時，不需要人工設(shè)置參數(shù)，增加了其修復(fù)海量音頻的可行性；也不用像論文[9]中使用的非負(fù)矩陣分解的方法一樣，需要提前獲取大量的老電影噪聲片段，為網(wǎng)絡(luò)訓(xùn)練建立專門的老電影音頻數(shù)據(jù)庫，因此更具有普遍性。

3 基于生成對抗網(wǎng)絡(luò)的老電影音頻增強(qiáng)方法

本章節(jié)詳細(xì)描述了基于矢量量化生成對抗網(wǎng)絡(luò)的老電影音頻增強(qiáng)方法，主要分為以下兩個部分進(jìn)行闡述:第一部分簡述了SEGAN 的網(wǎng)絡(luò)結(jié)構(gòu)，并分析了該模型存在的一些問題；第二部分針對其問題提出了相應(yīng)的改進(jìn)方法。

3.1 SEGAN 生成對抗網(wǎng)絡(luò)

SEGAN (Speech Enhancement Generative Adversarial Network)是一個采用生成對抗網(wǎng)絡(luò)GAN來進(jìn)行端到端語音增強(qiáng)的經(jīng)典模型。該模型利用生成器G 和判別器D 之間的博弈對音頻進(jìn)行降噪處理。生成器用來生成降噪后的音頻，判別器將生成器生成的音頻判別為假，將真實(shí)的干凈音頻判別為真。SEGAN 采用對抗訓(xùn)練的方式進(jìn)行學(xué)習(xí)。首先，生成器先生成一段音頻交給判別器，判別器評判該音頻為真的概率，也就是告訴生成器該音頻與干凈音頻的相似程度。接著，生成器根據(jù)反饋調(diào)整自己的網(wǎng)絡(luò)參數(shù)，生成新的音頻送入判別器。如此循環(huán)往復(fù)，直到生成器生成的樣本可以 “欺騙”過判別器，二者達(dá)到納什平衡。

雖然將SEGAN 模型應(yīng)用在老電影音頻降噪中，能夠在一定程度上解決噪聲污染的問題，但是該模型存在以下兩個問題。

(1)判別器性能過于強(qiáng)大，與生成器不匹配。如果判別器的性能遠(yuǎn)遠(yuǎn)大于生成器的性能，那么無論生成器如何改進(jìn)，判別器都可以判別出真假，導(dǎo)致生成器難以根據(jù)判別器的反饋有目的的調(diào)整網(wǎng)絡(luò)參數(shù)，使音頻生成朝著干凈音頻的方向進(jìn)行改進(jìn)。圖1 (a)展示了SEGAN 的訓(xùn)練情況，其中D_fake表示的是將生成器生成的音頻判別為假的錯誤率，D_real表示的是將干凈音頻判別為真的錯誤率。從圖1 (a)中可以看出，判別器損失在很早的時候就降為了0，這說明SEGAN 的判別器在早期就可以對樣本的真假進(jìn)行正確判斷，無論生成器生成什么樣的語音，都無法 “欺騙”判別器，以致判別器對生成器失去了有效的指導(dǎo)作用。

圖1 改進(jìn)前后SEGAN 網(wǎng)絡(luò)判別器的訓(xùn)練情況

(2)SEGAN 網(wǎng)絡(luò)訓(xùn)練所使用的時域損失函數(shù)不適用于老電影音頻。SEGAN 生成器訓(xùn)練的損失函數(shù)定義如式(1)所示。

相比于其他音頻，老電影音頻存在的噪聲更多的為高斯白噪聲等寬帶噪聲，或是爆破聲、咔嗒聲等脈沖型噪聲以及交流電聲等噪聲。這些噪聲在時域和頻域上具有不同的特點(diǎn)。

圖2展示了不同噪聲類型的時域表現(xiàn)和頻域特征，其中，第一行為被各種噪聲污染的音頻時域波形，第二行分別為其對應(yīng)的頻譜。第一列為干凈音頻的時頻域特。通過對比可以觀察到，第二列所示的寬帶噪聲在時域上看起來雜亂無章，頻域上所占用的頻帶較寬，與有用信息重合度高。脈沖型噪聲在時域上表現(xiàn)為持續(xù)時間很短的沖激信號，表現(xiàn)在頻域上就為全頻帶的噪聲，如第三列所示。第四列展示的是交流電噪聲，它所造成的影響在時域中表現(xiàn)并不明顯，但是通過頻譜可以看出，這種噪聲會在某些頻率上有規(guī)律地產(chǎn)生新的諧波結(jié)構(gòu)，且分布比較分散，中頻和低頻部分易和有用的語音信號產(chǎn)生重疊。但當(dāng)和寬帶噪聲同時存在時，兩種噪聲的頻譜范圍有所重疊，可能不易察覺出交流電噪聲的存在。

圖2 不同噪聲類型的時域波形和頻譜

通過上面的分析可知，在老電影音頻中常出現(xiàn)的這幾種噪聲當(dāng)中，有的在時域上就可以很好地辨別，比如寬帶噪聲；有一部分在時域上持續(xù)時間短，而在頻域上占有較寬的頻帶，比如脈沖型噪聲；還有像交流電噪聲這類在時域中不易察覺但可通過頻域區(qū)分的噪聲。因此生成器使用如式(1)所示的損失函數(shù)，僅在時域上判別生成器生成音頻的好壞并不全面，可能導(dǎo)致網(wǎng)絡(luò)無法捕捉到某類噪聲獨(dú)特的特征，學(xué)習(xí)到有用信息。

以上兩個問題均限制了使用SEGAN 網(wǎng)絡(luò)進(jìn)行老電影音頻降噪的效果，針對這些問題進(jìn)行了如下改進(jìn):(1)在判別器中加入矢量量化(Vector Quantization)層，縮減判別器中的信息，以此來削弱判別器的性能，從而解決SEGAN 網(wǎng)絡(luò)生成器和判別器性能不匹配的問題；(2)在生成器的損失函數(shù)中增加頻域損失，在時域和頻域兩個方面同時約束網(wǎng)絡(luò)訓(xùn)練，增加網(wǎng)絡(luò)捕捉特征的能力，進(jìn)一步提高音頻修復(fù)的效果。

3.2 基于矢量量化的生成對抗網(wǎng)絡(luò)算法

3.2.1 在判別器中加入矢量量化層

矢量量化 (VQ)的思想來源于VQ-VAE，其最大特點(diǎn)是將編碼后的向量離散化。將VQ 加入到判別器中，對編碼器的輸出進(jìn)行量化，限制網(wǎng)絡(luò)所使用的特征數(shù)量，忽略特別細(xì)節(jié)的東西，從而控制網(wǎng)絡(luò)性能。

改進(jìn)后的判別器結(jié)構(gòu)如圖3所示。網(wǎng)絡(luò)的輸入為帶噪音頻和干凈音頻的拼接向量。網(wǎng)絡(luò)首先經(jīng)過四層卷積層，每層卷積后都使用非線性單元PRe LU來增加模型的非線性程度。接著對卷積后得到的深層特征使用矢量量化。網(wǎng)絡(luò)中先隨機(jī)生成一組含有k個向量的碼本e，e……e，對應(yīng)圖中綠色的部分。接著，將語音通過編碼器后得到的隱變量Z與碼本中的每一個向量e進(jìn)行比較，找到最接近的e，并用其替換相應(yīng)的Z，得到矢量量化后的隱變量Z。最后，將Z輸入到后續(xù)的全連接層中便可得到判別結(jié)果。

圖3 改進(jìn)后的SEGAN 判別器網(wǎng)絡(luò)結(jié)構(gòu)

在生成器中加入矢量量化的好處是可以把編碼器輸出的相似特征向量統(tǒng)一為一種表示形式，減少信息的冗余，使網(wǎng)絡(luò)更加關(guān)注于整體的重要信息，而忽略一些特別細(xì)節(jié)的特征。在SEGAN 的判別器中加入VQ 后的訓(xùn)練情況如圖1 (b)所示?？梢钥闯觯c未加入VQ 的網(wǎng)絡(luò)相比，判別器的損失下降趨緩，一直到訓(xùn)練后期仍可對生成器起到指導(dǎo)作用，說明在判別器中加入矢量量化可以有效地改善SEGAN 網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定的缺點(diǎn)。

3.2.2 在生成器的損失函數(shù)中加入頻域損失

本文使用encoder-decoder結(jié)構(gòu)作為生成器的模型結(jié)構(gòu)，如圖4所示。網(wǎng)絡(luò)輸入為帶噪音頻的時域波形，編碼器是由若干卷積層和PReLU 激活函數(shù)連接而成的，隨著卷積塊的堆疊，網(wǎng)絡(luò)提取的特征逐漸加深。解碼是編碼的逆過程，使用與編碼器相對稱的結(jié)構(gòu)，通過反卷積和上采樣操作重構(gòu)出干凈音頻。該生成器在編碼器和解碼器之間還加入了跳過連接，使編碼器各層輸出的多尺度特征影響解碼。

圖4 生成器網(wǎng)絡(luò)結(jié)構(gòu)

原始SEGAN 生成器的損失函數(shù)如式 (1)所示，僅在時域上評判生成音頻與干凈音頻的相似程度，而沒有考慮頻域特征。由3.1節(jié)分析可知，老電影音頻中存在的某一些噪聲在時域上不好捕捉，在頻域上卻具有很明顯的特性，如脈沖型噪聲和交流電噪聲等。因此本文在原有損失函數(shù)的基礎(chǔ)上增加了頻域上的約束，如式(2)所示。

4 實(shí)驗與結(jié)果

本實(shí)驗使用的訓(xùn)練數(shù)據(jù)是由Valentini等人發(fā)表的voice bank語料庫提供的。該語料庫的訓(xùn)練集中包含28個說話人和10種不同的噪聲，例如辦公室環(huán)境噪聲、談話聲和鳴笛聲等。噪聲分別以信噪比為15dB、10dB、5dB和0d B與干凈語音信號進(jìn)行混合，共計產(chǎn)生40種不同的噪聲條件。所有音頻的采樣率均為16k HZ。

網(wǎng)絡(luò)訓(xùn)練時，先將音頻以50%的重疊進(jìn)行分幀。不夠長度的音頻幀用0進(jìn)行填充，以匹配批處理中最大的音頻長度。本文使用0.00005的學(xué)習(xí)率和RMSProp優(yōu)化器用于基于隨機(jī)梯度下降 (Stochastic Gradient Descent，SGD)的優(yōu)化。

本文使用一段從老電影中截取的九分鐘的音頻片段進(jìn)行測試。該片段是從電影資料館獲得的，并且具有人工手動修復(fù)的結(jié)果。在客觀評價時，使用手動修復(fù)的結(jié)果作為參考音頻。增強(qiáng)音頻的客觀評價結(jié)果如表1 所示。PESQ 是語音質(zhì)量感知評價，取值范圍為[—1.5，4.5]，得分越高表明語音失真越小。短時客觀可懂度STOI分值越高表明語音越容易被理解，取值范圍為 [0，1]。CSIG、CBAK、COVL分別表示語音失真程度、背景噪聲影響和總體質(zhì)量，取值范圍均為[0，5]，分?jǐn)?shù)越高代表降噪效果越好。表中的SEGAN 為本文的基線模型SEGAN。rSEGAN 和SEGAN-attn 分別表示使用相對loss的SEGAN 和加入自注意力機(jī)制的增強(qiáng)模型。VQ-SEGAN 和VQ-SEGAN-tfloss為本文提出的改進(jìn)后的模型。從表中可以看出，本文改進(jìn)后的模型VQ-SEGAN 在各項評價指標(biāo)中均有提升，CSIG、STOI等四項指標(biāo)可以達(dá)到最優(yōu)。同樣，在使用時頻損失之后，音頻的增強(qiáng)效果也有所提高，其中PESQ 可以取得所有對比模型中的最大值，比基線模型提高了0.19。

表1 客觀評價指標(biāo)結(jié)果

圖5 (a)展示的是電影從1分58秒至2分10秒的一段聲音。第一行代表的分別是老電影原聲、使用降噪插件手動修復(fù)、使用原始SEGAN 降噪，以及使用本文改進(jìn)后的算法進(jìn)行去噪的音頻時域波形，第二行分別為對應(yīng)的頻譜。從第一列所示的電影原聲的時域波形和頻譜中可以看出，該段音頻中存在著寬帶噪聲以及少量脈沖型噪聲。使用原始的SEGAN 網(wǎng)絡(luò)進(jìn)行修復(fù)，對于寬帶噪聲的去除有一定的效果，但是由于網(wǎng)絡(luò)性能的不匹配，生成器失去優(yōu)化方向，導(dǎo)致在增強(qiáng)后的音頻中產(chǎn)生了額外的噪聲。而本文提出的方法可以更有效地去除寬帶噪聲和部分脈沖型噪聲，對于寬帶噪聲的去除甚至比人工手動修復(fù)的更為干凈。圖5 (b)截取的是5分15秒至5分20秒這五秒的音頻片段。原始的SEGAN 對寬帶噪聲具有一定的去除能力，但依然保留了微弱的交流電噪聲。在生成器使用了時頻域損失函數(shù)之后，能夠在去除寬帶噪聲的基礎(chǔ)上，進(jìn)一步降低交流電噪聲對音頻的影響。

圖5 不同修復(fù)方法的修復(fù)結(jié)果

本文還對修復(fù)的結(jié)果進(jìn)行了主觀測試，在9分鐘的老電影音頻中隨機(jī)截取了三段長度為10到20秒的音頻，作為試聽樣本。本實(shí)驗共有15名被試者參加測試，采用平均意見得分MOS (Mean Opinion Score)的5 級評價方法進(jìn)行測試，標(biāo)準(zhǔn)如表2 所示，得分越高說明音頻的聽感越好。在所有被試者都打完分?jǐn)?shù)之后，計算其平均值作為最終的主觀評價結(jié)果。表3列出了人工修復(fù)以及不同模型的主觀評價分?jǐn)?shù)。

表2 主觀評價打分標(biāo)準(zhǔn)

表3 主觀評價結(jié)果

從表3中可以看出，人工修復(fù)的音頻獲得了最高的主觀評價分?jǐn)?shù)，這說明對于該段老電影音頻來說，手動修復(fù)的老電影音頻具有最好的聽覺效果，其失真程度更小，語音質(zhì)量更高，聽起來更加自然流暢。使用深度學(xué)習(xí)模型自動修復(fù)的效果均不如人工的好。尤其是本文的基線模型SEGAN，僅得到了1.89的分?jǐn)?shù)，說明修復(fù)后的音頻失真嚴(yán)重，語音質(zhì)量很差。但是使用本文改進(jìn)后的模型進(jìn)行修復(fù)后，MOS得分提高到了3.84，與人工修復(fù)的結(jié)果僅相差了0.6。這說明本文提出的模型在老電影修復(fù)任務(wù)上比原始SEGAN 模型更加具有優(yōu)勢，噪聲去除得更為干凈，降噪后語音失真程度更小。

總的來說，本文提出的基于矢量量化對抗生成網(wǎng)絡(luò)的老電影音頻增強(qiáng)算法具有以下幾個優(yōu)點(diǎn):(1)在修復(fù)時不依賴于人工，且不需要提前獲取大量的老電影噪聲片段，提高了使用機(jī)器代替人工進(jìn)行老電影音頻增強(qiáng)的可行性；(2)改善了SEGAN 網(wǎng)絡(luò)中存在的判別器和生成器性能不匹配這一問題，提高判別器對生成器的指導(dǎo)作用；(3)在時域和頻域兩個方面對網(wǎng)絡(luò)優(yōu)化方向進(jìn)行約束，提高網(wǎng)絡(luò)學(xué)習(xí)能力，進(jìn)一步提高老電影音頻修復(fù)質(zhì)量。

5 結(jié)論

本文提出了一種基于矢量量化對抗生成網(wǎng)絡(luò)的老電影音頻增強(qiáng)算法，在不需要建立大量老電影修復(fù)數(shù)據(jù)的前提下，使用機(jī)器學(xué)習(xí)的方法代替人工修復(fù)，大大降低了老電影音頻修復(fù)的人力支出，提高了修復(fù)效率。同時，本文提出的方法在訓(xùn)練時能夠更有效地學(xué)習(xí)帶噪音頻到干凈音頻的映射關(guān)系，提高去除老電影音頻中普遍存在的寬帶噪聲、脈沖型噪聲和交流電噪聲的能力。但是從實(shí)際聽感出發(fā)，使用本文所提出的模型修復(fù)后的老電影音頻，要比人工修復(fù)后的在某些地方具有更大的語音失真，語音質(zhì)量還存在一定的差距。在今后的研究中，筆者將考慮如何有針對性地去除背景噪聲，以最佳方案保留配樂和腳步聲等配音效果。