智能識別PC用戶音頻文件音量控制設計

2021-01-13 00:52:11張躍軍胡玉清胡守國雷靜

計算機與網(wǎng)絡 2021年21期

張躍軍胡玉清胡守國雷靜

摘要：隨著計算機科學的發(fā)展，聲音基于數(shù)字形式傳遞，使得用計算機處理聲音成為可能，而PC用戶在連續(xù)播放不同MP3音頻的時候，經(jīng)常會出現(xiàn)不同音頻文件播放時聲音忽大忽小，影響了人耳的感受。用戶在播放不同文件時，可以提取MP3音頻文件中存在的增益信息，用當前文件的增益信息再結合上次文件的增益信息和播放音量，可智能調整當前文件播放的音量，無需人工再調節(jié)，這樣提高了用戶在使用MP3音頻文件時的方便性和舒適性。

關鍵詞：智能；PC；MP3；音頻；音量

中圖分類號：TP393文獻標志碼：A文章編號：1008-1739（2021）21-69-4

0引言

聲音是傳播信息的重要途徑，尤其是現(xiàn)代計算機科學的發(fā)展，目前大量的聲音都是基于數(shù)字形式傳遞的。但是聲音數(shù)字傳播的過程中，承載聲音的音頻文件中的音量沒有統(tǒng)一的標準，這樣就導致人們在通過音頻文件接收信息的時候，音量忽大忽小，對聲音接收者會造成不適，音量過大可能會影響聽力，音量過小就影響接收效果，目前正常處理方式都是通過播放音頻工具的音量調節(jié)按鈕來人工調節(jié)，使用起來比較繁瑣，在調節(jié)過程中也會影響接收效果，耽誤時間。

通過智能識別PC用戶音頻音量播放，能夠自動設定音量大小，在使用不同音頻文件過程中，無需再手動調節(jié)音量，保證用戶使用效果。尤其在特定環(huán)境下，能實現(xiàn)無接觸正常聽音頻，不會由于某些音頻文件音量過大或者過小影響聽音頻的效果。

1國內外研究情況

楊鑫芳提出從網(wǎng)絡上下載的各種風格的歌曲時，經(jīng)常會遇到歌曲的音量高低差別問題。同時提出了可以借助美國Adobe公司的音頻處理軟件Audition來將歌曲音量進行最高標準的規(guī)范，用戶可以非常方便地對包括歌曲在內的各種音頻進行響度的標準化處理[1]。此方法可以統(tǒng)一歌曲的音量，但是需要提前對音樂文件進行處理，操作起來比較麻煩。國家知識產(chǎn)權局專利局專利審查協(xié)作四川中心的馮晨露提出了在移動終端通過環(huán)境噪聲來自動調節(jié)音量大小或者根據(jù)用戶的作息習慣來調節(jié)音量[2]。華南理工大學廣州學院電氣工程學院的陳崇輝設計了系統(tǒng)識別向左或右、向上或向下一揮的手勢動作控制無線話筒的音量大小[3]，可以實時緩解話筒叫嘯引起的干擾。上海工程技術大學城市軌道交通學院的雷星蒙提出了在地鐵車廂中適合人耳收聽的音量區(qū)間內進行廣播音量的自動控制[4]。

這些研究表明，人們對聲音大小自動化調節(jié)的要求越來越強烈。同時曹強分析了MP3文件Side Information Granule結構，其中Glaobal Gain表示全局量化增益，用于MP3解碼器的重新量化[5]，使得可以提取MP3文件中的增益成為可能。密歇根州立大學學者哈姆澤赫·加塞姆扎德使用了全局增益和MP3比特流的其他字段之間的聯(lián)合分布。通過測量這些聯(lián)合分布的信息來檢測變化。比傳統(tǒng)的單層方法有更好的性能，準確率提高了20.4%[6]，說明國外對MP3增益使用也一樣在進行。

2基本原理

MP3其實就是MPEG-1音頻的Layer 3[7]。MPEG音頻壓縮是一種基于感知的策略，在確保輸出的信號對于人類的聽力系統(tǒng)感覺不到差別，而不是要保持編碼和解碼后的信號完全一樣。陜西學者董寧采用對MP3編碼器算法進行心理聲學模型改進，提高了編碼質量，降低了運算復雜度[8]。

MP3編碼器將原始聲道通過快速傅里葉變換到頻域，然后通過算法加入更多的信息。根據(jù)資料顯示，人類的聽力系統(tǒng)頻率在20 Hz～20 kHz，但其實高于15 kHz頻率的聲音一般通過聽力系統(tǒng)聽不到，只能通過身體其他部位感受到它的存在，所以MP3在編碼的時候會省掉16 kHz以上的聲音。同時使用了混合立體聲的編碼，進一步壓縮了音頻文件，還用了哈夫曼編碼。

MP3文件是由幀（frame）構成，幀是MP3文件的最小組成單位。每一幀都包含幀頭，并可以計算幀的長度。根據(jù)幀的性質不同，文件主要分為3個部分：Tag_v2（ID3v2）標簽幀、數(shù)據(jù)幀和Tag_v1（ID3v1）標簽幀。并非每個MP3文件都有ID3v2，但是數(shù)據(jù)幀和ID3v1幀是必須的。ID3v2在文件頭以字符串“ID3”為標志，包含了演唱者、作曲及專輯等信息，長度不固定，擴展了ID3V1的信息量。ID3v1在文件結尾以字符串“TAG”為標記，其長度是固定的128 byte，包含了演唱者、歌名、專輯及年份等信息。數(shù)據(jù)幀由文件大小和幀大小來決定，每個幀頭長度是4 byte（32 bit），幀頭后面可能有2byte的CRC校驗。音頻數(shù)據(jù)的組成結構為：SideInformation+MAIN_DATA+AncillaryData（Option），即音頻數(shù)據(jù)由邊信息、主數(shù)據(jù)和附加數(shù)據(jù)組成。以雙聲道邊信息格式為例，音頻數(shù)據(jù)如表1所示。而Side Information Granule結構包含Part2_3 Length，Big Value，Global Gain，Scale Factor Compress，Window Switch Flag，Pre Flag，Scale Factor和Count1 Table Select。從這個結構中，可以看到增益信息。

提取MP3音頻文件中的增益，可以先設定一個函數(shù)讀取二進制文件的內容，函數(shù)為GetBits （LPBYTE pByData， DWORD& dwBitStart， int nLen）；pByData為音頻文件，dwBitStart為二進制讀取的開始位置，nLen為讀取內容的長度。通過MP3文件格式讀取對應的增益信息，把獲得的增益值統(tǒng)一放到一個列表中。對所有增益信息求和，并求出其平均值，所求的值保存到這個MP3文件相關信息中。當智能識別第一次啟動時，如果讀取配置文件，讀取之前的增益和音量值成功，智能識別系統(tǒng)會自動識別之前MP3音頻文件的音量和增益，再根據(jù)當前文件的增益，算出當前文件需要播放的音量。根據(jù)測試當前音量計算公式如下：當前音量=之前音量×（之前增益/當前增益）。其中，系數(shù)=9比較適合。否則默認一個音量，用戶根據(jù)自己的喜好可以調整音量。程序退出的時候，就會自動把當時播放的音量和增益值保存起來。

3設計流程

智能識別PC用戶的音頻音量的研究對象為MP3格式的音頻文件，MP3文件的格式中包含增益數(shù)據(jù)，用戶在播放MP3時，通過音頻播放器調用文件中的增益數(shù)據(jù)，結合播放器的音量參數(shù)進行播放。自動設定一個缺省的音量播放，把當前MP3文件的增益提取出來，然后把當前的音量和增益保存到本地文件“savevol.info”中。當用戶調節(jié)音量后，調節(jié)后的音量會更新到本地文件“savevol.info”中。當用戶播放第2個音頻文件時，系統(tǒng)首先會把之前的音量和增益文件“savevol.info”讀取出來，與當前的音頻文件的增益結合換算出目前播放音頻的音量，然后把當前播放的音量和文件的增益重新保存到本地文件“savevol.info”中。依次這樣循環(huán)，可以實現(xiàn)智能識別音頻音量，用戶無需根據(jù)每個音頻文件音量的大小來調節(jié)。

用二進制形式打開需要播放的文件，然后找到當前音頻文件的增益因子，獲取“savevol.info”文件中的增益和音量與之對比，核算出當前音頻播放的音量。然后播放當前的音頻文件，把當前音頻文件的增益因子和音量數(shù)據(jù)保存到“savevol. info”文件中，依次循環(huán)，直到結束程序。智能識別音量算法流程如圖1所示。

4系統(tǒng)測試

根據(jù)設計的方法，先開發(fā)一個正常的MP3音頻播放系統(tǒng)，然后在讀取MP3音頻文件之前加入本文研究的智能識別方法，即可達到自動識別用戶音頻音量。本文使用VS2008開發(fā)環(huán)境，用VC語言開發(fā)完成。完成界面如圖2所示。在剛剛開始的時候，第一首曲子《綠軍裝的夢》的音量為10個小格，在用戶不干預音量的情況下，播放器在自動播放第2首曲子《愛情的秋天》的時候，如圖3所示，音量自動跳到了7個小格，在播放器自動播放第3首曲子《大碗茶》的時候，如圖4所示，音量自動跳到了4個小格。這是因為每個曲子的增益不一樣，要達到最后用戶聽到的音量保持一致，系統(tǒng)自動調節(jié)播放器播放當前MP3文件音量的大小來控制最后用戶聽到的音量與之前的MP3文件音量一致，用這樣的系統(tǒng)播放MP3自然提高了用戶聽覺的舒適性。

5結束語

通過研究MP3音頻文件的格式，用二進制形式打開文件，提取MP3文件中的增益信息，結合上次播放的音量和增益信息，與當前文件的增益信息得出當前文件播放時需要的音量，達到了用戶在用此系統(tǒng)播放MP3文件時，音量自動與用戶設定的大小一致，提高了用戶在使用MP3音頻文件時的舒適性。當然直接用人耳來判斷聲音大小，不同的人是有一定的差異，如何解決這個問題，需要參照其他技術手段進行測試，進一步改進算法，這是以后改進的方向。

參考文獻

[1]楊鑫芳.將多首歌曲音量一步標準化[N].電子報， 2018-12-30.

[2]馮晨露，任建宇.移動終端音量調節(jié)專利技術分析[J].中國科技信息，2019（17）：23-24.

[3]陳崇輝，鄧筠.基于慣性傳感器的體感手環(huán)教學系統(tǒng)的設計[J].計算機測量與控制，2020，28（8）：182-186.

[4]雷星蒙，孫婧楠，肖曼琳.地鐵車廂中廣播自適應音量控制系統(tǒng)的設計[J].科技傳播，2018，10（7）：66-67.

[5]曹強.數(shù)字音頻規(guī)范與程序設計：基于Visual C++開發(fā)[M].北京：中國水利水電出版社， 2012 .

[6] GHASEMZADEH H. Multi-Layer Architecture for Efficient Steganalysis of UnderMp3Cover in Multi-Encoder Scenario[J].IEEE Transactions on Information Forensics and Security， 2019，14（1）：186-195.

[7]阮燁.基于壓縮音頻主碼本可替代位的信息隱藏算法研究[D].北京：北京林業(yè)大學，2019.

[8]董寧.MP3編碼算法的改進與優(yōu)化[J].電子設計工程， 2015，23（14）：48-50.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

智能識別PC用戶音頻文件音量控制設計