熱門數(shù)字音頻預測技術綜述

2021-09-17 09:43:24張怡寧何洪波王閏強

數(shù)據(jù)與計算發(fā)展前沿 2021年4期

張怡寧，何洪波，王閏強

1.中國科學院計算機網(wǎng)絡信息中心，北京 100190

2.中國科學院大學，北京 100049

引言

數(shù)字媒體技術和互聯(lián)網(wǎng)的高速發(fā)展給傳統(tǒng)媒體帶來技術上的變革，也對其形態(tài)、傳播方式、傳播理念等都產(chǎn)生了重要的影響?；诨ヂ?lián)網(wǎng)的數(shù)字音頻內(nèi)容，如在線音樂、移動電臺播客、有聲書等，受眾愈發(fā)廣泛。根據(jù)艾媒咨詢數(shù)據(jù)[1]顯示，2019年，全國在線音頻市場用戶規(guī)模已達4.9 億人，2020年，中國在線音頻用戶規(guī)模約達5.42 億人。而在世界范圍內(nèi)，據(jù)德勤的調(diào)研報告[2]統(tǒng)計全球播客（podcast）市場在2020年增長30%，規(guī)模達到了11 億美元。種種跡象表明，基于互聯(lián)網(wǎng)的數(shù)字音頻傳媒形式正在經(jīng)歷高速發(fā)展，并將憑借自身實力成長為一大重要市場。

李明揚[3]定義數(shù)字音頻是一種利用數(shù)字化手段對聲音進行錄制、存放、編輯、壓縮或播放的技術，它是隨著數(shù)字信號處理技術、計算機技術、多媒體技術的發(fā)展而形成的一種全新的聲音處理手段。數(shù)字音頻的主要應用領域是音樂后期制作和錄音。熱門數(shù)字音頻預測技術是指通過選擇和提取具有較強表示性的音頻特征，探索音頻熱門程度或流行程度與這些特征之間的關系，并訓練相應模型來預測新發(fā)布的音頻是否會成為熱門音頻（hits）。研究熱門數(shù)字音頻預測技術，將一步促進全球在線數(shù)字音頻行業(yè)的蓬勃發(fā)展——對于市場規(guī)模已然龐大的音樂行業(yè)和發(fā)展?jié)摿Ω鼮榫薮蟮囊苿与娕_播客領域都將帶來深遠的影響。

近些年，全球已有不少學者對熱門音頻預測技術進行了探索，并在熱門音樂預測、熱門播客預測領域取得了可觀的成果。本文將從熱門指標定義、音頻特征選取、預測模型算法三方面綜述學術界在熱門數(shù)字音頻預測領域的相關研究成果，并對熱門數(shù)字音頻預測技術未來的發(fā)展趨勢和研究方向進行展望。

1 熱門指標定義

熱門數(shù)字音頻預測問題在大多數(shù)情況下都會被看作一個二分類問題，即通過音頻特征預測音頻屬于熱門/非熱門音頻。而對于“熱門”與否，學者們大多通過音頻排名、播放量或下載量等客觀數(shù)據(jù)劃定閾值進行指標的衡量。

在對于熱門音樂預測的研究中，大部分學者根據(jù)音樂排行榜上的音樂排名對熱門音樂和非熱門音樂進行區(qū)分，但在熱門指標衡量的嚴格程度上又可能有所不同。在一些文獻[4-6]中，作者定義熱門音樂為登上過美國公告牌（Billboard）年度歌曲排行榜前100 名的音樂，非熱門音樂為從未進入排行榜前100名的音樂。在另一些學者的研究中[7-11]中，進入相應歌曲排行榜前5、前10 或前20 名的音樂被看作熱門音樂。而Dhanaraj 等人[12]只將排行榜排名第一的音樂看作熱門音樂。也有學者認為由于時間變量的影響，單純的排行榜數(shù)據(jù)無法客觀反映一首歌的熱門程度，因此Lee 等人[13]基于音樂排行榜的排名自主定義了一首歌曲的多個流行度指標，以量化一首音樂的綜合熱度。

部分學者通過音樂播放量（play counts）對熱門音樂進行定義[14-16]，通過設定較高的播放量閾值對熱門音樂進行劃分。還有少部分學者直接使用第三方API（Application Programming Interface，應用程序編程接口）定義的熱度指標對熱門音樂作出區(qū)分，如Pham 等人[17]使用the Echo Nest（原音樂網(wǎng)站應用數(shù)據(jù)平臺，現(xiàn)已被Spotify 收購并更名為Spotify Web API[18]）定義的“hotttnesss”指標作為預測的熱門指標。

在熱門播客預測領域，研究成果尚不如熱門音樂預測領域豐富，基本上所有學者都是通過播客在相關平臺上的排名數(shù)據(jù)對熱門播客與非熱門播客進行區(qū)分[19-21]。

2 特征選取

音頻特征選擇與提取是熱門數(shù)字音頻預測研究中的重要環(huán)節(jié)，選取與熱門程度相關性更強的特征往往會取得更好的預測效果。熱門數(shù)字音頻預測的特征可以分為兩個主要類別：內(nèi)部特征和外部特征[15,22]。內(nèi)部特征指音頻及其本身相關內(nèi)容的特征，外部特征通常包括與音頻有關的社交媒體事件、聽眾心理或社會影響等內(nèi)容。由于外部特征更多的涉及社會科學方向，因此熱門數(shù)字音頻預測技術領域的研究通常都選取可以量化表示的內(nèi)部特征進行建模。只有Bischoff等人[23]僅依靠外部特征，通過從音樂社交網(wǎng)絡挖掘的數(shù)據(jù)以及歌曲、藝術家和專輯之間的關系，使用機器學習的方法預測了歌曲成為熱門歌曲的潛力。本文主要對學者們在該預測領域所選取的內(nèi)部特征進行總結(jié)和分析，主要可歸納為以下四個類別。表1 總結(jié)了常用的四種特征示例及其解釋。

表1 常見的四種特征示例及其解釋Table1 Examples and explanations of the four common features

在大多數(shù)熱門數(shù)字音頻預測的實驗研究中，學者們更多的選取音頻淺層特征和音頻深層特征作為輸入變量建立預測模型。單獨選取文本特征進行預測也會取得可觀的預測效果[4]。值得注意的是，在他們的實驗中，選取多種特征類型共同預測的效果往往最好，如Yang 等人[15]使用音頻淺層特征和元數(shù)據(jù)標簽特征的深度學習融合模型在所有實驗中取得了最好的預測效果，遠遠超過使用單一類型特征的預測結(jié)果。

2.1 音頻淺層特征

音頻淺層特征是指基于音頻信號本身的易于提取的特征，主要包括基于頻譜圖的MFCC（Mel Frequency Cepstral Coefficient，梅爾頻率倒譜系數(shù)）[12,15-16,24]，通過the Echo Nest 或Spotify Web API獲取的簡單音樂特征如節(jié)奏、拍子記號、調(diào)式、音調(diào)等[5-11,14,17,25]，基本音頻屬性如音頻片段的時長、響度等[6,14,25]。

2.2 音頻深層特征

與音頻淺層特征相對應的是音頻深層特征，手工特征（hand-craft features）也屬于深層特征。音頻深層特征由音頻淺層特征經(jīng)過更為復雜的計算或人工標注而來，Porter 等人[26]認為音頻深層特征可以捕捉更為抽象的概念，如情緒類別等。The Echo Nest 或Spotify Web API 獲取的深層音頻特征包括音樂的可舞蹈性（Danceability）、能量（Energy）、口語性（Speechness）、現(xiàn)場性（Liveness）等。

在一些研究中，學者們還經(jīng)常使用自定義的深層特征進行熱門數(shù)字音頻的預測。如Lee 等人[24]利用音樂和聲、節(jié)奏、音色以及響度等特征隨時間的變化情況計算得出的音樂復雜度（Complexity）特征，Yang 等人[20]通過對播客的音頻特征利用基于逆向?qū)W習的建模方法提出的播客表示方法ALPR（Adversarial Learning-based Podcast Representation，基于對抗學習的播客表示），以及Tsagkias 等人[27]提出的播客分析框架PodCred 中的大部分特征也屬于音頻的深層特征。

2.3 文本特征

數(shù)字音頻的文本特征主要包括音樂的歌詞以及播客的口播文本內(nèi)容。Dhanaraj 和Logan[12]利用潛在語義分析的方法將每首歌的歌詞轉(zhuǎn)換為特征向量，Singhi 等[4]使用Rhyme Analyser[28]和CMU Pronunciation Dictionary[29]提取歌詞的韻律和音節(jié)特征，對熱門歌曲進行預測。Joshi 等[21]基于詞法分析采用了一種三元組訓練方法，學習了基于文本的播客特征表示，并將其應用于熱門播客的預測任務。

2.4 元數(shù)據(jù)特征

元數(shù)據(jù)特征（meta information）是關于數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù)，描述數(shù)字音頻的元數(shù)據(jù)也被作為熱門音頻預測的特征選擇。Pham 等[17]使用詞袋的方法對歌曲名稱、藝術家id 和藝術家經(jīng)常關聯(lián)的術語（類型）等元數(shù)據(jù)特征進行表示，并取得了比深淺層音頻特征更好的熱門音樂預測效果。Yang 和Yu 等人[15-16]利用JYnet 模型[30]生成的音樂標簽，作為卷積神經(jīng)網(wǎng)絡進行熱門音樂預測的特征輸入之一，提高了預測準確率。Tsagkias 等[19]使用PodCred 框架[27]中基于播客元數(shù)據(jù)的相關特征完成了對iTunes 上的熱門播客的排名預測。Zangerle 等[6]使用音頻的發(fā)布時間元數(shù)據(jù)作為熱門音頻預測的特征輸入之一并取得了良好的預測效果。

3 預測模型算法

3.1 預測算法性能評價指標

大多數(shù)情況下的熱門數(shù)字音頻預測問題是一個二分類問題，因此樣本有正負兩個類別，即熱門/非熱門音頻。那么模型預測的結(jié)果和真實標簽的組合就有4 種：TP（True Positive），F(xiàn)P（False Positive），F(xiàn)N（False Negative），TN（True Negative），如表二所示。這4 個分別表示：實際為熱門音頻預測結(jié)果為熱門音頻，實際為非熱門音頻預測為熱門音頻，實際為熱門音頻預測為非熱門音頻，實際為非熱門音頻預測為非熱門音頻。

表2 熱門音頻二分類預測模型結(jié)果組合Table2 Results of the two-class popular audio prediction model

在使用模型對熱門數(shù)字音頻進行二分類預測時，傳統(tǒng)的模型評價指標包括：（1）準確率（Accuracy）、（2）精確率（Precision）、（3）召回率（Recall）、（4）F1 值（F1 Score）。由于許多機器學習的模型對分類問題的預測結(jié)果都是概率，而以上四種評價指標的結(jié)果依賴于模型中的閾值設定的合理性，所以也有部分學者采用AUC 指標（Area Under Curve，曲線下面積）衡量模型效果。同時，在測試集中的正負樣本的分布變化的時候，曲線能夠保持不變。由于在實際的數(shù)據(jù)集中經(jīng)常會出現(xiàn)類不平衡（class imbalance）現(xiàn)象，即可用來實驗的熱門音頻的數(shù)量總是遠遠少于非熱門音頻，使用AUC 指標能夠很好的描述模型整體性能的高低。各個評價指標的解釋以及意義如表3所示。

表3 熱門音頻預測模型常用評價指標Table3 Commonly used evaluation indicators of the popular audio prediction models

除了將熱門數(shù)字音頻預測看作一個二分類問題外，還有研究者對熱門音頻在排行榜上的排名進行預測，衡量其模型性能的評價指標包括描述預測值誤差的均方根誤差RMSE（Root Mean Square Error）和平均絕對誤差MAE（Mean Absolute Error）[6]，以及描述真實排名與預測排名相關性的歸一化折損累計增益NDCG（Normalized Discounted Cumulative Gain），Kendall 相關系數(shù)以及Spearman 相關系數(shù)等[20,31]。

3.2 基于機器學習的預測算法

機器學習是一個快速發(fā)展的領域，它能解決許多傳統(tǒng)方法所無法有效解決的復雜問題[32]?；诓煌瑱C器學習方法的預測算法被應用于熱門數(shù)字音頻預測領域的研究，其中支持向量機法與邏輯回歸法因其較好的預測效果應用最為廣泛。

3.2.1 支持向量機

使用支持向量機對熱門音頻進行預測，雖然不是在該研究領域被被最廣泛應用的機器學習方法，但是被學者最早應用到該領域的算法。支持向量機的原理是試圖從最近的數(shù)據(jù)點找到一個邊界盡可能大的分離超平面，實現(xiàn)簡單，因而會最早被學者用來做熱門音樂領域的探索。

早在2005年，Dhanaraj 和Logan[12]首次使用基于聲學和歌詞的特征來構(gòu)建支持向量機，并使用增強分類器來區(qū)分不同風格的歌曲中排名前1 的歌曲。盡管只有91 首歌曲的原聲和歌詞數(shù)據(jù)，他們的結(jié)果很樂觀，并認為熱門音樂可以預測。在2011年，Borg 和Hokkanen[14]使用the Echo Nest 的音頻數(shù)據(jù)特征構(gòu)建了支持向量機模型預測熱門音樂，但獲得的結(jié)果卻非常有限：無論選取任何特征以及設定任何參數(shù)，他們的預測精確率都從未超過樣本偏差1%。因此他們認為，一首歌曲是否能成為熱門歌曲很可能是由社會力量驅(qū)動的。2013年，F(xiàn)an 和Casey[8]對英文熱門歌曲和中文熱門歌曲進行了預測和比較研究。英文的歌曲數(shù)據(jù)是從英國專輯排行榜收集的，中文歌曲數(shù)據(jù)從中國歌曲排行榜收集而來。同樣從the Echo Nest 獲得音樂音頻特征，他們使用了時間加權的線性回歸和支持向量機算法進行熱門音樂預測。當將熱門歌曲定義為出現(xiàn)在前40 位排行榜前5 名中的歌曲、將非熱門歌曲定義為同一列表中的最后5 首時，使用支持向量機方法預測中文歌曲的錯誤率約為29%，而英文歌曲的預測錯誤率約為44%，其預測效果好于線性回歸模型。其研究結(jié)果還表明，中文流行歌曲預測比英文流行歌曲預測結(jié)果更準確。斯坦福大學Pham[17]等人于2016年進行的另一項最新研究評估了不同的機器學習算法預測熱門音樂的能力。他們使用了支持向量機、邏輯回歸、線性判別分析、二次判別分析和多層感知器等方法，其所選取的特征包括音頻深淺層特征以及元數(shù)據(jù)特征。在他們的研究中，所有模型獲得了大致相似的預測準確率，取值范圍為0.75 至0.80，其中支持向量機模型的綜合預測效果最佳。2018年，Lee 等人[24]使用描述音樂復雜性的音頻深層特征以及其他傳統(tǒng)聲學淺層特征建立了支持向量機、邏輯回歸、決策樹和神經(jīng)網(wǎng)絡模型對熱門音樂進行預測。其結(jié)果表明，雖然仍有改進的空間，但基于歌曲的音頻信號預測歌曲的熱門指標是可行的，預測結(jié)果明顯優(yōu)于隨機概率，特別是同時使用歌曲的復雜性特征和MFCC 特征，其中預測準確率最高的也是支持向量機模型。

使用支持向量機對熱門歌曲進行預測有如下優(yōu)勢：首先，它們不需要任何復雜的參數(shù)調(diào)優(yōu)。其次，在一個小的訓練語料庫中，他們表現(xiàn)出很強的概括能力。最后，它們特別適用于高維空間的學習。但當訓練樣本過大時，則不能使用支持向量機對熱門音樂進行預測，因為它使用二次規(guī)劃法來求解支持向量，而求解二次規(guī)劃將涉及N 階矩陣的計算（N為樣本的個數(shù)），當N 數(shù)目很大時，該矩陣的存儲和計算將耗費大量的機器內(nèi)存和運算時間。由于其模型的預測效果極度依賴小型訓練數(shù)據(jù)的質(zhì)量，因此使用支持向量機預測熱門歌曲的效果也會隨著特征選取的成功與否表現(xiàn)出不同的預測成功率。

3.2.2 邏輯回歸

邏輯回歸是一種數(shù)學模型，可用于描述一個或多個自變量和一個因變量之間的關系[33]。因此，該模型可用于像熱門音頻預測這樣的二分類問題。當將訓練好的邏輯回歸模型應用到測試數(shù)據(jù)的特征時，會輸出是否為熱門音頻的置信概率，這個概率是0到1 之間的一個數(shù)字。邏輯回歸通常使用0.5 作為分類閾值。對于熱門音頻預測，邏輯回歸法是可以優(yōu)化精度的理想方法，因為可以通過提高熱門音頻的分類閾值，從而在熱門音頻的定義上形成一個“更嚴格的”標準。并可以通過加入正則化系數(shù)λ，迭代減小過擬合。

2014年，Herremans 等人[9]對熱門舞曲的預測進行了研究。他們創(chuàng)建了從2009年到2013年的熱門舞曲數(shù)據(jù)集，并在其中使用了決策樹、樸素貝葉斯、邏輯回歸和支持向量機等機器學習算法進行預測模型的訓練。他們的研究結(jié)果表明，通過分析音頻特征來預測舞曲的流行程度是可行的，其中預測效果最好的算法是邏輯回歸，AUC 為0.65，準確率為83%。同年，Wang[10]從MIDI 音樂文件中提取樂器、旋律和節(jié)拍特征對熱門音樂進行預測，并取得了令人驚訝的好結(jié)果。他們使用n 元語言模型將原始音頻淺層特征轉(zhuǎn)換為詞-文檔頻率矩陣（word-document frequency matrices），將邏輯回歸作為分類器，并使用概率系數(shù)來優(yōu)化精度。同時使用樂器、旋律和節(jié)拍等特征進行預測，其預測準確率峰值為0.882，對應召回率為0.279。Herremans 和Bergmans[11]在實驗中既使用音頻特征和元數(shù)據(jù)特征，又使用了一種基于社交媒體傾聽行為的新特征，建立了邏輯回歸和支持向量機等機器學習模型對熱門音樂進行預測。其結(jié)果表明，基于早期聽眾行為分析特征的邏輯回歸模型在預測排名前20 的熱門舞曲時表現(xiàn)最好，能夠達到0.79 的AUC 值。2019年，Yang 等人[20]對播客的非文本特征進行建模，提出了一種基于逆向?qū)W習的播客表示方法ALPR。其評價結(jié)果表明，同樣使用邏輯回歸的預測方法，相比于僅基于文本特征或先前研究中的音頻特征表示，ALPR 特征帶來了顯著的性能提升。同年，Georgieva 等人[5]將美國熱門歌曲排行榜Billboard年度排名前100 名的歌曲看作熱門歌曲，并整理了大約4000 首熱門和非熱門歌曲的數(shù)據(jù)集，從Spotify Web API 中提取了每首歌曲的音頻深淺層特征對熱門歌曲進行預測。通過五種機器學習算法，他們在驗證集上以大約75%的準確率預測了一首歌曲是否可以成為熱門歌曲。其中最成功的算法是邏輯回歸模型和帶有一個隱含層的神經(jīng)網(wǎng)絡方法。

邏輯回歸是一種被人們廣泛使用的算法，使用邏輯回歸對熱門音頻進行預測的優(yōu)勢除了上文提到的分類標準的嚴格程度可通過設置不同閾值而自由調(diào)節(jié)外，還具有高效、不需要太大計算量和縮放輸入特征、通俗易懂并且可以輸出校準好的預測概率等優(yōu)勢。但它最大的劣勢就是不能用來解決非線性問題，因為它的決策面是線性的。當去掉與輸出變量無關的特征以及相似度較高的特征時，邏輯回歸效果確實會更好。因此在熱門音頻預測中，特征工程質(zhì)量的好壞亦在該算法的性能方面起著重要的作用。

3.2.3 其他機器學習方法

除了應用較為廣泛并取得了較好的預測效果的支持向量機和邏輯回歸法外，貝葉斯網(wǎng)絡、移動感知器、隨機森林和XG-Boost 方法也曾被應用于熱門數(shù)字音頻的預測。

2009年，Singhi 和Brown[4]使用歌曲的歌詞信息進行了熱門歌曲預測的探索。他們使用31 種韻律和音節(jié)特征開發(fā)了一個熱門音樂檢測模型，對在2008年至2013年間進入Billboard年終熱門100 首單曲的歌曲進行訓練。他們使用492 首熱門歌曲和6 323 首非熱門歌曲訓練了貝葉斯網(wǎng)絡，得到了0.451的召回率和0.214 的預測準確率，結(jié)果優(yōu)于隨機結(jié)果。在他們的實驗中，隨著歌詞長度的增加，預測效果也會隨之提高。同年，Tsagkias等人[19]通過實驗證明，根據(jù)對比分析iTunes 上流行和非流行播客的指標特征，并使用PodCred 評估模型[27]中的一組基于人工分析的淺層特征指標可以用來預測播客的聽眾偏好。這些特征更多的涉及元數(shù)據(jù)的完整性、一致性以及播客的完成質(zhì)量等相關特性。他們成功在iTunes 上的一組播客數(shù)據(jù)上進行了熱門播客預測實驗。使用多種機器學習方法，他們能夠?qū)Tunes 上流行的播客與不流行的播客分類，并對播客進行排名，使iTunes 上最流行的播客名列前茅。其中預測熱門播客效果最好的是隨機森林法，通過使用所有維度的所有特征，可以取得0.83 的F1 值。2019年，Joshi等人[21]研究了播客的文本內(nèi)容特征，以探索在不同的熱門播客和非熱門播客中，文本線索的輔助作用。盡管一些文本內(nèi)容的極性和主觀性非常相似，但它們所包含的詞匯線索卻存在顯著差異。因此，他們采用了一種基于三元組的訓練方法，學習一個基于文本的播客表示，然后使用XG-Boost 算法用于熱門播客預測任務。其最佳模型的F1 值為0.82，比對照組的最佳水平提高了12.3%。

不同的機器學習算法可能會在不同的數(shù)據(jù)集上產(chǎn)生不同的預測效果，但可以肯定的是，在避免過擬合的情況下，選取恰當而更具表示性的特征輸入都會有助于提高各自算法的預測性能。

3.3 基于深度學習的預測算法

深度學習是人工智能的重要研究方向，也是人工智能技術發(fā)展迅速的領域之一，幫助計算機理解大量圖像、聲音和文本形式的數(shù)據(jù)。[34]人工神經(jīng)網(wǎng)絡，通常稱為神經(jīng)網(wǎng)絡，是一種基于實際生物神經(jīng)元功能的計算模型。它是一種非線性的統(tǒng)計工具，在模式識別領域廣泛應用，同時也是深度學習的核心方法。神經(jīng)網(wǎng)絡是一種自適應系統(tǒng)，它根據(jù)訓練數(shù)據(jù)在學習階段自動進行參數(shù)的調(diào)整。

第一次使用神經(jīng)網(wǎng)絡對熱門音頻進行預測的是Monterola 等人[25]，他們在從2004年至2006年發(fā)行的380 首菲律賓語原創(chuàng)音樂（OPM，Original Pilipino Music）歌曲（其中有190 首熱門歌曲）中提取了56個單值音樂特征（如音高和速度），并定義了一個評價標準來衡量每一個特征的表示能力，將排名最高的20 個音樂特征輸入神經(jīng)網(wǎng)絡，使用梯度下降反向傳播方法進行訓練，最后得到了81%的平均預測準確率，比使用此相同的數(shù)據(jù)集和特征建立的其他機器學習方法高出了約20%的預測準確率。其實驗結(jié)果顯示了使用神經(jīng)網(wǎng)絡方法對熱門音樂進行預測的樂觀前景與可觀優(yōu)勢，并在之后深度學習的發(fā)展歷程中得到了許多學者的實驗佐證。

隨著深度學習領域如火如荼的發(fā)展，對于熱門音頻預測領域的研究，學者們紛紛開始使用卷積神經(jīng)網(wǎng)絡方法進行模型的建立。不同的是模型的結(jié)構(gòu)有所不同，但都取得了較好的預測效果。同時，深層結(jié)構(gòu)和多種類特征輸入的模型預測效果往往優(yōu)于淺層結(jié)構(gòu)和單一特征輸入模型的預測效果。

2017年，Yang 等人[15]將熱門歌曲預測問題表示為一個回歸問題，并以原始的MFCC 特征作為特征輸入，訓練了一個簡單卷積神經(jīng)網(wǎng)絡模型、一個更高級的JYnet 模型[30]和這兩種模型的融合模型。其實驗表明，在預測中文歌曲或西方歌曲在中國臺灣地區(qū)的熱門程度時，深層結(jié)構(gòu)模型的預測效果比淺層結(jié)構(gòu)模型更準確。對西方歌曲的預測更依賴于模型的深層結(jié)構(gòu)，他們認為簡單的淺層模型可能無法捕捉西方流行歌曲中豐富的聲學特征和流派多樣性。

同年，Yu 等人[16]擴展了上述研究成果。他們建立了Siamese-CNN 模型，以歌曲對為輸入，然后聯(lián)合優(yōu)化兩首歌曲在預測熱門歌曲得分時的平均平方誤差和判斷兩首歌曲得分高低的成對排名損失。使用普通的卷積神經(jīng)網(wǎng)絡模型通常將熱門音頻預測作為一個回歸問題，而Siamese-CNN 模型可以同時學習音頻的流行性分數(shù)和相對排名。作者根據(jù)KKBOX 提供的商業(yè)數(shù)據(jù)對歌曲的每日播放次數(shù)進行評估，證實了Siamese-CNN 模型結(jié)構(gòu)在區(qū)分熱門歌曲和非熱門歌曲方面比其他基本算法更有效。

2019年，Zangerle 等人[6]采用了一個寬而深的神經(jīng)網(wǎng)絡模型，聯(lián)合利用音頻淺層特征、音頻深層特征以及元數(shù)據(jù)特征（音頻發(fā)行年份）預測美國Billboard 歌曲排行榜中年度前100 名的熱門音樂，使用多種類特征的聯(lián)合訓練模型效果顯著高于使用單一種類特征的預測模型，最高可達75.04%的準確率。

使用深度學習的方法對熱門數(shù)字音頻進行預測具有如下優(yōu)勢：他們在實踐中往往表現(xiàn)出比普通機器學習更好的預測精準度，同時可以學習訓練數(shù)據(jù)中非常復雜的底層特征，因為網(wǎng)絡隱藏層的存在減少了對特征工程的需求。此外深度學習法特別適用于大型數(shù)據(jù)集和高維度數(shù)據(jù)集。但其劣勢也相應表現(xiàn)在訓練速度較慢、需要消耗巨大的計算資源以及對于較為少量的訓練數(shù)據(jù)不能學習到效果較好的預測參數(shù)等方面。

3.4 預測算法小結(jié)

對上述熱門音頻預測算法進行性能分析總結(jié)，如表四所示。我們從預測類型、特征選擇、方法復雜度、預測效果及方法優(yōu)劣等幾個角度進行了總結(jié)。

表4 熱門音頻預測算法性能分析Table4 Performance analysis of popular audio prediction algorithms

4 總結(jié)與展望

如上文所述，熱門音頻預測領域自發(fā)展以來，大多數(shù)研究學者在熱門音樂或熱門播客預測領域都取得了較為樂觀的實驗結(jié)果。通過建立不同的預測模型，選取不同的特征數(shù)據(jù)，從而取得了各不相同的預測效果，其中使用深度學習方法的預測效果最令人滿意。但熱門數(shù)字音頻預測領域的研究并不是一帆風順的，Salganik 等人[35]曾在2006年提出過文化市場不可預測性的主張，Pachet 和Roy[36]在2008年通過不成功的熱門音樂預測實驗檢驗了這一主張在音樂市場上的有效性，Borg 和Hokkanen[14]以及Reiman 和?rnell[37]同樣認為，一首歌曲是否能成為熱門歌曲很可能是由社會力量驅(qū)動的，而音頻本身的內(nèi)部特征不足以支撐成功的熱門音頻預測實驗。

對于這些質(zhì)疑，筆者認為其實驗失敗的原因可能在于直接使用了第三方API 獲得特征進行訓練，在實驗中缺少了選取關鍵或者是有效特征的過程。此外，對音樂數(shù)據(jù)集“熱門”這一指標的不同定義方法也會在一定程度上影響預測效果。同時，訓練模型的維數(shù)災難和過擬合現(xiàn)象可能也是導致預測失敗的原因。

筆者對于熱門音頻預測領域未來的發(fā)展仍是看好的?？茖W研究活動必然借助于先進的數(shù)據(jù)與計算平臺，先進的數(shù)據(jù)與計算平臺也將因應用需求驅(qū)動演進出更新的技術，驅(qū)動當代科學研究的螺旋式上升[38]。隨著深度學習、大數(shù)據(jù)和云計算技術的深入發(fā)展，會有更大量的可用實驗音頻數(shù)據(jù)集，對于“熱門”指標的衡量也可以通過加入更多維度的數(shù)據(jù)計算過程來使其更加客觀和準確。同時，計算機的數(shù)據(jù)計算和處理能力也會不斷加強，各種改進的深度學習算法層出不窮，熱門音頻預測領域仍會有很大的探索空間,具體可歸納為以下三點：

（1）優(yōu)化特征選取過程：特征選擇的好壞與模型的預測效果息息相關，除了本文中介紹的學者常用的特征外，選取表示性更強的音頻淺層特征、發(fā)明更具針對性的音頻深層特征、合理利用文本特征和元數(shù)據(jù)特征可能會取得更好的預測效果。

（2）優(yōu)化“熱門”指標的衡量方法：由于問題定義本身固有的類別不平衡，熱門播客或歌曲在語料庫中總是占少數(shù)，這會導致訓練數(shù)據(jù)集的不平衡。此外目前大多數(shù)文獻都是通過使用播放量或者是熱門排行榜中的排名這種單維第三方數(shù)據(jù)來衡量音頻的“熱門”程度，因此該指標可能并不科學或客觀。更多的社會影響要素如推廣宣傳、時事熱點等狀況未被考慮進去。這一領域更是需要更深入的跨學科研究過程。

（3）從預測模型算法方面進行優(yōu)化：可以利用多層音頻特征、文本特征以及元數(shù)據(jù)特征來構(gòu)建改進的多模態(tài)模型或融合模型，使算法更具對熱門數(shù)字音頻預測領域的問題針對性。

此外，由上文可知，目前國內(nèi)科研界對熱門數(shù)字音頻預測領域的研究內(nèi)容較為欠缺，筆者在搜集文獻時可查閱的中文文獻相對較少。而在世界范圍內(nèi)，熱門音樂預測領域的研究成果也遠遠多于熱門播客預測領域的研究成果。但值得一提的是，目前我國移動網(wǎng)絡電臺發(fā)展迅速，根據(jù)前瞻產(chǎn)業(yè)研究院的報告顯示，喜馬拉雅FM 在2020年5月的平臺月活用戶數(shù)已超過9937.39 萬人，因此對我國熱門播客預測領域進行研究具備深遠意義。

利益沖突聲明

所有作者聲明不存在利益沖突關系。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看