• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學(xué)習(xí)的音樂推薦系統(tǒng)

      2018-05-29 09:18:05湯敬浩李劍
      移動(dòng)信息 2018年2期
      關(guān)鍵詞:編碼器音頻卷積

      湯敬浩 李劍

      ?

      基于深度學(xué)習(xí)的音樂推薦系統(tǒng)

      湯敬浩 李劍

      北京郵電大學(xué),北京 100876

      為了提高音樂推薦系統(tǒng)的推薦質(zhì)量,提出一種基于深度學(xué)習(xí)的推薦系統(tǒng)。使用自動(dòng)編碼器并結(jié)合卷積神經(jīng)網(wǎng)絡(luò),挖掘音頻、歌詞本身的非線性特征,并將內(nèi)容特征與協(xié)同過濾共同作用,訓(xùn)練緊耦合模型。在Kaggle的百萬音樂比賽數(shù)據(jù)集上,MAP可以達(dá)到0.232?83,通過對比實(shí)驗(yàn),證明該模型的表現(xiàn)相比傳統(tǒng)的協(xié)同過濾方法有顯著提升。

      推薦系統(tǒng);深度學(xué)習(xí);自動(dòng)編碼器;協(xié)同過濾

      引言

      推薦系統(tǒng)用來向用戶推薦用戶可能感興趣的產(chǎn)品。一個(gè)優(yōu)秀的推薦系統(tǒng)可以大幅提高公司的收入,也可以提高用戶體驗(yàn),讓用戶駐留。推薦系統(tǒng)主要用于估計(jì)用戶對于他們未知的物品的項(xiàng)目的偏好[1]。推薦系統(tǒng)使用的方法一般分為三類:協(xié)同過濾(collaborative filtering),基于內(nèi)容的推薦(content-based)和混合推薦系統(tǒng)(hybrid recommendation system)。協(xié)同過濾的原理是根據(jù)歷史使用數(shù)據(jù)確定用戶的喜好。純粹的協(xié)同過濾方法,除了相關(guān)的消費(fèi)模式信息以外,不涉及被推薦物品本身的任何信息。協(xié)同過濾方法的優(yōu)點(diǎn)是不涉及具體推薦物品本身的信息,設(shè)計(jì)簡單,但其最大問題在于“冷啟動(dòng)”以及新用戶或者新物品添加進(jìn)來后的算法健壯性?;趦?nèi)容的推薦主要根據(jù)用戶的消費(fèi)行為、生活習(xí)慣或者社會(huì)屬性等信息為其抽象出標(biāo)簽化的用戶畫像(Persona),并根據(jù)物品的內(nèi)容抽取物品的特征來表示該物品,最后根據(jù)用戶畫像和物品特征建立模型,在候選集中為用戶推薦相關(guān)性最高的物品。

      本文主要集中推薦在音樂領(lǐng)域的應(yīng)用,音樂推薦系統(tǒng)可以自動(dòng)匹配用戶的興趣,給其推薦符合其口味的音樂。與歌曲相關(guān)的因素中,旋律以及歌詞至關(guān)重要。在大多數(shù)情況下,我們是否喜歡一首歌,取決于它本身的音頻內(nèi)容,如聲音、旋律、節(jié)奏、音色、流派、樂器、情緒或者歌詞。因此,音頻以及歌詞可以為推薦提供很好的預(yù)測能力。

      深度學(xué)習(xí)應(yīng)用在推薦學(xué)習(xí)起源于Netflix Prize競賽后半程出現(xiàn)的受限玻爾茲曼機(jī)算法(Restricted Boltzmann Machine)。近幾年,基于深度學(xué)習(xí)的推薦方法的相關(guān)研究也急劇增加。Covington等人[2]提出了一種基于dnn的Youtube視頻推薦系統(tǒng)。Cheng 等人[3]使用深度模型為Google Play做推薦。 Shumpei等人[4]展現(xiàn)了RNN在Yahoo新聞推薦上的應(yīng)用。

      本文主要做了基于深度學(xué)習(xí)的音樂推薦系統(tǒng),探索深度學(xué)習(xí)在提取音頻特征以及深度學(xué)習(xí)在特征提取上的優(yōu)勢,提出一種基于卷積自動(dòng)編碼器的混合推薦系統(tǒng),通過實(shí)驗(yàn)對結(jié)果進(jìn)行分析,與傳統(tǒng)的協(xié)同過濾算法比較優(yōu)劣,并闡述本文方法能取得更好效果的深層次原因。

      1 數(shù)據(jù)集

      1.1 數(shù)據(jù)獲取

      實(shí)驗(yàn)數(shù)據(jù)來自于哥倫比亞大學(xué)的研究網(wǎng)站上的Million Song Dataset[5]。Million Song Data(MSD)共包含超過380?000首音樂,結(jié)合本文,共用到以下三類數(shù)據(jù)。

      (1)音頻數(shù)據(jù)。梅爾頻率倒譜系數(shù)(MFCC)特征以及色度向量(Chroma)特征,MFCC被廣泛應(yīng)用在語音識(shí)別領(lǐng)域,例如鑒別說話人、語音轉(zhuǎn)文字等應(yīng)用,同樣其也應(yīng)用在音樂信息檢索領(lǐng)域,例如曲風(fēng)分類、音頻相似性計(jì)算等。色度向量(Chroma Vector)是另一種特征。它是一個(gè)含有12個(gè)元素的向量。每個(gè)元素表示著一段時(shí)間(例如一幀)內(nèi)12個(gè)音級(jí)中的能量,不同八度的同一音級(jí)能量累加。該特征在和弦檢測中是一種很典型的方法,可以判斷音頻在某一段時(shí)間內(nèi)的主要音級(jí)。

      (2)評分?jǐn)?shù)據(jù)。100萬用戶對歌曲收聽次數(shù)的數(shù)據(jù)。

      (3)歌詞數(shù)據(jù)。因版權(quán)問題,歌詞以詞袋模型(bag of words)的格式給出,即給出了每首歌出現(xiàn)的詞語和詞語的頻數(shù)。為了充分利用歌詞特征,我們另外從380?000+ lyrics from MetroLyrics[6]中獲取了多達(dá)380?000首音樂的歌詞。盡管我們不能將該數(shù)據(jù)中的歌曲與Million Song Dataset中的歌曲對應(yīng),但我們可以通過word2vec模型為每個(gè)詞語進(jìn)行向量化,為模型提供歌詞層面的特征。

      1.2 實(shí)驗(yàn)評估標(biāo)準(zhǔn)

      為了評估模型,我們選用Kaggle的比賽Million Song Dataset Challenge[7]。該比賽主要以MSD中100萬用戶對38萬首音樂的收聽次數(shù)作為訓(xùn)練數(shù)據(jù)(其他數(shù)據(jù)也可以使用,例如38萬首音樂的音頻、歌詞等數(shù)據(jù)),并提供了其他11萬個(gè)評估用戶(與訓(xùn)練數(shù)據(jù)中的100萬用戶不重復(fù))對該38萬首音樂的共300萬條收聽記錄,其中一半的收聽數(shù)據(jù)可見,另一半數(shù)據(jù)作為測試集合。比賽中使用了平均精度均值(Mean Average Precision,縮寫MAP)作為評估標(biāo)準(zhǔn),平均精度均值是一種兼顧召回以及排序的評估方式,其計(jì)算方式如下:

      1.3 特征提取

      2 混合推薦模型

      2.1 模型定義

      2.2 自動(dòng)編碼器

      自動(dòng)編碼器是一種前饋神經(jīng)網(wǎng)絡(luò)算法,包括編碼器和解碼器兩部分。編碼器函數(shù)將輸入壓縮為低維度的特征,解碼器將低維度的特征解壓,目標(biāo)是使輸出和輸入最相近。為了讓自動(dòng)編碼器能夠提取、編碼出更魯棒性的特征,文獻(xiàn)[8]提出了降噪自動(dòng)編碼器(Denoising Autoencoder)。降噪的方式是將輸入矩陣污染,以一定概率添加噪音,盡管將輸入添加了噪音,但是自動(dòng)編碼器還是盡力還原了輸入,因此這種方式學(xué)習(xí)的模型更有魯棒性。仿照DBN和RBM的關(guān)系,堆疊式自動(dòng)編碼器(Stacked Autoencoder)的提出,為深度學(xué)習(xí)中的生成模型新添了一員。同樣堆疊式自動(dòng)編碼器是一個(gè)多層的神經(jīng)網(wǎng)絡(luò),但是每層的訓(xùn)練是逐層的。首先訓(xùn)練第一層,得到第一層的輸出,然后作為第二層autoencoder的輸入,然后層層堆疊。

      AutoRec[9]使用自動(dòng)編碼器(Autoencoder)來學(xué)習(xí)評分矩陣。該文獻(xiàn)使用自動(dòng)編碼器來預(yù)測評分矩陣中缺失的值。該模型的輸入是評分矩陣中的一行(User-based)或者一列(Item-based),目標(biāo)是讓模型的輸出等于模型的輸入,使用反向傳播算法訓(xùn)練。因此評分矩陣中缺失的評分值以通過模型的輸出預(yù)測,從而進(jìn)行推薦。

      圖1 模型的整體架構(gòu)

      音樂本身的音頻內(nèi)容是決定用戶是否喜歡的最關(guān)鍵因素,因此對于音頻特征的處理是重中之重。Van den Oord A[10]的工作已詳細(xì)證明了卷積神經(jīng)網(wǎng)絡(luò)在抽取音頻特征的實(shí)力。因此,對于這種多維度的音頻特征,結(jié)合卷積神經(jīng)網(wǎng)絡(luò),本文提出一種卷積自動(dòng)編碼器結(jié)構(gòu),用于提取音頻特征。

      2.3 混合推薦模型

      2.4 物品側(cè)卷積自動(dòng)編碼器

      2.5 用戶側(cè)自動(dòng)編碼器

      2.6 緊耦合模型

      首先預(yù)訓(xùn)練用戶側(cè)和物品側(cè)兩個(gè)自動(dòng)編碼器,隨后將其連接建立緊耦合的矩陣分解的模型,將網(wǎng)絡(luò)連接成如圖1所示。一起訓(xùn)練緊耦合的模型。那么我們模型整體的損失函數(shù)為:

      3 實(shí)驗(yàn)以及結(jié)果分析

      3.1 數(shù)據(jù)預(yù)處理

      3.2 實(shí)驗(yàn)及結(jié)果分析

      為了對比本文算法的優(yōu)劣,我們分別做了矩陣分解(ALS),堆疊式降噪自動(dòng)編碼器(AutoRec)[9]以及我們提出的混合推薦模型三個(gè)實(shí)驗(yàn),用以評估我們的模型優(yōu)劣。實(shí)驗(yàn)均使用Tensorflow編寫。

      在訓(xùn)練時(shí),最主要的訓(xùn)練數(shù)據(jù)是評分矩陣,但該數(shù)據(jù)是高度稀疏的數(shù)據(jù)。為了可以應(yīng)用梯度下降等最優(yōu)化方法訓(xùn)練,在Tensorflow中,可以使用tf.gather取出對應(yīng)維度以及下標(biāo)數(shù)據(jù),使其連續(xù)。

      三種實(shí)驗(yàn)均可得到每首音樂的隱含特征向量,隨后擬合測試評分矩陣的可見部分,進(jìn)而計(jì)算測試數(shù)據(jù)的MAP值。

      首先,統(tǒng)計(jì)了三種實(shí)驗(yàn)在Kaggle比賽數(shù)據(jù)中的平均精度均值,如表1所示。

      表1 三個(gè)實(shí)驗(yàn)以及Kaggle比賽中Top5成績的MAP@500

      如表1所示,由于該比賽為2012年的比賽,而當(dāng)時(shí)比賽的第一名[11]使用的算法是基于物品的協(xié)同過濾方法。

      從結(jié)論中可以看出,矩陣分解(ALS)這種基于模型的協(xié)同過濾要比傳統(tǒng)的基于用戶或者基于物品的效果更高,但由于ALS只能捕捉到用戶和物品之間的線性關(guān)系,而降噪自動(dòng)編碼器(AutoRec)使用了自動(dòng)編碼器實(shí)現(xiàn)的協(xié)同過濾,由于神經(jīng)網(wǎng)絡(luò)激活函數(shù)的非線性,其相當(dāng)于評分矩陣的非線性變換,可以捕捉到用戶和物品之間的非線性關(guān)系,結(jié)果也符合期望,要優(yōu)于ALS實(shí)現(xiàn)的矩陣分解。本文提出的混合推薦模型,結(jié)合了音頻特征,以及word2vec預(yù)訓(xùn)練的歌詞特征,使用卷積自動(dòng)編碼器以及矩陣分解實(shí)現(xiàn)了一種混合推薦模型,其MAP@500可以達(dá)到0.232?83,遠(yuǎn)高于僅使用基于物品的協(xié)同過濾的推薦效果。

      對于本文提出的混合推薦模型,不僅融入了協(xié)同過濾,而且還通過卷積和全連接的方式學(xué)習(xí)音頻、歌詞特征。在訓(xùn)練混合推薦模型時(shí),均使用了線性整流函數(shù)(ReLU)作為激活函數(shù),卷積輸入的維度為12×120×2,卷積層1使用了16個(gè)卷積核,輸出維度為12×120×16,隨后池化層1將其縮減為6×60×16。卷積層2仍然是十六個(gè)卷積核,那么輸出維度為6×60×16,經(jīng)過池化層2后,輸出維度為3×30×16。將其展開為一維特征1?440×1,與歌詞向量500×1貼合一起經(jīng)過一層全連接層后,輸出音樂的隱含特征向量,隱含特征向量的維度設(shè)置為500,以上為編碼部分,接下來的解碼部分與編碼部分反向,不再贅述。

      4 結(jié)論

      本文提出了一種混合推薦模型,用以推薦音樂,在傳統(tǒng)的協(xié)同過濾的方式之上,添加了音頻特征以及歌詞特征的學(xué)習(xí)。實(shí)驗(yàn)證明,該方法比一些傳統(tǒng)的協(xié)同過濾方式表現(xiàn)更優(yōu)異。

      [1]GB/T 7714 Adomavicius G,Tuzhilin A. Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions[J]. IEEE transactions on knowledge and data engineering,2005,17(6):734-749.

      [2]Covington P,Adams J,Sargin E. Deep neural networks for youtube recommendations[C]// Proceedings of the 10th ACM Conference on Recommender Systems. ACM,2016:191-198.

      [3]GB/T 7714 Cheng H T,Koc L,Harmsen J,et al. Wide & deep learning for recommender systems[C]// Proceedings of the 1st Workshop on Deep Learning for Recommender Systems. ACM,2016:7-10.

      [4]Okura S,Tagami Y,Ono S,et al. Embedding- based News Recommendation for Millions of Users[C]// Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM,2017:1933-1942.

      [5]Bertin-Mahieux T,Ellis D P W,Whitman B,et al. The Million Song Dataset[C]//Ismir. 2011,2(9):10.

      [6]Mishra G. (2016). 380,000+ lyrics from MetroLyrics. [online] Available at: https://www.kaggle.com/gyani95/ 380000-lyrics-from-metrolyrics [Accessed 27 Nov. 2017].

      [7]Kaggle. (2017). Million Song Dataset Challenge. [online] Available at:https://www.kag-gle.com/c/ msdchallenge [Accessed 27 Nov. 2017].

      [8]Vincent P,Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoders[C]//Proceedings of the 25th international conference on Machine learning. ACM,2008:1096-1103.

      [9]Sedhain S, Menon A K, Sanner S, et al. Autorec: Autoencoders meet collaborative filtering[C]//Procee- dings of the 24th International Conference on World Wide Web. ACM, 2015: 111-112.

      [10]Van den Oord A, Dieleman S, Schrauwen B. Deep content-based music recommendation[C]//Advances in neural information processing systems, 2013:2643-2651.

      [11]Aiolli F. A Preliminary Study on a Recommender System for the Million Songs Dataset Challenge[C]//IIR. 2013:73-83.

      Deep learning based music Recommendation System

      Tang Jinghao Li Jian

      Beijing University of Posts and Telecommunications, Beijing 100876

      In order to improve the efficiency of the music recommendation system, a deep learning based on recommendation system is proposed. A convolutional stack autoencoder model is used to mining the non-linear features of audio and lyrics. Then, a tightly coupled model is trained using side information combined with collaborative filtering. On Kagg’s million song dataset challenge, the MAP score can reach 0.232?83. The experimental results show that the performance of the model compared to traditional collaborative filtering method is improved significantly.

      recommendation system; deep learning; autoencoder; collaborative filtering

      TP391.3

      A

      猜你喜歡
      編碼器音頻卷積
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      基于FPGA的同步機(jī)軸角編碼器
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
      電子制作(2017年9期)2017-04-17 03:00:46
      基于PRBS檢測的8B/IOB編碼器設(shè)計(jì)
      Pro Tools音頻剪輯及修正
      人間(2015年8期)2016-01-09 13:12:42
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
      電子器件(2015年5期)2015-12-29 08:42:24
      宣威市| 鹤峰县| 绩溪县| 云浮市| 荆州市| 汾西县| 汉沽区| 堆龙德庆县| 彰武县| 麦盖提县| 呼玛县| 河源市| 乐东| 康平县| 济南市| 黄平县| 阜新| 星座| 文安县| 长治县| 逊克县| 芜湖市| 云霄县| 沅陵县| 京山县| 柏乡县| 织金县| 喜德县| 潮安县| 巴南区| 醴陵市| 青州市| 泰兴市| 承德市| 浪卡子县| 兴和县| 铁岭县| 漳平市| 红桥区| 临猗县| 大港区|