錢貝貝 陳志波
摘要:隨著大數(shù)據(jù)時代的到來,互聯(lián)網(wǎng)技術的快速發(fā)展,人們的聽歌模式也發(fā)生了翻天覆地的變化,音樂數(shù)字化給人們的生活帶來了便利,在線音樂播放成為主流。聽音樂是當代年輕人最常見的解壓方式之一,隨之而來的在線音樂平臺更是層出不窮,其中的網(wǎng)易云音樂最受當代年輕人的青睞。為了讓用戶更加清晰地了解音樂類型的分布、音樂潮流趨勢,文章利用 Python網(wǎng)絡爬蟲技術,從網(wǎng)易云網(wǎng)站爬取相關數(shù)據(jù),對音樂類型、音樂播放數(shù)量以及評論等多個角度進行分析,并使用Python可視化庫中的Matplotlib對數(shù)據(jù)進行可視化分析,用圖表的形式,從多重角度對音樂進行分析,讓用戶更加清晰地了解音樂類型的分布、音樂潮流趨勢,為用戶選擇音樂提供一個參考。
關鍵詞:計算機科學與技術; Python;在線音樂;爬蟲;可視化
中圖分類號:TP312? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)08-0006-03
1 引言
隨著移動互聯(lián)網(wǎng)迅猛發(fā)展、數(shù)字音樂的興起,人們聽音樂的方式轉變?yōu)樵诰€音樂,導致在線音樂的需求不斷在增加,各大音樂網(wǎng)站上也有了海量的用戶群體[1]。成長在移動互聯(lián)網(wǎng)環(huán)境下年輕一代,越發(fā)依賴在線音樂。QQ音樂、酷我音樂、網(wǎng)易云音樂等是國內現(xiàn)有的幾大主流音樂平臺。其中網(wǎng)易云音樂登頂音樂類App用戶的榜首。網(wǎng)易云音樂最初的目標是建立一個音樂社交網(wǎng)絡,就不同操作系統(tǒng)客戶端上線效率而言,網(wǎng)易云音樂側重于小眾圈子,提高了對小眾人群的關注,而小眾人群有比較大的概率形成社群,經過這種網(wǎng)絡關系來提升品牌價值。根據(jù)易觀分析發(fā)布的《2021中國在線用戶洞察報告》中的數(shù)據(jù)顯示,相比酷我音樂、酷狗音樂和QQ音樂等,網(wǎng)易云音樂是年輕用戶占比最大的平臺,35歲以下的用戶約占80%。如圖1所示,根據(jù)《2020年網(wǎng)易云音樂銷售手冊》顯示:網(wǎng)易云的用戶中,以學生及白領、15~35歲、高學歷、一二線城市、可支配收入高的群體為主,聽歌的人群更加年輕化。因此對網(wǎng)易云音樂進行數(shù)據(jù)可視化分析,有利于提高用戶的音樂體驗,即用戶可以根據(jù)自己的喜好,選擇自己對應音樂標簽的聽音樂,也有利于更加直觀地剖析音樂數(shù)據(jù),輔助音樂公司做出決策。
2 相關技術
2.1 網(wǎng)絡爬蟲技術
網(wǎng)絡爬蟲也稱為“蜘蛛”,它可以在海量的互聯(lián)網(wǎng)信息爬取需要的信息。簡單地說它是模擬人類請求網(wǎng)站的行為,即自動請求網(wǎng)頁、抓取數(shù)據(jù),然后從中提取有價值的數(shù)據(jù)[2]。具體步驟如下,首先發(fā)送請求獲取目標網(wǎng)頁,通過分析頁面獲得網(wǎng)頁的源代碼。其次,解析頁面從網(wǎng)頁源代碼中提取出本研究所需的數(shù)據(jù)。該操作為數(shù)據(jù)的處理以及分析提供便利,因此需要給予高度重視。最后,以適當?shù)母袷奖4娉槿〉牟糠謹?shù)據(jù)。通常以TXT文本、CSV或JSON等格式將數(shù)據(jù)保存在文本中[3-4]。
2.2 可視化技術
數(shù)據(jù)可視化是把數(shù)據(jù)以圖形或者表格的形式展示。用圖表的方式能清晰地展示數(shù)據(jù)信息,不僅保證數(shù)據(jù)直觀易分析,而且保證了美感。本文利用Python將數(shù)據(jù)可視化,可以快速生成各種簡單美觀的圖,例如柱狀圖、餅狀圖、折線圖、樹狀圖等,其語言簡潔、效率高,將數(shù)據(jù)直觀地呈現(xiàn)出來,讓人們更加方便地理解數(shù)據(jù),從而更好地輔助人們做出決策。其次,Python能將數(shù)據(jù)爬蟲及數(shù)據(jù)分析集成在一起,便于方便信息的獲取及分析,并且基于Python的數(shù)據(jù)可視化使用起來相對靈活[5-6]。
3 數(shù)據(jù)的獲取及處理過程
首先在網(wǎng)易云網(wǎng)站爬取音樂相關數(shù)據(jù),其次對爬取下來的數(shù)據(jù)進行預處理,即除去殘缺、冗余的數(shù)據(jù),最后將數(shù)據(jù)可視化,如圖2為數(shù)據(jù)處理流程。
3.1 數(shù)據(jù)的獲取
數(shù)據(jù)集來源于網(wǎng)易云網(wǎng)站,登錄網(wǎng)易云網(wǎng)站,點擊排行榜進入各大榜單,進入開發(fā)者工具查看、分析網(wǎng)頁的源代碼。Python爬蟲算法通過調用Requests模塊向網(wǎng)頁發(fā)起請求,請求通過后即可抓取網(wǎng)頁的數(shù)據(jù),根據(jù)網(wǎng)頁節(jié)點屬性使用BeautifulSoup 獲取所需要的數(shù)據(jù),包括每首音樂的具體介紹都包含在一對 div 中提取出音樂的信息后,根據(jù)需要借助庫文件 BeautifulSoup 提取出音樂介紹、名稱、評論人數(shù)等相關信息。Python內置了CSV文件操作函數(shù),然后將數(shù)據(jù)寫入CSV文件實現(xiàn)保存工作。如圖3所示為數(shù)據(jù)爬取流程圖。
網(wǎng)易云音樂對數(shù)據(jù)爬蟲的IP有限制,所以通常無法直接獲取目標音樂的全部數(shù)據(jù),這是由于網(wǎng)易云是一個具有反爬蟲功能的網(wǎng)站,此時通過Requests庫設置爬蟲User-Agent,一般來說第三方庫發(fā)送請求會有一個默認的User-Agent,如果直接用這個User-Agent,就很容易被禁止,可以弄一個User-Agent池,然后每次訪問時都從中隨機抽取一個User-Agent[7]。
3.2 數(shù)據(jù)預處理
通過爬蟲得到的數(shù)據(jù)并不是就可以用,因為有一些關鍵信息的殘缺數(shù)據(jù)或者重復的數(shù)據(jù),所以此時要對這些殘缺重復的數(shù)據(jù)進行處理工作。殘缺關鍵信息的數(shù)據(jù)通過數(shù)據(jù)預處理變完整,錯誤的數(shù)據(jù)、多余的數(shù)據(jù)經過處理將其糾正、去除,進而將所需的數(shù)據(jù)挑選出來,并且進行數(shù)據(jù)集成。數(shù)據(jù)清洗、數(shù)據(jù)集成這些都是常見數(shù)據(jù)預處理的方法。
本文采取數(shù)據(jù)清洗將爬取的數(shù)據(jù)進行處理,數(shù)據(jù)清洗主要有以下幾個步驟,首先去掉重復值,其次刪除缺失重要信息的數(shù)據(jù)項,最后處理空值。比如在同一個歌單下,去掉重復地爬取某幾首歌曲;爬取到歌曲信息不全的數(shù)據(jù)進行刪除。通過數(shù)據(jù)清洗可以使數(shù)據(jù)保持一致性和完整性。
4 實驗過程及分析
4.1 實驗平臺
本文是在Pycharm中完成,Pycharm是一款配置簡單、功能強大的支持多語言的編譯器,在使用Python語言開發(fā)時其效率很高,提供了如調試、代碼跳轉、智能提示、Project管理等功能,為項目開發(fā)提供了便利。CA3E1CE6-D75E-4DDF-BAF2-9A2417BDDD0D
4.2 實驗結果分析
本文數(shù)據(jù)來源于網(wǎng)易云音樂網(wǎng)站,利用Python爬蟲技術獲取到音樂數(shù)據(jù),并對數(shù)據(jù)進行處理,最后利用Python可視化工具,將實驗結果以更直觀的形式呈現(xiàn)出來。如表1和表2所示為部分歌單索引信息表和部分歌單詳情表。
那么音樂類型、評分等因素對用戶的選擇有什么影響呢?首先,從音樂類型的數(shù)量分析熱門類型,可以發(fā)現(xiàn)哪種類型的音樂最符合大眾的需求,即所謂的潮流音樂。其次,用戶的收藏是一個顯性行為,可以直接反映出用戶對音樂的滿意程度。再次,結合歌單的播放次數(shù),播放的次數(shù)越多,說明此歌單最受大眾的喜愛。最后,大眾的評論數(shù)也是可以直接反映音樂的熱度。
網(wǎng)易云音樂為迎合不同喜好的用戶,設置了許多類型的標簽,其中主流10種音樂標簽類型有:歐美、流行、電子、說唱、放松、浪漫、搖滾、R&B/Soul、興奮和影視原聲。從圖4可以看出:歐美音樂的數(shù)量是1306首,是流行類數(shù)量占比的兩倍多,說明歐美類型音樂最受聽眾的追捧。從圖中可以清晰地看出主流音樂的類型,這個對于音樂制片公司來說,也是一個啟發(fā),大部分音樂制片公司都會選擇主流的音樂,這樣能獲取的利益較大。
收藏歌單這個行為充分反映了用戶對歌單的喜好,如圖5所示為歌單播放量前十名單,第一名336萬的收藏量,是第二名收藏量的4倍多,說明歐美私人定制這個歌單比較受大眾的喜歡,在新用戶加入網(wǎng)站時,想要選擇一些當前比較熱門的歌曲,此時,歌單收藏就可以作為一個參考,收藏得越多,說明是當下比較流行的音樂。
用戶收聽次數(shù)從側面反映用戶對音樂的喜愛程度,用戶喜歡這首音樂,可能在試聽過一次后,會重復收聽多次,反之,用戶可能在試聽過一次就不再收聽,如圖6為網(wǎng)易云歌單播放Top10,從圖上可以清晰地看出當下播放最多的歌單。
評分是用戶最直接體現(xiàn)對音樂的喜好程度,也是用戶對音樂的接受程度進行的評價和回饋,一方面取決于音樂自身的藝術質量,另一方面則取決于用戶本身情感的需求。通過可視化網(wǎng)易云音樂歌單評論,通過用戶的評論,音樂網(wǎng)站根據(jù)意見和建議,做相應的改進與完善,而且剛剛入駐音樂網(wǎng)站的新用戶能夠根據(jù)評論挑選出自己喜愛的音樂,是新用戶聽音樂參考的重要指標,也是反映了當時的音樂潮流。如圖7為網(wǎng)易云歌單評論Top10圖。
綜上所述,音樂數(shù)據(jù)可視化,對于用戶選擇音樂有一定的參考價值,也能看出歐美音樂還是比較受大眾的喜愛,也給國產音樂一定的啟發(fā),未來國產音樂創(chuàng)作需要創(chuàng)新,以滿足用戶在大眾文化的時代背景下高速增長的聽覺需求。
5 結束語
本文通過Python爬蟲技術,在網(wǎng)易云網(wǎng)站上獲取數(shù)據(jù)并對數(shù)據(jù)進行處理,并利用Python數(shù)據(jù)可視化工具,將實驗數(shù)據(jù)通過圖表的方式呈現(xiàn)出來,通過對網(wǎng)易云網(wǎng)站的音樂數(shù)據(jù)分析,可以給音樂公司一些決策提示,也可以為用戶收聽音樂提供重要的參考指標。
參考文獻:
[1] 李娜娜.數(shù)字化時代的青少年音樂亞文化研究——基于自目的性分析視角[J].中國青年研究,2021(9):47,89-95.
[2] 潘曉英,陳柳,余慧敏,等.主題爬蟲技術研究綜述[J].計算機應用研究,2020,37(4):961-965,972.
[3] 于娟,劉強.主題網(wǎng)絡爬蟲研究綜述[J].計算機工程與科學,2015,37(2):231-237.
[4] 秦雅琴,馬玲玲.網(wǎng)絡爬蟲技術在交通信息獲取中的應用綜述[J].武漢理工大學學報(交通科學與工程版),2020,44(3):456-461.
[5] 李晶,黃杰,袁慧,等.大數(shù)據(jù)環(huán)境下網(wǎng)絡威脅可視化分析系統(tǒng)設計與實現(xiàn)[J].中南民族大學學報(自然科學版),2022,41(1):79-86.
[6] 賈艷平,翟晉剛.基于Python爬蟲技術的游客評論數(shù)據(jù)可視化分析[J].安陽師范學院學報,2021(5):51-54.
[7] 劉毅.網(wǎng)站反爬取機制的研究與應用[D].北京:北京郵電大學,2017.
【通聯(lián)編輯:謝媛媛】CA3E1CE6-D75E-4DDF-BAF2-9A2417BDDD0D