• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      視頻網(wǎng)站評論數(shù)據(jù)處理及分析

      2022-02-24 00:08:31劉渝妍洪孫焱曹嘉晨
      計(jì)算機(jī)時(shí)代 2022年2期
      關(guān)鍵詞:網(wǎng)絡(luò)爬蟲大數(shù)據(jù)

      劉渝妍 洪孫焱 曹嘉晨

      摘? 要: 視頻網(wǎng)站的用戶評論、彈幕逐漸成為視頻內(nèi)容之外的一個(gè)引起熱議的話題。視頻評論作為新的文化產(chǎn)品和文化形式,引起了社會(huì)的關(guān)注。文章以B站為例,通過網(wǎng)絡(luò)爬蟲收集數(shù)據(jù),利用大數(shù)據(jù)相關(guān)技術(shù),對評論數(shù)據(jù)進(jìn)行處理分析,并以詞云圖及散點(diǎn)圖的方式呈現(xiàn)用戶的關(guān)注點(diǎn)及語言表達(dá)的差異性,直觀地為相關(guān)研究提供參考。

      關(guān)鍵詞: 網(wǎng)絡(luò)爬蟲; 大數(shù)據(jù); 評論數(shù)據(jù); 詞云圖; 散點(diǎn)圖

      中圖分類號(hào):TP311? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2022)02-76-04

      Processing and analysis of the video website comments data

      ——Taking Station B as an example

      Liu Yuyan, Hong Sunyan, Cao Jiachen

      (College of Information Engineering,Kunming University, Kunming, Yunnan 650214, China)

      Abstract: User comments and bullet screens of video websites have gradually become a hot topic outside the video content. As a new cultural product and form, video commentary has attracted social attention. Taking the station B as an example, this paper collects data through Web crawlers, processes and analyzes the comments data by using big data related technologies, and presents the differences of users' concerns and language expression in the form of word cloud diagram and scatter diagram, so as to intuitively provide reference for relative researches.

      Key words: Web crawler; big data; comments data; word cloud map; scatter diagram

      0 引言

      B站,即嗶哩嗶哩(bilibili)視頻網(wǎng)站,誕生于2009年,是通過視頻表現(xiàn)形式傳播文化的網(wǎng)站,其發(fā)展至今已躋身于國內(nèi)最大的實(shí)時(shí)彈幕視頻網(wǎng)站之列。B站作為一個(gè)創(chuàng)作、分享、討論交流的平臺(tái),激勵(lì)用戶自制原創(chuàng)視頻成為UP主[1],吸引了越來越多的年輕人選擇在B站上創(chuàng)作視頻。據(jù)統(tǒng)計(jì),B站平均每月產(chǎn)生約14億次視頻評論,其彈幕文化已作為青年亞文化的一種新的文化產(chǎn)品和文化形式,我們應(yīng)當(dāng)本著尊重和理解的態(tài)度嘗試去了解它[2]。本文以B站視頻評論數(shù)據(jù)為基礎(chǔ)數(shù)據(jù),利用大數(shù)據(jù)技術(shù)對其進(jìn)行處理與分析。

      1 相關(guān)概念及技術(shù)

      ⑴ 大數(shù)據(jù)是指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。

      ⑵ Python是一種跨平臺(tái)的程序設(shè)計(jì)語言。其爬蟲工具包使用方便,為數(shù)據(jù)抓取提供了可能[3]。調(diào)用jieba.cut實(shí)現(xiàn)視頻評論分詞;調(diào)用MLlib庫計(jì)算TF-IDF權(quán)重值和余弦相似度;調(diào)用Matplotlib、WordCloud庫繪制詞云圖和相似散點(diǎn)圖。

      ⑶ Spark作為大數(shù)據(jù)領(lǐng)域受到廣泛青睞的一代框架,通過調(diào)用Spark MLlib中的函數(shù),構(gòu)造評論數(shù)據(jù)特征向量。

      ⑷ 網(wǎng)絡(luò)爬蟲是一種自動(dòng)收集網(wǎng)絡(luò)頁面信息的機(jī)器人程序,也被稱之為網(wǎng)絡(luò)蜘蛛[4]。

      ⑸ 正則表達(dá)式是一種字符串匹配模式,在處理自然語言文本數(shù)據(jù)之前常用于對查找結(jié)果毫無幫助的字或英文、數(shù)字、表情符號(hào)、特殊符號(hào)等進(jìn)行過濾[5]。

      ⑹ TF-IDF(Term Frequency-Inverse Document Frequency)詞頻-逆向文件頻率統(tǒng)計(jì)方法。

      TF表示文檔中詞條出現(xiàn)的頻率,其公式為:

      IDF表示文檔集中包含詞條的文檔總數(shù),是一個(gè)詞條重要性的度量,其公式為:

      公式⑵中分母為包含詞條的文檔數(shù)+1,是為了避免分母為零。

      TF-IDF公式為:

      TF-IDF=TF*IDF? ⑶

      ⑺ 余弦相似度是通過計(jì)算兩個(gè)向量之間余弦值大小來判斷向量的相似度,余弦值接近1,夾角趨于0,表明兩個(gè)文本越相似。余弦相似度計(jì)算公式為:

      式中,A為B分別為對比的兩個(gè)向量。

      2 B站視頻評論數(shù)據(jù)分析

      B站視頻評論數(shù)據(jù)分析框架如圖1所示。

      2.1 數(shù)據(jù)采集

      2.1.1 接口獲取

      數(shù)據(jù)爬取接口可通過B站開放的API接口獲取。打開B站總榜頁面,選擇任意板塊進(jìn)入開發(fā)者模式,即可直接抓取相應(yīng)的數(shù)據(jù)(僅爬取評論本身內(nèi)容,對發(fā)布評論的用戶信息不進(jìn)行爬取)。如,要抓取音樂板塊數(shù)據(jù),只需在下列網(wǎng)址中設(shè)置rid=3,即可獲得音樂板塊下的所有JSON格式視頻數(shù)據(jù)。

      api.bilibili.com/x/web-interface/ranking/v2?rid=3&type=all

      2.1.2 爬蟲實(shí)現(xiàn)步驟

      ⑴ 設(shè)置代理IP

      通過設(shè)置代理IP(Internet Protocol),可突破網(wǎng)站對訪問者進(jìn)行限制。如,定義代理IP為:

      proxys={'http':'http://115.223.7.208:80',……}

      將其作為參數(shù)傳入requests請求即可實(shí)現(xiàn)數(shù)據(jù)爬取。

      xml_data=str(requests.get(xml_url,headers=headers,

      proxies=proxys).content,encoding="utf-8")

      ⑵ 爬取視頻評論內(nèi)容

      l 定義視頻板塊字典

      rid_dict={"全站":0,"動(dòng)畫":1,"音樂":3,"游戲":4,"娛樂":5,

      "科技":36,……}

      字典中鍵值對格式為{板塊名稱:板塊編號(hào)},板塊編號(hào)通過url請求從api中獲取。

      l 遍歷板塊字典對應(yīng)網(wǎng)址

      url="https://api.bilibili.com/x/web-interface/ranking/v2?rid=

      {}&day={}".format(rid,day)

      requests.get(url,headers=headers)

      l 向網(wǎng)站發(fā)起請求獲取數(shù)據(jù)

      res=url_get(url=url,mode="json")

      l 存儲(chǔ)數(shù)據(jù)到csv文件中

      with open("{}/{}.csv".format(save_path,k),……:

      2.2 數(shù)據(jù)預(yù)處理

      通過數(shù)據(jù)預(yù)處理提高后期數(shù)據(jù)處理的準(zhǔn)確率和效率。

      2.2.1 評論數(shù)據(jù)清洗

      使用正則表達(dá)式將文本中的標(biāo)點(diǎn)符號(hào)替換為空字符,獲取沒有干擾的純文本數(shù)據(jù)。

      pattern=re.compile(r'[\s+\\r\\u3000\\!\/_,;

      ’:‘“”$%^*(+\"\']+|,……)

      data_re=rdd.map(lambda x:re.sub(pattern,'##',x))

      .map(lambda x:list(set(x.split("##"))))

      2.2.2 評論本文分詞

      jieba庫是優(yōu)秀的中文分詞第三方庫,實(shí)現(xiàn)評論分詞如下:

      words=jieba.cut(strings,cut_all=False)

      2.3 數(shù)據(jù)處理

      2.3.1 詞條特征向量構(gòu)建

      SparkMLlib將詞條特征通過hashing函數(shù)實(shí)現(xiàn)詞頻統(tǒng)計(jì)。但不同的詞條特征可能會(huì)得到相同的哈希值而產(chǎn)生hash沖突,本文以增加哈希表的桶數(shù)來避免沖突。

      l 調(diào)用HasdingTf的transform把詞條哈希成特征向量,設(shè)哈希表的桶數(shù)為2000。

      hashingTF=HashingTF(inputCol="words",

      outputCol="rawFeatures",numFeatures=2000)

      featurizeData=hashingTF.transform(wordsData)

      l 調(diào)用IDF對詞頻特征向量進(jìn)行修正,提高不同詞匯對文本的區(qū)別能力。

      idf=IDF(inputCol="rawFeatures",outputCol="features")

      idfModel=idf.fit(featurizeData)

      l 調(diào)用transform,得到每一個(gè)單詞對應(yīng)的TF-IDF度量值。

      rescaledData=idfModel.transform(featurizeData)

      2.3.2 評論相似度計(jì)算

      對TF-IDF值進(jìn)行歸一化處理,構(gòu)建評論相似度權(quán)重向量。

      normalizer=Normalizer(inputCol="features",

      outputCol="norm")

      data=normalizer.transform(rescaledData)

      2.4 數(shù)據(jù)可視化及分析

      通過可視化方式,將人們看不懂的數(shù)據(jù)通過圖形化的手段進(jìn)行有效的表達(dá),能準(zhǔn)確高效、簡潔全面地傳遞某種信息,幫助人們分析和推理數(shù)據(jù),挖掘數(shù)據(jù)背后的價(jià)值,使復(fù)雜的數(shù)據(jù)更容易理解和使用。

      2.4.1 熱評詞云圖繪制

      詞云是數(shù)據(jù)可視化的一種形式,是對評論、彈幕中出現(xiàn)頻率較高的關(guān)鍵詞予以視覺上的突出,形成關(guān)鍵詞云層。通過詞云的方式展現(xiàn)出更多的話題,更直觀的呈現(xiàn)當(dāng)前時(shí)段用戶的關(guān)注點(diǎn)。WordCloud是一個(gè)詞云生成器,以詞條為基本單位,通過圖形可視化的方式展示。繪制詞云圖的主要步驟如下:

      l 繪制矩形詞云圖

      wordcloud=WordCloud(font_path="AaLiFangTi.ttf",

      background_color="white",width=800,height=600)

      l 根據(jù)TF-IDF權(quán)重生成詞云

      wordcloud.generate_from_frequencies(dict(tdidf

      .extract_keywords(open(document,'r',encoding='utf-8',

      errors='ignore').read(),None)))

      l 顯示詞云

      plt.imshow(wordcloud,interpolation="bilinear")

      本文抓取四月初的數(shù)據(jù),繪制視頻熱評詞云圖如圖2所示(B站的評論具有實(shí)時(shí)性,對不同時(shí)間段爬取的數(shù)據(jù),結(jié)果可能不一樣)。

      從圖2看出,一方面,用戶關(guān)注的內(nèi)容多以大學(xué)、學(xué)院為主,左上角以及在詞云四周分布的各類院校名稱,說明用戶對知名度較高的院校非常關(guān)注。數(shù)據(jù)來源于四月初臨近高考,說明用戶對高考的關(guān)注度較高。在詞云圖右上角的師范大學(xué)說明師范教育被大家所重視,教師職業(yè)被越來越多的人接受。另一方面B站用戶中學(xué)生所占比例較大,他們所關(guān)注的輿論熱點(diǎn)也是積極的。

      2.4.2 評論散點(diǎn)圖繪制

      通過空間點(diǎn)的分布不但能展現(xiàn)評論整體的差異分布,還能直觀呈現(xiàn)大眾的語言方式、表達(dá)結(jié)果是否接近。為解決評論整體相似結(jié)果在空間難以表示的問題,本文借鑒散點(diǎn)圖,利用x軸,將聚集數(shù)據(jù)展開至二維空間,每一個(gè)點(diǎn)代表隨機(jī)兩條評論的相似度,橫軸x的位置隨機(jī)分布解決堆積現(xiàn)象,不影響結(jié)果;縱軸y是余弦值,點(diǎn)越靠近1,說明相似度越大。繪制評論散點(diǎn)圖的主要步驟如下。

      l 定義評論數(shù)據(jù)板塊

      Ranklist=['全站','動(dòng)畫','音樂','游戲','娛樂','科技','鬼畜',……]

      l 遍歷評論數(shù)據(jù)板塊生成相似度字典

      for i in ranklist:

      fn=glob.glob(r'./result/'+i+'/*.csv')

      with open(str(fn[0]),"r",encoding="utf-8")as f:

      reader=csv.reader(f)

      rows=[row[2]for row in reader]

      l 繪制評論相似散點(diǎn)圖

      for i in rows:

      plt.scatter(random.random(),i)

      plt.show()

      以四月初的數(shù)據(jù)為例,繪制視頻評論散點(diǎn)圖如圖3所示。

      從圖3可知,一方面,絕大多數(shù)評論相似度較低,盡管用戶關(guān)注的內(nèi)容類似,年輕人不盲目跟風(fēng)評論,但并沒有使用相似的語言作為評論,體現(xiàn)了B站用戶語言表達(dá)的高度差異化。另一方面,年輕人容易接受新事物,B站是視頻投稿的聚集地,任何人都可以在網(wǎng)上接觸到他人的投稿視頻進(jìn)行二次加工,并通過語言輸出觀點(diǎn)表達(dá)自我,有著很強(qiáng)的個(gè)人主義色彩,這就讓社會(huì)對他們充滿了期待。

      3 結(jié)束語

      如今,95后、00后等新一代青年群體在互聯(lián)網(wǎng)環(huán)境中形成自己的文化,呈現(xiàn)出個(gè)性化、多元化、反傳統(tǒng)等特征[6]。面對互聯(lián)網(wǎng)下青年群體的思想觀念變化,需要全社會(huì)的關(guān)注,因此,對視頻評論數(shù)據(jù)的分析具有十分重要的意義。

      目前對視頻網(wǎng)站的研究主要集中在如何提高有效播放量、市場滲透率等商業(yè)模式上,對視頻評論這種新的文化產(chǎn)品和文化形式呈現(xiàn)的內(nèi)容分析研究較少。本文充分利用大數(shù)據(jù)相關(guān)技術(shù)實(shí)現(xiàn)了視頻評論數(shù)據(jù)的處理,并通過可視化的方式為社會(huì)了解年輕人所追求的社會(huì)價(jià)值觀,做好年輕人的思想教育工作提供了參考。同時(shí),此數(shù)據(jù)處理方法也為網(wǎng)絡(luò)熱搜數(shù)據(jù)分析、網(wǎng)絡(luò)輿控制提供了方法借鑒。

      參考文獻(xiàn)(References):

      [1] 王涵.嗶哩嗶哩動(dòng)畫現(xiàn)狀及未來展望[J].產(chǎn)業(yè)與科技論壇,2020(24):13-15

      [2] 張峰.彈幕視頻網(wǎng)站的青年亞文化分析—以嗶哩嗶哩網(wǎng)為例[J].藝術(shù)科技,2017(2):86

      [3] 吳永聰.淺談Python爬蟲技術(shù)的網(wǎng)頁數(shù)據(jù)抓取與分析[J].計(jì)算機(jī)時(shí)代,2019(8):94-96

      [4] 李彥.基于Python的網(wǎng)絡(luò)爬蟲技術(shù)的研究[J].電子世界,2021(3):39-40

      [5] 馬夢曦.基于彈幕文本挖掘的情感極性分析研究[D].武漢理工大學(xué)碩士學(xué)位論文,2019

      [6] 吳瑩.共青團(tuán)中央在嗶哩嗶哩網(wǎng)站上的傳播經(jīng)驗(yàn)分析[J].傳播力研究,2019(17):259-260

      猜你喜歡
      網(wǎng)絡(luò)爬蟲大數(shù)據(jù)
      煉鐵廠鐵量網(wǎng)頁數(shù)據(jù)獲取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
      大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
      新聞世界(2016年10期)2016-10-11 20:13:53
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
      中國記者(2016年6期)2016-08-26 12:36:20
      基于社會(huì)網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁挖掘研究
      主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究
      淺析如何應(yīng)對網(wǎng)絡(luò)爬蟲流量
      中國市場(2016年23期)2016-07-05 04:35:08
      網(wǎng)絡(luò)爬蟲針對“反爬”網(wǎng)站的爬取策略研究
      南和县| 通化县| 隆安县| 乳源| 峨眉山市| 台南市| 肥东县| 新安县| 桦川县| 肇州县| 龙江县| 西宁市| 松阳县| 皮山县| 永兴县| 闻喜县| 蒙自县| 灵寿县| 镇平县| 宁化县| 阳新县| 浪卡子县| 马尔康县| 南宫市| 偏关县| 临夏县| 扎赉特旗| 岢岚县| 浪卡子县| 通海县| 清丰县| 南陵县| 凤山县| 博爱县| 黑山县| 聂拉木县| 镇安县| 黄大仙区| 边坝县| 玉屏| 商水县|