• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于網(wǎng)絡(luò)爬蟲技術(shù)的元宇宙評(píng)論文本挖掘分析

      2022-05-01 12:55:16潘天岳
      關(guān)鍵詞:共詞分析文本挖掘網(wǎng)絡(luò)爬蟲

      潘天岳

      摘要:元宇宙是連接虛擬與現(xiàn)實(shí)的超級(jí)數(shù)字媒介,將引領(lǐng)未來世界的互聯(lián)網(wǎng)變革,也將對(duì)個(gè)體用戶的網(wǎng)絡(luò)生活產(chǎn)生深刻影響。利用網(wǎng)絡(luò)爬蟲技術(shù)對(duì)Bilibili視頻彈幕網(wǎng)站上的274個(gè)元宇宙相關(guān)視頻頁面進(jìn)行爬取并得到3 070條評(píng)論,通過對(duì)所得評(píng)論進(jìn)行文本詞頻分析、構(gòu)建詞云圖、共詞分析、社會(huì)網(wǎng)絡(luò)和語義網(wǎng)絡(luò)分析以及情感分析,發(fā)現(xiàn)Z世代用戶對(duì)元宇宙這一概念擁有基本認(rèn)知;元宇宙在游戲領(lǐng)域的應(yīng)用備受Z世代用戶關(guān)注;大量用戶認(rèn)為元宇宙是資本套利的工具,將對(duì)個(gè)人與社會(huì)產(chǎn)生消極影響;部分用戶對(duì)元宇宙相關(guān)技術(shù)的實(shí)現(xiàn)持懷疑態(tài)度。以上結(jié)論揭示了Z世代用戶對(duì)元宇宙這一新技術(shù)的感受和評(píng)價(jià),對(duì)元宇宙的引入、推廣與創(chuàng)新具有參考價(jià)值。

      關(guān)鍵詞:元宇宙;網(wǎng)絡(luò)爬蟲;文本挖掘;詞頻分析;共詞分析

      中圖分類號(hào):TP391文獻(xiàn)標(biāo)志碼:A文章編號(hào):1008-1739(2022)05-63-4

      0引言

      2021年10月28日,Mark Zuckerberg宣布Facebook將正式改名為Meta,由此在全球引發(fā)元宇宙的熱潮。元宇宙這一概念由美國作家Neal Stephenson在科幻小說《雪崩》中首次提出,其含義是一個(gè)與現(xiàn)實(shí)世界相平行的虛擬世界,所有生活在現(xiàn)實(shí)中的人類都有一個(gè)網(wǎng)絡(luò)化身,從而能與虛擬人在元宇宙中共同生活。伴隨技術(shù)進(jìn)步,如今元宇宙被定義為集各種數(shù)字技術(shù)于一體、連接現(xiàn)實(shí)與虛擬世界的超級(jí)數(shù)字媒介,其本質(zhì)是對(duì)未來社會(huì)形態(tài)的描繪與建構(gòu)[1]。

      作為年輕的“互聯(lián)網(wǎng)原住民”,出生于1995—2009年的Z世代,將在未來成為元宇宙用戶群體的重要組成部分,其社會(huì)生活也將因元宇宙而發(fā)生改變。為了解Z世代群體對(duì)于元宇宙這一新興概念的認(rèn)知與評(píng)價(jià),本文利用網(wǎng)絡(luò)爬蟲技術(shù)對(duì)擁有龐大Z世代用戶群體的視頻彈幕網(wǎng)站(Bilibili)進(jìn)行數(shù)據(jù)挖掘,并對(duì)得到的評(píng)論文本進(jìn)行文本詞頻分析、構(gòu)建詞云圖、共詞分析、社會(huì)網(wǎng)絡(luò)和語義網(wǎng)絡(luò)分析以及情感分析,對(duì)今后元宇宙相關(guān)產(chǎn)業(yè)的發(fā)展具有一定借鑒意義。

      1數(shù)據(jù)采集

      網(wǎng)絡(luò)爬蟲是一種自動(dòng)下載網(wǎng)絡(luò)資源的程序[2]。網(wǎng)絡(luò)爬蟲能夠從指定的視頻網(wǎng)頁出發(fā),通過分析網(wǎng)頁內(nèi)的標(biāo)記結(jié)構(gòu),獲取指向其他頁面的超級(jí)鏈接,然后根據(jù)既定的搜索策略選擇下一個(gè)要訪問的站點(diǎn)[3]。本文利用后羿采集器對(duì)Bilibili視頻彈幕網(wǎng)站進(jìn)行數(shù)據(jù)爬取,最終得到274個(gè)元宇宙相關(guān)視頻的3 070條評(píng)論。

      2數(shù)據(jù)分析

      2.1詞頻分析

      使用ROST Content Mining 6軟件分析所得評(píng)論文本。首先,進(jìn)行分詞處理。由于網(wǎng)絡(luò)的快速發(fā)展以及新技術(shù)的大量涌現(xiàn),ROST Content Mining原有的自定義詞表已無法滿足本文的分析要求。通過擴(kuò)充自定義詞表,元宇宙、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)等新興專有名詞能夠被完整保留,分詞結(jié)果也因此更加精準(zhǔn)、有效。

      經(jīng)過排除單字詞、排除“罷了”等停用詞、輸出排名前50的詞語等操作后,得到元宇宙相關(guān)評(píng)論中高頻詞的統(tǒng)計(jì)結(jié)果如表1所示。剔除掉主題詞元宇宙后,綜合來看,在Bilibili視頻網(wǎng)站上的元宇宙相關(guān)評(píng)論中,與元宇宙概念相關(guān)的關(guān)鍵詞出現(xiàn)頻次最多,如:“現(xiàn)實(shí)”(6.8%),“人類”(3.7%),“虛擬世界”(3.5%)等。

      2.2詞云圖

      詞云由西北大學(xué)教授Rich Gordon于2006年首先提出并使用。詞云圖通過關(guān)鍵詞云層或關(guān)鍵詞渲染過濾大量文本信息,并對(duì)評(píng)論文本中出現(xiàn)頻率較高的關(guān)鍵詞進(jìn)行視覺突出,使觀者簡單瀏覽詞云便可明確文本主旨[4]。

      本文利用微詞云生成了元宇宙相關(guān)評(píng)論詞云圖,如圖1所示,清晰地顯示了“現(xiàn)實(shí)”“人類”“技術(shù)”“概念”“世界”“資本”等高頻詞匯,并以文字粗細(xì)、深淺、大小對(duì)不同關(guān)鍵詞的出現(xiàn)頻次進(jìn)行區(qū)分。

      2.3共詞分析

      共詞分析是通過統(tǒng)計(jì)文本中集中出現(xiàn)的詞匯,分析某一研究主題或研究方向的專業(yè)術(shù)語共同出現(xiàn)在一個(gè)評(píng)論文本中的現(xiàn)象[5]。本文運(yùn)用ROST Content Mining 6軟件對(duì)評(píng)論文本完成提取高頻詞、過濾無意義詞、提取行特征、構(gòu)建網(wǎng)絡(luò)、構(gòu)建矩陣等操作,統(tǒng)計(jì)每2個(gè)關(guān)鍵詞共同出現(xiàn)在一個(gè)評(píng)論文本中的次數(shù),進(jìn)而形成原始共詞矩陣(標(biāo)題行與標(biāo)題列相同,為便于顯示,標(biāo)題行用序號(hào)1~30替代)。原始矩陣中對(duì)角線上的數(shù)字表示對(duì)應(yīng)關(guān)鍵詞出現(xiàn)的總頻次,如關(guān)鍵詞“元宇宙”出現(xiàn)了1 010次,“現(xiàn)實(shí)”出現(xiàn)了306次;非對(duì)角線上的數(shù)字表示相應(yīng)的2個(gè)關(guān)鍵詞同時(shí)出現(xiàn)于一個(gè)文本的頻次,如“元宇宙”與“現(xiàn)實(shí)”出現(xiàn)了124次,說明有124條評(píng)論文本同時(shí)使用了“元宇宙”與“現(xiàn)實(shí)”,部分元宇宙相關(guān)評(píng)論共詞矩陣,如表2所示。

      在計(jì)量化共詞分析中,為了真正反映關(guān)鍵詞間的相互依賴程度,進(jìn)而揭示其共現(xiàn)關(guān)系,需要對(duì)原始矩陣進(jìn)行包容化處理,構(gòu)建相關(guān)矩陣[6]。利用Microsoft Visual Basic for Applications以及Ochiai系數(shù)計(jì)算公式可將元宇宙相關(guān)評(píng)論共詞矩陣轉(zhuǎn)換為相關(guān)矩陣,部分元宇宙相關(guān)評(píng)論相關(guān)矩陣如表3所示。

      相關(guān)矩陣中的數(shù)值表示元宇宙相關(guān)評(píng)論中2個(gè)關(guān)鍵詞之間的距離,取值[0,1],其數(shù)值越大,說明2個(gè)關(guān)鍵詞之間的距離越小、關(guān)聯(lián)度越高;反之則說明關(guān)鍵詞之間的距離越大、關(guān)聯(lián)度越低[7]。如“元宇宙”與“現(xiàn)實(shí)”的Ochiai系數(shù)為0.223,“元宇宙”與“游戲”的Ochiai系數(shù)為0.141,說明“元宇宙”與“游戲”較“元宇宙”與“現(xiàn)實(shí)”距離更大、關(guān)聯(lián)度更低。此外,相關(guān)矩陣中主對(duì)角線上的數(shù)值皆為1,表示某關(guān)鍵詞與自身完全相關(guān)。

      為了減小誤差并且便于分析,用1與元宇宙相關(guān)評(píng)論相關(guān)矩陣中的各個(gè)數(shù)值相減,得到反映元宇宙相關(guān)評(píng)論中2個(gè)關(guān)鍵詞之間差異程度的相異矩陣,如表4所示。相異矩陣中的數(shù)值范圍亦為[0,1],但不同于相關(guān)矩陣,相異矩陣中的數(shù)值越大,表示2個(gè)關(guān)鍵詞距離越大,相似度越低;反之則相似度越高[8]。相異矩陣中主對(duì)角線上的數(shù)值皆為0,說明關(guān)鍵詞自身相同。

      2.4社會(huì)網(wǎng)絡(luò)和語義網(wǎng)絡(luò)分析

      語義網(wǎng)絡(luò)是一種以圖的形式呈現(xiàn)的數(shù)據(jù)結(jié)構(gòu),各節(jié)點(diǎn)即關(guān)鍵詞,節(jié)點(diǎn)間的連接表示詞匯間的共現(xiàn)關(guān)系。連接數(shù)量反映了詞匯間關(guān)系的強(qiáng)弱,連接越多說明詞匯間關(guān)系越緊密[9]。

      本文利用數(shù)據(jù)可視化軟件Geghi得到元宇宙相關(guān)評(píng)論語義網(wǎng)絡(luò)圖如圖2所示。該圖的平均路徑長度為1.978,平均聚類系數(shù)為0.823,每個(gè)圓圈表示一個(gè)元宇宙相關(guān)評(píng)論的關(guān)鍵詞節(jié)點(diǎn),連線表示各節(jié)點(diǎn)間的關(guān)系,顏色表示關(guān)鍵詞的類別。由此,發(fā)現(xiàn)其中的主要聯(lián)系有是“現(xiàn)實(shí)”“概念”“人類”“虛擬”“技術(shù)”“實(shí)現(xiàn)”等為中心的多詞匯聯(lián)系。

      2.5情感分析

      文本情感分析,又稱意見挖掘,是對(duì)帶有情感色彩的主觀性文本如評(píng)論文本等進(jìn)行分析、處理、歸納和推理的過程[10]。本文使用GooSeeker平臺(tái)及其自帶的情感分析詞典完成對(duì)元宇宙相關(guān)評(píng)論文本的情感分析。

      首先,將文本數(shù)據(jù)進(jìn)行分句處理并與情感詞典進(jìn)行匹配,計(jì)算并輸出語句的正負(fù)面情感傾向。情感詞典具有類型、詞語、權(quán)值3個(gè)屬性,部分具有情感色彩的關(guān)鍵詞如表5所示。其中,類型共分為4種,包括正面詞、負(fù)面詞、否定詞和程度詞。正面詞是包含積極情感的詞匯,負(fù)面詞是包含消極情感的詞匯,否定詞是對(duì)語句情感傾向具有反轉(zhuǎn)作用的詞匯,程度詞能夠增強(qiáng)或減弱語句的情感強(qiáng)度。權(quán)值則表示詞匯所表達(dá)情感的強(qiáng)弱程度,正面為正值,負(fù)面為負(fù)值。根據(jù)詞匯的權(quán)值,可計(jì)算得到語句的正面得分與負(fù)面得分,進(jìn)而判斷對(duì)應(yīng)語句的情感傾向。

      之后,依據(jù)正面語句與負(fù)面語句的數(shù)量及各自的正面得分與負(fù)面得分,可計(jì)算得到元宇宙相關(guān)評(píng)論文本的總得分,進(jìn)而對(duì)所得結(jié)果進(jìn)行可視化操作和分析。最終,得到結(jié)果為:在全部評(píng)論文本中,共651條正面評(píng)論,占比21.2%;共1 905條中性評(píng)論,占比62.1%;共510條負(fù)面評(píng)論,占比16.6%。

      3結(jié)論

      3.1 Z世代對(duì)元宇宙有基本認(rèn)知、較客觀評(píng)價(jià)

      “現(xiàn)實(shí)”(5.35%)、“虛擬世界”(2.71%)、“虛擬”(2.34%)、“宇宙”(2.22%)、“未來”(1.87%)等詞匯出現(xiàn)頻率高且與元宇宙密切相關(guān),說明Bilibili用戶通過觀看相關(guān)視頻已初步了解元宇宙這一概念,并對(duì)元宇宙連接虛擬與現(xiàn)實(shí)的媒介作用擁有基本認(rèn)知。

      3.2元宇宙于游戲領(lǐng)域應(yīng)用備受Z世代關(guān)注

      游戲在評(píng)論中共出現(xiàn)279次,同時(shí)在語義網(wǎng)絡(luò)中也與元宇宙存在極為密切的聯(lián)系,可見Z世代用戶更關(guān)注元宇宙在游戲領(lǐng)域的應(yīng)用。其中,部分用戶認(rèn)為元宇宙就是一個(gè)虛擬游戲,并提到現(xiàn)有的游戲如《刀劍神域》中已經(jīng)開始提供元宇宙的相關(guān)體驗(yàn)。

      3.3大量用戶認(rèn)為元宇宙將產(chǎn)生消極影響

      根據(jù)語義網(wǎng)絡(luò)圖可見元宇宙與“資本”“問題”“韭菜”等關(guān)鍵詞存在較為密切的聯(lián)系。查看原文本,發(fā)現(xiàn)大量評(píng)論提到資本將通過元宇宙進(jìn)一步壓榨普通人,普通人將如同“韭菜”一般被利用乃至“收割”,進(jìn)而人類社會(huì)發(fā)展也將因此受到威脅。

      3.4部分用戶對(duì)元宇宙技術(shù)的實(shí)現(xiàn)持懷疑態(tài)度

      由語義網(wǎng)絡(luò)圖可發(fā)現(xiàn)“技術(shù)”與“實(shí)現(xiàn)”間存在聯(lián)系。利用Excel對(duì)原評(píng)論文本進(jìn)行包含“技術(shù)”與“實(shí)現(xiàn)”2個(gè)關(guān)鍵詞的篩選,發(fā)現(xiàn)篩選結(jié)果中69.23%的用戶對(duì)元宇宙相關(guān)技術(shù)的實(shí)現(xiàn)持懷疑或否定態(tài)度,部分用戶認(rèn)為“現(xiàn)在談(元宇宙)可能還為時(shí)過早,技術(shù)突破不一定跟得上?!?/p>

      4結(jié)束語

      本文利用網(wǎng)絡(luò)爬蟲對(duì)相關(guān)評(píng)論文本進(jìn)行挖掘和分析,揭示用戶對(duì)元宇宙這一新技術(shù)的感受與評(píng)價(jià),對(duì)元宇宙的引入、推廣與創(chuàng)新具有參考價(jià)值。在本文的基礎(chǔ)上,如何改進(jìn)算法以實(shí)現(xiàn)更加精準(zhǔn)的分詞與語義情感分析,將成為未來研究的改進(jìn)方向。

      參考文獻(xiàn)

      [1]喻國明,耿曉夢.何以“元宇宙”:媒介化社會(huì)的未來生態(tài)圖景[J/OL].新疆師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版), 2021, 5:1-8[2021-11-20].https://doi.org/10.14100/j.cnki.65-1039/ g4.20211119.002.

      [2]周德懋,李舟軍.高性能網(wǎng)絡(luò)爬蟲:研究綜述[J].計(jì)算機(jī)科學(xué), 2009,36(8):26-29,53.

      [3]孫易冰,趙子?xùn)|,劉洪波.一種基于網(wǎng)絡(luò)爬蟲技術(shù)的價(jià)格指數(shù)計(jì)算模型[J].統(tǒng)計(jì)研究,2014,31(10):74-80.

      [4]許宏吉,趙文杰,林紅,等.基于信息化詞云技術(shù)的在線教學(xué)效果調(diào)查與可視化分析[J].中國教育信息化,2021,18:92-96.

      [5]潘佳寶,喻國明.新聞傳播學(xué)視域下中國輿論研究的知識(shí)圖譜(1986—2015)———基于文獻(xiàn)計(jì)量學(xué)的研究[J].現(xiàn)代傳播(中國傳媒大學(xué)學(xué)報(bào)),2017,39(9):1-11.

      [6]吳進(jìn).基于文本分析的我國產(chǎn)業(yè)共性技術(shù)創(chuàng)新政策研究[D].廣州:華南理工大學(xué),2013.

      [7]田麗,余雪麗.基于共詞分析的我國閱讀推廣研究熱點(diǎn)探析[J].情報(bào)科學(xué),2016,34(12):127-132.

      [8]王志強(qiáng),楊慶梅.我國創(chuàng)業(yè)教育研究的知識(shí)圖譜———2000—2016年教育學(xué)CSSCI期刊的文獻(xiàn)計(jì)量學(xué)分析[J].教育研究, 2017,38(6):58-64.

      [9]周王安,蔣雯靜,崔雯絢,等.國內(nèi)四大城市“雙創(chuàng)”政策分析[J].科技管理研究,2021,41(17):47-56.

      [10]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8): 1834-1848.

      猜你喜歡
      共詞分析文本挖掘網(wǎng)絡(luò)爬蟲
      數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
      煉鐵廠鐵量網(wǎng)頁數(shù)據(jù)獲取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
      基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析
      基于德溫特?cái)?shù)據(jù)庫的關(guān)鍵共性技術(shù)分析
      中國市場(2016年31期)2016-12-19 09:15:43
      國內(nèi)圖書館嵌入式服務(wù)研究主題分析
      從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢
      基于文獻(xiàn)計(jì)量分析我國生物科學(xué)素養(yǎng)研究狀況(2001~2016年)
      基于知識(shí)圖譜的智慧教育研究熱點(diǎn)與趨勢分析
      基于社會(huì)網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁挖掘研究
      主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究
      滨州市| 界首市| 景东| 冷水江市| 新干县| 凭祥市| 南部县| 新宁县| 嘉定区| 凤庆县| 保康县| 册亨县| 宜兴市| 库伦旗| 班玛县| 灵宝市| 台北市| 三台县| 南召县| 化州市| 辽阳市| 镇沅| 大丰市| 大名县| 香河县| 长岭县| 海原县| 綦江县| 祁连县| 鄂伦春自治旗| 东至县| 红原县| 吉隆县| 韶山市| 井研县| 谢通门县| 峨边| 科尔| 班玛县| 阜城县| 葫芦岛市|