周熙陽
摘? 要? 先對(duì)嗶哩嗶哩用戶樣本數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)分析,再應(yīng)用K-均值聚類算法,選擇粉絲數(shù)、關(guān)注數(shù)、投稿數(shù)、互粉數(shù)四個(gè)指標(biāo)變量進(jìn)行聚類分析。研究表明嗶哩嗶哩有三大用戶群體:大眾型、積極互動(dòng)型、意見領(lǐng)袖型。意見領(lǐng)袖型用戶擁有大量粉絲,影響力強(qiáng)勁,其視頻內(nèi)容具有較強(qiáng)的輻射力,是最具有營(yíng)銷價(jià)值的廣告投放群體。積極互動(dòng)型用戶在平臺(tái)上擁有固定的活動(dòng)社交圈,可以作為較有營(yíng)銷價(jià)值的廣告投放群體。
關(guān)鍵詞? 嗶哩嗶哩;群體特征;聚類分析
中圖分類號(hào)? G206.2? ? ? 文獻(xiàn)標(biāo)識(shí)碼? A? ? ? 文章編號(hào)? 2096-0360(2020)14-0039-03
嗶哩嗶哩(bilibili,簡(jiǎn)稱B站)創(chuàng)建于2009年,作為當(dāng)下最受歡迎的彈幕網(wǎng)站,正對(duì)互聯(lián)網(wǎng)用戶的生活產(chǎn)生著潛移默化的影響。截至2018年三季度,嗶哩嗶哩平臺(tái)季度平均月活躍用戶數(shù)量已經(jīng)達(dá)到了9 270萬人。其高互動(dòng)性、及時(shí)性、娛樂性以及強(qiáng)烈的二次元語言風(fēng)格使其不斷地?cái)U(kuò)大用戶基數(shù),成為中國(guó)最大的年輕人文化社區(qū)。伴隨著嗶哩嗶哩彈幕網(wǎng)站的紅火,也隨之而來催生了一種新的廣告投放方式——B站投放。廣告主們借助B站視頻內(nèi)容生產(chǎn)者之口,向每一位潛在受眾普及產(chǎn)品和企業(yè)信息,傳達(dá)企業(yè)文化。
目前國(guó)內(nèi)大多數(shù)學(xué)者對(duì)于嗶哩嗶哩的研究大多是定性研究。本文以嗶哩嗶哩用戶為研究對(duì)象,手動(dòng)隨機(jī)抽取獲得400多個(gè)用戶數(shù)據(jù),通過K-均值聚類分析法,挖掘各個(gè)類別嗶哩嗶哩用戶的不同特征,幫助廣告主找到核心傳播群體,減少不必要的資源浪費(fèi),提高傳播效率。
1? 研究設(shè)計(jì)
1.1? 樣本數(shù)據(jù)
以嗶哩嗶哩平臺(tái)用戶數(shù)據(jù)為研究對(duì)象,為了保證數(shù)據(jù)的質(zhì)量,避免爬到一些僵尸號(hào),本文選擇爬取用戶的關(guān)注列表而非粉絲列表。隨機(jī)挑選了一位粉絲數(shù)過百的視頻上傳者作為起始,爬取她的關(guān)注列表,再對(duì)列表中的每個(gè)人爬取其關(guān)注列表,以此類推。截至2020年1月3日,共爬取400多位嗶哩嗶哩用戶數(shù)據(jù),包括用戶昵稱、性別、用戶主頁鏈接、粉絲數(shù)、獲贊數(shù)、播放數(shù)、關(guān)注數(shù)、投稿數(shù)、互粉數(shù)共9個(gè)屬性。
1.2? 指標(biāo)設(shè)計(jì)
本文考慮到各個(gè)指標(biāo)對(duì)用戶群體特征的意義以及數(shù)據(jù)采集情況,參考何躍,帥馬戀,余偉萍[1]對(duì)于微博用戶群體特征的研究,選取了以下幾個(gè)指標(biāo)分別來權(quán)衡用戶的影響力[2]、活躍度[3]、互動(dòng)性[4]:
1)粉絲數(shù)。論文中該指標(biāo)是由從用戶注冊(cè)時(shí)間到2020年1月3日該時(shí)間段內(nèi)手動(dòng)采集樣本用戶總粉絲的數(shù)量而來。用戶粉絲數(shù)的大小意味著其他用戶對(duì)該用戶生產(chǎn)內(nèi)容的關(guān)注度,是反映用戶影響力的重要指標(biāo)?!稗D(zhuǎn)發(fā)”能夠?qū)崿F(xiàn)裂變式的信息傳播,而這種路徑主要就是通過“粉絲路徑”[1]。
2)關(guān)注數(shù)。論文中該指標(biāo)是由從用戶注冊(cè)時(shí)間到2020年1月3日該時(shí)間段內(nèi)手動(dòng)采集樣本用戶總關(guān)注數(shù)而來。當(dāng)用戶關(guān)注他人,主頁就會(huì)顯示被關(guān)注用戶的動(dòng)態(tài),并通過算法向用戶進(jìn)行推薦,用戶獲取自身感興趣的信息。用戶關(guān)注數(shù)量越多,意味著用戶投入該平臺(tái)上的時(shí)間和精力越多,關(guān)注數(shù)是反映用戶活躍程度的主要指標(biāo)。
3)投稿數(shù)。論文中該指標(biāo)是由從用戶注冊(cè)時(shí)間到2020年1月3日該時(shí)間段內(nèi)手動(dòng)抽取樣本用戶總投稿的數(shù)量得來,投稿數(shù)越多,用戶自主生產(chǎn)創(chuàng)造內(nèi)容的意愿越強(qiáng),這也意味著用戶在平臺(tái)的表現(xiàn)越活躍,投稿數(shù)是衡量用戶活躍度的重要指標(biāo)。
4)互粉數(shù)。當(dāng)一個(gè)用戶與另一個(gè)用戶互相關(guān)注,互為對(duì)方的粉絲,即為互粉。用戶擁有的互粉好友越多,說明用戶互動(dòng)性越高,該用戶越傾向于在嗶哩嗶哩平臺(tái)上擁有固定數(shù)量的活動(dòng)社交圈。通過互粉,用戶既能提升用戶人氣、實(shí)現(xiàn)報(bào)酬性吸引[4]。互粉數(shù)是衡量用戶互動(dòng)性的主要指標(biāo)。
2? 實(shí)證分析
2.1? 描述性統(tǒng)計(jì)分析
在對(duì)各項(xiàng)離散指標(biāo)進(jìn)行分段連續(xù)處理之后,嗶哩嗶哩用戶群體特征整體情況如表1。對(duì)性別、關(guān)注數(shù)、粉絲數(shù)等特征變量進(jìn)行大致的描述性統(tǒng)計(jì)分析,有助于事先了解大致情況。
由表1可看出,在確定的407名嗶哩嗶哩用戶的樣本中,男性調(diào)查者共218名,占樣本比例53.6%,與中國(guó)互聯(lián)網(wǎng)信息中心2019年8月30日公布的第44次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》比例52.4%基本相符;從關(guān)注數(shù)來看,關(guān)注數(shù)100以下的占樣本比例85%,絕大多數(shù)用戶關(guān)注100個(gè)以內(nèi)的博主;從粉絲數(shù)量來看,1萬及以下的粉絲數(shù)占39.1%,10萬以上的粉絲數(shù)占26.3%,兩鐘粉絲群落占比均超過25%,而且相加占總體65%以上,這意味著樣本用戶粉絲群落出現(xiàn)了兩級(jí)分化的情況;從區(qū)間分布頻率來看,100及以下的關(guān)注數(shù)占85%,100及以下的互粉數(shù)占99.%,在對(duì)互粉數(shù)和關(guān)注數(shù)進(jìn)行相關(guān)性檢驗(yàn)(r=0.563)后發(fā)現(xiàn),互粉數(shù)和關(guān)注數(shù)顯示出了較強(qiáng)的正相關(guān)性,在一定程度上說明了可能有固定的一定數(shù)量的互動(dòng)群體存在于嗶哩嗶哩平臺(tái)用戶之中。而從獲贊數(shù)和播放數(shù)來看,播放數(shù)和獲贊數(shù)之間的標(biāo)準(zhǔn)差分別為52 773 364.1和1 564 777.5,說明了不同用戶之間的差異較為明顯。這意味著不同的用戶在嗶哩嗶哩平臺(tái)的網(wǎng)絡(luò)活動(dòng)有著不同的特點(diǎn)。這些問題將在接下來的聚類分析中進(jìn)行探討。
2.2? 嗶哩嗶哩用戶群體特征分析
本文通過軟件spss22.0,采用K-均值聚類算法對(duì)嗶哩嗶哩用戶群體進(jìn)行聚類分析。為了保證分析結(jié)果的準(zhǔn)確性和客觀性,本文先初步排除數(shù)據(jù)中的異常值,剔除空缺或者亂碼的用戶數(shù)據(jù)。其次選取互粉數(shù)、關(guān)注數(shù)、投稿數(shù)、粉絲數(shù)這四個(gè)指標(biāo)進(jìn)行K均值聚類分析,其中互粉數(shù)是衡量用戶互動(dòng)性的指標(biāo),關(guān)注數(shù)和投稿數(shù)是衡量用戶活躍度的指標(biāo),粉絲數(shù)是權(quán)衡用戶影響力的指標(biāo)。如表2所示,K均值聚類分析最終將其聚為三類。
樣本類型1,占樣本量的95%以上,投稿數(shù)和粉絲數(shù)是三種類型里最少的,互粉數(shù)和關(guān)注數(shù)是三種類型里適中的。該樣本類型粉絲數(shù)集中在10萬左右,關(guān)注數(shù)集中在54左右,投稿數(shù)集中在128左右,互粉數(shù)集中在15左右。相對(duì)于其他類型用戶而言,作品投稿較少,粉絲量也較少,在三種類型中表現(xiàn)出的特點(diǎn)是低影響力。這表明該類型用戶對(duì)嗶哩嗶哩平臺(tái)的依賴程度較低,但是該類型用戶是嗶哩嗶哩平臺(tái)用戶的主要構(gòu)成群體,故命名為“大眾型”用戶。
樣本類型2,占樣本數(shù)量的3.2%,關(guān)注數(shù)和互粉數(shù)是三種類型里最多的,投稿數(shù)和粉絲數(shù)是三種類型里適中的。該樣本類型粉絲集中在281萬左右,關(guān)注數(shù)集中在64左右,投稿數(shù)集中在268左右,互粉數(shù)集中在30左右,是其他類別用戶的2倍以上。相對(duì)于其他類型用戶而言,該類型用戶關(guān)注的視頻內(nèi)容生產(chǎn)者較多,互粉數(shù)也是三種類型里最多的,在三種類型中表現(xiàn)出的特點(diǎn)是高互動(dòng)性。這表明該類型用戶在平臺(tái)上積極關(guān)注他人動(dòng)態(tài),同時(shí)在嗶哩嗶哩平臺(tái)上擁有一定數(shù)量的社交圈,與粉絲之間有著共同的信息需求,故命名為“積極互動(dòng)型”用戶。
樣本類型3,不到總體樣本數(shù)量1%,粉絲數(shù)和投稿數(shù)是三種類型里最多的,關(guān)注數(shù)和互粉數(shù)是三種類型用戶里最少的。該樣本類型粉絲集中在672萬左右,是其他類別用戶的2倍以上,關(guān)注數(shù)集中在17左右,投稿數(shù)集中在319左右,互粉數(shù)集中在7左右。相對(duì)于其他類型用戶而言,該用戶雖然互動(dòng)性較低,互粉數(shù)只有平均互粉數(shù)的0.4,社交規(guī)模不大但是積極生產(chǎn)視頻,擁有大量粉絲并且影響力強(qiáng)勁,在三種類型中表現(xiàn)出的特點(diǎn)是高影響力低互動(dòng)性。表明這類用戶在網(wǎng)絡(luò)社區(qū)中具有意見領(lǐng)袖的地位,其創(chuàng)建和分享的內(nèi)容會(huì)被眾多用戶關(guān)注,故命名為“意見領(lǐng)袖型”。
3? 結(jié)論
本文通過采集嗶哩嗶哩平臺(tái)中用戶群體的相關(guān)信息,分別從影響力、活躍度、互動(dòng)性三個(gè)方面選擇粉絲數(shù)、關(guān)注數(shù)、投稿數(shù)、互粉數(shù)四個(gè)指標(biāo)使用K均值聚類算法對(duì)嗶哩嗶哩用戶進(jìn)行聚類分析,分析結(jié)果表明,嗶哩嗶哩用戶可以分為大眾型,積極互動(dòng)性,意見領(lǐng)袖型三大類,意見領(lǐng)袖型用戶擁有大量粉絲,影響力強(qiáng)勁,其視頻內(nèi)容具有較強(qiáng)的輻射力,是最具營(yíng)銷價(jià)值的廣告投放群體。而積極互動(dòng)型用戶在平臺(tái)上擁有固定的活動(dòng)社交圈,與粉絲之間溝通較為密切,可以作為較有營(yíng)銷價(jià)值的廣告投放群體。
互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代下,視頻彈幕網(wǎng)站用戶增多,內(nèi)容生產(chǎn)水平層次不齊。聚類結(jié)果可以供廣告主參考,提高廣告投放的精確度,一方面能為優(yōu)質(zhì)用戶實(shí)現(xiàn)高效率的廣告變現(xiàn),另一方面能幫助廣告主定位到最有價(jià)值的用戶群體,實(shí)現(xiàn)精準(zhǔn)營(yíng)銷。
論文通過手動(dòng)采集用戶信息,雖然已經(jīng)避免僵尸粉,但仍然存在人工誤差,抓取方式精確度不足。后期將改用爬蟲程序,獲取更多的嗶哩嗶哩用戶信息,擴(kuò)大文本信息量。
參考文獻(xiàn)
[1]何躍,帥馬戀,余偉萍.新浪微博加V用戶特征分析[J].情報(bào)雜志,2014,33(9):148-151.
[2]姚茜,卜彥芳.基于影響力研究的微博營(yíng)銷模式探析[J].經(jīng)濟(jì)問題探索,2011(12):117-121.
[3]李英樂,于洪濤,劉力雄.基于改進(jìn)PageRank算法的微博用戶影響力研究[J].計(jì)算機(jī)應(yīng)用研究,2013,30(9):2594-2597.
[4]陳然.網(wǎng)絡(luò)論壇活躍群體社交網(wǎng)絡(luò)研究——從“關(guān)注”行為的視角[J].新聞界,2012(18):51-55,61.