• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      虛擬空間中社會分層行為研究*

      2020-06-02 06:10:10馬滿福員欣淼劉元喆王常青
      計算機工程與科學 2020年5期
      關鍵詞:虛擬空間階層瀏覽器

      馬滿福,員欣淼,李 勇,劉元喆,王常青

      (1.西北師范大學計算機科學與工程學院, 甘肅 蘭州 730070;2.甘肅省物聯(lián)網(wǎng)工程研究中心,甘肅 蘭州 730070;3.中國互聯(lián)網(wǎng)絡信息中心互聯(lián)網(wǎng)基礎技術開放實驗室,北京 100190)

      1 引言

      Science上的一篇文章指出:貧窮往往導致注意力資源的短缺,進而降低人的認知能力[1]。在針對中國民眾的階層意識研究中發(fā)現(xiàn),中國人的階層自我定位明顯低于同期的歐美國家居民[2,3]。此外,無論在城市還是農(nóng)村,人們的客觀社會經(jīng)濟地位與對于自身的主觀階層地位認知之間均存在著不小的偏差[4,5]。真實空間中,由于個人的組織資源、文化資源和經(jīng)濟資源擁有量存在差異,使得社會分層現(xiàn)象普遍存在。已有研究指出,低階層者的系統(tǒng)合理化水平顯著低于高階層者,家長的教養(yǎng)方式存在階層差異,居民的住房分層現(xiàn)象較為明顯,階層認知影響生活幸福感,尤其是主客觀階層差異的影響顯著等[6 - 9]。

      根據(jù)中國互聯(lián)網(wǎng)絡信息中心(China Internet Network Information Center)發(fā)布的第43次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》,截至2018年12月,我國網(wǎng)民規(guī)模為8.29億,互聯(lián)網(wǎng)普及率達59.6%。從1997年到2018年,我國網(wǎng)站數(shù)量從1 500個增長至523萬個?;ヂ?lián)網(wǎng)應用的進一步發(fā)展,將推動形成更加多元的網(wǎng)絡社會生態(tài)體系[10]。大量的人類行為發(fā)生在虛擬空間中,用戶在虛擬空間中留下的電子印跡都被記錄著,網(wǎng)上行為和現(xiàn)實生活有了可以推測的聯(lián)系[11],這為虛擬空間中的社會分層行為研究提供了數(shù)據(jù)基礎。

      本文通過在線行為數(shù)據(jù)反映虛擬空間中的社會分層現(xiàn)象。首先通過計算不同階層用戶在虛擬空間中時間數(shù)據(jù)的均值和方差,發(fā)現(xiàn)較高階層用戶在虛擬空間中的停留時間相對穩(wěn)定,而較低階層用戶的在線時間較不穩(wěn)定。其次,通過word2vec中的Skip-gram模型訓練出能代表各階層用戶行為特征的詞向量,發(fā)現(xiàn)不同階層用戶將注意力消耗在不同的信息資源上,較高階層用戶能更好地利用網(wǎng)絡資源辦公和購物,而較低階層用戶在虛擬空間中消耗的注意力對自我提升并無多大幫助,從認知的角度分析這會進一步加大社會分層現(xiàn)象。最后,本文利用基于word2vec的神經(jīng)網(wǎng)絡算法模型W2V-BP(Word2Vec Back Propagation)對用戶的在線行為數(shù)據(jù)進行社會階層識別,實驗發(fā)現(xiàn)準確率達到90.22%,表明虛擬空間中存在能夠區(qū)分用戶社會分層的行為特征。

      2 相關工作

      用來進行社會階層劃分的資源依據(jù)包括生產(chǎn)資料、財產(chǎn)或收入、市場、職業(yè)或就業(yè)、政治權力、文化、社會關系、主觀聲望、公民權利和人力資源等[12]。社會學中,比較主流的看法是:把“職業(yè)”作為社會分層的標準,把資源占有作為基本維度,并輔之社會經(jīng)濟地位綜合指數(shù)的測量[13]。

      已故著名社會學家陸學藝教授在《當代中國社會階層研究報告》中提出了以職業(yè)分類為基礎,以組織資源、經(jīng)濟資源、文化資源占有狀況作為劃分社會階層的標準,把當今中國的社會群體劃分為10個階層。10個階層包括國家與社會管理者階層、經(jīng)理人員階層、私營企業(yè)主階層、專業(yè)技術人員階層、辦事人員階層、個體工商戶、商業(yè)服務業(yè)員工階層、產(chǎn)業(yè)工人階層、農(nóng)業(yè)勞動者階層和城鄉(xiāng)無業(yè)、失業(yè)、半失業(yè)者階層。此外,陸學藝教授認為“社會中間階層”是由10個階層中的專業(yè)技術人員、辦事人員階層、個體工商戶、商業(yè)服務業(yè)員工4個階層組成[14]。

      注意力是指人的心理活動指向和集中于某種事物的能力。在信息豐富的世界中,擁有信息就意味著另一種稀缺,即信息所消耗的其他東西,而信息所需要消耗的恰恰就是信息接收者的注意力。因此,信息的富足就會導致注意力的貧瘠,我們需要將注意力有效地分配在那些消耗注意力的信息資源上[15]。網(wǎng)絡是一個公共空間,它承載的是集體的注意力。雖然每個人在每一個時刻都只能關注一個事物,但是大量的網(wǎng)民在互聯(lián)網(wǎng)上就會形成大規(guī)模注意力的交匯[16]。網(wǎng)絡結構與人們行為的演化會涌現(xiàn)出集體活動[17]。Goel 等[18]的研究指出個人在網(wǎng)上如何分配時間會影響從公共政策到營銷的多個領域,用戶在社交媒體投入的時間遠大于在電子郵件、搜索和門戶類網(wǎng)站等投入的時間。Weber等[19,20]的研究發(fā)現(xiàn)不同人口群體的網(wǎng)絡搜索行為之間存在著很大差異。

      目前,虛擬空間中的社會分層研究較少,且多基于概念提出和一般性探討。如黃哲[21]指出虛擬世界中的不平等和分化客觀存在。胡建國[22]認為人們的主觀地位認同受現(xiàn)實社會與網(wǎng)絡社會參與的雙重影響,并且雙重影響表現(xiàn)出耦合的特征。張斐男[23]認為網(wǎng)絡社會中社會分層的新特征正在影響并消解著原本的由上而下的權力結構。程士強[24]指出個體在網(wǎng)絡社會中以“代內(nèi)再生產(chǎn)”和“代際再生產(chǎn)”的方式將原有的階層結構延續(xù)到網(wǎng)絡社會中。傳統(tǒng)的研究大都基于網(wǎng)絡信息資源占有的機會和能力等客觀指標,本文將從不同階層用戶使用網(wǎng)絡資源的具體行為及信息的內(nèi)容和性質(zhì)等因素對虛擬空間中的社會分層現(xiàn)象進行分析。

      3 理論與方法

      3.1 理論依據(jù)

      本文的社會階層劃分參考陸學藝教授提出的10個階層和社會中間階層的劃分[14],按照用戶的職業(yè)屬性對樣本數(shù)據(jù)進行2個層次的分類,如表1所示。

      第1個層次為“社會上層”“社會中層”“社會下層”,社會中層包括的職業(yè)有“專業(yè)技術人員”“黨政機關事業(yè)單位一般職員”“個體戶、自由職業(yè)者”“企業(yè)公司一般職員”, 將中間階層之上的“黨政機關事業(yè)單位領導干部”和“企業(yè)公司管理者”劃為社會上層,將中間階層之下的“產(chǎn)業(yè)、服務業(yè)工人”“農(nóng)民、農(nóng)村外出務工”和“退休、無業(yè)、下崗、失業(yè)”劃為社會下層[25]。

      3.2 數(shù)據(jù)描述

      本文采用中國互聯(lián)網(wǎng)絡信息中心提供的用戶在線行為數(shù)據(jù),該數(shù)據(jù)由30 000多名全國各地志愿者用戶在個人計算機上安裝數(shù)據(jù)采集程序在線獲取。用戶每次開機時,都會生成一個對應的日志文件。保證在線用戶個人隱私的前提下,以2 s一次的頻率掃描用戶計算機的當前焦點窗口。日志文件會詳細記錄用戶的開關機時間、窗口進程名、瀏覽器地址欄等信息。若當前焦點窗口發(fā)生變化,則會在日志文件中增添新的記錄。

      該數(shù)據(jù)集已累積了數(shù)以TB量級的數(shù)據(jù),為分析方便,本文隨機抽取1 000個用戶1個月約1.2億條的上網(wǎng)點擊行為數(shù)據(jù)記錄。樣本數(shù)據(jù)包中的數(shù)據(jù)文件包括按日期歸檔的樣本行為日志和樣本的人口屬性信息2部分,二者可通過樣本ID關聯(lián)[26]。用戶的人口屬性信息文件中包括用戶的性別、年齡、學歷、職業(yè)、工資、所在地等信息。

      3.3 研究方法

      3.3.1 特征提取方法

      分別提取各階層數(shù)據(jù)集中所有用戶點擊的軟件進程序列,構建詞匯表。選用word2vec中的Skip-gram模型訓練詞向量。在Skip-gram模型中,輸入為各階層語料庫中特定的一個進程名的詞向量,輸出為該詞對應的上下文詞。在每個階層的語料庫中,根據(jù)進程名出現(xiàn)的頻次建立哈夫曼樹,用哈夫曼樹來代替隱藏層和輸出層的神經(jīng)元。其中,葉子節(jié)點為輸出層的神經(jīng)元,葉子節(jié)點的個數(shù)為詞匯表的大小,內(nèi)部節(jié)點為隱藏層的神經(jīng)元。

      (1)

      (2)

      為了增加代碼的簡潔性和可讀性,將式(2)拆分為偽代碼中的①~④?;贖ierarchical Softmax的Skip-gram模型算法流程如下:

      輸入:語料庫,詞向量維度。

      輸出:詞向量。

      1.基于語料庫訓練樣本構建哈夫曼樹;

      2.隨機初始化模型參數(shù)θ和詞向量w;

      3.采用隨機梯度上升方法更新參數(shù):

      Forw∈Context(w) do

      {e=0;//e為詞向量v(w)中所算出的增量

      Forj=2:lwdo//lw為路徑向量pw中包含節(jié)點的個數(shù)

      {

      v(w)=v(w)+e;}

      End for

      3.3.2 社會分層識別算法

      用戶的在線點擊行為由多個進程名組成,通過用戶的點擊行為識別用戶的社會階層類似于傳統(tǒng)文本分類問題。循環(huán)神經(jīng)網(wǎng)絡常利用one-hot向量結合文本序列的順序特征對文本進行分類,但one-hot向量要求各詞語間相互獨立,且向量過于稀疏,維度過大導致計算困難。word2vec可以將one-hot向量轉(zhuǎn)化為低維度的連續(xù)值,即稠密向量,其中聯(lián)系緊密的詞將被映射到向量空間中相近的位置,符合用戶行為數(shù)據(jù)前后關系極為緊密的特點。

      本文提出基于word2vec的神經(jīng)網(wǎng)絡-W2V-BP模型,結合傳統(tǒng)前饋神經(jīng)網(wǎng)絡對用戶行為特征進行社會分層識別。首先利用Skip-gram模型訓練出代表用戶行為特征的詞向量,W2V-BP模型將訓練出的詞向量作為輸入,用戶的階層類別作為輸出,通過梯度下降優(yōu)化,數(shù)次迭代調(diào)節(jié)參數(shù),訓練用戶分類模型。W2V-BP模型如圖1所示,其中w(t)表示第t個詞向量。

      Figure 1 W2V-BP model diagram圖1 W2V-BP模型圖

      在output層,第j個神經(jīng)元的閾值為θj,第j個神經(jīng)元接收到的輸入向量為βj,可得預測值:

      (3)

      (4)

      其中,whj是hidden層第h個神經(jīng)元與output層第j個神經(jīng)元的連接權重,bh為hidden層第h個神經(jīng)元(共有q個神經(jīng)元)的輸出。

      (5)

      input層第i個神經(jīng)元與hidden層第h個神經(jīng)元之間的連接權重為vih,xi為輸入的詞向量,則hidden層第h個神經(jīng)元的輸入向量αh為:

      (6)

      根據(jù)梯度下降策略,在已求均方誤差Ek和給定學習率η∈(0,1)的情況下,求得hidden層到output層的連接權重△whj為:

      (7)

      (8)

      通過式(8),可以得到hidden層第h個神經(jīng)元的輸出bh:

      (9)

      hidden層和output層的神經(jīng)元都使用Sigmoid函數(shù),在Sigmoid函數(shù)中,

      f′(x)=f(x)(1-f(x))

      (10)

      利用梯度下降算法,根據(jù)式(3)和式(5)得到output層神經(jīng)元的梯度項gj:

      (11)

      根據(jù)反傳播原理,得到hidden層到output層的權重更新公式為:

      Δwhj=ηgjbh

      (12)

      可得到output層神經(jīng)元閾值θj:

      Δθj=-ηgj

      (13)

      結合梯度更新向量eh,根據(jù)反傳播原理,得到輸入層到hidden層的權重vih、hidden層第h個神經(jīng)元的閾值γh:

      Δvih=ηehxi

      (14)

      Δγh=-ηeh

      (15)

      最終得到hidden層更新向量eh:

      (16)

      BP神經(jīng)網(wǎng)絡[27]基本流程如下所示:

      輸出:多層前饋神經(jīng)網(wǎng)絡(BP神經(jīng)網(wǎng)絡)。

      1.在(0,1)范圍內(nèi)隨機初始化網(wǎng)絡中所有連接權重和閾值;

      2.repeat

      3. for all((xk,yk)∈Ddo

      5. 根據(jù)式(11)計算output層神經(jīng)元的梯度項gj;

      6. 根據(jù)式(16)計算hidden層神經(jīng)元的梯度項eh;

      7. 根據(jù)式(12)~式(15)計算連接權值whj,vih與閾值θj,γh;

      8. end for

      9.until 停止

      4 實驗結果與分析

      4.1 停留時間分析

      提取各階層用戶的開機時間、關機時間和在線持續(xù)時間。通過計算時間數(shù)據(jù)的均值和方差,分析不同階層用戶在虛擬空間中停留時間的穩(wěn)定性。

      均值指樣本中各階層用戶開機時間、關機時間及在線持續(xù)時間的平均值。方差反映了各階層用戶時間數(shù)據(jù)和其均值間的離散程度。本文分析得出的結果如圖2和圖3所示。

      Figure 2 Mean of time data圖2 時間數(shù)據(jù)的均值

      Figure 3 Variance of time data圖3 時間數(shù)據(jù)的方差

      觀察圖2和圖3發(fā)現(xiàn),和較高階層的用戶相比,較低階層的用戶占據(jù)了平均開機時間、平均關機時間、平均持續(xù)時間的最早和最晚時間。此外,較低階層的用戶在虛擬空間中的開機時間、關機時間的方差最大,說明較低階層的用戶在虛擬空間中的停留時間較不穩(wěn)定,較高階層的用戶在虛擬空間中的停留時間比較穩(wěn)定。

      4.2 注意力聚焦點分析

      vocab(詞匯表)根據(jù)進程出現(xiàn)的次數(shù)從大到小依次排列,由于共同分析各階層中所有用戶行為數(shù)據(jù)的顯著特征,忽略出現(xiàn)次數(shù)少的進程,取詞匯表中前200頻次的進程名作為實驗數(shù)據(jù)。定義訓練參數(shù),批處理量batch_size=128,詞向量維度embedding_size=64,為了更全面抓取某一進程和上下文的關系,設置某一進程可最遠聯(lián)系到其它進程的距離skip_window=10,對每一個進程名提取樣本數(shù)num_skips=8,測試集進程數(shù)valid_size=16,測試集采用詞匯表top15頻次進程vaild_win-dow=15[28]。通過Skip-gram模型訓練代表各階層行為特征的詞向量,用K-means算法聚類詞向量,所得分布圖如圖4~圖6所示。

      Figure 4 Social upper layer word vector distribution圖4 社會上層詞向量分布圖

      Figure 5 Social middle layer word vector distribution圖5 社會中層詞向量分布圖

      Figure 6 Social lower layer word vector distribution圖6 社會下層詞向量分布圖

      各階層詞向量分布圖各不相同,圖4和圖5總體上各進程間的距離更加緊湊,圖6中各進程間的距離比較分散。說明較高階層用戶點擊的軟件進程序列規(guī)律性強,較低階層用戶點擊的軟件進程序列規(guī)律性弱。各階層詞向量圖中均包括的進程名為常規(guī)的殺毒或瀏覽器類應用,包括:360sd.exe(殺毒類)、thunder.exe(下載軟件)、iexplore.exe(瀏覽器)、360safe.exe(殺毒類)、sougouexplorer.exe(瀏覽器)和QQ.exe(社交類)。

      從圖4可知,社會上層獨有的進程名為: wps.exe(辦公類)、sohunews.exe(新聞資訊類)、notepad.exe(記事本)、Illustrator.exe(辦公類)和HAPDK.exe(休閑類)。從圖5可知,社會中層獨有的進程名為:coral.exe(瀏覽器)和chrome.exe(瀏覽器)。從圖6可知,社會下層獨有的進程名為:maxthon.exe(瀏覽器)、QQGame.exe(休閑類)、QQMusic.exe(休閑類)、popup_QQ.exe(休閑類)、QQPenguin.exe(休閑類)和QQBrowser.exe(瀏覽器)。此外,社會上層和社會中層共有的進程為:AliIM.exe(購物類)、EXCEL.EXE(辦公類)和WINWORD.EXE(辦公類)。社會中層和社會下層共有的進程為360chrome.exe(瀏覽器)。

      從各階層詞向量分布圖看出,社會上層用戶在虛擬空間中主要將注意力消耗在辦公類、購物類、新聞資訊類等應用。社會下層用戶主要將注意力消耗在休閑娛樂類應用上。此外,社會上層用戶使用常規(guī)的瀏覽器,而社會中層和社會下層用戶使用的瀏覽器種類較多,初步判斷他們在虛擬空間中有更多的探索。綜上所述,社會上層和社會中層用戶能利用網(wǎng)絡資源進行辦公和購物,而社會下層用戶在虛擬空間中以娛樂為主。

      為進一步探索各階層用戶在虛擬空間中注意力消耗的差異性,提取各階層用戶在圖4~圖6中出現(xiàn)的進程中消耗注意力的持續(xù)時間,對其取均值。接著按類別將同類進程的持續(xù)時間相加,結果如圖7所示,具體值見表2。

      Figure 7 Average duration of users’distraction in various applications圖7 用戶在各類應用消耗注意力的平均持續(xù)時間

      Table 2 Average duration of users’attention in various applications

      從圖7中可以看出,在新聞資訊類、辦公類應用中,社會上層用戶消耗注意力的平均持續(xù)時間大于其他階層用戶。在購物類應用中,社會中層用戶消耗注意力的平均持續(xù)時間最長。在瀏覽器和休閑娛樂類進程中,社會下層用戶消耗的注意力遠大于其他階層用戶。在辦公類進程中,社會上層和社會中層用戶消耗的注意力遠大于社會下層用戶。從持續(xù)時間總和中可以看出,社會下層用戶在虛擬空間中消耗注意力的時間遠大于其他階層用戶。

      綜上所述,較高階層用戶能更好地利用網(wǎng)絡資源進行辦公和購物,且消耗的時間和注意力較少。社會下層用戶在虛擬空間中的注意力主要聚焦在休閑娛樂類和瀏覽器等應用上,且消耗的時間最多。這說明虛擬空間中延續(xù)著真實空間中的社會分層結構。

      4.3 社會分層識別

      應用基于word2vec的BP神經(jīng)網(wǎng)絡模型(W2V-BP),根據(jù)用戶的在線行為特征將其識別到社會上層、社會中層或社會下層。不斷迭代數(shù)據(jù)并自動優(yōu)化部分參數(shù)進行分類或回歸,通過調(diào)整運行輪次和網(wǎng)絡大小進行識別,結果如圖8所示。

      Figure 8 Social class recognition accuracy change 圖8 社會階層識別準確率變化圖

      隨著迭代輪次的增加,準確率不斷提高,且在6輪迭代后達到擬合,準確率為90.22%,滿足閾值[29]。該模型效果較為穩(wěn)定,表明虛擬空間中存在能夠區(qū)分人類社會分層的行為特征。

      另外,本文對比了時下較為普適、高效的SimpleRNN、LSTM、SVM模型,表3顯示了不同模型對同一數(shù)據(jù)集的識別效果。

      Table 3 Experimental results comparison

      結果表明,基于word2vec的BP神經(jīng)網(wǎng)絡模型(W2V-BP)對虛擬空間中的社會分層識別具有較好的表現(xiàn),同時LSTM、SimpleRNN和SVM模型也能夠進行虛擬空間中的社會分層識別。這進一步驗證了虛擬空間中存在能夠區(qū)分人類社會分層的行為特征。

      5 結束語

      本文通過分析用戶行為大數(shù)據(jù)對虛擬空間中的社會分層規(guī)律進行研究,最終發(fā)現(xiàn)不同階層的用戶在虛擬空間中的行為特征大不相同。(1)較高階層用戶在虛擬空間中的停留時間更加穩(wěn)定,較低階層用戶的停留時間較不穩(wěn)定。(2)較高階層用戶能更好地利用網(wǎng)上資源辦公和購物,而較低階層用戶主要在虛擬空間中休閑和娛樂,卻消耗了最多的時間和注意力。(3)利用W2V-BP神經(jīng)網(wǎng)絡模型發(fā)現(xiàn)虛擬空間中存在能夠區(qū)分社會階層的行為特征,識別準確率為90.22%。

      研究結果給我們的啟示是,在信息豐富的時代,我們應該保護好自己的注意力,將它消耗在能提升自我的信息資源上,才不會陷入社會底層的循環(huán)中。

      本文對虛擬空間中社會分層行為研究的判斷還有待新的數(shù)據(jù)和進一步的研究去核實。另外,本文通過職業(yè)來反映社會分層,代表了一般意義的階層劃分,但其實社會階層還受到教育、收入、父母、配偶等的影響[30]。今后將進一步地提升和優(yōu)化虛擬空間中的社會分層行為研究。

      猜你喜歡
      虛擬空間階層瀏覽器
      當“非遺”遇上“新階層”
      華人時刊(2022年15期)2022-10-27 09:05:00
      虛擬空間設計中的關鍵技術分析
      基于虛擬化的相向行駛車輛間通信機制的研究
      美國大學招生行賄丑聞凸顯其階層割裂
      英語文摘(2019年7期)2019-09-23 02:23:24
      反瀏覽器指紋追蹤
      電子制作(2019年10期)2019-06-17 11:45:14
      大眾富裕階層如何理財
      環(huán)球瀏覽器
      再見,那些年我們嘲笑過的IE瀏覽器
      英語學習(2015年6期)2016-01-30 00:37:23
      淺談室內(nèi)設計中虛擬空間的表現(xiàn)
      雪蓮(2015年8期)2015-11-28 19:34:33
      奇聞趣事
      海外英語(2013年2期)2013-08-27 09:36:27
      高邮市| 拜泉县| 临沂市| 福安市| 西充县| 同心县| 内江市| 鹤岗市| 都安| 金昌市| 云浮市| 广汉市| 福贡县| 遵义县| 临沭县| 安顺市| 平定县| 麟游县| 饶河县| 龙南县| 台江县| 甘泉县| 龙岩市| 平塘县| 林芝县| 三门县| 富源县| 江川县| 尼玛县| 辛集市| 龙南县| 黄骅市| 涟水县| 蒙城县| 老河口市| 工布江达县| 安国市| 阜康市| 新竹县| 图片| 岳普湖县|