劉 妍
基于Facebook用戶(hù)基本信息隱私曝露研究
劉 妍
本文選取FACEBOOK社交媒體上的100位用戶(hù)的基本信息進(jìn)行分群分析。通過(guò)實(shí)驗(yàn)將用戶(hù)的資料集分為五群,并將分群結(jié)果進(jìn)行分類(lèi)討論。通過(guò)對(duì)用戶(hù)基本信息的分析,尋找用戶(hù)基本信息曝露中的危險(xiǎn)因素。給用戶(hù)提供實(shí)質(zhì)性的建議,為社交媒體的健康發(fā)展提供重要的保障。
社交媒體 用戶(hù)基本信息曝露 隱私保護(hù)
計(jì)算機(jī)、網(wǎng)絡(luò)等信息技術(shù)的快速發(fā)展,社交媒體運(yùn)營(yíng)商所擁有的數(shù)據(jù)以指數(shù)規(guī)模增長(zhǎng)。這些微觀的數(shù)據(jù)日益以公開(kāi)發(fā)布的形式成為一種公共產(chǎn)品,但是由于微觀數(shù)據(jù)發(fā)布之后數(shù)據(jù)發(fā)布者既無(wú)法控制數(shù)據(jù)用戶(hù)對(duì)數(shù)據(jù)的使用方式,是否會(huì)惡意使用數(shù)據(jù)。也不了解用戶(hù)信息曝露的內(nèi)容是否會(huì)對(duì)用戶(hù)自身產(chǎn)生一定的危險(xiǎn)。而作為網(wǎng)絡(luò)應(yīng)用提供商則希望利用盡可能多的隱私信息獲得更多的利益,其他利益相關(guān)方也想從中賺取更多的價(jià)值,用戶(hù)信息曝露的內(nèi)容被多方所持有。因此用戶(hù)需要將控制隱私的權(quán)利把握在自己手中,更好的保證自己的隱私安全。由此可見(jiàn)對(duì)隱私問(wèn)題的深入研究具有重大的現(xiàn)實(shí)意義。
社交媒體的出現(xiàn)為用戶(hù)隱私問(wèn)題提供了很好的研究環(huán)境,它不僅擁有與現(xiàn)實(shí)社會(huì)極為接近的用戶(hù)規(guī)模,社會(huì)關(guān)系,復(fù)雜結(jié)構(gòu),行為規(guī)律。還擁有比現(xiàn)實(shí)社會(huì)無(wú)法相比的易獲取,易分析,易驗(yàn)證等特征。隨著人們對(duì)于隱私信息越來(lái)越重視,用戶(hù)在進(jìn)行信息曝露的過(guò)程中,在進(jìn)行安全社交的過(guò)程中用戶(hù)的隱私安全如何能得到有效地保證是現(xiàn)在研究的熱點(diǎn)問(wèn)題。用戶(hù)量超過(guò)一千萬(wàn)的社交媒體高達(dá)上百種。例如:Facebook,Twitter,LinkIn,Wechat,Weibo等。并且隨著“互聯(lián)網(wǎng)+”的推廣,小眾社交媒體產(chǎn)品的不斷涌現(xiàn),社交媒體的來(lái)源不明確,使得用戶(hù)的隱私曝露安全更加沒(méi)有保障。因此面向隱私保護(hù)的社交媒體用戶(hù)基本信息曝露研究顯得尤為重要。
本文選取國(guó)內(nèi)外具有影響力的社交媒體Facebook作為切入點(diǎn),根據(jù)2016年7月26日,F(xiàn)acebook發(fā)布的第二季度財(cái)報(bào),F(xiàn)acbook的月活躍用戶(hù)突破17億,日活躍用戶(hù)也突破了11億。龐大的用戶(hù)活躍量,大量的社交媒體文本,公開(kāi)的API獲取數(shù)據(jù)方式。本文選取社交媒體用戶(hù)注冊(cè)時(shí)的基本信息作業(yè)研究的數(shù)據(jù)集。將用戶(hù)曝露的基本信息曝光程度進(jìn)行人為定義。
對(duì)Facebook用戶(hù)基本信息進(jìn)行瀏覽時(shí),用戶(hù)的基本信息如表1所示,危險(xiǎn)等級(jí)依序 1> +0 > 0,是人為設(shè)定。
根據(jù)用戶(hù)曝露的基本信息,選取最基本的10個(gè)變量作為特征值。分別是工作經(jīng)歷,學(xué)歷,生活過(guò)的地方,聯(lián)系方式中的郵箱和聯(lián)系電話(huà),生日,性別,家庭成員,感情狀況,用戶(hù)頭像等十個(gè)欄位作為研究變量。其中針對(duì)工作經(jīng)歷和學(xué)歷以0為定義量度的起點(diǎn)。以用戶(hù)曝露的的信息量為準(zhǔn)。試圖建立一種模型,反應(yīng)用戶(hù)在信息曝露的過(guò)程中,歸納發(fā)布數(shù)據(jù)可能遭受的攻擊類(lèi)型,所可能給用戶(hù)帶來(lái)危害性影響的因素。通過(guò)實(shí)證研究,以期為用戶(hù)提供優(yōu)化策略,減輕用戶(hù)遭受攻擊的可能性,為社交媒體用戶(hù)長(zhǎng)久健康的發(fā)展提供基礎(chǔ)。
將收集到的100筆用戶(hù)的數(shù)據(jù),運(yùn)用k-means分群的算法,將其分為五群。將這100位用戶(hù)的數(shù)據(jù),分為五群,五群的數(shù)據(jù)量分別為14;3;40;8;35。通過(guò)對(duì)分群結(jié)果進(jìn)行分析可以得出以下結(jié)果,如圖1所示。
圖1 K-mean分群結(jié)果
第一群的特征主要表現(xiàn)在工作,教育背景,居住地,生日,家庭成員等信息曝露較多。第二群的特征主要表現(xiàn)在工作,教育背景,家庭成員等信息曝露較多。第三群的特征主要表現(xiàn)在工作和家庭成員信息基本沒(méi)有曝露,教育背景曝露較少,電話(huà)號(hào)碼少量曝露。第四群的特征主要表現(xiàn)在工作和教育背景曝露較少,家庭成員信息曝露較多。第五群的特征主要表現(xiàn)在工作,教育背景,家庭成員曝露信息較少。
將這五群進(jìn)行用戶(hù)信息曝露危險(xiǎn)等級(jí)定義。由危險(xiǎn)到安全等級(jí)。第四群為第五級(jí),第一群為第四級(jí),第二群為第三級(jí),第五群為第二級(jí),第三群為第一級(jí)即為較安全的信息曝露方式。
本文根據(jù)100位用戶(hù)的數(shù)據(jù)進(jìn)行分群分析,可以看出屬于第三群和第五群的用戶(hù)較多,根據(jù)我們定義的危險(xiǎn)等級(jí),也分別為第一級(jí)和第二級(jí)的用戶(hù)人群較多。但是也是有一部分用戶(hù)處于更高級(jí)別的危險(xiǎn)等級(jí),用戶(hù)在進(jìn)行信息曝露的時(shí)候,應(yīng)該注意第三、四、五群主要集中曝露的信息,例如工作,教育背景,生日,家庭成員等基本信息的泄露。本文僅僅選取100位用戶(hù)的基本信息進(jìn)行實(shí)證研究,在數(shù)據(jù)集的研究上具有一定的局限性。同時(shí)利用非監(jiān)督學(xué)習(xí)方式對(duì)于數(shù)據(jù)進(jìn)行標(biāo)記也會(huì)產(chǎn)生一定的人為誤差同時(shí)用戶(hù)基本信息數(shù)據(jù)集的選擇可能也具有一些不可抵抗的因素。在接下來(lái)的研究中,著手進(jìn)行用戶(hù)基本信息曝露模型的構(gòu)建的同時(shí)擴(kuò)充訓(xùn)練數(shù)據(jù)集的錄入。在今后的研究中,不僅僅局限于用戶(hù)的基本信息曝露,還包括用戶(hù)的評(píng)論,用戶(hù)的地理位置信息等方面。以期通過(guò)這樣的方式能為用戶(hù)的社交提供更加安全的保證。
天津師范大學(xué)管理學(xué)院)
劉妍(1992-),女,漢族,天津人,研究生在讀,研究方向:圖書(shū)情報(bào)管理。