王旭瑋
[摘要]通信運營商具有接入用戶的數(shù)量優(yōu)勢,擁有類型豐富的海量用戶數(shù)據(jù),尤以位置數(shù)據(jù)更具分析及結(jié)果應(yīng)用價值。本文通過分析位置定位、數(shù)據(jù)安全及大數(shù)據(jù)相關(guān)理論,建立基于位置信息的大數(shù)據(jù)安全應(yīng)用模型,為位置數(shù)據(jù)的分析及應(yīng)用提供理論參考。
[關(guān)鍵詞]位置信息 大數(shù)據(jù)挖掘 基站定位
引言:
伴隨云計算理論研究與實踐的不斷深入,海量數(shù)據(jù)存儲分析以及基于分析結(jié)果的大數(shù)據(jù)應(yīng)用案例日趨豐富。通信運營商由于擁有用戶規(guī)模優(yōu)勢,可形成用戶基礎(chǔ)信息、行為記錄、位置數(shù)據(jù)等多類型的原始數(shù)據(jù)記錄,具備部署大數(shù)據(jù)分析及應(yīng)用的數(shù)據(jù)資源優(yōu)勢。而位置數(shù)據(jù)由于數(shù)據(jù)高價值性與敏感性并存的特性,導(dǎo)致各運營商基于位置信息的大數(shù)據(jù)應(yīng)用還處于理論研究與小范圍試點的階段,缺乏系統(tǒng)的理論研究基礎(chǔ)與完整的應(yīng)用推廣模型。
本文通過研究位置信息的來源、數(shù)據(jù)分析及安全保障措施等,提出基于位置信息的大數(shù)據(jù)安全應(yīng)用模型,為位置數(shù)據(jù)的分析及應(yīng)用提供理論參考。
一、位置數(shù)據(jù)的來源
通信運營商位置信息來源包括信令系統(tǒng)、業(yè)務(wù)應(yīng)用系統(tǒng)、自有定位平臺及網(wǎng)管及日志系統(tǒng)等,具體包括:
1、采集自信令的定位數(shù)據(jù),如采集自MC、GB/IuPS、LTE等信令口的數(shù)據(jù)。通常為傳統(tǒng)的基于基站定位方式(LBS),目前較為成熟的為基于基站CELLID的定位方式。該項數(shù)據(jù)源提供基于COO、RSS、AOA、TOA/TDOA等算法計算出的用戶實時經(jīng)緯度數(shù)據(jù)。2、來自業(yè)務(wù)應(yīng)用系統(tǒng)的定位記錄為提取軟件記錄的用戶位置信息,該項數(shù)據(jù)包含LBS、A-GPS、WLAN等綜合定位后的用戶位置數(shù)據(jù)。3、自有定位平臺為綜合的定位信息為提取自專業(yè)定位系統(tǒng)產(chǎn)生的位置數(shù)據(jù)。4、網(wǎng)管及日志系統(tǒng)主要是基于通話、上網(wǎng)等行為,通過用戶通信行為的接入點信息而生成的用戶位置數(shù)據(jù)。
二、位置信息的分析
位置數(shù)據(jù)的記錄格式為經(jīng)緯度二維數(shù)據(jù),基于用戶位置數(shù)據(jù)可生成如下三類型分析數(shù)據(jù):
1、靜態(tài)數(shù)據(jù):即某一時間點內(nèi)的用戶位置數(shù)據(jù),可類比為用戶位置的拍照數(shù)據(jù)。該數(shù)據(jù)記錄為最原始的用戶位置信息。2、動態(tài)數(shù)據(jù):即從時間軸維度記錄的用戶位置數(shù)據(jù),可類比為用戶位置的攝像數(shù)據(jù)。該數(shù)據(jù)形成用戶的軌跡數(shù)據(jù)、停留時長數(shù)據(jù)等,為用戶位置數(shù)據(jù)的動態(tài)反應(yīng)。3、二階動態(tài)數(shù)據(jù):即對用戶動態(tài)數(shù)據(jù)的二次分析后形成記錄數(shù)據(jù),包括常態(tài)化軌跡、非常態(tài)化運動軌跡、運動頻次記錄、頻次變化記錄、軌跡速度、區(qū)域密度動態(tài)變化趨勢等。
大數(shù)據(jù)分析的分析建模以上述三類數(shù)據(jù)作為基礎(chǔ),建立分應(yīng)用場景的數(shù)據(jù)模型。
三、位置信息的安全保障
由于位置數(shù)據(jù)的高度敏感性,對于基于位置數(shù)據(jù)的大數(shù)據(jù)分析的安全保障措施必不可少,具體來說包括以下內(nèi)容:
1、位置數(shù)據(jù)與用戶信息解耦合:在原始位置信息采集以及記錄時對原始號碼通過加擾、模糊、數(shù)據(jù)聚合等技術(shù)進行脫敏處理,解除用戶精確信息與位置信息的對應(yīng)關(guān)系,實現(xiàn)數(shù)據(jù)脫敏。2、位置數(shù)據(jù)與其他數(shù)據(jù)隔離:為避免通過多重數(shù)據(jù)分析實現(xiàn)精確定位用戶的可能,位置數(shù)據(jù)的提取、采集及存儲需與其余數(shù)據(jù)嚴(yán)格分離,避免與其他數(shù)據(jù)的合并分析。3、做聚類數(shù)據(jù)分析避免個體數(shù)據(jù)分析:通過數(shù)據(jù)的聚合來避免個體數(shù)據(jù)的敏感性,數(shù)據(jù)的展現(xiàn)以聚類數(shù)據(jù)的形式展現(xiàn),避免個體屬性的展現(xiàn)。4、建立不同的數(shù)據(jù)安全域:建立高、中、低三級數(shù)據(jù)安全域,并嚴(yán)格限制低級別數(shù)據(jù)域與高級別數(shù)據(jù)域間的數(shù)據(jù)流向。5、建立安全數(shù)據(jù)傳輸通道:通話數(shù)據(jù)加擾、信道加密、數(shù)據(jù)水印等多種措施建立數(shù)據(jù)域間或域內(nèi)系統(tǒng)間數(shù)據(jù)傳輸?shù)陌踩ǖ溃苊鈹?shù)據(jù)的泄露。
四、基于位置數(shù)據(jù)的應(yīng)用模型
鑒于位置數(shù)據(jù)的敏感性,建立基于位置分析的大數(shù)據(jù)應(yīng)用模型應(yīng)以安全為首要原則,輔以多種技術(shù)措施,建立嚴(yán)謹(jǐn)、高價值、高效率的應(yīng)用模型。
本模型按照數(shù)據(jù)的產(chǎn)生、分析及應(yīng)用的流向,將應(yīng)用模型分為三個區(qū)域,高密級數(shù)據(jù)域主要為原始數(shù)據(jù)的產(chǎn)生及采集行為。該區(qū)域包括產(chǎn)生數(shù)據(jù)的原始系統(tǒng)、數(shù)據(jù)采集系統(tǒng)。該區(qū)域各子系統(tǒng)完成數(shù)據(jù)采集及用戶信息脫敏工作。
中密級數(shù)據(jù)域為數(shù)據(jù)的存儲、分析區(qū)域,該區(qū)域主要完成原始數(shù)據(jù)的存儲、檢索、分析處理等工作。
低價值數(shù)據(jù)為基于分析結(jié)果的各類應(yīng)用。
各數(shù)據(jù)域間數(shù)據(jù)流向均為單向,即只建立較高密級的數(shù)據(jù)域向較低密級數(shù)據(jù)域的寫的權(quán)限,剔除較高密級數(shù)據(jù)域向低密級數(shù)據(jù)域的讀權(quán)限以及較低密級數(shù)據(jù)域向高密級數(shù)據(jù)域的寫權(quán)限。
五、結(jié)語
基于位置信息的大數(shù)據(jù)分析及應(yīng)用是實現(xiàn)運營商存量數(shù)據(jù)增值及變現(xiàn)的重要途徑,應(yīng)用結(jié)果對于社會生產(chǎn)、資源規(guī)劃以及經(jīng)濟運營等各領(lǐng)域的指導(dǎo)作用也不可忽視。建立具有高安全屬性的大數(shù)據(jù)應(yīng)用系統(tǒng),需綜合應(yīng)用互聯(lián)網(wǎng)、信息安全等各項技術(shù),通過不斷的工作實踐擴展數(shù)據(jù)應(yīng)用的領(lǐng)域、提升數(shù)據(jù)應(yīng)用的安全性。