王曉雪+張家禎+郭賀+王灝
摘要: 關(guān)鍵詞: 中圖分類號(hào): 文獻(xiàn)標(biāo)志碼: A文章編號(hào): 2095-2163(2017)06-0167-02
Abstract: With the arrival of the era of big data, people's lives and work are surrounded by massive data, and various kinds of information are also produced at the same time. And a lot of security risks are faced by big data in the process of collection, storage and use. This paper mainly discusses the big data information security issues, introduces the related technology of big data, and analyzes the techniques suitable for mining the learning behavior model.
0引言
隨著大數(shù)據(jù)時(shí)代的到來(lái),人們?cè)谕ㄟ^(guò)各種方式獲取信息的同時(shí),也持續(xù)產(chǎn)生了各種各樣的信息,如訪問(wèn)網(wǎng)站的瀏覽信息、電商網(wǎng)站的消費(fèi)記錄、各種登記信息等。不僅如此,科學(xué)計(jì)算、醫(yī)療衛(wèi)生、金融、零售業(yè)等各行業(yè)也均有大量數(shù)據(jù)在不斷產(chǎn)生和涌現(xiàn),專家預(yù)計(jì)到2020年這一數(shù)值會(huì)超過(guò)40 ZB,因此引發(fā)了學(xué)術(shù)界和各國(guó)政府的熱議與重視。本文即針對(duì)這一課題展開(kāi)如下探討論述。
1大數(shù)據(jù)作用
大數(shù)據(jù)技術(shù)目前已經(jīng)被應(yīng)用到各個(gè)領(lǐng)域,其現(xiàn)實(shí)作用可分為以下3類:
1)獲取信息進(jìn)行預(yù)測(cè),如利用數(shù)據(jù)分析預(yù)測(cè)股票行情走勢(shì)。
2)分析對(duì)象個(gè)性化特征,如對(duì)于網(wǎng)購(gòu)客戶的搜索信息分析后進(jìn)行商品推薦。
3)去偽存真辨別真假,如對(duì)于論壇虛假信息進(jìn)行過(guò)濾等。
2信息安全問(wèn)題
研究可知,大數(shù)據(jù)的利益價(jià)值與其帶來(lái)的信息安全問(wèn)題同樣不容忽視。而另有關(guān)于社交網(wǎng)絡(luò)信息的分析研究表明,通過(guò)用戶錄入的個(gè)人信息可以發(fā)現(xiàn)其興趣愛(ài)好、生活習(xí)慣、工作領(lǐng)域等信息。目前的保護(hù)技術(shù)仍有待改進(jìn),掌握了客戶信息的企業(yè)常常認(rèn)為經(jīng)過(guò)匿名處理來(lái)隱藏用戶標(biāo)識(shí)符即可充分發(fā)揮保護(hù)作用,但事實(shí)上卻并非如此,當(dāng)相關(guān)信息進(jìn)行相互結(jié)合處理時(shí),部分用戶信息還是會(huì)被顯性識(shí)別出來(lái)。目前用戶信息的收集、管理和使用等主要依托企業(yè)自律,尚待形成嚴(yán)密監(jiān)管體系,用戶也無(wú)法自行決定個(gè)人信息的使用和銷毀。
當(dāng)前,主要的大數(shù)據(jù)信息保護(hù)技術(shù)有匿名保護(hù)和數(shù)據(jù)水印技術(shù)。其中,匿名保護(hù)技術(shù)可用于大數(shù)據(jù)的發(fā)布時(shí),如社交網(wǎng)站的發(fā)布信息為大數(shù)據(jù)的主要來(lái)源之一,利用匿名保護(hù)技術(shù)既可以隱藏用戶的標(biāo)識(shí)和屬性,也可以將用戶間關(guān)系的保護(hù)一并展開(kāi)完成。而水印技術(shù)則是將標(biāo)識(shí)信息嵌入至數(shù)據(jù)信息中,而且也不會(huì)影響數(shù)據(jù)使用的技術(shù)。
3數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)具體包括了聚類、分類、關(guān)聯(lián)規(guī)則、信息檢索及序列模式等內(nèi)容。其中,關(guān)聯(lián)規(guī)則能夠找到數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,序列模式能夠發(fā)現(xiàn)數(shù)據(jù)中的頻繁模式,而分類、聚類技術(shù)就能夠分別在規(guī)則已知和未知的情況進(jìn)行數(shù)據(jù)分類,另外的信息檢索技術(shù)則主要用于提升搜索引擎的搜索質(zhì)量和效率。本文即以筆者所在院校的學(xué)生學(xué)習(xí)行為模式作為研究對(duì)象,將各類數(shù)據(jù)挖掘融入了學(xué)生行為的研究管理實(shí)踐,并以此為核心建構(gòu)科學(xué)合理教學(xué)模式。
3.1院校大數(shù)據(jù)特點(diǎn)分析
為發(fā)現(xiàn)高校學(xué)生的學(xué)習(xí)行為模式,除學(xué)生自行安排的學(xué)習(xí)時(shí)間段外,為使數(shù)據(jù)收集準(zhǔn)確且完整,還需要增補(bǔ)課余時(shí)間的安排情況,該過(guò)程不可避免地涉及到學(xué)生隱私,由此可能導(dǎo)致數(shù)據(jù)量不足或者由于人為因素得到噪聲和不完整數(shù)據(jù)。相對(duì)應(yīng)地,由網(wǎng)絡(luò)系統(tǒng)記錄的在線學(xué)習(xí)情況的數(shù)據(jù)則要更加準(zhǔn)確和客觀,但這卻要有關(guān)技術(shù)和部門(mén)的支持與配合。高校學(xué)生專業(yè)特點(diǎn)不同,學(xué)習(xí)行為隨學(xué)期而具備了階段性變化,因此受到現(xiàn)實(shí)情況限制,只收集某專業(yè)某一屆學(xué)生畢業(yè)前的學(xué)習(xí)行為信息,數(shù)據(jù)會(huì)呈現(xiàn)局部特征明顯、但普遍代表性不高的特點(diǎn)。綜上分析可知,在某專業(yè)數(shù)據(jù)信息收集、分析,并經(jīng)時(shí)間離散化等結(jié)構(gòu)化預(yù)處理后,可以存儲(chǔ)于數(shù)據(jù)庫(kù)中等待數(shù)據(jù)挖掘技術(shù)的實(shí)踐操作研究。
3.2數(shù)據(jù)挖掘技術(shù)應(yīng)用解析
1)分類、聚類技術(shù)。如果需要通過(guò)學(xué)習(xí)行為對(duì)學(xué)生進(jìn)行分類,則適合采用分類聚類技術(shù)。具體來(lái)說(shuō),分類是一種有指導(dǎo)的技術(shù),可以將學(xué)生劃分至預(yù)先定義的各類中,如可以將學(xué)生簡(jiǎn)單按照成績(jī)分為兩組,也可以細(xì)化成按照優(yōu)、良、中、差多個(gè)級(jí)別不等。而聚類是一種無(wú)指導(dǎo)的技術(shù),需要先從數(shù)據(jù)出發(fā)找到學(xué)習(xí)行為中相近的記錄實(shí)現(xiàn)分組,分組目標(biāo)事先不能確定,主要依賴數(shù)據(jù)特征識(shí)別分組,結(jié)果也需要用戶自行識(shí)別和定義。
2)關(guān)聯(lián)規(guī)則技術(shù)。利用關(guān)聯(lián)規(guī)則技術(shù)則能夠找到學(xué)生群體中影響學(xué)生成績(jī)的行為因素,如某些學(xué)生的生活習(xí)慣為晝伏夜出,經(jīng)常逃課,則必然學(xué)習(xí)成績(jī)不良,那么推得的關(guān)聯(lián)規(guī)則即為{(晝伏夜出,逃課)→成績(jī)差},利用這一規(guī)則可以輔助教師對(duì)學(xué)生善加引導(dǎo),建立和完善管理機(jī)制。
3)序列模式挖掘技術(shù)。如果需要預(yù)測(cè)學(xué)生學(xué)習(xí)行為模式,就適于利用序列模式,因其發(fā)現(xiàn)事件的先后順序規(guī)律,如若有學(xué)生晝伏夜出,那么該生有可能即將逃課,最終可能影響成績(jī)和畢業(yè),這個(gè)模式可以描述為{晝伏夜出→逃課→成績(jī)差}。利用如上研究模式,教師就可對(duì)學(xué)生提前施以約束與糾正,防微杜漸,避免最壞的結(jié)果發(fā)生。
除了實(shí)踐積累的教學(xué)經(jīng)驗(yàn)和心理學(xué)知識(shí)輔助,教師還需要更多先驗(yàn)知識(shí)來(lái)提升學(xué)生指導(dǎo)工作的專業(yè)性與靈活性。最好是能夠利用大數(shù)據(jù)處理技術(shù)發(fā)現(xiàn)無(wú)意忽略或者無(wú)法發(fā)現(xiàn)的知識(shí),能夠輔助策略性指導(dǎo)的規(guī)律,因此研究建議:可以更多考慮選用序列模式挖掘技術(shù)。endprint
序列模式挖掘的代表算法有Apriori[1]、GSP[2]、PrefixSpan[3]、SPADE[4]等。這里,關(guān)于序列模式挖掘的重點(diǎn)算法將給出如下分析闡釋。
① Apriori算法。設(shè)計(jì)策略為:首先遍歷數(shù)據(jù)庫(kù)找到長(zhǎng)度為1的頻繁序列模式L1,算法步驟如下:
Step 1L1集合中的序列進(jìn)行兩兩連接,形成的候選集合放在C2中;
Step 2對(duì)于C2中的每個(gè)長(zhǎng)度為2的序列通過(guò)數(shù)據(jù)庫(kù)進(jìn)行測(cè)試,如果為頻繁序列則放在L2中,否則放棄。對(duì)于L2中的頻繁序列按照上述連接和測(cè)試步驟而形成了遞歸處理流程,直至無(wú)法找到足夠的頻繁序列Ln進(jìn)行連接為止。但因?yàn)橛蒐n生成Cn+1的過(guò)程中會(huì)產(chǎn)生大量的候選序列,尤其是C2的數(shù)量非常多,并且兼有源數(shù)據(jù)庫(kù)的海量特點(diǎn),對(duì)于Cn+1中每個(gè)序列都要遍歷一次數(shù)據(jù)庫(kù),使得Apriori算法的缺點(diǎn)也尤為顯著與突出。
② GSP算法和PrefixSpan算法。Srikant提出的GSP算法和Han 等提出的PrefixSpan算法都針對(duì)Apriori算法問(wèn)題引入了變化與改進(jìn),GSP算法在Apriori算法的基礎(chǔ)上附增了時(shí)間約束,并且在存儲(chǔ)序列時(shí)采用拓?fù)浣Y(jié)構(gòu)輔助篩選頻繁序列,縮小了搜索目標(biāo)集合,GSP算法比Apriori算法運(yùn)行時(shí)可快上2~20倍。而PrefixSpan算法則改變了搜索策略,利用源數(shù)據(jù)集找到L1,以L1為前綴進(jìn)行投影,在生成的投影數(shù)據(jù)庫(kù)中對(duì)L1進(jìn)行挖掘并建立L1投影數(shù)據(jù)庫(kù),在這個(gè)過(guò)程中不會(huì)生成候選序列集合,L1連接L1便形成了頻繁序列L2,但L1中每個(gè)序列均需要生成一個(gè)投影數(shù)據(jù)庫(kù),因此空間和時(shí)間上主要就是用于保存和處理投影數(shù)據(jù)庫(kù),后續(xù)的挖掘都是在新投影數(shù)據(jù)庫(kù)中定義支持遞歸設(shè)計(jì),搜索規(guī)模不斷縮小。
③ SPADE算法。分析可知,前述算法都是基于水平格式數(shù)據(jù)庫(kù),SPADE算法則是基于垂直ID-LIST格式數(shù)據(jù)庫(kù)的搜索算法,相當(dāng)于將原來(lái)的搜索空間分解成基于頻繁序列的不同的格,然后在每個(gè)格里進(jìn)行遞歸挖掘。雖然搜索策略仍舊是連接-測(cè)試,但卻簡(jiǎn)化了連接和測(cè)試過(guò)程。
之后,還有針對(duì)數(shù)據(jù)庫(kù)更新時(shí)的增量式序列模式挖掘,能夠挖掘多維信息的多維序列模式挖掘,能夠增加用戶參與挖掘機(jī)會(huì)的基于約束的序列模式挖掘。
對(duì)于上述算法,Apriori算法易實(shí)現(xiàn)但效率不理想;PrefixSpan算法雖然更加理想但不易實(shí)現(xiàn),并更適宜與約束條件相結(jié)合;SPADE算法需要數(shù)據(jù)結(jié)構(gòu)的配合,缺點(diǎn)與Apriori算法相同。經(jīng)上述分析,針對(duì)學(xué)生學(xué)習(xí)行為數(shù)據(jù)具有少量且結(jié)構(gòu)化的特點(diǎn),選擇Apriori算法,并結(jié)合一定約束條件來(lái)設(shè)計(jì)展開(kāi)挖掘。
4結(jié)束語(yǔ)
本文主要分析了大數(shù)據(jù)產(chǎn)生的信息安全問(wèn)題,重點(diǎn)闡述了數(shù)據(jù)挖掘經(jīng)典算法并從中選取適合處理學(xué)生數(shù)據(jù)的算法,未來(lái)將以實(shí)現(xiàn)算法Apriori,并嘗試添加約束提高效率,去掉用戶不感興趣的序列為研究目標(biāo),進(jìn)一步系統(tǒng)推進(jìn)相關(guān)研究。
參考文獻(xiàn):
[1] AGRAWAL R, SRIKANT R. Mining sequential pattern[C]//Proc.of the 11th International Conference on Data Engineering. Taipei:IEEE,1995:3-14.
[2] SRIKANT R, AGRAWAL R. Mining sequential patterns:Generalizations and performance improvements[M]//APERS P, BOUZEGHOUB M, GARDARIN G. Advances in Database Technology — EDBT' 96. EDBT 1996. Lecture Notes in Computer Science, Berlin/Heidelberg:Springer, 1996,1057:1-17.
[3] PEI Jian, HAN Jiawei, MORTAZAVIASI B, et al. Prefix Span:Mining sequential patterns eficiently by prefix-projected pattern growth[C]//2013 IEEE 29th International Conference on Data Engineering (ICDE) (2001).Heidelberg, Germany:IEEE Computer Society, 2001:215-224.
[4] ZAKI M J. SPADE: An efficient algoritm for mining frequent sequences[J]. Machine Learning, 2001,42(1):31-60.endprint