李彤彤 李坦 郭栩?qū)?/p>
【摘要】? 社交媒體已經(jīng)成為學(xué)生記錄生活、表達(dá)觀點(diǎn)、分享交流等的最主要途徑,也是反映學(xué)生真實(shí)狀態(tài)可靠、即時(shí)的大數(shù)據(jù)來(lái)源之一。真實(shí)、準(zhǔn)確、及時(shí)的社交媒體大數(shù)據(jù)樣本蘊(yùn)含著巨大的教育價(jià)值,為教育研究提供了更豐富的可能。從價(jià)值角度看,通過(guò)對(duì)社交媒體大數(shù)據(jù)進(jìn)行情感分析、主題挖掘、社會(huì)網(wǎng)絡(luò)分析等,可以實(shí)現(xiàn)學(xué)習(xí)者畫(huà)像、學(xué)習(xí)者危機(jī)發(fā)現(xiàn)、教學(xué)過(guò)程優(yōu)化和教育輿情分析等,從而為利益相關(guān)者提供決策參考與支持。從技術(shù)角度看,將應(yīng)用的路徑概括為數(shù)據(jù)采集與預(yù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析和可視化四個(gè)階段,并總結(jié)了每個(gè)階段常用的方法。多源異構(gòu)數(shù)據(jù)的整合應(yīng)用、數(shù)據(jù)挖掘的合理性與準(zhǔn)確性、倫理隱私問(wèn)題等是社交媒體大數(shù)據(jù)教育應(yīng)用所面臨的主要挑戰(zhàn),也是未來(lái)研究需要重點(diǎn)關(guān)注的方面。
【關(guān)鍵詞】? 社交媒體;大數(shù)據(jù);社交媒體大數(shù)據(jù);教育大數(shù)據(jù);教育數(shù)據(jù)挖掘;教育數(shù)據(jù)應(yīng)用;價(jià)值;路徑;挑戰(zhàn)
【中圖分類號(hào)】? G434???????? 【文獻(xiàn)標(biāo)識(shí)碼】? A?? 【文章編號(hào)】? 1009-458x(2021)7-0036-09
社交媒體(Social Media)又稱為“社會(huì)化媒體”或“社會(huì)性媒體”,這一術(shù)語(yǔ)普遍認(rèn)為最早出現(xiàn)在Antony Mayfield所著的What Is Social Media一書(shū)中,被定義為“包含參與、開(kāi)放、社交、社區(qū)性、聯(lián)通性等特點(diǎn)的一組新型在線媒體”。社交媒體是Web 2.0時(shí)代的產(chǎn)物,其最核心的特征有兩個(gè):一是對(duì)個(gè)體而言,它賦予了每個(gè)人創(chuàng)造并傳播內(nèi)容的能力,人人都可以成為信息的生產(chǎn)者;二是對(duì)群體而言,它提供了豐富的聯(lián)結(jié)機(jī)會(huì),形成了龐大的全民社交網(wǎng)絡(luò),每個(gè)個(gè)體都成為社交網(wǎng)絡(luò)上的結(jié)點(diǎn)。當(dāng)前,社交媒體平臺(tái)飛速發(fā)展,平臺(tái)種類、數(shù)量、功能繁雜,譚天等(2017)將其分為平臺(tái)型、社群型、工具型和泛在型四種類型。其中,平臺(tái)型以微博、微信為代表;社群型以豆瓣、知乎、QQ、論壇、BBS網(wǎng)絡(luò)社區(qū)等為代表;工具型指以教育功能為目的開(kāi)發(fā)的社交媒體軟件,如以英語(yǔ)口語(yǔ)交流為目的開(kāi)發(fā)的HELLO TALK、專為大學(xué)生社交打造的嘰喳校園等;泛在型并非一種單獨(dú)形態(tài)的社交媒體,而是以社交屬性的內(nèi)容和服務(wù)“嵌入”各類媒體形態(tài)中,指在軟件中含有社交功能的應(yīng)用,如“藍(lán)墨云班課”課程圈、“課程格子”朋友圈等。社交媒體的應(yīng)用普及率逐年升高,據(jù)中國(guó)互聯(lián)網(wǎng)信息中心(China Internet Network Information Center)發(fā)布的《2016年中國(guó)社交應(yīng)用用戶行為研究報(bào)告》顯示,微信朋友圈、QQ空間、新浪微博的網(wǎng)民使用率分別是85.8%、67.5%、37.1%。社交媒體的蓬勃發(fā)展和廣泛應(yīng)用帶來(lái)了數(shù)據(jù)的爆炸式增長(zhǎng),推動(dòng)了大數(shù)據(jù)時(shí)代的到來(lái)。各個(gè)領(lǐng)域也開(kāi)始發(fā)掘社交媒體信息的巨大價(jià)值,于是有了社交媒體大數(shù)據(jù)的概念,我們將其界定為社交媒體上產(chǎn)生的具有動(dòng)態(tài)性、實(shí)時(shí)性、社交網(wǎng)絡(luò)依賴性的用戶數(shù)據(jù)。
在教育領(lǐng)域,社交媒體大數(shù)據(jù)的價(jià)值也開(kāi)始日益凸顯。安德森等(2017)認(rèn)為社交媒體是教育技術(shù)的三大支柱之一,對(duì)教育有著多方面的促進(jìn)作用,與教育的融合已勢(shì)不可擋(安德森, 等, 2020)?!?016年中國(guó)社交應(yīng)用用戶行為研究報(bào)告》顯示,在校學(xué)生已經(jīng)成為社交媒體使用人數(shù)最多的群體,占比25%。社交媒體已經(jīng)成為學(xué)生記錄生活、表達(dá)觀點(diǎn)、分享、交流等的最主要途徑,也是反映學(xué)生真實(shí)狀態(tài)的即時(shí)、可靠的大數(shù)據(jù)來(lái)源之一。真實(shí)、準(zhǔn)確、及時(shí)的社交媒體大數(shù)據(jù)樣本為教育研究提供了更多的可能性。大數(shù)據(jù)技術(shù)的發(fā)展也將這種可能性更多地轉(zhuǎn)化為現(xiàn)實(shí),通過(guò)對(duì)社交媒體大數(shù)據(jù)進(jìn)行深度挖掘以優(yōu)化教育教學(xué)正在成為研究者的關(guān)注點(diǎn)。但是,當(dāng)前教育領(lǐng)域?qū)ι缃幻襟w大數(shù)據(jù)的挖掘應(yīng)用仍處于初級(jí)探索階段,對(duì)于社交媒體大數(shù)據(jù)的巨大價(jià)值、挖掘方法以及面臨的挑戰(zhàn)還不夠系統(tǒng)、清晰。鑒于此,在系統(tǒng)分析與梳理文獻(xiàn)的基礎(chǔ)上,從功能與價(jià)值、方法與路徑、挑戰(zhàn)與機(jī)遇三個(gè)方面對(duì)社交媒體大數(shù)據(jù)教育應(yīng)用的現(xiàn)狀進(jìn)行了總結(jié)。在文獻(xiàn)篩選過(guò)程中,我們以“大數(shù)據(jù)”“教育”作為一級(jí)關(guān)鍵詞,進(jìn)一步選取其中與社交媒體大數(shù)據(jù)應(yīng)用相關(guān)的文獻(xiàn)。在文獻(xiàn)梳理過(guò)程中,我們主要以“應(yīng)用社交媒體大數(shù)據(jù)做了什么”“如何應(yīng)用的”為線索,逐級(jí)歸納得出結(jié)論。
一、功能與價(jià)值
據(jù)統(tǒng)計(jì),國(guó)內(nèi)社交媒體應(yīng)用于教育教學(xué)的研究最早始于2003年(林育曼, 2018),而應(yīng)用大數(shù)據(jù)方法來(lái)輔助教育教學(xué)卻是近幾年才開(kāi)始的。當(dāng)前社交媒體大數(shù)據(jù)在教育教學(xué)上的應(yīng)用可以概括為學(xué)習(xí)者畫(huà)像、學(xué)習(xí)者危機(jī)發(fā)現(xiàn)、教學(xué)過(guò)程優(yōu)化和教育輿情分析四個(gè)方面。
(一)學(xué)習(xí)者畫(huà)像
畫(huà)像技術(shù)最先在商業(yè)領(lǐng)域得到應(yīng)用,之后不斷向外拓展,教育領(lǐng)域也開(kāi)始引入,并將學(xué)習(xí)者畫(huà)像作為一種描繪學(xué)習(xí)者特征的方法。學(xué)習(xí)者畫(huà)像是通過(guò)對(duì)學(xué)習(xí)者群體進(jìn)行分類描述并標(biāo)簽化的過(guò)程(陳海建, 等, 2017; 肖君, 等, 2019),有利于更好地識(shí)別學(xué)習(xí)者,從而幫助教師、管理者及其他利益相關(guān)者精準(zhǔn)地了解學(xué)生的各種特征,為開(kāi)展個(gè)性化教學(xué)和管理提供決策支持。
精準(zhǔn)的學(xué)習(xí)者畫(huà)像通常需要對(duì)多源異構(gòu)數(shù)據(jù)進(jìn)行綜合分析,因此社交媒體數(shù)據(jù)通常作為支持學(xué)習(xí)者畫(huà)像的一部分。鑒于準(zhǔn)確識(shí)別學(xué)習(xí)者的目的,學(xué)習(xí)者畫(huà)像一般基于有一定封閉性而非完全開(kāi)放的社交媒體數(shù)據(jù)來(lái)源,如學(xué)校論壇、智慧校園平臺(tái)等。李光耀等(2018)將用戶畫(huà)像技術(shù)應(yīng)用在智慧校園中, 設(shè)計(jì)了包含基礎(chǔ)屬性、性格屬性、特長(zhǎng)愛(ài)好、成績(jī)優(yōu)劣四類特征的學(xué)生畫(huà)像標(biāo)簽體系,標(biāo)簽的生成借助靜態(tài)和動(dòng)態(tài)兩類數(shù)據(jù),靜態(tài)數(shù)據(jù)主要來(lái)源于智慧校園的管理系統(tǒng),動(dòng)態(tài)數(shù)據(jù)主要來(lái)源于社交媒體類應(yīng)用。同時(shí),研究者多從某一個(gè)或某幾個(gè)維度探討基于社交媒體大數(shù)據(jù)的學(xué)習(xí)者畫(huà)像“標(biāo)簽”體系。周文靜(2018)提出一種基于用戶興趣的學(xué)生畫(huà)像方法,主要考慮學(xué)生的基本屬性維度和興趣維度,從校園論壇中提取數(shù)據(jù),應(yīng)用基于情感詞對(duì)的關(guān)鍵字興趣提取方法以及基于文本情感傾向的概念興趣提取方法進(jìn)行學(xué)生興趣維度畫(huà)像,較準(zhǔn)確地反映出學(xué)生的興趣。對(duì)于應(yīng)用社交媒體大數(shù)據(jù)進(jìn)行學(xué)習(xí)者畫(huà)像的具體方法,也多是模仿商業(yè)領(lǐng)域的用戶畫(huà)像方法。Xiao等(2017)基于棧式自編碼器(Stacked Autoencoder)和深度信念網(wǎng)絡(luò)(Deep Belief Network)兩種深度學(xué)習(xí)算法構(gòu)建了用于識(shí)別學(xué)生和非學(xué)生微博的分類器等。
(二)學(xué)習(xí)者危機(jī)發(fā)現(xiàn)
學(xué)習(xí)者危機(jī)一般可以分為學(xué)業(yè)危機(jī)和心理危機(jī)兩大類。通過(guò)社交媒體大數(shù)據(jù)的分析,可以在一定程度上發(fā)現(xiàn)可能存在危機(jī)的學(xué)生,從而為針對(duì)性的干預(yù)提供依據(jù)和參考。
社交媒體大數(shù)據(jù)用于學(xué)業(yè)危機(jī)發(fā)現(xiàn)最典型的是大規(guī)模開(kāi)放在線課程(MOOC)中輟學(xué)和成績(jī)的預(yù)測(cè)。當(dāng)前MOOC輟學(xué)率極高,據(jù)統(tǒng)計(jì),哈佛大學(xué)開(kāi)設(shè)的“計(jì)算機(jī)導(dǎo)論”課程結(jié)業(yè)率僅為0.923%,麻省理工學(xué)院開(kāi)設(shè)的“電路與電子學(xué)”課程結(jié)業(yè)率僅為4.6%(Rai & Deng, 2016),及時(shí)識(shí)別有輟學(xué)傾向的學(xué)生并有針對(duì)性地進(jìn)行干預(yù),是確保學(xué)生完成學(xué)業(yè)的重要手段。Wang等(2018)基于MOOC平臺(tái)大數(shù)據(jù)提出了一種語(yǔ)義分析模型來(lái)跟蹤學(xué)習(xí)者的情感傾向,從而判斷學(xué)生對(duì)課程的接受程度,并進(jìn)一步通過(guò)情感量化機(jī)器學(xué)習(xí)方法構(gòu)建了學(xué)業(yè)預(yù)警模型,能夠及時(shí)發(fā)現(xiàn)無(wú)法正常完成學(xué)業(yè)的學(xué)生,有針對(duì)性地進(jìn)行干預(yù)來(lái)提升課程的完成率。Wen等(2014)對(duì)Coursera論壇帖子進(jìn)行挖掘,通過(guò)布朗聚類算法研究學(xué)習(xí)者對(duì)課程的集體情感態(tài)度,同時(shí)建立生存模型評(píng)估情感對(duì)學(xué)習(xí)者流失的影響,結(jié)論表明,學(xué)習(xí)者的集體情感與退學(xué)率存在顯著相關(guān)。舒瑩等(2019)對(duì)學(xué)生在線學(xué)習(xí)的過(guò)程性結(jié)構(gòu)化外顯信息和非結(jié)構(gòu)化內(nèi)隱信息進(jìn)行整合,采用樸素貝葉斯網(wǎng)絡(luò)算法識(shí)別學(xué)習(xí)者學(xué)習(xí)狀態(tài)與趨勢(shì),從而發(fā)現(xiàn)學(xué)習(xí)危機(jī)學(xué)生。
目前研究中更多的是社交媒體大數(shù)據(jù)用于心理危機(jī)的識(shí)別。社交媒體已經(jīng)成為人們分享和表達(dá)情感的常態(tài)化形式,對(duì)社交媒體大數(shù)據(jù)進(jìn)行情感挖掘和分析有助于發(fā)現(xiàn)學(xué)生非正常情感。孫婉婷(2016)從新浪微博、人人網(wǎng)和百度貼吧采集文本,依據(jù)學(xué)生實(shí)際建立情感詞典,并研究出一種表情符號(hào)和文本傾向度加權(quán)的情感分析方法,從而建立了學(xué)生心理預(yù)警系統(tǒng)。唐厚強(qiáng)(2017)提取電子科技大學(xué)學(xué)生論壇中學(xué)生發(fā)布的帖子信息,提出一種回歸和分類相結(jié)合的算法,實(shí)現(xiàn)對(duì)學(xué)生在論壇中發(fā)布信息時(shí)心理狀態(tài)的研判和對(duì)學(xué)生成績(jī)的預(yù)測(cè)。李鵬宇(2014)通過(guò)分析新浪微博中抑郁用戶的語(yǔ)言和行為等特征,建立了兩種機(jī)器學(xué)習(xí)模型,分別用于預(yù)測(cè)用戶有抑郁傾向和無(wú)抑郁傾向,通過(guò)對(duì)1,502名高校學(xué)生微博信息進(jìn)行實(shí)證研究,發(fā)現(xiàn)大學(xué)生抑郁的概率與性別存在顯著相關(guān)等規(guī)律。張金偉等(2013)構(gòu)建了基于性格、心情和情感空間的多層心理預(yù)警模型,使用情感詞典法對(duì)高校學(xué)生微博文本進(jìn)行分析,從而識(shí)別出可能存在危機(jī)的學(xué)生并進(jìn)行預(yù)警。
(三)教學(xué)過(guò)程優(yōu)化
通過(guò)社交媒體大數(shù)據(jù)可以在一定程度上監(jiān)測(cè)學(xué)生的學(xué)習(xí)進(jìn)度、學(xué)習(xí)表現(xiàn)、興趣點(diǎn)、困難點(diǎn)等狀態(tài)與需求,從而為教師調(diào)整和優(yōu)化教學(xué)過(guò)程提供依據(jù)。目前基于社交媒體大數(shù)據(jù)進(jìn)行教學(xué)過(guò)程優(yōu)化主要有教學(xué)策略調(diào)整和教學(xué)資源推薦兩個(gè)方面。
教學(xué)策略調(diào)整是指通過(guò)挖掘產(chǎn)生的知識(shí)有針對(duì)性地為每一位學(xué)習(xí)者提供個(gè)性化指導(dǎo)或改進(jìn)教學(xué)方法。Anaya等(2009)為了提升網(wǎng)絡(luò)教育環(huán)境下學(xué)習(xí)與管理的效果,以論壇中學(xué)習(xí)者互動(dòng)的統(tǒng)計(jì)指標(biāo)為依據(jù),使用聚類算法作為推理方法,將學(xué)習(xí)者協(xié)作學(xué)習(xí)能力呈現(xiàn)給導(dǎo)師和學(xué)習(xí)者,并據(jù)此有針對(duì)性地調(diào)整和改進(jìn)協(xié)作學(xué)習(xí)策略。
教學(xué)資源推薦是指通過(guò)挖掘得出的規(guī)律有針對(duì)性地進(jìn)行資源或工具的推薦,幫助學(xué)習(xí)者快速找到所需資源。Yang等(2014)為解決學(xué)生在含有大量帖子的課程論壇中找不到合適主題帖子的問(wèn)題,提出了一種融合學(xué)生同伴關(guān)系、學(xué)生活動(dòng)整體指標(biāo)、全局特征和主題特征的自適應(yīng)矩陣分解方法,實(shí)現(xiàn)對(duì)帖子的全面分析和有針對(duì)性的合理推薦。秦昌博(2017)為了提高教師在課程論壇中答疑的效率,以中文慕課為研究對(duì)象,構(gòu)建了支持向量機(jī)分類器對(duì)學(xué)生課程論壇中帖子所表現(xiàn)出來(lái)的情感進(jìn)行分類,并將“解釋”“困惑”兩種情感傾向的文本通過(guò)TF-IDF和TextRank算法提取出文本中所包含的難點(diǎn),教師可以對(duì)“解釋”“困惑”的帖子有針對(duì)性地進(jìn)行解答,節(jié)省了教師逐條瀏覽帖子的大量時(shí)間。
(四)教育輿情分析
輿情即輿論情況,亦即民眾的情緒、意見(jiàn)和態(tài)度(舒剛, 2016)。教育輿情是指在一定的社會(huì)空間內(nèi),作為主體的民眾針對(duì)有關(guān)教育中介型社會(huì)事項(xiàng)所產(chǎn)生和持有的社會(huì)政治態(tài)度(李昌祖, 等, 2014)。通過(guò)教育輿情分析,教育管理者可以清楚地了解和監(jiān)測(cè)公眾對(duì)教育事件的態(tài)度,進(jìn)而有針對(duì)性地進(jìn)行政策調(diào)整和輿論引導(dǎo)。
目前,通過(guò)社交媒體大數(shù)據(jù)進(jìn)行教育輿情分析的研究和實(shí)踐可以概括為兩個(gè)方向:一是通過(guò)主題分析發(fā)現(xiàn)熱點(diǎn)事件;二是針對(duì)某一事件進(jìn)行公眾情感的分析。殷紅等(2018)基于大數(shù)據(jù)技術(shù)構(gòu)建了一個(gè)教育網(wǎng)絡(luò)輿情分析系統(tǒng),從社交媒體、教育網(wǎng)等平臺(tái)采集教育輿情信息,利用主題模型進(jìn)行教育輿情事件挖掘,通過(guò)聚類將多源數(shù)據(jù)進(jìn)行融合,最后通過(guò)情感分析技術(shù)挖掘大眾對(duì)某些教育事件的情緒,并通過(guò)對(duì)比研究發(fā)現(xiàn)教育事件的發(fā)展規(guī)律。于衛(wèi)紅(2017)開(kāi)發(fā)了一款多Agent高校網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng),包含采集、預(yù)處理、輿情分析和簡(jiǎn)報(bào)生成四個(gè)主要功能,從社交媒體平臺(tái)提取主題帖,遠(yuǎn)程調(diào)用R語(yǔ)言進(jìn)行輿情分析并生成簡(jiǎn)報(bào)供學(xué)校相關(guān)部門參考使用。
二、方法與路徑
目前,社交媒體大數(shù)據(jù)分析一般都需要經(jīng)歷數(shù)據(jù)采集與預(yù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析和可視化四個(gè)階段(如圖1所示)。
(一)數(shù)據(jù)采集與預(yù)處理
1. 數(shù)據(jù)采集
社交媒體數(shù)據(jù)采集一般有三種方法:API、網(wǎng)絡(luò)爬蟲(chóng)和數(shù)據(jù)庫(kù)獲取。
(1)API(Application Programming Interface,應(yīng)用程序編程接口)是一組預(yù)先定義的函數(shù),外部開(kāi)發(fā)人員不需要了解程序內(nèi)部的工作機(jī)理,僅僅通過(guò)簡(jiǎn)單的調(diào)用便可實(shí)現(xiàn)相應(yīng)的功能。如新浪微博提供開(kāi)放的API接口,允許外部開(kāi)發(fā)者獲得用戶發(fā)表的博文信息,而不需要了解微博內(nèi)部數(shù)據(jù)存儲(chǔ)和通訊等工作原理。目前主流的社交媒體平臺(tái)(如新浪微博、百度貼吧、Twitter、Facebook等)均開(kāi)放了API,只需申請(qǐng)便可根據(jù)需求進(jìn)行調(diào)用。
(2)網(wǎng)絡(luò)爬蟲(chóng),又稱“網(wǎng)絡(luò)機(jī)器人”,是一種自動(dòng)抓取網(wǎng)絡(luò)數(shù)據(jù)的程序。爬蟲(chóng)可以模擬人為登錄行為,根據(jù)預(yù)先制定的規(guī)則對(duì)網(wǎng)頁(yè)中符合要求的文本、圖片、視頻等數(shù)據(jù)進(jìn)行自動(dòng)采集并保存至本地。主流的開(kāi)源爬蟲(chóng)框架包括Scrapy、Crawley和PySpider等。
(3)服務(wù)器數(shù)據(jù)庫(kù)記錄著學(xué)生各項(xiàng)數(shù)據(jù),如成績(jī)、學(xué)習(xí)時(shí)長(zhǎng)、登錄時(shí)長(zhǎng)、討論文本、彈幕、圖片、視頻和上傳的文件等;網(wǎng)絡(luò)日志記錄著學(xué)生登錄操作、頁(yè)面跳轉(zhuǎn)等重要信息,可以借助Logagent、Filebeat和Logstash等工具進(jìn)行采集。
2. 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是比較耗時(shí)卻至關(guān)重要的過(guò)程,主要包括數(shù)據(jù)清理和數(shù)據(jù)集成(韓家煒, 等, 2012)。
(1)數(shù)據(jù)清理主要對(duì)空值進(jìn)行處理、對(duì)離散值數(shù)據(jù)進(jìn)行發(fā)現(xiàn)和清除等。最常用的方法是利用回歸、貝葉斯和判定樹(shù)等算法將空缺部分填入概率最大的值,還可以用全局常量替換空缺值、取平均值填補(bǔ)空缺等方法。
(2)數(shù)據(jù)集成是將相互關(guān)聯(lián)的多源異構(gòu)數(shù)據(jù)存儲(chǔ)在一起,通常需要解決三個(gè)方面的問(wèn)題:模式集成、數(shù)據(jù)冗余和數(shù)據(jù)沖突。模式集成是將采集自不同數(shù)據(jù)源中的實(shí)體進(jìn)行匹配與集成,將具有相同含義的實(shí)體進(jìn)行識(shí)別,是模式集成的重要部分。對(duì)于數(shù)據(jù)冗余,一般通過(guò)相關(guān)分析(如卡方檢測(cè)、協(xié)方差等)進(jìn)行檢測(cè)。數(shù)據(jù)沖突主要由于多源數(shù)據(jù)源對(duì)同一事物描述不同導(dǎo)致的,目前主要有X-Specs(Lawrence, 2001)和COIN(Goh, 1997)兩種處理方法。
(二)數(shù)據(jù)存儲(chǔ)
不同類型的數(shù)據(jù)需要分別存儲(chǔ),結(jié)構(gòu)化數(shù)據(jù)指字段類型和長(zhǎng)度得到定義的數(shù)據(jù),如學(xué)生人口學(xué)數(shù)據(jù)、登錄次數(shù)、登錄時(shí)長(zhǎng)、論壇參與績(jī)點(diǎn)等,通常存儲(chǔ)于關(guān)系型數(shù)據(jù)庫(kù)中。目前主流關(guān)系型數(shù)據(jù)庫(kù)有MySQL、SQL Server和Oracle等。非結(jié)構(gòu)化數(shù)據(jù)沒(méi)有預(yù)先定義數(shù)據(jù)模型,沒(méi)有嚴(yán)格的數(shù)據(jù)格式,如發(fā)表的博文、語(yǔ)音、視頻、圖片、文檔等,其存儲(chǔ)數(shù)據(jù)庫(kù)大致可以分為鍵值存儲(chǔ)數(shù)據(jù)庫(kù)、列存儲(chǔ)數(shù)據(jù)庫(kù)、文檔型存儲(chǔ)數(shù)據(jù)庫(kù)和圖形數(shù)據(jù)庫(kù)四類。鍵值存儲(chǔ)數(shù)據(jù)庫(kù)使用一張哈希表,表中的有鍵和指針指向特定的數(shù)據(jù),代表性的數(shù)據(jù)庫(kù)主要有Oracle BDB、Tyrant和Redis。列存儲(chǔ)數(shù)據(jù)模型主要來(lái)自Google的Big Table(申德榮, 等, 2013),以HBase、Riak和Cassandra為代表,其最大的優(yōu)勢(shì)在于讀寫(xiě)速度較快,更適合大數(shù)據(jù)處理。文檔型數(shù)據(jù)庫(kù)有CouchDB、MongoDB等,文檔一般以特定的格式(如JSON)存儲(chǔ)在數(shù)據(jù)庫(kù)中,該類型數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)結(jié)構(gòu)要求不嚴(yán)格,表的結(jié)構(gòu)也是可以發(fā)生變化的。圖形數(shù)據(jù)庫(kù)主要用于社交網(wǎng)絡(luò)和推薦系統(tǒng),更加專注于構(gòu)建關(guān)系圖譜,典型數(shù)據(jù)庫(kù)有Neo4J、InfoGrid、Infinite Graph等。
(三)數(shù)據(jù)分析
社交媒體中最常見(jiàn)的數(shù)據(jù)形式是文本、表情符號(hào)、圖片和微視頻等,其中包含著復(fù)雜的關(guān)系網(wǎng)絡(luò)。當(dāng)前,教育領(lǐng)域?qū)ι缃幻襟w圖片和視頻進(jìn)行挖掘分析還相對(duì)較少,研究和實(shí)踐較多的是文本挖掘和關(guān)系挖掘,對(duì)表情符號(hào)的挖掘一般也是轉(zhuǎn)化為文本進(jìn)行分析。文本挖掘最常見(jiàn)的是文本情感分析和文本主題挖掘,關(guān)系挖掘最常用的方法是社會(huì)網(wǎng)絡(luò)分析。
1. 文本情感分析
情感分析,又叫“觀點(diǎn)挖掘”,是從文本中發(fā)掘人們對(duì)某物體、事件等的觀點(diǎn)、評(píng)價(jià)、情感、情緒和態(tài)度等(劉兵, 2018)。文本情感分析最常用的方法是情感詞典法和機(jī)器學(xué)習(xí)法。
(1)情感詞典法
情感詞典法一般先建立情感詞典,對(duì)詞典中每個(gè)詞賦予相對(duì)應(yīng)的權(quán)重值,隨后對(duì)文本進(jìn)行分詞并對(duì)其中的情感詞進(jìn)行加權(quán)計(jì)算,最終計(jì)算出整條微博的情感權(quán)重值,以此界定該博文的情感傾向。情感詞典主要由情感詞、情感短語(yǔ)和成語(yǔ)組成。目前比較成熟的中文情感詞典主要有知網(wǎng)(HowNet)、大連理工大學(xué)情感詞匯本體庫(kù)(徐琳宏, 等, 2008)、臺(tái)灣大學(xué)中文情感極性詞典等,英文情感詞典有WordNet、General Inquirer和CYC知識(shí)庫(kù)等。研究者大多根據(jù)實(shí)際需求在這些已有詞典的基礎(chǔ)上進(jìn)行完善或重建,繼而進(jìn)行情感分析。Min等(2014)匯總《情感分析詞集》《臺(tái)灣大學(xué)中文情感極性詞典》《褒貶義詞典》中正面和負(fù)面詞匯組成新的情感詞典,對(duì)采集自BBS論壇的數(shù)據(jù)進(jìn)行情感計(jì)算。孫波等(2015)將常用微博表情符號(hào)和人工標(biāo)注出的常用新詞與偽詞組合成“情感符號(hào)表”,以大連理工大學(xué)情感本體庫(kù)為基礎(chǔ),采用逐點(diǎn)互信息(Pointwise Mutual Information,PMI)方法進(jìn)行計(jì)算,構(gòu)建了符合學(xué)生風(fēng)格和微博特點(diǎn)的學(xué)生情感詞典,并在此基礎(chǔ)上設(shè)計(jì)了學(xué)生微博情感計(jì)算方法。情感詞典法具有較高的準(zhǔn)確率,但也存在召回率低的問(wèn)題。同時(shí),構(gòu)建一個(gè)符合某項(xiàng)需求的詞典往往需要耗費(fèi)較大的人力和物力,成本較高。
(2)機(jī)器學(xué)習(xí)法
隨著語(yǔ)料庫(kù)、語(yǔ)言知識(shí)庫(kù)的發(fā)展,越來(lái)越多的研究人員開(kāi)始采用機(jī)器學(xué)習(xí)方法訓(xùn)練語(yǔ)言模型,用以對(duì)文本進(jìn)行情感分析?;跈C(jī)器學(xué)習(xí)的情感分析可以理解為基于文本中表現(xiàn)出的情感進(jìn)行文本分類的過(guò)程,主要算法包括支持向量機(jī)、樸素貝葉斯、決策樹(shù)、K-臨近、潛在狄利特雷分布模型(Latent Dirichlet Allocation,LDA)等。帕瑪納等(Permana, Rosmansyah, & Abdullah, 2017)采用貝葉斯分類器建立模型,通過(guò)分析學(xué)生Twitter文本來(lái)預(yù)測(cè)學(xué)生學(xué)習(xí)的滿意度,準(zhǔn)確率達(dá)84%。針對(duì)社交媒體大數(shù)據(jù)語(yǔ)法不規(guī)范難以進(jìn)行情感分析的問(wèn)題,劉志斌(2016)提出了一種基于情感詞抽取的LDA分類方法,該方法對(duì)學(xué)校網(wǎng)站留言情感識(shí)別準(zhǔn)確率為93.1%,對(duì)微博學(xué)生情感識(shí)別準(zhǔn)確率為74.2%,BBS識(shí)別準(zhǔn)確率為79.6%。Wei等(2017)提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶模型的轉(zhuǎn)移學(xué)習(xí)框架,用于自動(dòng)識(shí)別MOOC論壇中的文本是否存在困惑情緒以及困惑的緊迫性。
2. 文本主題挖掘
文本主題挖掘可以從大量文本中提取出學(xué)習(xí)者集中關(guān)注的話題,以達(dá)到提煉主要論點(diǎn)的目的。文本主題挖掘在教育領(lǐng)域的典型應(yīng)用是對(duì)論壇中的帖子進(jìn)行分類。向量空間模型和N-gram文本特征提取是較為傳統(tǒng)的文本主題提取算法。隨著技術(shù)的發(fā)展,一些基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的算法開(kāi)始引起人們的關(guān)注,如LDA主題模型、卷積神經(jīng)網(wǎng)絡(luò)、貝葉斯算法等。Lin等(2017)為了對(duì)慕課論壇中學(xué)生發(fā)帖主題進(jìn)行分類,提出一種基于用戶交互行為數(shù)據(jù)為特征的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)模型。由于將用戶交互行為數(shù)據(jù)作為特征,該模型可以保證不受教學(xué)內(nèi)容以及語(yǔ)言的限制,因此在慕課論壇主題分類中表現(xiàn)較好。王嘉倫(2015)首先利用LDA主題模型提取Coursera論壇中帖子的主題,隨后分別研究不同特征條件下的分類器的分類效果,通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn)基于混合特征訓(xùn)練的分類器效果明顯好于僅使用帖子主題特征訓(xùn)練的分類器。
3. 社會(huì)網(wǎng)絡(luò)分析
社交媒體最重要的功能之一便是促進(jìn)了復(fù)雜社交關(guān)系網(wǎng)絡(luò)的形成,其中的復(fù)雜關(guān)系(如學(xué)習(xí)者之間的人際關(guān)系等)可以通過(guò)社會(huì)網(wǎng)絡(luò)分析方法進(jìn)行挖掘。社會(huì)網(wǎng)絡(luò)分析方法是社會(huì)學(xué)家根據(jù)數(shù)學(xué)方法、圖論等發(fā)展起來(lái)的定量分析方法,它可以對(duì)各種關(guān)系進(jìn)行精確的量化分析(斯科特, 2007)。在教育研究中,研究者側(cè)重對(duì)學(xué)習(xí)者所構(gòu)成社會(huì)網(wǎng)絡(luò)的密度、中心性和凝聚子群等進(jìn)行分析。密度分析用于研究學(xué)習(xí)者之間聯(lián)系的緊密程度;中心性分析用于分析某個(gè)學(xué)習(xí)者在學(xué)習(xí)團(tuán)體中的重要性;凝聚子群分析可以發(fā)現(xiàn)不同學(xué)習(xí)者之間構(gòu)成的小團(tuán)體。當(dāng)前教育研究中社會(huì)網(wǎng)絡(luò)分析多借助一些成熟的軟件來(lái)實(shí)現(xiàn),如UCINET、Pajek、NetDraw、Mage等。黎加厚等(2007)在研究網(wǎng)絡(luò)時(shí)代教育傳播規(guī)律時(shí),以蘇州教育博客“推薦博客”群體為研究對(duì)象,采用UCINET軟件對(duì)該群體中密度、出度、入度和中心性進(jìn)行研究,發(fā)現(xiàn)密度、中心性和對(duì)象多元性對(duì)創(chuàng)新能力有著顯著正向影響。趙紅霞等(2016)采用類似方法對(duì)新浪微博上“留守兒童”標(biāo)簽用戶進(jìn)行檢索,通過(guò)社群圖分析、中心性分析、凝聚子群分析發(fā)現(xiàn)主題微博中存在的問(wèn)題并給出建議。此外,還有一款專門用于教育的社會(huì)網(wǎng)絡(luò)分析軟件——SNAPP,這是基于社交網(wǎng)絡(luò)分析的實(shí)時(shí)診斷系統(tǒng),用于研究論壇中學(xué)生實(shí)時(shí)交互情況、中心性等信息,并根據(jù)需要進(jìn)行干預(yù)。SNAPP支持在流行的商業(yè)和開(kāi)源學(xué)習(xí)管理系統(tǒng)中使用,如Blackboard、Desire2Learn和Moodle平臺(tái)等,目前2.0版本可視化功能逐漸完善,已具備動(dòng)態(tài)演示社會(huì)網(wǎng)絡(luò)變化的功能。
(四)數(shù)據(jù)可視化
經(jīng)過(guò)上述分析過(guò)程直接產(chǎn)生的數(shù)據(jù)結(jié)果往往需要進(jìn)行科學(xué)解釋才能為實(shí)際應(yīng)用提供參考,這對(duì)無(wú)數(shù)據(jù)分析基礎(chǔ)的教育研究者或?qū)嵺`者是相對(duì)困難的,因此需要將數(shù)據(jù)可視化。可視化技術(shù)是指通過(guò)計(jì)算機(jī)和圖像處理技術(shù)將數(shù)據(jù)生成直觀的圖形,通過(guò)屏幕呈現(xiàn),并可以進(jìn)行交互處理的技術(shù)(劉勘, 等, 2002)??梢暬夹g(shù)可以清晰、直觀地呈現(xiàn)數(shù)據(jù)分析產(chǎn)生的“知識(shí)”,增強(qiáng)數(shù)據(jù)結(jié)果的可讀性,是大數(shù)據(jù)處理不可或缺的環(huán)節(jié)。
當(dāng)前常用的數(shù)據(jù)可視化方法有數(shù)據(jù)立方體、數(shù)值域、時(shí)間與關(guān)系和文本文檔四種類型(阮彤, 等, 2016)。數(shù)據(jù)立方體是一種多維矩陣,從多個(gè)維度呈現(xiàn)直觀結(jié)果,常見(jiàn)的形式有折線圖、柱狀圖、散點(diǎn)圖、星狀圖等;數(shù)值域是指在某個(gè)空間上密集分布的數(shù)據(jù)場(chǎng),由分布于全場(chǎng)的網(wǎng)格和網(wǎng)格節(jié)點(diǎn)上的屬性構(gòu)成,常見(jiàn)的形式有矩陣、熱力圖、直方圖、地圖等;在時(shí)間與關(guān)系中時(shí)間維度通常用于呈現(xiàn)事物隨時(shí)間序列變化發(fā)展的情形,如日歷圖、甘特圖等,關(guān)系維度則是表明兩個(gè)事項(xiàng)之間的關(guān)聯(lián),如維恩圖、旭日?qǐng)D、樹(shù)圖等;文本文檔屬于一類特殊的可視化方法,一般包括字符云、主題河流和文檔散等。研究者一般綜合使用這幾種方法進(jìn)行數(shù)據(jù)可視化,并且大多會(huì)開(kāi)發(fā)相應(yīng)的可視化工具來(lái)系統(tǒng)性地呈現(xiàn)數(shù)據(jù)。加西亞塞茲等(García-Saiz, Palazuelos, & Zorrilla, 2014)為了幫助教師發(fā)現(xiàn)學(xué)生在論壇中的行為模式和挖掘?qū)W生輟學(xué)傾向,采用數(shù)據(jù)立方體、時(shí)間與關(guān)系可視化方法,基于社會(huì)網(wǎng)絡(luò)分析和數(shù)據(jù)挖掘技術(shù)開(kāi)發(fā)了可視化工具——EIWM,該工具能夠?qū)崿F(xiàn)“學(xué)生表現(xiàn)或者輟學(xué)傾向的預(yù)測(cè)(分類任務(wù))”“博客或者論壇的協(xié)作分析(社會(huì)網(wǎng)絡(luò)分析)”“論壇和博客中的社區(qū)發(fā)現(xiàn)(社會(huì)網(wǎng)絡(luò)分析)”等功能。Fu等(2016)采用數(shù)據(jù)立方體、數(shù)值域和時(shí)間與關(guān)系可視化方法,基于MOOC課程論壇開(kāi)發(fā)了iForm可視化系統(tǒng),可以多維度顯示課程參與指標(biāo),包括用戶和帖子總體變化趨勢(shì)、學(xué)生交互關(guān)系、不同用戶隨著時(shí)間變化的動(dòng)態(tài)模式等。
三、挑戰(zhàn)與機(jī)遇
在應(yīng)用社交媒體大數(shù)據(jù)的過(guò)程中主要面臨三大挑戰(zhàn):多源異構(gòu)數(shù)據(jù)的融合應(yīng)用問(wèn)題、數(shù)據(jù)挖掘的合理性問(wèn)題和倫理隱私問(wèn)題。挑戰(zhàn)與機(jī)遇并存,這也是社交媒體大數(shù)據(jù)在教育領(lǐng)域被深入挖掘應(yīng)用所需要進(jìn)一步探究的問(wèn)題。
(一)多源異構(gòu)數(shù)據(jù)的融合應(yīng)用問(wèn)題
獨(dú)立的數(shù)據(jù)源獲取的信息是有限的,數(shù)據(jù)源的融合更有利于深度挖掘數(shù)據(jù)的價(jià)值。如在商業(yè)領(lǐng)域?qū)N售記錄與天氣、地理位置、社交媒體等數(shù)據(jù)結(jié)合分析,很容易發(fā)現(xiàn)影響銷售收入的外在因素;將社區(qū)房地產(chǎn)價(jià)格與價(jià)格歷史、近期交易記錄、物業(yè)動(dòng)態(tài)等結(jié)合,可用于預(yù)測(cè)社區(qū)房產(chǎn)價(jià)格走勢(shì)等(?;w, 等, 2014)。然而,當(dāng)前教育大數(shù)據(jù)可能來(lái)自領(lǐng)域數(shù)據(jù)庫(kù)、知識(shí)庫(kù)或者Web頁(yè)面的開(kāi)放信息等渠道或平臺(tái),具有多源異構(gòu)的特征。而且,這些數(shù)據(jù)被物理存放在不同的系統(tǒng)中,各個(gè)平臺(tái)關(guān)注的用戶行為信息不同,提取到的信息類型也不統(tǒng)一,并且存在跨平臺(tái)用戶,這些割裂的多源異構(gòu)數(shù)據(jù)造成了各種數(shù)據(jù)孤島,給大數(shù)據(jù)分析帶來(lái)非常大的挑戰(zhàn)。如何將這些割裂的數(shù)據(jù)進(jìn)行合理整合應(yīng)用,從而發(fā)現(xiàn)新規(guī)律,更全面、精準(zhǔn)地利用大數(shù)據(jù),是當(dāng)前社交媒體大數(shù)據(jù)深入挖掘面臨的巨大挑戰(zhàn)。
通過(guò)文獻(xiàn)調(diào)研可以看到,社交媒體大數(shù)據(jù)可以用以支持學(xué)習(xí)者畫(huà)像、危機(jī)發(fā)現(xiàn)、教學(xué)過(guò)程優(yōu)化和輿情分析等,但這僅僅是教育大數(shù)據(jù)的一部分,將其作為單一數(shù)據(jù)源來(lái)進(jìn)行學(xué)習(xí)者畫(huà)像等是有其局限性和片面性的。教育是一項(xiàng)復(fù)雜的交互活動(dòng),通過(guò)大數(shù)據(jù)提供精準(zhǔn)的支持和服務(wù),僅僅依靠分析某個(gè)社交媒體平臺(tái)或者只掌握社交媒體大數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的,需要對(duì)多源異構(gòu)數(shù)據(jù)進(jìn)行綜合分析。當(dāng)前,已有研究者關(guān)注大數(shù)據(jù)的多源異構(gòu)問(wèn)題,在研究中假設(shè)跨平臺(tái)的共同用戶存在,但并沒(méi)有真正找到能夠提取不同社交媒體平臺(tái)之間的用戶顯性對(duì)應(yīng)關(guān)系的方法,這為用戶跨平臺(tái)數(shù)據(jù)的整合分析帶來(lái)較大的阻礙,未來(lái)的研究可以進(jìn)一步關(guān)注如何解決多平臺(tái)共同用戶發(fā)現(xiàn)這一問(wèn)題。同時(shí),不同的社交媒體平臺(tái)產(chǎn)生的數(shù)據(jù)有著多模態(tài)的特征,數(shù)據(jù)結(jié)構(gòu)并不一致,如微博的文本信息流數(shù)據(jù)、視頻分享網(wǎng)站的流媒體數(shù)據(jù)、社交過(guò)程中的用戶交互數(shù)據(jù)、地理位置數(shù)據(jù)等。不同模態(tài)數(shù)據(jù)的處理和整合應(yīng)用方法也是需要進(jìn)一步研究的問(wèn)題。
(二)數(shù)據(jù)挖掘的合理性與準(zhǔn)確率問(wèn)題
一方面,由于多源異構(gòu)數(shù)據(jù)處理所面臨的技術(shù)挑戰(zhàn),社交媒體大數(shù)據(jù)的應(yīng)用仍停留在淺顯的挖掘?qū)用?,其蘊(yùn)含的價(jià)值并沒(méi)有得到充分挖掘。如文中提到的學(xué)習(xí)者危機(jī)發(fā)現(xiàn)僅通過(guò)某個(gè)平臺(tái)的文本進(jìn)行挖掘,沒(méi)有考慮到融合用戶多平臺(tái)中的數(shù)據(jù)以及時(shí)間序列特征,分析難免存在片面性和局限性。
另一方面,社交媒體大數(shù)據(jù)分析通常涉及語(yǔ)義理解,計(jì)算機(jī)語(yǔ)義理解的準(zhǔn)確率較低也是當(dāng)前面臨的困境之一。學(xué)習(xí)者在社交媒體中發(fā)布帖子等具有隨意性,語(yǔ)法使用不規(guī)范等問(wèn)題頻繁發(fā)生,加之漢語(yǔ)本身所具備的一些特性(如反語(yǔ)等),使得學(xué)習(xí)者真實(shí)表達(dá)的語(yǔ)義有時(shí)并不能從字面進(jìn)行理解。當(dāng)前在漢語(yǔ)語(yǔ)義理解層面,基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)算法很難理解其內(nèi)在的真實(shí)含義,而深度學(xué)習(xí)在此領(lǐng)域的研究也剛剛起步。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,社交媒體大數(shù)據(jù)的分析準(zhǔn)確率也會(huì)隨之改進(jìn),數(shù)據(jù)中蘊(yùn)含的知識(shí)也會(huì)更有效、更準(zhǔn)確地被挖掘出來(lái)。
(三)倫理隱私問(wèn)題
雖然有些學(xué)習(xí)者在使用社交媒體時(shí)有意將個(gè)人信息隱藏,但是其在社交媒體中留下的“足跡”(零碎的信息)經(jīng)過(guò)大數(shù)據(jù)分析,也可以“拼湊”出一個(gè)學(xué)生的基本面貌。同時(shí),現(xiàn)在越來(lái)越多的科研機(jī)構(gòu)和個(gè)人為了研究方便,經(jīng)常公開(kāi)一些數(shù)據(jù)集,而數(shù)據(jù)集大多來(lái)自學(xué)習(xí)者的真實(shí)信息,雖然在進(jìn)行數(shù)據(jù)公開(kāi)時(shí)做了匿名化處理,但依然可以從匿名數(shù)據(jù)中挖掘出部分用戶特征。如何保護(hù)利益相關(guān)者的數(shù)據(jù)隱私也是社交媒體大數(shù)據(jù)應(yīng)用面臨的一大挑戰(zhàn)。
對(duì)于隱私數(shù)據(jù)的保護(hù),已經(jīng)越來(lái)越引起教育研究者的關(guān)注。北京師范大學(xué)智慧研究院發(fā)起編制了《在線學(xué)習(xí)中的個(gè)人數(shù)據(jù)和隱私保護(hù):面向?qū)W生、教師和家長(zhǎng)的指導(dǎo)手冊(cè)》,提出了在線學(xué)習(xí)中與個(gè)人數(shù)據(jù)和隱私相關(guān)的5個(gè)階段、30個(gè)安全問(wèn)題和具體操作建議,對(duì)教育領(lǐng)域數(shù)據(jù)隱私安全水平的提升具有重要的參考價(jià)值。本研究認(rèn)為對(duì)社交媒體大數(shù)據(jù)的隱私保護(hù),未來(lái)可以進(jìn)一步從法律法規(guī)、行業(yè)自律和大數(shù)據(jù)技術(shù)三個(gè)層面推進(jìn)。
1. 法律法規(guī)層面
我國(guó)憲法明確規(guī)定“公民的通信自由和通信秘密受法律的保護(hù)”。同時(shí),私人信息屬隱私范疇。據(jù)報(bào)道,全國(guó)人大常委會(huì)已將制定個(gè)人信息保護(hù)法列入立法規(guī)劃。個(gè)人隱私權(quán)的保護(hù)是國(guó)家法律層面一貫重視的,并且正在逐步完善,這些都為個(gè)人信息隱私的保護(hù)提供了重要法律依據(jù)。
2. 行業(yè)自律層面
社交媒體運(yùn)營(yíng)商存儲(chǔ)著大量隱私數(shù)據(jù),他們也非常重視對(duì)敏感數(shù)據(jù)的保護(hù)、使用和發(fā)布等。相關(guān)協(xié)會(huì)和企業(yè)通過(guò)制定公約的形式對(duì)數(shù)據(jù)的使用和保護(hù)方式進(jìn)行約定。中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)發(fā)布的《博客服務(wù)自律公約》規(guī)定,“博客服務(wù)提供者應(yīng)盡到保密義務(wù)”。《互聯(lián)網(wǎng)搜索引擎服務(wù)自律公約》規(guī)定,“搜索引擎服務(wù)提供者有義務(wù)協(xié)助保護(hù)用戶隱私和個(gè)人信息安全”。除此之外,國(guó)內(nèi)不少互聯(lián)網(wǎng)公司(如百度、騰訊、阿里巴巴、華為等)也出臺(tái)了相應(yīng)的自律規(guī)范。
3. 大數(shù)據(jù)技術(shù)層面
法律法規(guī)和行業(yè)自律對(duì)于大數(shù)據(jù)行業(yè)觀念層面起著引領(lǐng)作用,更為關(guān)鍵的是從技術(shù)層面真正做好相關(guān)約束,切實(shí)做到保護(hù)利益相關(guān)者的隱私。方濱興等(2016)提出了大數(shù)據(jù)隱私保護(hù)生命周期模型,指出在大數(shù)據(jù)發(fā)布、存儲(chǔ)、分析和使用四個(gè)階段中均面臨隱私泄露的風(fēng)險(xiǎn),并且分析了當(dāng)前可采用的技術(shù)以及未來(lái)的發(fā)展趨勢(shì),為大數(shù)據(jù)隱私保護(hù)提供了思路和技術(shù)上的引領(lǐng)。在社交媒體大數(shù)據(jù)使用階段,基于位置的隱私信息也是當(dāng)前研究的熱點(diǎn),如莫克貝爾等(Mokbel, Chow, & Aref, 2015)提出了一種k-anonymity保護(hù)方法,周藝華等(2019)提出了一種基于GeoHash的位置保護(hù)策略,等等。
四、總結(jié)
當(dāng)前,隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,社交媒體大數(shù)據(jù)蘊(yùn)藏的巨大教育價(jià)值已經(jīng)逐漸被挖掘并應(yīng)用。社交媒體大數(shù)據(jù)教育應(yīng)用國(guó)內(nèi)研究側(cè)重高等教育領(lǐng)域,面向中小學(xué)階段的研究較少,這與我國(guó)目前的教育環(huán)境有關(guān),大多數(shù)中小學(xué)校限制使用移動(dòng)設(shè)備,這也限制了中小學(xué)生社交媒體的應(yīng)用。同時(shí),目前大數(shù)據(jù)與教育相關(guān)的論文較多,但是大多數(shù)偏向理論構(gòu)建,實(shí)證研究偏少。
社交媒體大數(shù)據(jù)挖掘可以為教師、管理者、學(xué)生、家長(zhǎng)等利益相關(guān)者提供相應(yīng)的決策支持,但目前的學(xué)習(xí)者畫(huà)像、學(xué)習(xí)者危機(jī)發(fā)現(xiàn)、教學(xué)過(guò)程優(yōu)化和教育輿情分析都普遍存在由于數(shù)據(jù)源不全面而導(dǎo)致的數(shù)據(jù)價(jià)值未被充分挖掘的問(wèn)題。社交媒體大數(shù)據(jù)可以作為對(duì)學(xué)習(xí)者進(jìn)行分析的補(bǔ)充性數(shù)據(jù)源,但必須跟學(xué)習(xí)者其他數(shù)據(jù)(如學(xué)生管理系統(tǒng)數(shù)據(jù)等)進(jìn)行綜合分析,才能有助于更全面、精準(zhǔn)地發(fā)現(xiàn)問(wèn)題,也才能更好地體現(xiàn)其價(jià)值。同時(shí),社交媒體大數(shù)據(jù)的應(yīng)用有賴于自然語(yǔ)言理解等技術(shù)的支持,當(dāng)前由于語(yǔ)法不規(guī)范等問(wèn)題導(dǎo)致的數(shù)據(jù)分析準(zhǔn)確率還比較低,需要進(jìn)一步建立和完善面向青少年學(xué)生的語(yǔ)料庫(kù),隨著技術(shù)的發(fā)展和語(yǔ)料的累積,數(shù)據(jù)的分析率也會(huì)逐步提高。而且,當(dāng)前研究和實(shí)踐對(duì)教育隱私數(shù)據(jù)保護(hù)還未引起足夠的重視。總之,教育技術(shù)領(lǐng)域的研究者與實(shí)踐者需要從大數(shù)據(jù)技術(shù)和教育實(shí)踐的角度深度挖掘需求,探尋技術(shù)與教育無(wú)縫整合的方式,使大數(shù)據(jù)真正融入教育,影響教育,變革教育。
[參考文獻(xiàn)]
陳海建,戴永輝,韓冬梅,等. 2017. 開(kāi)放式教學(xué)下的學(xué)習(xí)者畫(huà)像及個(gè)性化教學(xué)探討[J]. 開(kāi)放教育研究,23(3):105-112.
方濱興,賈焰,李愛(ài)平,等. 2016. 大數(shù)據(jù)隱私保護(hù)技術(shù)綜述[J]. 大數(shù)據(jù),2(1):1-18.
韓家煒,米舍萊恩·坎伯,等. 2012. 數(shù)據(jù)挖掘:概念與技術(shù)[M]. 范明,孟小峰,譯. 北京:機(jī)械工業(yè)出版社.
劉兵. 2018. 情緒分析挖掘觀點(diǎn)、情感和情緒[M]. 劉康,趙軍,譯. 北京:機(jī)械工業(yè)出版社.
李昌祖,楊延圣. 2014. 教育輿情的概念解析[J]. 浙江工業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),13(3):241-246.
李光耀,宋文廣,謝艷晴. 2018. 智慧校園學(xué)生畫(huà)像方法研究[J]. 現(xiàn)代電子技術(shù),41(12):161-163.
黎加厚,趙怡,王玨. 2007. 網(wǎng)絡(luò)時(shí)代教育傳播學(xué)研究的新方法:社會(huì)網(wǎng)絡(luò)分析——以蘇州教育博客學(xué)習(xí)發(fā)展共同體為例[J]. 電化教育研究(8):13-17.
劉勘,周曉崢,周洞汝. 2002. 數(shù)據(jù)可視化的研究與發(fā)展[J]. 計(jì)算機(jī)工程(8):1-2.
李鵬宇. 2014. 微博社交網(wǎng)絡(luò)中的學(xué)生用戶抑郁癥識(shí)別方法研究[D]. 哈爾濱:哈爾濱工業(yè)大學(xué)高等教育研究所.
林育曼. 2018. 國(guó)內(nèi)社交媒體教育應(yīng)用的研究趨勢(shì)分析[J]. 傳媒(21):79-83.
劉志斌. 2016. 短文本情感傾向分析研究及應(yīng)用[D]. 哈爾濱:哈爾濱工程大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院.
秦昌博. 2017. 中文MOOC論壇課程中情緒分析及知識(shí)難點(diǎn)的挖掘研究[D]. 北京:北京郵電大學(xué)信息與通信工程學(xué)院.
阮彤,王昊奮,陳為,等. 2016. 大數(shù)據(jù)技術(shù)前言[M]. 北京:中國(guó)工信出版集團(tuán).
孫波,陳玖冰,劉永娜. 2015. 大數(shù)據(jù)背景下的學(xué)生情感詞典構(gòu)建方法[J]. 北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版),51(4):358-361.
舒剛. 2016. 我國(guó)教育輿情研究的熱點(diǎn)議題及趨勢(shì)展望——基于CNKI(2009-2015)的數(shù)據(jù)分析[J]. 國(guó)家教育行政學(xué)院學(xué)報(bào)(10):40-46.
舒瑩,姜強(qiáng),趙蔚. 2019. 在線學(xué)習(xí)危機(jī)精準(zhǔn)預(yù)警及干預(yù):模型與實(shí)證研究[J]. 中國(guó)遠(yuǎn)程教育(8):27-34.
?;w,路冬媛,徐常勝. 2014. 基于共同用戶的跨網(wǎng)絡(luò)分析:社交媒體大數(shù)據(jù)中的多源問(wèn)題[J]. 科學(xué)通報(bào),59(36):3554-3560.
孫婉婷. 2016. 面向?qū)W生社交平臺(tái)的情感傾向分析技術(shù)的研究[D]. 大連:大連理工大學(xué)軟件學(xué)院.
唐厚強(qiáng). 2017. 基于高校論壇數(shù)據(jù)的成績(jī)預(yù)測(cè)和學(xué)生心理狀況分析[D]. 成都:電子科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院.
申德榮,于戈,王習(xí)特,等. 2013. 支持大數(shù)據(jù)管理的NoSQL系統(tǒng)研究綜述[J]. 軟件學(xué)報(bào),24(8):1786-1803.
特里·安德森,王志軍,張永勝,等. 2017. 教育技術(shù)三大支柱:學(xué)習(xí)管理系統(tǒng)、社交媒體和個(gè)人學(xué)習(xí)環(huán)境[J]. 中國(guó)遠(yuǎn)程教育(11):5-15,79.
特里·安德森,肖俊洪. 2020. 社交媒體在高等教育中的應(yīng)用:挑戰(zhàn)與機(jī)會(huì)[J]. 中國(guó)遠(yuǎn)程教育(2):21-31.
譚天,張子俊. 2017. 我國(guó)社交媒體的現(xiàn)狀、發(fā)展與趨勢(shì)[J]. 編輯之友(1):20-25.
王嘉倫. 2015. 面向大型開(kāi)放在線課程的主題挖掘技術(shù)研究[D]. 武漢:華中科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院.
肖君,喬惠,李雪嬌. 2019. 基于xAPI的在線學(xué)習(xí)者畫(huà)像的構(gòu)建與實(shí)證研究[J]. 中國(guó)電化教育(1):123-129.
徐琳宏,林鴻飛,潘宇,等. 2008. 情感詞匯本體的構(gòu)造[J]. 情報(bào)學(xué)報(bào),27(2):180-185.
殷紅,孫凱,王長(zhǎng)波. 2018. 基于多源數(shù)據(jù)的教育網(wǎng)絡(luò)輿情分析[J]. 東華大學(xué)學(xué)報(bào)(自然科學(xué)版),44(4):586-589.
約翰·斯科特. 2007. 社會(huì)網(wǎng)絡(luò)分析法[M]. 劉軍,譯. 重慶:重慶大學(xué)出版社.
于衛(wèi)紅. 2017. 基于多Agent的高校網(wǎng)絡(luò)輿情監(jiān)測(cè)與分析系統(tǒng)[J]. 現(xiàn)代情報(bào),37(10):53-57.
趙紅霞,程敏. 2016. “留守兒童”微博圈的實(shí)證研究——基于社會(huì)網(wǎng)絡(luò)分析視角[J]. 上海教育科研(3):18-21.
張金偉,劉曉平. 2013. 基于心理預(yù)警模型的微博情感識(shí)別研究[J]. 合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),36(11):1318-1322.
周文靜. 2018. 面向校園論壇用戶興趣的用戶畫(huà)像構(gòu)建方法研究[D]. 北京:北京郵電大學(xué)網(wǎng)絡(luò)技術(shù)研究院.
周藝華,李廣輝,楊宇光,等. 2019. 基于GeoHash的近鄰查詢位置隱私保護(hù)方法[J]. 計(jì)算機(jī)科學(xué),46(8):212-216.
Anaya, A. R., & Boticario, J. G. (2009). A Data Mining Approach to Reveal Representative Collaboration Indicators in Open Collaboration Frameworks. International Working Group on Educational Data Mining, (1): 210-219.
Fu, S. W., Zhao, J., Cui, W. W., & Qu, H. M. (2017). Visual Analysis of MOOC Forums with iForum. IEEE Transactions on Visualization and Computer Graphics, 23(1): 201-210.
Goh, C. H. (1997). Representing and reasoning about semantic conflicts in heterogeneous information systems. Cambridge USA: Massachusetts Institute of Technology.
García-Saiz, Palazuelos, C., & Zorrilla, M. (2014). Data Mining and Social Network Analysis in the Educational Field: An Application for Non-Expert Users. Berlin Germany: Springer International Publishing.
Lawrence, R. (2001). Automatic Conflict Resolution to Integrate Schema. Canada: University of Manitoba.
Lin, F., Wang, L., Liu, S. L., & Liu, G. C. (2017). Classification of Discussion Threads in MOOC Forums Based on Deep Learning. In Proceedings of 2017 2nd International Conference on Wireless Communication and Network Engineering: DEStech Transactions on Computer Science and Engineering (pp. 506-511). USA: DEStech Publications.
Min, S. D., & Zhu, B. J. (2014). Collection and Analysis of Emotional Data in Bulletin Board System Forum of University. Applied Mechanics and Materials, 513-517:2099-2102.
Mokbel, M. F., Chow, C. Y., & Aref, W. G. (2015). The New Casper: A Privacy-Aware Location-Based Database Server. In IEEE International Conference on Data Engineering (pp. 1499-1500). Istanbul: Institute of Electrical and Electronics Engineers.
Permana, F. C., Rosmansyah, Y., & Abdullah, A. S. (2017). Naive Bayes as opinion classifier to evaluate students satisfaction based on student sentiment in Twitter Social Media. Journal of Physics Conference Series, 893(1): 012-051.
Rai, L., & Deng, C. R. (2016). Influencing factors of success and failure in MOOC and general analysis of learner behavior. International Journal of Information and Education Technology, 6(4): 262-268.
Wei, X. C., Lin, H. F., Yang, L., & Yu, H. Y. (2017). A convolution-LSTM-based deep neural network for cross-domain MOOC forum post classification. Information, 8(3): 92.
Wen, M. M., Yang, D. Y., & Rose, C. P. (2014). Sentiment Analysis in MOOC Discussion Forums: What does it tell us. In John, C. S., Zachary, A. P., Manolis, M., & Bruce, M. M. (Eds.), Proceedings of the 7th International Conference on Educational Data Mining (pp. 130-137). UK: International Educational Data Mining Society.
Wang, L., Hu, G. L., & Zhou, T. H. (2018). Semantic analysis of learners emotional tendencies on online MOOC education. Sustainability, 10(6): 1-19.
Yang, D., Piergallini, M., Howley, I., & Rosé, C. P. (2014). Forum thread recommendation for massive open online courses. In John, C. S., Zachary, A. P., Manolis, M., & Bruce, M. M. (Eds.), Proceedings of the 7th International Conference on Educational Data Mining (pp. 257-260). UK: International Educational Data Mining Society.
Yu, X., Yu, H., Tian, X. Y., Yu, G., Li, X. M., Zhang, X., et al. (2017). Recognition of college students from Weibo with deep neural networks. International Journal of Machine Learning and Cybernetics, 8(5): 1447-1455.
收稿日期:2020-02-05
定稿日期:2020-09-21
作者簡(jiǎn)介:李彤彤,博士,副教授,碩士生導(dǎo)師;李坦,碩士研究生;郭栩?qū)?,碩士研究生。天津師范大學(xué)教育學(xué)部教育技術(shù)系(300387)。