閔磊
摘 要:隨著互聯(lián)網(wǎng)的發(fā)展,以論壇進(jìn)行交互式學(xué)習(xí)的方式逐漸被學(xué)習(xí)者所接受。論壇中的發(fā)帖回帖等行為數(shù)據(jù),蘊(yùn)含著學(xué)習(xí)者豐富的興趣特征,對(duì)其進(jìn)行深入分析具有明顯的教育意義。本文將基于發(fā)帖回帖關(guān)系,分析教育類論壇中虛擬學(xué)習(xí)社區(qū)的識(shí)別方法,通過該方法可以對(duì)論壇中相似的學(xué)習(xí)資源進(jìn)行聚類,對(duì)在線學(xué)習(xí)的發(fā)展具有一定的借鑒意義。
關(guān)鍵詞:虛擬學(xué)習(xí)社區(qū);社區(qū)識(shí)別技術(shù);教育論壇
一、引言
當(dāng)今時(shí)代信息技術(shù)飛速發(fā)展,“互聯(lián)網(wǎng)+X”戰(zhàn)略的提出使眾多領(lǐng)域呈現(xiàn)出變革的發(fā)展趨勢(shì),教育行業(yè)同樣如此。以往的觀念對(duì)學(xué)習(xí)的理解通常會(huì)局限于教室里的課堂講授,但是,在互聯(lián)網(wǎng)蓬勃發(fā)展的今天,線上教育、碎片化學(xué)習(xí)、移動(dòng)學(xué)習(xí)等概念使得學(xué)習(xí)的形式產(chǎn)生了顛覆性的轉(zhuǎn)變。
在眾多網(wǎng)絡(luò)化學(xué)習(xí)方式中,基于教育論壇、博客等形式的非正式學(xué)習(xí)是傳統(tǒng)學(xué)習(xí)方式的一種有益補(bǔ)充。這種自由的學(xué)習(xí)形式,使得學(xué)習(xí)者更容易以解決問題為導(dǎo)向,學(xué)習(xí)的目的更為明確。而且這種交互性的學(xué)習(xí)交流方式可以隨時(shí)隨地開展,進(jìn)而突破了時(shí)間與空間的限制。人們熟知的科學(xué)網(wǎng)學(xué)習(xí)論壇、CSDN學(xué)習(xí)論壇等,就是目前較為著名的學(xué)術(shù)或?qū)W習(xí)交流論壇。
學(xué)習(xí)類論壇的推廣為今天的學(xué)習(xí)活動(dòng)帶來(lái)了便利。論壇規(guī)模的擴(kuò)大,也使得學(xué)習(xí)者能獲得更多的學(xué)習(xí)資源。當(dāng)面對(duì)規(guī)模過于龐大的信息時(shí),人們有時(shí)不禁會(huì)產(chǎn)生這樣的想法:“這些學(xué)習(xí)資源是否可以按照我們的興趣聚集在一起,使我們查找起來(lái)更加便利呢?”在數(shù)據(jù)為王的互聯(lián)網(wǎng)時(shí)代,如何充分利用好這些資源,真正體現(xiàn)出資源的價(jià)值就顯得尤為重要。
二、虛擬學(xué)習(xí)社區(qū)識(shí)別的意義
在現(xiàn)實(shí)社會(huì)中,“物以類聚,人以群分”是人際交往的一個(gè)典型特點(diǎn),人們往往傾向于與自己興趣相似的人進(jìn)行溝通。事實(shí)上,在虛擬的網(wǎng)絡(luò)空間中,這種事物之間的聚類特性依然存在。在學(xué)習(xí)類論壇中,人們往往偏向于訪問那些自己感興趣的版塊,其他版塊則很少訪問。如果仔細(xì)觀察,甚至?xí)l(fā)現(xiàn)有一些非常眼熟的用戶ID時(shí)常出現(xiàn)在我們關(guān)注的帖子中,這就是一種典型的聚類特性,只不過這種特性是潛在的。
對(duì)于網(wǎng)絡(luò)論壇中相似的學(xué)習(xí)資源或具有相近興趣的學(xué)習(xí)者,如果能將其進(jìn)行聚類,那么可以進(jìn)一步促進(jìn)人們的交流與學(xué)習(xí)。例如,如果將論壇中具有相似主題的帖子資源自動(dòng)匯集在一起,那么人們尋找信息的將會(huì)更加便利(論壇中雖有版塊劃分,但往往粒度較大,無(wú)法做到知識(shí)點(diǎn)級(jí)別的歸類)。又如,當(dāng)人們?cè)谡搲邪l(fā)出了尋求幫助的帖子時(shí),如果這個(gè)帖子能在第一時(shí)間自動(dòng)推送到與人們興趣相似的用戶,那么問題的解決和學(xué)習(xí)活動(dòng)的交互將會(huì)變得更加有效,而將用戶按照興趣進(jìn)行聚類,即是這種精準(zhǔn)推送的基本前提。教育論壇中的這種帖子或用戶的聚類,可以理解為一種虛擬學(xué)習(xí)社區(qū)結(jié)構(gòu)。對(duì)虛擬學(xué)習(xí)社區(qū)結(jié)構(gòu)進(jìn)行識(shí)別,是社交網(wǎng)絡(luò)分析在教育領(lǐng)域的應(yīng)用,對(duì)于網(wǎng)絡(luò)學(xué)習(xí)的發(fā)展具有十分重要的意義。
三、社區(qū)識(shí)別技術(shù)研究
(一)社區(qū)識(shí)別技術(shù)總體分析
識(shí)別論壇中的虛擬學(xué)習(xí)社區(qū)結(jié)構(gòu),一般有兩類實(shí)現(xiàn)方式,即基于內(nèi)容的識(shí)別法和基于關(guān)聯(lián)關(guān)系的識(shí)別法?;趦?nèi)容的識(shí)別法一般需要進(jìn)行文本分析,涉及自然語(yǔ)言處理的相關(guān)技術(shù),這種方法對(duì)于長(zhǎng)文本一般具有較高的準(zhǔn)確性。但論壇中往往存在大量短文本,這為基于“詞袋”的方法造成了困難。此外,網(wǎng)絡(luò)語(yǔ)言的廣泛使用以及這類語(yǔ)言一詞多義的特點(diǎn),也限制了自然語(yǔ)言分析法的應(yīng)用。而基于關(guān)聯(lián)關(guān)系的識(shí)別法,主要考慮用戶、帖子以及彼此之間的互動(dòng)關(guān)系,如回帖、點(diǎn)贊等。通常情況下,這類體現(xiàn)關(guān)聯(lián)關(guān)系的數(shù)據(jù)較易獲取,且數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單便于處理,因此關(guān)聯(lián)識(shí)別法的抗干擾性較強(qiáng),適用面也較廣。鑒于論壇的具體數(shù)據(jù)特點(diǎn),本文主要對(duì)基于關(guān)聯(lián)分析的社區(qū)識(shí)別技術(shù)進(jìn)行討論。
(二)基于關(guān)聯(lián)分析識(shí)別法的數(shù)據(jù)建模
當(dāng)用戶在論壇中發(fā)帖以及回帖時(shí),所涉及的實(shí)體包含兩類,即所發(fā)的帖子以及發(fā)帖回帖的用戶。而對(duì)于發(fā)帖回帖行為,則可視為用戶與帖子之間的交互關(guān)系。按照這種邏輯,論壇中的數(shù)據(jù)可以抽象為一種二分網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)中的兩類節(jié)點(diǎn)就是帖子和用戶,連邊則代表發(fā)帖回帖關(guān)系。如果以用戶節(jié)點(diǎn)為中心看待該網(wǎng)絡(luò),帖子節(jié)點(diǎn)就屬于橋接節(jié)點(diǎn),“用戶-帖子”以及“帖子-用戶”這兩段連邊,就使不同用戶之間產(chǎn)生了一種間接的關(guān)聯(lián)關(guān)系,用戶興趣的相似性就蘊(yùn)含在這種間接連邊之中。反之,如果以帖子為中心,用戶就可視為連接不同帖子的橋接節(jié)點(diǎn),對(duì)應(yīng)的兩段連邊就可以體現(xiàn)帖子之間內(nèi)容的相似性。這樣就可以在無(wú)須進(jìn)行文本分析的情況下,僅依靠網(wǎng)絡(luò)關(guān)聯(lián)信息對(duì)資源進(jìn)行聚類。
在這種基于關(guān)聯(lián)關(guān)系的聚類結(jié)構(gòu)中,不管節(jié)點(diǎn)是帖子還是用戶,都可以被稱為虛擬學(xué)習(xí)社區(qū)。根據(jù)以上分析,如果要對(duì)這種虛擬學(xué)習(xí)社區(qū)進(jìn)行識(shí)別,最基本的是要具備能體現(xiàn)回帖關(guān)系的二分網(wǎng)絡(luò)。因此,對(duì)二分網(wǎng)絡(luò)進(jìn)行建模是利用關(guān)聯(lián)分析法識(shí)別虛擬學(xué)習(xí)社區(qū)的前提。需要注意的是,為了保障社區(qū)識(shí)別的準(zhǔn)確性,網(wǎng)絡(luò)中的連邊可以按加權(quán)的形式進(jìn)行量化,權(quán)值的設(shè)定需要考慮論壇中的多種行為因素。例如,發(fā)帖者與該帖子的關(guān)系相較于跟帖者應(yīng)該更為密切,因此它們之間連邊的權(quán)值可以設(shè)置的略大一些;論壇中進(jìn)行了文字跟帖的用戶應(yīng)該比僅僅點(diǎn)贊的用戶更關(guān)注該帖子,因此權(quán)值也應(yīng)該更大。此外,如果論壇系統(tǒng)能夠提取用戶在當(dāng)前帖子上的停留時(shí)間、瀏覽次數(shù)或轉(zhuǎn)載次數(shù)等信息,也可以按照一定的規(guī)則量化為連邊的權(quán)值。對(duì)于這種二分網(wǎng)絡(luò),不管采用何種因素進(jìn)行權(quán)值設(shè)定,都可理解為異質(zhì)節(jié)點(diǎn)之間關(guān)系的強(qiáng)弱程度,因此在邏輯上具備較強(qiáng)的可解釋性。
(三)虛擬學(xué)習(xí)社區(qū)識(shí)別算法
鑒于論壇的運(yùn)行機(jī)制以及上述二分網(wǎng)絡(luò)數(shù)據(jù)結(jié)構(gòu),可設(shè)計(jì)基于關(guān)聯(lián)分析的虛擬社區(qū)識(shí)別算法。依據(jù)社區(qū)識(shí)別時(shí)所關(guān)注的范圍,識(shí)別算法分為全局社區(qū)識(shí)別與局部社區(qū)識(shí)別。進(jìn)行全局社區(qū)識(shí)別時(shí),需要將所有節(jié)點(diǎn)及連邊視為一個(gè)整體,將其作為程序的輸入?yún)⑴c運(yùn)算。全局社區(qū)識(shí)別屬于全局優(yōu)化算法,優(yōu)化時(shí)將模塊度作為目標(biāo)函數(shù),算法運(yùn)算結(jié)束后能獲取整個(gè)網(wǎng)絡(luò)中所有的社區(qū)結(jié)構(gòu)。算法中模塊度設(shè)計(jì)的準(zhǔn)則是社區(qū)內(nèi)部的連邊盡可能緊密,社區(qū)之間的連邊盡可能稀疏。而局部社區(qū)識(shí)別算法運(yùn)行時(shí),無(wú)須獲取完整的網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù),可以僅從需要進(jìn)行社區(qū)識(shí)別區(qū)域的大致位置作為起點(diǎn),采取逐漸擴(kuò)展的方式識(shí)別單個(gè)社區(qū)。
考慮到論壇中數(shù)據(jù)的規(guī)??赡茌^大,且這些數(shù)據(jù)處于一種動(dòng)態(tài)更新狀態(tài),為了達(dá)到實(shí)時(shí)在線識(shí)別的目的,一般情況下更適合使用局部社區(qū)識(shí)別算法。進(jìn)行局部社區(qū)識(shí)別的基本原則也是“高內(nèi)聚,低耦合”,但與全局算法不同的是,對(duì)目標(biāo)函數(shù)進(jìn)行優(yōu)化時(shí)僅區(qū)分當(dāng)前社區(qū)與非當(dāng)前社區(qū)。目標(biāo)函數(shù)可設(shè)置為社區(qū)內(nèi)外連邊的密度比值,具體為社區(qū)內(nèi)部的連邊數(shù)與社區(qū)內(nèi)外連邊數(shù)的比值,可將該目標(biāo)函數(shù)標(biāo)記為fcommunity。程序流程可設(shè)計(jì)如下:
步驟一:構(gòu)建二分網(wǎng)絡(luò)。遍歷論壇中的每一個(gè)帖子,將其作為A類節(jié)點(diǎn)加入節(jié)點(diǎn)集合NodeSetA。同時(shí),對(duì)每一個(gè)帖子,將發(fā)帖者和回帖者作為B類節(jié)點(diǎn)加入節(jié)點(diǎn)集合NodeSetB,將連接關(guān)系加入連邊集合LinkSet。節(jié)點(diǎn)集合NodeSetA、NodeSetB和連邊集合LinkSet共同構(gòu)成二分網(wǎng)絡(luò)。
步驟二:對(duì)帖子節(jié)點(diǎn)進(jìn)行社區(qū)結(jié)構(gòu)識(shí)別。從需要識(shí)別社區(qū)結(jié)構(gòu)的某個(gè)帖子節(jié)點(diǎn)出發(fā),將其作為初始化節(jié)點(diǎn)加入社區(qū)節(jié)點(diǎn)集合Community。經(jīng)橋接節(jié)點(diǎn)遍歷所有的二段連邊,尋找使得目標(biāo)函數(shù)fcommunity增大的帖子節(jié)點(diǎn),將其加入Community,同時(shí)在Community中找到使得目標(biāo)函數(shù)減小的節(jié)點(diǎn),將其剔出Community。重復(fù)該擴(kuò)張過程,直至Community穩(wěn)定,此時(shí)的Community即是需要識(shí)別的社區(qū)節(jié)點(diǎn)集合。
步驟三:對(duì)用戶節(jié)點(diǎn)進(jìn)行社區(qū)結(jié)構(gòu)識(shí)別。從需要識(shí)別社區(qū)結(jié)構(gòu)的某個(gè)用戶節(jié)點(diǎn)出發(fā),按照與步驟二類似的方式進(jìn)行社區(qū)結(jié)構(gòu)的構(gòu)建,得到面向用戶的社區(qū)結(jié)構(gòu)。
步驟四:結(jié)束當(dāng)前社區(qū)識(shí)別過程,或確定新的初始節(jié)點(diǎn)重復(fù)步驟二、步驟三。
上述偽代碼描述了虛擬學(xué)習(xí)社區(qū)識(shí)別算法的大致思路,但在實(shí)際操作中,更多的需要考慮網(wǎng)絡(luò)連邊的權(quán)值量化問題。權(quán)值的量化需要針對(duì)論壇的具體特性加以分析,不同論壇所適應(yīng)的量化準(zhǔn)則可能并不相同,需要通過實(shí)踐加以驗(yàn)證。
四、結(jié)語(yǔ)
在“互聯(lián)網(wǎng)+教育”的背景下,基于教育論壇的學(xué)習(xí)以一種開放的形式擴(kuò)展了教育的范疇。對(duì)于教育論壇中的學(xué)習(xí)資源或?qū)W習(xí)者,按照其相似性或興趣接近程度進(jìn)行聚類可對(duì)虛擬學(xué)習(xí)社區(qū)進(jìn)行識(shí)別,具有較為明顯的現(xiàn)實(shí)意義。本文從技術(shù)實(shí)現(xiàn)的角度,對(duì)虛擬學(xué)習(xí)社區(qū)識(shí)別的方法進(jìn)行了初步探討。筆者相信,隨著技術(shù)的進(jìn)步,網(wǎng)絡(luò)學(xué)習(xí)定會(huì)涌現(xiàn)出新的形式,虛擬學(xué)習(xí)社區(qū)識(shí)別技術(shù)也一定會(huì)呈現(xiàn)新的應(yīng)用價(jià)值。
參考文獻(xiàn):
[1]戴心來(lái),劉聰聰.基于學(xué)習(xí)分析的虛擬學(xué)習(xí)社區(qū)深度交互研究[J].現(xiàn)代遠(yuǎn)距離教育,2019(5):51-58.
[2]張連峰,李慧,遆云鶴.基于虛擬學(xué)術(shù)社區(qū)的知識(shí)聚合模型構(gòu)建研究[J].情報(bào)科學(xué),2019(6):55-60,74.
[3]吳笛,李保強(qiáng),蔡運(yùn)荃.弱關(guān)系視角下的虛擬學(xué)習(xí)社區(qū)網(wǎng)絡(luò)交互分析[J].中國(guó)遠(yuǎn)程教育,2017(11):16-21,30,79.
[4]盧瀟,胡凡剛.基于教育大數(shù)據(jù)的教育虛擬社區(qū)交互設(shè)計(jì)研究[J].遠(yuǎn)程教育雜志,2017(5):84-92.