劉克禮
摘 要:在網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)中,如何有效推薦學(xué)習(xí)資源具有重要意義。為進(jìn)一步提高在數(shù)據(jù)稀疏情況下的關(guān)聯(lián)規(guī)則推薦效率,從相似性角度出發(fā),引入學(xué)習(xí)資源文本信息,通過(guò)構(gòu)建學(xué)習(xí)資源相似度矩陣,提出一個(gè)基于資源相似度的關(guān)聯(lián)規(guī)則擴(kuò)展方法,從而在歷史數(shù)據(jù)稀疏的情況下生成關(guān)聯(lián)規(guī)則推薦。實(shí)踐結(jié)果表明,基于同一數(shù)據(jù)對(duì)象進(jìn)行研究,通過(guò)擴(kuò)展關(guān)聯(lián)規(guī)則方法可以提高推薦的有效性和實(shí)用性。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則;Apriori;規(guī)則擴(kuò)展;數(shù)據(jù)挖掘
DOI:10. 11907/rjdk. 201364 開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2020)007-0158-03
Extension and Application of Association Rules in Data Sparse Cases
LIU Ke-li
(School of Information Engineering ,Anhui Open University,Hefei 230022,China)
Abstract: In the network learning platform, how to effectively recommend learning resources is of great significance. To further improve the efficiency of association rule recommendation in the case of sparse data, from the perspective of similarity, this paper introduces the text information of learning resources, and constructs a similarity matrix of learning resources to propose an association rule expansion method based on resource similarity. Correlation rule recommendation is generated when the data is sparse. The practical results show that the effectiveness and practicability of recommendation can be improved by extending association rules based on the same data.
Key Words: the association rule; Apriori; rule extension; data mining
0 引言
隨著網(wǎng)絡(luò)學(xué)習(xí)的快速發(fā)展,學(xué)習(xí)資源的數(shù)字化程度不斷提高,網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)每天都會(huì)產(chǎn)生大量學(xué)習(xí)記錄。如何對(duì)這些學(xué)習(xí)記錄進(jìn)行分析與處理,挖掘隱含在其中的學(xué)習(xí)規(guī)律,從而進(jìn)一步提高網(wǎng)絡(luò)學(xué)習(xí)效率和質(zhì)量是目前教育研究中的熱點(diǎn)問(wèn)題。關(guān)聯(lián)規(guī)則可用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中有意義的聯(lián)系,是數(shù)據(jù)挖掘技術(shù)中的常用方法[1],已廣泛應(yīng)用于金融、建筑、鐵路、航空、醫(yī)療等眾多領(lǐng)域[2]。Agrawal等[3]在分析大量購(gòu)物車商品信息的基礎(chǔ)上,提出一種基于頻繁項(xiàng)集的關(guān)聯(lián)規(guī)則挖掘算法,用于分析商品之間的關(guān)聯(lián)關(guān)系,其核心就是對(duì)頻繁項(xiàng)集的挖掘[4-6]。
目前,網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)不斷有新的學(xué)習(xí)資源上線,這些新上線的學(xué)習(xí)資源由于缺少瀏覽記錄,采用常規(guī)數(shù)據(jù)挖掘方法難以生成有效的關(guān)聯(lián)規(guī)則。針對(duì)這種缺乏用戶歷史行為數(shù)據(jù)的情況,有研究者提出在關(guān)聯(lián)規(guī)則基礎(chǔ)上進(jìn)行擴(kuò)展。如李學(xué)明[7]認(rèn)為關(guān)聯(lián)規(guī)則模型中隱藏的肯定關(guān)系與否定關(guān)系同樣重要,并將擴(kuò)展型關(guān)聯(lián)規(guī)則與原關(guān)聯(lián)規(guī)則相結(jié)合,提高了擴(kuò)展關(guān)聯(lián)規(guī)則挖掘效率;董俊[8]提出利用多維關(guān)聯(lián)規(guī)則的本體規(guī)則擴(kuò)展方法進(jìn)行關(guān)聯(lián)規(guī)則擴(kuò)展,發(fā)現(xiàn)該方法可以提高分類準(zhǔn)確率和召回率;Abbache等[9]提出在數(shù)據(jù)挖掘中,除對(duì)歷史行為數(shù)據(jù)進(jìn)行挖掘外,還可以挖掘資源本身的信息。本文在研究學(xué)習(xí)平臺(tái)中學(xué)習(xí)資源相似性的基礎(chǔ)上,引入學(xué)習(xí)資源文本描述信息,以向量形式表示學(xué)習(xí)資源,通過(guò)計(jì)算向量之間的余弦相似度,構(gòu)建相似度矩陣,通過(guò)擴(kuò)展關(guān)聯(lián)規(guī)則方法,實(shí)現(xiàn)在用戶歷史行為數(shù)據(jù)稀疏情況下對(duì)學(xué)習(xí)資源的高效推薦。
1 用戶數(shù)據(jù)稀疏情況下關(guān)聯(lián)規(guī)則擴(kuò)展
通過(guò)數(shù)據(jù)收集、數(shù)據(jù)清理、關(guān)聯(lián)分析與相似度計(jì)算等步驟生成關(guān)聯(lián)規(guī)則。
1.1 數(shù)據(jù)收集與數(shù)據(jù)清理
1.1.1 數(shù)據(jù)收集
采用數(shù)據(jù)收集與數(shù)據(jù)存儲(chǔ)技術(shù)可以積累海量數(shù)據(jù)。在線學(xué)習(xí)平臺(tái)每天都有大量活躍用戶,這些用戶的網(wǎng)上學(xué)習(xí)行為會(huì)產(chǎn)生大量數(shù)據(jù),包含用戶瀏覽的視頻、文本及課程論壇互動(dòng)信息等,同時(shí)平臺(tái)還記錄了用戶學(xué)習(xí)時(shí)長(zhǎng)、資源點(diǎn)擊頻率等。這些快速積累的海量數(shù)據(jù)對(duì)于獲得有價(jià)值的信息具有重要意義。
1.1.2 數(shù)據(jù)清理
學(xué)生在網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)學(xué)習(xí)的過(guò)程中,也會(huì)產(chǎn)生隨機(jī)、雜亂、無(wú)目的瀏覽記錄[10]。其在學(xué)習(xí)中也不是一次性瀏覽課程所有資源,通常按照教學(xué)要求進(jìn)行階段性的學(xué)習(xí)。平臺(tái)中存在部分學(xué)生為完成學(xué)習(xí)任務(wù)而隨意點(diǎn)擊的數(shù)據(jù),也存在著為“掛學(xué)時(shí)”而產(chǎn)生的數(shù)據(jù)等[11],這也是無(wú)法避免的數(shù)據(jù)質(zhì)量問(wèn)題,因此需要對(duì)數(shù)據(jù)進(jìn)行檢測(cè)與糾正,也即進(jìn)行數(shù)據(jù)清理。
1.2 關(guān)聯(lián)規(guī)則挖掘
本文基于頻繁項(xiàng)集理論[12],采用循環(huán)生成頻繁項(xiàng)集的方法[13],通過(guò)基于支持度的剪枝技術(shù)去掉非頻繁項(xiàng)[14],然后對(duì)頻繁項(xiàng)集進(jìn)行運(yùn)算得到擴(kuò)展的關(guān)聯(lián)規(guī)則。
1.3 學(xué)習(xí)資源相似度計(jì)算及關(guān)聯(lián)規(guī)則擴(kuò)展
關(guān)聯(lián)規(guī)則挖掘的目的就是找出具有相似屬性的資源。通常關(guān)聯(lián)規(guī)則挖掘算法需要根據(jù)用戶歷史行為和興趣,預(yù)測(cè)用戶未來(lái)的行為和興趣,因此需要大量用戶數(shù)據(jù)作為支撐。若用戶歷史行為數(shù)據(jù)不足,如剛上線的學(xué)習(xí)資源以及缺少瀏覽量的學(xué)習(xí)資源等,就會(huì)因缺乏置信度而無(wú)法生成關(guān)聯(lián)規(guī)則。因此,針對(duì)相關(guān)學(xué)習(xí)資源,可通過(guò)構(gòu)建資源相似度矩陣,同時(shí)以資源文本描述信息作為補(bǔ)充進(jìn)行關(guān)聯(lián)規(guī)則挖掘。用戶在學(xué)習(xí)平臺(tái)中瀏覽了資源A,通過(guò)計(jì)算資源的文本描述信息,若能發(fā)現(xiàn)資源B與資源A具有一定相似度,則推斷用戶可能會(huì)對(duì)學(xué)習(xí)資源B感興趣,也即是說(shuō),資源B對(duì)其具有同樣重要的學(xué)習(xí)價(jià)值。通過(guò)關(guān)聯(lián)規(guī)則算法挖掘到的規(guī)則“資源A=>資源B”,若有一個(gè)學(xué)習(xí)資源C與資源B具有一定相似度,甚至在學(xué)習(xí)價(jià)值上可能超過(guò)資源B,則對(duì)于學(xué)習(xí)者來(lái)說(shuō),學(xué)習(xí)資源C和學(xué)習(xí)資源B給其帶來(lái)的收獲大致相同,甚至體驗(yàn)更好。說(shuō)明在關(guān)聯(lián)規(guī)則“資源A=>資源B”的基礎(chǔ)上,如果學(xué)習(xí)資源C與學(xué)習(xí)資源B具備一定相似度,則“資源A=>資源C”可作為一條關(guān)聯(lián)規(guī)則納入頻繁項(xiàng)集。
通過(guò)上述方法可構(gòu)建學(xué)習(xí)資源相似度矩陣,對(duì)關(guān)聯(lián)規(guī)則進(jìn)行擴(kuò)展,最終實(shí)現(xiàn)在歷史數(shù)據(jù)稀疏條件下的學(xué)習(xí)資源推薦。要實(shí)現(xiàn)上述情況下的資源推薦,關(guān)鍵在于對(duì)關(guān)聯(lián)規(guī)則進(jìn)行擴(kuò)展,其核心就是計(jì)算學(xué)習(xí)資源的相似度。
1.3.1 學(xué)習(xí)資源相似度計(jì)算
對(duì)于學(xué)習(xí)資源相似度計(jì)算,在增加學(xué)習(xí)資源文本信息的基礎(chǔ)上,利用向量空間模型描述學(xué)習(xí)資源,將學(xué)習(xí)資源表示成一個(gè)關(guān)鍵詞向量,然后通過(guò)余弦相似度計(jì)算構(gòu)造相似度矩陣。具體步驟如下:首先把學(xué)習(xí)資源按特征維度進(jìn)行劃分,按文本分詞形式處理權(quán)重。用維度向量表示學(xué)習(xí)資源,如學(xué)習(xí)資源d可表示成一個(gè)關(guān)鍵詞向量:di={(e1,w1),(e2,w2),…(ei,wi )…}。其中,ei表示關(guān)鍵詞,wi表示關(guān)鍵詞對(duì)應(yīng)權(quán)重。利用信息檢索鄰域的TU-IDF公式計(jì)算關(guān)鍵詞權(quán)重:
[wi=TF(ei)logDF(ei)]
學(xué)習(xí)資源相似度可通過(guò)計(jì)算向量之間的余弦相似度得到,具體公式如下:
通過(guò)公式可計(jì)算出不同學(xué)習(xí)資源的相似度,并構(gòu)造一個(gè)學(xué)習(xí)資源相似度矩陣,從而求得任意兩學(xué)習(xí)資源之間的相似度。
1.3.2 關(guān)聯(lián)規(guī)則擴(kuò)展
為了更好地在數(shù)據(jù)稀疏的情況下計(jì)算學(xué)習(xí)資源相似度,并通過(guò)計(jì)算找出相似度高的學(xué)習(xí)資源,在進(jìn)行規(guī)則擴(kuò)展時(shí),將規(guī)則置信度與學(xué)習(xí)資源相似度的乘積作為擴(kuò)展后規(guī)則的置信度。針對(duì)已有規(guī)則<資源A=>資源B ,conf=x>,即對(duì)學(xué)習(xí)資源A感興趣的用戶有x的概率對(duì)學(xué)習(xí)資源B感興趣,通過(guò)計(jì)算發(fā)現(xiàn),學(xué)習(xí)資源C與學(xué)習(xí)資源B的相似度為y,且x與y的乘積符合置信度要求,從而得到新規(guī)則< 資源A=>資源C,conf=x*y >,即對(duì)學(xué)習(xí)資源A感興趣的用戶有x*y的概率對(duì)學(xué)習(xí)資源B感興趣。采用這種計(jì)算方法,可實(shí)現(xiàn)對(duì)關(guān)聯(lián)規(guī)則按置信度進(jìn)行擴(kuò)展。
2 實(shí)例分析驗(yàn)證
2.1 數(shù)據(jù)處理
本研究使用的數(shù)據(jù)來(lái)自某高校網(wǎng)絡(luò)學(xué)習(xí)平臺(tái),該平臺(tái)是以計(jì)算技術(shù)為基礎(chǔ)的集約化一站式學(xué)習(xí)平臺(tái),每天都有海量學(xué)習(xí)記錄數(shù)據(jù)產(chǎn)生,這些數(shù)據(jù)真實(shí)、可靠,可用于數(shù)據(jù)挖掘研究。本文主要采用《計(jì)算機(jī)應(yīng)用基礎(chǔ)》課程數(shù)據(jù)進(jìn)行實(shí)證研究,該課程是一門公共基礎(chǔ)課,每學(xué)期約有1萬(wàn)名學(xué)生選修該課程。課程網(wǎng)絡(luò)資源豐富,包括文本輔導(dǎo)、精講視頻、經(jīng)典案例、在線測(cè)驗(yàn)等,另外課程討論區(qū)也有大量學(xué)習(xí)資源,如學(xué)生學(xué)習(xí)心得、問(wèn)題回復(fù)等。選取2019春季學(xué)期學(xué)生的學(xué)習(xí)記錄,剔除沒(méi)有學(xué)習(xí)行為,以及學(xué)習(xí)行為數(shù)量較少的學(xué)習(xí)記錄,得到有效選課數(shù)據(jù)8 578條。研究發(fā)現(xiàn),96.68%的學(xué)習(xí)記錄里包含的學(xué)習(xí)資源個(gè)數(shù)在30以內(nèi)。參照數(shù)據(jù)挖掘中的數(shù)據(jù)清洗規(guī)則,剔除部分異常數(shù)據(jù)記錄,最終得到21 251條學(xué)習(xí)記錄。
2.2 關(guān)聯(lián)規(guī)則挖掘及擴(kuò)展
通過(guò)Apriori算法對(duì)上述步驟得到的21 251條學(xué)習(xí)記錄進(jìn)行關(guān)聯(lián)規(guī)則分析。選取支持度大于0.03,同時(shí)置信度大于0.05的關(guān)聯(lián)規(guī)則進(jìn)行分析,共挖掘出104條關(guān)聯(lián)規(guī)則。按置信度從高到低排序,選擇前10條關(guān)聯(lián)規(guī)則如表1所示。
在上述關(guān)聯(lián)規(guī)則挖掘基礎(chǔ)上,針對(duì)用戶歷史行為數(shù)據(jù)稀疏的情況,引入學(xué)習(xí)資源文本描述信息,以向量形式表示學(xué)習(xí)資源,通過(guò)計(jì)算向量之間的余弦相似度,得到擴(kuò)展的關(guān)聯(lián)規(guī)則。為了研究的需要,本文將擴(kuò)展后關(guān)聯(lián)規(guī)則的置信度從0.05提升到0.07,只保留置信度在0.07之上的學(xué)習(xí)資源。
通過(guò)對(duì)比發(fā)現(xiàn),利用Apriori算法挖掘到的關(guān)聯(lián)規(guī)則數(shù)量與規(guī)則擴(kuò)展后的數(shù)量都是隨著置信度提高而逐漸下降的。當(dāng)置信度小于0.085時(shí),擴(kuò)展得到的關(guān)聯(lián)規(guī)則數(shù)量都比原關(guān)聯(lián)規(guī)則數(shù)量多。隨著置信度不斷增加,擴(kuò)展得到的關(guān)聯(lián)規(guī)則數(shù)量則逐漸減少,如圖1所示。
從圖中可以發(fā)現(xiàn),在置信度小于0.085時(shí)使用擴(kuò)展規(guī)則,得到的關(guān)聯(lián)規(guī)則數(shù)量隨著置信度增加呈現(xiàn)平緩的態(tài)勢(shì),說(shuō)明使用規(guī)則擴(kuò)展方法能保持一個(gè)相對(duì)穩(wěn)定的擴(kuò)展效率。隨著置信度不斷增加,特別是當(dāng)置信度大于0.085后,得到的擴(kuò)展關(guān)聯(lián)規(guī)則數(shù)量不斷減少,說(shuō)明高度相似的學(xué)習(xí)資源數(shù)量會(huì)隨著相似度提高而逐漸減少??傮w來(lái)看,規(guī)則擴(kuò)展能實(shí)現(xiàn)在用戶歷史行為數(shù)據(jù)稀疏情況下生成關(guān)聯(lián)規(guī)則,且提高數(shù)據(jù)關(guān)聯(lián)的效率和實(shí)用性。
3 結(jié)語(yǔ)
本文從學(xué)習(xí)資源相似度角度出發(fā),兼顧學(xué)習(xí)者歷史行為數(shù)據(jù)和學(xué)習(xí)資源文本描述信息,在歷史行為數(shù)據(jù)稀疏的情況下,通過(guò)構(gòu)建學(xué)習(xí)資源相似度矩陣,提出一個(gè)基于學(xué)習(xí)資源相似度的關(guān)聯(lián)規(guī)則擴(kuò)展方法。最后依托在線學(xué)習(xí)平臺(tái)真實(shí)的學(xué)習(xí)記錄進(jìn)行實(shí)驗(yàn),證明擴(kuò)展的關(guān)聯(lián)規(guī)則能在歷史行為數(shù)據(jù)稀疏的情況下,提高數(shù)據(jù)挖掘的效率和實(shí)用性。
在信息化快速發(fā)展的時(shí)代,先進(jìn)的信息技術(shù)在教育領(lǐng)域的應(yīng)用越來(lái)越廣泛、深入,通過(guò)分析在線學(xué)習(xí)平臺(tái)積累的各類數(shù)據(jù),可挖掘出更多隱藏其中有價(jià)值的信息,這對(duì)于提高學(xué)習(xí)效率、提升教學(xué)質(zhì)量具有重要意義。
參考文獻(xiàn):
[1] WU X, KUMAR V, QUINLAN J R, et al. Top?10 algorithms in data mining[J]. Knowledge & Information Systems,2007,14:1-37.
[2] 王曉麗,奚克敏,劉占波,等. 基于Apriori算法的關(guān)聯(lián)規(guī)則分析[J]. 軟件,2019,40(2):23-26.
[3] AGRAWAL R. Mining association rules between sets of items in large databases[C]. Proceedings of the ACM SIGMOD Conference on Management of Data,1993.
[4] CZIBULA G, MARIAN Z, CZIBULA I G. Detecting software design defects using relational association rule mining[J]. Knowledge & Information Systems, 2015, 42:545-577.
[5] LIU Z, HU L, WU C, et al. A novel process-based association rule approach through maximal frequent itemsets for big data processing[J]. Future Generation Computer Systems, 2017 ,81:414-424.
[6] RACHBUREE N,ARUNRERK J,PUNLUMJEAK W. Failure part mining using an association rules mining by FP-growth and apriori algorithms: case of ATM maintenance in Thailand[C].? International Conference on IT Convergence and Security, 2017.
[7] 李學(xué)明,劉勇國(guó),彭軍,等. 擴(kuò)展型關(guān)聯(lián)規(guī)則和原關(guān)聯(lián)規(guī)則及其若干性質(zhì)[J]. 計(jì)算機(jī)研究與發(fā)展,2002(12):1740-1750.
[8] 董俊,王鎖萍,熊范綸,等. 基于多維關(guān)聯(lián)規(guī)則的本體規(guī)則擴(kuò)展方法[J]. 模式識(shí)別與人工智能,2009,22(5):756-762.
[9] ABBACHE A, MEZIANE F, BELALEM G, et al. Arabic query expansion using WordNet and association rules[J]. International Journal of Intelligent Information Technologies, 2016,12:51-64.
[10] 代紅,吳文凱,任玲,等. 網(wǎng)絡(luò)學(xué)習(xí)行為分析與預(yù)測(cè)的研究[J]. 通訊世界,2019,26(10):28-29.
[11] 劉培艷. 從資源共享視角探究開(kāi)放大學(xué)數(shù)字化教育資源應(yīng)用現(xiàn)狀[J]. 天津職業(yè)院校聯(lián)合學(xué)報(bào),2018,20(6):100-105.
[12] 陳可嘉,趙政. 用戶交易數(shù)據(jù)不足情況下的商品關(guān)聯(lián)規(guī)則擴(kuò)展與應(yīng)用[J]. 福州大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2019,33(1):42-47.
[13] 尹遠(yuǎn),朱璐偉,文凱. 基于差異點(diǎn)集的頻繁項(xiàng)集挖掘算法[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2020,41(3):716-720.
[14] 謝修娟,莫凌飛,朱林. 基于關(guān)聯(lián)規(guī)則的濫用入侵檢測(cè)系統(tǒng)的研究與實(shí)現(xiàn)[J]. 現(xiàn)代電子技術(shù),2017,40(2):43-47.
(責(zé)任編輯:黃 ?。?/p>