劉麗娜
(廣州工商學(xué)院工學(xué)院,廣東 廣州 510850)
高校學(xué)生對(duì)公選課具有一定的自由選擇權(quán),包括選擇課程、任課教師和上課時(shí)間。由于傳統(tǒng)的選課制度不利于學(xué)生個(gè)性拓展、課程資源有限和選課引導(dǎo)不充分等方面因素,影響了學(xué)生的學(xué)習(xí)效果和學(xué)校的教學(xué)質(zhì)量。
基于數(shù)據(jù)挖掘技術(shù)對(duì)廣東省民辦院校公選課資源共享個(gè)性化推薦模型進(jìn)行研究,利用改進(jìn)后的KIApriori 算法[1]從以往的選課數(shù)據(jù)中發(fā)現(xiàn)隱藏的、有用的數(shù)據(jù)規(guī)律來(lái)指導(dǎo)推薦公選課,從而改進(jìn)和完善當(dāng)前高校公選課的選課機(jī)制。
目前,許多學(xué)者正在積極探索公選課選課機(jī)制的改革;研究較多也較為普遍的當(dāng)屬課程個(gè)性化推薦模型,此類模型有基于大數(shù)據(jù)或數(shù)據(jù)挖掘的個(gè)性化推薦[2-4],也有基于協(xié)同過(guò)濾的資源定制[5],以及基于圖譜和圖嵌入的學(xué)習(xí)資源推薦等等[6]。
本文利用數(shù)據(jù)挖掘算法構(gòu)建推薦模型,以SPSS Modeler 為初步分析工具,以廣州工商學(xué)院和廣州科技職業(yè)技術(shù)大學(xué)兩所民辦院校應(yīng)歷屆學(xué)生信息數(shù)據(jù)為研究對(duì)象,構(gòu)建預(yù)測(cè)模型為在校學(xué)生推薦適合的公選課程,既能有效提高教學(xué)質(zhì)量,又能實(shí)現(xiàn)跨校資源共享,提高資源利用率。
數(shù)據(jù)挖掘技術(shù)是通過(guò)對(duì)歷史數(shù)據(jù)進(jìn)行分析,從而發(fā)現(xiàn)其中的規(guī)律,利用此規(guī)律來(lái)指導(dǎo)預(yù)測(cè)未來(lái)有可能產(chǎn)生的數(shù)據(jù)信息[7]。數(shù)據(jù)挖掘主要包括數(shù)據(jù)清洗、數(shù)據(jù)建模、模型數(shù)據(jù)分析、行為數(shù)據(jù)分析與結(jié)果反饋四個(gè)階段。
(1)數(shù)據(jù)清洗
數(shù)據(jù)挖掘的前期工作是收集數(shù)據(jù),在確定挖掘目標(biāo)后基于該目標(biāo)準(zhǔn)備數(shù)據(jù),并對(duì)收集到的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行整理清洗去除數(shù)據(jù)中噪聲不一致的數(shù)據(jù),以便于后續(xù)的分析處理。
(2)構(gòu)建挖掘模型
數(shù)據(jù)建模階段可以選擇不同的數(shù)據(jù)挖掘技術(shù)針對(duì)數(shù)據(jù)進(jìn)行分析建模,從而發(fā)現(xiàn)潛在的規(guī)律和結(jié)構(gòu)。
(3)模型數(shù)據(jù)分析
模型數(shù)據(jù)分析可以將模型應(yīng)用于實(shí)際問(wèn)題中,構(gòu)建推薦算法,并對(duì)模型效果進(jìn)行驗(yàn)證,從而自動(dòng)地為用戶進(jìn)行推薦?;跀?shù)據(jù)挖掘算法的推薦系統(tǒng)可以實(shí)現(xiàn)個(gè)性化、精準(zhǔn)地推薦,同時(shí)也可以不斷優(yōu)化算法以提高推薦的效果。
(4)行為數(shù)據(jù)分析與結(jié)果反饋
行為數(shù)據(jù)分析是將得到的推薦結(jié)果結(jié)合實(shí)際行為進(jìn)行分析,從而為系統(tǒng)提供反饋機(jī)制。通過(guò)對(duì)用戶的反饋進(jìn)行分析和挖掘,可以發(fā)現(xiàn)用戶的意見(jiàn)和需求,從而進(jìn)一步改進(jìn)并優(yōu)化推薦系統(tǒng)。
Apriori 算法通過(guò)分析歷史數(shù)據(jù)發(fā)現(xiàn)其中隱藏的規(guī)律,利用規(guī)律分析現(xiàn)有數(shù)據(jù)并找出關(guān)聯(lián)結(jié)果,從而達(dá)到推薦的目的[8]。而KIApriori 算法是對(duì)Apriori 算法處理多維復(fù)雜數(shù)據(jù)及執(zhí)行效率的優(yōu)化,KIApriori 構(gòu)建推薦模型的過(guò)程包括利用改進(jìn)的算法SK-Means 進(jìn)行前期復(fù)雜數(shù)據(jù)的多維度分類、精簡(jiǎn),然后利用改進(jìn)的算法KIApriori 根據(jù)支持度和置信度識(shí)別強(qiáng)規(guī)則,然后使用強(qiáng)規(guī)則實(shí)現(xiàn)推薦項(xiàng)目,實(shí)現(xiàn)模型如圖1 所示。
圖1 KIApriori 算法推薦模型
首先是對(duì)收集到的數(shù)據(jù)Data 進(jìn)行normalization清洗規(guī)范化,然后采用經(jīng)過(guò)多維度改進(jìn)K-Means 后的SK-Means 算法進(jìn)行分類,最后再通過(guò)掃描數(shù)據(jù)庫(kù)并使用KIApriori 識(shí)別頻繁出現(xiàn)的項(xiàng)目來(lái)找出所有規(guī)則。該算法的工作原理是建立一組候選項(xiàng)集,然后根據(jù)最小支持度和置信度對(duì)該候選項(xiàng)集進(jìn)行修剪。一旦確定了最頻繁的項(xiàng)目集(即強(qiáng)規(guī)則),則可以利用規(guī)則向用戶提出推薦建議。推薦過(guò)程識(shí)別出往屆學(xué)生所選課程與其他數(shù)據(jù)的關(guān)聯(lián)規(guī)律,再利用該規(guī)律為當(dāng)前還未選課的學(xué)生推薦其感興趣的課程。
因此,Apriori 關(guān)聯(lián)規(guī)則可以識(shí)別最頻繁的項(xiàng)目集,并使用它們向用戶推薦項(xiàng)目,幫助構(gòu)建推薦模型,從而提高推薦的準(zhǔn)確性,更好地滿足學(xué)生的學(xué)習(xí)需求,提高學(xué)生學(xué)習(xí)效果。
本文以廣東省兩所民辦院校近十年的學(xué)生數(shù)據(jù)為研究對(duì)象,采用線上公選課程為規(guī)則后項(xiàng),具體實(shí)施分為六個(gè)階段。
(1)數(shù)據(jù)清洗
確定廣州工商學(xué)院和廣州科技職業(yè)技術(shù)大學(xué)往屆學(xué)生的特征數(shù)據(jù),首先需要確定學(xué)生的行為習(xí)慣、學(xué)生專業(yè)與課程等多方面的特征數(shù)據(jù),即通過(guò)采集學(xué)生的多層次的個(gè)人數(shù)據(jù),在此基礎(chǔ)上進(jìn)行多維度衡量,然后對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行統(tǒng)一和去噪處理。例如,由于不同的專業(yè)所學(xué)習(xí)的專業(yè)課程不同,因此需將專業(yè)課進(jìn)行聚類,根據(jù)成績(jī)段進(jìn)行歸類,如分?jǐn)?shù)在90 到100 之間的同學(xué)歸為一類。同時(shí),若同類屬性當(dāng)中有大量的不同值,如學(xué)生成績(jī),則應(yīng)做概化處理。
概化:即將一些細(xì)節(jié)的數(shù)據(jù)抽象為上一層次的概念化的數(shù)據(jù),如學(xué)生的“大學(xué)英語(yǔ)成績(jī)”有0~100中的某一個(gè)數(shù)組成,不利于挖掘,在此可以將成績(jī)根據(jù)[0,60)、[60,70)、[70,80)、[80,90)、[90,100]分為不及格、及格、中等、良好和優(yōu)秀五個(gè)層次,那么“大學(xué)英語(yǔ)成績(jī)”就可以概化為不及格、及格、中等、良好和優(yōu)秀。
屬性剔除:如果屬性當(dāng)中很多值都未概化處理,且與挖掘主題不相關(guān),沒(méi)有上層屬性,則該類屬性應(yīng)剔除。如“姓名”或“教師編號(hào)”等屬性。
(2)設(shè)計(jì)推薦算法
利用數(shù)據(jù)挖掘技術(shù),根據(jù)學(xué)生的需求特征,建立合理的模型,利用關(guān)聯(lián)分析等技術(shù),確定個(gè)性化推薦算法,本文結(jié)合實(shí)際數(shù)據(jù)分析確定采用KIApriori 算法對(duì)第一階段的數(shù)據(jù)進(jìn)行挖掘。
(3)模型實(shí)施
在模型構(gòu)建后,通過(guò)運(yùn)用數(shù)據(jù)挖掘的技術(shù)對(duì)資源進(jìn)行數(shù)據(jù)處理,本次挖掘設(shè)置最小支持度和置信度均為8%,然后根據(jù)生成的推薦結(jié)果選擇合理規(guī)則前項(xiàng)并根據(jù)支持度與置信度設(shè)置推薦權(quán)重值為學(xué)生進(jìn)行公選課程的推薦,部分挖掘結(jié)果如表1 所示。
表1 部分挖掘結(jié)果
在表1 中,規(guī)則{專業(yè)=“數(shù)字媒體”、平均成績(jī)=“良好”、選修=“數(shù)字?jǐn)z影”}可以解釋為大部分?jǐn)?shù)字媒體專業(yè)專業(yè)課平均成績(jī)良好的學(xué)生都會(huì)選修“數(shù)字?jǐn)z影”課程。然后,推薦算法將向數(shù)媒專業(yè)平均成績(jī)良好的學(xué)生推薦“數(shù)字?jǐn)z影”課程,因?yàn)樗亲铑l繁項(xiàng)目集中的一部分。
(4)模型測(cè)評(píng)
根據(jù)第三階段的推薦結(jié)果,對(duì)規(guī)則的合理性進(jìn)行分析,采集一定量的反饋數(shù)據(jù),形成測(cè)試數(shù)據(jù)與目標(biāo)數(shù)據(jù)可視化的對(duì)比結(jié)果,評(píng)估公選課資源共享個(gè)性化推薦模型的實(shí)施效果。
(5)確定穩(wěn)定模型
根據(jù)模型衡量的反饋結(jié)果,不斷迭代模型,并加以改進(jìn),以提高模型實(shí)施的準(zhǔn)確性和穩(wěn)定性。
(6)各層面實(shí)施應(yīng)用
由學(xué)生、教師、試點(diǎn)學(xué)校和廣東省民辦院校合作四個(gè)層面構(gòu)建公選課個(gè)性化推薦模型,如圖2 所示。
圖2 公選課推薦模型
學(xué)生層面:分別根據(jù)學(xué)籍、成績(jī)、一卡通和圖書(shū)借閱等數(shù)據(jù)構(gòu)建挖掘模型,為在校學(xué)生推薦適合的公共選修課程,為各種個(gè)性特征的學(xué)生提供充分的發(fā)展機(jī)會(huì)。
教師層面:通過(guò)數(shù)據(jù)挖掘分析,教師提出公共選修課科目的設(shè)置修改建議。
試點(diǎn)學(xué)校層面:協(xié)調(diào)課程、推薦選修,并根據(jù)推薦結(jié)果調(diào)整公選課程的安排,例如剔除選課人數(shù)較少的課程。
廣東省民辦院校層面:構(gòu)建廣東省民辦院??缧9x課資源共用共享及公選課學(xué)分互認(rèn)機(jī)制,實(shí)現(xiàn)資源高效利用。
本研究將確定的推薦模型應(yīng)用于廣州工商學(xué)院20 級(jí)網(wǎng)絡(luò)工程專業(yè)2022-2023 學(xué)年第一學(xué)期的公選課推薦,以問(wèn)卷的形式對(duì)此推薦的滿意度、出勤率和適配度等進(jìn)行調(diào)查,進(jìn)一步分析模型的應(yīng)用效果。
通過(guò)對(duì)廣州工商學(xué)院20 級(jí)網(wǎng)絡(luò)工程專業(yè)171名學(xué)生進(jìn)行普查,發(fā)放問(wèn)卷171 份,回收有效問(wèn)卷167 份,問(wèn)卷有效率為97.7%。問(wèn)卷調(diào)查中出勤率為98.78%,而滿意度、適配度調(diào)查結(jié)果如圖3 所示。
圖3 公選課個(gè)性化推薦滿意度調(diào)查
從圖3 可以看出公選課的個(gè)性化推薦的選課范圍較為滿意,推薦結(jié)果與預(yù)期相比普遍達(dá)到滿意或很滿意;而由于個(gè)性化推薦與專業(yè)或成績(jī)等其他因素相關(guān),因此個(gè)人偏好與個(gè)性化推薦的適配度大部分亦達(dá)到滿意或很滿意,但相對(duì)于其他項(xiàng)目的滿意度上稍微偏低。在公選課個(gè)性化推薦調(diào)查結(jié)果中可以看出超過(guò)80% 的學(xué)生對(duì)本次的推薦結(jié)果整體較為滿意,且出勤率達(dá)到98.78%。由此可見(jiàn),該推薦模型的實(shí)施應(yīng)用,可以有效提升學(xué)生的參與度和學(xué)習(xí)效果,從而改善學(xué)校公選課的教學(xué)管理和學(xué)習(xí)質(zhì)量。
本文以廣東省兩所民辦院校近十年的學(xué)生數(shù)據(jù)為研究對(duì)象,構(gòu)建公選課資源共享個(gè)性化推薦模型,在模型應(yīng)用時(shí)實(shí)行資源共享學(xué)分互認(rèn)。通過(guò)本次公選課推薦模型的實(shí)施可見(jiàn),實(shí)行該模型有利于促進(jìn)學(xué)生個(gè)性化學(xué)習(xí),提升學(xué)習(xí)質(zhì)量;有利于管理部門更合理地規(guī)劃分配資源,完善選課機(jī)制;有利促進(jìn)師資進(jìn)修,強(qiáng)化師資隊(duì)伍;有利于實(shí)現(xiàn)高校公選課資源共享,提高資源利用率。
雖然本次公選課模型的構(gòu)建及實(shí)施取得了一定的成效,但由于數(shù)據(jù)量有限且公選課設(shè)置不一致等問(wèn)題,對(duì)規(guī)則生成及支持度、置信度有一定的影響,若能獲取更多的分析數(shù)據(jù),且數(shù)據(jù)更加規(guī)范,則公選課資源的推薦及結(jié)果適配度將有更好的實(shí)施效果,規(guī)則的可靠性也將更高。
安徽電子信息職業(yè)技術(shù)學(xué)院學(xué)報(bào)2023年4期