• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向課程教學(xué)數(shù)據(jù)的差異模式挖掘與討論

      2023-04-20 05:23:13吳軍魏丹丹
      關(guān)鍵詞:數(shù)據(jù)挖掘

      吳軍 魏丹丹

      關(guān)鍵詞:數(shù)據(jù)挖掘;教學(xué)數(shù)據(jù)分析;差異模式挖掘;確定置換檢驗(yàn)

      中圖法分類號:TP391 文獻(xiàn)標(biāo)識碼:A

      1引言

      大學(xué)教育的課程考核方式是與高中、初中、小學(xué)教育的一大區(qū)別點(diǎn)。除了設(shè)有高中、初中、小學(xué)教育相同的課程期末考試考核方式,大學(xué)課程考核還融入了學(xué)生在平時(shí)課程學(xué)習(xí)中的態(tài)度情況、表現(xiàn)情況和實(shí)踐情況等。為了找到能夠準(zhǔn)確體現(xiàn)課程教學(xué)效果的考核方式,高校教師在課程考核方式問題上投入了大量研究。雖然各個(gè)課程的考核方式不盡相同,但課程成績大體上均是由平時(shí)考核成績和期末考核成績按照一定的比例組合而成。平時(shí)考核成績主要體現(xiàn)了學(xué)生在該課程的出勤情況、作業(yè)完成情況、課程表現(xiàn)情況、期中考試情況等,而期末考核成績主要體現(xiàn)了學(xué)生在該課程中的期末考試情況或者期末考查情況。學(xué)生的課程學(xué)習(xí)效果與課程考核方式的一致性程度不僅影響高校教師的教學(xué)心態(tài),也影響學(xué)生的學(xué)習(xí)心態(tài)。

      模式發(fā)現(xiàn)任務(wù)是數(shù)據(jù)挖掘領(lǐng)域中的一個(gè)熱門研究領(lǐng)域,該任務(wù)旨在發(fā)現(xiàn)能夠體現(xiàn)數(shù)據(jù)有用特征的模式。在模式發(fā)現(xiàn)任務(wù)研究中,差異模式挖掘是一個(gè)十分有意義的研究方向。差異模式能夠體現(xiàn)不同類別數(shù)據(jù)中難以用行業(yè)經(jīng)驗(yàn)發(fā)現(xiàn)的差異特征,因此使用差異模式提供的信息能夠幫助人們解決大量的應(yīng)用問題。例如,對蘑菇特征數(shù)據(jù)集合利用差異模式挖掘技術(shù),能夠分析出有毒蘑菇和無毒蘑菇的差異特征,從而能夠降低人類食用蘑菇中毒的概率。為了探索學(xué)生學(xué)習(xí)效果與課程考核方式的統(tǒng)一程度,使用差異模式挖掘技術(shù)對課程教學(xué)數(shù)據(jù)進(jìn)行了分析,詳細(xì)的研究步驟如圖1所示。

      2數(shù)據(jù)收集和預(yù)處理

      實(shí)驗(yàn)所使用的數(shù)據(jù)集取自于近4年的“Python程序設(shè)計(jì)”課程的考核成績,該課程的考核成績由平時(shí)考核成績和期末考核成績構(gòu)成,構(gòu)成比例各為50%。具體而言,平時(shí)考核成績中出勤情況占比5%;作業(yè)占比15%;小組作業(yè)占比5%;課堂表現(xiàn)占比10%;編程測試占比15%。期末考核方式為試卷考試形式,客觀題和主觀題各占一半。

      由于差異模式挖掘技術(shù)無法處理連續(xù)型屬性數(shù)據(jù),需要對上述原始連續(xù)型屬性數(shù)據(jù)使用離散化技術(shù)將其轉(zhuǎn)換為離散型屬性數(shù)據(jù)。實(shí)驗(yàn)所采用的離散化技術(shù)是Kmeans聚類算法。其中,K值設(shè)定為4,分別對應(yīng)于成績中的優(yōu)、良、中、差。Kmeans算法離散化的步驟如下。

      (1)對于每一個(gè)連續(xù)型屬性,隨機(jī)選擇4個(gè)其中的值作為簇中心。

      (2)計(jì)算該屬性中的值與該簇中心的距離,并將其分配給距離最小的簇中心。

      (3)計(jì)算每個(gè)簇的平均值,并將其作為新的簇中心。

      (4)如果簇中心未發(fā)生改變則停止迭代,如果簇中心發(fā)生改變則跳到第(2)步。

      (5)將屬于同一個(gè)簇的屬性值離散化為同一離散值。

      3差異模式挖掘

      差異模式指的是對于含有類別屬性的數(shù)據(jù)集合而言,在不同類別屬性的子數(shù)據(jù)集合中表現(xiàn)出較強(qiáng)差異性的模式。根據(jù)差異模式的定義,可知差異模式能夠體現(xiàn)數(shù)據(jù)集合不同類別數(shù)據(jù)樣本的特征差異性。差異模式常用的挖掘策略是“兩步走”策略:第一步,使用頻繁模式挖掘算法找到數(shù)據(jù)集合中滿足最小支持度閾值βsup的頻繁模式;第二步,選擇一個(gè)能夠刻畫頻繁模式差異性的度量,計(jì)算第一步中所有頻繁模式的差異性度量值,如果該值超過了用戶自定義的差異性閾值βdis,則該模式被認(rèn)定為差異模式。

      目前,已經(jīng)提出了許多高效的頻繁模式挖掘算法,并且這些算法都能挖掘出數(shù)據(jù)集合中滿足βsup閾值的頻繁模式,其不同之處主要體現(xiàn)在候選模式的生成方式、剪枝方式、數(shù)據(jù)表示方式上。實(shí)驗(yàn)討論中使用的頻繁模式挖掘算法是Eclat算法,該算法的步驟如下。

      (1)遍歷一次數(shù)據(jù)集合,將水平格式的數(shù)據(jù)轉(zhuǎn)換成垂直格式。

      (2)根據(jù)數(shù)據(jù)集合的具體情況,設(shè)置合適的最小支持度閾值βsup。

      (3)令k表示模式長度,使用垂直格式中項(xiàng)的TID集找到k=1的頻繁模式。

      (4)從k=2開始,使用兩個(gè)k-1頻繁模式合并成k模式,其TID集為這兩個(gè)k-1頻繁模式TID集的交集。

      (5)如果k模式的TID集滿足βsup約束,則將其保存為頻繁模式,否則,將其刪除。

      (6)重復(fù)(4)(5)兩步過程,直到無法再通過合并生成k模式。

      為了度量模式的差異性,研究人員陸續(xù)提出了許多差異性度量。實(shí)驗(yàn)中使用的差異性度量是優(yōu)勢率。設(shè)一個(gè)頻繁模式被表示為p,數(shù)據(jù)集合根據(jù)類別屬性劃分為D+和D_子數(shù)據(jù)集合,則優(yōu)勢率的計(jì)算式為:式中,|D+|和|D_|分別表示D+和D_子數(shù)據(jù)集合的大小,s()函數(shù)表示p在相應(yīng)數(shù)據(jù)集合中的支持度。為了便于計(jì)算,式(1)通常取對數(shù)得到:

      LOR(p)= log(OR(p)) (2)

      若LOR(p)為正值,則說明p模式在D+中出現(xiàn)的比較多;反之,若LOR(p)為負(fù)值,則說明p模式在D_中出現(xiàn)得比較多。

      4確定置換檢驗(yàn)

      基于閾值約束的差異模式挖掘算法報(bào)告的結(jié)果中會存在一定數(shù)量的假陽性差異模式。假陽性差異模式指的是由于數(shù)據(jù)隨機(jī)波動偶然產(chǎn)生的滿足差異模式挖掘算法βdis閾值約束的模式。實(shí)踐發(fā)現(xiàn),假陽性差異模式?jīng)]有正確地體現(xiàn)數(shù)據(jù)集合的差異特征,因此,根據(jù)假陽性差異模式提供的信息進(jìn)行后續(xù)研究會有較大概率造成錯誤的決策。

      統(tǒng)計(jì)顯著性檢驗(yàn)一種被廣泛應(yīng)用于模式發(fā)現(xiàn)任務(wù)中過濾假陽性差異模式的策略。在該策略中,標(biāo)準(zhǔn)置換檢驗(yàn)是一種十分常用的方法。分析發(fā)現(xiàn),使用標(biāo)準(zhǔn)置換檢驗(yàn)過濾假陽性差異模式會存在如下4個(gè)問題。

      (1)差異模式的統(tǒng)計(jì)度量值可能為0。

      (2)差異模式的統(tǒng)計(jì)度量值均通過同一個(gè)零分布計(jì)算。

      (3)重復(fù)運(yùn)行標(biāo)準(zhǔn)置換檢驗(yàn),報(bào)告的統(tǒng)計(jì)顯著差異模式數(shù)量不一致。

      (4)挖掘標(biāo)準(zhǔn)置換檢驗(yàn)生成的隨機(jī)集合的計(jì)算開銷很大。

      導(dǎo)致上述4個(gè)問題的根本原因是標(biāo)準(zhǔn)置換檢驗(yàn)使用了生成一定數(shù)量的隨機(jī)數(shù)據(jù)集合,并從這些集合中挖掘統(tǒng)計(jì)值構(gòu)建零分布的策略。該策略生成的零分布是一個(gè)近似零分布。由于沒有均勻隨機(jī)抽樣方法的保證,標(biāo)準(zhǔn)置換檢驗(yàn)生成的近似零分布不一定能夠準(zhǔn)確刻畫確定零分布。因此,實(shí)驗(yàn)采用確定置換檢驗(yàn)的方法為過濾假陽性差異模式,以確定置換檢驗(yàn)構(gòu)建的是確定零分布,所以其不存在標(biāo)準(zhǔn)置換檢驗(yàn)中的4個(gè)問題。確定置換檢驗(yàn)的流程如圖2所示。

      在圖2中,差異模式優(yōu)勢率分布由差異模式各個(gè)數(shù)量分布和其對應(yīng)的次數(shù)構(gòu)成。具體而言,數(shù)量分布如表1所列。

      實(shí)踐發(fā)現(xiàn),確定置換檢驗(yàn)的運(yùn)行時(shí)間要遠(yuǎn)遠(yuǎn)少于標(biāo)準(zhǔn)置換檢驗(yàn),其原因是確定置換檢驗(yàn)不需要對隨機(jī)集合進(jìn)行挖掘。

      5結(jié)果分析

      通過確定置換檢驗(yàn)保留下來的差異模式被稱作統(tǒng)計(jì)顯著的差異模式,其表達(dá)的差異信息更加真實(shí)可靠。將統(tǒng)計(jì)顯著的差異模式包含的信息結(jié)合領(lǐng)域知識進(jìn)行分析,可以發(fā)現(xiàn)許多有意義的教學(xué)現(xiàn)象,具體如下。

      (1)編程測試成績高的學(xué)生不一定在期末考試中取得較高的成績。經(jīng)過對其詢問和分析發(fā)現(xiàn),主要原因是在編程測試中可以使用調(diào)試和查詢庫函數(shù)等功能,但在期末試卷中無法使用這些功能。此外,期末試卷中的基礎(chǔ)理論知識也占有一定的比例,而這些學(xué)生忽略了理論知識的識記。

      (2)出勤情況和作業(yè)情況的好壞與編程測試和期末考試成績毫不相關(guān)。雖然出勤情況能夠體現(xiàn)一個(gè)學(xué)生的基本學(xué)習(xí)態(tài)度,但是無法決定該學(xué)生在課堂的學(xué)習(xí)效果。作業(yè)情況理論上應(yīng)該體現(xiàn)學(xué)生對各個(gè)知識點(diǎn)的掌握理解程度,但一些學(xué)生為了拿到該項(xiàng)成績選擇了抄襲。

      (3)課堂表現(xiàn)好的學(xué)生通常在期末考試中能夠取得較高的成績。課堂表現(xiàn)較好說明這些學(xué)生積極參與了課堂教學(xué),能夠體現(xiàn)出較好的課堂教學(xué)效果和學(xué)習(xí)態(tài)度。此外,通過詢問發(fā)現(xiàn)這部分學(xué)生對待考試態(tài)度也比較認(rèn)真。

      根據(jù)上述信息,教師可以進(jìn)行教學(xué)方法和考核方式的調(diào)整,如Python是一門實(shí)踐比理論更加重要的課程,可以在期末試卷中適當(dāng)降低理論知識的分?jǐn)?shù);出勤情況和作業(yè)情況對教學(xué)效果的體現(xiàn)不明顯,可以適當(dāng)減少或者調(diào)整方式以調(diào)動學(xué)生的學(xué)習(xí)主動性。通過這樣的改進(jìn),能夠在一定程度上促進(jìn)教師教學(xué)水平的提升,也能夠促進(jìn)學(xué)生學(xué)習(xí)效果的提升。

      6結(jié)束語

      本文使用數(shù)據(jù)挖掘中的差異模式挖掘技術(shù)分析了教學(xué)數(shù)據(jù)。為了減少假陽性差異模式錯誤信息的誤導(dǎo),引入了確定置換檢驗(yàn)保留統(tǒng)計(jì)顯著的差異模式。統(tǒng)計(jì)顯著差異模式提供的信息能夠體現(xiàn)課程考核方式與教學(xué)效果的匹配情況,教師可以根據(jù)這些情況調(diào)整教學(xué)方法和考核方式,從而促進(jìn)教學(xué)水平和能力的提升。同時(shí),也能夠促進(jìn)學(xué)生學(xué)習(xí)積極性和學(xué)習(xí)效果的提升。后續(xù)研究還會使用更多的數(shù)據(jù)挖掘技術(shù)對教學(xué)數(shù)據(jù)進(jìn)行分析。

      作者簡介:

      吳軍(1990—),碩士,講師,研究方向:數(shù)據(jù)挖掘、深度學(xué)習(xí)、生物信息學(xué)。

      猜你喜歡
      數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      數(shù)據(jù)挖掘的分析與探索
      河南科技(2014年23期)2014-02-27 14:18:43
      數(shù)據(jù)挖掘技術(shù)綜述與應(yīng)用
      河南科技(2014年19期)2014-02-27 14:15:26
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
      高級數(shù)據(jù)挖掘與應(yīng)用國際學(xué)術(shù)會議
      浦东新区| 巴彦县| 吴川市| 苏尼特右旗| 江油市| 禹州市| 正安县| 喀什市| 丰都县| 弥渡县| 伊吾县| 阿克苏市| 康马县| 凉山| 理塘县| 凤庆县| 桂林市| 磴口县| 大荔县| 兴安县| 栾城县| 湛江市| 新巴尔虎左旗| 井研县| 太和县| 阿瓦提县| 青铜峡市| 永平县| 湖南省| 双流县| 阳高县| 胶州市| 南宁市| 永德县| 桑植县| 泗水县| 黎川县| 宣汉县| 土默特左旗| 定兴县| 巴青县|