摘 要:文章依據數據挖掘技術中的關聯分析方法,使用R語言對影響青少年機器人學習效果的客觀因素進行了分析。分析結果表明:在是否獲得獎項作為學習效果劃分標準下,機器人學習時間是檢驗其學習成果的關鍵規(guī)則。
關鍵詞:機器人學習; 關聯分析;學習客觀因素
中圖分類號:G40-057 文獻標志碼:A 文章編號:1673-8454(2015)02-0086-03
一、引言
2003年教育部頒布的高中技術課程標準中,把“人工智能初步”和“簡易機器人制作”設為技術領域的選修模塊,意味著我國的人工智能和機器人教育在大眾化、普及化層面上進入了一個新階段。[1]國內教育專家和學者們都認識到:以機器人技術為代表的人工智能技術是信息技術發(fā)展的一次重大飛躍,信息技術教育未來發(fā)展的趨勢必然是向智能機器人教育轉移。人工智能機器人教學集中承載著中小學信息技術教育的諸多核心價值,是全面培養(yǎng)學生信息素質、提高其創(chuàng)新精神和綜合實踐能力的良好載體。[2]
截至2013年,青少年機器人教育仍以校外培訓班和校內課后班為主,機器人教育還沒有真正走進課堂。但據不完全統(tǒng)計,十年中遼寧省沈陽、大連、鞍山等市中小學校學生參加學習人數累計4萬余人,在國際、國內(省級以上)比賽中相繼獲得不菲成績(累計1000以上獎項)。在熱情高漲的青少年機器人教育背后,不乏企業(yè)和培訓機構的逐利動機,也不乏家長在子女教育問題上對輿論導向的盲從心理。如何分析機器人對青少年身心成長的影響是該領域必需正視的問題。由于信息素質、創(chuàng)新精神和綜合實踐能力衡量困難,機器人的比賽和獲獎尤其是國際獎項就成為當前最好衡量標準。為驗證影響機器人學習效果的因素,我們將影響學習效果因素按主客觀劃分,將主觀因素分為學習的興趣與知識水平(認知結構),學習過程中解決問題的學習能力或克服困難的堅韌力。其中青少年學習興趣廣泛,而知識水平,學習能力和堅韌性是相對有限的。因而客觀因素的分析就顯得更加重要。影響學習的客觀因素種類較多,對學習過程也有重要影響。本文利用數據挖掘技術中的關聯分析方法對影響青少年機器人學習成果的客觀因素進行分析。
二、關聯分析
關聯分析(association analysis)是數據挖掘中一個重要的課題,被廣泛研究。關聯分析是在大量數據集中的發(fā)現關聯性或相關性,描述事物中某些屬性同時出現的規(guī)律和模式。[3] 關聯分析與統(tǒng)計學中的相關分析均討論事物間的相互關聯。相關分析主要刻畫兩類平行關系變量間相關程度,是揭示不確定性的隨機現象之統(tǒng)計規(guī)律的學科, 因此對于因素間具有不確定性的系統(tǒng), 既可應用相關分析,也可應用關聯分析。還有關聯分析主要處理二分變量,并對其出現的頻率進行分析,這一點區(qū)別于數據挖掘中的決策樹分析。當然關聯分析也可以對連續(xù)的變量進行離散化后分析。[4] 在關聯分析中每一個觀測稱為事務或交易(transaction),數據集合稱為項集(item),一個集包含k個項,則稱為k項集。[5] 用X表示一個項目(前項或左項),Y表示與X沒有交集的另一個項目(后項或右項),蘊涵式X≥Y表示X,Y同時出現的規(guī)則(rule)。X≥Y的支持度(support):表示前項和后項在整個數據集中同時出現的頻率,σ(Z)表示事務集Z的頻數,TX,TY分別表示含有X和Y的事務集。supp(X≥Y)=;置信度(confidence):支持度與前項頻率之比,conf(X≥Y)==;提升(lift):置信度與后項頻率之比lift(X≥Y)=。關聯分析代表性算法有:先驗(Apriori)算法,頻繁模式樹(frequent pattern-growth,FP-growth)算法(R語言目前不支持)及頻繁項集 (Eclat)算法。 [6]
三、 數據說明
影響青少年機器學習效果客觀因素分析數據來源于整理后的近五年里遼寧省內沈陽、大連、鞍山三城市352名機器人學員1100筆記錄(含個人幾年內連續(xù)記錄),如表1。變量包括:學員性別(gender:female,male);機器人學習時間(time:1-6年);機器人學習課堂融合程度(Integration:高high,中mid,低low);父母的教育程度(研究生 postgraduate、大學college(本科、大專)、其他other,二人中取高學歷);學校學習成績(academic performance, AP:優(yōu) best、良good、一般ok);獲獎(reward: yes, no 各種企業(yè)和政府組織省級以上比賽)。此外,還有一些觀測變量統(tǒng)計困難。如家庭收入,家庭對孩子的教育方式,家庭和諧程度,上一代對家庭的照顧方式與程度,父母職業(yè)(由于同一職業(yè)內部差異較大不具有統(tǒng)計學上可辨別性,雙親不同職業(yè)對子女影響也無法考量),機器課堂學習成績(不同的學習班有不同的教學內容和考核標準)。其它等未列入數據分析中。
四、R語言關聯分析過程
R是GNU系統(tǒng)的一個自由、免費、源代碼開放的軟件,主要用于統(tǒng)計分析與數據可視化。[7] 其使用簡潔、靈活而且新興研究領域算法不斷更新,在數據挖掘(或機器學習)領域有廣泛的應用?,F利用R語言對青少年機器學習效果客觀因素與是否獲獎進行關聯分析。
1.數據整理[8]
mydata=read.table("clipboard",header=T)#加載數據
mydata$time=factor((as.numeric(mydata$time)>3)+1,levels=1:2,labels=c("short","long"))#關聯規(guī)則處理的是二分變量,需將學習時間time轉成”long,short”兩個水平myrobot=as(mydata,"transactions")#arules包要求的數據形式為(transactions) itemFrequencyPlot(myrobot,support=0.05) #顯示頻率在5%以上的項如圖1。
2. apriori算法求解關聯規(guī)則[9]
library(arules);mynewrules=apriori(myrobot, parameter=list(minlen=2, supp=0.05,conf=0.05),appearance=list(rhs=c("reward=yes"),default="lhs"),control=list(verbose=F))# 第一個規(guī)則的lhs 是個空集,可以使用minlen=2排除lhs空集;verbose=F設置算法處理的過程簡化;以lift提升度排序myrulessorted=sort(mynewrules, by="lift")#關聯規(guī)則按“l(fā)ift”排序
#以下去除冗余關聯規(guī)則
mysubset=is.subset(myrulessorted, myrulessorted);mysubset [lower.tri(mysubset, diag=T)] <- NA;redundant <- colSums(mysubset, na.rm=T) >= 1;rulespruned <- myrulessorted[!redundant];inspect(rulespruned)#顯示關聯規(guī)則,見表2。
library(arulesViz);plot(mynewrules, method="graph", control=list(type="items"))#關聯分析的圖形表示如圖2。
3.關聯分析結果解釋
從表2,無論是支持度、信任度還是提升,與后項獲獎關聯最大的前項是學習時間(長)。信任度較大關聯(0.335,0.325)的前項是機器人學習課堂融合程度(中)、學校成績(優(yōu)秀)、父母教育程度(大學)。支持度較大關聯(0.188)的前項是性別(男)。人們假想的父母學歷較高、機器人學習課堂融合程度高卻不是機器人獲獎的關聯項。從圖2,將獲獎置于中心,離中心較近的項是學習時間(長),機器人學習課堂融合程度(中),性別(男);提升(顏色較深)和支持度(面積較大)的項目是性別(女)、學校成績(一般),其方向離心說明這是負關聯,即學校學習平常的小姑娘不能實現機器人比賽獲獎的目標。
五、結論與展望
盡管作用于學習的客觀因素不能直接的參與學習的知識建構,但在學習之初,特別是青少年階段,客觀的輔助作用是不可或缺的,學習時間是檢驗其學習成果的關鍵規(guī)則。青少年的機器人學習組織以社會辦學為主,學習時間意味著家長的投入和企業(yè)利潤的最大化。但我們不是金錢決定論的完全支持者,因為比賽獲獎不是機器人學習的真正目標,而且較長時間的學習投入對促進學生綜合發(fā)展的利弊還需進一步討論。此外,機器人學習中的主觀因素在學習過程中如何表現?原有的學習成績對機器人學習效果沒有預期遷移效果,而反之是否有影響?這些仍是我們需要進一步討論的問題。
參考文獻:
[1]鐘志強,張毅寧,李國軍.高中機器人教育課程讀解[J].鞍山師范學院學報,2014,(2):43-46.
[2]鐘志強,張毅寧.中小學機器人教育課程讀解[J].中小學電教,2012,(11):15-18.
[3]維基百科——關聯式規(guī)則[DB/OL].http://zh.wikipedia. org/wiki/關聯式規(guī)則, 2014-5-10.
[4]韓家煒. 數據挖掘:概念與技術[M].北京:機械工業(yè)出版社,2012.
[5][8]吳喜之.復雜數據統(tǒng)計方法:基于R的應用[M].北京:中國人民大學出版社,2013.
[6]Pang-Ning Tan. 數據挖掘導論[M].北京:人民郵電出版社,2011.
[7]R語言——百度百科[DB/OL]. http://baike.baidu.com, 2014-5-10.
[9]R and Data Mining: Examples and Case Studies[DB/OL]http://www.RDataMining.com,2014,5.
(編輯:郭桂真)