□關 博
目前,很多高校都開始將數據挖掘技術運用在英語教學評價中,將學生的成績作為數據庫構建基礎,通過數據挖掘技術進行合理的歸納和分析,可以找到學生成績受到影響的最真實原因。
數據挖掘也被稱為是數據采礦、資料探勘等,是數據庫知識發(fā)現中的一個重要步驟,該技術主要是指在海量的數據中利用一些算法搜索到隱含的信息過程。數據挖掘技術一般都是通過情報檢索、統(tǒng)計、數據分析、機器學習、模式識別以及專家系統(tǒng)等諸多方式來實現的,和計算機科學有非常重要的關系[1]。近幾年以來,數據挖掘技術也得到了越來越多的運用,在各行各業(yè)都儲存和積累了大量的數據,可以被廣泛地深入運用,如何將其更好地轉換為有效的知識和信息也得到了更多的關注。數據挖掘技術是一個相對比較復雜的過程,一個反復循環(huán)的過程,對于其中的每一個步驟都要達到前期設計的目標,如果沒有實現就會返回前面的步驟繼續(xù)進行調整再執(zhí)行[2]。
目前,在英語教學過程中教師對于學生考試成績數據已經積累了大量的數據,但是對于數據的處理,很多都是停留在簡單的分析統(tǒng)計成績好壞方面,比如常說的優(yōu)秀率,良好率以及不及格的人數等方面[3]。本文列舉了某高校1,000名大一新生第一學期英語考試成績?yōu)榛A的數據挖掘技術,希望可以根據挖掘到的隱含信息了解影響學生成績的重要因素,從而用來幫助教師分析相關結果,改善日后的教學工作,不斷地提高學生學習成績和英語能力。
(一)數據挖掘算法。對學生英語學習成績數據庫進行數據挖掘,主要是利用ID3算法,這種算法學習能力較強,而且理論比較清晰,適用于處理一些大規(guī)模的數據信息[4]。
(二)數據準備工作。在進行數據挖掘的工作前應該做好數據準備工作,這也是數據挖掘過程中非常重要的一個環(huán)節(jié)。學生英語成績數據庫主要包括以下幾個字段:學生的姓名、學號、完形填空、詞義連線、改錯、語法結構、翻譯、閱讀理解以及總成績。通過查看相關試卷可以得到信息,再將部分信息錄入到系統(tǒng)中。數據準備工作可以分為以下幾個方面。
1.數據清理。教師在對學生成績進行分析的過程中,發(fā)現部分學生存在作弊或缺考的行為,導致最終沒有實際考試分數,因此,對上述兩種情況的空白成績進行刪除清理操作,經過清理操作后最終剩余符合標準的記錄條數為992條,占據總調查人數的99.2%。
2.數據歸納。根據英語考試相關內容諸如試卷的題型、語法結構、翻譯、完形填空、總成績等相關屬性來構建決策樹模型,這樣可以構建學生英語考試成績的分析數據表[5]。
3.數據轉換。在構建決策樹的時候往往需要一些離散變量,但是學生的英語成績本質是屬于連續(xù)值,因此就需要提前將其轉換為所需的離散值。在此,根據英語成績的實際情況,將學生英語總成績分為兩個主要部分:60分以下的不合格類以及60~100分的合格類。具體的代碼如下所示:
Update 訓練數據集
Set 總成績=‘不合格’
Where 總成績<60;
Update 訓練數據集
Set 總成績=‘合格’
Where 總成績≥60;
在學生英語考試題型中完形填空占據的分值大約是40%,因此按照學生實際的考試分數將其分為小于24分、大于等于24分小于34分以及大于等于34分三種類型,等級分別是C,B,A三類。
Update 訓練數據集
Set 完形填空=‘C’
Where 完形填空<24;
Update 訓練數據集
Set 完形填空=‘B’
Where 完形填空≥24 and 完形填空<34;
Update 訓練數據集
Set 完形填空=‘A’
Where 完形填空≥34;
語法結構和閱讀理解在學生英語考試總成績中都占據了大約15%的比例,因此可以根據卷面的分數將其劃分為大于等于9分和小于9分兩類,分為A和B兩類。
Update 訓練數據集
Set 語法結構(閱讀理解)=‘A’
Where 語法結構(閱讀理解)≥9;
Update 訓練數據集
Set 語法結構(閱讀理解)=‘B’
Where 語法結構(閱讀理解)<9;
翻譯在學生英語考試總成績中占據了大約30%,因此可以根據實際的考試成績將其分為以下三類,大約等于25的A,大于等于18小于25的B以及小于18的C。
Update 訓練數據集
Set 翻譯=‘C’
Where 翻譯<18;
Update 訓練數據集
Set 翻譯=‘B’
Where 翻譯≥18 and 翻譯<25;
Update 訓練數據集
Set 翻譯=‘A’
Where 翻譯≥25;
然后根據學生英語考試的實際成績進行分析,并將數據進行相應的處理轉換為對應的概化關系,如表1所示。
表1 概化關系表
接下來就需要采用ID3算法來構建決策樹模型,以及根據實際情況構建分類規(guī)則。為了能夠更好地掌握影響學生英語考試成績合格的最關鍵因素,在此提取的規(guī)則主要是以“合格”為主要的參考,其規(guī)則可以分為以下幾個方面。
If完形填空=“A”and翻譯=“A”and閱讀理解=“A”then總成績=“合格”;
If完形填空=“A”and翻譯=“B”and閱讀理解=“A”then總成績=“合格”;
If完形填空=“A”and翻譯=“C”and閱讀理解=“A”then總成績=“合格”;
If完形填空=“B”and翻譯=“A”and閱讀理解=“B”then總成績=“合格”;
……
綜上所述,經過上面的相關分析,可以得到以下幾個方面的結論:如果學生的閱讀理解成績和完形填空的成績相對較好的時候,即使該學生的翻譯能力出現較差,或者一般的情況也不會影響最終的總成績,仍然處于一個合格的狀態(tài);如果某個學生的翻譯和完形填空成績都可以得到很高的分數,那么即使語法結構和閱讀理解成績相對較差,對于總成績的影響也不是很大,也會達到一個合格的狀態(tài)。因此,英語教師在后期的教學工作中,應該更加注重學生對于完形填空的運用能力,不斷提高學生英語成績考試的合格率,這樣才能達到讓學生更好地具有英語應用能力的目的。