當前流行教育數據挖掘與學習分析工具概覽

2019-04-15 01:38曲智麗等

中國信息技術教育 2019年6期

曲智麗等

近年來，為進行教育數據挖掘（EDM）、學習分析（LA）研究，國內外的研究者研發(fā)了大量的工具。本文將重點介紹一些對教育數據挖掘和學習分析感興趣的研究人員使用的最廣泛、最容易訪問和最強大的工具。

首先是三種非常適合數據的操作、清理及創(chuàng)建的工具：Microsoft Excel、Google Sheets和EDM工作臺。接下來討論Python和SQL在編程中所扮演的角色。在數據清理、轉換之后，EDM或LA研究人員面臨的問題是數據分析。我們將介紹一組適合于此任務的工具：Waikato Environment for Knowledge Analysis（WEKA）、KNIME、Orange和SPSS。我們還將重點介紹知識可視化工具，這些工具使數據科學家能夠創(chuàng)建經過修飾的信息豐富的圖形、圖表、模型等可視化信息。最后，我們將討論匹茲堡科學學習中心（PSLC）的DataShop，這是一個集成了數據收集、構造、分析和可視化的獨特工具。

入門級數據處理和可視化工具

我們提供以下可用于清理、組織和創(chuàng)建數據集的工具，討論每種工具的優(yōu)點和它們在操作重組大型數據集方面的效用。

1.Microsoft Excel和Google Sheets

對于數據科學家來說，Microsoft Excel是最容易訪問的工具，它在數據可視化方面做得很好。近來基于網絡的數據處理工具Google Sheets也加入了易用工具的群體。這些工具并不適合非常大的數據集。Excel和Google Sheets擅長在可視化的界面中清晰地顯示數據，這使得識別數據中的結構或語義問題變得很容易。這些工具還可以非常直接地設計新變量，快速地將這些變量應用到整個工作表中，并通過一系列數據直觀地檢查這些變量以獲得適當的功能。但是Excel和Google Sheets并不適合所有類型的變量，創(chuàng)建不同變量可能需要對數據進行重新排序，這使得記錄工作具有挑戰(zhàn)性，并且很容易更改語義。除此之外，Excel和Google Sheets對可加載和操作的數據量有限制。

2.EDM Workbench

EDM Workbench是一個用于自動提取和數據標記的工具，它的許多自動化功能可以解決Excel和Google Sheets的多方面不足，如生成復雜的序列變量、數據采樣以及標記。EDM使研究人員能夠基于xml.創(chuàng)建變量，提取現有文獻和智能輔導系統(tǒng)。在數據標記方面，EDM具有創(chuàng)建文本回放的功能，這是由研究人員或其他領域專家根據行為類別標記編寫的人類行為的片段。EDM支持采樣、評估器之間的可靠性檢查，以及標簽和變量之間的同步。

3.Python和Jupyter notebook

對于具有編程知識的數據科學家來說，有幾種語言特別適合于數據操作。許多人認為Python是實現這些目的的一種特別有用的語言。工程文件在Python中比在Excel或Google Sheets中更容易實現。另一個是Jupyter notebook，它記錄所有的分析和中間結果，按順序顯示每個用戶操作。盡管有這樣的優(yōu)勢，Excel或Google Sheets的可視化地檢查創(chuàng)建的數據和變量仍然更容易。丟失的數據、重復的案例或不尋常的值在數據集中尤其難以識別，而且對于新手程序員，Python和Jupyter notebook的驗證可能更耗時。此外Python能夠處理許多不同類型的數據格式，如MOOC和其他在線學習平臺。雖然Python在計算上比前面介紹的電子表格工具更強大，但它在這些領域的能力并不是無限的。Python能夠容納比以前的工具更大的數據集，但它仍然受到大小限制，在研究人員的計算機的1000萬行數據范圍內，速度會變慢。

4.Structured Query Language （SQL）

SQL用于組織一些（但不是全部）數據庫。SQL查詢是一種提取所需數據的強大方法，有時跨多個數據庫表進行集成連接。在SQL（或其他數據庫語言，如Hadoop或Spark）中，許多基本的過濾任務（如選擇特定的學生子集或從特定的日期范圍獲取數據）比上述任何工具都要快得多。然而，對于在工程文件過程中創(chuàng)建復雜的變量，SQL可能是一種笨拙的語言。SQL可以與前面提到的其他工具有效地結合使用：SQL擅長于批量排序和篩選任務，這些任務在Excel或Python中非常緩慢。

進階級數據挖掘和分析工具

本節(jié)列出的工具提供了廣泛的算法和建?？蚣埽捎糜趯逃龜祿械牧鞒毯完P系進行建模和預測。

1.WEKA

WEKA是一個免費開源軟件包，集合了廣泛的數據挖掘和模型構建算法。它不支持創(chuàng)建新變量，但支持自動選擇。WEKA有一組廣泛的分類、集群和關聯挖掘算法，可以單獨使用，也可以結合使用。用戶可以從命令行、圖形用戶界面（GUI）或Java API調用算法。

2.SPSS

SPSS主要是一個統(tǒng)計軟件包，提供一系列統(tǒng)計測試、回歸框架、相關性和因子分析。SPSS是由IBM SPSS Modeler Premium提供的補充，這是一個相對較新的分析和數據挖掘包，集成了以前的分析和文本挖掘包。SPSS Modeler尤其能夠從現有功能部件中創(chuàng)建新功能部件、數據篩選功能部件以及功能部件選擇和功能部件空間縮減功能部件。用于數據轉換、變量選擇的工具與數據挖掘包中的工具類似，但選擇方法的種類較少。它還有在變量選擇中使用目標類的功能，這在許多其他包中是不可用的。雖然SPSS代表一個全面的統(tǒng)計分析工具，但是對建模的支持比本節(jié)中的其他工具稍差。SPSS不如其他工具靈活，更難于定制，也沒有文檔化。

3.KNIME

KNIME是一個數據清理和分析包，通常類似于RapidMiner和WEKA。它提供了許多與這些工具相同的功能，并且像RapidMiner一樣，集成了所有WEKA的算法。此外，它還在情緒分析和SNA等領域提供了大量專門的算法。KNIME有一個特別強大的功能，它能夠在同一分析中集成來自多個源的數據。KNIME還提供擴展，允許它與R、Python、Java和SQL進行接口。

4.Orange

Orange是一個數據可視化和分析包。雖然它的算法和工具比WEKA或KNIME少得多，但它的界面更干凈，更容易理解，帶有顏色編碼的小部件，可以區(qū)分數據輸入和清理、可視化、回歸和集群。它不僅提供許多常用的算法，還具有可定制的可視化模塊，用于使用合理的文檔表示模型結果。然而與Excel相比，Orange可以處理的數據規(guī)模有限?；谄湟子诶斫獾腉UI和菜單布局，Orange可能更適合小型項目或新手研究人員。

5.Spark MLLib

Spark是以分布式方式跨多個計算機處理器，可以大規(guī)模處理數據的框架。Spark可以通過API連接幾種編程語言，包括Java、Python和SQL，允許使用這些語言進行分布式處理。Spark的MLLib機器學習框架提供了幾種機器學習和數據挖掘算法。盡管MLLib的功能仍然有限，而且它是一個純粹的編程工具（減少了對非程序員的可用性），但是它的分布式特性使其成為一個高效和快速的選擇。

高手級數據可視化工具

本節(jié)介紹一些用于視覺分析的通用工具和方法，這些工具和方法支持構建交互式的視覺界面，以便從數據中獲取知識，以及教師向學生傳達學習的重要含義。

1.Tableau

Tableau提供了一系列用于交互數據分析和可視化的產品。雖然Tableau工具集的主要關注點是支持商業(yè)智能，但它已廣泛應用于教育環(huán)境中，用于分析學生數據、提供可操作的見解、增強教學實踐和簡化教育報告。Tableau的主要優(yōu)點是不需要編程知識來分析大量數據，并提供了連接或導入數據的功能。Tableau還具有構建豐富的交互式功能，能夠向最終用戶顯示實時可視化。然而Tableau的功能僅限于此，它不支持預測分析或關系數據挖掘。此外，Tableau作為一種商業(yè)工具，是不可擴展的，也不支持與其他軟件平臺的集成。

2.D3.js

D3.js（數據驅動文件）是一個JavaScript庫，它允許操作數據驅動，使研究人員和實踐者能夠構建復雜的交互式數據可視化，這些可視化需要數據處理，并且是針對現代Web瀏覽器的。它有幾個優(yōu)點：在構建各種數據可視化方面具有相當大的靈活性，不需要安裝，支持代碼重用，并且是免費開源的。然而在教育研究目的采用方面存在著挑戰(zhàn)。作為一種技術，D3.js需要廣泛的編程知識，并且存在兼容性問題，以及對較大數據集的一些性能限制。最后，它不提供對可視化用戶隱藏數據的任何方法，需要數據預處理來確保隱私和數據安全。

專家級教育數據挖掘和學習分析工具

上面我們討論了用于教育數據挖掘建模和分析的通用工具。然而，特定類型的數據和特定的分析目標通常需要更專門化的算法，而這些算法在這些通用工具中是不可用的。對于這些情況，研究人員和實踐者通常使用針對這些情況設計的更專業(yè)的工具。

1.貝葉斯知識追蹤工具（BKT：Tools for Bayesian knowledge tracing）

貝葉斯知識追蹤是一種流行的潛在知識估計方法，學生的知識是通過在線學習來測量的。這與測試中常見的教育測量類型不同，因為在在線學習過程中，知識在被測量時發(fā)生了變化。貝葉斯知識追蹤是一個隱馬爾可夫模型（同時也是一個簡單的貝葉斯網絡），它可以預測一個學生是否掌握了智能輔導系統(tǒng)或類似程序中的特定技能。貝葉斯知識追蹤模型通常使用以下兩種算法之一進行匹配——網格搜索或期望最大化，兩種算法在預測性能上具有可比性。

2.文本挖掘工具

文本挖掘是一個快速發(fā)展的數據挖掘領域，有大量應用程序和API可用來標記、處理和標識文本數據。文本分析工具可以處理語音的文本部分、句子結構和語義詞的意義。此外，一些工具能夠識別不同單詞和句子之間的表示關系。下面介紹的工具并不是所有可用程序的詳盡列表，而是一些工具的選擇，它們跨越了文本處理和分析的許多方面。

①語言查詢與字數統(tǒng)計（LIWC）。LIWC工具是一種圖形化、易于使用的計算機文本分析工具，它通過分析使用的詞匯量來測量文本的潛在特征。LIWC針對不同的心理詞匯類別（如認知詞匯、情感詞匯、功能詞匯和分析詞匯）提供了80多個指標，并在大量研究中得到了廣泛的應用和驗證。

②WMatrix是一個在線圖形化工具。該工具可用于文本語庫的詞頻分析和可視化。雖然它可以用來進行完整的分析過程，但它主要用于提取語言特征，包括單詞、重要的多單詞短語標記，特別是單詞語義類別。它還以詞云的形式提供了文本語料庫的可視化，同時為多個文本語料庫提供了接口。

③Coh-Metrix是另一個流行的文本分析工具。它提供了100多個衡量文本分為11個類別。與WMatrix相比，CohMetrix提供了對文本特性和數據關系的上下文的理解和分析。WMatrix從語義上標記單詞，而CohMetrix標記多個用于評估深層文本內聚。隨著分析深層含義的增加，就需要更大的數據集，使用CohMetrix有效地傾向于需要更大的文本語料庫。

3.過程和序列挖掘工具

除了更多的教育數據分析的傳統(tǒng)方法，研究人員還瞄準跟蹤學習者學習策略和流程序列。針對這類應用程序，出現了一組獨特的工具。在本節(jié)中，我們將介紹用于支持教育數據挖掘和學習分析研究的過程和序列挖掘的ProM和tramler-tools。

①ProM是一個基于Java的、獨立于平臺的、模塊化的、開源的平臺，支持多種流程挖掘技術。最近的實現（ProM 6）支持在分布式設置中或通過批處理運行進程挖掘。ProM還支持多個進程挖掘算法的鏈接，提供預期輸入和輸出的清晰規(guī)范。此外，可以在運行時添加新的插件，從而直接集成到分析過程中。ProM允許與現有信息系統(tǒng)輕松集成，而不需要編程。

②TraMineR是一個免費開源工具，支持挖掘和可視化狀態(tài)或事件序列。TraMineR的一些主要特性：用于狀態(tài)分析和可視化，序列數據包括處理不同格式的序列和改造各種表示;描述縱向（如長度、復雜性和時間）和其他聚合（如過渡率、平均持續(xù)時間）的特征序列;訪問各種各樣的繪圖功能（如頻率或情節(jié)、密度指數情節(jié)）;用廣泛的指標來評估序列之間的距離。

4.匹茲堡科學學習中心（PSLC）開發(fā)的DataShop

PSLC的數據庫包含一個存儲庫，其中包含許多可下載和分析的數據集，以及一組支持探索性分析和模型的工具。DataShop在數據集上具有知識組件模型的功能。它還能夠在正確性、提示使用、潛在知識、響應時間和其他感興趣的變量方面將學生的表現可視化。PSLC數據是一個Web應用程序，可以免費使用，但不是開源的。

教育數據挖掘和學習分析工具的終極原則：混合應用

研究人員和實踐者在開始使用教育數據挖掘和學習分析時需要考慮的一個關鍵問題是，沒有一種工具能夠完美地從開始到結束分析大多數數據集的整個過程。不同的工具適合于不同的任務。例如，一個研究人員可能在一個流行的MOOC中擁有6000萬次系統(tǒng)交易的數據。從這個數據集中，他只選擇一個特定的數據（SQL），然后細化數據集計算系統(tǒng)中總學生時間（Excel），在擬合預測模型中（RapidMiner）分析論壇的帖子，回復（NodeXL）之間的關系和整體文本質量的帖子，回復學生（CohMetrix）。最后，研究人員可能會找出可視化社交網絡數據（Gephi）中最有趣的學生集群。

所有的工具，它們都代表了在這個領域工作的不同科學家群體的總和。它們代表了解決不同問題的不同方法，每一種方法都有其獨特的優(yōu)缺點。通過工具的組合，可以實現復雜的分析，并可以做出有用的發(fā)現。這是一個快速變化的領域，新的工具不斷出現。盡管如此，我們希望這篇綜述能夠對那些在理論層面以及在實際應用中對這些工具感興趣的研究人員有所幫助。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

當前流行教育數據挖掘與學習分析工具概覽