在線教育課程數(shù)據存儲與查詢優(yōu)化實踐研究

2024-12-01 00:00:00朱道恒李曉玉顏劍

電腦知識與技術 2024年31期

摘要：隨著“互聯(lián)網+教育”的快速發(fā)展和普及，在線學習用戶數(shù)量激增，產生了海量的課程數(shù)據。高效的數(shù)據存儲和查詢機制對于保障系統(tǒng)流暢運行和提升學習者的體驗至關重要。文章通過分析課程數(shù)據特征和常用數(shù)據庫結構，提出了一種基于 Redis 的數(shù)據預讀取策略，并設計了基于 MySQL 的冷熱數(shù)據分離方案。實驗結果表明，所提出的優(yōu)化方案大幅提高了在線教育課程管理平臺的數(shù)據存儲和查詢效率，可為在線教育課程的開發(fā)和數(shù)據庫管理提供參考。

關鍵詞：在線教育；課程數(shù)據；數(shù)據存儲；數(shù)據預讀??；冷熱數(shù)據分離

中圖分類號：TP311 文獻標識碼：A

文章編號：1009-3044（2024）31-0068-03

開放科學（資源服務）標識碼（OSID）：

0 引言

“互聯(lián)網+教育”模式[1]已成為教育行業(yè)的重要趨勢。在線教育的普及使用戶數(shù)量激增，產生了包括用戶個人信息、學習行為記錄、教學視頻和課程資料等海量數(shù)據。高效的數(shù)據存儲和查詢機制對于保障在線系統(tǒng)的流暢運行和提升用戶體驗至關重要。我國在線教育市場不斷擴大，對數(shù)據庫存儲和查詢優(yōu)化的需求日益增長[1]。國內學者在該領域的研究主要集中在以下幾個方面：

1） NoSQL 數(shù)據庫應用。采用MongoDB、Redis、HBase等NoSQL數(shù)據庫處理在線教育產生的非結構化數(shù)據[2-5]。

2）數(shù)據預讀取策略。通過分析用戶學習行為，提出基于學習模式的數(shù)據預讀取策略，預測并提前加載用戶可能需要的數(shù)據，提升查詢效率[6]。

3）冷熱數(shù)據分離。根據數(shù)據訪問頻率的不同，將頻繁訪問的熱數(shù)據和較少訪問的冷數(shù)據分別存儲，以提高系統(tǒng)的響應速度。

國外學者在數(shù)據庫存儲和查詢方面的研究主要包括：

1）分布式數(shù)據庫系統(tǒng)。傾向于使用Cassandra和DynamoDB等分布式數(shù)據庫系統(tǒng)來跨多個服務器分布數(shù)據，提高可用性和可擴展性[7]。

2）緩存機制。為減少數(shù)據庫訪問延遲，許多教育平臺采用了緩存機制，如使用Redis作為緩存層存儲熱點數(shù)據，加快數(shù)據存儲和訪問速度[8]。

3）數(shù)據庫壓縮技術。研究數(shù)據庫壓縮技術以減少存儲空間需求，提高讀寫效率[9]。

4）實時大數(shù)據分析。許多研究者開始關注如何利用實時大數(shù)據分析來優(yōu)化系統(tǒng)的個性化推薦[10]、學生體質測試[11]和教育資源分配[12]等功能。

本研究設計了一種在線教育數(shù)據的存儲與查詢優(yōu)化方案，提出將MySQL中的大數(shù)據業(yè)務表進行冷熱分離，并接入緩存數(shù)據庫Redis，通過數(shù)據預讀取和快速過期策略，加快有效數(shù)據流轉。在自建的在線教育管理平臺上驗證了該方案的有效性和高效性。

1 數(shù)據存儲選擇

結合在線教育管理平臺的業(yè)務特點，筆者對比了幾種流行數(shù)據庫的優(yōu)缺點（見表 1）。根據各數(shù)據庫的特性，選擇關系型開源數(shù)據庫 MySQL 作為數(shù)據存儲庫，原因如下：

1）支持多表聯(lián)合查詢。在線教育管理系統(tǒng)中涉及多張業(yè)務表，如教師、學生、課程、章節(jié)知識點、試卷、題目等。通常一次查詢需要進行多表關聯(lián)，因此優(yōu)先選擇支持多表聯(lián)合查詢的關系型數(shù)據庫，如 MySQL、SQLServer 和 Oracle。

2）開源特性。MySQL 數(shù)據庫具有開源特性，利于后續(xù)的業(yè)務開發(fā)，使其更適應系統(tǒng)的業(yè)務特征，并保證平臺的穩(wěn)定運行。

3）硬件要求低。MySQL 對硬件和業(yè)務要求低，能夠加快系統(tǒng)的開發(fā)進度，提高開發(fā)效率。

2 數(shù)據查詢優(yōu)化設計

2.1 MySQL 配置優(yōu)化

本研究從數(shù)據庫引擎選擇、索引建立規(guī)則和SQL 語句優(yōu)化三個方面對 MySQL 進行了配置優(yōu)化。

1）數(shù)據庫引擎選擇。

MySQL 的主要引擎包含 ISAM、MYISAM、HEAP 和 InnoDB。在在線教育管理平臺中，主要采用 In? noDB 數(shù)據庫引擎，因為它支持事務和外鍵，具有較高的可靠性和性能，能夠最大限度地支持數(shù)據庫的索引和事務操作，保障數(shù)據查詢的基本功能。

2）索引建立規(guī)則。

主鍵優(yōu)化：由于 MySQL 數(shù)據庫采用 B+ 樹索引，每次數(shù)據插入或更新時，都需要更新索引樹。為提高索引重建效率，系統(tǒng)將主鍵設置為整型，加快數(shù)據索引的建立過程。

索引字段選擇：只對常用字段建立索引。除主鍵外，每個表最多只有一個字段建立索引，以提高數(shù)據查詢效率，同時降低數(shù)據庫對索引的存儲空間需求。

外鍵設置：對所有表不設置外鍵，因為設置外鍵可能會影響某些 SQL 查詢的性能，從而降低索引效率。

3） SQL語句優(yōu)化。

避免全表掃描：盡可能使用索引來查詢數(shù)據，避免因全表掃描導致的性能下降。

合理使用索引：查詢語句應滿足索引使用原則，如不判斷 NULL 值，避免使用 OR 進行條件連接。

采用數(shù)字型字段：盡量使用數(shù)字型字段，因為數(shù)字比較比字符串比較效率更高。

避免使用 Select*：Select* 語句可能導致慢查詢，拖慢數(shù)據庫運行效率。

減少臨時表操作：避免頻繁創(chuàng)建和刪除臨時表，以減少系統(tǒng)資源消耗。

使用批量插入：采用批量插入方法，減少與數(shù)據庫交互的次數(shù)，提高數(shù)據插入效率。

限制返回數(shù)據量：避免向客戶端返回大量數(shù)據，減少網絡傳輸負擔。

通過這些方法，可以提升數(shù)據庫的查詢性能，降低后臺對前端的響應時間，改善用戶體驗。

2.2 Redis 緩存數(shù)據預讀取與快速過期方案

采用 Redis 數(shù)據庫緩存用戶請求的數(shù)據，可以有效降低 MySQL 數(shù)據庫的壓力[4]。當用戶進行相關操作時，系統(tǒng)首先判斷緩存中是否存在對應的數(shù)據：如果存在，則直接返回數(shù)據；如果不存在，則從 MySQL 數(shù)據庫讀取數(shù)據，返回給客戶端，并將數(shù)據加載到緩存中。為加快系統(tǒng)讀取數(shù)據的效率，設計了緩存數(shù)據預讀取策略和快速過期方案。

1）緩存數(shù)據預讀取策略。

基于操作系統(tǒng)對數(shù)據分片讀取的優(yōu)勢，考慮到“當用戶訪問某條數(shù)據時，他很可能會訪問該數(shù)據附近的數(shù)據”。因此，在從緩存中讀取數(shù)據時，實行預加載策略，確保用戶在請求時，其所需的數(shù)據已在緩存中，直接命中緩存，減少對數(shù)據庫的讀取次數(shù)，提高查詢性能。數(shù)據預加載流程如圖1所示，步驟如下：

①用戶請求數(shù)據：當用戶需要訪問課程1時，首先從緩存中讀取。

② 緩存判斷：若緩存中存在該數(shù)據，立即返回給客戶端。

③數(shù)據加載：若緩存中不存在將數(shù)據，則請求MySQL。數(shù)據庫返回數(shù)據給客戶端，并將數(shù)據加載到緩存中。

④ 預加載相似數(shù)據：啟用一個 Executor 線程任務，將與課程 1 相似的數(shù)據從磁盤加載到緩存中。

2）緩存數(shù)據快速過期方案。

設計緩存快速過期策略，將緩存數(shù)據的過期時間設置為原數(shù)據的 1/10。這樣，當用戶不再訪問該部分數(shù)據時，緩存能夠快速剔除這些數(shù)據。若用戶持續(xù)訪問，則設定的緩存時間足夠長，確保緩存中的垃圾數(shù)據最小化，提高緩存的有效性。

3 結構設計與測試

3.1 數(shù)據表結構設計

提出的冷熱數(shù)據分離方案旨在提高系統(tǒng)的數(shù)據訪問效率。通過將用戶訪問頻繁的少量數(shù)據放在熱表中，而較少訪問的大量歷史數(shù)據存放在冷表中，用戶在訪問數(shù)據時可以優(yōu)先在熱表中搜索。由于熱表數(shù)據量少，這種方法能夠極大地提高數(shù)據訪問效率。

為平衡數(shù)據量增加或慢 SQL 執(zhí)行導致的數(shù)據庫性能下降，設計了一種方法，使得在數(shù)據量增加時，數(shù)據庫查詢效率仍保持穩(wěn)定。具體做法是將數(shù)據量大的表按照數(shù)據的有效過期時間，分為歷史表（his? tory_table）和當前表（current_table），實現(xiàn)數(shù)據查詢的分離。這種方法有利于數(shù)據的快速統(tǒng)計和查詢。實施方案如圖 2 所示，分為3部分：

1）數(shù)據查找。當其他模塊調用并執(zhí)行查找功能時，系統(tǒng)首先查找熱數(shù)據表。由于熱數(shù)據表的數(shù)據量一直維持在一定規(guī)模，查找過程速度較快。

2）數(shù)據轉移。采用線程池，將數(shù)據轉移功能寫入單個線程。執(zhí)行時，通過 Executor 調用，將其作為任務放入線程池中。轉移功能包括：傳入需要變更操作時間的數(shù)據 ID，將數(shù)據復制到熱數(shù)據表中，更新其操作時間，同時刪除冷數(shù)據表中的對應數(shù)據。

3）定時拷貝。采用 Scheduler 定時任務，在凌晨逐步掃描熱數(shù)據表，檢查數(shù)據表的數(shù)據量和所有數(shù)據的最近更新時間，確保數(shù)據的新鮮度。

3.2 單表壓力測試

為模擬在線真實環(huán)境，對數(shù)據庫表進行數(shù)據仿真和壓力測試。測試方案基于在線教育管理平臺中的選擇題表 education_choicequestionbank 進行性能測試，其測試流程如圖3所示。測試過程分為以下3步：

1）選定試測表。選擇 education_choicequestion?bank作為測試表。

2）執(zhí)行測試語句。使用SELECT COUNT（*）語句進行測試。該語句在表查詢過程中較為通用，能有效反映各種 SQL 語句的性能，同時測試效果明顯。

3）逐步增加數(shù)據量。將數(shù)據量從十萬級增加到百萬級，再調整到千萬級，逐步進行測試，觀察查詢性能的變化。

4 實驗結果

4.1 實驗環(huán)境

表 2 展示了在線教育管理平臺的部署環(huán)境信息，包括以下幾個關鍵指標：硬件環(huán)境、軟件環(huán)境、Web 服務器版本、數(shù)據庫版本、網絡環(huán)境、測試工具版本、測試線程數(shù)和運行時長等。這些信息為平臺的性能測試和運行穩(wěn)定性提供了重要參考依據。

4.2 冷熱數(shù)據分離方案測試結果

實驗環(huán)境部署成功后，選擇題表 education_ choicequestionbank作為測試數(shù)據表，用于對冷熱數(shù)據分離方案進行數(shù)據聚合測試。該測試旨在觀察在大數(shù)據量條件下的表查詢效率。核心參數(shù)的詳細說明見表 3。

不同數(shù)據量級的測試結果如表4所示。

根據表 4，當表中數(shù)據量達到千萬級時，選擇題表的查詢平均吞吐量約為0.31次/秒，相當于每 3 秒執(zhí)行一次 SQL 查詢。在 300 秒的測試中，約執(zhí)行了 94 個樣本語句。隨著數(shù)據量的減少，查詢性能顯著提升：當數(shù)據量為百萬級和十萬級時，查詢平均吞吐量分別為3.70 次/秒和45.30次/秒。

由此可見，隨著表中數(shù)據量的上升，部分 SQL 查詢性能受到顯著影響?？紤]到在線教育管理平臺的業(yè)務范圍，選擇題表中產生的題目數(shù)量可按公式（1）估算：

N = Ci × Si × d （1）

其中，Ci為課程類型的數(shù)量，Si為每種類型下的課程數(shù)量，i 為課程類型編號，d 為學習天數(shù)。如果有1 萬人同時在線學習 1 天，產生的試題數(shù)量將至少達到百萬級別。對于 SELECT COUNT（*）這樣的語句，每秒只能執(zhí)行約 3.70 次查詢。當數(shù)據量達到千萬級時，數(shù)據表冷、熱分離方案的優(yōu)勢得以體現(xiàn)。

4.3 查詢時間

為了比較課程數(shù)據查詢優(yōu)化方案實施前后的查詢效果，進行了不同數(shù)據量級的查詢測試。具體測試內容包括查詢不同數(shù)據量的學生考試成績信息，并記錄每種類型課程每次查詢耗時。每種數(shù)據量進行10 次測試并計算平均耗時，結果如表5所示。

從表 5 可以看出，平均查詢耗時隨著數(shù)據量的增加而增加。然而，使用優(yōu)化方案后，在不同數(shù)據規(guī)模下的耗時明顯低于優(yōu)化前。隨著數(shù)據規(guī)模的擴大，優(yōu)化前后的耗時比值也逐漸增大。因此，該方案能夠加快數(shù)據查詢速度，提升系統(tǒng)的查詢效率。

5 結論

隨著在線教育的普及，在線教育系統(tǒng)對課程數(shù)據存儲和訪問效率的需求日益提高。本文針對關系型數(shù)據庫在大規(guī)模數(shù)據環(huán)境下查詢效率低的問題，從以下3個方面提出優(yōu)化方案進行實踐研究：

1）數(shù)據庫選型。根據各數(shù)據庫的優(yōu)缺點，結合在線教育管理平臺的業(yè)務特性，選擇 MySQL 數(shù)據庫作為平臺的數(shù)據庫。

2）查詢優(yōu)化。通過調整 MySQL 的相關配置，使其適應平臺業(yè)務需求，并提出基于 Redis 的數(shù)據預讀取方案，以加快數(shù)據讀取速度。

3）冷熱數(shù)據分離。針對 MySQL 數(shù)據庫的大數(shù)據量，將頻繁訪問的數(shù)據存儲于熱表，較少訪問的數(shù)據存儲于冷表，從而提升用戶數(shù)據獲取效率。

實驗結果驗證了所設計方案能夠有效提高系統(tǒng)查詢的準確性和高效性，為在線教育課程開發(fā)和數(shù)據庫管理提供了有益的參考。未來，將進一步優(yōu)化課程結構及數(shù)據存儲和查詢機制，探索更多高效的數(shù)據庫管理策略，以滿足不斷增長的在線教育數(shù)據需求。

【通聯(lián)編輯：唐一東】

基金項目：廣東海洋大學科研啟動經費項目（060302112314，060302112317）

電腦知識與技術2024年31期

電腦知識與技術的其它文章: 以創(chuàng)新人才培養(yǎng)為目標的信息類文獻綜述課程改革研究; 基于學習通的多維度評價體系在運動控制系統(tǒng)課程中的應用研究; 新工科教育體系下基于鴻蒙生態(tài)系統(tǒng)的移動應用開發(fā)課程革新與實踐研究; 人工智能時代大學非計算機專業(yè)項目引導式教學探索與實踐; 高職程序設計課程中“大組互助，小組結對”計算思維培養(yǎng)模式探究; 中職數(shù)字化生態(tài)課堂的構建與實踐探究