一個(gè)基于文本智能生成圖像技術(shù)的英語(yǔ)在線閱讀系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

2022-06-03 12:48:35鐘益華

電腦知識(shí)與技術(shù) 2022年8期

鐘益華

摘要：教育人工智能時(shí)代的到來(lái)，使智能技術(shù)在教育中得到了更廣泛的應(yīng)用。近來(lái)，OpenAI發(fā)布新作：GLIDE，該技術(shù)將文本智能生成圖像技術(shù)推向了新的高度，實(shí)現(xiàn)了以往的由畫師作畫到如今基于自然語(yǔ)言就能生成逼真圖像的跨越，而其在教育領(lǐng)域的應(yīng)用尚處于探索階段?；诖耍恼聭?yīng)用Django與GLIDE等技術(shù)開發(fā)了一個(gè)基于文本智能生成圖像技術(shù)的英語(yǔ)在線閱讀系統(tǒng)，以改善傳統(tǒng)在線英語(yǔ)閱讀中學(xué)習(xí)者的興趣低下等問題，以期為后續(xù)研究者在教育領(lǐng)域使用文本生成圖像技術(shù)來(lái)促進(jìn)學(xué)習(xí)者學(xué)習(xí)提供借鑒意義。

關(guān)鍵詞：人工智能;文本生成圖像;系統(tǒng)設(shè)計(jì);在線閱讀

中圖分類號(hào)：TP18? ? ? 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2022）08-0078-03

1 引言

“人工智能（Artificial Intelligence，AI）”一詞最早是在1956年Dartmouth學(xué)會(huì)上提出的。自2018年，《教育信息化2.0行動(dòng)計(jì)劃》《中國(guó)教育現(xiàn)代化2035》《國(guó)家新一代人工智能標(biāo)準(zhǔn)體系建設(shè)指南》等文件相繼出臺(tái)，明確了人工智能在教育領(lǐng)域的重要作用，意在不斷推進(jìn)人工智能與教育的深度融合發(fā)展，促進(jìn)教育領(lǐng)域變革。在各項(xiàng)政策文件以及人工智能技術(shù)突破創(chuàng)新的支持下，眾多基于人工智能技術(shù)的教育應(yīng)用與平臺(tái)不斷推出。

在已有研究中，研究者使用人工智能技術(shù)對(duì)教育領(lǐng)域各個(gè)方面進(jìn)行探索，以達(dá)到改進(jìn)教與學(xué)的目的，周楠[1]等使用深度學(xué)習(xí)技術(shù)構(gòu)建學(xué)習(xí)行為分析與評(píng)價(jià)模型，有效解決目前多樣化的新維度空間下教育資源的合理管理問題，提高未來(lái)教育學(xué)生學(xué)習(xí)的效率。顧雯等[2]通過實(shí)驗(yàn)研究表明人工智能技術(shù)在各學(xué)科都有正向教學(xué)效果以及對(duì)學(xué)生學(xué)習(xí)成績(jī)有正向積極的影響。蔡寶來(lái)[3]研究人工智能賦能課堂的轉(zhuǎn)變，發(fā)現(xiàn)其對(duì)促進(jìn)課堂公平、滿足學(xué)習(xí)者的個(gè)性化學(xué)習(xí)需求以及提升學(xué)習(xí)效率等方面具有不可替代的賦能加力功能和促進(jìn)課堂變革的內(nèi)生性動(dòng)力。這些研究表明了人工智能技術(shù)在教育中應(yīng)用的可行性。

2021年末，OpenAI發(fā)布新的文本智能生成圖像技術(shù)模型：名為GLIDE[4]，相比2021年初發(fā)布的文本生成圖像模型的120億參數(shù)量，它只有35億，參數(shù)量的劇降使其生成圖片的速度更快，然而，更少的參數(shù)量以及更快的速度并沒有影響其生成圖片的質(zhì)量，其效果可謂是與真實(shí)畫像相差無(wú)幾，實(shí)現(xiàn)了人工智能領(lǐng)域?qū)⑽谋具M(jìn)行圖像化處理的進(jìn)一步發(fā)展。但此技術(shù)在教育領(lǐng)域中的應(yīng)用尚處于探索階段。為此，本研究嘗試將該技術(shù)應(yīng)用于學(xué)生的學(xué)習(xí)過程之中，自主開發(fā)了基于文本智能生成圖像技術(shù)的英語(yǔ)在線閱讀系統(tǒng)，為學(xué)習(xí)者提升閱讀興趣提供有力支撐。

2 圖像的優(yōu)勢(shì)

隨著科技的發(fā)展以及新型冠狀病毒肺炎疫情的影響，在線學(xué)習(xí)成了目前非常受大眾歡迎的一種學(xué)習(xí)方式，學(xué)習(xí)者通過移動(dòng)設(shè)備瀏覽網(wǎng)頁(yè)或者登錄學(xué)習(xí)平臺(tái)進(jìn)行學(xué)習(xí)。但由于在線學(xué)習(xí)自身存在的弊端，如學(xué)習(xí)者缺少教師直接監(jiān)管以及網(wǎng)絡(luò)上其他各式各樣資源的誘惑，學(xué)習(xí)者往往會(huì)在需要高度集中的狀態(tài)下才能進(jìn)行有效學(xué)習(xí)的場(chǎng)景中走神，如閱讀。此類情況在兒童這種自控力較差的群體中尤為明顯。人們閱讀的文章往往都是些枯燥的文本，這難以吸引學(xué)習(xí)者的閱讀興趣，因此，可以通過借助AI技術(shù)的優(yōu)勢(shì)來(lái)改善這類問題?，F(xiàn)今，圖像隨處可見，其具有形象直觀、通俗易懂等特點(diǎn)。各式各樣的圖像媒介被人們所運(yùn)用，教育領(lǐng)域也不例外，教師制作的電子課件以及學(xué)生觀看的在線學(xué)習(xí)視頻等等這些媒介都向?qū)W生傳遞了大量的圖像信息。研究表明，相較于文本而言，圖像畫面能夠給學(xué)習(xí)者帶來(lái)更加廣泛的感官體驗(yàn)，對(duì)教與學(xué)具有促進(jìn)作用。徐振國(guó)等[5]發(fā)現(xiàn)，學(xué)習(xí)畫面情感中的正向情感能夠給學(xué)習(xí)者帶來(lái)積極的情感體驗(yàn)，有助于培養(yǎng)學(xué)習(xí)者學(xué)習(xí)興趣，促進(jìn)認(rèn)知活動(dòng)。寇佳媛[6]通過研究分析數(shù)字化圖像在小學(xué)教學(xué)中的應(yīng)用，提出了數(shù)字化圖像的概念和含義，發(fā)現(xiàn)了數(shù)字化圖像在小學(xué)教學(xué)中的重要性，證明其能有效改善和優(yōu)化小學(xué)教學(xué)的質(zhì)量。楊俊珂等[7]調(diào)查發(fā)現(xiàn)動(dòng)態(tài)視覺圖像對(duì)小學(xué)生的求知、自主學(xué)習(xí)、閱讀、課外活動(dòng)等興趣具有促進(jìn)作用。因此，使用人工智能相關(guān)技術(shù)將枯燥的文本生成逼真圖像，利用生動(dòng)圖像吸引學(xué)習(xí)者注意力，不僅能夠激發(fā)學(xué)生的閱讀興趣，還能夠促進(jìn)學(xué)生對(duì)文本的理解，這比僅僅通過文本進(jìn)行閱讀更具優(yōu)勢(shì)。

3 系統(tǒng)關(guān)鍵技術(shù)

3.1 MySQL數(shù)據(jù)庫(kù)

本系統(tǒng)采用MySQL數(shù)據(jù)庫(kù)存儲(chǔ)和維護(hù)數(shù)據(jù)，該數(shù)據(jù)庫(kù)具有高性能、服務(wù)穩(wěn)定、方便操作、易于維護(hù)等優(yōu)點(diǎn)，能夠保證系統(tǒng)運(yùn)行時(shí)數(shù)據(jù)的完整性和安全性，便于技術(shù)人員進(jìn)行系統(tǒng)開發(fā)。使用Navicat Premium 軟件對(duì)數(shù)據(jù)庫(kù)進(jìn)行可視化操作。

3.2 Django

Django是由Python編寫的Web應(yīng)用框架，該框架是一個(gè)遵循MVC（Model、View、Controller）設(shè)計(jì)模式的框架，因其高性能、易維護(hù)、還可使用大量強(qiáng)大的第三方插件等特點(diǎn)而受到眾多Web開發(fā)者的青睞。Django可以運(yùn)行在Apache，Nginx等服務(wù)器上，并且支持多種數(shù)據(jù)庫(kù)，如：Postgresql，MySQL， Sqlite3，Oracle等。

3.3 GLIDE

GLIDE是一項(xiàng)基于人工智能的通過文本智能生成圖像的技術(shù)，由OpenAI在2021年末發(fā)布，其蘊(yùn)含了35億參數(shù)量，相比之前的文本智能生成圖像技術(shù)的120億參數(shù)量，它不僅實(shí)現(xiàn)了參數(shù)量上的劇減，同時(shí)還保證了圖像生成的質(zhì)量，大大提升了從文本到圖像整個(gè)過程的效率。該技術(shù)通過實(shí)驗(yàn)證明，擴(kuò)散模型（Diffusion Models）可以生成高質(zhì)量的合成圖像，尤其在與引導(dǎo)技術(shù)結(jié)合使用時(shí)，能夠在保真度上權(quán)衡多樣性[4]。

4 系統(tǒng)設(shè)計(jì)

本系統(tǒng)主要由登錄模塊、注冊(cè)模塊、管理員模塊、用戶模塊組成，其中管理員模塊包含用戶管理、文章管理、數(shù)據(jù)統(tǒng)計(jì)等功能，用戶模塊由文章查詢、文本生成圖像等功能構(gòu)成。系統(tǒng)總體功能結(jié)構(gòu)圖如圖1所示。

4.1 登錄注冊(cè)模塊

登錄模塊是系統(tǒng)的入口，通過登錄進(jìn)入系統(tǒng)，判斷用戶權(quán)限，識(shí)別為管理員還是普通用戶，同時(shí)在前后端都設(shè)置了登錄驗(yàn)證，只有在信息全部正確時(shí)才可進(jìn)入系統(tǒng)。信息填寫錯(cuò)誤會(huì)進(jìn)行提示，未登錄狀態(tài)進(jìn)行訪問時(shí)會(huì)重定向至登錄頁(yè)面。在用戶首次使用該系統(tǒng)時(shí)需要進(jìn)行注冊(cè)操作，按照注冊(cè)頁(yè)面提示填寫合法信息之后即可進(jìn)行登錄。

4.2 管理員模塊

登錄時(shí)系統(tǒng)會(huì)識(shí)別身份，判斷是否為管理員。管理員可進(jìn)入后臺(tái)管理頁(yè)面，后臺(tái)管理頁(yè)面包含3個(gè)功能，分別為用戶管理、文章管理、數(shù)據(jù)統(tǒng)計(jì)。

1）用戶管理。管理員有權(quán)對(duì)用戶違規(guī)行為進(jìn)行處理，并檢查用戶的個(gè)人信息是否合法，保證用戶信息的完整性和安全性。

2）文章管理。管理員通過對(duì)文章進(jìn)行操作，如發(fā)布新的文章、修改編輯原有文章、刪除文章、查詢文章、添加文章類別等，實(shí)現(xiàn)文章的有序管理。

3）數(shù)據(jù)統(tǒng)計(jì)。管理員可查看后臺(tái)統(tǒng)計(jì)數(shù)據(jù)，如文章數(shù)量、文章類別、用戶數(shù)量、文章閱讀數(shù)量統(tǒng)計(jì)等等，明晰系統(tǒng)數(shù)據(jù)情況。

4.3 用戶模塊

用戶模塊包含2個(gè)功能，分別為文章查詢、文本生成圖像。

1）文章查詢。利用文章查詢功能，可以快速檢索自己想要查看的文章信息，包括文章的標(biāo)題、作者、發(fā)布時(shí)間、類別等信息。

2）文本生成圖像。為了提升用戶的閱讀興趣，發(fā)揮圖像的優(yōu)勢(shì)，用戶在閱讀文章時(shí)，可在輸入框中輸入文本信息，通過GLIDE模型將所輸入的文本信息智能生成一張相對(duì)應(yīng)的逼真圖像，從而利用圖像帶來(lái)的視覺效果給予用戶不同的感官體驗(yàn)，以提升其學(xué)習(xí)的興趣。

5 系統(tǒng)實(shí)現(xiàn)

本系統(tǒng)使用的開發(fā)工具為PyCharm，版本為2020.3.5。前端部分主要使用 HTML5 進(jìn)行頁(yè)面框架的搭建，通過 CSS 來(lái)渲染頁(yè)面樣式，提升頁(yè)面的整體美感，利用 JavaScript 對(duì)頁(yè)面進(jìn)行動(dòng)態(tài)效果的展示，提升與用戶的交互效果。后端部分則使用 Django框架，此框架非常適用于 Web 開發(fā)者進(jìn)行系統(tǒng)的開發(fā)。使用 MySQL 數(shù)據(jù)庫(kù)存儲(chǔ)和維護(hù)用戶信息和文章信息等數(shù)據(jù)。系統(tǒng)實(shí)現(xiàn)了學(xué)習(xí)者根據(jù)自身需求查詢選取喜歡的文章閱讀，閱讀時(shí)可通過文本生成圖像的方式來(lái)吸引學(xué)習(xí)者閱讀興趣。

下面以管理員模塊中的文章管理和用戶模塊中的文本生成圖像為例介紹系統(tǒng)實(shí)現(xiàn)。

管理員模塊中的文章管理功能主要方便管理員對(duì)文章信息進(jìn)行管理，能實(shí)現(xiàn)及時(shí)發(fā)布優(yōu)質(zhì)文章以及刪除或修改信息有誤文章，主要負(fù)責(zé)文章的發(fā)布、修改、刪除、查詢等操作。具體頁(yè)面如圖 2 所示。

該模塊核心代碼如下：

class WritePaperView（View）：

def get（self， request）：

categories = PaperCategory.objects.all（）

context = {'categories'： categories}

return render（request， 'cms/write_paper.html'， context=context）

def post（self， request）：

form = WritePaperForm（request.POST）

if form.is_valid（）：

title = form.cleaned_data.get（'title'）

author = form.cleaned_data.get（'author'）

content = form.cleaned_data.get（'content'）

category_id = form.cleaned_data.get（'category'）

category = PaperCategory.objects.get（pk=category_id）

Paper.objects.create（title=title， author=author， content=content， category=category）

return restful.ok（）

else：

return restful.params_error（message=form.get_errors（））

用戶模塊中的文本生成圖像主要作用是在學(xué)習(xí)者閱讀時(shí)，為了避免由于枯燥的文本引起的學(xué)習(xí)者學(xué)習(xí)興趣低下等情況，通過基于AI的文本智能生成圖像技術(shù)將文章中的文本信息輸入到文本框中，然后生成對(duì)應(yīng)文本的圖像信息，通過圖像所帶來(lái)的具象化感受來(lái)吸引學(xué)習(xí)者進(jìn)一步閱讀的興趣。具體頁(yè)面如圖3所示。

文本生成圖像的核心代碼如下：

defmodel_fn（x_t， ts， **kwargs）：

half = x_t[： len（x_t） // 2]

combined = th.cat（[half， half]， dim=0）

model_out = model（combined， ts， **kwargs）

eps， rest = model_out[：，：3]， model_out[：， 3：]

cond_eps， uncond_eps = th.split（eps， len（eps） // 2， dim=0）

half_eps = uncond_eps + guidance_scale * （cond_eps - uncond_eps）

eps = th.cat（[half_eps， half_eps]， dim=0）

return th.cat（[eps， rest]， dim=1）

model.del_cache（）

samples = diffusion.p_sample_loop（

model_fn，

（full_batch_size， 3， options["image_size"]， options["image_size"]），

device=device，

clip_denoised=True，

progress=True，

model_kwargs=model_kwargs，

cond_fn=None，

）[：batch_size]

model.del_cache（）

show_images（samples）

im_show（samples）

5 結(jié)束語(yǔ)

本文使用 Web 開發(fā)者常用的 Django 框架和 OpenAI 發(fā)布的文本智能生成圖像技術(shù)以及MySQL數(shù)據(jù)庫(kù)構(gòu)建了基于AI技術(shù)的英語(yǔ)在線閱讀系統(tǒng)，系統(tǒng)實(shí)現(xiàn)了與最新人工智能技術(shù)的結(jié)合，將人工智能技術(shù)運(yùn)用到學(xué)習(xí)者的閱讀過程當(dāng)中，以期改善學(xué)習(xí)者在閱讀枯燥文本時(shí)的興趣低下等現(xiàn)象，從而提升學(xué)習(xí)者的學(xué)習(xí)效率，激發(fā)學(xué)習(xí)者閱讀興趣。但由于當(dāng)前文本智能生成圖像技術(shù)自身的局限性，文本生成圖像的速度以及正確率還有待人工智能領(lǐng)域?qū)＜业倪M(jìn)一步研究與完善，例如在使用大批量長(zhǎng)文本或者文本語(yǔ)義過于復(fù)雜時(shí)，圖像生成的正確率則相對(duì)較低。未來(lái)，隨著技術(shù)的進(jìn)一步發(fā)展，此類問題的解決，將會(huì)更加顯示出人工智能技術(shù)在教育領(lǐng)域運(yùn)用的有效性。

參考文獻(xiàn)：

[1] 周楠，周建設(shè).基于深度學(xué)習(xí)的學(xué)生行為分析與教學(xué)效果評(píng)價(jià)[J].現(xiàn)代教育技術(shù)，2021，31（8）：102-111.

[2] 顧雯，王娟.人工智能技術(shù)對(duì)學(xué)習(xí)成績(jī)影響研究——基于40項(xiàng)實(shí)驗(yàn)與準(zhǔn)實(shí)驗(yàn)研究的元分析[J].中國(guó)成人教育，2021（1）：50-55.

[3] 蔡寶來(lái).人工智能賦能課堂革命：實(shí)質(zhì)與理念[J].教育發(fā)展研究，2019，39（2）：8-14.

[4] Nichol A，Dhariwal P，Dhariwal A，et al.GLIDE：Towards Photorealistic Image Generation and Editing with Text-Guided DiffusionModels[J].arXiv preprint arXiv：2112.10741，2021.

[5] 徐振國(guó)，孔璽，張冠文，等.學(xué)習(xí)畫面情感對(duì)學(xué)習(xí)者情感的影響研究[J].電化教育研究，2020，41（11）：79-86.

[6] 寇佳媛.數(shù)字化圖像在小學(xué)教學(xué)中的應(yīng)用研究[D].長(zhǎng)春：吉林大學(xué)，2014：54.

[7] 楊俊珂，羅艷，馬德俊.動(dòng)態(tài)視覺圖像對(duì)小學(xué)生興趣影響及學(xué)習(xí)效果分析[J].教育與教學(xué)研究，2011，25（9）：102-106，126.

【通聯(lián)編輯：謝媛媛】