• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向SELL語料庫的AI虛擬英語教育訓(xùn)練系統(tǒng)研究

      2020-12-26 08:22:44田燁
      微型電腦應(yīng)用 2020年12期
      關(guān)鍵詞:母語語料庫短語

      田燁

      (咸陽師范學(xué)院 外國語學(xué)院, 陜西 咸陽 712000)

      0 引言

      英語學(xué)習(xí)一直是當(dāng)前社會(huì)各界的熱點(diǎn),與此同時(shí),各培訓(xùn)機(jī)構(gòu)也開展了英語在線學(xué)習(xí)業(yè)務(wù)。由于英語語法的特點(diǎn),導(dǎo)致英語學(xué)習(xí)者普遍缺乏英語語感,口語、寫作能力欠佳。近些年,隨著虛擬現(xiàn)實(shí)技術(shù)和人工智能的發(fā)展,利用VR技術(shù)和AI技術(shù)來構(gòu)建一個(gè)符合中國英語學(xué)習(xí)者的學(xué)習(xí)氛圍,成為英語學(xué)習(xí)教育的重要發(fā)展方向[1-3]。如基于VR技術(shù)和AI技術(shù)開發(fā)的語音識別[4]、文字轉(zhuǎn)換語音[5]、基于對話管理的聊天機(jī)器人等[6-7],通過構(gòu)建浸入式的學(xué)習(xí)環(huán)境能有效激發(fā)學(xué)習(xí)者的興趣和動(dòng)力[8];如基于TLTS游戲系統(tǒng)讓學(xué)習(xí)者在AI虛擬角色下進(jìn)行交互性學(xué)習(xí),獲得真實(shí)的語境對話環(huán)境等[9]。本文在相關(guān)研究基礎(chǔ)上,針對國內(nèi)英語學(xué)習(xí)者的現(xiàn)狀,首先構(gòu)建了基于國內(nèi)學(xué)習(xí)者的SELL語料庫,并通過利用AI技術(shù),設(shè)計(jì)一套語言驅(qū)動(dòng)的英語學(xué)習(xí)系統(tǒng),實(shí)現(xiàn)不同應(yīng)用場景下的英語交流。

      1 SELL語料庫構(gòu)建

      語言學(xué)習(xí)過程中,語料庫是在真實(shí)語料基礎(chǔ)上,通過專門加工形成的一組大型結(jié)構(gòu)化文本。根據(jù)形式不同,語料庫主要有口語語料庫、書面語料庫、通用語料庫、專用語料庫等。本文在考慮到英語動(dòng)結(jié)構(gòu)作為構(gòu)式語法框架,同時(shí)也是眾多英語學(xué)習(xí)者在學(xué)習(xí)過程中存在的難點(diǎn),借助語料庫語言學(xué)分析方法來建立英語動(dòng)結(jié)構(gòu)句法和語義特征的語料庫。

      1.1 語料選取

      選擇中國學(xué)生英語口語語料庫WECCL[10]。WECCL中包括了20多所高校英語文獻(xiàn)共計(jì)4 950篇,27余種不同類型英語作文,形符數(shù)約125萬個(gè),能夠較好地提高大學(xué)生的英語寫作水平。英語母語語料庫采用目前流行的COCA語料庫,其中包括了學(xué)術(shù)期刊、新聞、流行雜志、口語、小說幾大類,形符數(shù)約2 000余萬個(gè)[11]。WECCL用于分析學(xué)習(xí)者動(dòng)結(jié)構(gòu)語言特色,分析英語母語者的中動(dòng)結(jié)構(gòu)特點(diǎn),并進(jìn)行相互間比較,如表1所示。

      表1 WECCL和COCA語料庫基本信息

      從表1中可以看出,COCA語料庫的總形符數(shù)較WECCL多達(dá)16倍。由于不同語料庫間存在較大的容量差異,為降低比較誤差,在對單庫檢索匯總時(shí)將使用標(biāo)準(zhǔn)化頻數(shù)或百分比率來保證不同語料庫的可比性。

      在WECCL語料庫數(shù)據(jù)檢索中,以Simargool中的171個(gè)動(dòng)詞或短語作為檢索詞,AntConc在WECCL庫中檢索該類動(dòng)詞和短語句子,其中包括動(dòng)詞的五種形式,即動(dòng)詞原型,時(shí)態(tài)等,提取數(shù)據(jù)并篩選,得到34個(gè)動(dòng)結(jié)構(gòu)例子,包括12個(gè)動(dòng)詞和短語。動(dòng)詞形式以及出現(xiàn)的頻數(shù),如表2所示。

      表2 WECCL動(dòng)結(jié)構(gòu)中動(dòng)詞或短語頻次

      以WECCL語料庫中得到的12個(gè)動(dòng)詞和動(dòng)詞短語作為檢索詞,在COCA中進(jìn)行檢索。由于COCA語料庫中數(shù)據(jù)量龐大,從語料中進(jìn)行數(shù)據(jù)提取并篩選,檢索到630余個(gè)動(dòng)結(jié)構(gòu)句子,應(yīng)用頻率高的單詞為open、extend、melt,而bath、feed、finish的應(yīng)用頻率低于10次,應(yīng)用頻率較低,如表3所示。

      表3 COCA中動(dòng)結(jié)構(gòu)中動(dòng)詞或短語頻次

      1.2 動(dòng)結(jié)構(gòu)使用句法分析

      WECCL語料庫檢索的34個(gè)中動(dòng)句,其中包括了12個(gè)動(dòng)詞和動(dòng)詞短語,相較于Simargool中涉及到的動(dòng)詞和中動(dòng)句使用方面存在明顯的差距[12],一方面是學(xué)習(xí)范圍存在一定差異性。Simargool中對于中動(dòng)結(jié)構(gòu)使用較少,是由于采用了大多數(shù)不具備延時(shí)狀態(tài)動(dòng)詞,因而不需要采用中動(dòng)結(jié)構(gòu)。

      采用treetagger對WECCL語料庫的34個(gè)中動(dòng)結(jié)構(gòu)進(jìn)行賦碼[13],英語用語中表現(xiàn)出以下幾個(gè)特征。主語:采用名詞為主語句子有23個(gè),11個(gè)采用代詞做主語;謂語動(dòng)詞:17個(gè)句子采用一般現(xiàn)在時(shí),13個(gè)句子采用其他時(shí)態(tài),表明學(xué)習(xí)者能較好的掌握典型的中動(dòng)結(jié)構(gòu),可利用多種謂語形式建立非典型中動(dòng)結(jié)構(gòu);修飾語:介詞短語為修飾詞的句子20個(gè),6個(gè)句子采用副詞,5個(gè)句子采用不定式、復(fù)雜句式,3個(gè)句子未采用修飾,其中采用介詞短語和副詞作為修飾詞的占總修飾詞數(shù)量的76%,表明學(xué)習(xí)者在掌握中動(dòng)結(jié)構(gòu)使用多類修飾語中,除介詞和副詞的使用外,其他修飾語應(yīng)用并不多。

      對COCA語料庫檢索的636個(gè)中動(dòng)結(jié)構(gòu)句子采用treetagger賦碼,分析英語母語者的表現(xiàn)形式。主語:593個(gè)名詞或名詞短語做主語,占總用詞的93%,43個(gè)代詞做主語,不定代詞為主語的有3個(gè),表明英語母語者在中動(dòng)句的使用方面更多的是采用名詞來引出的;謂語動(dòng)詞:一般現(xiàn)在時(shí)的句子有255個(gè),361個(gè)句子采用其他時(shí)態(tài),表明英語母語者采用謂語動(dòng)詞更為豐富,能采用肯定句、否定句等多樣化的謂語形式實(shí)現(xiàn)中動(dòng)結(jié)構(gòu);修飾語:其中共有289個(gè)句子使用了介詞短語,71個(gè)句子采用副詞,61個(gè)句子采用不定式、復(fù)雜句式,介詞短語或不采用修飾語占句子數(shù)量達(dá)到79%。

      針對WECCL和COCA中檢索的中動(dòng)句檢索結(jié)果進(jìn)行比較,由于兩庫存容量差異較大,因此先對語料庫進(jìn)行標(biāo)準(zhǔn)化頻數(shù)計(jì)算,由卡方檢驗(yàn)進(jìn)行差異顯著性評價(jià),如表4所示。

      表4 不同語料庫中動(dòng)句總頻統(tǒng)計(jì)

      可以看出,英語學(xué)習(xí)者和母語者的結(jié)構(gòu)頻數(shù)地域顯著性值(L>3,P<0.05),因此,二者間不存在顯著差異。

      從上述針對中介語語料庫分析發(fā)現(xiàn),英語學(xué)習(xí)者在應(yīng)用英語過程中,對中動(dòng)結(jié)構(gòu)使用較為接近,但受限于詞匯量的局限,中國學(xué)生使用extend、crumble類型詞匯較低,在謂語動(dòng)詞形式方面,英語母語使用者更多的采用零修飾詞進(jìn)行寫作交流,而中國學(xué)習(xí)者較多的采用修飾詞,但很少采用非典型的中動(dòng)結(jié)構(gòu)形式,而這部分復(fù)雜句式在英語母語者中應(yīng)用的較為頻繁。

      2 英語教學(xué)訓(xùn)練系統(tǒng)

      本節(jié)中針對中國學(xué)習(xí)者和外語母語使用者間在英語閱讀、寫作和交流中存在的差異,將SELL語料庫融合虛擬現(xiàn)實(shí)技術(shù)來構(gòu)建英語學(xué)習(xí)交流在線系統(tǒng),營造逼真外語學(xué)習(xí)環(huán)境。

      2.1 系統(tǒng)架構(gòu)

      系統(tǒng)采用三層式的架構(gòu)體系,分為表現(xiàn)層、邏輯層和數(shù)據(jù)層。通過三層結(jié)構(gòu)來構(gòu)建一個(gè)靈活的、可擴(kuò)充的平臺,如圖1所示。

      圖1 系統(tǒng)三層體系框架

      表現(xiàn)層模塊實(shí)現(xiàn)管理系統(tǒng)和用戶的人機(jī)交互,初學(xué)者可通過智能穿戴設(shè)備進(jìn)入到虛擬的英語環(huán)境中,并通過模塊實(shí)現(xiàn)系統(tǒng)和用戶間的各種交互操作。注冊/登錄模塊提供用戶管理功能,學(xué)習(xí)者在系統(tǒng)注冊賬號后獲得分配的默認(rèn)配置文件,自行選擇模塊來進(jìn)行個(gè)性化定制。在虛擬環(huán)境下,學(xué)習(xí)者根據(jù)自身的學(xué)習(xí)進(jìn)程和興趣愛好參加課程。課程體系以樹狀結(jié)構(gòu)組織,一個(gè)大課程關(guān)聯(lián)多個(gè)子課程,每個(gè)子課程以樹狀連接至父課程中。各課程和系列課程采用標(biāo)簽標(biāo)記,方便學(xué)習(xí)者直接搜索選擇。學(xué)習(xí)者通過應(yīng)用界面的課程中心來確認(rèn)已經(jīng)選定的課程,并且用戶中心中提供了個(gè)人信息、個(gè)性化學(xué)習(xí)路徑以及往期的學(xué)習(xí)測試評估結(jié)果。

      中間邏輯層包括中間邏輯各項(xiàng)模塊,其中Language/AI模塊下包括部分英語語言框架和部分AI功能,如智能對話機(jī)器人、語音識別、寫作評估。為高效組織故事路徑和訓(xùn)練場景,本文將系統(tǒng)邏輯層和實(shí)際功能應(yīng)用進(jìn)行拆分,引入腳本來實(shí)現(xiàn)對訓(xùn)練場的控制,保證系統(tǒng)靈活性??刂颇K主要管理3D環(huán)境、動(dòng)畫表情,虛擬工具包含了一些列虛擬工具,如利用白板、虛擬工具和視頻等,通過白板界面進(jìn)行仿真涂鴉,并將涂寫內(nèi)容給實(shí)時(shí)共享給他人,支持多人同時(shí)書寫。此外系統(tǒng)提供文檔和視頻方面學(xué)習(xí)者來進(jìn)行展示,社交模塊用于學(xué)習(xí)者的社交互動(dòng),其中添加了好友列表和具體的信息,能實(shí)現(xiàn)學(xué)習(xí)者間的互訪交流。其他功能模塊包括VR設(shè)備管理、聽寫通多控制模塊等。

      數(shù)據(jù)層包括數(shù)據(jù)服務(wù)器、文件服務(wù)器和同步服務(wù)器。數(shù)據(jù)服務(wù)器包含一個(gè)小型cache服務(wù)器,方便快速獲取數(shù)據(jù),營造不同的場景環(huán)境,對話界面。文件服務(wù)器包括課程文檔、PPT、寫作文檔,比較文檔等文件數(shù)據(jù),通過同步服務(wù)器實(shí)現(xiàn)各客戶端的實(shí)時(shí)數(shù)據(jù)同步,包括角色位置、動(dòng)作、模擬環(huán)境內(nèi)容等。

      2.2 浸入式學(xué)習(xí)平臺

      浸入式學(xué)習(xí)利用智能、互動(dòng)、有趣的虛擬環(huán)境提高學(xué)習(xí)者積極性,使學(xué)習(xí)室更貼近于英語母語使用者。系統(tǒng)主場景全方位模擬了一個(gè)虛擬小組,眾多學(xué)習(xí)者可同時(shí)進(jìn)入某一場景,并相互交流,場景中設(shè)計(jì)了多個(gè)AI角色,當(dāng)學(xué)習(xí)者接近AI角色后,AI角色主動(dòng)與學(xué)習(xí)者招呼,在不同場景下會(huì)有不同AI角色提供各種場景形式,如圖2所示。

      圖2 虛擬場景平面圖

      學(xué)習(xí)者根據(jù)自身需求,與相應(yīng)場景中AI角色互動(dòng),同時(shí),場景中各學(xué)習(xí)者都能看到其他學(xué)習(xí)者動(dòng)態(tài)。

      系統(tǒng)中設(shè)計(jì)了多個(gè)日常用語場景,如正式演講、辯論、廣播、面試等場景。以面試場景為例,如圖3所示。

      圖3 面試場景訓(xùn)練

      該場景設(shè)定學(xué)習(xí)者準(zhǔn)備赴美留學(xué),進(jìn)入到大使館申請簽證的面試場景。整個(gè)模擬場景在模擬面試房內(nèi)進(jìn)行,面試官為通過AI技術(shù)構(gòu)建的虛擬人物。面試過程中,面試官會(huì)根據(jù)系統(tǒng)中預(yù)先給出的實(shí)際面試問題向?qū)W習(xí)者詢問關(guān)于簽證和留學(xué)的相關(guān)細(xì)節(jié),要求學(xué)習(xí)者做出正確回答,并根據(jù)學(xué)習(xí)者應(yīng)答做出不同反應(yīng),表示對面試者答案的認(rèn)可或疑惑,最后給出面試結(jié)果,并給出面試中存在的問題和優(yōu)勢,供學(xué)習(xí)者進(jìn)行修正。

      3 總結(jié)

      文章選擇中國學(xué)生英語口語WECCL和英語母語COCA作為語料庫,比較分析中國英語學(xué)習(xí)者和英語母語者在使用中動(dòng)結(jié)構(gòu)間的差異性,并通過將SELL語料庫融合虛擬現(xiàn)實(shí)和AI技術(shù)來構(gòu)建英語學(xué)習(xí)在線交流系統(tǒng),營造逼真外語學(xué)習(xí)環(huán)境,研究獲得的結(jié)論如下。

      (1) 在使用動(dòng)詞結(jié)構(gòu)頻率方面,中國英語學(xué)習(xí)者與英語母語者之間較為相似,但在復(fù)雜句式應(yīng)用、謂語動(dòng)詞形式以及修飾詞使用方面存在一差異,英語母語者更傾向于extend、crumble類型詞匯,采用零修飾詞,通過復(fù)雜句式來表達(dá)。

      (2) 基于英語學(xué)習(xí)系統(tǒng)采用三層式的架構(gòu)體系,構(gòu)建一個(gè)靈活的、可擴(kuò)充的平臺。通過設(shè)計(jì)多維虛擬場景和智能AI角色,來實(shí)現(xiàn)不同場景下AI角色的交流和學(xué)習(xí)。

      猜你喜歡
      母語語料庫短語
      母語
      草原歌聲(2020年3期)2021-01-18 06:52:02
      《語料庫翻譯文體學(xué)》評介
      母語
      草原歌聲(2017年3期)2017-04-23 05:13:47
      把課文的優(yōu)美表達(dá)存進(jìn)語料庫
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      我有祖國,我有母語
      母語寫作的宿命——《圣天門口》未完的話
      語料庫語言學(xué)未來發(fā)展趨勢
      开化县| 镇远县| 曲阜市| 洛浦县| 灵丘县| 桐柏县| 西盟| 竹溪县| 舒兰市| 潼南县| 塘沽区| 平凉市| 阿巴嘎旗| 祁东县| 延安市| 房山区| 虎林市| 扶沟县| 合江县| 阿拉尔市| 额济纳旗| 肇源县| 策勒县| 朝阳区| 红原县| 南部县| 徐汇区| 常熟市| 临汾市| 普定县| 电白县| 郧西县| 迁安市| 东乡族自治县| 阿荣旗| 丰台区| 蓬莱市| 梅河口市| 德惠市| 平顶山市| 黄山市|