基于內(nèi)容的英語(yǔ)錄音教材標(biāo)注研究與應(yīng)用

2016-05-31 11:26閔捷鐘岑岑沙沙

中國(guó)教育信息化·基礎(chǔ)教育 2016年2期

閔捷　鐘岑岑　沙沙

摘要：英語(yǔ)錄音教材在數(shù)量和種類(lèi)上的飛速發(fā)展對(duì)其有效管理與利用提出了新的挑戰(zhàn)，此時(shí)傳統(tǒng)的人工標(biāo)注和組織方式已不能滿(mǎn)足數(shù)字出版以及教育信息化的需要。文章基于音頻信號(hào)處理、機(jī)器學(xué)習(xí)等信息技術(shù)，提出基于內(nèi)容的英語(yǔ)錄音教材標(biāo)注，運(yùn)用自動(dòng)與人工相結(jié)合的處理方法，從多層次、可擴(kuò)展等角度構(gòu)建描述錄音內(nèi)容的內(nèi)容表征模型，并在教育信息化環(huán)境中探索該模型及標(biāo)注框架的應(yīng)用方式，以期為未來(lái)錄音教材的建設(shè)和管理乃至數(shù)字化教育出版物的加工與發(fā)布提供參考。

關(guān)鍵詞：英語(yǔ)錄音教材；內(nèi)容標(biāo)注；關(guān)鍵詞檢出；文本分類(lèi)；數(shù)字教育出版

中圖分類(lèi)號(hào)：G434 文獻(xiàn)標(biāo)志碼：A 文章編號(hào)：1673-8454（2016）04-00089-04

一、引言

在我國(guó)，錄音教材是教科書(shū)體系中的重要組成部分[1]，是紙質(zhì)教科書(shū)中精選內(nèi)容的音頻化，在我國(guó)英語(yǔ)、語(yǔ)文、音樂(lè)等學(xué)科的教學(xué)中得到了廣泛的應(yīng)用，迄今已有五十余年的歷史。尤其是對(duì)英語(yǔ)這一外語(yǔ)類(lèi)學(xué)科的教學(xué)，錄音教材以其規(guī)范的語(yǔ)言表達(dá)和內(nèi)容質(zhì)量，為教師提供了便捷的輔助工具，為學(xué)生創(chuàng)建了良好的聽(tīng)覺(jué)情境，對(duì)于聽(tīng)說(shuō)讀寫(xiě)等外語(yǔ)學(xué)習(xí)基本技能特別是聽(tīng)的培養(yǎng)和達(dá)成，起到了重要作用。

英語(yǔ)錄音教材的產(chǎn)生經(jīng)過(guò)了素材錄制、內(nèi)容編輯、技術(shù)加工等音像出版的主要環(huán)節(jié)[2]，在此過(guò)程中，錄音教材的編輯開(kāi)發(fā)單位積累了大量的資源。最近三十年來(lái)，從教科書(shū)中的課文同步朗讀到教輔中的聽(tīng)力測(cè)試，各類(lèi)英語(yǔ)錄音教材的總數(shù)量巨大、內(nèi)容多樣，如何對(duì)這些資源進(jìn)行科學(xué)、高效的組織和管理，對(duì)于錄音教材的編制與應(yīng)用、數(shù)字化教育資源的開(kāi)發(fā)和建設(shè)具有重要意義。長(zhǎng)久以來(lái)，英語(yǔ)錄音教材的管理主要是以錄音磁帶、光盤(pán)等載體為依托，將播音人員、出版單位、時(shí)長(zhǎng)、主要內(nèi)容等信息采用卡片形式通過(guò)手工來(lái)建立文本索引。然而，在數(shù)字技術(shù)飛速發(fā)展的今天，這種傳統(tǒng)的基于人工的資源標(biāo)注方式卻變得日益局限。一方面，面對(duì)海量的錄音教材，人工處理不僅耗時(shí)費(fèi)力，而且易受疲勞、差錯(cuò)等人為因素影響。另一方面，目前的人工處理大多是對(duì)一些客觀(guān)屬性進(jìn)行標(biāo)引，而在智慧學(xué)習(xí)環(huán)境，更需要的是基于各種教學(xué)功能、內(nèi)容語(yǔ)義和語(yǔ)音特征等信息為教師或?qū)W生提供個(gè)性化服務(wù)，現(xiàn)有的屬性標(biāo)引方式難以滿(mǎn)足實(shí)際需求。

在這種情況下，本文基于音頻信號(hào)處理、機(jī)器學(xué)習(xí)等信息技術(shù)，提出基于內(nèi)容的英語(yǔ)錄音教材標(biāo)注方案，以期在盡量少的人工干預(yù)下，自動(dòng)給出大量未知英語(yǔ)錄音教材的多層級(jí)內(nèi)容標(biāo)簽，并從教育信息化環(huán)境下的數(shù)字教材建設(shè)和錄音教材數(shù)據(jù)庫(kù)應(yīng)用的角度嘗試探索，從而為未來(lái)錄音教材乃至數(shù)字化教育資源的建設(shè)和管理提供參考。

二、英語(yǔ)錄音教材的內(nèi)容描述

英語(yǔ)錄音教材是將一定的教材內(nèi)容以音頻形式進(jìn)行呈現(xiàn)的課程資源。相對(duì)于紙質(zhì)教科書(shū)的文本形態(tài)，錄音教材通過(guò)播音人員的演繹、背景音（樂(lè)）的插入、音頻技術(shù)的處理等手段，試圖營(yíng)造出生動(dòng)、真實(shí)的聽(tīng)覺(jué)環(huán)境，給人以親近感，從而促進(jìn)教師教學(xué)效果的提高、學(xué)生英語(yǔ)綜合語(yǔ)言運(yùn)用能力的培養(yǎng)。

從本質(zhì)上看，英語(yǔ)錄音教材仍歸屬為音頻資源：作為一種重要的多媒體信息傳播媒質(zhì)，在人耳所能聽(tīng)見(jiàn)的頻率范圍內(nèi)包括語(yǔ)音、音樂(lè)、環(huán)境音等類(lèi)型。對(duì)于這些音頻的內(nèi)容，可以用反映其聲學(xué)特點(diǎn)和人類(lèi)聽(tīng)覺(jué)感受的低層特征以及貼近用戶(hù)理解的語(yǔ)義特征來(lái)描述。

然而，不同于一般音頻數(shù)據(jù)，英語(yǔ)錄音教材面向教學(xué)的特殊地位決定了其語(yǔ)音部分是實(shí)現(xiàn)語(yǔ)言教學(xué)的重點(diǎn)。無(wú)論是內(nèi)容的選擇與錄制還是素材的處理與集成，均圍繞教學(xué)目標(biāo)和教學(xué)內(nèi)容進(jìn)行。作為英語(yǔ)錄音教材內(nèi)容中的主體，錄音教材的語(yǔ)音部分具有一定的規(guī)律性，從形式上看包括單詞、語(yǔ)句、對(duì)話(huà)等基本單元，在不同的學(xué)段偏重不同；從語(yǔ)言?xún)?nèi)容上看，在傳遞詞句等語(yǔ)言表層含義的同時(shí)，還隱含了主題、話(huà)題等高層語(yǔ)義信息，例如，與《義務(wù)教育課程標(biāo)準(zhǔn)實(shí)驗(yàn)教科書(shū) 英語(yǔ)（新目標(biāo)）七年級(jí)上》配套的錄音教材中，就大體包括姓名、足球、晴朗等關(guān)鍵詞，并涵蓋天氣、運(yùn)動(dòng)、生日、交際等主題。

基于以上分析可知，英語(yǔ)錄音教材的內(nèi)容描述主要體現(xiàn)在以語(yǔ)言為主的語(yǔ)義層面，也就是說(shuō)，對(duì)于一個(gè)基本單元，可以分別用關(guān)鍵詞和主題兩個(gè)層級(jí)的內(nèi)容來(lái)表示語(yǔ)言低層和高層語(yǔ)義的信息。以此為基礎(chǔ)，還可再輔以提示音類(lèi)別、間奏音樂(lè)類(lèi)型等其他信息，由此構(gòu)建出的更為豐富的基于不同層級(jí)的內(nèi)容表征模型（見(jiàn)圖1），就可用于描述英語(yǔ)錄音教材的內(nèi)容。

三、基于內(nèi)容的英語(yǔ)錄音教材標(biāo)注方案

基于內(nèi)容的英語(yǔ)錄音教材標(biāo)注的目的在于，自動(dòng)得到大量未標(biāo)注英語(yǔ)錄音教材（未知數(shù)據(jù)）的基于內(nèi)容表征模型的標(biāo)注結(jié)果（多層級(jí)內(nèi)容標(biāo)簽），并以此作為接口用于實(shí)現(xiàn)資源管理以及后端的具體應(yīng)用，在此過(guò)程中允許管理人員或用戶(hù)進(jìn)行人工干預(yù)，通過(guò)修正學(xué)習(xí)模型來(lái)提高標(biāo)注性能（見(jiàn)圖2）。

基于內(nèi)容的英語(yǔ)錄音教材標(biāo)注本質(zhì)上是一個(gè)機(jī)器學(xué)習(xí)問(wèn)題，它借助于已準(zhǔn)確標(biāo)記的訓(xùn)練數(shù)據(jù)來(lái)構(gòu)建學(xué)習(xí)模型，再以此為依據(jù)建立起未知數(shù)據(jù)與內(nèi)容標(biāo)簽之間的映射關(guān)系。作為該過(guò)程的主體，英語(yǔ)錄音教材語(yǔ)言部分的內(nèi)容標(biāo)注主要包括音頻類(lèi)型分割、關(guān)鍵詞檢出和文本分類(lèi)三個(gè)關(guān)鍵模塊（見(jiàn)圖3），它們依次相連，并且相應(yīng)的輸出項(xiàng)組成了未知數(shù)據(jù)的多層級(jí)內(nèi)容標(biāo)簽。這三個(gè)模塊的具體設(shè)計(jì)如下。

1.音頻類(lèi)型分割

由上可知，英語(yǔ)錄音教材包括語(yǔ)音、音樂(lè)、環(huán)境音等類(lèi)型，音頻類(lèi)型分割模塊的任務(wù)就是將這些類(lèi)型區(qū)分開(kāi)來(lái)，以供后端模塊使用。該過(guò)程是依據(jù)所提取的能量、基頻、過(guò)零率、梅爾頻率倒譜系數(shù)（Mel-Frequency Cepstral Coefficients，MFCC）等低層特征完成的，一方面通過(guò)判斷這些特征的突變點(diǎn)來(lái)實(shí)現(xiàn)音頻的物理切分，另一方面對(duì)切分后的片段進(jìn)行基于分類(lèi)器的分類(lèi)，將其歸屬為某些已經(jīng)定義好的語(yǔ)義類(lèi)別。

對(duì)于分類(lèi)的類(lèi)別，語(yǔ)音、音樂(lè)、靜音等粗粒度類(lèi)別是該過(guò)程所關(guān)注的首要問(wèn)題。在此基礎(chǔ)上，也可進(jìn)行某一具體類(lèi)型的精細(xì)分類(lèi)，如提示音、間奏、自然聲響等，甚至可進(jìn)一步細(xì)化分層，例如，歌謠、純音樂(lè)等音樂(lè)類(lèi)型，音樂(lè)會(huì)、爆炸等音頻事件等。這一部分的細(xì)化處理結(jié)果可作為英語(yǔ)錄音教材的內(nèi)容表征模型中的其他信息，并依據(jù)實(shí)際需求進(jìn)行調(diào)整和擴(kuò)充。

2.關(guān)鍵詞檢出

對(duì)于英語(yǔ)錄音教材中的語(yǔ)音部分，首先需要給出其語(yǔ)言表述信息，而這可以通過(guò)語(yǔ)音識(shí)別技術(shù)來(lái)實(shí)現(xiàn)。

在英語(yǔ)錄音教材的編制過(guò)程中，播音人員的專(zhuān)業(yè)素養(yǎng)、編輯的監(jiān)控管理、制作人員的后期處理等手段使得教材中的發(fā)音、語(yǔ)速、語(yǔ)調(diào)等具有嚴(yán)格標(biāo)準(zhǔn)的規(guī)范，由此得到的錄音資源具有標(biāo)準(zhǔn)式朗讀效果，可作為內(nèi)容標(biāo)注中學(xué)習(xí)模型構(gòu)建所需的訓(xùn)練樣本。但實(shí)際上，考慮到鼓勵(lì)學(xué)生接觸多樣化英語(yǔ)的教學(xué)目標(biāo)、盡量營(yíng)造真實(shí)情境的質(zhì)量把控等實(shí)際要求[3]，部分英語(yǔ)錄音教材中會(huì)故意包含口音、情緒變化、口語(yǔ)化、背景音等干擾因素，此時(shí)，針對(duì)這種相對(duì)貼近實(shí)際的發(fā)音的語(yǔ)音識(shí)別技術(shù)，就會(huì)由于目標(biāo)與學(xué)習(xí)模型不匹配等問(wèn)題而產(chǎn)生較高的錯(cuò)誤率，在這種情況下，相對(duì)于試圖得到一詞一句精準(zhǔn)識(shí)別結(jié)果的連續(xù)語(yǔ)音識(shí)別，本文認(rèn)為采用僅將輸入語(yǔ)音用多個(gè)關(guān)鍵詞進(jìn)行描述的關(guān)鍵詞檢出技術(shù)則更為合適。

關(guān)鍵詞檢出是一種從無(wú)限制的語(yǔ)音流中識(shí)別出一組給定詞（關(guān)鍵詞）的語(yǔ)音識(shí)別技術(shù)，相對(duì)于早期經(jīng)典的基于廢料模型的處理方式，基于大詞匯量連續(xù)語(yǔ)音識(shí)別（Large Vocabulary Continuous Speech Recognition，LVCSR）的關(guān)鍵詞檢出在大詞表、任務(wù)無(wú)關(guān)的應(yīng)用環(huán)境中體現(xiàn)了較高的準(zhǔn)確性和靈活性。該框架先利用LVCSR將語(yǔ)音數(shù)據(jù)轉(zhuǎn)化為覆蓋多個(gè)候選結(jié)果的網(wǎng)格結(jié)構(gòu)，再采用基于文本的匹配搜索在該網(wǎng)格中搜尋描述主要內(nèi)容的關(guān)鍵詞。這種兩步式處理方式既通過(guò)將原始語(yǔ)音數(shù)據(jù)轉(zhuǎn)化為基于網(wǎng)格的文本表示來(lái)降低了數(shù)據(jù)存儲(chǔ)代價(jià)，又允許在無(wú)需重新進(jìn)行模型訓(xùn)練的情況下增刪關(guān)鍵詞詞表，對(duì)于未標(biāo)注英語(yǔ)錄音教材數(shù)量不斷增長(zhǎng)、內(nèi)容不斷多樣的實(shí)際情況有較好的適用性。此時(shí)得到的網(wǎng)格結(jié)構(gòu)將作為中間數(shù)據(jù)以滿(mǎn)足未來(lái)的需求更新，而關(guān)鍵詞信息將作為內(nèi)容表征模型中的低層語(yǔ)義內(nèi)容描述。

3.文本分類(lèi)

該模塊以關(guān)鍵詞為輸入項(xiàng)，輸出對(duì)應(yīng)語(yǔ)音數(shù)據(jù)的高層語(yǔ)義信息——主題。這是一個(gè)典型的模式識(shí)別問(wèn)題，包括特征提取和模型分類(lèi)兩部分。其中的特征提取，即對(duì)每個(gè)已用關(guān)鍵詞序列表示的語(yǔ)音數(shù)據(jù)進(jìn)行基于文本的特征描述，在這里可采用經(jīng)典的向量空間模型（Vector Space Model，VSM）來(lái)實(shí)現(xiàn)，也就是將關(guān)鍵詞看成是離散單詞，把每一個(gè)語(yǔ)音數(shù)據(jù)表示成向量形式，其中的向量元素描述了某個(gè)單詞在該數(shù)據(jù)中的出現(xiàn)情況，可用TF-IDF（Term Frequency-Inverse Document Frequency）[4]等方法表示。在得到VSM之后，便可根據(jù)已經(jīng)定義好的文本類(lèi)別標(biāo)注信息采用支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等算法來(lái)構(gòu)建類(lèi)模型，并通過(guò)計(jì)算未知數(shù)據(jù)與模型之間的距離來(lái)實(shí)現(xiàn)分類(lèi)。

至此，除了表示低層內(nèi)容的關(guān)鍵詞，主題作為高層語(yǔ)義內(nèi)容的描述，也被賦予給了每一個(gè)語(yǔ)音數(shù)據(jù)。此二層信息便構(gòu)成了英語(yǔ)錄音教材的內(nèi)容表征模型的主體部分。

上述三個(gè)模塊給出了基于內(nèi)容的英語(yǔ)錄音教材標(biāo)注的基本框架，但是待處理數(shù)據(jù)的復(fù)雜性、模型的魯棒性和適用性、語(yǔ)義概念的主觀(guān)性等問(wèn)題還是會(huì)使得完全自動(dòng)的標(biāo)注方法的性能不夠理想，因此不可避免的要加入人工干預(yù)。這主要需要兩方人員的努力：一方面，應(yīng)在后端應(yīng)用模塊為實(shí)際用戶(hù)留有交互接口，允許人工對(duì)標(biāo)注有誤的數(shù)據(jù)進(jìn)行標(biāo)記，并反饋給標(biāo)注模塊；另一方面，為管理人員構(gòu)建友好易用的管理界面，用以對(duì)上述標(biāo)注有誤的數(shù)據(jù)、具有代表性的未知數(shù)據(jù)進(jìn)行人工標(biāo)注，再將這些新的訓(xùn)練數(shù)據(jù)送入標(biāo)注模塊以進(jìn)行學(xué)習(xí)模型的更新和優(yōu)化，而這一過(guò)程可通過(guò)相關(guān)反饋、在線(xiàn)更新學(xué)習(xí)等算法來(lái)實(shí)現(xiàn)。

四、英語(yǔ)錄音教材數(shù)據(jù)庫(kù)在教學(xué)中的應(yīng)用

基于內(nèi)容的英語(yǔ)錄音教材標(biāo)注技術(shù)可用于生成一個(gè)可支持智慧學(xué)習(xí)環(huán)境的錄音教材數(shù)據(jù)庫(kù)。與傳統(tǒng)的錄音教材相比較，錄音教材數(shù)據(jù)庫(kù)能夠?yàn)榻處煛W(xué)生提供更為全面的內(nèi)容服務(wù)。

仍以英語(yǔ)學(xué)科為例，首先錄音教材數(shù)據(jù)庫(kù)可以為學(xué)習(xí)者提供個(gè)性化的學(xué)習(xí)資源服務(wù)。所謂的個(gè)性化學(xué)習(xí)資源服務(wù)，其核心問(wèn)題是能夠判斷學(xué)習(xí)者現(xiàn)有的學(xué)習(xí)水平，并且能夠提供與其現(xiàn)有水平相適應(yīng)的學(xué)習(xí)內(nèi)容。對(duì)一般的英語(yǔ)學(xué)習(xí)者來(lái)說(shuō)，學(xué)習(xí)英語(yǔ)時(shí)都有明確的水平劃分指標(biāo)，如義務(wù)教育英語(yǔ)課程標(biāo)準(zhǔn)中將英語(yǔ)劃分為五級(jí)，對(duì)每一個(gè)級(jí)別都有明確的聽(tīng)、說(shuō)、讀、寫(xiě)等要求，并對(duì)二級(jí)和五級(jí)水平給出了學(xué)生應(yīng)掌握的單詞表。基于課程標(biāo)準(zhǔn)的水平分級(jí)，我們就對(duì)經(jīng)過(guò)內(nèi)容標(biāo)注的錄音教材內(nèi)容進(jìn)行難度分析?？梢酝ㄟ^(guò)對(duì)文本內(nèi)容中的單詞分析、背景聲音、內(nèi)容長(zhǎng)度、語(yǔ)速等因素解析其對(duì)應(yīng)聽(tīng)力難度水平。顯然，錄音內(nèi)容中出現(xiàn)的單詞屬于哪一個(gè)等級(jí)水平、背景聲音對(duì)主聲音內(nèi)容的干擾程度、語(yǔ)言速度等可以綜合反映某一段錄音教材內(nèi)容的難度。通過(guò)這樣的難度分析，我們一方面可以在學(xué)習(xí)者完成一次聽(tīng)力練習(xí)后識(shí)別其實(shí)際水平，另一方面也能夠依據(jù)每段錄音內(nèi)容的難度級(jí)別，進(jìn)一步為不同英語(yǔ)水平的學(xué)習(xí)者推送具有針對(duì)性的學(xué)習(xí)資源。

如果配合語(yǔ)音識(shí)別和語(yǔ)音分析引擎，錄音教材數(shù)據(jù)庫(kù)還可有效服務(wù)于學(xué)習(xí)者口語(yǔ)學(xué)習(xí)。到目前為止，在教育領(lǐng)域中通過(guò)計(jì)算機(jī)進(jìn)行有效的語(yǔ)言、語(yǔ)音評(píng)價(jià)，仍需要基于標(biāo)準(zhǔn)錄音素材來(lái)進(jìn)行，錄音教材數(shù)據(jù)庫(kù)則提供了海量的標(biāo)準(zhǔn)語(yǔ)音素材。在口語(yǔ)學(xué)習(xí)方面，基于內(nèi)容標(biāo)注，錄音教材數(shù)據(jù)可以輔助語(yǔ)音評(píng)價(jià)系統(tǒng)對(duì)學(xué)習(xí)者的口語(yǔ)情況給出更科學(xué)的評(píng)價(jià)結(jié)果，以及對(duì)學(xué)習(xí)者的口語(yǔ)能力提出強(qiáng)化和改進(jìn)方案和標(biāo)準(zhǔn)語(yǔ)音范例，最終實(shí)現(xiàn)面向用戶(hù)口語(yǔ)能力提升的教學(xué)過(guò)程。

基于內(nèi)容標(biāo)注的錄音教材數(shù)據(jù)庫(kù)還能夠結(jié)合其他類(lèi)型的課程資源，特別是結(jié)合數(shù)字教科書(shū)形成完整的語(yǔ)言學(xué)科學(xué)習(xí)解決方案。在教育部《2014年教育信息化工作要點(diǎn)》和《2015年教育信息化工作要點(diǎn)》中，均提出了：鼓勵(lì)開(kāi)發(fā)與教材配套的基礎(chǔ)性數(shù)字教育資源和滿(mǎn)足廣大師生需求的個(gè)性化數(shù)字教育資源。標(biāo)注好的錄音內(nèi)容可以作為傳統(tǒng)教科書(shū)出版向數(shù)字教材轉(zhuǎn)型的基礎(chǔ)。例如，錄音教材數(shù)據(jù)庫(kù)可以和紙質(zhì)教科書(shū)內(nèi)容的結(jié)合，通過(guò)光學(xué)字符識(shí)別（Optical Character Recognition，OCR）技術(shù)和關(guān)聯(lián)標(biāo)識(shí)方法，形成集文字、圖片、聲音為一體的點(diǎn)讀教材，通過(guò)這一方式可以彌補(bǔ)傳統(tǒng)教科書(shū)在英語(yǔ)學(xué)科聽(tīng)、說(shuō)方面的不足。錄音教材數(shù)據(jù)庫(kù)的另一種與教材的結(jié)合方式，是基于紙質(zhì)教材的數(shù)字版本，整合適宜信息化環(huán)境中使用的英語(yǔ)數(shù)字教材。基于內(nèi)容標(biāo)注的錄音教材數(shù)據(jù)庫(kù)不僅可以與教材原有的文、圖內(nèi)容一起形成覆蓋英語(yǔ)聽(tīng)、說(shuō)、讀、寫(xiě)的數(shù)字教材，更可以通過(guò)其多層級(jí)內(nèi)標(biāo)簽為學(xué)生、教師提供個(gè)性化內(nèi)容，解決傳統(tǒng)教材個(gè)性化、針對(duì)性不強(qiáng)的缺陷。

五、總結(jié)與展望

在教育信息化的背景下，錄音教材在數(shù)量和種類(lèi)上的飛速發(fā)展對(duì)其有效管理與利用提出了新的挑戰(zhàn)，而傳統(tǒng)單一、人工的標(biāo)注和組織方式已經(jīng)不能滿(mǎn)足實(shí)際需求。本文所提出的基于內(nèi)容的英語(yǔ)錄音教材標(biāo)注研究與應(yīng)用，以英語(yǔ)學(xué)科為例，運(yùn)用了自動(dòng)與人工相結(jié)合的處理方法，從多層次、可擴(kuò)展等角度構(gòu)建英語(yǔ)錄音教材的內(nèi)容表征模型，并在教育信息化環(huán)境下簡(jiǎn)要探討該技術(shù)所形成的錄音教材數(shù)據(jù)庫(kù)的一些應(yīng)用方式。這無(wú)論對(duì)錄音教材還是其他形式的數(shù)字化教育資源的建設(shè)與管理，乃至數(shù)字化教育出版的加工與發(fā)布，都能具有較高的參考和借鑒價(jià)值。

在本文研究的基礎(chǔ)上，隨著未來(lái)教育信息化的整體發(fā)展，錄音教材在數(shù)字化、碎片化、結(jié)構(gòu)化等方面仍有進(jìn)一步研究的必要。筆者認(rèn)為，可能形成突破的研究方向包括以下三個(gè)方面。

在本研究的內(nèi)容表征模型中，主要討論了以英語(yǔ)學(xué)科語(yǔ)言學(xué)習(xí)要求為出發(fā)點(diǎn)的內(nèi)容標(biāo)注，并將重點(diǎn)放在了語(yǔ)音部分的處理。而隨著經(jīng)濟(jì)、文化的國(guó)際化趨勢(shì)不斷增強(qiáng)，未來(lái)的英語(yǔ)教育可能會(huì)對(duì)錄音內(nèi)容的標(biāo)注提出更高的要求。例如，加入基于說(shuō)話(huà)人識(shí)別的播音人員標(biāo)簽、基于情感分類(lèi)的情感標(biāo)簽等。這方面的標(biāo)注信息除了要在本文所研究的內(nèi)容表征模型中留出了接口外，更需要面向具體的學(xué)習(xí)情景和學(xué)習(xí)內(nèi)容進(jìn)行更深入的分析。

在人工干預(yù)的處理方面，本文中提到的引入人工干預(yù)是為了學(xué)習(xí)模型的更新和改進(jìn)。但是這種人工干預(yù)本身帶有一定的主觀(guān)性，并且隨著錄音素材的數(shù)量增加，會(huì)導(dǎo)致人工工作量的遞增。隨著大數(shù)據(jù)技術(shù)的發(fā)展，未來(lái)通過(guò)建立具有自動(dòng)判斷、自動(dòng)修正的錄音內(nèi)容標(biāo)注大數(shù)據(jù)模型已成為可能?；诖髷?shù)據(jù)模型，計(jì)算機(jī)不但可以自己找到已有標(biāo)注中存在的差錯(cuò)，更可能發(fā)現(xiàn)內(nèi)容表征模型自身的不足，并提出修正方式。

錄音教材內(nèi)容加工的標(biāo)準(zhǔn)化是另一個(gè)值得深入研究的問(wèn)題。如本文中涉及的多層級(jí)內(nèi)標(biāo)簽、后端應(yīng)用模塊接口等在實(shí)際應(yīng)用中需要標(biāo)準(zhǔn)化。傳統(tǒng)錄音教材，無(wú)論是磁帶或CD等形式，都早已實(shí)現(xiàn)標(biāo)準(zhǔn)化?？紤]到錄音教材今后仍是語(yǔ)言教學(xué)中影響范圍極大的核心課程資源，當(dāng)其必須進(jìn)一步完成數(shù)字化、結(jié)構(gòu)化、碎片化發(fā)展時(shí)，顯然非標(biāo)準(zhǔn)化的錄音教材將在教學(xué)應(yīng)用中造成諸多問(wèn)題。這也意味著通過(guò)進(jìn)一步的標(biāo)準(zhǔn)研究來(lái)滿(mǎn)足錄音教材在管理、應(yīng)用方面的新需求是一個(gè)必須解決的課題。

參考文獻(xiàn)：

[1]教基二〔2014〕8號(hào).中小學(xué)教科書(shū)選用管理暫行辦法[Z].

[2]唐舒巖.數(shù)字技術(shù)條件下語(yǔ)言類(lèi)錄音教材產(chǎn)品的音頻編輯加工模式[J].海峽科學(xué)，2013（8）：62-64.

[3]武桂香.英語(yǔ)錄音教材內(nèi)容質(zhì)量把控初探[J].課程·教材·教法，2013，33（6）：62-76.

[4]G.Salton，C.Buckley.Term-weighting approaches in automatic text retrieval[J]. Information Processing and Management，1988，24（5）：513-523.

（編輯：魯利瑞）

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于內(nèi)容的英語(yǔ)錄音教材標(biāo)注研究與應(yīng)用