葛艷青 陳兆軍
【摘 要】多模態(tài)語料庫在多媒體交互技術(shù)支持下收集音頻、視頻等語料,全面記錄語言運用的真實語境,從多個模態(tài)分析語言在語音、語義、語用等方面的全貌。專門用途英語小型多模態(tài)語料庫的提出具有新穎性和必要性,對專門用途英語教學(xué)具有改革意義。
【關(guān)鍵詞】多模態(tài)語料庫;專門用途英語;Elan軟件
一、引言
專門用途英語(English for Specific Purposes, 簡稱ESP),是指與某種特定職業(yè)或?qū)W科相關(guān)的英語,當(dāng)前ESP語言分析方法還局限于針對單一模態(tài)的語言本體的分析與研究,其教學(xué)活動還囿于“語法-翻譯”法為主的靜態(tài)的信息輸出模式。[1] 多模態(tài)語料庫的建設(shè)及相應(yīng)研究已成為語料庫語言學(xué)的新起之秀,堪稱語料庫的4.0版。[2] 傳統(tǒng)的語料庫多以文本為語料,多模態(tài)語料庫不僅具有傳統(tǒng)的文本,更具有音頻、視頻等以多種模態(tài)形式存在的信息,語料中蘊含的多種信息為語言教學(xué)及研究提供了豐富的資源?,F(xiàn)階段的專門用途英語語料庫主要是文字語言單模態(tài)的語料庫,那么構(gòu)建專門用途英語小型多模態(tài)語料庫,可以完整地記錄下語料的多模態(tài)信息,更好地從多模態(tài)理論視角對專門用途英語展開研究。
二、專門用途英語小型多模態(tài)語料庫的建設(shè)構(gòu)想
專門用途英語不僅要關(guān)注普通的語料文本,更要關(guān)注相應(yīng)的學(xué)科知識,對語料庫研究提出了新的挑戰(zhàn)。當(dāng)代專門用途英語語料庫表現(xiàn)出三大發(fā)展趨勢—語料庫的專門/小型化、語料數(shù)據(jù)的(交際)多模態(tài)化和語料庫的本土化。[3] Sinclair早在2003 年的語料庫語言學(xué)國際會議上指出,大型語料庫建設(shè)的勢頭已緩,取而代之的是小型語料庫。在努力建立超大型的、綜合性的語料庫的同時,建立更多的、具有專業(yè)性的和相對較小的ESP語料庫將是未來語料庫語言學(xué)發(fā)展的趨勢。[4]
(一)確定構(gòu)建的軟件平臺
多模態(tài)語料庫的建設(shè)需要借助文本、音視頻等處理技術(shù)和數(shù)據(jù)管理與檢索技術(shù)。言語、手勢和身體姿勢等多模態(tài)話語研究均可在ELAN軟件的幫助下完成,此軟件也可適用于多模態(tài)語料庫建設(shè)。[5] 國內(nèi)多模態(tài)語料轉(zhuǎn)寫與標(biāo)注大多使用ELAN 這款工具。此軟件在話語分析、態(tài)勢語研究、語言存檔、口語語料庫建設(shè)等方面被廣泛使用[4]。通過文獻考察和初步試用,我們認(rèn)為ELAN因具有的特點比較適合用于專門用途英語多模態(tài)語料庫建設(shè)。
(二)語料的收集
在確定該語料庫語料的來源過程中,要依據(jù)專門用途英語的特點,要選取具有針對性、代表本專業(yè)領(lǐng)域英語語言特征的語料,注重不同類型語料分布的合理性。要在本專業(yè)領(lǐng)域內(nèi)的英語真實會話文獻,相關(guān)專業(yè)領(lǐng)域信譽比較高的專業(yè)教材,盡量覆蓋研究內(nèi)容的各種情況,選取具有代表性的語料。語料的選擇過程中,要能夠最大限度地反映相關(guān)專業(yè)的語言特征、體現(xiàn)其話語的真實性。在本專業(yè)領(lǐng)域英語真實會話交際中,語料包括專業(yè)教材、工具書、會話文獻、專業(yè)論著等材料,它們的分布不同,因此語料的選擇比例也要盡量與專業(yè)化的實際情況相一致,以便增強專門用途英語語料的實用性。例如:具有專業(yè)特征的高頻度詞匯、語篇中的句式、修辭特征等要素的分析,則可以對本專業(yè)英語句法的構(gòu)成規(guī)則進行梳理。
(三)元數(shù)據(jù)的創(chuàng)建
多模態(tài)語料的創(chuàng)建過程中,通常要根據(jù)研究需要賦予語料一些具體的信息,首先需要確定用于描述語料屬性的元數(shù)據(jù)規(guī)范,將收集到的語料分門別類地打上標(biāo)簽。語料庫的建設(shè)需要取樣語料具有代表性,話語產(chǎn)生的環(huán)境及說話人的背景等信息都會影響多模態(tài)分析,這些信息就是語料的元數(shù)據(jù)(也稱元信息(Meta-data)。針對專門用途英語各學(xué)科領(lǐng)域的特點,在語料庫建設(shè)中,既需要標(biāo)記這些語料的共有屬性,也需要針對每一類語料制定其特有屬性。首要要利用工具Arbil創(chuàng)建該語料的元數(shù)據(jù),主要標(biāo)注語料的性質(zhì),主題,時間,地點、長度等信息,創(chuàng)建新的元數(shù)據(jù)文件。然后以IMDI保存元數(shù)據(jù)文件。最后,用ELAN等軟件對特定音頻、視頻語料按著一定的要求進行切分與標(biāo)注。
(四)語料的切分與轉(zhuǎn)寫
由于多模態(tài)語料庫的特殊性,語料切分是多模態(tài)語料加工中的一個難點。ELAN軟件中的切分單位通常是以音頻、視頻中話語的停頓而構(gòu)成的片段為分割。ELAN軟件提供了比較方便的轉(zhuǎn)寫界面,軟件會自動播放切分片段的語音,轉(zhuǎn)寫人員可以把所聽到的內(nèi)容在界面中直接輸入。完成轉(zhuǎn)寫后,然后將語料保持并以某種格式(包括Text Grid、TXT等)輸出。然后對輸出語料進行分詞,再重新錄入或?qū)氲紼LAN等軟件中。最后如實、詳盡地將語音轉(zhuǎn)寫為文本,這需要在初步轉(zhuǎn)寫少量多類型語料的基礎(chǔ)上制定一個轉(zhuǎn)寫規(guī)范,并隨著語料的豐富和轉(zhuǎn)寫的深入不斷修訂。
(五)語料的標(biāo)注
在標(biāo)注過程中應(yīng)特別注意“標(biāo)注集的科學(xué)性和可靠性,盡量避免主觀性和片面性,使語料庫的標(biāo)注盡可能地反映語言的真實面貌;特別注意語料庫標(biāo)注集的標(biāo)準(zhǔn)化和規(guī)范化,提高標(biāo)注結(jié)果的共享程度” [6]。Elan等軟件支持對音頻和視頻文件的多層標(biāo)注,建設(shè)專門用途多模態(tài)語料庫時可以依據(jù)據(jù)語料庫的檢索需求設(shè)定詳細(xì)的標(biāo)注信息。
三、結(jié)語
專門用途英語小型多模態(tài)語料庫的構(gòu)建,有利于由單模態(tài)向多模態(tài)深化發(fā)展,能夠?qū)崿F(xiàn)和保證語言材料的真實性,提供大量真實語境中的真實會話、專業(yè)文獻等案例的使用,突出專業(yè)性和實踐性,為專門用途英語教學(xué)研究提供了一種新的手段和方法,為學(xué)生個性化學(xué)習(xí)、碎片化學(xué)習(xí)、探究式學(xué)習(xí)提供資源支持。
【參考文獻】
[1]劉宇. 多模態(tài)話語理論觀照下的專門用途英語教學(xué)模式研究[J].成都航空職業(yè)技術(shù)學(xué)院學(xué)報,2012(2):32-34.
[2]黃立鶴.語料庫4.0:多模態(tài)語料庫建設(shè)及其應(yīng)用[J].解放軍外國語學(xué)院學(xué)報,2015(3):1-7.
[3]黃大崗,秦羿,徐賽穎.專門用途英語語料庫:挑戰(zhàn)、理據(jù)與愿景[J].寧波大學(xué)學(xué)報(人文科學(xué)版)2010(5):48-51.
[4]崔維霞,王均松.國內(nèi)學(xué)科專業(yè)語料庫研究現(xiàn)狀及發(fā)展趨勢[J].西安外國語大學(xué)學(xué)報,2013(1):55-58.
[5]張振虹,何美,韓智.大學(xué)公共英語多模態(tài)語料庫的構(gòu)建與應(yīng)用[J].山東外語教學(xué),2014(3):5O-55.
[6]馮志偉.語料庫與計算語言學(xué)研究叢書[M].北京:世界圖書出版公司,2013.