曾利霞
(懷化學(xué)院外國語言文學(xué)系,湖南懷化418008)
語料庫能成規(guī)模地將零散的書面或口語語料匯集起來,加以系統(tǒng)管理和開發(fā),并利用軟件進(jìn)行自動(dòng)檢索;其優(yōu)勢(shì)是可以批量地獲取人們言語行為的信息,便于發(fā)現(xiàn)規(guī)律和趨勢(shì)以用于研究與教學(xué)[1]。國內(nèi)基于語料庫的教學(xué)研究的絕對(duì)數(shù)量越來越大,將語料庫應(yīng)用于外語教學(xué)的趨勢(shì)也越來越明顯[2]。隨著語料庫語言學(xué)的興起,國內(nèi)外學(xué)者們致力于學(xué)習(xí)者語料庫的開發(fā),陸續(xù)建立起了多個(gè)大規(guī)模的語料庫,如國外 LLC(Longman Learners' Corpus)、BNC(British National Corpus)、ANC(American National Corpus)、 LOCNESS(Louvain Corpus of Native English Essays)等語料庫,國內(nèi)CLEC(Chinese Learners' English Corpus)、 MSEE(Middle School Educational English)、COLSEC(Chinese Learners'Spoken English Corpus)、
SWECCL 1.0和SWECCL 2.0等語料庫。學(xué)習(xí)者語料庫的建設(shè)已經(jīng)成為當(dāng)今語料庫語言學(xué)研究的重點(diǎn)之一[3],這些大規(guī)模語料庫的建成為之后的各種相關(guān)研究提供了堅(jiān)實(shí)而有價(jià)值的數(shù)據(jù)資源。
隨著語料庫建設(shè)和輔助英語教學(xué)知識(shí)的進(jìn)一步普及與相關(guān)技術(shù)的飛速發(fā)展,廣大一線教師可以在充分學(xué)習(xí)專家們的語料庫建設(shè)經(jīng)驗(yàn)后,從自己的教學(xué)與研究需求出發(fā)建設(shè)小型專用的語料庫。這種小型專用語料庫有著種種優(yōu)勢(shì):目標(biāo)明確、語料收集針對(duì)性強(qiáng)、語料能不斷擴(kuò)展、及時(shí)更新、自主設(shè)計(jì)、靈活標(biāo)注[4]。目前越來越多的小規(guī)模的語料庫已經(jīng)建成或正在建設(shè)中,涵蓋了口語語料、書面語語料、雙語語料、對(duì)比語料、特殊英語語料等不同類型和范圍。這些語料庫是國內(nèi)英語學(xué)習(xí)者語料庫總體建設(shè)的有效補(bǔ)充,為建設(shè)者們的教學(xué)和科研提供了真實(shí)的語料,具有實(shí)際的研究和教學(xué)指導(dǎo)雙重意義。
HUEMWEC的建設(shè)和使用有著重要的意義。首先,該語料庫的建立及應(yīng)用將推動(dòng)我校英語專業(yè)學(xué)生根據(jù)各自需求和興趣,進(jìn)行探索式—發(fā)現(xiàn)式—驗(yàn)證式學(xué)習(xí)。其次,該語料庫的建立有助于相關(guān)一線教師避免主觀和偏頗,科學(xué)地、理性地、全面地掌握學(xué)生的語言學(xué)習(xí)情況和語言特點(diǎn),找出學(xué)生寫作中相對(duì)普遍存在的問題,從而開展有的放矢的教學(xué)。再次,該語料庫的建設(shè)是國內(nèi)學(xué)習(xí)者語料庫總體建設(shè)的補(bǔ)充。因此,該語料庫的建設(shè)是必要的。
語料庫的建立是一項(xiàng)非常費(fèi)時(shí)費(fèi)力的工作。一個(gè)大型、系統(tǒng)語料庫的建立可能需要研究者們付出數(shù)年甚至數(shù)十年的努力。但是,基于本校師生教學(xué)與研究需求的微型語料庫庫容量相對(duì)較小,標(biāo)注和分析也相對(duì)容易,而且可以在教學(xué)過程中不斷補(bǔ)充,因而難度大大降低。另外,筆者開展同行之間的合作,并集合了幾位感興趣的高年級(jí)學(xué)生,共同致力于HUEMWEC的建設(shè)和發(fā)展。因此,該語料庫的建設(shè)具有可行性。
小型專用語料庫HUEMWEC具有以下四個(gè)主要特點(diǎn):
(一)微型。與CLEC、COLSEC等大型的普遍適用于英語學(xué)習(xí)者、庫容量為數(shù)百萬詞次的語料庫不同,初步建成的HUEMWEC僅收集了640篇懷化學(xué)院2010級(jí)學(xué)生專四模擬考試作文,約13萬詞次。
(二)本地化。HUEMWEC主要用于本校英語專業(yè)師生教與學(xué)的分析、反思、發(fā)展與研究,從而為本校及同等水平學(xué)校的英語教學(xué)提供參考,因此,它的語料僅限于本校英語專業(yè)學(xué)生書面英語。但是,筆者及其團(tuán)隊(duì)采用大型語料庫的賦碼和標(biāo)注符號(hào),以便在一定條件下資源共享。
(三)發(fā)展性。HUEMWEC收錄的語料可以識(shí)別來源并且可進(jìn)行歷時(shí)的跟蹤調(diào)查。目前該語料庫初步建成,但筆者及其團(tuán)隊(duì)將根據(jù)教學(xué)和研究的需求繼續(xù)致力于該庫的擴(kuò)大和完善,收錄不同年級(jí)學(xué)生不同時(shí)期的書面英語語料,以便動(dòng)態(tài)地掌握其書面語言能力的變化。
(四)參與性。當(dāng)前及后續(xù)的建庫,都由筆者與同事合作指導(dǎo)若干高年級(jí)學(xué)生開展語料的收集、輸機(jī)、校對(duì)、賦碼、標(biāo)注和入庫等工作。學(xué)生的參與一方面出于分散勞動(dòng)強(qiáng)度的要求;另一方面,參與的學(xué)生也為自己畢業(yè)論文的撰寫獲取了實(shí)證性的數(shù)據(jù)。
(一)語料的來源與分類保存
HUEMWEC語料來自懷化學(xué)院2010級(jí)兩次專四模擬考試寫作語料。試卷批改之后輸入計(jì)算機(jī)存檔。這些未經(jīng)處理的語料叫做生文本 (raw text)。存檔時(shí)把每一個(gè)生文本作為獨(dú)立文件用學(xué)號(hào)單獨(dú)命名存為純文本(.txt)格式,便于讓軟件識(shí)別和添加新的文件。
(二)語料的整理、賦碼與標(biāo)注
將生文本合并后進(jìn)行簡(jiǎn)單的整理和加工。首先,利用“文本整理器”軟件批量進(jìn)行去除段落首尾空格、去除首跳格、去除段落間空行、全角標(biāo)點(diǎn)變半角標(biāo)點(diǎn)等處理[5],然后重新命名該整理文本并保存。接著,在文本頭用尖括號(hào)標(biāo)出該語篇的作者姓名、性別、年級(jí)、班級(jí)、文本字?jǐn)?shù)這些基本信息,便于之后的研究與繼續(xù)建設(shè)。然后,利用德國斯圖加特大學(xué)計(jì)算語言學(xué)研究所Helmut Schmid設(shè)計(jì)的TreeTagger免費(fèi)工具對(duì)其進(jìn)行自動(dòng)詞性賦碼操作并另命名保存。最后,手動(dòng)進(jìn)行一些簡(jiǎn)單的錯(cuò)誤標(biāo)注。錯(cuò)誤標(biāo)注是基于表1對(duì)錯(cuò)誤標(biāo)注的賦碼進(jìn)行的。
表1
簡(jiǎn)單來說,在完成規(guī)劃、語料收集、輸機(jī)、校對(duì)、賦碼、標(biāo)注、入庫這些工作后,HUEMWEC初步建成。筆者及其團(tuán)隊(duì)會(huì)在今后的教學(xué)中不斷添加新的語料并根據(jù)不同的需求補(bǔ)充標(biāo)注,使其發(fā)揮更大的作用。
HUEMWEC的建成和后續(xù)發(fā)展可以在以下四個(gè)方面發(fā)揮積極作用:
(一)促進(jìn)自主型和探究型學(xué)習(xí)模式的培養(yǎng)
本族語語料庫可以為語言學(xué)習(xí)者提供真實(shí)的、地道的目的語表達(dá)方式,而作為學(xué)習(xí)者語料庫的HUEMWEC能夠清楚地反應(yīng)出本校英語專業(yè)學(xué)生綜合的語言水平和普遍存在的語言使用問題。兩者結(jié)合起來使用,學(xué)生在老師的指導(dǎo)下使用易于操作的檢索軟件如文本分析程序Writer's Workbench,進(jìn)行對(duì)比、分析、探索、發(fā)現(xiàn)、總結(jié),在自我探究的過程中發(fā)展語言能力。這種探究式的學(xué)習(xí)方法可以延伸到課堂之外,學(xué)生掌握了這種方法以后可以隨時(shí)利用檢索工具,解決自己學(xué)習(xí)中遇到的各種疑問,從而達(dá)到自主學(xué)習(xí)的目的。
(二)確定學(xué)生中間語中的典型錯(cuò)誤,增強(qiáng)教學(xué)的針對(duì)性
筆者和同事在教學(xué)過程中發(fā)現(xiàn)學(xué)生中間語中存在的錯(cuò)誤數(shù)量大種類多,那么哪些是值得進(jìn)一步關(guān)注的典型錯(cuò)誤呢?教師幫助學(xué)生認(rèn)識(shí)到自己在語言使用中的錯(cuò)誤并改正它們的顯性教學(xué)方式比一味給學(xué)習(xí)者提供正確語言輸入的隱性教學(xué)方式更容易使學(xué)生在語言學(xué)習(xí)方面取得進(jìn)步[6]。HUEMWEC建成之后,就可以利用該語料庫數(shù)據(jù)分析本系學(xué)生錯(cuò)誤的類型、特點(diǎn)和原因,相應(yīng)地給予針對(duì)性的指導(dǎo)。例如,筆者在批改作業(yè)的時(shí)候發(fā)現(xiàn)學(xué)生常產(chǎn)出這樣的句子“Venice is greatly benefited from its extensive contact with China”, 檢索 HUEMWEC后發(fā)現(xiàn)該類型的錯(cuò)誤具有非常強(qiáng)的代表性。目前,筆者正致力于統(tǒng)計(jì)該類型的錯(cuò)誤,分析原因,以期在今后的教學(xué)中給學(xué)生明確、有效的指導(dǎo)。
(三)為教和學(xué)的評(píng)價(jià)與反思提供更全面的依據(jù)
與考試成績(jī)相比,HUEMWEC的檢索數(shù)據(jù)更能全面地反映出本校學(xué)生綜合語言水平與老師的教學(xué)效果。通過分析該語料庫數(shù)據(jù),可以掌握學(xué)生語言在詞匯、句子結(jié)構(gòu)、格式、斷句、銜接手段等各方面的特點(diǎn),從而實(shí)質(zhì)性地評(píng)價(jià)教和學(xué)的效果。另外,隨著HUEMWEC的擴(kuò)充,縱向比較學(xué)生不同時(shí)期的書面語言,可以動(dòng)態(tài)地了解教學(xué)對(duì)學(xué)生語言能力發(fā)展的干預(yù)效果及學(xué)生語言能力的發(fā)展。
(四)為高年級(jí)學(xué)生撰寫畢業(yè)論文提供數(shù)據(jù)支持
在興趣的驅(qū)動(dòng)下,2010級(jí)幾位學(xué)生選擇寫作基于語料庫研究的畢業(yè)論文,如基于HUEMWEC的懷化學(xué)院英語專業(yè)學(xué)生寫作現(xiàn)狀分析、語法錯(cuò)誤分析、冠詞誤用分析等。他們?cè)贖UEMWEC基礎(chǔ)上根據(jù)自己的需求進(jìn)行再加工,不但豐富了自己的研究素材,也為HUEMWEC的建設(shè)做出了貢獻(xiàn)。
盡管HUEMWEC的建設(shè)還需要不斷的豐富和完善,但是我們?cè)谑占淼倪^程中一邊分析、一邊利用語料為教學(xué)服務(wù),已經(jīng)取得了初步成效。筆者相信,通過團(tuán)隊(duì)的力量和研究的擴(kuò)展與繼續(xù),HUEMWEC的標(biāo)注會(huì)更細(xì),內(nèi)容也會(huì)更加充實(shí)。同時(shí),它在培養(yǎng)學(xué)生英語寫作能力和自主學(xué)習(xí)能力、促進(jìn)相關(guān)課程的教學(xué)效果及師生的科研等方面會(huì)得到更廣泛的應(yīng)用。
向參與HUEMWEC建庫工作的段海霞、唐潔瓊、黃春等同學(xué)誠表謝意。
[1]劉學(xué)惠.英語師范生課堂話語的建庫、分析和應(yīng)用[J].外語電化教學(xué),2006,(5):42-46.
[2]刑富坤.語料庫:值得教育技術(shù)學(xué)關(guān)注的新型學(xué)習(xí)資源 [J].解放軍外國語學(xué)院學(xué)報(bào),2006,(2):67-70.
[3]甑鳳超,張霞.語料庫語言學(xué)發(fā)展趨勢(shì)展望[J].外語界,2004,(4):74-77.
[4]謝家成.論個(gè)人教學(xué)語料庫的構(gòu)建 [J].外語電化教學(xué),2003,(3):30-33.
[5]梁茂成,李文中,許家金,等.語料庫應(yīng)用教程 [M].北京:外語教學(xué)與研究出版社,2010.
[6]Carroll,S.&Swain,M.Explicit and Implicit Negative Feedback:An Emperical Study of the Learning of Linguistic Generalization[J].Studies in Second Language Acquisition.1993,(15):357-366.