孔霜梅
【摘 要】語料庫語言學為語言研究與教學提供了一種全新的方法和思路。報刊英語語料庫為語言研究提供了嶄新的研究視角,讓語言研究更加科學客觀,對報刊英語語言的研究和教學做出了巨大貢獻。 本文主要回顧國內外報刊英語語料庫的建設和應用成果,指出國內對報刊英語研究的不足之處,同時展望報刊英語語料庫的發(fā)展趨勢。
【關鍵詞】語料庫;報刊英語語料庫;報刊英語研究
1 語料庫
20世紀60年代初夸克(Randolph Quirk)等人創(chuàng)建了現(xiàn)代英語語料庫?,F(xiàn)代英語語料庫對英語語言學界產(chǎn)生了深遠的影響。語料庫是指按照一定的語言學原則,運用隨機抽樣方法,收集自然出現(xiàn)的連續(xù)的語言文本或話語片段而建成的具有一定容量的大型電子文庫[1]。80年代之后,語料庫語言學成為一門新興語言學分支學科。語料庫語言學是在語料庫的基礎上對語言進行分析和研究的科學,為語言研究與教學提供了一種全新的方法和思路。語料庫語言學研究語言行為,而不是語言能力,它通過研究語言在實際情景中的運用來獲取語言的使用規(guī)律。近年來,隨著第二代大規(guī)模語料庫的誕生,不斷地涌現(xiàn)出語料庫研究的相關成果,研究內容涉及到二語習得、句法和語義、音系學、翻譯和個人自主學習等方面。語料庫在現(xiàn)代語言學研究和語言教育中發(fā)揮著越來越重要的作用,為語言研究提供了嶄新的思維模式。
報刊英語語料庫屬于新聞英語語料庫的一個重要分支。是根據(jù)統(tǒng)計學理論、語料庫語言學理論和新聞學理論,運用科學的抽樣方法,收集報刊中自然出現(xiàn)的連續(xù)的語言運用文本或話語片段而建成的具有一定容量的大型電子文庫[2]。隨著科技信息和電腦技術的發(fā)展,大量的語料庫應用工具使得語言學工作者在進行語料庫研究的時候能夠像操作計算機文件系統(tǒng)一樣方便的使用語料庫。報刊英語語料庫借助計算機處理語料,需要對語料庫進行文本分析和檢索。語料庫研究中常用的檢索工具有MicroConcord、Wordsmith Tools、Concordance、TACT (Text Analysis Computing Tools)等,它們的基本功能包括詞表生成、語篇統(tǒng)計、排序等等[3]。這些語料庫的檢索工具和分析軟件都能夠應用于語料庫, 幫助報刊英語研究者實現(xiàn)可行性的研究目標。
報刊英語語料庫為語言研究提供了嶄新的研究視角,讓語言研究更加科學客觀,對報刊英語語言的研究和教學做出了巨大貢獻。 本文主要回顧國內外新聞英語語料庫的建設和應用成果,指出國內新聞英語研究的不足之處,同時展望英語報刊語料庫的發(fā)展趨勢。
2 國內外報刊英語語料庫研究現(xiàn)狀
2.1 國外報刊英語語料庫的研究現(xiàn)狀
路透社語料庫于2000年開發(fā)完成。收集了從1996年8月20日到1997年8月19日英國路透社發(fā)布的806791篇新聞樣本,共2億詞次。該語料庫由路透社開發(fā),采用了擴展標記語言,具有擴展性、開放性、結構化、互操作性和支持多國語言的特點,為英國通訊社語言的學術研究提供了參照。
北美新聞文本語料庫由美國賓夕法尼亞大學語言學數(shù)據(jù)協(xié)會的David Graff組織開發(fā)完成。該庫主要應用在信息檢索和語言建模兩方面。該庫采用標準通用置標語言SGML,共3億5千萬詞次。庫樣本主要來自《洛杉磯時報》、《華盛頓郵報》、 《紐約時報》 和路透社從1994到1997年的新聞文本。為新聞報刊的語言研究提供了參照。
羅斯托克英語報刊歷史語料庫由德國羅斯托克大學的學者Kristina Schneider組織開發(fā)。該庫主要用于英語新聞業(yè)的歷時研究。樣本來自60家英國報紙,時間自1700年到2000年,以大約30年為間隔進行等距抽樣。庫的結構分布以兩條小報軸線和一條大報軸線為標準,每條軸線上的每個時期取樣本2萬詞次,全庫規(guī)模達60萬詞次。該語料庫為英語新聞語言的原型研究和不同時期不同報刊語言的平行比較研究提供了參考。
METER語料庫是由英國設菲爾德大學在英國工程物理科學研究會的資助下開發(fā)的一個對比語料庫。庫樣本來源于英國報聯(lián)社(British Press Association, PA)和9家采用PA原始通訊稿的英國全國性報紙。該庫幫助研究者對通訊社新聞文本和英文報紙新聞文本之間的微妙關系以及新聞文本再使用的過程、原則、識別提供了參考。
蘇黎世英文報紙語料庫是個歷時語料庫。 該庫采樣于1671年至1791年共120年間的英國報紙,總詞次達120萬。語料庫采用標準化SGML體系,分為兩大部分,國外新聞和國內新聞。所有語料以30年的時間等分成四部分。該語料庫不僅促進了對17和18世紀英文報紙的研究并且使報刊語言特點的歷時比較成為可能。
貝德娜雷克英國報紙語料庫由悉尼大學語言學系的Monika Bednarek創(chuàng)建。僅7萬詞次,但報紙和新聞的各個要素基本上都考慮在內,而不像大型語料庫那樣直接收錄不加以區(qū)分。該語料庫對英國的大報和小報進行了專門劃分,故有兩個子庫,大報庫和小報庫。專門用于對英國報紙語言進行比較話語分析。
另外,美國國防部高級研究規(guī)劃署開發(fā)了《華爾街日報》口語語料庫,英國劍橋大學開發(fā)了劍橋版英國口音《華爾街日報》口語語料庫??谡Z語料庫用于連續(xù)語音識別系統(tǒng)研究,為報刊英語的口語研究提供了參考。
2.2 國內報刊英語語料庫的研究現(xiàn)狀
受國外語料庫語言學研究和發(fā)展的影響,國內語料庫的建設和研究也呈現(xiàn)出快速發(fā)展的趨勢。但是報刊語料庫的建設還不完善,基于語料庫的報刊語言和教學的相關研究卻還在起步階段。
鄭志恒博士開發(fā)了國內首個百萬詞級的報刊英語語料庫。該庫的建設采用數(shù)據(jù)驅動的實證主義研究方法,定性和定量相結合的分析手段。全庫采用SGML置標語言,能夠方便使用Wordsmith Tools等語料庫分析和檢索軟件進行識別處理。該語料庫有四個子庫, 分別為英國報刊純新聞報道文本子庫、英國報刊意見性報道文本子庫、美國報刊純新聞報刊文本子庫和美國報刊意見性報道文本子庫。
范蓓依據(jù)語料庫的建庫原則,以《中國日報(英文版)》 頭版新聞為語料建立小型語料庫。該研究主要利用語料庫回答了兩個問題:《中國日報》的語言在改革開放三十年中有哪些變化? 造成這些變化的原因是什么? 研究結合歷時語言學和社會語言學的研究成果,通過對詞頻、詞匯搭配、典型句型特征、關鍵詞對照等方面進行歷時性研究,展示了語言在不同年代的使用情況,揭示了語言變化格局,佐證了社會的發(fā)展與變遷[4]。
對外經(jīng)貿大學的徐珺結合語料庫技術和商務英漢翻譯理論,構建財經(jīng)新聞英漢平行語料庫。應用語料庫對財經(jīng)新聞英譯漢的翻譯語言特征進行了研究[5]。該庫樣本主要來自《金融時報》、《華爾街日報》、《福布斯》、《財富》及其相應中文網(wǎng)站的財經(jīng)新聞的報道,時間范圍是2012年6月至2013年10月,共計935個英漢平行文本,全部文本實現(xiàn)了英漢段落層級對齊。
3 結語
語料庫不是簡單的任意話語的集合,它是依據(jù)科學的抽樣原則而選擇的有限話語集,語料庫要以計算機可處理的形式儲存,要具有代表性,而且要最大限度地反映研究對象的特點[6]。報刊英語語料庫同報刊的大型電子文檔有著最本質的區(qū)別。報刊英語語料庫實際上是通過對報刊中自然語言運用的統(tǒng)計學抽樣,以一定大小的語言樣本代表報刊英語中所確定的語言運用總體[7]。國內的語料庫被廣泛應用于教學、翻譯、詞匯、語義、詞典和語法等語言研究領域。我國語料庫研究已取得了豐碩的研究成果,但同時也存在一定的問題。在今后的研究中,應該充分地利用語料庫對新聞類語言展開更深入的研究,從而促進英語報刊語料庫建設和應用的發(fā)展。
【參考文獻】
[1]楊慧中. 語料庫語言學導論[M].上海: 上海外語教育出版社,2002.
[2]鄭志恒. 英美報刊英語標注語料庫建設研究[J]. 外語研究, 2007(2).
[3]余國良. 語料庫語言學的研究與應用[M].四川大學出版社,2009.
[4]范蓓. 基于語料庫的《中國日報》語言變化歷時分析[D]. 上海師范大學,2009.
[5]徐珺, 自正權. 基于語料庫的英語財經(jīng)新聞漢譯本的詞匯特征研究[J]. 中國外語,2014(5).
[6]McEnery,T. &A.Wilson.Corpus Linguistics [M].Edinburgh: Edinburgh University Press, 2001.
[7]鄭志恒.報刊英語語料庫概論[M]. 南京大學出版社, 2009.
[責任編輯:曹明明]