王春艷
摘 要: 語料庫免費綠色工具軟件AntConc,由日本學者Laurence Anthony開發(fā),具有詞語檢索、生成詞表和主題詞三大功能。本文介紹了AntConc3.2.1的三項主要功能;以語料庫語言學界的權威軟件Wordsmith4.0為參照軟件,以SPSS11.5為統(tǒng)計工具,驗證了其主要功能的可信度;并概要舉例說明了和三大功能相關的基于語料庫和語料庫驅動的外語教學與研究。
關鍵詞: AntConc;語料庫;綠色軟件
中圖分類號:H319.3文獻標識碼:A文章編號:1001-5795(2009)01-0045-0004
語料庫語言學從60、70年代發(fā)展至今,逐步成為一門成熟的學科。該學科的迅速發(fā)展從很大程度上歸功于計算機技術的進步和支持。許多工具軟件,如Claws,Pos-tagger,WordSmith,Mconcord等的開發(fā)對語料庫語言學的發(fā)展起著至關重要的作用。WordSmith是語料庫語言學的一個主要有力工具,在當今的語料庫語言學領域是公認的權威軟件,它由英國利物浦大學開發(fā),牛津大學出版社出版。WordSmith功能強大,但它是商業(yè)軟件。本文推薦使用的AntConc是由日本學者Laurence Anthony開發(fā)的綠色免費軟件,其版本在不斷更新。只要登錄到http://www.antlab.sci.waseda.ac.jp下載后即可直接使用。AntConc具有界面簡潔和操作方便的優(yōu)點,并基本實現了WordSmith的所有功能。該軟件的使用有助于語料庫語言學研究隊伍的壯大。本文通過重點介紹AntConc3.2.1的三大功能,即詞語檢索、生成詞表和主題詞功能,和WordSmith的基本功能進行對比,用統(tǒng)計軟件SPSS11.5統(tǒng)計分析,驗證了AntConc的可信度,并概要說明了圍繞其三項主要功能而開展的基于語料庫和語料庫驅動的外語教學研究,由此說明了計算機輔助研究方法在外語研究和教學中的重要性。
1 AntConc3.2.1軟件的主要功能
1.1 詞語檢索功能
從龐大的語料中檢索提取某個詞語或短語的所有詞條,是AntConc的基本功能。AntConc的檢索分為基本檢索和高級檢索?;緳z索功能可以實現對固定詞和詞組的檢索。檢索結果可以根據sort功能排序,并可以保存為text文件。
AntConc的高級檢索功能可以對搜索條件進行設定(context),例如,查找take和look的搭配,可以設定搜索詞為take,搭配詞(context word)為look,跨距(span)可以設定從右一(R1)到右五(R5),就能檢索到take a look, take on a peaceful look, take on a new look等搭配。
高級檢索還可以實現基于文件的檢索。要實現基于文件的檢索,研究者要先行編寫一個text文件,把要檢索的內容寫入文件。這樣可以一次性地對一組詞實現批量檢索。
為了驗證AntConc檢索結果的可信度,筆者使用AntConc對一組介詞(38個)在語料庫Brown中進行了檢索,其結果和語料庫語言學界公認的權威軟件Wordsmith4.0的檢索結果進行對比,統(tǒng)計計算得到二者相關值為1.00,這表明兩個軟件的檢索結果在0.01的水平上達到了顯著相關。進而可以論斷AntConc的檢索結果可以信賴。兩個軟件在Brown語料庫中檢索到38個介詞的頻次對比(采用log對數值),如圖1┧示。
AntConc的檢索功能可以實現對母語文本和學習者文本中有關語言現象的頻率統(tǒng)計。揭示母語語言現象及語言的發(fā)展規(guī)律;對照母語文本和學習者文本,發(fā)現其異同,了解外語學習者中間語的發(fā)展特點及發(fā)展規(guī)律。例如:英語中有很多近義詞,要研究比較其用法的區(qū)別,可以基于母語語料庫,對它們進行檢索、詞頻統(tǒng)計、人工分析后得出結論。以true 和real一組近義詞為例,用AntConc檢索Brown語料庫,分別得到含有real的索引行256條,含有true的索引行231條。從它們在句中充當的語法成分、語意韻、非詞語化使用狀況三方面進行分析。表1~3顯示了real和true在語料庫Brown中的語法成分、語義韻和非詞語化的使用狀況。研究結果表明real 和true在句中充當的語法成分存在著差別:Real在句中更多時候做定語,true在句中更多時候做表語。兩者搭配詞的語義韻也存在顯著差異:real既可以和褒義、中性詞語搭配使用,也可以和貶義詞語搭配使用,其語義韻表現為中性;true語義韻也表現為中性,但是它一般和褒義、中性意義的詞語搭配使用,很少與貶義詞語搭配使用。在非詞語化使用的程度上,形容詞real和true 之間也存在顯著差異: real 的非詞語化現象明顯,true的非詞語化現象不明顯(注:此研究數據為筆者2007年的相關研究的數據。)。
1.2 生成詞表功能(Wordlist)
根據某個語料庫,統(tǒng)計生成詞匯的詞頻表是AntConc又一大主要功能。生成詞表功能對教學大綱的制定、課本內容的編排起著舉足輕重的作用。它還為對比不同語料庫,不同文本即不同的語言群體的詞匯使用狀況提供可靠的語料依據。AntConc生成詞表的功能不但可以生成單獨的詞匯列表(wordlist),還可以生成詞塊(cluster)列表。AntConc的詞塊生成功能在cluster功能卡下操作。值得注意的是,由于計算機只是機械地切分統(tǒng)計詞塊的頻率,所以對于計算機生成的詞塊表,一定要進行后期的意義分析,把生成詞塊表中沒有意義的詞塊去除。
為了驗證AntConc詞表生成功能的可靠性,把AntConc基于語料庫Brown生成的詞表和WordSmith的詞表進行了對比,兩個詞表前1000個中有959個重疊詞(注:此研究數據使用武漢大學沈陽老師提供的軟件ROST計算得出,特此感謝。)。把959個重疊詞在Brown中出現的頻次進行統(tǒng)計計算,兩者相關值為0.977,結果表明兩者在0.01的水平上呈現顯著相關。因此可以得到結論:AntConc生成的詞表可以信賴?;贐rown生成的兩個詞表的重疊詞的頻次對比(采用log對數值)如圖2所示。
生成詞表用于大綱設計、課本編排的研究有很多:Ljung(1991)對比了瑞典EFL高級中學課本內容和Cobuild語料庫的檢索結果,發(fā)現在課本中出現頻率最高的前1000個詞中有20%未出現在Cobuild語料庫頻率最高的前1000個詞中。 Kennedy(1998)也觀察到了課本和語料庫的內容不一致現象。他發(fā)現表示量詞時,很多課本多用“all”和“every”,而書面語語料庫和口語語料庫都表明更地道的表達方法是用詞匯形式來達到量化的目的,如:使用entirely,completely,whole,throughout等副詞(摘自Sincliair,2004:41)。此類研究的基礎是基于語料庫所生成的詞表。
詞塊的研究也受到越來越多的語言學家的關注(Sinclair,1991;Lewis,1993,1997,2000;Nation,2001;Willis,1990;Nattinger,1992;Cook,1997等)(見楊,2005)。詞塊的研究表明母語講話者的語言中存在大量大于單個詞的詞塊,學習者的中間語也同樣存在著大量詞塊。語料庫驅動的詞塊研究范式由Sinclair(1991)首創(chuàng),Altenberg(1998)基于母語口語語料庫LLC(London Lund Corpus)對母語口語詞塊的特點研究被視為該范式下詞塊學研究的里程碑(衛(wèi)乃興,2007)。衛(wèi)乃興(2007)基于COLSEC描述了中國學習者英語口語的詞塊特征并發(fā)現,學習者用于表達命題內容的復現詞塊多于本族語者, 而用于實施語用功能的復現詞塊則嚴重少于本族語者甚至完全缺失, 由此影響到學習者話語的交互性、合作性、禮貌性與適切性等語用品質。濮建忠(2003)基于CLEC對中國英語學習者的書面語的詞塊特點有詳細的研究和分析,研究結果表明母語者前20個最常用的三詞詞塊無一出現在學習者最常用的20個三詞詞塊中;母語者的詞塊絕大多數似與語篇的內容無多大關系,而學習者的詞塊絕大多數與語篇內容直接相關。詞塊研究中對詞塊的檢索、統(tǒng)計功能,AntConc都能夠實現,這為詞塊研究提供了可靠的技術支持。
為了驗證AntConc生成詞塊功能的可信度,筆者對濮建忠(2005)的詞塊研究結果用AntConc進行重新統(tǒng)計,結果非常一致:基于母語語料庫Brown,AntConc生成的三詞詞塊和濮建忠(2005)使用Wordsmith生成的三詞詞塊的前20個最常用詞塊保持完全一致?;谥袊⒄Z學習者語料庫CLEC(非英語專業(yè)學生作文部分),AntConc生成的三詞詞塊列表最常用的前20個詞塊中含有濮建忠(2005)使用Wordsmith生成的三詞詞塊列表前20中的16個,未包括的四個詞塊也相繼出現在詞塊列表的第22、23、24和35位(如表4所示)。用AntConc生成的詞塊列表和濮建忠(2005)的研究結果一致:母語者前20個最常用的三詞詞塊無一出現在學習者最常用的20個三詞詞塊中。由此可以認為AntConc具有可靠的詞塊生成功能。
1.3 主題詞功能(keyword list)
通過比較兩個不同大小的語料庫,可以得到主題詞,也就是所研究的語料庫中頻率超常的詞語。計算主題詞需要兩個語料庫。一是觀察語料庫(observed corpus);一是參照語料庫(reference corpus)。一般來說,參照語料庫要比觀察語料庫大?;驹~表統(tǒng)計能夠提供一個語料庫文本的詞語頻率和分布信息,卻難以說明詞語在語境中的用法和詞語之間的關系;主題詞統(tǒng)計能提供語篇層面詞語的分布與文本主題的關系以及詞語之間的關系(李文中,2005)。
根據主題詞網絡分析,能夠發(fā)現主題詞觸發(fā)學生有關現實世界的認知結構,學生通過選擇詞語實現語義表達。學生的心理詞匯圍繞某個主題概念形成獨特的語義場,在語義場中,詞語與詞語之間具有復雜的語義關系和聯想關系,這些相互關聯的詞語在運用中通過在句子層面的詞語搭配和類聯結以及在語篇層面的詞語聯系體現出來。學生的作文成功與否,取決于他們能否構建圍繞主題、聯想以及詞語搭配關系的詞語網絡(李文中,2005)。
AntConc的主題詞功能可以在keyword list功能卡下操作。AntConc的主題詞功能既可以生成正主題詞(positive keywords)列表,也可以生成負主題詞(negative keywords)列表。
如圖3所示,以母語語料庫Brown為參照語料庫,觀察60位同學以Education為題的同題作文(注:60篇作文為2007年外研社暑期語料庫和語言研究培訓班提供數據,感謝李文中、梁茂成、許家金等老師的幫助和支持。)主題詞狀況。在AntConc的主題詞功能下,計算出60篇作文的主題詞。如表3所示:結果顯示的第一行是根據主題詞的主題性log likelihood值由高到低的排序。第二行是60篇作文中關鍵詞出現的絕對頻率。第三行是主題性log likelihood值。第四行是主題詞列表。
根據得到的主題詞表,可以畫出主題詞網絡圖,并進行主題詞分析(李文中,2005)。從education為題的60篇作文的主題詞表,可以看出該主題的行為者為I,we, you,us等表明學生認為教育是關系你我大家的問題。表達行為的詞有get,keep,receive,master等表達學生渴望通過教育得到知識、掌握知識的愿望。表示具體動作的動詞有study,learn,read,catch,等,說明學生認為要通過教育,通過學習、閱讀的方式,獲得知識。方位詞有school,university,society等,學生把教育和學校、大學聯系在一起,他們認為受教育的程度和在社會的發(fā)展以及畢業(yè)后步入社會的生存狀況息息相關。主題詞的聯想詞有l(wèi)ifelong,important,secure,future,useful,knowledge等,所有這些都能折射出學生對教育的積極肯定態(tài)度。
為了驗證AntConc的生成主題詞表功能的可信度,同樣對AntConc的主題詞生成功能和WordSmith4.0的主題詞功能進行了對比。以母語語料庫Brown為參照語料庫,分析60位同學以education為題的同題作文的主題詞狀況。對于AntConc和WordSmith4.0各自生成的正主題詞詞表的前170個詞進行了對比,其重疊詞有154個。154個重疊詞的頻次在0.01水平上的相關值為0.999;154個重疊詞的主題性值(log likelihood值)在0.01水平上的相關值為0.998。這表明AntConc的主題詞生成功能可以信賴。
2 AntConc3.2.1軟件的其他功能
AntConc除了具有上述三大主要功能以外,還可以提供檢索詞的上下文背景,檢索詞在文本中出現的位置圖,計算搭配詞的搭配力等功能。對于語法標注過的文本,AntConc還可以通過正則表達式實現對一定語法單位的檢索,這對詞法、句法的研究是非常有力、可靠的支持。
3 小結
本文舉例概述了AntConc的主要功能及相關研究,通過對比AntConc和WordSmith的詞語檢索、生成詞表和主題詞三大基本功能,我們可以得到如下結論:免費綠色軟件AntConc3.2.1功能齊全,值得信賴。它為基于語料庫和語料庫驅動的外語教學與研究有著巨大的支持,對日益廣大的外語研究者提供了免費的幫助,這里還要非常感謝日本學者Laurence Anthony的開拓和奉獻精神。2007年外研社組織的語料庫和語言研究暑期研討班也重點介紹了AntConc的操作用法。希望AntConc的功能越來越完善,更多的學者能夠掌握這個有用的工具,開展自己的外語教學和研究,為我們的外語研究和教學發(fā)展做貢獻?!?/p>
參考文獻
[1] Anthony, L. AntConc: Design and Development of a Freeware Corpus Analysis Toolkit for the Technical Writing Classroom[C]. 2005 IEEE International Professional Communication Conference Proceedings,2005.
[2] Biber, D., Conrad, S. and Reppen, R. Corpus Linguistics[M]. Foreign Language Teaching and Research Press, Cambridge University Press,2000.
[3] Lyons J. Language and Linguistics[M]. Cambridge University Press, Cambridge. M,1981.
[4] Kennedy, G. An Introduction to Corpus Linguistics[M]. Foreign Language Teaching and Research Press,2000.
[5] Sinclair, J. How to use corpora in Language Teaching[M]. John Benjamins Publishing Company,2004.
[6] Sinclair, J. Trust the text[M]. Routledge London,2004.
[7] Thomas, J. Using Corpora for Language Research[M]. Foreign Language Teaching and Research Press,2001.
[8] 王立非,梁茂成.Wordsmith方法在外語教學中的應用[J].外語電化教學,2007.6.
[9] 衛(wèi)乃興.詞語搭配的界定與研究體系[M].上海:上海交通大學出版社,2002.
[10] 衛(wèi)乃興,李文中,濮建忠.語料庫應用研究[C].上海:上海外語教育出版社,2005.
[11] 楊惠中,桂詩春,楊達復.基于CLEC語料庫的中國學習者英語分析[C].上海:上海外語教育出版社,2005.
[12] 楊惠中.語料庫語言學導論[M].上海:上海外語教育出版社,2004.
Applications of AntConc in Foreign Language Teaching and Research
WANG Chun-yan
(Foreign Language Institute, Shanghai Jiaotong University, Shanghai 200240, China)
Abstract: AntConc is a free and green tool developed by the Japanese scholar Laurence Anthony. AntConc featured by three main functions of concordance, wordlist and keywords now is extensively applied in the field of corpus linguistics. This paper introduces the three main functions of AntConc 3.2.1 and confirms its reliability in reference to the authority software Wordsmith 4.0. during which the statistics software SPSS 11.5 is employed. Some corpus-based and corpus-driven studies related to its three main functions in foreign language teaching and researching are also exemplified in this paper.
Key words: AntConc; Corpus; Green Software