郭 茜
(清華大學,北京,100084)
在各種自然語言處理系統(tǒng)及作為外語/第二語言的英語(EFL/ESL)教學中,搭配已受到越來越多的關注。不過,英語教學以及電腦輔助語言學習(Computer Assisted Language Learning,CALL)更多強調搭配在語言產(chǎn)出中可能發(fā)揮的重要作用,而較少考慮搭配與語言理解/處理的關系。本文簡要回顧有關搭配的定義及現(xiàn)有對搭配的研究,并初步探討搭配對于涉及句子處理的英語測試結果可能存在的影響。
對于搭配并沒有統(tǒng)一的定義,最廣義的定義是詞匯的同現(xiàn)(co-occurrence)(如Sirinaovakul & Chancharoen 2002;Williams 1996)。在語料庫語言學中具體定義為:基于各單詞的詞頻,單詞組合出現(xiàn)的頻率高于預期概率的,即為搭配(Mason & Platt 2006:159)。但基于頻數(shù)的方法會將his eyes和eyes were識別為搭配(Hardy 2004)。但這種意義上的搭配或多或少是一種自由組合。
另一種定義要嚴格得多:視為搭配的單詞組合,其意思難以從各單詞的意思推斷(DeMark & Behrens 2004)。此意義上的搭配近似于習語(idiom)。
第三種定義將搭配定義可以從構成詞匯的意思推斷出其含義的單詞組合,但其中至少一個組成單詞不能隨意選擇(Benson,Benson & Ilson 1997;Chan & Liou 2005;Cowie 1994;Nesselhauf 2003;Nesselhauf & Tschichold 2002)。以do damage (to)和make a complaint為例,它們的意思一目了然,但究竟用do還是make,卻不能隨意選擇。
鑒于本文的重點是搭配對測試結果可能具有的影響,所以采用第三種定義。自由組合可能太過普遍,以致不能真正促進或妨礙語言的理解與產(chǎn)出。另一方面,英語測試中考查句子處理能力多使用完成句子一類題型,這些題型很少在選項(干擾項或正確答案)中涉及習語。相比之下,將搭配的一部分(如搭配resolve a dispute中的resolve)從完成句子題的題干中取出,用作正確答案或是干擾項,卻是比較常見的。
在進一步研究完成句子題中的搭配對考生成績可能產(chǎn)生的影響前,下面先簡要回顧不同領域里對搭配的研究。
搭配在CALL系統(tǒng)中經(jīng)歷了從忽視到廣受關注的過程。Nesselhauf和Tschichold(2002)相信,對語言學習者最具重要性的多詞單元(multi-word units)中,搭配占據(jù)一席之地。她們研究操德語的英語學習者在市面上能夠購買到的CALL英語詞匯系統(tǒng),考察這些系統(tǒng)在多大程度上能幫助英語學習者學習搭配。結果發(fā)現(xiàn),在所有調查的系統(tǒng)中,唯一強調搭配的系統(tǒng)所編輯的練習項目對目標使用人群沒有太大用處。不過近年來,隨著教育者對搭配在語言學習中重要性的認識逐步加深,也隨著搭配教學經(jīng)驗的逐步積累,狀況得到了很大改善。例如,Wu,Franken和Witten(2010)介紹了一套基于數(shù)字圖書館的搭配學習系統(tǒng),該系統(tǒng)利用自然語言處理技術自動識別輸入文件中的搭配,并在教師監(jiān)控下,自動生成練習供學生訓練。Chang等(2008)開發(fā)了一套旨在辨識并糾正臺灣英語學習者由于受母語影響而產(chǎn)生的動詞名詞錯誤搭配(miscollocation),這套系統(tǒng)還提供能與相應名詞搭配的動詞列表,供學習者選擇。Chen(2011)也介紹了一套類似系統(tǒng)。
不少英語詞典現(xiàn)在也越來越重視搭配。早在1997年出版的TheBBIDictionaryofEnglishWordCombinations列出了大量在名詞前可以使用的動詞和形容詞搭配及在形容詞前面可以使用的副詞搭配等,對于廣大英語學習者在進行英語寫作時的選詞非常有幫助?,F(xiàn)在的朗文系列詞典(如LongmanDictionaryofContemporaryEnglish)也在很多詞條下加入了搭配用法。
與此同時,搭配作為詞匯學習的一個重要組成部分,也受到EFL/ESL教師越來越多的關注。他們意識到,搭配是一種重要的外語知識類型,并且對英語學習者造成了學習困難(Chan & Liou 2005;Nesselhauf 2003)。有鑒于此,不少教師和研究人員指出,應該將搭配作為整體講授,而不是單教組成搭配的每個孤立單詞(Chan & Liou 2005;Ellis & Sinclair 1996;Nesselhauf 2003;Nesselhauf & Tschichold 2002)。此外,還應幫助EFL/ESL學習者認識到搭配確實存在,并且具有跨語言差異(Nesselhauf & Tschichold 2002)。部分英語教師已經(jīng)有意識地在教學中專門引入搭配訓練,收效普遍不錯(Chan & Liou 2005)。
關于搭配的現(xiàn)有研究多數(shù)著眼于分析英語學習者容易出現(xiàn)的搭配錯誤以及如何幫助學習者擴展搭配知識,往往更多注重搭配在語言產(chǎn)出中的作用,而忽視在語言處理/理解中的作用。誠然,搭配與習語不同,能從組成詞的意思推斷其意,所以比較容易理解。但語言理解不僅僅涉及識別搭配,了解其意;搭配還可能對句子處理產(chǎn)生語境效果/啟動效應(contextual/priming effect),這對于涉及句子處理的測試題型影響尤其大。搭配對句子處理的影響,鮮少有人研究,對涉及句子處理的測試結果的影響,則更是缺乏研究。進行這些研究,能填補相關的文獻空白,研究結果對測試出題人員也有借鑒作用。
對于語言熟練使用者(如本族語者或是外語水平很高的語言學習者)和非熟練使用者,搭配在句子處理中所起作用可能不同。對熟練使用者而言,組成搭配的一部分形成一種信號,提示另一部分可能會出現(xiàn)。搭配越強,這種提示效果(cuing effect)也越強。換言之,搭配能通過提供語境影響語言熟練使用者的句子處理,并且這種語境效果的強度與搭配的相對強度相關聯(lián)。
不少研究人員考察了搭配的語境效果。Williams(1996)證實搭配確實具有語境效果:搭配的一部分會啟動激活與其語義相關的另一部分。Abu-Rabia(2003)也發(fā)現(xiàn),單詞(如clearing)可能激活長期記憶中的搭配(如forest clearing)。Miller(1999)、Sirinaovakul和Chancharoen(2002)以及Trost等人(2005)對于搭配的語境效果都有類似結論。這些研究顯示,組成搭配的一部分出現(xiàn)時,可能會通過觸發(fā)搭配,使得語言熟練掌握者對還有可能出現(xiàn)的另一部分有所預期,從而提高他們完成句子處理任務的表現(xiàn)。
搭配對句子處理的影響還可能因搭配的相對強度而不同。Ellis(2006:1)認為,“語言學習者是依靠直覺的統(tǒng)計學家”,“人類的學習對于頻率具有敏感性:遭遇刺激因素的次數(shù)愈多,對其處理就愈快愈準確”(5)。因此,與相對較弱的搭配相比,相對較強的搭配出現(xiàn)一部分時,語言熟練使用者更容易聯(lián)想到搭配的另一部分,搭配語境有助于他們完成句子處理任務。
搭配的相對強度有多種評估方法(Futagietal.2008;Li & Wong 2003)。其中一種常用方法是計算互信息(mutual information)(Hardy 2004;Trostetal.2005)。這種方法由計算語言學家Church和Hanks(1990)提出。假設兩個單詞(w1和w2)在某一語料庫中出現(xiàn)的詞頻分別為P(w1)和P(w2),它們的聯(lián)合概率為P(w1,w2),則兩個單詞的互信息定義為:
互信息測量兩個單詞間的關聯(lián),即搭配的相對強度。
下面以美國大學理事會(College Board)在學術能力評估測試(Scholastic Achievement Test,SAT)網(wǎng)頁所給完成句子題型的例題①為例加以說明:
Hoping to ________ the dispute, negotiators proposed a compromise that they felt would be ________ to both labor and management.
(A) enforce...useful
(B) end...divisive
(C) overcome...unattractive
(D) extend...satisfactory
(E) resolve...acceptable
這道題的五個選項中,有三個選項的前半部分表示“使(紛爭)消除”(即選項B、C和E),其中選項E為正確答案。這三個選項中,即使僅基于簡單的谷歌搜索,也能計算發(fā)現(xiàn),選項E所涉及的搭配(resolve a dispute)要比另兩個選項涉及的搭配(end a dispute和overcome a dispute)互信息得分高,為更強搭配(這也與英語熟練使用者的語感直覺一致)。表1顯示谷歌搜索結果數(shù)量。其中名詞dispute的數(shù)量為搜索dispute和disputes的結果總和;每個動詞的數(shù)量包括搜索動詞原形、動詞的現(xiàn)在分詞、動詞的過去式和過去分詞的結果總和;動詞+dispute則包括動詞的上述幾種形式分別接“a dispute/disputes/the dispute/the disputes”的搜索結果數(shù)量總和。
表1 谷歌搜索結果數(shù)量
在谷歌中搜索a和the這兩個英語中最常見的單詞,搜索結果數(shù)量都為25,270,000,000,將表1中搜索結果數(shù)量除以此數(shù),估算詞頻和聯(lián)合概率,再套用公式(1)計算三個搭配的互信息得分。從表2顯示的結果可以看出,end+dispute和overcome+dispute的互信息得分相近,都明顯低于resolve+dispute的互信息得分。
表2 基于谷歌搜索的搭配互信息得分估值
由于resolve a dispute的互信息得分比另兩個搭配高,我們可以預測,與resolve為干擾項、overcome或end為正確答案(即弱搭配為正確答案)的情形相比,像該題這樣,正確答案中用resolve(強搭配)時,英語熟練使用者平均答題時間會更短,正確率會更高。在考試有時間壓力時,可能尤為如此,因為考生可能希望利用試題包含的線索縮短答題時間。
以上的搭配影響分析對象都是英語熟練使用者。他們與非熟練使用者之間存在搭配知識(包括對搭配強弱程度的認識)上的差異。Nesselhauf和Tschichold(2002:252)指出,搭配是本族語者語言知識的重要組成部分,卻對語言學習者造成困難,因為搭配似乎并不是自動學會的。事實上,搭配知識方面的差異不僅存在于中國大學生和本族語者間,也存在于處于不同英語水平的英語學習者間(黃曉勤2007;李素枝2011;王海華、周秀娟2011;武光軍、王克非2011;尹小玲2009;張文忠、陳水池2006;張元元2008)。差異主要由兩個原因造成。一是大多數(shù)英語學習者是按單個單詞學習詞匯,而不是與其他可以和這些單詞聯(lián)合使用的單詞一起學習。這樣造成的結果是,初級學習者對搭配缺乏認識,對搭配的相對強度也沒有意識。正如Ellis(2006:15)所說,“在語言習得的初期階段,學習者往往一次只注意一條線索”。
第二個原因來自母語的干擾與習語不同,搭配的含義不難理解,因此很多英語學習者可能不太關注搭配的組成部分,以后當他們需要產(chǎn)出搭配或識別搭配的一部分時,他們可能會以“與母語對應詞概念上相近的單詞”替代搭配的這一部分(Chan & Liou 2005:231)。例如,中國學生并不難理解take medicine和strong tea,因此可能不會像記習語那樣花費精力記憶這些搭配用法,但需要產(chǎn)出這些搭配時,他們可能又會使用eat medicine和dense/powerful tea這樣的不當搭配,因為這些單詞組合語義似乎不錯,有些在漢語中也的確是正確用法(Nesselhauf & Tschichold 2002;Wibleetal.2003;Wolter 2006;徐世昌2008;尹小玲2009)。即便測試時有選項供選擇,如果在medicine前的動詞選項包括eat,那么英語學習者有可能錯誤地選擇這個選項;如果沒有這個選項,他們又可能難以在take和have(或其他類似詞)中進行選擇。初級學習者不如英語熟練使用者那樣能夠在句子處理中利用搭配語境,對強搭配提供的線索也不那么敏感,因此在正確答案中使用強搭配還是弱搭配對他們的答題結果影響也會比較小。
完成句子等題型涉及搭配時,往往正確答案中會包含強搭配。這是因為出題人員通常會盡量確保正確答案在所有意義上都是“最好”的答案。例如,resolve a dispute為強搭配,end a dispute和overcome a dispute為相對強度較低(但仍然可以接受)的弱搭配,面對這樣的選擇時,出題人員可能會希望在正確答案中使用相對強度較高的強搭配。其結果就是,英語熟練使用者可以利用自己對這幾個搭配用法相對強度的直覺,甚至不需讀完整個句子就能判斷resolve...acceptable是正確答案的可能性要比end...divisive和overcome...unattractive大。
出題人員希望正確答案無可挑剔,這本無可厚非。但是,如果這樣做導致不考慮選項的后一部分也能猜出正確答案,則試題就可能存在問題。SAT的完成句子題型旨在測量考生對詞意的掌握以及理解句子不同部分間邏輯關系的能力②。依據(jù)此目的,如果一道試題有兩空,有些考生卻能根據(jù)第一空的強搭配用法猜出正確答案,那么很難說試題符合出題意圖,基于此題型得分對考生相關知識能力所做出的推論,其有效性可能要打上問號。與此同時,試題的公平性也存在疑問。因為有些考生能僅僅基于正確答案中搭配的相對強度猜出答案,而另一些考生卻不能,這就導致某些考生雖然在詞意知識和理解句子內邏輯關系能力上都具有可比性,但回答此類試題所需時間和答題準確性卻不同?;谝陨峡紤],為了提高試題質量,可能需要不時地在正確答案中使用相對強度不是最大的搭配,以保證試題真正測量其旨在測量的知識技能,保證基于考試成績所做推論的有效性及考試的公平性。
國內外已有不少教育者研究英語學習者容易出現(xiàn)的搭配錯誤以及如何幫助學習者擴展搭配知識,但是有關搭配對句子理解以及相關題型測試結果的影響,卻很少有人研究。本文使用谷歌搜索進行了一些粗略的初步探索,對于搭配是否確實會影響完成句子類題型的測試結果以及對不同英語水平學生的影響是否不同,還有待更多學者使用語料庫等工具、以實驗等形式進行實證性研究。最后需要指出的是,本文雖是以SAT完成句子題為例,但所討論的問題并不限于SAT考試,很多其他大型標準化英語考試中都有類似題型。加強搭配對這些題型測試結果影響的研究將能幫助多種考試在測試出題時考慮更周全,改善試題質量。
附注:
①② http:∥www.collegeboard.com/student/testing/sat/prep_one/sent_comp/pracStart.html
Abu-Rabia, S.2003.The influence of working memory on reading and creative writing processes in a second language [J].EducationalPsychology23(2): 209-22.
Benson, M., E.Benson & R.Ilson.1997.TheBBIdictionaryofEnglishwordcombinations[Z].Philadelphia, PA: John Benjamins Publishing Company.
Chan, T.& H.Liou.2005.Effects of web-based concordancing instruction on EFL students’ learning of verb-noun collocations [J].ComputerAssistedLanguageLearning18(3): 231-50.
Chang, Y., J.S.Chang, H.H.Chen & H.Liou.2008.An automatic collocation writing assistant for Taiwanese EFL learners: A case of corpus-based NLP technology [J].ComputerAssistedLanguageLearning21(3): 283-99.
Chen, H.H.2011.Developing and evaluating a web-based collocation retrieval tool for EFL students and teachers [J].ComputerAssistedLanguageLearning24(1): 59-76.
Church, K.W.& P.Hanks.1990.Word association norms, mutual information, and lexicography [J].ComputationalLinguistics16(1): 22-29.
Cowie, A.1994.Phraseology [A].In R.E.Asher (ed.).TheEncyclopediaofLanguageandLinguistics[C].Oxford: Pergamon.3168-71.
DeMark, S.F.& J.T.Behrens.2004.Using Statistical natural language processing for understanding complex responses to free-response tasks [J].InternationalJournalofTesting4(4): 371-90.
Ellis, N.C.2006.Language acquisition as rational contingency learning [J].AppliedLinguistics27(1): 1-24.
Ellis, N.C.& S.G.Sinclair.1996.Working memory in the acquisition of vocabulary and syntax: Putting language in good order [J].TheQuarterlyJournalofExperimentalPsychology49(1): 234-50.
Futagi, Y., P.Deane, M.Chodorow & J.Tetreault.2008.A computational approach to detecting collocation errors in the writing of non-native speakers of English [J].ComputerAssistedLanguageLearning21(4): 353-67.
Hardy, D.E.2004.Collocational analysis as a stylistic discovery procedure: The case of Flannery O’Connor’s Eyes [J].Style38(4): 410-27.
Li, W.& K.Wong.2003.The design of a statistical algorithm for resolving structural ambiguity in “V NP1usde NP0” [J].ComputationalIntelligence19(1): 64-85.
Mason, O.& R.Platt.2006.Embracing a new creed: Lexical patterning and the encoding of ideology [J].CollegeLiterature33(2): 154-70.
Miller, G.A.1999.On knowing a word [J].AnnualReviewofPsychology50: 1-19.
Nesselhauf, N.2003.The use of collocations by advanced learners of English and some implications for teaching [J].AppliedLinguistics24(2): 223-42.
Nesselhauf, N.& C.Tschichold.2002.Collocations in CALL: An investigation of vocabulary-building software for EFL [J].ComputerAssistedLanguageLearning15(3): 251-79.
Sirinaovakul, B.& K.Chancharoen.2002.English-Thai structure-based machine translation [J].ComputationalIntelligence18(3): 294-312.
Trost, H., J.Matiasek & M.Baroni.2005.The language component of the FASTY text prediction system [J].AppliedArtificialIntelligence19: 743-81.
Wible, D., C-H.Kuo, N-L.Tsao, A.Liu & H-L.Lin.2003.Bootstrapping in a language learning environment [J].JournalofComputerAssistedLearning19: 90-102.
Williams, J.N.1996.Is automatic priming semantic? [J]EuropeanJournalofCognitivePsychology8(2): 113-61.
Wolter, B.2006.Lexical network structures and L2 vocabulary acquisition: The role of L1 lexical/conceptual knowledge [J].AppliedLinguistics27(4): 741-47.
Wu, S., M.Franken & I.H.Witten.2010.Supporting collocation learning with a digital library [J].ComputerAssistedLanguageLearning23(1): 87-110.
黃曉勤.2007.基于中國學生口語語料庫的動名詞搭配研究[D].南京:南京航空航天大學碩士學位論文.
李素枝.2011.基于語料庫的中國英語學習者名詞搭配與類聯(lián)接對比研究以ABILITY為例[J].英語教師(8):44-49.
王海華、周秀娟.2009.中國英語學習者動名詞搭配行為的發(fā)展特點研究語料庫驅動的研究方法[J].外語學刊151(6):59-62.
武光軍、王克非.2011.基于英語類比語料庫的翻譯文本中的搭配特征研究[J].中國外語8(5):40-47.
徐世昌.2008.英語表達中詞語搭配錯誤成因分析[J].烏魯木齊成人教育學院學報16(2):79-82.
尹小玲.2009.基于語料庫的大學生英語“形容詞—名詞”搭配研究[D].湘潭:湖南科技大學碩士學位論文.
張文忠、陳水池.2006.EFL學習者習得英語形—名搭配知識的定量研究[J].外語教學與研究38(4):251-58.
張元元.2008.基于語料庫的中國大學生英語寫作的動名詞搭配研究[J].哈爾濱學院學報29(5):110-14.