基于Logistic回歸模型的中國英語學(xué)習(xí)者雙及物構(gòu)式選擇研究

2015-11-06 01:09:31嚴敏芬周倩倩

浙江外國語學(xué)院學(xué)報 2015年5期

關(guān)鍵詞：低水平接受者偏向

嚴敏芬，周倩倩

(江南大學(xué) 外國語學(xué)院，江蘇無錫 214122)

基于Logistic回歸模型的中國英語學(xué)習(xí)者雙及物構(gòu)式選擇研究

嚴敏芬，周倩倩

(江南大學(xué) 外國語學(xué)院，江蘇無錫 214122)

本研究將中國學(xué)習(xí)者英語語料庫中的st2和st6兩部分語料作為低水平和高水平學(xué)習(xí)者的英語輸出的數(shù)據(jù)來源，將自建的人教版初高中英語教材語料庫作為低水平學(xué)習(xí)者的英語輸入的數(shù)據(jù)來源，在3個語料庫中檢索雙及物構(gòu)式，用Logistic二元回歸模型考察6種限制雙及物構(gòu)式選擇的分布偏向在中國英語學(xué)習(xí)者輸出雙及物構(gòu)式中的相對作用和共同作用，并分析學(xué)習(xí)者是否對輸入中展現(xiàn)的雙及物構(gòu)式的分布偏向敏感。結(jié)果發(fā)現(xiàn)，學(xué)習(xí)者輸出雙及物構(gòu)式時同時考量輸入中展現(xiàn)的多種分布偏向的影響，輸入與輸出中各分布偏向的相對影響力存在廣泛的一致性；高水平學(xué)習(xí)者對更多分布偏向敏感，且因各分布偏向間的相互作用和壓制，其習(xí)得順序與作用力大小無關(guān)。這說明，語言學(xué)習(xí)是循序漸進、動態(tài)的過程，學(xué)習(xí)者能掌握輸入中復(fù)雜的語義、語篇信息及其分布特征。

雙及物構(gòu)式；構(gòu)式選擇；Logistic二元回歸模型；分布偏向

一、引言

雙及物構(gòu)式包括兩個子構(gòu)式：雙賓構(gòu)式(Double-object Dative Construction，簡稱DO)和與格構(gòu)式(Preposition-object Dative Construction，簡稱PO)。雙及物構(gòu)式選擇是指說話者在表達“所有物轉(zhuǎn)移”這一概念時，基于其語言知識及當下語境對這兩個語義相近的子構(gòu)式所作的選擇。如：

例(1a)較例(1b)使用頻率更高，例(2b)較例(2a)使用頻率更高，換言之，被選擇的可能性更大。英語中存在大量句法構(gòu)式，說話者可以選擇同屬一個構(gòu)式范疇內(nèi)的不同子構(gòu)式來表達某個意義或概念[1]145。語言輸出就是一個不斷選擇的過程?；谟梅ǖ睦碚撜J為語言學(xué)習(xí)受輸入驅(qū)動，是經(jīng)驗性的。說話者知道具體動詞出現(xiàn)在不同時態(tài)、不同語態(tài)、不同及物性構(gòu)式中的相對頻率，以及與其搭配的典型主語、賓語等等。這類信息是通過經(jīng)驗輸入而習(xí)得的，說話者能從復(fù)雜的輸入中概括出其分布特征和頻率信息，語言學(xué)習(xí)中很重要的一點就是逐漸強化共同出現(xiàn)的語言成分之間的聯(lián)系[2]。這一理論認為，說話者是在從輸入中概括出的分布特征及頻率信息的基礎(chǔ)上對雙及物構(gòu)式作出選擇的。

本研究從基于用法的習(xí)得觀出發(fā)，采用統(tǒng)計分析模型——Logistic二元回歸來考察不同二語水平的中國英語學(xué)習(xí)者對輸入中展現(xiàn)的限制雙及物構(gòu)式選擇的語義、語用等多種分布偏向是否敏感，各分布偏向的影響強度與輸入中的情況是否一致，以及學(xué)習(xí)者敏感的分布偏向的類別是否隨二語水平的提高而增加。

Logistic二元回歸模型被廣泛應(yīng)用于二元轉(zhuǎn)換的語言現(xiàn)象中，如雙及物構(gòu)式選擇、屬格轉(zhuǎn)換、主動/被動語態(tài)轉(zhuǎn)換等，其優(yōu)勢在于可以同時統(tǒng)計多種自變量對因變量的預(yù)測力大小，統(tǒng)計每個自變量相對于其他自變量的“相對”作用力。目前，國內(nèi)關(guān)于中國英語學(xué)習(xí)者雙及物構(gòu)式選擇的研究主要考察每種分布偏向的“絕對”影響力大小，這與雙及物構(gòu)式在自然情境下產(chǎn)出的認知心理過程不符。本研究是對構(gòu)式與定量語料庫研究方法的一次運用，旨在與前人通過語法判斷等研究方法得出的結(jié)論和發(fā)現(xiàn)相互補充。

二、文獻回顧

(一)分布偏向效應(yīng)

Tomasello(2003)認為在功能分布分析的過程中，語言成分被歸入不同的范疇，一個范疇內(nèi)的成員有著相同的交際功能，成員間因頻率差異產(chǎn)生分布偏向，分布偏向又使得固著度產(chǎn)生層級性[3]。分布偏向存在于不同范疇間，存在于同一范疇的不同成員間，也存在于同一成員的不同槽孔(slots)間。由此，基于用法模型的雙及物構(gòu)式選擇研究又可分為以動詞槽孔的分布偏向和以名詞性槽孔/論元的分布偏向為取向的研究。

雙及物構(gòu)式的述謂動詞這一槽孔的分布偏向一直是研究的熱點，如Inagaki(1997)[4]，Mazurkewich和White(1984)[5]，Ambridgeetal. (2012)[6]，韓百敬和薛芬(2014)[7]等。無論是在母語還是二語習(xí)得中動詞的頻率高低，特別是用于PO/DO中的相對頻率，對雙及物構(gòu)式的習(xí)得有重要影響。然而，動詞槽孔的分布偏向絕不是雙及物構(gòu)式選擇的唯一決定因素[8]，push和pull用于DO中的頻率較低，但是在例(3a)和例(3b)的語境中，其DO的用法卻為本族語者所接受[9]。

(3)a.As player A pushed him the chips,all broke loose at the table.

b.Nick joked. He pulled himself a steaming piece of the pie.

雙及物構(gòu)式的名詞性論元/槽孔的分布偏向雖然沒有得到學(xué)者們同等的重視，但是卻對雙及物構(gòu)式選擇的研究有著不可忽視的影響作用，Collins(1995)[10]、Gries(2003)[11]、Arnold(2000)[12]、何曉煒(2008)[13]、王寅(2011)[14]等學(xué)者都對此進行過理論探討或?qū)嵶C探究。具有不同語義和語篇特征的雙及物構(gòu)式名詞性論元——接受者(recipient)和客體(theme)有著不同的分布偏向：非定指的、非代詞的、含新信息的、無生命的、抽象的、詞數(shù)多的名詞性論元通常被置于定指的、代詞性的、含舊信息的、有生命的、具體的、詞數(shù)少的論元之后。例(1b)和例(2a)因為違背了接受者和客體的分布偏向，所以很少被使用；而例(3a)和例(3b)雖然用了push和pull這兩個高頻PO動詞，但是因為接受者和客體的語義、語篇特征符合DO的分布偏向，因此成了合理的使用。DO/PO中接受者和客體的分布偏向見圖1。

圖1 DO/PO中接受者和客體的分布偏向

(二)分布偏向習(xí)得研究

國外學(xué)者在母語習(xí)得領(lǐng)域?qū)﹄p及物構(gòu)式名詞性論元的分布偏向進行了大量的實證探索。Marneffeetal. (2012)考察了母語為英語的兒童及他們的父母對雙及物構(gòu)式中接受者和客體兩個論元的語義、語篇特征的分布偏向的敏感程度，統(tǒng)計數(shù)據(jù)表明兒童從很早起就對多種分布偏向敏感，并且在對每種分布偏向的敏感程度上與父母相似，這說明兒童能注意到兒向語中復(fù)雜的分布特征[15]。Stephens(2015)也發(fā)現(xiàn)了兒童能對輸入中的名詞性論元的語義、語篇特征的分布偏向進行分析概括，并在此基礎(chǔ)上輸出雙及物構(gòu)式[16]。

目前，國內(nèi)鮮有實證研究考察名詞性論元的語義、語篇特征的分布偏向?qū)χ袊⒄Z學(xué)習(xí)者雙及物構(gòu)式習(xí)得的影響，且國內(nèi)學(xué)者的研究尚未深入細致地考察多種分布偏向間的相互作用、多種分布偏向的相對作用和共同作用。之前的研究如楊江鋒(2013)[17]、王琳琳(2013)[18]等，只考察了每種分布偏向獨立于其他分布偏向的“絕對”影響力大小，而Logistic二元回歸模型統(tǒng)計的是每個自變量相對于其他自變量的“相對作用力”。本文采用Logistic二元回歸模型，同時統(tǒng)計分析6種分布偏向(定指性definiteness、代詞性pronominality、可及性accessibility、生命度animacy、具體性concreteness、成分長度length)對雙及物構(gòu)式選擇的共同作用力和相對作用力，并建立教材語料庫，旨在發(fā)現(xiàn)中國英語學(xué)習(xí)者是否對輸入中展現(xiàn)的名詞性論元的語義、語篇特征的分布偏向敏感。本文的具體研究問題為：

1)中國英語學(xué)習(xí)者對雙及物構(gòu)式的選擇是否同時受到多種語義、語篇特征的分布偏向的影響？如果是，那么影響中國英語學(xué)習(xí)者雙及物構(gòu)式選擇的分布偏向是否與教材語料一致？

2)各分布偏向的影響強度——對中國英語學(xué)習(xí)者雙及物構(gòu)式選擇的預(yù)測力大小是否與教材語料一致？

3)中國英語學(xué)習(xí)者敏感的分布偏向的類別是否隨二語水平的提高而增加？習(xí)得早的分布偏向?qū)﹄p及物構(gòu)式選擇的影響強度是否大于習(xí)得晚的分布偏向？

三、研究方法

(一)語料來源

本文選取中國學(xué)習(xí)者英語語料庫(CLEC)[19]中的高中(st2)和大學(xué)英語專業(yè)三四年級(st6)兩個部分的語料作為低水平中國英語學(xué)習(xí)者和高水平中國英語學(xué)習(xí)者的英語輸出的數(shù)據(jù)來源，高中(st2)和大學(xué)英語專業(yè)三四年級(st6)的語料庫容量各為20萬詞。

中國學(xué)習(xí)者英語語料庫建庫期間(1995—2000)，人教版JuniorEnglishforChina和SeniorEnglishforChina為全國中學(xué)生統(tǒng)一使用的初高中英語教材，因而人教版的英語教材與中國學(xué)習(xí)者英語語料庫中高中學(xué)生的輸出語料(st2)存在共時性對應(yīng)關(guān)系。鑒于雙及物構(gòu)式表達“所有物轉(zhuǎn)移”是基本概念，中國英語學(xué)習(xí)者在初中階段就開始頻繁接觸這一構(gòu)式，所以筆者研究團隊搜集錄入了人教版初中和高中英語教材，語料容量為30萬詞，以此作為本文低水平中國英語學(xué)習(xí)者的英語輸入的數(shù)據(jù)來源。雖然教材不能完全覆蓋低水平中國學(xué)習(xí)者的英語輸入，但是在20世紀90年代末互聯(lián)網(wǎng)尚未普及的現(xiàn)實下，學(xué)校英語教材是中學(xué)生主要的英語輸入來源。中國學(xué)習(xí)者英語語料庫的高水平英語學(xué)習(xí)者為大學(xué)英語專業(yè)三四年級學(xué)生(st6)，其英語輸入來源廣泛，若將高水平學(xué)習(xí)者的英語輸入局限于教材顯然不合理，故本文暫不考慮高水平學(xué)習(xí)者的輸入情況。

(二)統(tǒng)計模型

Logistic二元回歸模型適用于因變量為二分類的案例，在語言學(xué)領(lǐng)域被應(yīng)用于二元轉(zhuǎn)換的語言現(xiàn)象，如雙及物構(gòu)式選擇、屬格轉(zhuǎn)換、主動/被動語態(tài)轉(zhuǎn)換等。本研究中，Logistic二元回歸模型考察在一系列既定的相互作用的自變量的影響下，某一構(gòu)式被選擇產(chǎn)出的概率大小，同時描述各自變量作用的大小及方向?；貧w模型如下：

①P=exp(z)/(1+exp(z)) ②z=Logit(P)=ln(P/(1-P))=β0+β1X1+β2X2+β3X3+…+βnXn

等式①中的P代表因變量中某一取值出現(xiàn)的概率：當1>P>0.5時，Logit(P)>0，模型預(yù)測結(jié)果為陽性(y=1)；當0.5>P>0時，Logit(P)<0，模型預(yù)測結(jié)果為陰性(y=0)。等式②中的z為概率P經(jīng)Logit變換后的值，即為概率P優(yōu)勢比的對數(shù)值，該等式描述了一系列自變量間的聯(lián)系(X1,X2,X3,…Xn)。當所有自變量的值全為0時，由常數(shù)項β0單獨決定結(jié)果概率；系數(shù)βn的數(shù)值和正負分別代表每個自變量Xn的作用力(預(yù)測力)大小及方向；exp(βn)是優(yōu)勢比(odds ratio,OR)，表示自變量Xn每變化一個單位時，陽性結(jié)果(y=1)出現(xiàn)概率與不出現(xiàn)概率的比值是變化前的相應(yīng)比值的倍數(shù)[20]165。

(三)檢索方法及定義變量

用Tree-tagger2.0賦碼工具對教材語料庫和學(xué)習(xí)者語料庫的st2、st6部分進行詞性標注，根據(jù)DO/PO構(gòu)式的詞性組合，采用詞性檢索法，用語料庫檢索工具AntConc3.2.1提取出語料庫中所有DO/PO構(gòu)式，輔以人工篩選。鑒于Logistic模型對樣本量有嚴格的要求，因變量中較少的那一類的數(shù)量除以10，就是模型中可以分析的自變量數(shù)量。本文從3個語料庫中隨機選取了3組容量為300的樣本，其中DO和PO各占一半。最后，根據(jù)變量的定義標準，手動標記樣本中DO/PO構(gòu)式的接受者和客體的語義、語篇特征。

本文將要考察的6種分布偏向分別是定指性、代詞性、可及性、生命度、具體性、成分長度，其中，只有成分長度是連續(xù)變量，其他都是二分類變量。參照Bresnan(2007)[9]79和Marneffeetal. (2012)[15]33-36對變量的定義方法，5種分類自變量的賦值水平如下：定指性(0=definite;1=indefinite)，代詞性(0=pronoun;1=nonpronoun)，可及性(0=given;1=nongiven)，生命度(0=animate;1=inanimate)，具體性(0=concrete;1=nonconcrete)。因變量“雙及物構(gòu)式的選擇”賦值水平為(y=0,DO;y=1,PO)。鑒于不具體的或抽象的接受者幾乎不會出現(xiàn)在語言實際使用中，本文暫不考察接受者的具體性。

四、研究結(jié)果

筆者對從3個語料庫中檢索出的雙及物構(gòu)式的各項分布偏向進行手工標記，標記的數(shù)據(jù)錄入SPSS統(tǒng)計軟件，用Logistic二元回歸模型對低水平中國英語學(xué)習(xí)者、高水平中國英語學(xué)習(xí)者及教材3組語料庫數(shù)據(jù)的分析結(jié)果如下：

(一)低水平中國英語學(xué)習(xí)者(Low Proficiency,LP)

建立Logistic二元回歸模型時，應(yīng)該盡量引入對因變量有影響作用的變量，本文采用向后最大偏似然估計法，依次剔除p值最大且無統(tǒng)計學(xué)意義的候選變量，如此反復(fù)，直至再剔除變量就會顯著降低模型擬合度[15]37。最終篩選出的5個自變量分別為：客體長度、接受者長度、接受者生命度、客體定指性以及客體具體性(見表1)。

表1 Logistic回歸方程中的變量(LP)

自變量系數(shù)βn優(yōu)勢比exp(βn)p值客體長度-1.0730.3420.000接受者長度1.9517.0350.000接受者生命度2.56312.9700.002客體定指性-2.4510.0860.000客體具體性-1.4450.2360.001常數(shù)1.4094.0910.057

根據(jù)模型對系數(shù)的估計，各自變量對陽性結(jié)果(y=1,PO)出現(xiàn)的影響得以量化，系數(shù)的正負與大小反映了自變量影響的方向與程度。非具體、非定指的客體減小了PO出現(xiàn)的概率，而非生命體的接受者增大了PO出現(xiàn)的概率；接受者的長度與PO出現(xiàn)的概率成正比，而客體的長度與PO出現(xiàn)的概率成反比(見圖2)。這5個自變量對PO/DO構(gòu)式選擇的預(yù)測與圖1的分布偏向一致，說明低水平中國英語學(xué)習(xí)者對雙及物構(gòu)式中客體的長度、定指性、具體性以及接受者的長度、生命度這5項分布偏向敏感。表1中的常數(shù)即為前文等式②中的β0，當所有自變量取0值時，由常數(shù)項單獨決定模型預(yù)測結(jié)果，即Logit(P)=1.409，Logit(P)>0時，模型預(yù)測結(jié)果為陽性(y=1,PO)。

自變量的系數(shù)可以轉(zhuǎn)換為優(yōu)勢比，反映了PO/DO出現(xiàn)的相對概率，優(yōu)勢比的值域為0到∞，當其值大于1時，PO出現(xiàn)的概率增加，反之，DO出現(xiàn)的概率增加。例如，當接受者是非生命體時，PO出現(xiàn)的概率是DO的e2.563=12.970倍(見表1中的優(yōu)勢比項)。系數(shù)的絕對值體現(xiàn)了自變量對因變量的影響程度大小為：接受者生命度>客體定指性>接受者長度>客體具體性>客體長度。

圖2 Logistic回歸方程(LP)

Logistic回歸方程的擬合效果可通過對因變量類別預(yù)測的正確率來判斷(見表2)。低水平中國英語學(xué)習(xí)者的Logistic回歸方程對DO預(yù)測的正確率達90.7%，對PO預(yù)測的正確率達88.7%，總體正確率為89.7%，擬合效果優(yōu)良。

表2 Logistic回歸方程的預(yù)測正確率(LP)

觀察的構(gòu)式預(yù)測的構(gòu)式(界值=0.5)DO=0PO=1正確率DO=01361490.7%PO=11713388.7%總體正確率89.7%

(二)高水平中國英語學(xué)習(xí)者(High Proficiency,HP)

采用向后最大偏似然估計法，篩選出客體長度、接受者長度、接受者代詞性、接受者可及性、接受者生命度、客體定指性、接受者定指性及客體具體性這8個自變量進入高水平中國英語學(xué)習(xí)者雙及物構(gòu)式選擇的Logistic二元回歸模型(見表3)。

表3 Logistic回歸方程中的變量(HP)

自變量系數(shù)βn優(yōu)勢比exp(βn)p值客體長度-0.9880.3720.000接受者長度1.3183.7340.000

續(xù)表

注：接受者代詞性這一變量的p值雖未達到p<0.05的顯著水平，但是篩除這一變量將使模型的預(yù)測準確率或擬合度顯著降低，因而被保留。

高水平學(xué)習(xí)者在雙及物構(gòu)式的接受者為非定指、無生命、新信息、非代詞，或其長度增加時，選擇PO構(gòu)式的可能性增大；在客體為非具體、非定指或其長度增加時，選擇DO構(gòu)式的可能性增大(見圖3)。這8個自變量所呈現(xiàn)的作用力方向與圖1的分布偏向一致，說明高水平中國英語學(xué)習(xí)者對這8項分布偏向敏感。根據(jù)這8個自變量系數(shù)的絕對值大小，可知各自變量對因變量的影響程度大小為：接受者生命度>客體定指性>接受者定指性>接受者可及性>接受者長度>客體具體性>接受者代詞性>客體長度。

圖3 Logistic回歸方程(HP)

高水平中國英語學(xué)習(xí)者的Logistic回歸方程對DO預(yù)測的正確率達94.7%，對PO預(yù)測的正確率達91.3%，總體正確率為93.0%，擬合效果優(yōu)良。

(三)人教版初高中教材語料庫的統(tǒng)計數(shù)據(jù)(Textbooks,TB)

8個自變量經(jīng)篩選進入了教材語料的Logistic回歸方程，且作用力方向均與圖1一致，按作用力由大到小排列為：接受者長度、接受者生命度、客體代詞性、接受者代詞性、客體可及性、客體定指性、客體具體性、客體長度(見表4、圖4)。只有3個自變量未被篩選進入模型——接受者可及性、客體生命度、接受者定指性，說明語義、語篇特征的分布偏向在教材語料中得到了相對全面的展現(xiàn)。

表4 Logistic回歸方程中的變量(TB)

自變量系數(shù)βn優(yōu)勢比exp(βn)p值客體長度-0.7090.4920.000接受者長度2.40111.0360.000客體代詞性-1.5770.2070.032接受者代詞性1.3123.7130.012客體可及性-1.2460.2880.021接受者生命度2.1918.9470.005客體定指性-1.0930.3350.090客體具體性-1.0290.3570.032常數(shù)0.2681.3070.696

注：客體定指性這一變量的p值雖未達到p<0.05的顯著水平，但是篩除這一變量將使模型的預(yù)測準確率或擬合度顯著降低，因而被保留。

值得注意的是，在本文考察的11個自變量中，只有客體生命度未進入任何一組樣本的回歸模型。相反，接受者生命度在2組中國英語學(xué)習(xí)者的模型中是具有最強預(yù)測力的自變量，而在教材語料模型中其預(yù)測力也僅次于接受者長度。這說明，同一語義特征在不同論元上對雙及物構(gòu)式選擇的影響并非是平衡均等的。

圖4 Logistic回歸方程(TB)

教材語料的Logistic回歸方程對DO預(yù)測的正確率達94.7%，對PO預(yù)測的正確率達87.3%，總體正確率為91.0%，擬合效果優(yōu)良。

五、討論

(一)低水平學(xué)習(xí)者輸出與輸入的教材語料所展現(xiàn)的分布偏向

影響低水平學(xué)習(xí)者雙及物構(gòu)式選擇的5項分布偏向由強到弱排列為：接受者生命度、客體定指性、接受者長度、客體具體性、客體長度。教材語料的8項分布偏向按影響強弱排列為：接受者長度、接受者生命度、客體代詞性、接受者代詞性、客體可及性、客體定指性、客體具體性、客體長度。低水平學(xué)習(xí)者敏感的5項分布偏向在教材中都有體現(xiàn)，并且這5項分布偏向?qū)﹄p及物構(gòu)式選擇的影響力強弱與教材基本一致，除了接受者長度在教材語料中是影響力最大的分布偏向，系數(shù)為2.401，即接受者每增加一個詞長，PO出現(xiàn)的概率就增加e2.401=11.036倍。但接受者長度在低水平學(xué)習(xí)者語料中的影響力卻小于接受者的生命度和客體的定指性，系數(shù)為1.951，即接受者每增加一個詞長，PO出現(xiàn)的概率就增加e1.951=7.035倍。經(jīng)獨立樣本t檢驗發(fā)現(xiàn)，客體長度在低水平學(xué)習(xí)者語料和教材語料中并無顯著差異，而接受者長度在2組語料中的差異達到顯著水平(p<0.05，見表5)。接受者長度在2組語料中的顯著差異可能是其系數(shù)變化的原因之一，同時，各分布偏向間復(fù)雜的相互作用也影響著其系數(shù)的變化。

表5 客體長度與接受者長度在輸入與輸出中的差異(LP/TB)

客體長度低水平學(xué)習(xí)者教材接受者長度低水平學(xué)習(xí)者教材平均長度2.882.891.752.01標準差1.8212.0611.4241.779p值0.9670.046*

注：*p<0.05。

其余4項分布偏向?qū)﹄p及物構(gòu)式選擇的相對影響強弱在2組語料中是一致的：接受者生命度>客體定指性>客體具體性>客體長度。單獨考察每項分布偏向影響下的雙及物構(gòu)式分布，可以發(fā)現(xiàn)低水平學(xué)習(xí)者語料和教材語料間更具體的聯(lián)系。圖5中的x軸代表每個自變量的2個取值水平，y軸代表Logit(P)的值域，即PO構(gòu)式出現(xiàn)概率優(yōu)勢比的對數(shù)值。因變量的賦值水平為(y=0,DO;y=1,PO)，Logit回歸模型默認的界值(cut value)是0.5，概率P在(0,0.5)區(qū)間時，PO構(gòu)式出現(xiàn)概率優(yōu)勢比的對數(shù)的值域為(-∞,0)，模型預(yù)測結(jié)果為DO；概率P在(0.5,1)區(qū)間時，PO構(gòu)式優(yōu)勢比的對數(shù)的值域為(0，+∞)，模型預(yù)測結(jié)果為PO。

圖5 既定變量下的PO優(yōu)勢比對數(shù)值散點圖(LP/TB)

如圖5所示，接受者為生命體時(0=animate)，散點在y軸0點上下的分布沒有明顯區(qū)分，并未如理論預(yù)測的集中分布于y軸0點下方，即偏好選擇DO；當接受者為非生命體時(1=inanimate)，散點出現(xiàn)了以y軸0點為分界線的理想分布，可見此分布偏向?qū)﹄p及物構(gòu)式選擇的影響強弱在2個取值水平上存在差異，非生命體的接受者較生命體的接受者而言，發(fā)揮了更大的區(qū)分選擇作用。因此，不僅不同論元的同一分布偏向存在影響強度差異，即客體的生命度為無影響因素，而接受者的生命度卻發(fā)揮了較強的影響，而且這種影響強度差異也存在于同一論元的同一分布偏向的不同取值水平上。

表6 代詞性/可及性/定指性的相關(guān)系數(shù)(LP/TB)

代詞性/可及性客體接受者代詞性/定指性客體接受者可及性/定指性客體接受者低水平組0.400**0.450**0.659**0.437**0.517**0.397**高水平組0.550**0.375**0.718**0.523**0.408**0.183**教材組0.431**0.483**0.684**0.402**0.469**0.357**

注：**p<0.01。

低水平學(xué)習(xí)者組和教材組的客體的定指性雖然在各分布偏向的相對影響力排序中沒有變化，但是其影響力系數(shù)在2組模型中有較大差異。當客體為定指時，教材組的回歸模型預(yù)測PO出現(xiàn)的概率是DO的e-1.093=0.335倍，即DO是PO的0.335-1=2.99倍；低水平學(xué)習(xí)者組的回歸模型預(yù)測PO出現(xiàn)的概率是DO的e-2.451=0.086倍，即DO是PO的0.086-1=11.63倍。客體定指性在低水平組比在教材組中對雙及物構(gòu)式的選擇發(fā)揮了更大的影響。低水平學(xué)習(xí)者對教材語料中所展現(xiàn)的客體代詞性、接受者代詞性與客體可及性這3項分布偏向不敏感。可及性與代詞性和定指性有著較高的一致性或相關(guān)性：舊信息通常是代詞，且為定指；新信息通常是非代詞，且為非定指。本文對3個語料庫的接受者和客體的代詞性、可及性與代詞性進行了相關(guān)性分析，結(jié)果顯示這3類分布偏向的相關(guān)系數(shù)在3個語料庫中都達到p<0.01的顯著性水平(見表6)。由此可知，進入教材組回歸模型中的客體代詞性、接受者代詞性和客體可及性與客體定指性在雙及物構(gòu)式選擇中發(fā)揮了協(xié)同作用，客體定指性在教材組中對結(jié)果的預(yù)測作用被分散，因而其影響強度小于低水平學(xué)習(xí)者組模型中客體定指性的影響強度。

圖6 既定變量下的PO優(yōu)勢比對數(shù)值散點圖(LP/TB)

散點圖為考察客體定指性對雙及物構(gòu)式選擇的影響提供了更為微觀的視角。如圖6所示，當客體為定指時(0=definite)，散點總體上集中于y軸0點上方區(qū)域，此時，回歸模型的預(yù)測結(jié)果為PO；當客體為非定指時(1=indefinite)，散點在y軸0點上下的分布無明顯差異，換言之，非定指的客體在PO和DO中出現(xiàn)的概率相似?？腕w定指性與接受者生命度一樣，其不同的取值水平對雙及物構(gòu)式選擇的影響強度是不對稱的，存在顯著差異。

客體具體性對結(jié)果的預(yù)測力在教材組和低水平組中都僅大于最弱預(yù)測力分布偏向，即客體的長度。在教材組回歸模型中，客體具體性的影響系數(shù)為-1.029；而在低水平組模型中，其影響系數(shù)為-1.445。非具體客體在教材組中出現(xiàn)于DO中的概率是PO的0.357-1=2.80倍，在低水平組中出現(xiàn)于DO中的概率是PO的0.236-1=4.24倍?？梢姡珼O和PO的客體具體性并無顯著差異。如圖7所示，客體為具體物時(0=concrete)，散點確實更傾向于分布于y軸0點上方；且當客體為抽象物時(1=nonconcrete)，散點更集中于y軸0點下方，但客體具體性的2個取值水平上的散點并未如接受者生命度和客體定指性一樣呈現(xiàn)出較為明顯的以y軸0點為分界線的單向分布。簡言之，客體的具體性對雙及物構(gòu)式選擇具有一定的影響，但其區(qū)分力和預(yù)測力次于接受者生命度和客體定指性。

圖7 既定變量下的PO優(yōu)勢比對數(shù)值散點圖(LP/TB)

低水平中國英語學(xué)習(xí)者所敏感的5項分布偏向不僅在其所輸入的教材語料中有所體現(xiàn)，且其中4項分布偏向的相對影響力強弱在2組回歸模型中一致。此外，輸入與輸出間的復(fù)雜聯(lián)系也體現(xiàn)在了更微觀的層面上，相同論元的同一分布偏向的不同取值水平上存在的預(yù)測力強度差異在低水平學(xué)習(xí)者和教材數(shù)據(jù)中也保持了高度的一致。

(二)低水平學(xué)習(xí)者與高水平學(xué)習(xí)者輸出語料所展現(xiàn)的分布偏向

影響高水平學(xué)習(xí)者雙及物構(gòu)式選擇的8項分布偏向由強到弱排列為：接受者生命度、客體定指性、接受者定指性、接受者可及性、接受者長度、客體具體性、接受者代詞性、客體長度。低水平組語料的5項分布偏向按影響強弱排列為：接受者生命度、客體定指性、接受者長度、客體具體性、客體長度。低水平組的5項分布偏向在高水平組語料中都得到了體現(xiàn)，且這5項分布偏向間的相對影響力強弱與高水平組一致。

表7 客體長度與接受者長度在高低水平組中的差異(LP/HP)

客體長度低水平組高水平組接受者長度低水平組高水平組平均長度2.883.181.752.46標準差1.8212.2981.4242.446p值0.044*0.000**

注：*p<0.05，**p<0.01。

如表7所示，高水平組學(xué)習(xí)者產(chǎn)出的雙及物構(gòu)式中的客體和接受者總體上長于低水平組，且2個水平組的長度差異均達到顯著性水平。高水平組學(xué)習(xí)者隨著二語水平的提高，能更加頻繁地使用非謂語、定語從句等來說明客體和接受者，因此，接受者與客體的長度顯著增加，例如：

(4)a.Our purpose is to give everybody a belief that only making people realize that crime is terrible,not divine and crime does not pay is the right way to deal with crime. (CLEC-st6)

b.More and more Battered Women Shelters are established in the world,with the purpose to give some help to the women who have suffered bad treatment of their husbands. (CLEC-st6)

接受者生命度在低、高水平組中的影響力系數(shù)分別為2.563和3.767，當接受者為非生命體時(1=inanimate)，PO在低、高水平組出現(xiàn)的概率分別是DO的e2.563=12.970倍和e3.767=43.250倍。在高水平組，接受者生命度對結(jié)果的預(yù)測力顯著增強。如圖8所示，當接受者為非生命體時，2組的散點都集中分布于y軸0點上方，但高水平組在此取值水平上的散點數(shù)量明顯多于低水平組，即高水平組使用了更多更具區(qū)分力的非生命體接受者，因而該分布偏向在高水平組中發(fā)揮了更強的預(yù)測力。李昱(2015)[21]認為生命度作為語義特征，是一個特征范疇，具有清晰的邊界，較定指性、代詞性、可及性等句法語用特征而言，具有更可靠、更廣泛的跨語言共性，因而成了二語學(xué)習(xí)者習(xí)得與格轉(zhuǎn)換這一語言現(xiàn)象時的有效線索；而定指性在漢語中是一個原型范疇，漢英在有定/無定這一對范疇的具體實現(xiàn)形式以及范疇化程度上都有顯著差異。下文將考察低水平和高水平學(xué)習(xí)者在利用定指性這一線索來啟動相應(yīng)的雙及物構(gòu)式的異同。

圖8 既定變量下的PO優(yōu)勢比對數(shù)值散點圖(LP/HP)

客體的定指性和接受者的定指性都進入了高水平組的回歸模型，但在低水平組中接受者定指性未被篩選進入回歸模型。如圖9所示，高水平組的接受者定指性散點圖再次展現(xiàn)了結(jié)果預(yù)測力的不均衡，這不僅體現(xiàn)在不同論元的同一分布偏向間，還體現(xiàn)在相同論元的同一分布偏向的不同取值水平間。當接受者為非定指(1=indefinite)時，散點密集分布于y軸0點上方區(qū)域，呈現(xiàn)出較為清晰的以y軸0點為分界線的單向分布，即非定指的接受者相對專一地出現(xiàn)在PO中。然而，定指的接受者沒有表現(xiàn)出對PO或DO的明顯偏好。據(jù)此，雖然定指性在漢英中存在較大差異，但中國英語學(xué)習(xí)者在其高水平階段掌握了該分布偏向在雙及物構(gòu)式選擇中的作用。

圖9 既定變量下的PO優(yōu)勢比對數(shù)值散點圖(HP)

高水平學(xué)習(xí)者比低水平學(xué)習(xí)者更頻繁地使用非具體的客體，如圖10所示，高水平組中非具體(1=nonconcrete)水平上的散點數(shù)量明顯多于低水平組。低水平學(xué)習(xí)者在使用雙及物構(gòu)式時，多表達實物轉(zhuǎn)移的概念，而高水平學(xué)習(xí)者更多地描述抽象概念的轉(zhuǎn)移?？腕w的具體性在本文的3組回歸模型中都屬于影響力強度較弱的分布偏向，因而在與其他敏感的分布偏向共同預(yù)測結(jié)果時，常常受到其他分布偏向的壓制。如例(5a)，雖然客體為抽象概念，但是受到接受者的代詞性、長度、可及性以及客體的長度等因素的制約，最終在多因素共同作用下，PO被選擇；例(5b)也展現(xiàn)了其他分布偏向?qū)腕w具體性的制約，如接受者生命度、長度等。客體具體性雖然在高水平組沒有明確偏好DO或PO，但這恰恰證實了雙及物構(gòu)式的選擇的確受到多重因素的綜合影響。

(5)a.In the same way the legalization of euthanasia will show its importance to the nation’s development. (CLEC-st6)

b.Though she has normal intelligence,this will only bring sorrow,frustration to her innocent mind. (CLEC-st6)

圖10 既定變量下的PO優(yōu)勢比對數(shù)值散點圖(LP/HP)

高水平組還對低水平組數(shù)據(jù)中未展現(xiàn)出的接受者的定指性、可及性與代詞性這3項分布偏向敏感。接受者的定指性與可及性在Logistic回歸方程中的系數(shù)大于早先習(xí)得的接受者長度、客體具體性和客體長度的系數(shù)，接受者代詞性的系數(shù)也大于早先習(xí)得的客體長度的系數(shù)，說明各分布偏向被習(xí)得的先后順序與其對雙及物構(gòu)式選擇的影響力或預(yù)測力沒有直接的因果關(guān)系。新的分布偏向被習(xí)得后，與早先被習(xí)得的分布偏向又發(fā)生復(fù)雜的相互作用和相互壓制，因而習(xí)得的分布偏向的作用力不是固定不變的，而是動態(tài)變化的。

六、結(jié)語

雙及物構(gòu)式的習(xí)得涉及一個逐漸強化共同出現(xiàn)的語言成分之間的聯(lián)系的過程，在這一過程中，共同出現(xiàn)的含不同語義和語篇特征的接受者和客體之間的聯(lián)系也得到不斷的強化。本研究在一定程度上論證了Marneffeetal. (2012)[15]54的發(fā)現(xiàn)，輸出中各項分布偏向?qū)﹄p及物構(gòu)式選擇的影響力排序與輸入基本一致。低水平中國英語學(xué)習(xí)者對輸入中復(fù)雜的語義和語篇信息及其分布特征敏感，并在輸出雙及物構(gòu)式時，基本復(fù)制了輸入中對各分布偏向相對作用力的賦值。輸入與輸出的聯(lián)系體現(xiàn)在了更微觀的層面，即相同論元的同一分布偏向的不同取值水平上存在的預(yù)測力強度差異在低水平學(xué)習(xí)者和教材數(shù)據(jù)中也保持了高度一致。另外，語言學(xué)習(xí)是個循序漸進的、動態(tài)的過程，語言中某一方面的變化可能會導(dǎo)致其他方面的改變。隨著二語水平的提高，接受者和客體的長度增加，其相對作用力的系數(shù)也發(fā)生了改變。高水平學(xué)習(xí)者比低水平學(xué)習(xí)者習(xí)得了更多的分布偏向，分布偏向的作用力大小與習(xí)得順序無關(guān)，因為分布偏向間存在的相互作用和相互壓制在不斷重新權(quán)衡和分配現(xiàn)已習(xí)得的分布偏向的影響強度。

[1]Perek F. Argument Structure in Usage-based Construction Grammar[M]. Amsterdam：John Benjamins,2015.

[2]Ellis N. Frequency effects in language processing：A review with implications for theories of implicit and explicit language acquisition[J]. Studies in Second Language Acquisition,2002 (24)：143-188.

[3]Tomasello M. Constructing a Language：A Usage-based Theory of Language Acquisition[M]. Cambridge：Harvard University Press,2003.

[4]Inagaki S. Japanese and Chinese learners’ acquisition of the narrow-range rules for the dative alternation in English[J]. Language Learning,1997 (47)：637-669.

[5]Mazurkewich I,White L. The acquisition of the dative alternation：Unlearning overgeneralizations[J]. Cognition,1984 (16)：261-283.

[6]Ambridge B,Pine J,Rowland C,et al.. The roles of verb semantics,entrenchment,and morphology in the retreat from dative argument-structure overgeneralization errors[J]. Language,2012 (88)：45-81.

[7]韓百敬,薛芬. 中國英語學(xué)習(xí)者對英語與格轉(zhuǎn)換的習(xí)得研究[J]. 外語教學(xué)與研究,2014 (46)：759-770.

[8]許琪. 相對頻率對中國英語學(xué)習(xí)者習(xí)得介詞與格結(jié)構(gòu)的作用[J]. 外語教學(xué)與研究,2012 (5)：706-718.

[9]Bresnan J,Cueni A,Nikitina T,et al.. Predicting the dative alternation[C]//Boume G,Kramer I,Zwarts J (eds.). Cognitive Foundations of Interpretation. Amsterdam：Royal Netherlands Academy of Science,2007：69-94.

[10]Collins P. The indirect object construction in English：an informational approach[J]. Linguistics,1995 (33)：34-49.

[11]Gries S T. Towards a corpus-based identification of prototypical instances of constructions[J]. Annual Review of Cognitive Linguistics,2003 (1)：1-27.

[12]Arnold J,Wasow T,Losongco A,et al.. Heaviness vs. newness：the effects of complexity and information structure on constituent ordering[J]. Language,2000 (76)：28-55.

[13]何曉煒. 雙及物結(jié)構(gòu)句式選擇的制約因素研究[J]. 語言教學(xué)與研究,2008 (3)：29-36.

[14]王寅. 構(gòu)式語法研究(下卷)：分析應(yīng)用[M]. 上海：上海外語教育出版社,2011.

[15]Marneffe M C,Grimm S,Arnon I,et al.. A statistical model of the grammatical choices in child production of dative sentences[J]. Language and Cognitive Process,2012 (27)：25-61.

[16]Stephens N. Dative constructions and givenness in the speech of four-year-olds[J]. Linguistics,2015(3)：405-442.

[17]楊江鋒. 基于SWECCL的中國英語學(xué)習(xí)者與格換位結(jié)構(gòu)的習(xí)得研究[J]. 外語與外語教學(xué),2013 (6)：53-57.

[18]王琳琳. 基于多語體語料的英語雙及物結(jié)構(gòu)研究——以give為例[J]. 外國語,2013 (36)：45-54.

[19]桂詩春,楊惠中. 中國學(xué)習(xí)者英語語料庫[M]. 上海：上海外語教育出版社,2002.

[20]張文彤,董偉. SPSS統(tǒng)計分析高級教程(第2版)[M]. 北京：高等教育出版社,2013.

[21]李昱. 語言共性和個性在漢語雙賓語構(gòu)式二語習(xí)得中的體現(xiàn)[J]. 語言教學(xué)與研究,2015 (1)：10-21.

AStudyonChineseEFLLearners’ChoicebetweenDitransitiveConstructionsBasedontheLogisticRegressionModel

YANMinfen,ZHOUQianqian

(SchoolofForeignStudies,JiangnanUniversity,Wuxi214122,China)

In this study，two sub-corpora in CLEC,namely st2 and st6,are adopted as the data sources for low proficient and high proficient learners’ output. A textbook corpus is built as the data source for low proficient learners’ input by the authors’ research team. Ditransitive constructions are first searched in three corpora. The binary logistic regression model is employed to analyze the relative and collective effects of six distributional biases in Chinese EFL learners’ production of ditransitive constructions,investigating if Chinese learners are sensitive to multiple distributional biases present in their input which constrain the choice between two ditransitive constructions. Results show learners’ choices are influenced by multiple biases and the pattern is similar to that in their input. Additionally,the parallel between input and output exists in a more specific and microcosmic way. High proficiency learners do acquire more distributional biases and the acquisition order exerts no influence on the relative effects of biases due to their interactions and coercion. These findings demonstrate the dynamic nature of language acquisition,which takes place incrementally,and learners are capable of picking up on the complicated cues present in their input.

ditransitive construction;choice of constructions;binary logistic regression model;distributional biases

H319

2095-2074(2015)05-0041-13

2015-09-01

江蘇省普通高校研究生科研創(chuàng)新計劃項目(KYZZ_0314)

嚴敏芬(1964-)，女，江蘇張家港人，江南大學(xué)外國語學(xué)院教授，文學(xué)博士；周倩倩(1990-)，女，江蘇啟東人，江南大學(xué)外國語學(xué)院英語語言文學(xué)專業(yè)2013級碩士研究生。

基于Logistic回歸模型的中國英語學(xué)習(xí)者雙及物構(gòu)式選擇研究

一、引言

二、文獻回顧

三、研究方法

四、研究結(jié)果

五、討論

六、結(jié)語

二、文獻回顧

三、研究方法

四、研究結(jié)果

五、討論

六、結(jié)語