○ 張丁月 唐興全
(1.北京語言大學(xué) 人文社會(huì)科學(xué)學(xué)部,北京 100083;2.對外經(jīng)濟(jì)貿(mào)易大學(xué) 中文學(xué)院,北京 100029)
近年來,計(jì)量語言學(xué)的發(fā)展推動(dòng)了大量詞語領(lǐng)域的研究。隨著計(jì)算機(jī)技術(shù)的普及,各類統(tǒng)計(jì)方法與語言學(xué)現(xiàn)象的結(jié)合使定量分析方法走進(jìn)語言學(xué)研究領(lǐng)域,彌補(bǔ)了定性分析的不足。目前對漢語教學(xué)領(lǐng)域的詞匯計(jì)量研究較多集中在教材詞匯分析、學(xué)習(xí)詞表的編制和詞匯產(chǎn)出統(tǒng)計(jì)等方面,涉及漢語作為第二語言學(xué)習(xí)者作文用詞的研究也主要考察學(xué)習(xí)者的詞匯偏誤及原因。黃立、錢旭菁、吳繼峰等對二語學(xué)習(xí)者漢語寫作中的詞匯豐富性的發(fā)展進(jìn)行了研究[1][2];肖瀟、陳默、任揚(yáng)等考察了二語學(xué)習(xí)者漢語口語中的詞匯豐富性發(fā)展情況。[3][4][5]但學(xué)界通過計(jì)量手段,對來華留學(xué)生在整個(gè)一學(xué)期內(nèi)課程作文整體用詞表現(xiàn)與學(xué)習(xí)時(shí)長的關(guān)系進(jìn)行的分階段考察研究較少。
因此,本文希望通過定量分析,從用詞豐富性、準(zhǔn)確性兩個(gè)角度考察來華留學(xué)生一學(xué)期內(nèi)在《漢語寫作》課程作文作業(yè)中的用詞表現(xiàn),揭示學(xué)習(xí)時(shí)長與來華留學(xué)生作文用詞的內(nèi)在規(guī)律,建立相關(guān)模型,為教師合理把握來華留學(xué)生寫作水平提供具體數(shù)據(jù)參考,并為教師開展?jié)h語寫作課程教學(xué)提供相關(guān)建議。
詞匯豐富性是學(xué)習(xí)者詞匯質(zhì)量研究的重要指標(biāo)。中外學(xué)者對它的概念也做出了界定。Nation & Webb 明確定義“詞匯豐富性是指文本中詞匯知識(shí)的質(zhì)量”,可以測量詞匯運(yùn)用的廣度和深度,是衡量口語或書面語整體水平的重要依據(jù)。[6]張艷、陳紀(jì)梁提出,詞匯豐富性就是指語言使用者在自由言語產(chǎn)出中使用詞匯的豐富程度。[7]中外研究者對詞匯豐富性概念的界定大體一致,在詞匯豐富性具體測量維度的劃分上雖存在爭議,但基本集中在“詞匯變化性、詞匯復(fù)雜性、詞匯密度、詞匯個(gè)別性、詞匯錯(cuò)誤”等幾個(gè)維度。本文在詞匯豐富性的統(tǒng)計(jì)方面,主要依據(jù)的是不重復(fù)詞語(詞種)在作文中的比重,即:
詞匯豐富性=詞種數(shù)/詞語總數(shù)*100%
第二語言表達(dá)的準(zhǔn)確性根據(jù)不同層次可分為詞匯準(zhǔn)確性、句法準(zhǔn)確性和語音準(zhǔn)確性。對于準(zhǔn)確性的度量,目前國內(nèi)學(xué)界主要參照國外的做法,使用無錯(cuò)T單位百分比和平均T單位長度來進(jìn)行測量。本文主要關(guān)注詞匯準(zhǔn)確性。由于國內(nèi)目前對T單位的界定分歧較大,所以本文中主要采用詞匯偏誤數(shù)在作文用詞中所占的比重來測量,即:
詞匯偏誤率=用詞偏誤數(shù)/詞語總數(shù)*100%
本文的研究對象為某大學(xué)經(jīng)管類專業(yè)的一個(gè)班共17名來華留學(xué)生,學(xué)生屬性如下:
表1 《漢語寫作》課程學(xué)習(xí)者信息
1.語料來源。本研究所用語料全部為上述17名來華留學(xué)生本科生在大一下學(xué)期《漢語寫作》課上的課下作文。該課程開始時(shí)間為3月2日,因3月3日和3月7日同屬開學(xué)第一周,期間學(xué)生共寫作11篇作文,寫作間隔較小。為方便統(tǒng)計(jì),將其合并為一組數(shù)據(jù),學(xué)習(xí)時(shí)長記為3天。該學(xué)期的作文寫作可以分為以下七個(gè)學(xué)習(xí)階段:
表2 寫作課學(xué)習(xí)階段與時(shí)長
因?yàn)槊總€(gè)階段作文數(shù)量不一致,基本上在12-17篇,因此我們?yōu)楸3忠恢?,每階段隨機(jī)抽取10篇作文進(jìn)行考察。
2.語料標(biāo)注與處理。我們首先對七個(gè)階段70篇作文進(jìn)行了格式規(guī)范化處理,然后對作文原文進(jìn)行了詞匯偏誤標(biāo)注。本次標(biāo)注內(nèi)容主要為詞語層面偏誤,主要包括:詞混淆、缺詞、缺詞素、詞多余、詞素多余、詞素順序錯(cuò)誤、實(shí)詞詞序錯(cuò)誤、虛詞詞序錯(cuò)誤、生造詞、拼音詞、外文詞、離合詞錯(cuò)用、詞重疊錯(cuò)誤等。然后我們用北京理工大學(xué)張華平研制的ICTCLAS2015詞處理軟件對作文語料原文進(jìn)行分詞與詞頻統(tǒng)計(jì),用統(tǒng)計(jì)軟件Eviews 8.0構(gòu)建回歸模型。
我們的研究思路如下:
①通過統(tǒng)計(jì)、分析作文所用詞種(不重復(fù)詞語)的數(shù)量,分析用詞豐富性。對比不同階段用詞信息差異、構(gòu)建相關(guān)回歸模型,分析學(xué)生用詞豐富性的變化。
②通過統(tǒng)計(jì)、分析作文用詞偏誤數(shù)量、偏誤率,分析用詞準(zhǔn)確性。對比不同階段用詞信息差異、構(gòu)建相關(guān)回歸模型,分析學(xué)生用詞準(zhǔn)確性的變化。
表3 學(xué)期各階段作文用詞量統(tǒng)計(jì)
因7月1日作文為期末考試作文,與學(xué)生其他時(shí)段的課下作文相比,寫作環(huán)境差異過大,因此本文暫不討論該階段作文表現(xiàn)。
(1)理論分析:在其他條件不變的情況下,隨著學(xué)習(xí)時(shí)間的延長,學(xué)生的語言水平會(huì)有所提高。在作文用詞豐富性上,表現(xiàn)為詞種數(shù)會(huì)增多,即學(xué)生掌握了更多樣復(fù)雜的詞匯。因此我們假設(shè),詞種數(shù)與學(xué)習(xí)天數(shù)存在正相關(guān)關(guān)系。
(2)建立模型:Y=α1+α2X+μ,其中:Y為詞種數(shù),X為學(xué)習(xí)天數(shù),μ隨機(jī)擾動(dòng)項(xiàng)。
(3)構(gòu)建散點(diǎn)圖:
圖1 詞種數(shù)與學(xué)習(xí)時(shí)長相關(guān)性散點(diǎn)圖
由上圖可看出,隨X(學(xué)習(xí)天數(shù))的增加,Y(不重復(fù)詞語數(shù))增加,二者呈現(xiàn)正相關(guān)關(guān)系,符合初始假設(shè)。
(4)估計(jì)參數(shù):利用EViews進(jìn)行回歸分析,結(jié)果如下:Y=9.0095X+85.4139,t值=(7.0388)(1.2998),R2=0.92, F=49.5441。
(5)模型檢驗(yàn):
①擬合優(yōu)度檢驗(yàn):
R2=0.92,說明模型整體上擬合很好,樣本回歸線能夠擬合、解釋92%的樣本數(shù)據(jù)。
②變量顯著性檢驗(yàn):
給定α=0.05,查t分布表[8],在自由度為n-2=4時(shí)臨界值為2.7764。其中,X的系數(shù)t=7.0388>2.7764,且其p值=0.0021<0.05,X通過顯著性檢驗(yàn),表明學(xué)習(xí)時(shí)長對不重復(fù)詞語數(shù)即用詞豐富性有顯著影響。
同理檢驗(yàn)常數(shù)項(xiàng)C的t值,發(fā)現(xiàn)其p值=0.2635>0.005,且其t值未通過臨界值檢驗(yàn),因此常數(shù)項(xiàng)C未通過顯著性檢驗(yàn)。
F檢驗(yàn)衡量所有自變量對因變量的影響程度,該模型為一元模型,上述唯一自變量通過顯著性檢驗(yàn),即該模型通過F檢驗(yàn)。
③實(shí)際意義檢驗(yàn):
上述結(jié)果表明,學(xué)習(xí)時(shí)長對用詞豐富性有顯著影響。根據(jù)統(tǒng)計(jì)結(jié)果,當(dāng)學(xué)習(xí)時(shí)長每增加一天時(shí),學(xué)生所掌握的不重復(fù)詞語數(shù)大約增加9個(gè),這反映了該學(xué)期學(xué)生作文用詞豐富性隨學(xué)習(xí)時(shí)間而增加。
在變量檢驗(yàn)時(shí),模型方程常數(shù)項(xiàng)未通過顯著性檢驗(yàn),表明常數(shù)項(xiàng)不能很好地反映學(xué)生在進(jìn)行學(xué)習(xí)前已掌握的基礎(chǔ)詞匯數(shù)量。因此我們不能利用該模型預(yù)測一定學(xué)習(xí)天數(shù)下的學(xué)生具體掌握的詞匯數(shù)量。這與學(xué)生個(gè)體基礎(chǔ)差異較大、每人起初掌握的詞匯數(shù)量不同有關(guān)。
隨著學(xué)習(xí)時(shí)間的增加,課程對學(xué)生的學(xué)習(xí)要求隨之提高,因此作文字詞數(shù)持續(xù)增加。而隨字詞數(shù)的增加,學(xué)生出現(xiàn)偏誤的數(shù)量往往也會(huì)增加。
表4 學(xué)期各階段作文用詞偏誤率統(tǒng)計(jì)
這里我們暫不討論期末考試即第七階段的作文用詞表現(xiàn)。
(1)理論分析:在其他條件不變的情況下,隨著學(xué)習(xí)時(shí)間的延長,學(xué)生的語言水平會(huì)有所提高。在作文用詞準(zhǔn)確性上,偏誤率會(huì)下降,即用詞準(zhǔn)確性提高。因此我們假設(shè),用詞偏誤率與學(xué)習(xí)天數(shù)存在負(fù)相關(guān)關(guān)系。
(2)建立模型:Y=β1+β2X+μ,其中:Y為偏誤數(shù),X為學(xué)習(xí)天數(shù),μ隨機(jī)擾動(dòng)項(xiàng)。
(3)構(gòu)建散點(diǎn)圖:
圖2 用詞偏誤率與學(xué)習(xí)時(shí)長相關(guān)性散點(diǎn)圖
由上圖可看出,除個(gè)別點(diǎn)外,隨學(xué)習(xí)天數(shù)X的增加,用詞偏誤率Y基本呈現(xiàn)階段下降的趨勢。二者基本呈現(xiàn)負(fù)相關(guān)關(guān)系,符合初始假設(shè)。
(4)估計(jì)參數(shù):利用EViews進(jìn)行回歸分析,結(jié)果如下:Y= -0.0690X + 13.4439,t值=(-3.6674)(13.9139),R2=0.77, F=13.4495。
(5)模型檢驗(yàn):
①擬合優(yōu)度檢驗(yàn):
R2=0.77,說明模型整體上擬合較好,樣本回歸線能夠擬合、解釋77%的樣本數(shù)據(jù)。
②變量顯著性檢驗(yàn):
給定α=0.05,查t分布表,在自由度為n-2=4時(shí)臨界值為2.7764。其中,X的系數(shù)
│t│=3.6674>2.7764,且其p值=
0.0214<0.05,X通過顯著性檢驗(yàn),表明學(xué)習(xí)時(shí)長對偏誤率即用詞準(zhǔn)確性有顯著影響。
同理檢驗(yàn)常數(shù)項(xiàng)C的t值,C的│t│=13.9139>2.7764,其p值=0.0002<0.05,C通過顯著性檢驗(yàn)。
F檢驗(yàn)衡量所有自變量對因變量的影響程度,該模型為一元模型,上述唯一自變量通過顯著性檢驗(yàn),即該模型通過F檢驗(yàn)。
③實(shí)際意義檢驗(yàn):
上述結(jié)果表明,學(xué)習(xí)時(shí)長對用詞準(zhǔn)確性有較為顯著的影響。根據(jù)統(tǒng)計(jì)結(jié)果,當(dāng)學(xué)習(xí)時(shí)長每增加一天時(shí),學(xué)生作文用詞偏誤率約下降0.069個(gè)百分點(diǎn),這反映了該學(xué)期學(xué)生作文用詞準(zhǔn)確性隨學(xué)習(xí)時(shí)間而增加。同時(shí),當(dāng)學(xué)習(xí)天數(shù)為0時(shí),回歸結(jié)果反映學(xué)生初始偏誤率為13.4439%。這是學(xué)生未開始本學(xué)期學(xué)習(xí)時(shí),自身學(xué)習(xí)基礎(chǔ)的一個(gè)反映。此外,我們也可以利用該模型,大致預(yù)測一定學(xué)習(xí)天數(shù)下學(xué)生作文用詞偏誤率的數(shù)值。
通過統(tǒng)計(jì)分析,我們發(fā)現(xiàn),隨著學(xué)習(xí)時(shí)長的增加,該班級(jí)留學(xué)生作文用詞表現(xiàn)如下:(一)在用詞豐富性方面,當(dāng)學(xué)習(xí)時(shí)長每增加一天時(shí),學(xué)生所掌握的不重復(fù)詞語數(shù)大約增加9個(gè)。(二)在用詞準(zhǔn)確性方面,當(dāng)學(xué)習(xí)時(shí)長每增加一天時(shí),學(xué)生用詞偏誤率約下降0.069個(gè)百分點(diǎn)。在學(xué)習(xí)天數(shù)為0,即本學(xué)期開始時(shí),本班級(jí)學(xué)生作文用詞初始偏誤率為13.4439%。以上兩方面都反映隨學(xué)生學(xué)習(xí)時(shí)長的增加,該班級(jí)學(xué)生作文水平有所提高。
此外,除以上兩方面,字?jǐn)?shù)、詞語數(shù)的增加反映了課程對學(xué)生寫作要求的提高,一定程度也能反映學(xué)生寫作水平的提高。
因此,漢語寫作課教師在實(shí)際授課過程中,可以制定合適的寫作練習(xí)頻率,保證留學(xué)生得到充分、連續(xù)的寫作練習(xí)。
本次研究中,我們側(cè)重分析習(xí)得過程中學(xué)習(xí)時(shí)長對留學(xué)生作文用詞的影響。整體上只關(guān)注了其用詞豐富性中的不充分詞語數(shù)量和準(zhǔn)確性中的偏誤率,側(cè)重?cái)?shù)量上的分析,而沒有分析其具體表現(xiàn),諸如作文中的用詞等級(jí)、偏誤種類等仍需要繼續(xù)細(xì)分、量化研究。