黃自然
(黃山學院文學院,安徽黃山245041)
?
韓國學生漢語中介語平均句長與句長分布發(fā)展研究
黃自然
(黃山學院文學院,安徽黃山245041)
摘要:分別以“字”“詞”為單位統(tǒng)計100萬字韓國學生漢語中介語的平均句長和句長分布發(fā)展情況,并與漢語本族人使用情況進行對比。研究發(fā)現:初、中、高三級韓國學生中介語平均句長分別為8.94字/5.97詞、10.07字/6.57詞和10.87字/7.08詞,本族人平均句長為10.91字/7.1詞,中介語平均句長的發(fā)展經歷了一個從初級到高級逐步上升并不斷靠近目標語水平的過程;在句長分布上,兩者均呈“長尾”分布態(tài)勢,且最高峰分布區(qū)間一致,兩者的差異主要表現在中介語句長分布范圍小于本族語者,呈現出短句、長句均發(fā)展不足的特點。
關鍵詞:韓國學生;漢語中介語;平均句長;句長分布
(一)研究現狀
中介語的系統(tǒng)性可以從語音、詞匯、語法等方面去探究。語法的系統(tǒng)性為中介語系統(tǒng)性研究中的重要組成部分,語法的發(fā)展過程和發(fā)展狀況是觀測中介語系統(tǒng)性的一個重要窗口?!罢Z法的發(fā)展通常可以從兩方面進行評定和分析:一是句子的長度,即句子中所包含的最基本的意義單位的數量;另一個更為主要的方面是句子結構的完整性和復雜性”[1]294。
平均句長(The Mean Length of Utterance,簡稱MLU)是指每個句子所包含的有意義單位(一般指詞或語素)的數量均值[2]153。平均句長與句長分布的研究主要集中在兒童母語習得研究方面,代表性成果有Brown(1973)[3]、吳天敏、許政援(1979)[4]和朱曼殊(1986)[5]等。Brown(1973)以“語素”為單位研究英語兒童平均句長發(fā)展過程,將英語兒童平均句長的發(fā)展分為五個階段,每個階段對應一定的平均句長和句法發(fā)展特征。漢語兒童母語平均句長的研究主要包括以“字”為單位的研究(如吳天敏、許政援(1979))和以“詞”為單位的研究(如朱曼殊(1986))。漢語母語習得方面的研究表明兒童平均句子長度隨年齡而增長,并伴隨句法的復雜化。以“字”為單位計算平均句長具有簡單、便捷的優(yōu)點,但存在漢字不都是意義單位、所得的結果無法跟其他語言句長發(fā)展情況進行有效比較等問題。以“詞”為單位不存在以上問題,但在詞的界定和具體切分上常存在分歧和困難。
到目前為止,漢語作為第二語言習得的平均句長(MLU)研究不多,主要有施家煒(2002)[6]、靳洪剛(2006)[7]等。施家煒(2002)使用韓國留學生的個案跟蹤語料,重點考察韓國留學生漢語句式MLU的發(fā)展和漢語句式習得的階段性特征與發(fā)展趨勢。研究發(fā)現在7個半月的跟蹤期內,第二語言學習者的MLU(以詞為單位)由3.48極為迅速地發(fā)展到7.98,兒童越過同樣的跨度需要2.5-5年。靳洪剛(2006)通過問卷調查探討漢語語言結構復雜度的發(fā)展過程,研究表明英語母語背景學習者的平均句長和平均話題鏈長均有直線上升趨勢,而平均T-單位和分句長度的發(fā)展卻表現為曲線趨勢。
從現有的研究成果看,平均句長的研究主要以個案跟蹤調查或問卷調查為主要研究手段,基于大規(guī)模分國別的留學生漢語中介語語料庫的研究仍較為少見。本文嘗試以100萬字規(guī)模的韓國學生漢語中介語作文語料庫為基礎,以“字”和“詞”為單位對韓國學生平均句長和句長分布的發(fā)展情況進行定量、系統(tǒng)研究。
(二)語料來源
本文語料包括漢語本族人語料和韓國學生中介語語料。漢語本族人語料主要來源于當代小說語料和初中學生作文語料①小說語料主要包括曹文軒的《紅瓦黑瓦》,張賢亮的《綠化樹》,方方的《桃花燦爛》,海巖的《玉觀音》,余華的《許三觀賣血記》,共計約80萬字。初中學生作文語料主要來自小山屋作文網(網址http://zuowen.xiaoshanwu.com/zuowen),包括寫人、敘事、寫景、狀物、議論、抒情、書信等多種體裁,共計約40萬字。。選取綜合語料的目的在于規(guī)避個人言語風格、體裁等因素對句子長度的影響。韓國學生中介語語料主要來源于南京師范大學的“韓國學生漢語中介語作文語料庫”,語料分為初、中、高三級②其中初級為一年級,漢語學習時間一般三、四個月至一年;中級為二年級,漢語學習時間一般為一至二年;高級為三、四年級,漢語學習時間一般都在兩年以上。,初級20萬字,中級、高級各40萬字,共計約100萬字。語料為韓國學生篇章完整的考試作文,能較為真實地反映韓國學生漢語中介語系統(tǒng)的句子面貌。
(三)句子的界定與切分
“中國語言學家給句子下的定義已有幾十種,幾乎是一家一說,甚至一家數說?!盵8]423漢語句子的界定仍存在較大的分歧。語體學上的句長研究一般以書面標點符號“?!薄?!”“?”作為切分句子的標志,所得句子既包括單句、也包括復句甚至句群,所得單位的同質性存在很大問題。為了能更好地觀察韓國學生句法的發(fā)展狀況,本研究選擇以“小句”作為觀測點,借鑒“小句”理論對書面語中的句子進行切分[9],最后所得單位仍以“句子”相稱。
對大規(guī)模語料庫句子長度的統(tǒng)計主要依靠計算機軟件來輔助實現。在界定“句子”和明確句子切分標準③句子的具體切分標準包括對句子特殊成分(如獨立成分、復指成分)的處理,對變式句的處理、對句首狀語修飾句子串、賓語位置句子串、引述性話語和直接引語的處理,對復合謂語句、緊縮句的處理等,具體論述見黃自然(2012)。的基礎上[10],本研究使用句長統(tǒng)計軟件,以“,”“:”“;”“。”“?”“!”“……”作為句子邊界的標記對句子進行切分,并人工校對帶“,”“……”的句子。
在此基礎上,本文分別以“字”“詞”為單位對100萬字韓國學生漢語中介語語料的平均句長和句長分布進行封閉性、窮盡性的統(tǒng)計分析,從實證研究的角度考察中介語的發(fā)展過程,檢驗、論證和豐富漢語中介語理論。
(一)統(tǒng)計數據及整體情況
先以“字”為單位來考察韓國學生中介語的平均句長和各類長度句子的分布情況。通過句長統(tǒng)計軟件的統(tǒng)計,發(fā)現在約100萬字的韓國學生中介語語料中④句長統(tǒng)計軟件統(tǒng)計的具體字數為914020字。100萬字原始語料是通過辦公軟件WORD的“字數統(tǒng)計”功能統(tǒng)計出來的,該“統(tǒng)計信息”中所顯示的“字數”包括了文本中標點符號的數量。而我們的句長統(tǒng)計軟件統(tǒng)計出來的字數不包括標點,所以在最后的字數上跟以前用WORD統(tǒng)計出來的字數存在一定的差異,這一差異即為語料中標點符號的數量。后面各學時等級中介語也存在類似的情況,不再另做說明。,共有句子90370個,平均句長為10.11個字。韓國學生以“字”為單位的中介語句長分布范圍為1-44字,中介語句子在各句長上的分布呈不均衡狀態(tài)。將不同句長句子的出現頻次制圖如下(圖1):
圖1韓國學生中介語不同句長頻次分布及變化圖(以“字”為單位)
從上圖可以看出,韓國學生中介語句子在所有長度上的出現頻次呈“長尾”分布態(tài)勢①“長尾”這一術語借自美國人克里斯·安德森提出的“長尾理論”。該理論主要用于解釋“網絡時代”的商業(yè)和經濟模式,即認為在網絡時代,除了占絕對地位的商家占據大部分客戶以外,大眾客戶的分布則如一條長長的尾巴。。句子頻次在8個字時達到峰值,然后逐漸下降。10個字以內的句子②包括10個字的句子,下同,不再一一說明。占句子總數的近60%,15個字之內的句子達87.76%,20個字之內的句子數量已超過95%,30個字以上的句子只零星出現。
從主要分布區(qū)間看,7、8、9個字句子是句子長度分布的最高峰區(qū)間,在這一區(qū)間,句子的出現頻次均在8000句以上,這一區(qū)間的句子數占句子總數的27.29%。從最高峰區(qū)間往兩端推移,6-10個字句子的出現頻次均在7000句以上,為句長分布的高頻區(qū)間,這一區(qū)間占句子總數的43.8%;5-12個字句子的出現頻次均在5000句以上,為句長分布的次高頻區(qū)間,這一區(qū)間占句子總數的63.96%;4-14個字的出現頻次均在4000句以上,為句長分布的次次高頻區(qū)間,這一區(qū)間占句子總數的78.68%。韓國學生以“字”為單位的句長分布的區(qū)間性明顯。同時,韓國學生中介語句子頻次在所有高頻區(qū)間上基本呈正態(tài)分布,即以8個字句長為頻次峰值向兩端依次遞減。
(二)以“字”為單位的各級韓國學生中介語句長發(fā)展特點分析
在分析韓國學生中介語總語料平均句長和句長分布情況的基礎上,我們也采用同樣的統(tǒng)計方法分析了韓國學生不同學時等級(即初、中、高三級)中介語平均句長、句長分布范圍、句長分布最高峰區(qū)間、主要百分比累加值對應的句長、句長分布主要區(qū)間等方面的情況,并對其進行對比,以探討以“字”為單位的各級韓國學生中介語句長發(fā)展特點。上述各方面在韓國學生各級中介語語料及總語料中的表現情況如下表(表1):
表1韓國學生各學時等級平均句長及句長分布對比表(以“字”為單位)
根據上表,韓國學生漢語中介語平均句長和句長分布的發(fā)展主要有以下特點和規(guī)律:
韓國學生中介語平均句長(以“字”為單位)逐級上升:從初級的8.94發(fā)展到中級的10.07,再發(fā)展到高級的10.87,依次增長了1.13個字和0.8個字,初級到中級增長明顯,中級到高級增長幅度減??;韓國學生中介語句長分布范圍逐級擴大:初級為1-34字,中級為1-40字,高級為1-44字;韓國學生中介語句長分布的最高峰區(qū)間逐級上升:初級為6-8字、中級為7-9、高級為8-10個字;韓國學生中介語對應同一百分比累加值的句子長度逐步上升,也就是說,學生水平越高,句子長度的分布范圍越廣;韓國學生中介語最常用區(qū)間的范圍逐級擴大:初級為4-12個字,中級為4-14個字,高級為4-15個字,各級最常用區(qū)間的句子數量接近句子總數的80%。
(一)統(tǒng)計數據及整體情況
本節(jié)考察韓國學生中介語以“詞”為單位的平均句長和各長句子分布情況③本研究采用北京大學計算語言學研究所的“北京大學現代漢語語料庫基本加工規(guī)范”作為分詞規(guī)范。所使用的分詞軟件為中國科學院計算技術研究所研制的漢語詞法分析系統(tǒng)ICTCLAS,機器分詞后再進行人工校對。。通過軟件統(tǒng)計發(fā)現:在約100萬字的韓國學生中介語(具體詞數為598627)中,共有句子90370個,平均句長為6.62個詞。韓國學生以“詞”為單位的中介語句長分布范圍為1-28個詞,句子的分布相對集中,不同句長句子頻次分布如下圖(圖2):
圖2韓國學生中介語不同句長頻次分布及變化圖(以“詞”為單位)
根據圖2,發(fā)現以“詞”為單位的韓國學生中介語句長分布具有如下特點:
總體來看,韓國學生中介語以“詞”為單位的句子長度分布亦呈“長尾”分布態(tài)勢。句子頻次在5個詞時達到峰值,然后逐漸下降,10個詞以內的句子數已超過句子總數的88%,15個詞以內的句子已達句子總數的98.37%,在分布鏈上形成一條不斷靠近橫坐標的“尾巴”。
從主要分布區(qū)間看,4、5、6個詞是以“詞”為單位的句長分布的最高峰,在這一區(qū)間,句子的出現頻次均在11000句以上,這一區(qū)間占句子總數的40.12%;從最高峰區(qū)間往兩端推移:3-8個詞句子的出現頻次均在7500句以上,為句長分布的高頻區(qū)間,這一區(qū)間占所有句子總數的69.81%;3-10個詞句子的出現頻次均在4500句以上,為句長分布的次高頻區(qū)間,這一區(qū)間占所有句子總數的82%。韓國學生以“詞”為單位的句長分布的區(qū)間性明顯,并且在所有高頻使用區(qū)間上基本呈正態(tài)分布,即以5個詞句長為頻次峰值向兩端遞減。
(二)以“詞”為單位的各級韓國學生中介語句長發(fā)展特征分析
在分析韓國學生中介語總語料及各學時等級中介語語料以“詞”為單位的平均句長及句長分布情況的基礎上,我們對不同學時等級上韓國學生中介語的平均句長、句長分布范圍、句長分布的最高峰、主要百分比累加值對應句長、最常用句長分布區(qū)間等方面進行分析。上述方面在以“詞”為單位的韓國學生各級中介語語料及總語料中的呈現情況如下表(表2):
表2韓國學生各學時等級平均句長及句長分布情況對比表(以“詞”為單位)
從上表可以看出,以“詞”為單位的韓國學生中介語平均句長及句長發(fā)展變化具有以下5個方面的特點和規(guī)律:第一,隨著學時等級的提高,韓國學生中介語以“詞”為單位的平均句長逐步上升。從初級的5.97發(fā)展到中級的6.57,增長0.6個詞;中級到高級平均句長從6.57發(fā)展到7.08,增長了0.51個詞;第二,隨著學時等級的提高,韓國學生中介語以“詞”為單位的句長分布范圍擴大。最長的句子從初級的23個詞,擴大到中、高級的28個詞;第三,韓國學生句長出現的最高峰區(qū)間依次為4-6個詞(初級)、4-7個詞(中級)、5-7個詞(高級),這說明韓國學生中介語句子的最高峰區(qū)間在4-7個詞上,同時表明中介語句長的最高峰隨著學時等級的提高而逐步上升;第四,從主要百分比對應的句子長度看,隨著學時等級的提高,對應同一百分比累加值的句子長度(詞)逐步上升,即學生水平越高,句子長度的分布范圍越廣;第五,從句子分布的最常用區(qū)間看,初級、中級的最常用區(qū)間均為3-9個詞,高級的最常用區(qū)間為3-10個詞,這說明在各級語料中,絕大多數句子均集中在10個詞之內。最常用區(qū)間的句子數量占句子總數的80%左右。
以“字”和以“詞”為單位統(tǒng)計的中介語句子長度在平均句長、句長分布范圍、最高峰區(qū)間、最常用區(qū)間的分布上都具有較強的一致性和相關性①韓國學生中介語語料的詞字比為1:1.53(598627: 914020),本研究中各種以“字”“詞”為單位的平均句長及句長分布數據與韓國學生中介語詞與字的比例關系基本一致。。通過對語料進行窮盡性、全面性的統(tǒng)計分析,我們發(fā)現以“字”“詞”為單位的中介語平均句長與句長分布發(fā)展表現出中介語本身所具有的規(guī)律性、動態(tài)性和系統(tǒng)性。
(一)中介語平均句長與目標語(本族人語料)對比分析
平均句長是一個考察句法能力的參考指標。下面對比分析韓國學生中介語各學時等級語料及總語料與本族人語料的平均句長情況,具體數據如下表(表3):
表3韓國學生中介語與本族人語料平均句長對比表
從上表可以看出,無論以“字”或以“詞”為單位,韓國學生中介語平均句長均低于漢語本族人。從平均句長的發(fā)展過程來看,韓國學生初級階段平均句長與本族人差距較大,以“字”或“詞”為單位分別相差1.97個字和1.13個詞。高級階段則已非常接近本族人的水平。從初級到高級,是一個不斷靠近本族人平均句長的過程。
(二)中介語句長分布與目標語(本族人語料)對比分析
下面從分布范圍、最高峰區(qū)間、最常用區(qū)間等三個方面對比分析韓國學生中介語句長分布與本族人句長分布的共性和差異。兩種語料上述方面的具體數據如下表(表4):
表4韓國學生中介語與本族人語料句長分布對比表
根據上表,可以對韓國學生中介語語料與漢語本族人語料的句長分布情況作如下分析:
從句長的分布范圍看,本族人的句長分布范圍大于中介語語料。本族人語料中的長句主要為小說語料中文學色彩比較濃厚的句子,或者是歐化特征比較明顯的句子。這類句子在中介語中出現的幾率較小。下面我們將本族人語料和中介語語料中的長句各舉兩例加以說明:
(1)但在風中搖晃著的似乎還有點怕冷的尖尖小荷,以那份鮮嫩的綠色和孩子般的搖晃,預示著一個綠荷滿塘的未來。
(2)在這座荒村中的這間簡陋的小土房里,在這昏黃的、被霧氣和柴煙弄得閃爍不定的油燈光下,我完全是個多余的人!
(3)還有在爆竹聲聲響起的時候,對很多辛苦工作或學習了一年而想借假期好好休息的人可謂是個折磨。
(4)★其實我想“占有”這兩個字兒并不是一個很好的方法用來挽留我們所愛的東西留在自己的身邊。
其中(1)(2)為本族人語料中的長句,都帶有較為復雜的修飾性成分(定語或狀語),句子結構方式也帶有歐化句式的特點。(3)(4)為韓國學生中介語的長句,(3)帶有較長的狀語,但復雜程度不及例(1)(2)。(4)則是韓國學生在運用長句時出現的偏誤用例。中介語在句長的覆蓋范圍上不及本族人,原因既跟第二語言學習者的語言水平有關,也跟兩種語料在語體上的差異有一定的關系。
韓國學生中介語與目標語(本族人語料)在句長的最高峰區(qū)間上表現出較大的共性。以“字”為單位的最高峰區(qū)間集中在6-10個字,以“詞”為單位的最高峰區(qū)間集中在4-7個詞。這一長度區(qū)間可能是語流中句子(小句)長度的主流,這一長度區(qū)間也符合信息處理的短時記憶原則,即人類短時記憶的理想長度一般為7±2個模塊,這種共性表現為漢語句子(小句)長度分布的特征。
從最常用區(qū)間來看,中介語跟本族人語料在分布上的共性主要表現為最常用區(qū)間的范圍大致相當。兩者的差異主要表現為中介語的常用區(qū)間略小于本族人,這在各個學時等級上又有所不同。從初級到高級,表現出不斷向本族人區(qū)間分布靠攏的特征。
對各級中介語語料和本族人語料的句子頻次百分比的具體分析表明:本族人在一定長度范圍上的短句(1-3個字,1-2個詞)和長句(18個字以上,13個詞以上)的使用比中介語更為突出。也就是說,中介語主要集中在典型的句長范圍(本族人和中介語都是高頻使用的區(qū)間)內。這既是一般表達的需要,也是輸入、輸出最多的形式。
本文分別以“字”“詞”為單位研究了韓國學生漢語中介語平均句長和句長分布發(fā)展情況,并與漢語本族人使用情況進行對比。研究發(fā)現韓國學生中介語平均句長的發(fā)展經歷了一個從初級到高級逐步上升并不斷靠近本族人水平的過程。中介語語料跟本族人語料在句長分布上既有共性,也有差異。共性體現為兩者均呈“長尾”分布態(tài)勢,且最高峰分布區(qū)間范圍一致(6-10字、4-7詞),差異主要表現在中介語句長分布范圍小于本族人,呈現出短句、長句均發(fā)展不足的特點。本研究表明中介語作為一個獨立的語言系統(tǒng),有其自身的系統(tǒng)性和規(guī)律性。
參考文獻:
[1]朱曼殊,繆小春,主編.心理語言學[M].上海:華東師范大學出版社, 1990.
[2]李宇明.兒童語言的發(fā)展[M].武漢:華中師范大學出版社, 1995.
[3] Brown, R. AFirst Language: the Early Stages[M]. Cam?bridge Mass. Harvard University Press,1973.
[4]吳天敏,許政援.初生到三歲兒童言語發(fā)展記錄的初步分析[J].心理學報,1979(2).
[5]朱曼殊,主編.兒童語言發(fā)展研究[M].上海:華東師范大學出版社,1986.
[6]施家煒.外國留學生漢語句式習得的個案研究[J].世界漢語教學, 2002(4).
[7]靳洪剛.從漢語寫作過程看CFL語言結構復雜度的發(fā)展[M]//漢語教學學刊(第2輯).北京:北京大學出版社,2006: 114-125.
[8]張靜.漢語語法問題[M].北京:中國社會科學出版社,1987. [9]邢福義.小句中樞說[J].中國語文,1995(6).
[10]黃自然.韓國學生漢語中介語句長與定、狀語復雜度發(fā)展研究[D].南京師范大學博士學位論文,2012.
責任編校金秋
作者簡介:黃自然(1982-),男,湖南岳陽人,黃山學院文學院講師,博士。
基金項目:教育部人文社會科學基金項目“基于作文語料庫的韓國學生漢語中介語系統(tǒng)研究”(10YJA740101);黃山學院引進人才啟動項目“韓國學生漢語中介語句長與句法復雜度發(fā)展研究”(2013xskq001);黃山學院校級教研項目“基于任務型教學法的韓國學生漢語口語教學模式研究”(2013JXYJ10)
收稿日期:2015-12-15
中圖分類號:H195
文獻標識碼:A
文章編號:2095-0683(2016)01-0160-06