漢語(yǔ)公式化序列長(zhǎng)度和頻數(shù)關(guān)系的協(xié)同理論研究

2016-11-06 01:42:24戴雪婷梁怡洲瞿云華

浙江外國(guó)語(yǔ)學(xué)院學(xué)報(bào) 2016年6期

關(guān)鍵詞：公式化詞頻頻數(shù)

戴雪婷，梁怡洲，瞿云華

（浙江大學(xué)外國(guó)語(yǔ)言文化與國(guó)際交流學(xué)院，浙江杭州310058）

漢語(yǔ)公式化序列長(zhǎng)度和頻數(shù)關(guān)系的協(xié)同理論研究

戴雪婷，梁怡洲，瞿云華

（浙江大學(xué)外國(guó)語(yǔ)言文化與國(guó)際交流學(xué)院，浙江杭州310058）

本研究采取語(yǔ)料庫(kù)驅(qū)動(dòng)范式，探究漢語(yǔ)公式化序列長(zhǎng)度和頻數(shù)的關(guān)系規(guī)律，旨在驗(yàn)證協(xié)同理論構(gòu)建于詞匯層面的理論和模型在公式化語(yǔ)言上的適用性。研究結(jié)果表明，漢語(yǔ)公式化多詞序列的長(zhǎng)度對(duì)其使用頻數(shù)產(chǎn)生負(fù)影響，二者之間的關(guān)系規(guī)律可以進(jìn)一步通過(guò)冪函數(shù)F＝aLbe?cL描述。從長(zhǎng)度—頻數(shù)關(guān)系出發(fā)，研究結(jié)果拓寬了原有理論和模型的適用范圍，進(jìn)一步探討了語(yǔ)言的共性；通過(guò)跨語(yǔ)域的對(duì)比研究，發(fā)掘了公式化語(yǔ)言的特性。

漢語(yǔ)公式化序列；長(zhǎng)度；頻數(shù)；協(xié)同理論；語(yǔ)域

一、引言

Zipf于1935年首次提出“詞匯的長(zhǎng)度和其使用頻數(shù)呈負(fù)相關(guān)”［1］25①的理論假設(shè)。這一設(shè)想開(kāi)啟了語(yǔ)言學(xué)界對(duì)詞匯長(zhǎng)度（詞長(zhǎng)）和使用頻數(shù)（詞頻）關(guān)系的探討研究。半個(gè)多世紀(jì)以來(lái)，國(guó)內(nèi)外語(yǔ)言學(xué)家通過(guò)對(duì)不同語(yǔ)種的考察，并以多種類型的語(yǔ)言單位來(lái)度量詞長(zhǎng)，對(duì)Zipf的假設(shè)進(jìn)行了廣泛的驗(yàn)證和拓展。Zipf最早基于德語(yǔ)語(yǔ)料對(duì)詞長(zhǎng)和詞頻的關(guān)系進(jìn)行了簡(jiǎn)單的闡釋，其他研究者則相繼基于英語(yǔ)（分別以字母和音素?cái)?shù)量為詞長(zhǎng)單位）［2］、拉丁語(yǔ)（以音節(jié)數(shù)為詞長(zhǎng)單位）［3］、荷蘭語(yǔ)（以字母數(shù)為詞長(zhǎng)單位）［3］、漢語(yǔ)（以漢字字?jǐn)?shù)為詞長(zhǎng)單位）［4］等語(yǔ)料對(duì)這一假說(shuō)進(jìn)行了反復(fù)驗(yàn)證。

從建立假設(shè)到驗(yàn)證拓展，以往研究對(duì)“長(zhǎng)度”和“頻數(shù)”關(guān)系的探討大多建立在詞匯層面，也有研究者觀察到在多詞組合中同樣存在長(zhǎng)度和頻數(shù)呈負(fù)相關(guān)的現(xiàn)象［5］②。然而到目前為止，多詞組合的長(zhǎng)度—頻數(shù)關(guān)系研究?jī)H僅停留在現(xiàn)象觀察的（observational）層面，尚未進(jìn)行系統(tǒng)、深入的探究和解釋，也缺少充足的語(yǔ)料支撐。相關(guān)的漢語(yǔ)研究更是有待挖掘。

近三十年來(lái)，語(yǔ)言學(xué)界廣泛關(guān)注的語(yǔ)言公式化問(wèn)題為我們進(jìn)一步考察長(zhǎng)度和頻數(shù)的關(guān)系提供了新的思路。本研究基于自建的浙江大學(xué)漢語(yǔ)語(yǔ)料庫(kù)，對(duì)漢語(yǔ)公式化序列的長(zhǎng)度和使用頻數(shù)之間的關(guān)系進(jìn)行計(jì)量分析，旨在驗(yàn)證協(xié)同理論的動(dòng)態(tài)機(jī)制在公式化語(yǔ)言上的適用性，以進(jìn)一步發(fā)掘公式化語(yǔ)言的特性，探討語(yǔ)言共性。

二、研究背景

（一）公式化語(yǔ)言：基本特征和語(yǔ)料庫(kù)提取

正如Bolinger所言，語(yǔ)言的建構(gòu)并不要求我們?nèi)繌脑嫉摹皫讐K木材，幾顆釘子和一張圖紙”［6］1開(kāi)始；相反，它為我們提供了大量的“預(yù)制件”。公式化語(yǔ)言（formulaic language）正是語(yǔ)言建構(gòu)中的“預(yù)制件”，它在日常語(yǔ)言使用中占據(jù)了較高的比重。Wray將公式化語(yǔ)言定義為預(yù)制的序列（prefab?ricated sequences of words），這類序列往往“作為整體儲(chǔ)存在記憶中，并在使用時(shí)作為整體取出，不需要經(jīng)過(guò)語(yǔ)法的生成和分析”［7］9（例如 the end of the，in terms of，by and large，goods and service）。因此，處理優(yōu)勢(shì)是公式化語(yǔ)言的一個(gè)重要特征：通過(guò)使用這些預(yù)制的序列，可以壓縮語(yǔ)言處理的時(shí)間，節(jié)約精力，符合語(yǔ)言使用的經(jīng)濟(jì)原則。從這一角度看，單個(gè)的公式化語(yǔ)言即公式化序列（formulaic sequences）與單個(gè)詞匯具有高度的相似性。除此之外，Wray＆Perkins指出，公式化語(yǔ)言還具有語(yǔ)篇標(biāo)記（discourse marker）的功能，能夠促進(jìn)不同語(yǔ)境下的語(yǔ)言交際［8］。

根據(jù)公式化語(yǔ)言的定義和特征，語(yǔ)言學(xué)家建立了一套可操作的鑒別和提取標(biāo)準(zhǔn)，其中較常用、相對(duì)可靠的方法是根據(jù)其高頻特征（recurrent），基于頻數(shù)標(biāo)準(zhǔn)（raw frequency）進(jìn)行語(yǔ)料庫(kù)驅(qū)動(dòng)式抽取?；诓煌Z(yǔ)料和不同研究目的，研究者［5，7，9］使用的抽取標(biāo)準(zhǔn)也不盡相同，在一定程度上不可避免地存在任意性。因此不少研究者在鑒別時(shí)還使用了其他標(biāo)準(zhǔn)，用以彌補(bǔ)頻數(shù)抽取的不足。如Biber設(shè)立抽取lexical bundle的標(biāo)準(zhǔn)為每百萬(wàn)詞出現(xiàn)十次及以上［9］，他還提出：“為了消除語(yǔ)料中說(shuō)話人/作者的個(gè)人語(yǔ)言特質(zhì)影響，公式化語(yǔ)言必須在多個(gè)（≥5）文本中出現(xiàn)。”［9］282除了機(jī)器提取以外，不少研究者采用了母語(yǔ)使用者人工判斷篩選的方法。例如Wray＆Namba制定了包含十一項(xiàng)標(biāo)準(zhǔn)的語(yǔ)言公式化的人工判斷量表（checklists）［10］。

語(yǔ)料庫(kù)驅(qū)動(dòng)的公式化語(yǔ)言研究在獲取語(yǔ)料時(shí)，不需要預(yù)設(shè)完整的語(yǔ)言單位和理論假設(shè)，通常只將長(zhǎng)度和頻數(shù)量級(jí)設(shè)定為條件，以充分發(fā)掘語(yǔ)料，盡可能地窮盡不同類別的公式化語(yǔ)言。這類研究往往將“長(zhǎng)度”和“頻數(shù)”視為鑒別和提取公式化語(yǔ)言的標(biāo)準(zhǔn)，而對(duì)于二者之間的關(guān)系則鮮有涉及。

（二）協(xié)同理論與長(zhǎng)度—頻數(shù)關(guān)系研究

Zipf對(duì)語(yǔ)言使用中詞長(zhǎng)和詞頻呈負(fù)相關(guān)的觀察啟發(fā)了大量后繼研究。除了多語(yǔ)種、多種語(yǔ)言單位的橫向驗(yàn)證和拓展以外，研究者們還對(duì)二者之間關(guān)系的統(tǒng)計(jì)規(guī)律進(jìn)行了深入的描述。其中，以K?hler為代表的協(xié)同語(yǔ)言學(xué)家構(gòu)建了較為完善的框架和模型，用以描述和解釋詞長(zhǎng)—詞頻關(guān)系。

K?hler指出，協(xié)同方法（synergetic approach）以跨學(xué)科視閾，采用模型構(gòu)建的方法描述和解釋所有動(dòng)態(tài)系統(tǒng)，關(guān)注結(jié)構(gòu)的自發(fā)調(diào)整和發(fā)展變化過(guò)程。協(xié)同語(yǔ)言學(xué)主張，語(yǔ)言既是心理社會(huì)（psycho?social）現(xiàn)象，同時(shí)也是生物認(rèn)知（biological?cognitive）現(xiàn)象。語(yǔ)言被視為一個(gè)龐大的動(dòng)態(tài)系統(tǒng)，各個(gè)子系統(tǒng)之間相互協(xié)作、相互競(jìng)爭(zhēng)，融合來(lái)自生物機(jī)體、心理社會(huì)等外部作用，共同構(gòu)成了語(yǔ)言體系的運(yùn)作機(jī)制［11］761。交際活動(dòng)中呈現(xiàn)的各種語(yǔ)言現(xiàn)象、語(yǔ)言結(jié)構(gòu)和語(yǔ)言各個(gè)屬性之間的協(xié)作關(guān)系，都是語(yǔ)言體系運(yùn)作機(jī)制的反映，也是協(xié)同語(yǔ)言學(xué)的主要關(guān)注對(duì)象。

“語(yǔ)言的運(yùn)作機(jī)制并非雜亂無(wú)章，而是有規(guī)律可循的?！保?］30協(xié)同語(yǔ)言學(xué)的核心目的在于：以演繹的方式對(duì)語(yǔ)言運(yùn)作機(jī)制提出普遍性的理論假設(shè)，運(yùn)用數(shù)學(xué)計(jì)量方法對(duì)其運(yùn)作規(guī)律進(jìn)行宏觀性的總結(jié)、建模和解釋。通過(guò)驗(yàn)證理論假設(shè)和模型測(cè)試，揭示語(yǔ)言系統(tǒng)運(yùn)作和發(fā)展的規(guī)律，并以數(shù)學(xué)定律的形式呈現(xiàn)，逐漸形成并完善語(yǔ)言理論的網(wǎng)絡(luò)體系［11］761。

K?hler以德語(yǔ)為語(yǔ)料，構(gòu)建了首個(gè)針對(duì)詞匯的協(xié)同語(yǔ)言學(xué)模型，描述了四個(gè)詞匯屬性“詞長(zhǎng)（length）”“詞頻（frequency）”“多義性（polysemy）”以及“多文度（polytextuality）”之間的協(xié)同關(guān)系［11］768。圖1為簡(jiǎn)化的K?hler詞匯控制回路模型（lexical control circuit）：箭頭代表影響作用及作用方向；加減號(hào)分別代表正、負(fù)影響。如圖1所示，詞頻對(duì)詞長(zhǎng)產(chǎn)生直接性負(fù)影響，受語(yǔ)言系統(tǒng)運(yùn)作中生成負(fù)擔(dān)最小化（Minimization of production effort，即MinP）要求的支配，與Zipf提出的省力原則（principle of least effort）相符。

圖1 K?hler詞匯控制回路模型（簡(jiǎn)化）［11］768

K?hler進(jìn)一步將詞長(zhǎng)和詞頻的關(guān)系表示為微分方程：變量x的相對(duì)變率與變量y成比例。

這一公式可以轉(zhuǎn)化為冪函數(shù)F＝aLb（b＜0；a，b為參數(shù)）。在該公式中，L（length）的取值為同一詞長(zhǎng)范圍內(nèi)所有頻數(shù)量級(jí)F（frequency）的平均數(shù)值。

K?hler建立的詞長(zhǎng)和詞頻關(guān)系模型和冪函數(shù)公式為二者之間的關(guān)系規(guī)律研究提供了新的分析方向。其后，不少研究者就K?hler提出的模型進(jìn)行了驗(yàn)證和補(bǔ)充：Strausset al．［3］基于10種語(yǔ)言和多種語(yǔ)篇類型，證實(shí)了詞長(zhǎng)和詞頻的協(xié)同規(guī)律在自然語(yǔ)言中的普遍性，并就函數(shù)模型中的參數(shù)變化規(guī)律進(jìn)行了分析；鄧＆馮［4］將該模型引入漢語(yǔ)詞匯中進(jìn)行了驗(yàn)證，同樣分析了函數(shù)模型中的參數(shù)變化規(guī)律；Altman 提出的 F＝aLbe?cL（a，b，c 為參數(shù)，e 為自然常數(shù)）函數(shù)被證實(shí)具有相當(dāng)高的擬合效度［12］。

迄今為止，研究者對(duì)長(zhǎng)度—頻數(shù)的協(xié)同關(guān)系規(guī)律已經(jīng)進(jìn)行了多語(yǔ)種、多語(yǔ)篇、多維度的分析。但相關(guān)研究均停留在詞匯層面，尚未拓展到其他語(yǔ)言單位。詞匯的協(xié)同規(guī)律是否同樣適用于多詞序列？這是本研究所要探討的重點(diǎn)：通過(guò)不同語(yǔ)言單位的驗(yàn)證，進(jìn)一步揭示語(yǔ)言規(guī)律的共性。

為了探討以上問(wèn)題，本研究先對(duì)漢語(yǔ)公式化序列作出界定，界定標(biāo)準(zhǔn)基于Wray（2002，2003）［7，10］對(duì)英文序列特征的定義及公式化判斷量表，結(jié)合漢語(yǔ)語(yǔ)法特征，內(nèi)容包括：1）使用頻數(shù)高；2）語(yǔ)義不透明，在感知上并不突出；3）語(yǔ)法結(jié)構(gòu)特殊，甚至有不規(guī)則現(xiàn)象；4）在語(yǔ)音上具有連續(xù)性；5）包含虛詞和實(shí)詞；6）較短的序列可以并入較長(zhǎng)的序列；7）呈現(xiàn)固化和半固化性。具體地說(shuō)，主要為：

1）與英語(yǔ)公式化序列定義相似，漢語(yǔ)公式化序列是指在日常漢語(yǔ)使用中經(jīng)常出現(xiàn)的，由多個(gè)詞構(gòu)成、具有整存整取預(yù)制特征的連續(xù)序列。漢語(yǔ)公式化序列同樣包括搭配、慣用語(yǔ)、成語(yǔ)、習(xí)語(yǔ)等固定或半固定的詞語(yǔ)序列。

2）但漢語(yǔ)公式化序列在構(gòu)成單位上與英語(yǔ)有所區(qū)別：英語(yǔ)公式化序列由單個(gè)詞匯構(gòu)成，序列長(zhǎng)度通常以單詞為劃分單位，例如“on the other hand”為四詞序列。漢語(yǔ)公式化序列則以結(jié)合緊密、使用穩(wěn)定的漢語(yǔ)詞匯為最小單位，例如序列“我不知道”和“你告訴我”由三個(gè)詞匯構(gòu)成，為三詞序列；“我跟你說(shuō)”“我想問(wèn)一下”為四詞序列。

另外，漢語(yǔ)公式化序列傾向于代指單個(gè)的、可數(shù)的序列，漢語(yǔ)公式化語(yǔ)言是將此類序列視為整體的總稱。本文為語(yǔ)料庫(kù)實(shí)證研究，側(cè)重序列的長(zhǎng)度和頻數(shù)研究，因而采用漢語(yǔ)公式化序列這一名稱。

基于以上觀察，結(jié)合對(duì)公式化序列特征的考察，本研究提出假設(shè)：協(xié)同理論關(guān)于詞長(zhǎng)和詞頻的理論假設(shè)和數(shù)學(xué)模型可能同樣適用于漢語(yǔ)公式化序列。為驗(yàn)證該假設(shè)，本研究基于大量漢語(yǔ)公式化序列數(shù)據(jù)，運(yùn)用計(jì)量方法揭示其長(zhǎng)度和頻數(shù)之間的協(xié)同關(guān)系，并探討公式化語(yǔ)言和協(xié)同規(guī)律在不同語(yǔ)體（書面語(yǔ)/口語(yǔ)）下的特征。

三、研究方法

（一）數(shù)據(jù)來(lái)源

本研究數(shù)據(jù)來(lái)自于自建的浙江大學(xué)漢語(yǔ)語(yǔ)料庫(kù)（Zhejiang University Corpus of Spoken and Written Mandarin Chinese，簡(jiǎn)稱ZCMC）。ZCMC共計(jì)100萬(wàn)詞，均為漢語(yǔ)普通話，取自2000到2014年間的正式出版物或公開(kāi)發(fā)表內(nèi)容。口語(yǔ)、書面語(yǔ)各50萬(wàn)詞，包括新聞、社論、學(xué)術(shù)文章、政府文件、小說(shuō)、電視節(jié)目、法庭辯論等多種語(yǔ)體。語(yǔ)言取樣時(shí)效性強(qiáng)，類型廣泛，能夠充分反映當(dāng)代漢語(yǔ)口語(yǔ)和書面語(yǔ)使用的語(yǔ)言特征。

（二）數(shù)據(jù)收集及處理

本研究以3—6詞的連續(xù)性漢語(yǔ)公式化序列為對(duì)象，研究數(shù)據(jù)包括：1）序列長(zhǎng)度；2）相應(yīng)長(zhǎng)度等級(jí)序列的頻數(shù)數(shù)據(jù)。序列長(zhǎng)度以所包含的漢語(yǔ)詞匯數(shù)目來(lái)衡量，例如詞條“我不知道”，包含了“我”“不”“知道”三個(gè)語(yǔ)法上獨(dú)立完整的詞，因此被界定為三詞序列。頻數(shù)為該長(zhǎng)度序列在語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)，以語(yǔ)料庫(kù)中該長(zhǎng)度等級(jí)下所有序列的平均頻數(shù)為準(zhǔn)。

序列的抽取采用Antconc3.2.4軟件中的n?gram功能，基于頻數(shù)（50萬(wàn)詞語(yǔ)料庫(kù)中出現(xiàn)5次及以上）和文本分布（跨越5個(gè)及以上文本）標(biāo)準(zhǔn)進(jìn)行自動(dòng)抽取。再根據(jù)界定標(biāo)準(zhǔn)請(qǐng)多位母語(yǔ)使用者對(duì)抽取結(jié)果進(jìn)行人工篩選核對(duì)，主要?jiǎng)h去不符合要求的人名、地名、專業(yè)術(shù)語(yǔ)等，以確保處理結(jié)果的準(zhǔn)確性。

本研究以長(zhǎng)度（L）為自變量，頻數(shù)（F）為因變量，運(yùn)用SPSS16.0對(duì)二者關(guān)系進(jìn)行回歸分析、冪函數(shù)F＝aLb（b＜0）及F＝aLbe－cL擬合度檢驗(yàn)，以驗(yàn)證公式化多詞序列長(zhǎng)度和頻數(shù)關(guān)系的假設(shè)。

四、研究結(jié)果

（一）漢語(yǔ)公式化序列長(zhǎng)度對(duì)使用頻數(shù)的影響

口語(yǔ)和書面語(yǔ)料中，漢語(yǔ)公式化序列長(zhǎng)度和頻數(shù)數(shù)據(jù)以及公式擬合結(jié)果如表1所列：

表1 序列長(zhǎng)度和頻數(shù)關(guān)系

表1中的數(shù)據(jù)統(tǒng)計(jì)結(jié)果顯示，口語(yǔ)和書面語(yǔ)料中，長(zhǎng)度較短的三、四詞序列的總數(shù)量要遠(yuǎn)遠(yuǎn)高于五、六詞的總數(shù)量。且隨著序列長(zhǎng)度增加，其使用頻數(shù)呈現(xiàn)明顯的下降趨勢(shì)，在口語(yǔ)和書面語(yǔ)料中均有體現(xiàn)。書面語(yǔ)料庫(kù)中，隨著序列長(zhǎng)度的增加，其平均使用頻數(shù)從9.18下降到5.5；這一趨勢(shì)在口語(yǔ)語(yǔ)料中則更加明顯：從平均11.5次下降到僅出現(xiàn)1次。由此，研究假設(shè)得到證實(shí)，漢語(yǔ)公式化序列長(zhǎng)度對(duì)其頻數(shù)產(chǎn)生負(fù)影響，即長(zhǎng)度越長(zhǎng)，使用頻數(shù)越低。

鄧＆馮［4］選取了1—4詞的漢語(yǔ)詞匯，對(duì)詞長(zhǎng)和詞頻關(guān)系進(jìn)行了統(tǒng)計(jì)，同樣發(fā)現(xiàn)了明顯的負(fù)相關(guān)趨勢(shì)（見(jiàn)圖2中的詞匯曲線）。將本研究所得的公式化序列曲線（見(jiàn)圖2中的公式化序列曲線）與詞匯曲線進(jìn)行對(duì)比可以發(fā)現(xiàn)，隨著長(zhǎng)度的增加，序列使用頻數(shù)變化的幅度要遠(yuǎn)遠(yuǎn)小于詞匯。換言之，公式化序列的長(zhǎng)度對(duì)其使用頻數(shù)影響的顯著性要小于詞匯長(zhǎng)度對(duì)詞頻的影響。其原因在于公式化語(yǔ)言不同于單個(gè)詞匯的特征，具體留待討論部分中再作詳細(xì)解釋。

圖2 詞匯/公式化序列長(zhǎng)度—頻數(shù)關(guān)系曲線對(duì)比（書面語(yǔ)/口語(yǔ)）

通過(guò)觀察以上關(guān)系曲線發(fā)現(xiàn)，隨著序列長(zhǎng)度增加，其使用頻數(shù)呈現(xiàn)非線性模式遞減。因此，我們?cè)谛蛄蓄l數(shù)統(tǒng)計(jì)的基礎(chǔ)上，對(duì)長(zhǎng)度和頻數(shù)關(guān)系進(jìn)行了回歸分析，檢驗(yàn)冪函數(shù)模型，與頻數(shù)的觀測(cè)值進(jìn)行對(duì)比。

（二）長(zhǎng)度和頻數(shù)關(guān)系的數(shù)學(xué)模型擬合

圖3和圖4呈現(xiàn)了觀測(cè)值（由點(diǎn)陣表示）和理論值曲線的擬合情況?？傮w來(lái)看，兩個(gè)函數(shù)模型大致上符合觀測(cè)值的變化趨勢(shì)。其中，F(xiàn)＝aLbe－cL函數(shù)提供的理論值更加接近觀測(cè)數(shù)據(jù)。

圖3 頻數(shù)觀測(cè)值（一）和理論值（口語(yǔ)/書面語(yǔ)） F＝aLb（b＜0）

圖4 頻數(shù)觀測(cè)值（二）和理論值（口語(yǔ)/書面語(yǔ)）F＝aLbe－cL

由圖3、圖4和表1可知，冪函數(shù)F＝aLb（b＜0）和F＝aLbe－cL在口語(yǔ)和書面語(yǔ)料庫(kù)中的擬合效度相對(duì)都很高，且后者高于前者。這說(shuō)明在口語(yǔ)和書面語(yǔ)中，冪函數(shù)F＝aLbe－cL能更好地描述序列長(zhǎng)度和頻數(shù)的關(guān)系規(guī)律。其中，書面語(yǔ)中的擬合效度稍微高于口語(yǔ)語(yǔ)料。除此之外，就當(dāng)前容量為100萬(wàn)詞的漢語(yǔ)語(yǔ)料而言，冪函數(shù) F＝ 4.6L6.32e－2.02L和 F＝ 7.32L5.01e－1.72L能夠分別準(zhǔn)確地預(yù)測(cè)口語(yǔ)和書面語(yǔ)中3—6詞序列的使用頻數(shù)。

（三）語(yǔ)域視角下的公式化序列

以跨語(yǔ)域的視角重新審視以上數(shù)據(jù)，我們能夠發(fā)掘更多公式化語(yǔ)言的特征。公式化序列在漢語(yǔ)口語(yǔ)和書面語(yǔ)中均得到了高頻率的使用，但在具體的數(shù)據(jù)統(tǒng)計(jì)上呈現(xiàn)了明顯的差別。這些差別可以進(jìn)一步追溯到不同語(yǔ)境特征和交際目的。

口語(yǔ)和書面語(yǔ)在語(yǔ)境上的區(qū)別使其對(duì)該語(yǔ)境下語(yǔ)言的使用產(chǎn)生不同的要求，主要體現(xiàn)在交際性（interactivity）以及交際模式（physical mode）兩個(gè)方面［13］。書面語(yǔ)境中，語(yǔ)言使用者有相對(duì)充足的時(shí)間進(jìn)行規(guī)劃和修改；而口語(yǔ)語(yǔ)境則是即時(shí)和即興的，說(shuō)話人需要承受更大的語(yǔ)言處理壓力，因而會(huì)傾向于訴諸更快、更為省力的途徑?！罢嬲　o(wú)需語(yǔ)法生產(chǎn)分析”的公式化語(yǔ)言便是這樣一條節(jié)省語(yǔ)言處理精力的捷徑。如表1數(shù)據(jù)所示，口語(yǔ)語(yǔ)料庫(kù)中抽取的公式化序列數(shù)量遠(yuǎn)遠(yuǎn)多于書面語(yǔ)料庫(kù)，并且前者各個(gè)長(zhǎng)度等級(jí)下的序列使用頻數(shù)均高于后者。通過(guò)大量使用公式化語(yǔ)言，可以使說(shuō)話人在言語(yǔ)交際中節(jié)省消耗。這既是口語(yǔ)語(yǔ)境的要求，也是語(yǔ)言經(jīng)濟(jì)原則的體現(xiàn)。

就交際目的而言，在書面語(yǔ)境中，書寫人的首要目的在于“傳達(dá)新信息”，而說(shuō)話人在口語(yǔ)語(yǔ)境中更傾向于以“交際”為目的，與聽(tīng)話人建立關(guān)系［13］109。Wray＆Perkins指出，公式化語(yǔ)言除了語(yǔ)言加工優(yōu)勢(shì)以外，還可以起到凸顯說(shuō)話人目的、掌控對(duì)話的交際功能，以滿足口語(yǔ)交際的要求［8］17?18。因此，公式化語(yǔ)言在口語(yǔ)語(yǔ)境中的使用頻率更高。

五、討論與總結(jié)

本文以協(xié)同理論為框架，采用數(shù)學(xué)計(jì)量方法，分析了漢語(yǔ)公式化多詞序列長(zhǎng)度對(duì)使用頻數(shù)的影響規(guī)律。研究結(jié)果顯示，漢語(yǔ)公式化多詞序列的長(zhǎng)度對(duì)其使用產(chǎn)生負(fù)影響，即序列越長(zhǎng)，其使用頻數(shù)越低。二者存在依存關(guān)系，并且可以進(jìn)一步通過(guò)冪函數(shù)公式F＝aLbe－cL準(zhǔn)確描述。這一結(jié)果與K?hler等協(xié)同語(yǔ)言學(xué)家對(duì)于詞長(zhǎng)和詞頻關(guān)系的設(shè)想相同，也再次印證了語(yǔ)言機(jī)制運(yùn)作中生成負(fù)擔(dān)最小化（MinP）的系統(tǒng)要求。

這一結(jié)果不是對(duì)協(xié)同理論和模型的簡(jiǎn)單重復(fù)論證，研究表明長(zhǎng)度和頻數(shù)的協(xié)同關(guān)系不僅僅適用于詞匯，還可以進(jìn)一步拓展到多詞序列的層面。這拓寬了原有理論模型的適用范圍，揭示了語(yǔ)言規(guī)律的普遍性。

另外，本研究在探討長(zhǎng)度和頻數(shù)關(guān)系規(guī)律的基礎(chǔ)上，對(duì)漢語(yǔ)公式化語(yǔ)言自身的特征進(jìn)行了考察。基于公式化序列“整存整取”，與單個(gè)詞匯高度相似的特征，我們提出了研究設(shè)想：構(gòu)建于詞匯層面的詞長(zhǎng)—詞頻協(xié)同關(guān)系規(guī)律同樣適用于公式化序列。研究結(jié)果顯然證實(shí)了這一假設(shè)，從詞長(zhǎng)—詞頻關(guān)系的角度驗(yàn)證了公式化語(yǔ)言的“預(yù)制性”和“整體性”特征。

然而我們也發(fā)現(xiàn)，漢語(yǔ)公式化序列的長(zhǎng)度—頻數(shù)關(guān)系規(guī)律與漢語(yǔ)詞匯有所不同?？傮w而言，序列的長(zhǎng)度對(duì)其使用頻數(shù)的影響顯著性要低于詞匯。鄧＆馮的研究結(jié)果揭示了語(yǔ)言經(jīng)濟(jì)原則在漢語(yǔ)詞長(zhǎng)和詞頻關(guān)系規(guī)律上的體現(xiàn)：詞長(zhǎng)一定程度代表了語(yǔ)言單位的復(fù)雜性，人類的惰性和大腦信息處理能力的有限性導(dǎo)致語(yǔ)言使用者在滿足交際目的的前提下，傾向于選擇短小簡(jiǎn)單的詞匯來(lái)表達(dá)特定意義［4］37。然而，就公式化序列而言，首先，其本身就具有節(jié)省語(yǔ)言加工處理的優(yōu)勢(shì)。隨著長(zhǎng)度的累加，公式化序列并未產(chǎn)生明顯的復(fù)雜性，因而長(zhǎng)度對(duì)使用頻數(shù)的影響也較小。其次，與意義完整的單個(gè)詞匯不同，大部分公式化序列在結(jié)構(gòu)和意義上具有不完整性，加之漢語(yǔ)在拆分組合上的高度靈活性，長(zhǎng)度較短的序列可以任意地延伸拓展為長(zhǎng)序列（如：就是說(shuō)—也就是說(shuō)，多的是—更多的是），序列長(zhǎng)度增加的同時(shí)也是信息的疊加和補(bǔ)充。因此在語(yǔ)言交際和信息傳遞的要求下，語(yǔ)言使用者對(duì)序列長(zhǎng)度的敏感性有所降低。

書面語(yǔ)和口語(yǔ)兩個(gè)維度的對(duì)比分析揭示了口語(yǔ)語(yǔ)境下語(yǔ)言使用者對(duì)公式化語(yǔ)言的偏好。這一現(xiàn)象是由語(yǔ)境特征和公式化語(yǔ)言的特性共同決定的。另外，我們發(fā)現(xiàn)冪函數(shù)公式F＝aLbe－cL對(duì)書面語(yǔ)料的擬合效度要稍高于口語(yǔ)語(yǔ)料。參數(shù)估計(jì)結(jié)果顯示，參數(shù)a、b在不同的語(yǔ)體中有所區(qū)別。針對(duì)模型參數(shù)，有待于引入更多語(yǔ)體類別進(jìn)一步研究其變化規(guī)律。

本研究充分體現(xiàn)和證實(shí)了協(xié)同語(yǔ)言學(xué)的核心思想：語(yǔ)言運(yùn)作于一個(gè)“自調(diào)節(jié)、自組織”的動(dòng)態(tài)系統(tǒng)。我們所觀察到的語(yǔ)言現(xiàn)象和語(yǔ)言特征均可以通過(guò)數(shù)學(xué)模型來(lái)描述、解釋甚至預(yù)測(cè)，以提取語(yǔ)言共性，形成嚴(yán)密的語(yǔ)言理論系統(tǒng)。本研究沿用了協(xié)同理論的詞匯模型，得出其在漢語(yǔ)公式化序列上良好的擬合效度。為進(jìn)一步精確描述公式化序列的長(zhǎng)度—頻數(shù)關(guān)系規(guī)律，后續(xù)研究可以基于更多的語(yǔ)料和語(yǔ)種數(shù)據(jù)進(jìn)行拓展和補(bǔ)充，也可考慮結(jié)合開(kāi)放性測(cè)試，構(gòu)建更符合公式化語(yǔ)言的數(shù)學(xué)模型。

注釋：

①“That the magnitude of words tends，on the whole，to stand in an inverse （not necessarily proportionate） relationship to the number of occurrences．” Zipf［1］25．

②DeCock等（1998）從英語(yǔ)語(yǔ)料庫(kù)中抽取高頻詞組時(shí)發(fā)現(xiàn)：詞組越長(zhǎng)，使用頻率越低。Hyland（2008）觀察到了類似的現(xiàn)象：當(dāng)學(xué)術(shù)寫作中的序列擴(kuò)展到五詞及以上時(shí)，其使用頻數(shù)大幅下降。

［1］Zipf G K．The Psycho?Biology of Language：An Introduction to Dynamic Philology［M］．New York：Houghton Mifflin，1935．

［2］Miller G A，Newman E B，F(xiàn)riedman E A．Length?frequency statistics for written English［J］．Information and Control，1958，1：370?389．

［3］Strauss U，Grzybek P，Altmann G．Word length and word frequency［C］ //Grzybek （ed．）．Contributions to the Science of Text and Language：Word Length Studies and Related Issues．Dordrecht：Springer，2007：277?294．

［4］鄧耀臣，馮志偉．詞匯長(zhǎng)度與詞匯頻數(shù)關(guān)系的計(jì)量語(yǔ)言學(xué)研究［J］．外國(guó)語(yǔ)，2013，36（3）：29?39．

［5］DeCock S，Granger S，Leech G，et al．An automated approach to the phrasicon of EFL learners［C］ //Granger S（ed．）．Learner English on Computer．London ＆ New York：Addison Wesley Longman，1998：67?69．

［6］Bolinger D．Meaning and memory［J］．Forum Linguisticum，1979，11：1?14．

［7］Wray A．Formulaic Language and the Lexicon［M］．Cambridge：Camberige University Press，2002．

［8］Wray A，Perkins M R．The functions of formulaic language：an integrated model［J］．Language ＆ Communication，2000，20：1?28．

［9］Biber D．A corpus?driven approach to formulaic language in English：Multi?word patterns in speech and writing［J］．Interna?tional Journal of Corpus Linguistics，2009，14（3）：275?311．

［10］Wray A，Namba K．Use of formulaic language by a Japanese?English bilingual child：A practical approach to data analysis［J］．Japan Journal of Multilingualism ＆ Multiculturalism，2003，9：29?32．

［11］K?hler R．Synergetic linguisrics［C］ //K?hler R，Altmann G，Piotrowski G （eds．）．Quantitative Linguistics．Berlin/New York：Walter de Gruyter，2005：760?774．

［12］Altmann G．Prolegomena to Menzerath’s law［J］．Glottometrika，1980，2：1?10．

［13］Biber D，Conrad S．Register，Genre and Style［M］．Cambridge：Cambridge University Press，2009．

A Synergetic Approach to the Relationship between the Length and Frequency of Chinese Formulaic Sequences

DAI Xueting，LIANG Yizhou，QU Yunhua
（School of International Studies，Zhejiang University，Hangzhou 310058，China）

The present paper adopts a corpus?driven approach to explore the relationship between length and frequency among Chinese lexical bundles，in an attempt to test whether the synergetic model/formula constructed at the lexical level can extend its applicability to multi?word formulaic sequences．The results in?dicate that the length of Chinese lexical bundles exerts a negative influence on its frequency of occurrence．Power function F＝aLbe－cLcan adequately describe this regularity．Based on the length?frequency relationship，this research shall prove universal language rules by testing and extending the scope of synergetic theory．It will also identify the characteristics of formulaic language through register analysis．

Chinese lexical bundles；length；frequency；synergetic linguistics；register

H030

2095－2074（2016）06－0024－08

2016－05－12

戴雪婷（1993－），女，浙江臺(tái)州人，浙江大學(xué)外國(guó)語(yǔ)言文化與國(guó)際交流學(xué)院碩士研究生；梁怡洲（1992－），女，浙江臺(tái)州人，浙江大學(xué)外國(guó)語(yǔ)言文化與國(guó)際交流學(xué)院本科生；瞿云華（1961－），女，浙江杭州人，浙江大學(xué)外國(guó)語(yǔ)言文化與國(guó)際交流學(xué)院教授，博士生導(dǎo)師。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

漢語(yǔ)公式化序列長(zhǎng)度和頻數(shù)關(guān)系的協(xié)同理論研究

一、引言

二、研究背景

（一）公式化語(yǔ)言：基本特征和語(yǔ)料庫(kù)提取

（二）協(xié)同理論與長(zhǎng)度—頻數(shù)關(guān)系研究

三、研究方法

（一）數(shù)據(jù)來(lái)源

（二）數(shù)據(jù)收集及處理

四、研究結(jié)果

（一）漢語(yǔ)公式化序列長(zhǎng)度對(duì)使用頻數(shù)的影響

（二）長(zhǎng)度和頻數(shù)關(guān)系的數(shù)學(xué)模型擬合

（三）語(yǔ)域視角下的公式化序列

五、討論與總結(jié)

一、引言

二、研究背景

三、研究方法