代 睿
(東北大學 國際教育學院,遼寧 沈陽 110819)
隨著中國綜合國力的顯著增強及科技水平的不斷進步,與國外的交流越來越密切,來華留學的理工類留學生日益增多。2014年,世界首所科技型孔子學院在白俄羅斯成立,科技漢語的地位及作用也在不斷提升。對科技漢語自身特點及科技漢語習得及教學的研究有助于推動科技漢語教育事業(yè)以及科技翻譯的發(fā)展。
“語塊”是語言中的那些固定、半固定的、模式化了的板塊結構。語塊理論認為語言是由語法化的詞匯組成,而不是由詞匯化的語法構成,語塊是兼具詞匯和語法特征的語言結構,是形式、意義、功能的結合體[1]。從心理語言學角度來看,語塊具有預制性及整體性,心理詞庫中存儲的語塊越多,組塊能力越強,大腦編碼和解碼的速度就越快。因此,以語塊為語言學習的基本單位,能夠減輕語言學習者理解記憶的負擔,提高語言記憶及產(chǎn)出的速度、準確性、流暢性。語言習得相關實驗研究證明了語塊的心理現(xiàn)實性,認為語塊具有認知加工的優(yōu)勢[2]。
對語塊的識別,王立非等[3]提出3種方法:語法學方法、語料庫語言學方法、心理語言學方法,本文采取的是語料庫語言學方法。語料庫數(shù)據(jù)能為心理詞匯是如何組織的提供證據(jù)。隨著計算機技術及語料庫語言學的發(fā)展,基于“頻率”標準的語塊識別被認為更具可操作性,研究人員將高頻復現(xiàn)看作是語塊的一個最基本特征,當一個詞語序列被頻繁使用的時候,其凝固性也會隨使用頻率而相應地增加。WRAY[4]曾表示一個詞串的使用頻率越多,它就越能以預制件的形式存儲在人們的心理詞庫中。通過計算機手段提取多詞單位,比僅憑借經(jīng)驗判斷更客觀、全面、準確。
在國外語言學界,基于語料庫的語塊研究相繼出現(xiàn),其研究對象為英語中3個或3個以上的詞組成的詞串,稱之為詞束,并對詞束進行結構及功能上的分類、分析[5-6]。國內(nèi)也有學者基于國外研究者的理論框架,利用語料庫研究方法,對英語和漢語中語塊的特點、分類等進行研究[7-8]。但尚未有利用語料庫方法對科技漢語語塊的專門研究??萍紳h語作為在科技領域中使用的一種書面語體,有其自身的特點和規(guī)律,有必要對科技漢語語塊的特征進行深入研究。因此,本文試圖從語言教學視角,運用語料庫研究方法,揭示科技漢語語體中語塊的類型及特點。研究結果對科技漢語教學效率的提升有一定的積極作用。
選取數(shù)學、物理、化學、計算機、軟件、電氣、電子、材料、機械、航空、農(nóng)業(yè)、環(huán)境、新能源等領域的國內(nèi)權威期刊共15本,均為研究時最新一期,以保證語料的權威性及時效性。每本期刊選取12篇論文,共計180篇論文,只取其正文部分,剔除論文題目、摘要、參考文獻、附錄,此外,考慮到圖表中的文字與格式的特殊性,去掉正文中的圖、表、公式。經(jīng)過文本處理、格式轉換、分詞處理等工作,構建了一個中文科技論文小型語料庫,總字數(shù)為1 122 807字,詞語類符數(shù)為11 865,形符數(shù)為656 115。
利用AntConc3.5.7軟件對自建語料庫進行分析。利用提取N元組功能,提取出連續(xù)的詞語序列。參照英語學界語塊研究的做法,把提取范圍設定為2-6詞。從理論上說,2詞或2詞以上的多詞單位都可以成為語塊,不多于6詞,是考慮記憶長度的有限性。提取的頻率標準設定為至少出現(xiàn)在5篇不同的文章中,2詞語塊的最低頻率為20,3詞語塊的最低頻率為10,4詞、5詞、6詞語塊的最低頻率為5。還需對得到的詞語序列進行人工識別和篩選,才能確定目標語塊。
根據(jù)設定的頻率標準,得到2詞序列2 927個,3詞序列1 014個,4詞序列361個,5詞序列114個,6詞序列29個。但這些多詞序列并不都是語塊,還要依據(jù)一定的標準進一步地識別、篩選。本文對語塊的識別是基于以下操作定義:由兩個或兩個以上的詞或語素預制,連續(xù)或不連續(xù),作為整體存儲和提取,不超出句子層面的語言單位。頻率標準不應作為辨識語塊的決定性條件或唯一條件,只能作為一個典型條件。出現(xiàn)頻率高的詞語序列并非都能看作語塊,而某些確實是語塊的,卻可能因為出現(xiàn)頻率低而被排除在外。WRAY[4]、王文龍[9]都認為語塊的識別應基于語感、頻率、內(nèi)部結構、外在形式等復合標準,而非單一標準。徐泉[10]認為對語塊的界定需綜合考慮其形式、結構、語義、語用及使用等因素。因此,要從詞語序列的形式結構特征、意義特征、功能特征、使用時的心理特征等方面,結合母語語感,從漢語教學的角度出發(fā),對提取出的詞語序列進行人工篩選識別,確定語塊。具體來說,考慮其是否具有以下某一或某些特征:作為整體體現(xiàn)詞語組合的心理表征;作為整體高頻共現(xiàn);表達一個相對完整的意義;體現(xiàn)特定的語篇功能。
在實際操作中,我們排除了以下一些非語塊形式:(1)誤切詞。誤切詞即本應看作一個詞的術語被分詞軟件誤切為多個詞,呈現(xiàn)為多詞組合,如“納米”“引理”“魯棒”等。(2)語言碎片。語言碎片,包括某些不完整的短語部件的組合或一些毫無意義的組合,如“圖所”“中為”“當且僅”“結果如圖所”等。(3)跨標點符號的詞語序列。由于AntConc在提取N元組時是不考慮標點、阿拉伯數(shù)字、符號等信息的,所以分屬于兩個分句的詞語會顯示為連續(xù)的詞語序列,如“公司型”,其在文本中出現(xiàn)的形式卻是“天津永利公司,2010型透射電子顯微鏡”。(4)不具有預制性的詞語序列。有的詞語組合是利用語法手段實時生成的,而不是事先預制好的。這一類型中,常見的形式如“動詞+了”(如“提出了”“進行了”)、“形容詞/動詞+的”(如“不同的”“對應的”)、“形容詞+地”(如“很好地”“極大地”)、“所+V+的”(如“所采用的”“所示的”)、“數(shù)詞+量詞”(如“兩種”“一組”)等等。但是如果這些形式與其它詞語組合,則具有成為語塊的可能,如“進行了研究”“重要的意義”“極大地提高”“一組數(shù)據(jù)”等等。還有一些詞語序列,如“具有很高的”“存在一定的”“能有效地”“為了進一步”,在形式結構上高頻通用,但缺乏中心詞,意義相對不完整,無法整體作為心理表征,因此,不認定為是語塊。
但是,一些表面上無意義或意義不完整的潛在語塊應避免被錯誤地排除掉:(1)含有未顯示的非文字信息。如前所述,AntConc在提取N元組時是不考慮非文字信息的,如標點、阿拉伯數(shù)字、符號等,所以會出現(xiàn)如“在中”“當時”“分別為和”這樣的詞語序列,其實,它們中間都是包含一些數(shù)字或公式信息的,如“當a=b時”“分別為a和b”等。所以,在分析時,可以將它們看成框架型語塊“在……中”“當……時”“分別為……和……”等。(2)可以引申出框架型語塊的。有些詞語序列,在考察“索引”后,可以發(fā)現(xiàn)存在一些高頻固定的搭配詞,可以連同搭配詞構成一個框架型語塊。如“為研究對象”填補出“以……為研究對象”“增加而增加”填補出“隨……增加而增加”“基礎上提出”填補出“在……基礎上提出”。經(jīng)過識別篩選,最終提取出語塊935個。
根據(jù)科技漢語的特點,我們首先做了“術語語塊”“非術語語塊”的區(qū)分。含有大量的科技術語是科技漢語區(qū)別于通用漢語的一大特點。由兩個或兩個以上的詞(或語素)組合而成的科技術語,作為一種多詞單位,在此被認定為語塊,稱為術語語塊,而其它語塊稱為“非術語語塊”。在本文的語料庫中,術語語塊有291個,非術語語塊有644個。
術語語塊中,詞和詞之間結合得很緊密,表示一個特定的概念,它們在使用的過程中逐漸詞匯化,具有詞的屬性,專業(yè)人員在讀取、使用時會把它們作為一個整體概念來看待。術語語塊是科技漢語語塊中特殊的一類,其認定無須受頻率標準的制約,所以,291個術語語塊并非所調(diào)查語料中全部的術語語塊,一些專業(yè)性強、出現(xiàn)篇數(shù)少于5篇或出現(xiàn)頻率低的術語語塊,實際上在提取時被排除掉了。本文將語塊的提取標準定位為至少出現(xiàn)在5篇文章中,是將考察重點放在了高頻通用的非術語語塊上。
BIBER等[5]對英語詞束進行了結構分類,分為基于動詞、基于名詞、從句類三類。彭詠梅[8]也采用詞性描述的方式對漢語語塊進行了分類,分為基于動詞、基于名詞/介詞、基于形容詞、從句類四類。本文借鑒這種分類方式,將科技漢語中的語塊分為7類:動詞結構語塊、名詞結構語塊、介詞結構語塊、主謂結構語塊、形容詞結構語塊、連詞框架語塊、副詞結構語塊。各類型根據(jù)結構再進行細分,如表1。各類別語塊數(shù)量及頻率分布見圖1、圖2。需要說明的是,此處數(shù)量及頻率統(tǒng)計不包含術語語塊,因為術語語塊結構形式相對單一、固定,所以本節(jié)的統(tǒng)計分析只針對非術語語塊。
表1 語塊的結構類別及舉例Tab.1 structural categories and examples of chunks
圖1 語塊各結構類型的數(shù)量Fig.1 the number of each structural categorys
圖2 語塊各結構類型的頻率Fig.2 the frequency of each structural categorys
從圖1、圖2可以看出,名詞結構語塊和動詞結構語塊數(shù)量最多,其次是主謂結構語塊、介詞結構語塊,形容詞結構語塊、連詞框架語塊、副詞結構語塊數(shù)量很少。動詞結構語塊比名詞結構語塊的數(shù)量少,但出現(xiàn)頻率卻更高,這說明動詞結構語塊在使用上更具反復性,而名詞結構語塊更具多樣性。
動詞結構語塊包含動賓、狀中(動詞中心語)、動補、帶助動詞、帶連詞、并列、兼語等結構類型,其中狀中結構的最多,其次為動賓和動補結構。有些為一種結構又內(nèi)嵌其它結構的多重結構語塊,帶助動詞語塊中的助動詞主要是“可”“可以”,帶連詞語塊中的連詞多為“并”“若”“則”等,兼語結構語塊一般為一個框架結構。動詞結構語塊一般在句中作謂語或作句干。各類動詞結構語塊數(shù)量分布,見圖3。
圖3 各類動詞結構語塊的數(shù)量Fig.3 the number of each verb-structure categorys
圖4 各類名詞結構語塊的數(shù)量Fig.4 the number of each noun-structure categorys
名詞結構語塊包括含有名詞中心語的語塊及不含有名詞中心語的語塊。不含名詞中心語的語塊主要是包含“的”字結構、“所”字結構、量詞結構的語塊。這類語塊雖然沒有中心名詞的出現(xiàn),但整體上看作一個名詞性結構,占名詞結構語塊的10.6%。含有名詞中心語的語塊有定中結構、名詞+方位詞結構、并列結構三種,在定中結構中,有一些動詞性中心語的語塊如“時間的延長”“厚度的增加”“溫度的升高”等,這種動詞名詞化的用法在書面語體中很常見。各類名詞結構語塊數(shù)量分布,見圖4。
主謂結構語塊包含動詞謂語式、形容詞謂語式兩種。動詞謂語式,主語主要是“本文”“文獻”“我們”“這”“研究”“結果”“圖”“表”等,謂語動詞主要是“是”“為”“提出”“表明”“介紹”“采用”“顯示”等。這類語塊多作為句子框架,具有一定的語篇功能。形容詞謂語式中的形容詞主要有“大”“小”“高”“低”“多”“少”等,多帶有副詞“較”修飾。介詞結構語塊一般作狀語,主要有介賓型和介詞框架型兩種。也有個別介詞與副詞搭配的語塊。形容詞結構語塊較少,一般作謂語,主要為狀中式,也有“是……的”結構的語塊。連詞框架語塊只有3個,這主要是受分析技術的局限,軟件無法直接提取跨距過大的框架語塊。“因為……,所以……”“雖然……,但是……”這種無法被軟件識別的關聯(lián)詞結構都屬于連詞框架語塊。副詞結構語塊數(shù)量極少,但也是一個獨立的類別,一般作狀語,如果不借助語料庫技術,很難發(fā)現(xiàn)其存在。
對語塊的結構分類,有助于發(fā)現(xiàn)語塊體現(xiàn)的語言特點及語體特征,也有利于探討結構與功能之間的關系。
從語塊的外部功能看,語塊作為一個整體承擔語法功能,一部分語塊同時具有一定的語篇功能。語塊的功能特征分類,見表2。
表2 語塊的功能類別及舉例Tab.2 functional categories and examples of chunks
(1)語法功能
在語法功能上,有詞性語塊、短語性語塊、句性語塊之分。詞性語塊相當于一個詞的功能,如動詞結構語塊中的狀中結構、動補結構、帶助動詞結構、并列結構以及部分多重結構,功能與動詞相當,可在句中作謂語。名詞結構語塊中的定中結構、并列結構,功能與名詞相當,一般在句中作主語或賓語。名詞性語塊中不含名詞中心語的三類:“的”字結構、量詞結構、“所”字結構,雖然中心語未出現(xiàn),但從整體功能上看與名詞相當,形容詞結構語塊的功能與形容詞相當,副詞結構語塊的功能與副詞相當,部分介詞結構語塊的功能與介詞相當,以上各類都可歸為詞性語塊。短語性語塊如動賓結構語塊、名詞+方位詞結構語塊、主謂結構語塊和大部分介詞結構語塊。句性語塊主要是動詞結構語塊中的帶連詞結構、兼語結構以及連詞框架語塊。各結構類型語塊所對應的語法功能,見表3。
在詞性語塊中,有一些語塊在語義上不具有自足性,需要進一步填充來使其意義完整,如“這一”“對其進行”“相對比”“隨之”“本文所提”“領域的研究”等。這類語塊在語料庫技術的輔助下才得以凸顯出來,因為其形式及意義不具有完整性,如果單憑語言直覺,它們很難被認定為語塊,包括王鳳蘭等[11]所認定的在線性排列中位置相鄰但不屬于同一語法結構層次的“跨層結構語塊”,也包括屬于同一語法結構層次但意義相對不完整的具有組構短語功能的語塊。圖5所示為詞性語塊、短語性語塊、句性語塊的數(shù)量分布,其中,短語性語塊數(shù)量最多,其次是詞性語塊,句性語塊相對較少。
表3 語塊的語法功能分類Fig.3 grammatical function of each structural categorys
圖5 語塊各語法功能類型的數(shù)量Fig.5 the number of each grammatical functional categorys of chunks
(2)語篇功能
一部分語塊作為一個整體實現(xiàn)一定的語篇功能。李晶潔等[12]將學術文本中用于提出新命題、宣布作者態(tài)度、連接文本信息的句干稱為功能句干,認為這些句干具有強烈的語境因循性,是學術文本的建構骨架。我們所提取的語塊中包含很多具有語篇功能的句干語塊。有的成為獨立的小句,有的作為組構句子的單位,可以是連續(xù)的也可以是非連續(xù)的框架,可以在句頭、句中或句尾。以短語性語塊和句性語塊為主,主要有動詞謂語式主謂結構語塊、連詞框架語塊、兼語結構的動詞結構語塊,也有部分動詞結構的詞性語塊。例如,獨立小句:“實驗結果如圖所示”“需要說明的是”“由圖可知”“從表可以看出”。句頭式:“這說明……”“本文提出……”“這主要是由于……”“實驗驗證了……”“我們可以得到……”。句中式:“……可表示為……”“……被定義為……”“……主要分為……”“……被廣泛應用于……”。句尾式:“……見表”“……見圖”“……如圖所示”。框架式:“設……是……”“則稱……為……”“分別為……和……”。
這些句干語塊所體現(xiàn)的語篇功能有:提出研究問題、說明研究背景、說明研究方法、體現(xiàn)研究過程、說明研究結果、解釋原因、提出定義、進行分類、指示文本信息等,具體示例見表4。
具有語篇功能的語塊共有171個,有的具有兩個或者兩個以上的功能,所以存在重復統(tǒng)計的情況。語篇功能句干語塊的數(shù)量及頻率分布見圖6、圖7。我們通過觀察各類別語塊頻率及數(shù)量比值發(fā)現(xiàn),一些類別語塊的頻率及數(shù)量的比值明顯較高,進一步觀察發(fā)現(xiàn),數(shù)值較大的類別中都含有個別使用次數(shù)極多的語塊,如指示文本信息的“如圖所示”(683次)、說明研究結果的“可以看出”(365次)、說明研究背景的“參見文獻”(217次)、提出研究問題的“本文提出”(212次)、結果表明(175次)、提出定義的“定義為”(163次)等。
表4 語塊的語篇功能分類及舉例Tab.4 the classification and examples of textual function of chunks
圖6 語篇功能句干語塊的數(shù)量Fig.6 the number of textual functional sentence stem
圖7 語篇功能句干語塊的頻率Fig.7 the frequency of textual functional sentence stem
與通用漢語相比,科技漢語語塊含有大的量術語語塊及專業(yè)性語塊,也有很多具有語篇功能的套語及句干。此外,科技漢語語塊都有很高的語義透明度,科技語篇中一般沒有具有引申義、比喻義的語塊或成語俗語等。本文對科技漢語語塊的研究結果對漢語語塊的研究,特別是書面語語塊的研究,具有一定的借鑒意義,對于科技漢語中語塊的統(tǒng)計分析,可應用于科技漢語教學中。重視語塊的教學將有助于科技漢語教學效率的提升。在科技漢語教學及教材編寫中,要注意具有相同結構或功能的語塊之間的聯(lián)系,以講授高頻通用的語塊為主。
利用語料庫的研究方法能快速提取大量的詞語序列作為潛在語塊,可以發(fā)現(xiàn)一些利用人工方法無法識別出的語塊。但語料庫研究方法也有其劣勢:一些跨距較遠的非連續(xù)型框架型語塊以及關聯(lián)詞語塊難以被識別??梢姡瑱C器可以全面地識別各種語塊類別,而人工方法可以識別各語塊類別下的具體語塊形式。