齊 暉,陳菲娜
(福建醫(yī)科大學 文理藝術(shù)學院,福建 福州 350122)
詞塊是語言的一個基本特征,它是若干共現(xiàn)詞的固定組合,具有出現(xiàn)頻率高和文本分布廣的特點[1]。這些頻繁共現(xiàn)的詞語序列構(gòu)建了句子層面的程式化框架[2-3]。語步是實現(xiàn)特定交際目的的語言單位,層級結(jié)構(gòu)鮮明的語步可細分為若干語階[4]。語步和語階構(gòu)建了語篇層面的程式化結(jié)構(gòu)框架。近年來,不斷有研究指出,體裁教學不僅僅要教授宏觀層面的語步和語階知識,還需教授微觀層面的語言特征[5]。詞塊作為詞匯語法編碼是一個具有研究價值的語言特征。學術(shù)論文的體裁研究表明,與非本族語作者和初學者相比,英語本族語作者和資深研究人員在學術(shù)寫作中使用的詞塊不僅數(shù)量和形式更多,也更精確[6-7]。國內(nèi)外對學術(shù)寫作中詞塊的研究方興未艾,但未有學者分析論文摘要不同語步或語階中詞塊的結(jié)構(gòu)、功能和交際目的。鑒于此,筆者基于體裁分析法,探究醫(yī)學摘要中詞塊的特點,為醫(yī)學論文寫作教學提供詞匯和句法層面的指導,幫助學習者夯實詞塊基礎(chǔ),促進其提升學術(shù)寫作水平。
詞塊的結(jié)構(gòu)分類取決于核心詞的詞性。1999年,Biber等學者首次提出詞塊可以細分為12個類別,這一分類標準成為詞塊結(jié)構(gòu)研究的基礎(chǔ)[1]。5年后,Biber等學者將12類整合為3類,即含有動詞短語的詞塊、獨立從句成分的詞塊以及名詞和介詞短語的詞塊[8],使詞塊的分類更加明晰、科學。Cortes的研究指出,學術(shù)論文引言部分的詞塊也可以分為這3類[2]。還有一些學者進行了微調(diào),將學術(shù)論文詞塊歸納為以名詞、介詞和動詞為基礎(chǔ)的3類詞塊[9-10]。
詞塊的功能分類取決于詞塊在篇章和語用層面的不同作用。Biber等學者認為詞塊的功能可分為立場表達、語篇組織和指代表達3種[8]。Hyland聚焦學術(shù)語篇,提出根據(jù)功能的不同,詞塊可分為以研究為導向、以文本為導向以及以立場為導向3種,為學術(shù)語篇的詞塊功能研究提供了可供借鑒的分類范式[11]。
語步和詞塊均被視為文本的程式化結(jié)構(gòu)框架,這一共性特征使學者將它們聯(lián)系在一起開展研究。一些學者探討了兩者的內(nèi)在關(guān)系,發(fā)現(xiàn)一些詞塊僅出現(xiàn)在特定的語步或語階中,幫助語步實現(xiàn)其特定的交際目的。早在20世紀80年代,Swales就發(fā)現(xiàn)了學術(shù)論文引言中使用一些固定詞塊用于引出不同的語步[12]。Cortes基于自建的多學科論文引言語料庫,以Swales的論文引言體裁范式[12]為標準,歸納了引言各語階的常用語塊,并探討了4詞以上長詞塊2種新的交際目的,即引出語步和補充說明[2]??梢?,已有研究開始以體裁分析法為基礎(chǔ),探討各語步、語階中的高頻詞塊這一語言特征。雖然相關(guān)研究數(shù)量并不多,但是語步和詞塊間的關(guān)系已引起專門用途英語領(lǐng)域研究者的關(guān)注。
隨著詞塊研究向不同學科的縱深方向發(fā)展,有學者提出,學術(shù)文章的詞塊因?qū)W科差異而有所區(qū)別[13]。目前,尚無研究關(guān)注醫(yī)學論文英文摘要不同語步和語階中的詞塊特征。筆者基于自建的醫(yī)學學術(shù)論文英文摘要語料庫,對其中的詞塊特征進行分析,旨在回答以下問題:(1)醫(yī)學學術(shù)論文英文摘要含有哪些常見的4詞及以上詞塊;(2)這些詞塊的結(jié)構(gòu)和功能如何分類;(3)這些詞塊是否具有特定的交際功能,它們與摘要各語階之間是否存在聯(lián)系。
詞塊研究選用的語料庫庫容闕值一般為100萬詞[2]。研究團隊自建了1 145 918詞次醫(yī)學學術(shù)論文英文摘要語料庫,包含確定研究范圍(M1)、描述研究過程(M2)、總結(jié)研究結(jié)果(M3)、歸納研究結(jié)論(M4)等4個子語料庫。M1共計203 472詞,M2共計348 610詞,M3共計411 517詞,M4共計182 379詞?;谧越ㄕZ料庫,使用AntConc軟件的詞塊(Clusters/N-Grams)功能分語步進行詞塊提取,借助AntConc的索引行(Concordance)和索引行圖(Concordance Plot)等功能,一位團隊成員人工確定詞塊所在語階,另一位團隊成員進行復核。
基于詞塊的多詞匯共現(xiàn)、出現(xiàn)頻率高和文本分布廣這3個特征,使用語料庫方法進行詞塊研究時必須在詞塊的長度、頻率和文本數(shù)三方面設(shè)置測量標準,由于研究目的、文本體裁等差異,指標的設(shè)置也不盡相同。(1)詞塊長度。一般研究都聚焦于3詞至6詞的詞塊。Biber等學者提出大多數(shù)普通的3詞詞塊是4詞詞塊的一部分[1],此后的大多數(shù)研究均采用4詞詞塊,這是因為其所呈現(xiàn)的功能和結(jié)構(gòu)比3詞詞塊更明晰、功能和結(jié)構(gòu)的種類又比5詞詞塊更豐富[11,14]。詞塊的長度與語域也相關(guān),當分析詞塊的特殊交際功能時,則需要提取更長的詞塊[2,15]。詞塊的長度標準可根據(jù)研究需要選取,目前大多數(shù)關(guān)于詞塊結(jié)構(gòu)和功能的研究傾向于使用4詞詞塊,它們更具代表性,后期的人工識別分類也更具操作性。(2)詞塊頻率。初期的研究使用10次/百萬詞的標準[1],之后的研究則大多使用更為保守的20~40次/百萬詞的標準[8,14]。為了更好地聚焦高頻詞塊,確保詞塊的典型性,40次/百萬詞的標準已成為大多數(shù)研究的選擇標準[9]。(3)文本分布。由于語料庫文本數(shù)和文本語域的差異,目前針對文本數(shù)闕值一直未有一個較為統(tǒng)一的標準。Biber等學者確定了至少5篇文本的標準[1],Chen等學者則認為文本長度相對長的語料庫應(yīng)使用更低的標準,如3篇文本[10]。Hyland提出了至少覆蓋10%文本量的標準化闕值[11,13]??傊鞣N標準的目標一致,即確保提取詞塊的代表性。
結(jié)合前人研究方法,本研究提取詞塊標準如下:在長度方面,選用4詞及以上長度的詞塊;在頻率闕值方面,使用40次/百萬詞的標準,即4個子庫分別為8次(M1)、14次(M2)、16次(M3)和7次(M4);在文本分布方面,由于摘要語料庫具有文本篇幅短、篇章數(shù)多的特點,筆者認為Biber等學者提出的覆蓋5篇文本的標準偏低,由此選擇4倍標準即20篇,以確保詞塊的代表性。進行預實驗,確認按上述標準提取的詞塊量具有可操作性。
詞塊按照以上3個標準分語步自動提取后,人工去除不符合研究需求的詞塊。首先,由于專業(yè)術(shù)語不屬于詞塊的范疇,詞塊中包含3個及以上醫(yī)學專業(yè)詞匯的詞塊均被刪除,例如,treatment related adverse events、functional magnetic resonance imaging等。其次,刪除重疊的詞塊。許多4詞詞塊包含于更長的詞塊中,如果都予以統(tǒng)計,則會出現(xiàn)詞塊的膨脹現(xiàn)象。大多數(shù)重疊詞塊在前人的研究中都被人工刪除[15-16]。筆者根據(jù)Cortes的方法,只列出最長的詞塊以避免重復統(tǒng)計[2]。某個較短詞塊可能有一些包含于長詞塊中,另一些又不包含于長詞塊中,而是獨立出現(xiàn)。在這種情況下,如果較短詞塊自身出現(xiàn)的文本數(shù)和頻率符合析出標準,則需另外統(tǒng)計。
詞塊所在的語步和語階范式是基于對該語料庫中的語階分析所得[17]。該范式基于交際目的,將醫(yī)學論文摘要劃分為4個語步17個語階。語步1確定研究范圍,可由4個語階構(gòu)成;語步2描述研究過程,可由7個語階構(gòu)成;語步3總結(jié)研究結(jié)果,可由2個語階構(gòu)成;語步4歸納研究結(jié)論,可由4個語階構(gòu)成。當然,并非每個語階都含有固定的詞塊,筆者僅以此范式為結(jié)構(gòu)框架,重點研究包含固定詞塊的語階。
筆者提取了符合標準的詞塊183種(types),共計6 161(頻)次(tokens),27 082詞(words),占醫(yī)學學術(shù)論文英文摘要語料庫總庫容11 545 918萬詞的2 %。提取的詞塊包含4~9詞的詞塊,其中9詞詞塊2種,8詞2種,7詞4種,6詞11種,5詞40種,4詞詞塊124種。4詞至7詞詞塊的種類數(shù)增長具有一定的規(guī)律,長度每增加1詞,種類數(shù)增長3倍左右。Biber等學者的研究結(jié)果表明,學術(shù)文本中最長的詞塊為6詞詞塊,如from the point of view of[1],而Cortes在學術(shù)論文引言文本中首次提取了比6詞更長的9詞詞塊,如the rest of the paper is organized as follows[2]。本研究提取了2種9詞的長詞塊,結(jié)果與Cortes關(guān)于詞塊長度的結(jié)果相同,表明論文引言或摘要中的詞塊長度比論文正文中的詞塊長度更長。
詞塊大多是結(jié)構(gòu)或意義不完整的詞匯語法單位[1]。本研究所提取的4詞詞塊符合該特征。但是,6詞及以上的長詞塊大多是相對較完整的意義結(jié)構(gòu),如the aim of this study was to evaluate the、there was no significant difference in,這個結(jié)果和Cortes對長詞塊的特征描述基本相同,即越長的詞塊往往語法和語義越完整[2]。
從結(jié)構(gòu)上看,醫(yī)學學術(shù)論文英文摘要的詞塊可分為3類:名詞短語為基礎(chǔ)的詞塊、介詞短語為基礎(chǔ)的詞塊和動詞短語為基礎(chǔ)的詞塊(表1),此結(jié)果與Chen等學者對學術(shù)論文詞塊的結(jié)構(gòu)分類一致[10]。從各類結(jié)構(gòu)的占比看,動詞詞塊在種類和頻率上均占比最高。
表1 詞塊結(jié)構(gòu)3個類別的種類數(shù)和頻次數(shù)
名詞短語為基礎(chǔ)的詞塊有兩種,一種含有后置修飾成分,如the results of this study,另一種不含后置修飾成分,如a retrospective cohort study。 介詞短語為基礎(chǔ)的詞塊指以介詞開頭的詞塊,如at the time of。動詞短語為基礎(chǔ)的詞塊指任何含有動詞的詞塊,如were not significantly different,這類詞塊在種類和頻率中都占絕大多數(shù)。以綜合性學科的學術(shù)語篇為語料的研究中發(fā)現(xiàn)名詞和介詞短語為基礎(chǔ)的詞塊占比更高[11]。以動詞短語為基礎(chǔ)的詞塊高占比揭示了摘要中醫(yī)學與其他學科的差異。
從整體功能上看,醫(yī)學學術(shù)論文英文摘要的詞塊可分為3類:研究為導向的詞塊、文本為導向的詞塊和立場為導向的詞塊(表2)。從各類功能的占比看,研究為導向的詞塊在種類和頻率上均占比最高。該結(jié)果與Pan等學者對學術(shù)論文詞塊的功能分類基本一致[9]。
表2 詞塊種類3個類別的種類數(shù)和頻次數(shù)
研究為導向的詞塊描述研究活動和研究經(jīng)歷[11]。其中,位置和時間詞塊描述實驗過程中涉及地點和時間,如at the time of;過程詞塊描述實驗過程,特別是方法,如were randomized to receive;數(shù)量詞塊描述實驗對象或結(jié)果等的數(shù)量,如was the proportion of patients。該類詞塊的種類數(shù)和頻率均占比大,特別在語步1和語步2中,該類詞塊占語步詞塊種類總數(shù)和頻次總數(shù)的絕大多數(shù),可見基于研究進行論文撰寫是醫(yī)學論文的特征之一。
文本為導向的詞塊構(gòu)建文本結(jié)構(gòu)并傳遞文本意義[11]。其中,關(guān)系標記詞塊提供要素間的關(guān)系信號,主要包括因果關(guān)系,如these findings suggest that,對比關(guān)系,如no significant difference in,以及指代關(guān)系,如was found to be;結(jié)構(gòu)標記詞塊構(gòu)建文本結(jié)構(gòu)、引導讀者某些內(nèi)容的具體方位,如little is known about;框架標記詞塊限制命題或論點的條件,如on the basis of。
立場為導向的詞塊表達的是作者的態(tài)度或?qū)Υ_定性的評估[11]。其中,認知情態(tài)詞塊表達可能性的程度,如were more likely to;義務(wù)情態(tài)詞塊表達義務(wù)的程度,如research is needed to。該類詞塊占比低,且大多出現(xiàn)在語步4中。可見,醫(yī)學論文摘要是一種非??陀^的文本體裁,作者只有在分析研究結(jié)果時才會適當表達其態(tài)度,評估確定性。
除了詞塊的一般功能,還有必要進一步聚焦其交際目的,根據(jù)其所在的上下文,挖掘詞塊與語步、語階之間的關(guān)系。
1.詞塊與語步或語階存在對應(yīng)關(guān)系。詞塊和語步存在對應(yīng)的關(guān)系。大多數(shù)詞塊(178種,占詞塊種類總數(shù)的97%)僅在某一特定的語步中使用,只有5種詞塊(占詞塊種類總數(shù)的3%)出現(xiàn)在2個語步中,它們是were randomly assigned to receive、were included in the、at the time of、was associated with a和was not associated with。
詞塊除了與語步具有鮮明的對應(yīng)關(guān)系外,與語階也具有對應(yīng)關(guān)系。4詞以上的長詞塊與語階的對應(yīng)性強。除1種長詞塊(占長詞塊種類總數(shù)59種的2%)在2個語階中共現(xiàn)外,其余詞塊都只在一個語階中出現(xiàn)。這與Cortes發(fā)現(xiàn)的所有4詞以上長詞塊只出現(xiàn)在一個語階中的研究結(jié)果基本一致[2]。例如,5詞長詞塊little is known about the僅出現(xiàn)在語步1的語階2中,用來引出前人研究的局限性(例1)。
例(1)However,little is known about thecontextofsuchtestingoritsimpactontreatment.
4詞詞塊和語階也具有一定的對應(yīng)性,但是對應(yīng)性不如長詞塊明顯。僅60%的4詞詞塊(75種/4詞詞塊種類總數(shù)124種)只在某一特定的語階中使用,其余40%(49種/124種)的4詞詞塊出現(xiàn)在同一語步的不同語階中。例如,in the treatment of可同時出現(xiàn)在語步1的語階1和語階3中,分別用于闡述研究領(lǐng)域已確定的與研究內(nèi)容相關(guān)的知識,或闡述研究目的(例2~3)。
例(2)Etoposideandirinotecanarekeydrugsin the treatment ofsmall-celllungcancer.
例(3)TheaimofourstudywastoevaluateefficacyandtolerabilityofECTin the treatment ofadvancedNMSCandMm.
總而言之,97%的詞塊只出現(xiàn)在一個特定的語步中,73%的詞塊(含98%的長詞塊和60%的4詞詞塊)只出現(xiàn)于一個特定的語階中。與其他體裁如綜合性學科的引言文本相比[2],在醫(yī)學論文摘要中,幾個語階共享的詞塊數(shù)量比例更少,詞塊與語階一一對應(yīng)的特征更明顯。
2.長詞塊具有兩種交際目的。Cortes發(fā)現(xiàn)了詞塊特別是4詞以上的長詞塊在實現(xiàn)語階的交際目的中起到兩個典型的作用。(1)導入結(jié)構(gòu)(trigger),用于引出語階或構(gòu)成引出語階的句子的開始部分;(2)補充結(jié)構(gòu)(complement),作為某個短語或句子的補充,大多用于語階的非導入部分,補充結(jié)構(gòu)詞塊的比例遠小于導入結(jié)構(gòu)[2]。本研究提取的長詞塊的交際目的與上述結(jié)果一致。在醫(yī)學論文摘要中,91%(53.5種/59種)的長詞塊屬于導入結(jié)構(gòu),9%(5.5種/59種)的長詞塊屬于補充結(jié)構(gòu),導入結(jié)構(gòu)的比例遠高于補充結(jié)構(gòu),僅1種長詞塊兼具導入功能和補充功能。例如,語步4的語階4由further research is needed to引出,這個詞塊作為導入結(jié)構(gòu),能讓讀者立刻明晰該語階的交際目的是建議今后的研究方向,該詞塊屬于導入結(jié)構(gòu)(例4);詞塊at a median follow-up of在句子中做時間狀語,補充說明沒有患者出現(xiàn)癌擴散這個結(jié)果的跟蹤觀測時間段,該詞塊屬于補充結(jié)構(gòu)(例5)。
例(4)Further research is needed toassesstheclinicalimportanceofthesedifferencesandmeasurelonger-termassociations.
例(5)FollowinganEBP,noneofthepatientsexperiencednewcancerorcancerseedinginthecentralnervoussystemfollowinganepiduralbloodpatchat a median follow-up of3.74years.
3.詞塊和語階在交際目的層面存在密切關(guān)系。大多數(shù)詞塊和語步、語階的一一對應(yīng)關(guān)系說明每一個修辭語步和語階為了實現(xiàn)其不同的交際功能,傾向選用詞塊,尤其傾向選用長詞塊,構(gòu)成基礎(chǔ)結(jié)構(gòu)框架。5種詞塊出現(xiàn)在2個語步中的原因是,不同語步的交際目的略有重疊。例如,詞塊were randomly assigned to receive既出現(xiàn)在語步2中,用于描述隨機分組的方法(例6),又出現(xiàn)在語步3中,用于補充說明有效樣本的信息,繼而闡述主要的觀察結(jié)果(例7)。
例(6)Patientswere randomly assigned to receiveevolocumab(either140mgevery2weeksor420mgmonthly)ormatchingplaceboassubcutaneousinjections.
例(7)BetweenMay15, 2014,andMarch25, 2015, 78patientswere randomly assigned to receivenivolumabevery2weeksplusipilimumabevery12weeks(n=38)ornivolumabevery2weeksplusipilimumabevery6weeks(n=40).
除了長詞塊以外,許多4詞詞塊也起著引出語階的作用??v觀17個語階,除語步4的語階1外,其余16個語階中均發(fā)現(xiàn)不同的詞塊,特別是長詞塊,用于引出語階,詞塊的使用與語階交際目的的實現(xiàn)密切相關(guān)。起導入作用的詞塊明晰地搭建了描述特定語階的結(jié)構(gòu)框架,幫助語階實現(xiàn)交際功能。
總之,在醫(yī)學學術(shù)論文摘要中作者使用了大量程式化的語言,這些語言不僅包括語階、語步以及摘要的整體修辭結(jié)構(gòu),而且包括與語步修辭功能密切相關(guān)的單詞和詞塊。Flowerdew等學者認為在學術(shù)論文寫作時,醫(yī)學等領(lǐng)域存在直接摘抄已發(fā)表文章中相同短語的現(xiàn)象[18],這也解釋了醫(yī)學學術(shù)論文英文摘要中存在大量程式化語言現(xiàn)象的原因。
研究提取了醫(yī)學學術(shù)論文英文摘要中常見的4~9詞詞塊,并對詞塊的結(jié)構(gòu)和整體功能進行分類。部分詞塊特別是長詞塊的結(jié)構(gòu)比較完整,這與之前“結(jié)構(gòu)不完整是詞塊的一個基本特征”的論述存在一定的差異[1]。此外,從結(jié)構(gòu)看,本研究提取的詞塊可分為名詞短語為基礎(chǔ)的詞塊、介詞短語為基礎(chǔ)的詞塊和動詞短語為基礎(chǔ)的詞塊3類。從整體功能看,本研究提取的詞塊可分為研究為導向的詞塊、文本為導向的詞塊以及立場為導向的詞塊3類。整體結(jié)構(gòu)與功能的歸類與其他學科或綜合學科的學術(shù)論文詞塊結(jié)構(gòu)與功能的歸類相同,但是在醫(yī)學摘要中,動詞短語為基礎(chǔ)的詞塊和研究為導向的詞塊種類和頻率的占比都相對較大,這體現(xiàn)了醫(yī)學研究以實驗為基礎(chǔ)進行科學探索的學科特征。
聚焦詞塊在語步中實現(xiàn)的功能,發(fā)現(xiàn)詞塊與摘要的語步之間存在密切的聯(lián)系,絕大多數(shù)詞塊(97%)僅出現(xiàn)在某一特定語步中,幫助語步實現(xiàn)其交際目的。此外,詞塊尤其是長詞塊和語階之間存在密切的聯(lián)系, 60%的4詞詞塊和98%的4詞以上長詞塊僅出現(xiàn)在某一特定語階中。具體而言,大多數(shù)長詞塊具有引出語階的功能,直接幫助語階實現(xiàn)其交際目的。其余長詞塊的交際目的和功能則是補充說明。研究結(jié)果表明,在歸納摘要這個體裁的常用詞塊時需謹慎,應(yīng)從體裁分析法的角度出發(fā),注意其不同語步和語階交際目的的特殊性,探討實現(xiàn)不同交際目的所使用的不同詞塊。在醫(yī)學學科中,除了論文摘要,還可以基于體裁分析法對論文引言、方法、結(jié)果和結(jié)論等部分進行詞塊與語步、語階關(guān)系的探討。