劉運(yùn)同 同濟(jì)大學(xué)國際文化交流學(xué)院
提 要 在漢語口語中介語語料庫建設(shè)中,口語語料的收集和加工(特別是轉(zhuǎn)寫)是一項(xiàng)重要的挑戰(zhàn)。本文對口語轉(zhuǎn)寫的幾個(gè)關(guān)鍵問題進(jìn)行了討論,并提供了可行的建議。這些問題包括:①轉(zhuǎn)寫的基本單位,②轉(zhuǎn)寫的主要內(nèi)容,③標(biāo)點(diǎn)符號的使用,④基本的轉(zhuǎn)寫策略。
無論從世界范圍還是從中國范圍來看,口語語料的建設(shè)都落后于書面語語料庫的建設(shè)。這是因?yàn)橄鄬τ跁嬲Z語料來說,口語語料在收集和加工方面都存在更大的挑戰(zhàn)??谡Z使用語音媒介作為交流手段,因此要對口語語料進(jìn)行收集和加工,跟書面語相比就多了一道程序,即首先采用一種合適的方法來記錄和保存口頭交流內(nèi)容。用書面形式來記錄和保存口語語料是一種無奈的選擇,對語言研究來說也是一種新的挑戰(zhàn)(傳統(tǒng)的語言研究由于傾向于使用書面語作為研究材料,總體來說此問題未顯現(xiàn))。
語料庫是按照特定目標(biāo)收集的語言數(shù)據(jù)。目前,語料庫的規(guī)模越來越大,對語料庫數(shù)據(jù)準(zhǔn)確性的要求也越來越高。這個(gè)要求對中介語語料庫建設(shè)提出了新的挑戰(zhàn),對口語中介語語料庫建設(shè)尤其如此。因?yàn)榭谡Z中介語語料庫多了轉(zhuǎn)寫的程序,轉(zhuǎn)寫的質(zhì)量在很大程度上決定了中介語語料的質(zhì)量,決定了語料庫的質(zhì)量。Weisser(2018)通過重新轉(zhuǎn)寫,發(fā)現(xiàn)BNC(British National Corpus)的語料轉(zhuǎn)寫存在一些錯(cuò)誤。如一些轉(zhuǎn)寫者由于粗心,把 “you’re off the hook”轉(zhuǎn)寫成了“your off the hook”。如果依個(gè)例為代表進(jìn)行推算,Weisser估計(jì)BNC的錯(cuò)誤率將高達(dá)8.5%。并且這個(gè)轉(zhuǎn)寫錯(cuò)誤還將導(dǎo)致其他的問題,如詞頻統(tǒng)計(jì)問題,語法分析問題(“your off the hook”成了一種錯(cuò)誤的表達(dá),或可能被標(biāo)注為與上下文無關(guān)的碎片,即fragment)。
本文將主要討論漢語口語中介語語料轉(zhuǎn)寫中的一些重要問題,包括:①轉(zhuǎn)寫的基本單位,②轉(zhuǎn)寫的主要內(nèi)容,③標(biāo)點(diǎn)符號的使用,④基本的轉(zhuǎn)寫策略。
語料的整理加工涉及語言分析的基本單位問題。對于書面語來說,語言描寫和分析的基本單位就是句子。對于語料庫語言學(xué)來說,甚至可以采用更具操作性的方法來解決句子的問題,那就是根據(jù)句號(或問號、感嘆號)作為判斷句子的標(biāo)準(zhǔn)(宋柔等,2017)。但是對于口語語料來說,情形有很大的不同??谡Z就其固有媒介來說,并不存在標(biāo)點(diǎn)符號之類的輔助成分。不過研究者發(fā)現(xiàn),口語表達(dá)也是可以分隔成較小的片段的。在處理口語語料時(shí)研究者面臨的一個(gè)重要問題就是:對于口語來說,如何進(jìn)行描寫和分析?它的基本單位是什么?是跟書面語一樣的句子還是其他的單位?
Foster等(2000)回顧了87項(xiàng)涉及口語的研究,發(fā)現(xiàn)過往的研究者對口語的基本切分單位提出了眾多的方案,包括:命題(Proposition)、交流單位(C-unit)、表達(dá)單位(Idea Unit);音調(diào)單位(Tone Unit)、語調(diào)單位(Intonation Unit)、小句(Utterance);句子(Sentence)、可終結(jié)單位(T-unit);等等。之所以出現(xiàn)這么多的定義,是因?yàn)檠芯空邔谡Z中基本單位的認(rèn)知不同,采用的標(biāo)準(zhǔn)不同,如語義的、語法的、韻律的。有時(shí)甚至同時(shí)混用不同的標(biāo)準(zhǔn),如語義標(biāo)準(zhǔn)無法解決問題時(shí)轉(zhuǎn)向語法標(biāo)準(zhǔn)。雖然研究者提出的各種定義有其本身的合理性,但眾多的定義顯然造成了一個(gè)無法克服的后果,就是人們無法對采用不同定義的研究結(jié)果進(jìn)行比較。
目前,越來越多的研究者認(rèn)為,在對口語進(jìn)行切分時(shí),最好先單獨(dú)利用韻律標(biāo)準(zhǔn),找出口語表達(dá)的基本單位,然后再對韻律單位與語法、語義、功能的關(guān)系進(jìn)行研究。研究者把利用韻律因素劃分出來的口語基本單位稱為語調(diào)單位(Intonation Unit),語調(diào)單位從本質(zhì)上講是一個(gè)聽覺單位。根據(jù)美國功能語言學(xué)派的觀點(diǎn),原型性的語調(diào)單位具有一個(gè)連貫的語調(diào)拱形,并具有一些明顯的分界特征,如開頭部分的加速,結(jié)尾音節(jié)的延長,以及停頓等(Barth-Weingarten,2016)。
有些研究者懷疑語調(diào)單位具有范疇性特點(diǎn),在處理真實(shí)的口語語料面臨模糊的臨界現(xiàn)象時(shí)便無能為力(Barth-Weingarten,2016)。但多數(shù)研究者認(rèn)為,語調(diào)單位已成為一個(gè)公認(rèn)的口語語篇分析單位,對口語研究非常重要,并具有很多優(yōu)勢,比如可進(jìn)行跨語言比較等(Tao,1996)。對語調(diào)單位的探索也影響到語料庫(特別是包括口語語料的語料庫)的建設(shè)和標(biāo)注,例如20世紀(jì)80年代前完成的London-Lund Corpus對其中的口語語料進(jìn)行了韻律標(biāo)注,在每一個(gè)音調(diào)單位(Tone Unit,英國學(xué)派的術(shù)語,與Intonation Unit同義)后面插入一個(gè)黑色實(shí)心方塊來進(jìn)行標(biāo)注,見例(1)。雖然口語的基本分析單位與書面語不同,但是一些研究發(fā)現(xiàn),由小句來實(shí)現(xiàn)的語調(diào)單位在整個(gè)口語表達(dá)中還是占有相當(dāng)高的比例。Tao(1996)的數(shù)據(jù)顯示,漢語口語語篇中,小句形式的語調(diào)單位占比達(dá)47.9%(完整小句占19%)。Matsumoto(2003)的數(shù)據(jù)顯示,日語口語語篇中,小句形式的語調(diào)單位占比68%(完整小句占19%)。從書面語和口語對比的角度看,如果語料庫中的語料標(biāo)注了語調(diào)單位,研究者便可以利用大規(guī)模的數(shù)據(jù)來對比書面語的句子和口語的語調(diào)單位的共同點(diǎn)和不同點(diǎn),來深入挖掘口語表達(dá)的特點(diǎn)。如果語料庫未區(qū)分書面語和口語分析單位的不同,二者的對比研究便無法深入進(jìn)行下去。因此我們認(rèn)為,在對口語語料進(jìn)行標(biāo)注時(shí)優(yōu)先確定口語轉(zhuǎn)寫的基本單位是十分重要的。雖然對語調(diào)單位的性質(zhì)和判定方法還存在少許爭議,但在目前情況下把它作為口語轉(zhuǎn)寫和分析的基本單位是一種值得嘗試的選擇。目前,大多數(shù)語料庫在處理口語語料時(shí)采用了與書面語相同的方法,這固然帶來一定的便利,但卻也忽視了口語語料的特點(diǎn),不利于對口語特征的描寫,也不利于對口語與書面語的差異進(jìn)行研究。
在對口語中介語語料進(jìn)行轉(zhuǎn)寫時(shí),需要盡可能地保留口語交際的特征。根據(jù)前人的研究,我們認(rèn)為,有三類口語特征在轉(zhuǎn)寫時(shí)需要特別關(guān)注。
第一類是關(guān)于口語本身的一些特征,如停頓、語調(diào)、重音等。第一類特征的選取可以借鑒現(xiàn)有的口語轉(zhuǎn)寫系統(tǒng),如會話分析(Conversation Analysis)所采用的轉(zhuǎn)寫系統(tǒng)。這一轉(zhuǎn)寫系統(tǒng)是會話分析學(xué)派的共同語言,還深深影響到其他研究口語交流現(xiàn)象的研究者及其設(shè)計(jì)的轉(zhuǎn)寫系統(tǒng)。會話分析的轉(zhuǎn)寫系統(tǒng)關(guān)注的是會話活動中的一些重要因素,如話輪之間的順序等。Hutchby和Wooffitt(1998)認(rèn)為會話分析學(xué)者所關(guān)注的內(nèi)容可以歸納為兩類:一是有關(guān)話輪轉(zhuǎn)換的因素,如話輪的開端、結(jié)束,話輪交替;二是話語產(chǎn)出時(shí)的特點(diǎn),如重音、語調(diào)、清晰或含糊等。
第二類口語特征是正常的非流利特征,指口語表達(dá)中的各種修改和補(bǔ)救努力。例(2)是一位官員在回答記者提問時(shí)的話語,每次產(chǎn)出的話語都很短(臨時(shí)用#來代表產(chǎn)出單位的界限,即語調(diào)單位之間的分界),充滿了“呃、啊”等填充詞和停頓。但這其實(shí)正是口語表達(dá)的常態(tài),而不應(yīng)該把它看作是書面語的退化形式。研究口語的學(xué)者把人們進(jìn)行口語補(bǔ)救的努力當(dāng)作是進(jìn)行交流的重要資源,而不是需要排除的消極因素。對于一種語言來說,口語修補(bǔ)還擴(kuò)展了語法的可能性。謝格羅夫(Schegloff,1979)認(rèn)為,會話補(bǔ)救在一定程度上具有超語法的能力(like a super-syntax)。例(3)選自曹禺著名的話劇《雷雨》(姑且當(dāng)作是口語的模仿),魯侍萍發(fā)現(xiàn)周家的大兒子周萍(其實(shí)也是她與周樸園的兒子)動手打了自己和魯貴的兒子魯大海,十分生氣,想上前制止。當(dāng)她走到周萍跟前,說出“你是萍”之后,卻突然停了下來,因?yàn)樗庾R到在當(dāng)前的語境下,讓周萍認(rèn)她這個(gè)媽媽是十分困難的事。但她并沒有放棄已經(jīng)發(fā)出的話語,而是改為“憑、憑什么打我的兒子”,利用同音詞的關(guān)聯(lián),十分巧妙地轉(zhuǎn)移了話題。同樣地,當(dāng)周萍詢問魯侍萍是誰時(shí),她本能的反應(yīng)是說“我是你的媽媽”,但當(dāng)話語進(jìn)行到“你的”之后(如果說出“媽媽”一詞,整個(gè)句子也就結(jié)束,因而無法更改),也是突然停止,改成了“你打的這個(gè)人的媽”。從這個(gè)例子可以看出,人們在口語中充分利用了各種手段(包括打斷原來的話語,改變原來的話語),來達(dá)成交際的目的。對口語的研究應(yīng)該對交際者的這種語言能力進(jìn)行描述和說明,而不僅僅貶斥為錯(cuò)誤啟動或不成熟的嘗試(false start)。
在對口語中介語語料進(jìn)行轉(zhuǎn)寫時(shí),對各種會話修補(bǔ)現(xiàn)象首先要進(jìn)行準(zhǔn)確的轉(zhuǎn)寫記錄,然后可以根據(jù)大類的不同進(jìn)行細(xì)分。在嘗試建立一個(gè)小型漢語學(xué)術(shù)口語語料庫時(shí),我們對口語中的正常非流利現(xiàn)象進(jìn)行了大類及小類標(biāo)注。例(4)中,“df”表示一種標(biāo)注的大類:口語中的不流暢,“type=‘repeat’”中的‘repeat’表示“口語中的不流暢”這一上層類別中的子類別“重復(fù)”。正如例句所示,標(biāo)注時(shí)將需要標(biāo)注的文本放置于兩個(gè)中括號中間,“”就表示該標(biāo)注的完成,“/”是結(jié)束的主要標(biāo)記,在分析時(shí)用于提取和定位標(biāo)注內(nèi)容(韓毅、劉運(yùn)同,2020)。
(2)#那么今年#教育部啊就是國家#這個(gè)用這個(gè)每年兩個(gè)億的資金#建立了免費(fèi)提供教科書的#這樣一個(gè)制度的試點(diǎn)#
(3)魯侍萍:(大哭起來)哦,這真是一群強(qiáng)盜!
(走至周萍面前,抽咽)你是萍……憑——憑什么打我的兒子?
周萍:你是誰?
魯侍萍:我是你的——你打的這個(gè)人的媽。
(曹禺《雷雨》)
(4)連不起來有點(diǎn)雜糅 [P]
第三類口語特征是學(xué)習(xí)者的中介語特征,如影響說話人語言表達(dá)的語音特征,不同于母語者的停頓,外語學(xué)習(xí)者特有的語碼轉(zhuǎn)換等。對第三類內(nèi)容的選擇和確定必須建立在中介語學(xué)習(xí)理論和相應(yīng)的研究基礎(chǔ)之上,才能捕捉到學(xué)習(xí)者中介語的一些特殊表現(xiàn),并在語料轉(zhuǎn)寫中給予充分的重視和系統(tǒng)的標(biāo)注。例如,初級階段漢語二語學(xué)習(xí)者由于漢語知識的缺乏,掌握不好漢語句子的節(jié)奏,使用一種幾乎平均分割的方式來讀或者說漢語句子,把“她-愛上-漢語-了”說成“她-愛-上-漢-語-了”。
為了忠實(shí)記錄各種口語特征,轉(zhuǎn)寫時(shí)免不了利用一些符號。在設(shè)計(jì)各種符號時(shí),除了表意的明確性,其實(shí)還有其他一些實(shí)際的因素需要考慮,如在計(jì)算機(jī)上實(shí)現(xiàn)的便利等。有時(shí),一些轉(zhuǎn)寫系統(tǒng)由于某種原因利用了書面語常用的一些標(biāo)點(diǎn)符號。書面語的標(biāo)點(diǎn)符號是為了輔助閱讀而設(shè)計(jì)的,而一些轉(zhuǎn)寫系統(tǒng)在借用這些標(biāo)點(diǎn)符號時(shí)表達(dá)的意義是不同的。轉(zhuǎn)寫者在進(jìn)行口語中介語語料庫轉(zhuǎn)寫時(shí)或使用其他研究者的語料時(shí),對標(biāo)點(diǎn)符號表示的意義一定要特別注意。
以書面語常用的逗號和句號為例,它們在不同的轉(zhuǎn)寫系統(tǒng)中表達(dá)的意義是截然不同的。對會話分析的轉(zhuǎn)寫系統(tǒng)來說,來自書面語的幾種標(biāo)點(diǎn)符號是用來表示話輪或者話輪構(gòu)成單位的音高形狀的。Hepburn和Bolden(2017)特別說明:“為了表示發(fā)話人結(jié)束話輪的不同方式,我們通常使用標(biāo)點(diǎn)符號,如逗號、句號、問號。這些標(biāo)點(diǎn)符號并不是像在書面語里那樣用來標(biāo)示語法特性的,而是用來標(biāo)示話輪的結(jié)尾部分的音高輪廓的。這些標(biāo)點(diǎn)符號當(dāng)然也可以出現(xiàn)在一個(gè)復(fù)雜話輪中間,用來標(biāo)示話輪構(gòu)成單位之間的界限。”具體而言,逗號標(biāo)示略微上升的語調(diào),句號表示下降語調(diào)。(順便說一下,在會話分析的轉(zhuǎn)寫系統(tǒng)中,問號標(biāo)示的是一種比較強(qiáng)烈的上升語調(diào),不一定同疑問的語法形式對應(yīng)。)
同樣,在應(yīng)用廣泛的美國功能語言學(xué)派的轉(zhuǎn)寫系統(tǒng)(指Du Bois等設(shè)計(jì)的轉(zhuǎn)寫系統(tǒng))中,也采用了書面語常用的標(biāo)點(diǎn)符號。設(shè)計(jì)者(Du Bois等,1993)非常明確地指出:“在我們的話語轉(zhuǎn)寫系統(tǒng)中,標(biāo)點(diǎn)符號如逗號、句號、問號一直是用來標(biāo)示語調(diào)的類型的,從來不是用來標(biāo)示語法或語義結(jié)構(gòu)本身的?!蓖瑫r(shí),功能語言學(xué)的研究者又從語篇功能的角度來對語調(diào)類型進(jìn)行分類,把語調(diào)大致分為終結(jié)(final)、延續(xù)(continuing)、吁求(appeal)語調(diào),分別由句號、逗號、問號來表示。設(shè)計(jì)者特別提醒使用者:“盡管使用書面語中的標(biāo)點(diǎn)符號可以方便記憶,但同時(shí)也帶來一定的風(fēng)險(xiǎn),轉(zhuǎn)寫者一定要避免用書面語的使用習(xí)慣來理解這些符號?!?/p>
基于上述討論,我們認(rèn)為,轉(zhuǎn)寫符號需要表意明確。為了避免書面語的影響,在進(jìn)行口語轉(zhuǎn)寫和標(biāo)注時(shí)最好不要使用書面語中常用的符號。如果為了便利而采用了書面語中的一些符號,就要在語料庫的描述和相關(guān)文件(包括使用該語料庫語料進(jìn)行研究的文獻(xiàn))中明確說明這些符號的定義,從而避免造成不必要的誤解。
由于口語語料轉(zhuǎn)寫費(fèi)時(shí)費(fèi)力,在具體操作時(shí)可以借鑒一些語料庫轉(zhuǎn)寫系統(tǒng)的層級性設(shè)計(jì),對轉(zhuǎn)寫語料進(jìn)行不同“精細(xì)度”的轉(zhuǎn)寫。如德語學(xué)者設(shè) 計(jì) 的“HIAT”(Heuristic Interpretative Auditory Transcription)轉(zhuǎn)寫系統(tǒng)分為兩種,一種是基本版本,另一種是擴(kuò)展版本。擴(kuò)展版本中補(bǔ)充了音調(diào)和非語言符號,以及更細(xì)致的音調(diào)變化符號。Du Bois等(1993)的轉(zhuǎn)寫系統(tǒng)區(qū)分寬式、中級、嚴(yán)式三種轉(zhuǎn)寫等級。寬式轉(zhuǎn)寫包括基本的內(nèi)容,中級轉(zhuǎn)寫更進(jìn)一步,嚴(yán)式轉(zhuǎn)寫包括的內(nèi)容最多。寬式轉(zhuǎn)寫包含的信息主要是:交談?wù)?、話輪和語調(diào)單位、話語重疊、停頓、笑聲。中級轉(zhuǎn)寫增加了模糊音、轉(zhuǎn)寫人的評論、重音詞和音節(jié)的長短、停頓的時(shí)長、語調(diào)方向。嚴(yán)式轉(zhuǎn)寫在二者的基礎(chǔ)上再增加話語的緊密連接、特殊音如吸氣和長出氣、特殊的音質(zhì)如快慢高低等(劉運(yùn)同,2016)。Barth-Weingarten(2016)在提出自己對語調(diào)單位的研究思路時(shí)也提議,可以對口語進(jìn)行三種顆粒度不同的轉(zhuǎn)寫:最少轉(zhuǎn)寫、基本轉(zhuǎn)寫、精細(xì)轉(zhuǎn)寫。在最少轉(zhuǎn)寫層面,轉(zhuǎn)寫者只需要區(qū)分出三種不同的休止(cesura)即可。在討論口語轉(zhuǎn)寫的著作中,Jenks(2011)把口語交流的轉(zhuǎn)寫信息分為5種類型,見表1。
表1 口語交流轉(zhuǎn)寫信息的5種類型
(續(xù)表)
對口語研究和中介語語料庫建設(shè)而言,只轉(zhuǎn)寫第一類型和第二類型的特征顯然是不夠的。但一個(gè)轉(zhuǎn)寫系統(tǒng)到底需要包括哪些信息,其實(shí)是要根據(jù)研究目的或語料庫建設(shè)的目的來考慮的。中國的語料庫建設(shè)與研究者在這方面也進(jìn)行了寶貴的探索,提出了一些行之有效的建設(shè)策略。張寶林和崔希亮(2013,2022)提出全球語料庫“搭積木式”的動態(tài)建設(shè)策略,提議采用多次標(biāo)注/多版標(biāo)注,每次只對一個(gè)層面的內(nèi)容進(jìn)行標(biāo)注。上述兩篇論文中提到的標(biāo)注策略主要是針對后期的標(biāo)注信息提出的,我們提出的轉(zhuǎn)寫策略是針對把口語語料變成文本這一階段,二者的對象不完全相同。我們建議,在對口語語料進(jìn)行轉(zhuǎn)寫時(shí)可以先確立不同類型的轉(zhuǎn)寫信息,每個(gè)版本只標(biāo)注相應(yīng)的信息。然后根據(jù)需要,從簡單到復(fù)雜,逐漸完善口語語料或多模態(tài)語料的各種信息。在處理口語語料時(shí),分層或分級轉(zhuǎn)寫可以使口語中介語語料轉(zhuǎn)寫更具操作性。這一轉(zhuǎn)寫策略可以納入張寶林和崔希亮(2013,2022)提出的“搭積木式”語料庫建設(shè)策略。
建設(shè)高質(zhì)量、具有通用性的漢語中介語語料庫,其中的一個(gè)重要的問題就是要做到書面語語料和口語語料的平衡??谡Z語料的收集和標(biāo)注與書面語語料相比有顯著的區(qū)別,其中,口語語料轉(zhuǎn)寫是十分關(guān)鍵的步驟。學(xué)術(shù)界對口語以及口語中介語的研究相對還處于探索階段,無法為口語中介語的轉(zhuǎn)寫及口語語料庫建設(shè)提供堅(jiān)實(shí)的基礎(chǔ),這在一定程度上制約了口語語料庫建設(shè)的發(fā)展以及口語中介語研究的深入。本文針對中介語口語轉(zhuǎn)寫的幾個(gè)重要問題,根據(jù)已有的研究和實(shí)踐,提出了一些建議,例如如何確立口語轉(zhuǎn)寫的基本單位,應(yīng)優(yōu)先轉(zhuǎn)寫哪些韻律要素,轉(zhuǎn)寫符號的選擇等,希望對中介語語料庫建設(shè)中口語語料轉(zhuǎn)寫及轉(zhuǎn)寫標(biāo)準(zhǔn)研究有所助益。