輔仁大學(臺灣) 楊承淑
口譯語料庫的編碼與標記:以SIDB為例
輔仁大學(臺灣) 楊承淑
關于口譯語料庫的建置與研究,迄今以名古屋大學1999-2003年之間開發(fā)的英日/日英同步口譯語料庫(SIDB,Simultaneous Interpretation Data Base)為最大,約達100萬字。該研究團隊在此基礎上,進行了一系列檢證口譯產(chǎn)出特征的量化研究。本研究首先將針對SIDB口譯語料庫加以評估,并分析其編碼與標記之功能及特征。其次,亦將評述前述口譯語料庫所展開的研究成果,以厘清該語料庫之定位及效益。借此,期能將現(xiàn)行語料之編碼與標記具有之優(yōu)勢及其應避免之劣勢,提出客觀描述與評估。
SIDB評估;SIDB科研成果;同傳研究面向;案例分析
關于口譯語料庫的建置與研究,迄今以名古屋大學1999-2003年之間開發(fā)的英日/日英同步口譯語料庫(SIDB,Simultaneous Interpretation Data Base)為最大,約達182小時(聽寫成100萬字)。該研究團隊在此基礎上,自2001-2006年進行了一系列檢證口譯產(chǎn)出特征的量化研究。
本研究將從其建庫到研究成果產(chǎn)出的10年期間,針對該研究團隊的學術活動,分析其成員屬性、主題分布、經(jīng)費運用、學術成果、主要特色等,作為今后口譯語料庫大規(guī)模建置及研究開展上的借鑒。
其次,在掌握前述信息的基礎下,將以SIDB語料庫的編碼與標記,進一步描述其建置架構并評估其優(yōu)勢與特色,并與其研究產(chǎn)出之間的關系提出評估報告。
該團隊核心成員松原茂樹(2001:86)的研究報告指出該語料庫是源于名古屋大學“統(tǒng)合音響情報研究據(jù)點”(CIAIR,Center for Integrated A-coustic Information Research)武田一哉教授(Kazuya Takeda)于1999-2003年執(zhí)行文部省COE(Center of Excellence)計劃所衍生的一項研究①總計劃由板倉文忠教授以“多元音響信號の統(tǒng)合的理解”為題任總主持人,武田教授所執(zhí)行的僅是其中四個子計劃之一。該子計劃5年共獲8億2260萬日元(約1000萬美元)科研直接經(jīng)費。1999年:2億6千萬,2000年:1億8千萬,2001年1億7千萬,2002年1億900萬,2003年1億2393萬日元。。其龐大的科研經(jīng)費主要是投入多元音響信號的綜合理解之用,包括汽車行進間的話語辨識及過濾噪聲等研究。
前述研究團隊為了追求口譯自動化的目標,因而于1998-1999年開始著手雙語同傳語料庫的建置準備。當時他們所嘗試的是一種“漸進式的英日口語翻譯手法”(松原茂樹等1998,1999),亦即順著小句的詞序,采取順句驅動的方式產(chǎn)出譯語。然而,他們認為唯有從職業(yè)譯員獲取真實的口譯語料,才能為自動化的口譯產(chǎn)出找到最佳范本,以利系統(tǒng)的設計與運作。以下是SIDB語料庫的概要:
表1 SIDB語料庫概要
該語料庫的建置除了以支持自然語言處理、認知科學、認知語言學、口譯研究、口譯教學、外語教學等多功能用途為其目標之外,最大的夢想是追求口譯的自動產(chǎn)出。甚至,包括在電話、車內(nèi)等伴隨雜音的環(huán)境下,得以自動產(chǎn)生優(yōu)質的口譯?;诖耍麄冊谠撜Z料庫的語音標記及時間信息上,格外要求精細的記載。而這也是該研究主旨——“多元音響信號的綜合理解”的落實與詮釋。
SIDB語料庫的語料分成獨白與對話兩種類型。前者由職業(yè)譯員擔任口譯,并由真人進入玻璃錄音室,讓譯員在可看到并聽到源語講者的情況下進行同傳。而對話語料則采取面對面與仿真電話的非面對面形式,譯員口譯時可以聽到兩位對話者的話語內(nèi)容,以掌握完整的語境。收錄情況如下:
圖1 語料收錄情況
在編碼方面,研究團隊針對收錄語料時的背景數(shù)據(jù)、語料特征、說話者與譯員及其話語媒介等信息分別加以編碼。主要可分類為:背景環(huán)境、語料特征、話語講者、話語界面。詳見表2:
表2 SIDB編碼類別與內(nèi)容
該語料的標記采取的是自動化語料標記(tagging)方式,可分話語篇章標記、時間信息標記、話語語流標記。以下,將針對各項標記的定義、目的、功能、特征等提出詳細描述。
所謂“話語篇章標記”,指的是該語料的語音聽寫方式。該團隊采取的是日本國立國語研究所制訂的“日語口語語料庫(CSJ)”基準。也就是說,以200msec以上的停頓為其切分(segment)依據(jù),并將此視為一個話語單位(松原茂樹等2001: 92)。而這樣做的目的是為了找出一個明確客觀的分割信息依據(jù),同時也可借此確定話語的基本單位。如此,就可以寫出程序,并透過程序去自動擷取及分割話語信息,而停頓兩秒以上即形成一個可客觀辨識的話語標志(discourse marker),有助研究人員據(jù)此探究口譯產(chǎn)出時的認知意義并加以分類。
由于日語有漢字與假名混雜的現(xiàn)象,故除了第1行是紀錄話語的時間序列,第2行是源語的聽寫文字,第3行則是語音標記(以片假名標示前一行語音的加工程序)。而英語則只有兩行——時間序列與源語文字,而無語音標記。詳參以下表示時間信息的標記圖標(圖2):
圖2 SIDB英語講者對話內(nèi)容
圖3 SIDB英日語譯員話語內(nèi)容
在“時間信息標記”方面,包含前述水平紀錄的時間序列與源語文字形成水平走向(圖4)及垂直方向的時間序列紀錄。(圖5)
圖4 SIDB時間信息標記(去除其他標記)
SIDB團隊充分運用了他們在時間標記上的信息,在后續(xù)的研究成果中展現(xiàn)了可觀的成績。其研究課題包括:同傳譯員發(fā)聲時點分析、同傳與交傳的時間特征、同傳中的停頓、同傳產(chǎn)出延遲分析、語速變動分析、應答詞的插話時機等。該團隊在時間標記上共提出19篇論文,其中與同傳相關的論文即達14篇??梢?,同傳研究與時間信息標記之間的關聯(lián)性頗高。
圖5 SIDB對話的時間信息標記
至于“話語語流標記”,主要針對口語表達時的不流暢、語音異常等現(xiàn)象加以標示。例如,發(fā)語詞(F,filler)、不完整詞語(D)、口誤(W)、元音拉長(H)、子音拉長(Q)、元音不確定(FV)、句尾(SB)。最后,在句子結束處加上的標記(PB),則用于識別及切分之用。詳如表3:
表3 SIDB標記類別與內(nèi)容
針對以上標記,該團隊還研發(fā)了一套可自動對齊(alignment)的支持軟件,以利標記作業(yè)的統(tǒng)一性。其功能包括顯示雙語語料分句對齊、時間標記(含非時間標記的排除)、詞素分析結果等窗口。參見圖4、圖5及下頁圖6、圖7,可知表3中的各類標記都已完整顯于其中。
圖6 SIDB雙語語料對齊視窗
圖7 SIDB詞素分析標記
SIDB語料內(nèi)容配合前述編碼與標記,及對齊與分析等軟件的運作下,該團隊以松原茂樹為核心,自1994-2012年陸續(xù)提出319篇論文①這319篇論文是以松原茂樹列名其中的論文為標的,擷取自日本CiNii學術網(wǎng)。,其中85篇為英文,229篇為日文。主要研究課題包括以下各項,內(nèi)容扼要摘述如下:
以下,包括SIDB各類論文篇數(shù)、同傳研究的分布情況,及其出版高峰期等數(shù)據(jù),請詳見下頁表5。事實上,SIDB的建置雖是1999-2003年,但顯然關于話語理解、譯法分析等研究,早在1994-1998年就已著手啟動。到了1999-2003年的計劃執(zhí)行時期,此時的研究集中在話語理解、話語分析、譯法分析、語音處理、語料庫設計等課題,亦即語料分析與工具開發(fā)上。
而在2004-2012年之間,研究課題則偏向時間信息、話語分析、文本處理、文本分析、語料庫設計。此時的研究面向,開始以英語或日語的話語/書面的分析與處理(含自動產(chǎn)出)為目標。顯然,可以劃分為三個主要階段。詳見下頁表6。
而另一方面,對于同傳的研究成果及其分布情況,亦令人深感好奇。首先,我們發(fā)現(xiàn)同傳的相關成果,僅分布于1996-2009年,高峰期為2000-2009年。然后,47篇論文中篇數(shù)最多的研究課題是時間信息與語料庫設計,然后則是譯法分析與話語分析。
而同傳的相關研究中,從下頁表7可看出語料庫設計占了1/3,且集中分布于2000-2005年。同樣也占1/3分量的是語料的時間信息所衍生的研究,主要分布于2005-2009年。除此之外的連續(xù)分布則見于譯法分析,在2003-2006年之間。而對照表6可知,時間信息是同傳口譯產(chǎn)出類型的特征研究,同時也是一項貫穿三階段(前置、執(zhí)行、應用),執(zhí)行期間未曾中斷的骨干內(nèi)容。
表7是研究成果的逐年分布情況:
表4 SIDB研究主題類別
表5 SIDB核心成員1994-2012年研究成果一覽
表6 SIDB各階段研究課題(1994-2012)
表7 SIDB同傳研究課題分布一覽(1996-2009)
然而,表7中較令人意外的是話語分析(僅6篇),且主要集中在2006年(4篇)。也就是說,同傳的話語分析在SIDB的研究推進過程中,并非持續(xù)研究的主要課題。而事實上,在近20年的研究歷程中,話語分析是成果偏高的面向,但其中的同傳研究比重明顯偏低。此外,另一耐人尋味的現(xiàn)象則是時間信息的研究成果。主要成果是在該計劃執(zhí)行結束之后(1999-2003),才連續(xù)5年又提出了12篇論文。整體而言,SIDB近20年的研究歷程中,一貫穩(wěn)定產(chǎn)出的研究課題有下列各項:
表8 SIDB連續(xù)穩(wěn)定產(chǎn)出之研究課題
而各項持續(xù)性研究課題的產(chǎn)出高峰期及其重疊期如下圖7。
圖7 SIDB持續(xù)性研究課題的產(chǎn)出時期
從表8與圖7亦可看出,SIDB團隊發(fā)展同傳期間(1999-2003),正是各項持續(xù)性研究課題的第一個高峰期。然而,在此之后的研究期間,顯然圖7中的四項研究課題的比重日益提升。此外,英/日文書寫文本的自動抽取等加工處理,已然是其重要的核心議題。同時,配合分布于2009-2010年的人工智能與2010與2012年的認知分析,可知發(fā)展自動翻譯系統(tǒng)應是其主要目標。換言之,SIDB的重心已經(jīng)從口譯逐漸轉入筆譯領域了。
若要探究何以SIDB在建置成為全球最大的同步口譯語料庫之后,其同傳研究卻消逝得如此迅速,其原因與編碼與標記的設計密切相關。
首先,觀察其編碼與標記的內(nèi)容,可知并未反映在其研究成果中。例如,編碼中對于口譯員資歷的分類,并未在其后續(xù)成果中展現(xiàn)資深(3年以上)與資淺(3年以下)譯員的口譯表現(xiàn)有何差異(表2)。
而標記方面,關乎譯員認知表征的口譯錯誤或失誤,如發(fā)語詞(F)、改口(R)、不完整詞語(D)、句中停頓(PS)等重要的口譯表現(xiàn),也并未在研究中提出相關成果。換言之,對于口譯的譯語內(nèi)容或技巧表現(xiàn)(performance)等,該團隊并未賦予相應的關注。
其實,在擁有前述編碼與標記的情況下,其中與譯語語流相關的譯員認知標記及語音異常標記,以及語料特征與譯員資歷、話語接口等編碼,對于口譯技能與策略的探究,似乎值得進一步加以關注。以口譯技能而言,不同口譯資歷譯員(3年以上或以下),針對同一語篇的同傳表現(xiàn),必然是該團隊當初關注的一項焦點,且因而投注的資金與心力也相當可觀。
然而,SIDB自1994-2012年陸續(xù)提出的319篇論文中,卻沒有任何一篇是探討不同資歷譯者技能表現(xiàn)的。這一點,確實令人不解?;蛟S,該團隊并未將語流的遲滯與語音的偏移,視為口譯技能發(fā)展中有意義的標志,才導致該項研究議題產(chǎn)出不彰的結果。
假使這一假設成立的話,只要從資深譯員是否較資淺譯員語流更為順暢、語音偏移更少,即可得知口譯技能發(fā)展程度是否與此相關。就量化研究而言,若要證明其結果,數(shù)據(jù)應如探囊取物,可說易如反掌。
然而,研究團隊所關注的重點,大都圍繞在時間信息的基礎上——包含語速、停頓、源語與譯語的時序落差、發(fā)語詞(F)與聽取效果的關系、日譯英/英譯日與譯語延遲的比較等。
這些成果(共14篇)主要針對語速或停頓對于聽取理解的影響,并提出量化的測定報告(2005年3篇,2006年1篇)。同時,也運用軟件切分語音/文本語料,提出精細的時間測定數(shù)據(jù)(2002年1篇)。如,同傳與交傳的時間效益比較(2003年1篇)、源語與譯語的時序落差(2006年1篇,2007年1篇)、自動推估單詞發(fā)聲時間(2007年1篇,2008年1篇)、日譯英/英譯日與譯語延遲比較(2007年1篇)等。其后的研究成果則集中在譯員的語速變動(2008-2009年3篇)等。
圖8 時間信息的研究課題及其出版時期
而譯法方面共計8篇。他們提出口譯時的主要套式、信息單位、銜接手法(分割、省略、反復)、順句驅動、句構特征、從屬句譯法、省略手法(省略、壓縮)等。(各年度論文篇數(shù)如圖9所示)
圖9 譯法分析的研究課題及其出版時期
而在話語特征方面共計6篇論文。1996年9月,他們首先提出對話的日語譯語特征為主題變換、分割、倒置、反復、改口(糾正)及發(fā)語詞的高頻現(xiàn)象等。只是,這樣的發(fā)現(xiàn)僅出現(xiàn)于語料庫尚未開始建置的1996年,建置初期(2000年)僅完成一篇對話語料庫分析的論文。而建置完成之后(2006年4篇),反而并未提出與最初規(guī)劃時足以呼應且有持續(xù)性的研究成果。4篇論文主題分別是:教學應用、發(fā)語詞對聽眾理解的影響、演講的同傳類型、對話翻譯的日語發(fā)言分割。
圖10 話語特征研究及其出版時期
圖11 語料庫研究課題及其出版時期
而占相同比重(14篇)的還有語料庫設計研究,持續(xù)產(chǎn)出于2000-2005年??梢娕c同步口譯相關的工具開發(fā),與其科研項目的執(zhí)行是密切相關的。其中主要課題包括語料庫設計與利用和對齊手法及其評估。相對而言,這些都是比較概論性質的論文。不過,他們在此同時也申請了兩項專利。分別是自動抽取摘要和翻譯套式(2004-2005)。
回顧該語料庫的研發(fā),得之于編碼與標記的研究成果似乎可說偏低。尤其,從總體319篇而言,更是相形見絀。
從全球首度研發(fā)完成的百萬字口譯語料庫的成果剖析看來,似乎令人不無遺憾。其癥結點在于口譯語料庫并非信息科學產(chǎn)品,其分析與研究若無口譯學界的加入,甚難發(fā)現(xiàn)以口譯為核心的問題意識,亦導致其成果受到局限。
反之,從近幾年的口譯研究課題可知,舉凡口譯技巧、評量、策略、模式、過程研究、專技發(fā)展等,以語料庫為工具所做的分析較之過往的觀察研究,證據(jù)力與解釋性皆可大幅提升,頗值得投入此一領域。此外,SIDB的內(nèi)容是可價購取得的,若與中英、中日等語言組合交互運用,其規(guī)??梢詳U增達數(shù)倍。而且,該語料精確性極高,值得以更具兼容性的接口重制并加以引介推廣。
松原茂樹等.2001.同時通訳コーパスの設計と構築[J].通訳研究(1):85-102.
松原茂樹等.1998a.漸進的な話し言葉翻訳における翻訳処理単位の検討[A].電気関係學會東海支部連合大會講演論文集[C].
松原茂樹等.1998b.漸進的な機械翻訳のための文法規(guī)則の変換手法[A].言語処理學會第4回年次大會論文集[C]. 500-503.
松原茂樹等.1999a.英日話し言葉翻訳のための漸進的文生成手法[A].情報処理學會[ed.].情報処理學會研究報告[R].NL-132,95-100.
松原茂樹等.1999b.文脈自由文法の変換に基づく漸進的な話し言葉翻訳手法[A].情報処理學會[ed.].第59回情報処理學會全國大會講演論文集(2)[C].357-358.
松原茂樹等.1999c.漸進的構文解析における構文的曖昧性とその解消[A].一般社団法人情報処理學會[ed.].情報処理學會研究報告[R].NL-134,117-122.
遠山仁美,松原茂樹.2004.CIAIR同時通訳データベースの構築と利用(セッション1)『<特集>人間による言語理解·言語処理』.
SIDB.2006.同時通訳データベース·マニュアル獨話/対話[OL].[08-09].http://slp.el.itc.nagoya-u.ac.jp/sidb/.
CiNii.2014.松原茂樹[OL].[10-18].http://ci.nii.ac.jp/nrid/1000020303589.
(責任編輯 侯 健)
H059
A
2095-5723(2014)04-0082-07
2014-09-08
本文系臺灣“國科會”專題研究項目“生手、新手、老手的口譯技能與策略研究”(100-2410-H-030-052-MY2,2011-2013)成果之一。
通訊地址:24205 臺灣新北市 輔仁大學跨文化研究所