劉劍
(衡陽(yáng)師范學(xué)院外國(guó)語(yǔ)學(xué)院,湖南衡陽(yáng) 421008)
現(xiàn)階段,“多模態(tài)”已經(jīng)成為許多學(xué)科發(fā)展的交叉點(diǎn),而語(yǔ)料庫(kù)研究越來(lái)越呈現(xiàn)為一種“多模態(tài)傾向”。目前國(guó)外針對(duì)音視頻語(yǔ)料的主流多模態(tài)轉(zhuǎn)寫(xiě)或標(biāo)注工具主要有:Praat、Anvil、ELAN、Exmaralda、Media and Text Editors、TASX、MacVisSTA、NXT、DRS等。[1]此 外 ,還有部分基于網(wǎng)頁(yè)的在線標(biāo)注工具,比如,RECOLA語(yǔ)料庫(kù)所使用的標(biāo)注工具“Annemo”、支持多人在線標(biāo)注的“Brat”等 。上述軟件各具特點(diǎn),在人機(jī)互動(dòng)、語(yǔ)言學(xué)、人類(lèi)行為學(xué)、人類(lèi)學(xué)、精神治療、智能客服等領(lǐng)域已得到廣泛的應(yīng)用。對(duì)于多模態(tài)研究者而言,首先要判斷該款工具是否符合自己的研究需求,是否適合用于分析自己的語(yǔ)料數(shù)據(jù),甚至是否符合自己電腦的配置或操作系統(tǒng)。多模態(tài)口譯語(yǔ)料庫(kù)建庫(kù)需要以下功能:語(yǔ)料切分、語(yǔ)音轉(zhuǎn)寫(xiě)、音視頻標(biāo)注、語(yǔ)音分析、檢索查詢等。上述工具均可用于多模態(tài)語(yǔ)料庫(kù)的建設(shè),但不一定適合多模態(tài)口譯語(yǔ)料庫(kù)的建設(shè),因此需分析軟件的功能特點(diǎn),看其是否滿足口譯研究的需要。由于篇幅所限,在此僅對(duì)影響較大的四款軟件,包括Praat、Anvil、ELAN、Exmaralda等做進(jìn)一步對(duì)比分析,以便選出最合適的多模態(tài)口譯語(yǔ)料庫(kù)建庫(kù)工具。
Praat是一個(gè)開(kāi)發(fā)較早、知名度很高的語(yǔ)音分析工具,不僅可以用于音頻語(yǔ)料的轉(zhuǎn)寫(xiě),而且可以方便地對(duì)音頻語(yǔ)料添加對(duì)應(yīng)的國(guó)際音標(biāo)(IPA),還能非常便捷地生成相應(yīng)的語(yǔ)圖(包含基頻、強(qiáng)度、共振峰等 ),便于直觀地分析各種語(yǔ)音現(xiàn)象。Praat支持各種高級(jí)應(yīng)用,有能力的用戶可以自行編寫(xiě)程序代碼提取目標(biāo)文件的各種語(yǔ)音數(shù)據(jù),其標(biāo)注文件是兼容性較強(qiáng)的TextGrid格式,可以方便地導(dǎo)入到其他一些多模態(tài)標(biāo)注工具中,例如,ELAN與Anvil均支持TextGrid文件的直接導(dǎo)入。該軟件的不足之處是,僅能分析音頻文件,主要用于語(yǔ)音學(xué)研究,難以在界面中觀察較長(zhǎng)的文件片段(Segment)的全貌,也無(wú)法處理重疊話語(yǔ)(Overlapping speech)(比如兩個(gè)或兩個(gè)以上的人同時(shí)說(shuō)話)[2]。
Anvil[3]是德國(guó)人工智能研究中心(DFKI)的Michael Kipp教授在2000年用Java語(yǔ)言開(kāi)發(fā)的一款免費(fèi)工具。 Kipp主要從事“智能客服”(Embodied agent)研究,例如,能移動(dòng)的智能機(jī)器人、網(wǎng)頁(yè)中能自動(dòng)用語(yǔ)音回答顧客提問(wèn),同時(shí)還伴隨表情、口型變化的虛擬客服等都屬于“具身代理”的范疇。該工具主要用于包含多模態(tài)會(huì)話的音視頻材料的標(biāo)注,使用者可自由定義不同的標(biāo)注層(Layers)或軌道(Tracks),也可在不同的層中插入帶有時(shí)間屬性的各種標(biāo)簽。Anvi的標(biāo)注界面可展示聲波圖的形狀以及對(duì)應(yīng)的音高曲線(Pitch Contour)。
Anvil具有較好的兼容性,可以使用不同的標(biāo)注方案進(jìn)行標(biāo)注,其標(biāo)注生成的文件格式也是XML格式,支持部分軟件(Transcriber、Praat等)對(duì)應(yīng)格式文件的導(dǎo)入,也支持?jǐn)?shù)據(jù)以多種格式導(dǎo)出,而且導(dǎo)出的表格可以用于統(tǒng)計(jì)軟件(比如SPSS或Statistica)做進(jìn)一步的數(shù)據(jù)分析,其突出功能包括跨層關(guān)聯(lián)、非時(shí)間元素標(biāo)注、標(biāo)注一致性檢查、捕獲動(dòng)作的3D呈現(xiàn)等。Anvil也具有一定的語(yǔ)料管理功能,支持某范圍內(nèi)標(biāo)注文件的瀏覽、檢索、導(dǎo)出以及圖表數(shù)據(jù)分析等。但某些輸出功能還有待完善,比如時(shí)間重疊元素、跨層關(guān)聯(lián)元素?zé)o法在表格的同一欄呈現(xiàn),驗(yàn)證“共現(xiàn)假設(shè)”(Correlation Hypotheses)時(shí)不甚方便。Anvil僅在Windows上運(yùn)行良好,在Mac及Linux體驗(yàn)較差。
ELAN[4]是荷蘭Planck心理語(yǔ)言研究所開(kāi)發(fā)的一款免費(fèi)的多模態(tài)標(biāo)注工具,其初衷是用于言語(yǔ)與手勢(shì)研究,也用于手語(yǔ)(Sign language)研究,可用于 Windows、Mac以及Linux等多個(gè)操作系統(tǒng)。軟件的操作界面非常友好,具有四個(gè)工作模式:切分模式、轉(zhuǎn)寫(xiě)模式、同步模式、標(biāo)注模式。Anvil與ELAN均是針對(duì)視頻的多層次(Multi-layer)標(biāo)注工具,二者均能夠通過(guò)軌(Track)與層(Tier)對(duì)不同類(lèi)別的元素(比如話語(yǔ)、目光、手勢(shì)、表情等)進(jìn)行標(biāo)注,用戶可自行定義層的名稱(chēng)和屬性,各層之間既可以呈現(xiàn)為“等級(jí)式”(父層與子層)的關(guān)系,也可以成為并列的、相互獨(dú)立的“層”,但都與標(biāo)注界面中的時(shí)間軸保持對(duì)齊。尤其難得的是即便是標(biāo)注工作已經(jīng)開(kāi)始,使用者仍然可以調(diào)整不同層之間的關(guān)系,這一點(diǎn)非常有用,因?yàn)楹芏嘌芯空呤窃跇?biāo)注的過(guò)程中才確定最終的標(biāo)注方案。標(biāo)注所需的時(shí)間多寡也完全取決于研究所需要的標(biāo)注內(nèi)容的精細(xì)程度。ELAN支持其他轉(zhuǎn)寫(xiě)工具,比如 Shoebox/Toolbox、Chat、Transcriber等轉(zhuǎn)寫(xiě)工具產(chǎn)生的文本的導(dǎo)入。為了提高標(biāo)注的準(zhǔn)確性,減少手工輸入標(biāo)簽的錯(cuò)誤,ELAN除了支持大量的快捷鍵以外,還支持使用者使用自定義的詞表(Vocabulary)進(jìn)行標(biāo)注,用戶只需輕點(diǎn)鼠標(biāo)便可在特定層的某個(gè)時(shí)刻輸入對(duì)應(yīng)的標(biāo)簽。此外,它還提供了半自動(dòng)切分音頻的功能,這樣減少了手工切分的勞動(dòng),也提高了切分的精確程度。為了避免因停電、電腦死機(jī)等情況引起標(biāo)注文件的丟失,ELAN還帶有自動(dòng)定時(shí)備份功能。此外,ELAN還帶有強(qiáng)大的檢索查詢功能,可以在特定層、特定EAF文件或某個(gè)范圍內(nèi)對(duì)標(biāo)注或文本進(jìn)行檢索,而且檢索的結(jié)果直觀地呈現(xiàn)該片段的起止時(shí)間,因而可以對(duì)某類(lèi)標(biāo)注精確地計(jì)算,也可使用鼠標(biāo)點(diǎn)擊特定檢索結(jié)果,并能直觀地在ELAN的界面中反復(fù)播放該片段,方便觀察各種言語(yǔ)及動(dòng)作行為。為了方便語(yǔ)音分析,使用者還可以在ELAN中選定特定的片段并調(diào)用Praat打開(kāi),進(jìn)行語(yǔ)音的基頻、強(qiáng)度、共振峰等內(nèi)容的分析。
Exmaralda[5]由德國(guó)漢堡大學(xué)多語(yǔ)言協(xié)同研究中心使用Java語(yǔ)言開(kāi)發(fā),它包含一個(gè)數(shù)據(jù)模型、一個(gè)對(duì)應(yīng)的XML文件格式以及一系列的用于創(chuàng)建、管理和語(yǔ)料分析的軟件工具,包括Partitur-Editor(用于轉(zhuǎn)寫(xiě)文本的導(dǎo)入、強(qiáng)制對(duì)齊、切分等)、Corpus Manager(語(yǔ)料管理工具)、ZECKE語(yǔ)料檢索工具等。它除了良好的數(shù)據(jù)可視化效果以外,使軟件具有良好的兼容性是Exmaralda開(kāi)發(fā)的重要目標(biāo),它支持并鼓勵(lì)與其他工具之間的數(shù)據(jù)交換,因此,該軟件的許多優(yōu)點(diǎn)以及數(shù)據(jù)格式都被Praat、ANVIL、ELAN、TASX 等工具所借鑒。
Praat與Transcriber的功能相似,主要用于音頻轉(zhuǎn)寫(xiě)與語(yǔ)音分析,但Praat還具有更強(qiáng)大的語(yǔ)音分析功能。Anvil與ELAN均屬于視頻標(biāo)注工具,但同時(shí)也具備轉(zhuǎn)寫(xiě)功能。Anvil擁有包括麻省理工學(xué)院、愛(ài)丁堡大學(xué)、東京大學(xué)、芝加哥大學(xué)等著名研究機(jī)構(gòu)在內(nèi)的廣大用戶。Exmaralda主要針對(duì)音頻,具有轉(zhuǎn)寫(xiě)功能,同時(shí)還有元數(shù)據(jù)管理及檢索功能,用于會(huì)話及語(yǔ)篇分析、方言學(xué)、音位學(xué)等方面的研究,但該工具對(duì)話語(yǔ)的分析主要是基于文本的,因此缺少多模態(tài)研究所需的時(shí)間精確性。
Anvil與ELAN的用戶都可以根據(jù)項(xiàng)目需要自行制定標(biāo)注方案,二者都允許用戶自行制定標(biāo)注所用的詞表,以節(jié)省標(biāo)注時(shí)間,提高標(biāo)注效率。兩者的工作界面稍有差異,Anvil的視頻通常在中上方,而ELAN的視頻則是在左上方,二者的主要標(biāo)注方式均為手工標(biāo)注,最終都形成基于XML格式的標(biāo)注文件,但是擴(kuò)展名不同(前者為.anvil,后者為.EAF),各自的XML數(shù)據(jù)記錄方式也有差異,導(dǎo)致二者的標(biāo)注文件不甚兼容。Anvil支持在線多人同文件協(xié)作標(biāo)注,其缺陷是不自帶檢索功能,在處理超大文件(長(zhǎng)度超過(guò)30 min)時(shí),速度較慢,偶爾會(huì)崩潰。與Anvil相比,ELAN在處理超大視頻文件時(shí),性能更穩(wěn)定,而且ELAN具有強(qiáng)大而快捷的檢索功能,支持正則表達(dá)式,能夠針對(duì)特定層或特定范圍的語(yǔ)料進(jìn)行快速檢索,例如,常見(jiàn)的N-gram檢索、同文件中的重疊標(biāo)簽檢索等。由于Anvil與ELAN產(chǎn)生的標(biāo)注文件本質(zhì)上都是XML格式,因此可以方便地導(dǎo)入到SQL數(shù)據(jù)庫(kù)中,實(shí)現(xiàn)語(yǔ)料的在線共享與檢索。
就多模態(tài)口譯語(yǔ)料庫(kù)的建設(shè)需求而言,主要判斷軟件工具以下四方面是否符合需求:標(biāo)注及對(duì)齊的便捷性、與其他工具的兼容性、對(duì)超大文件的處理能力、檢索統(tǒng)計(jì)性能。EXMARALDA雖然對(duì)于其他軟件的兼容性較好,但其對(duì)應(yīng)的轉(zhuǎn)寫(xiě)、切分、標(biāo)注與語(yǔ)料管理等功能均由獨(dú)立的工具承擔(dān),軟件的一體化與集成度不夠高,用于口譯語(yǔ)料庫(kù)的建設(shè)不太合適。Anvil對(duì)不同格式的文件具有一定的兼容性,支持完成標(biāo)注后的文字語(yǔ)料及多模態(tài)語(yǔ)料的儲(chǔ)存、編輯,但缺少?gòu)?qiáng)大的檢索功能,需要開(kāi)發(fā)其他的檢索工具,考慮到課題組采集的部分口譯視頻語(yǔ)料的長(zhǎng)度超過(guò)60 min,但Anvil在處理超大(超過(guò)30 min)的視頻文件時(shí)可能崩潰,因此只好放棄該款軟件。最后,界面友好、兼容性強(qiáng)、標(biāo)注便捷準(zhǔn)確、支持大文件處理,而且自帶強(qiáng)大檢索功能的軟件ELAN便成為多模態(tài)語(yǔ)料庫(kù)建設(shè)的首選,而其他的工具(比如Praat)則成為建庫(kù)輔助工具。