平行語料庫檢索軟件SDAU-ParaConc設(shè)計與實(shí)現(xiàn)

2019-10-18 02:57:59葛曉帥翟紅華

軟件導(dǎo)刊 2019年9期

葛曉帥翟紅華

摘要：當(dāng)代語言研究離不開語料庫，對語料庫的檢索需要計算機(jī)軟件支持，但平行語料庫檢索軟件數(shù)量極少，且存在不符合中國國情的情況。因此，有必要開發(fā)一款符合中國國情、適應(yīng)大數(shù)據(jù)檢索需求、減少語言研究中重復(fù)勞動的平行語料庫檢索軟件。在考察現(xiàn)有4款平行語料庫檢索軟件，對比分析它們各自的優(yōu)勢及不足后，結(jié)合中國國情及語言研究實(shí)踐經(jīng)驗(yàn)，提出了新的平行語料庫檢索軟件SDAU-ParaConc設(shè)計理念。介紹了SDAU-ParaConc的實(shí)現(xiàn)方式與特點(diǎn)。與之前的軟件對比結(jié)果表明，SDAU-ParaConc操作步驟平均簡化了60%，檢索效率平均提升了9.5%。

關(guān)鍵詞：SDAU-ParaConc;平行語料庫;檢索軟件;翻譯記憶庫

DOI：10. 11907/rjdk. 191027 開放科學(xué)（資源服務(wù)）標(biāo)識碼（OSID）：

中圖分類號：TP319文獻(xiàn)標(biāo)識碼：A 文章編號：1672-7800（2019）009-0112-04

The Design and Implementation of SDAU-ParaConc：

A Paralleled Corpus Concordancer

GE Xiao-shuai，ZHAI Hong-hua

（Foreign Language School， Shangdong Agriculture University， Tai'an 271000，China）

Abstract： Linguistic studies nowadays rely heavily on corpora， and computer applications are needed in searching corpora. Paralleled corpus tools are rarely found home and abroad， worse still the tools from abroad often do not fit for Chinese language. Therefore， it is necessary to develop a handy tool that deals with Chinese language and big data. After analyzing the four existing concondancers and taking the Chinese context their own experience into consideration， the authors， as language researchers，propose the design of SDAU-ParaConc and introduce its implementation and features. The results show that on average SDAU-ParaConc simplifies 60% operational steps and the searching rate is 9.5% higher.

Key Words： SDAU-ParConc; paralleled corpora; concordancer; translation memory exchange

0 引言

語料庫是當(dāng)代語言研究與教學(xué)[1]的一項重要參考，不論是翻譯研究、詞典編纂抑或是教材編寫都離不開語料庫支持[2]。

語料庫指在一定原則下收集的批量口頭或筆頭語篇素材，以電子版本的形式存儲在電腦中，用于語言的調(diào)查和質(zhì)性分析[3]。當(dāng)代語料庫指電子語料庫，語料庫的快速發(fā)展主要是依賴電子計算機(jī)的快速發(fā)展與普及。語料庫的規(guī)模從第一代電子語料庫的百萬詞次級別發(fā)展到現(xiàn)在上億詞次級別[4]，如此大規(guī)模的文本是不可能依靠人工去讀取分析的，因此語料庫檢索軟件在語料庫研究中十分重要。

平行語料庫由源語文本及平行對應(yīng)的譯語文本構(gòu)成雙語語料庫[5]。平行語料庫與單語語料庫相比有其自身特點(diǎn)：①平行語料庫包含兩種以上語言;②語料之間按照特定層次平行對齊。這些特點(diǎn)決定了平行語料庫的檢索無法使用單語語料庫軟件，需要專用的平行語料庫檢索軟件。

雖然語言研究者數(shù)量眾多，但研究工具卻十分匱乏。平行語料庫的研究主要集中在翻譯研究[6]、術(shù)語抽取和自動對齊等方面 [7]。國內(nèi)外比較知名的平行語料庫檢索軟件僅有4款，分別是ParaConc、AntPConc、CUC_Paraconc、BFSU ParaConc。近年的語料庫應(yīng)用有逐步向云端遷移的趨勢，如最新開發(fā)的在線平行語料庫檢索系統(tǒng)有3款是在線的：OPUS Search Interface[8]、TANGO Concordancer[9]以及WebParaNews[10];另有一款桌面軟件Bilingual KRC Concordancer只能找到一篇介紹性文獻(xiàn)[11]，無法獲取該軟件。在線版檢索系統(tǒng)有速度快、檢索方便等優(yōu)點(diǎn)，但也存在無法滿足研究者個性化檢索的缺點(diǎn)。如上述WebParaNews只能檢索系統(tǒng)設(shè)置好的英文—日文新聞?wù)Z料庫，無法自行添加修改語料庫。本文主要針對桌面軟件進(jìn)行研究分析，故對在線系統(tǒng)不多著筆墨。上述4款桌面軟件各有優(yōu)點(diǎn)但也存在不足，筆者在使用過程中發(fā)現(xiàn)其無法滿足中國語言研究者在大數(shù)據(jù)時代的需求，有必要開發(fā)一款更加簡潔易用、能夠處理大規(guī)模語料的檢索軟件。

1 現(xiàn)有平行語料庫檢索軟件

目前已開發(fā)出了優(yōu)秀的平行語料庫檢索軟件，如新西蘭奧克蘭大學(xué)Micheal Barlow[12]研制的ParaConc，Laurence Anthony [13]開發(fā)的AntPConc，程南昌[14]研制的CUC_Paraconc以及許家金、梁茂成、賈云龍[15]開發(fā)的BFSU ParaConc。下面對現(xiàn)有4款軟件進(jìn)行簡要介紹：

ParaConc是最早且最著名的平行語料庫檢索和建設(shè)軟件[16]，其功能強(qiáng)大，除了檢索功能外還有對齊語料功能，這一功能在早期沒有自動對齊工具時期非常實(shí)用。該軟件支持Unicode文件編碼，并且有詞頻統(tǒng)計功能，但軟件需要對漢語語料進(jìn)行提前分詞才能檢索。該軟件是收費(fèi)軟件，單機(jī)版價格49美元，對于普通語言研究者有一定經(jīng)濟(jì)負(fù)擔(dān)。

AntPConc是最著名的免費(fèi)語料庫檢索軟件AntConc的同系列軟件，作者是日本早稻田大學(xué)的Laurence Anthony教授。軟件繼承了作者一貫簡潔明快的風(fēng)格，界面十分友好，主要有建庫和檢索兩個功能。檢索結(jié)果界面分為上下兩部分，第一部分呈現(xiàn)目標(biāo)語料庫檢索結(jié)果，第二部分呈現(xiàn)參照語料庫檢索結(jié)果，可以保存檢索結(jié)果，不提供索引行的來源文件，不支持正則表達(dá)式檢索。該軟件也需要對漢語語料進(jìn)行提前分詞。另外值得注意的是，軟件存放的路徑不能有漢字，否則無法運(yùn)行。

CUC_Paraconc由中國傳媒大學(xué)程南昌博士開發(fā)，可進(jìn)行雙語和多語平行語料庫檢索，支持任意編碼的純文本語料。軟件界面語言可自主設(shè)定，可對檢索結(jié)果進(jìn)行排序。軟件設(shè)計十分人性化，可自動識別雙語保存在單文件中的對齊形式，支持字母語言正則表達(dá)式檢索，漢語不用分詞。每次檢索軟件都會對平行語料空行進(jìn)行彈窗提醒，作者本意應(yīng)該是提醒語料可能沒有對齊，但在實(shí)際對齊中很多句子可能會沒有譯文，這時提醒就會給使用者帶來不必要的麻煩。軟件在處理大規(guī)模語料時可能會崩潰，檢索結(jié)果不提供索引行的來源文件。

BFSU ParaConc由北京外國語大學(xué)許家金教授、梁茂成教授和賈云龍共同設(shè)計開發(fā)。漢語文本無需提前分詞，支持正則表達(dá)式檢索，支持英文詞形還原檢索。檢索結(jié)果呈現(xiàn)索引行來源文本，支持包含或不包含檢索，但僅支持ANSI編碼文本。

將平行語料庫檢索軟件最常用的功能按照各軟件支持與否進(jìn)行整理如表1所示。

從表1可以看出，國外的檢索軟件并不適合我國國情，比如漢語需要提前分詞，AntPConc甚至不能在包含漢語的路徑下正常工作，兩款軟件都不呈現(xiàn)索引行的所在文本。國內(nèi)兩款軟件進(jìn)行了大膽改進(jìn)，都支持漢語不分詞檢索，支持正則表達(dá)式。這兩款軟件各有特色，如CUC_Paraconc 支持任意編碼的文本文件，BFSU支持不包含檢索，支持英文詞形還原檢索，并且是唯一呈現(xiàn)索引行文件的一款軟件。4款軟件都是非常優(yōu)秀的軟件，但也有各自的不足。因此，筆者借鑒其優(yōu)勢，根據(jù)翻譯研究中的實(shí)踐經(jīng)驗(yàn)設(shè)計并開發(fā)了一款新的平行語料庫檢索軟件SDAU-ParaConc。

2 SDAU-ParaConc設(shè)計

SDAU-ParaConc以山東農(nóng)業(yè)大學(xué)英文縮寫（SDAU）加平行語料庫檢索工具（ParaConc）命名（下載地址http：//corpus.bfsu.edu.cn/tools），基于Aardio與 Javascript開發(fā)，在Windows操作系統(tǒng)運(yùn)行。其核心設(shè)計理念是簡潔易用。軟件是免費(fèi)軟件，界面只有3個選項卡，創(chuàng)建語料庫選項卡包含檢索前語料的導(dǎo)入和語料數(shù)據(jù)文件的選擇功能，檢索語料庫選項卡包含檢索條件指定、結(jié)果呈現(xiàn)與保存功能，幫助選項卡有作者信息及幫助文檔。

軟件摒棄了ParaConc下拉菜單式的檢索條件指定方式，在同一界面提供檢索條件和結(jié)果呈現(xiàn)，方便迅速改變檢索條件查詢。

界面雖然簡潔，但軟件沒有犧牲核心功能，如英文檢索詞提供了大小寫敏感、正則表達(dá)式支持和英文詞形還原檢索功能，這些研究中最常用到的功能較完備，至于詞頻統(tǒng)計等功能完全可以結(jié)合AntConc，WordSmithTools等單語語料庫檢索軟件實(shí)現(xiàn)。

下面從創(chuàng)建語料庫和檢索語料庫兩個方面介紹SDAU-ParaConc的特點(diǎn)。

2.1 語料庫功能創(chuàng)建

2.1.1 智能識別文件命名

文本文件的平行語料庫如果是雙文件對齊的，也就是說兩種語言分別存儲在兩個文本文件中，兩個文件首先要進(jìn)行匹配，否則無法進(jìn)行雙語對齊。國外兩款軟件的設(shè)計思路是兩種語言的文件放在不同的文件夾中，按照文件排列順序匹配。國內(nèi)兩款軟件的設(shè)計思路是將兩種文件放在同一個文件夾下，通過在文件名中添加前綴或后綴的方式進(jìn)行匹配。CUC_Paraconc支持前綴命名，并且支持自定義前綴，如漢語文本命名為ch-abc.txt，其對應(yīng)的英語文本命名為en-abc.txt。BFSU ParaConc支持特定后綴，中文文件名為*.ZH.txt，對應(yīng)英文文件名為*.EN.txt。

通過借鑒兩款優(yōu)秀國產(chǎn)軟件優(yōu)點(diǎn)，SDAU-ParaConc支持更加靈活的文件命名方式，可以用前綴也可以用后綴，前綴后綴均可自定義。只要符合命名規(guī)則，軟件將智能匹配兩種語言的文本，方便語言研究者根據(jù)自己的需求對文件命名，減少不必要的重復(fù)勞動。

2.1.2 支持任意編碼文本文件

平行語料庫涉及至少兩種語言[17]，文件的存儲形式可以分為兩種情況：①兩種語言存儲在同一個文件內(nèi)，按照一行A語言一行B語言進(jìn)行對齊;②兩種語言分別存儲在兩個文件內(nèi)，兩種語言按照行號對齊。文本文件的存儲編碼標(biāo)準(zhǔn)分為ANSI及Unicode。簡單來說ANSI標(biāo)準(zhǔn)的文件節(jié)省存儲空間，但有可能造成非英語文字的亂碼情況，比如新建一個文本文件會默認(rèn)保存為ANSI編碼，輸入“聯(lián)通”兩字保存后再打開就會出現(xiàn)亂碼。Unicode標(biāo)準(zhǔn)根據(jù)不同編碼方案又有一些變體，如UTF-8、UTF-16等[18]。其中最通用的是UTF-8編碼方案，它保證了字符的準(zhǔn)確存儲，兼容ANSI標(biāo)準(zhǔn)，又根據(jù)不同字符變長，節(jié)省了空間。

在翻譯實(shí)踐中經(jīng)常會遇到一些特殊字符，如希臘字母、數(shù)學(xué)符號、音標(biāo)字符等，用ANSI格式存儲會有亂碼情況，破壞語料的準(zhǔn)確性。

綜上，SDAU-ParaConc設(shè)計為支持所有編碼標(biāo)準(zhǔn)，比如英文文本可以用ANSI格式存儲，節(jié)省空間;漢語文本用UTF-8存儲，保證準(zhǔn)確性。只要文本文件可以正常顯示，軟件均可正常識別，這樣既提高了軟件的靈活性，又兼顧了存儲空間的經(jīng)濟(jì)性。

2.1.3 支持TMX記憶庫文件直接導(dǎo)入

TMX是Translation Memory eXchange的縮寫[19]，是翻譯記憶庫交換格式。各大翻譯輔助軟件如Trados、MemoQ、Déjà Vu、Google Translate、雪人CAT等均支持TMX格式的記憶庫。

所謂翻譯記憶庫，本質(zhì)上就是一一對齊的雙語句子，導(dǎo)入翻譯輔助軟件后，軟件會將新的翻譯任務(wù)與記憶庫中的句子進(jìn)行匹配，如果發(fā)現(xiàn)記憶庫中有過同樣或類似的句子，就會將翻譯結(jié)果自動呈現(xiàn)出來，給譯者帶來極大方便，免去了很多重復(fù)勞動。對齊工具對齊后的文本也常用TMX格式保存。具有這種特性的TMX文件其實(shí)就是天然的對齊平行語料，對于建設(shè)平行語料庫非常方便。

本文首創(chuàng)語料庫檢索軟件支持TMX格式，無需將TMX格式轉(zhuǎn)換為純文本格式，直接將TMX格式文件導(dǎo)入軟件即可進(jìn)行檢索分析，這對于翻譯工作無疑是一項十分實(shí)用的功能。TMX記憶庫現(xiàn)有多家平臺進(jìn)行共享和銷售，研究者可直接購買TMX記憶庫進(jìn)行平行語料庫的建庫工作。

通過對比4款語料庫創(chuàng)建過程，結(jié)果表明SDAU-ParaConc比其它4款軟件平均簡化了60%的操作步驟。

2.2 語料庫檢索功能特點(diǎn)

2.2.1 SQLite數(shù)據(jù)庫檢索

為了提高檢索速度，將平行語料庫導(dǎo)入SQLite數(shù)據(jù)庫進(jìn)行檢索，檢索效率明顯提升。對一個3萬句對的平行語料庫進(jìn)行檢索對比測試，結(jié)果表明SDAU-ParaConc的檢索效率平均提升了9.4%，且在進(jìn)行大量文本文件檢索時也不會崩潰。語料庫的容量越來越大，適應(yīng)了大數(shù)據(jù)時代的平行語料檢索需求。

另外，SQLite數(shù)據(jù)庫文件除了SDAU-ParaConc.db外可以以任何文件名保存?zhèn)溆?，后續(xù)檢索無需再次生成語料數(shù)據(jù)庫，只需選擇SQLite數(shù)據(jù)庫文件導(dǎo)入即可，節(jié)省了語料導(dǎo)入分析時間。

2.2.2 支持中文不分詞檢索

英文等字母語言是依靠空格識別單詞的邊界，國外軟件設(shè)計時都采用了空格作為詞的邊界，這樣分詞可以方便進(jìn)行詞頻統(tǒng)計等分析[17]，國外軟件也因此無法對不分詞的漢語連續(xù)文本進(jìn)行檢索分析[20]。但即使是現(xiàn)在最優(yōu)秀的中文分詞引擎也不能做到百分百的分詞準(zhǔn)確率[21]，并且分詞標(biāo)準(zhǔn)不同也會造成結(jié)果不同，如把“北京大學(xué)”是看成一個詞還是“北京”和“大學(xué)”兩個詞？如果上述例子被分成了兩個詞，那么檢索“北京大學(xué)”就無法得到正確結(jié)果。當(dāng)然不分詞也可能造成將不是詞的連續(xù)文本識別為詞的結(jié)果，如檢索“中國”會將“發(fā)展中國家”也呈現(xiàn)出來。

為解決這一矛盾，設(shè)計的軟件檢索條件既要支持分詞的漢語文本也要支持不分詞的漢語文本，使用者可根據(jù)需要導(dǎo)入任何漢語文本。

2.2.3 自動定位檢索結(jié)果句所在文件

4款軟件僅BFSU ParaConc會在檢索結(jié)果句后呈現(xiàn)文件名，其它3款只呈現(xiàn)索引行，使用者無法獲知索引行出自哪個文件，但這一信息非常重要。在需要查看上下文時，如果文件數(shù)量很多，查找該句的出處就會很困難，需要點(diǎn)開文件夾反復(fù)查找。

SDAU-ParaConc不僅很清晰地呈現(xiàn)出索引行所在文件名，并且實(shí)現(xiàn)了點(diǎn)擊文件名（File）即可打開句子所在文件的功能，如圖1所示。

在翻譯研究及教學(xué)過程中，如果單個句子無法給出確定信息需要進(jìn)行上下文查閱，或是發(fā)現(xiàn)翻譯錯誤需要修改原文時，這一功能會帶來極大便利。

2.2.4 支持檢索結(jié)果保存

現(xiàn)有軟件對檢索結(jié)果大多以純文本格式保存，而該軟件不僅提供純文本格式保存，還提供HTML格式保存。HTML文件可以用任何瀏覽器打開查看，與在軟件中查看效果一樣，檢索關(guān)鍵詞時高亮顯示。文件名以檢索條件命名，可以避免同一條件的反復(fù)檢索，也方便進(jìn)行結(jié)果對比。

3 結(jié)語

SDAU-ParaConc開發(fā)并非重復(fù)勞動，而是在吸收前人優(yōu)秀設(shè)計理念、摒棄不合理的繁瑣功能，結(jié)合我國語言研究者使用實(shí)際設(shè)計開發(fā)的一款方便實(shí)用的平行語料庫檢索軟件。該軟件更加貼近一線研究者需求，簡化重復(fù)性勞動，提升研究效率。我國語言研究者眾多，但語言研究工具總體相對匱乏，SDAU-ParaConc的發(fā)布為語言研究者科研及教學(xué)帶來了方便。

參考文獻(xiàn)：

[1] CORTES V. Corpus tools for writing teachers[J]. The TESOL Encyclopedia of English Language Teaching， 2018（1）： 1-6.

[2] BREZINA V. Statistics in corpus linguistics： a practical guide[M]. Cambridge： Cambridge University Press， 2018.

[3] 何安平. 語料庫輔助英語教學(xué)入門[M]. 北京：外語教學(xué)與研究出版社， 2010.

[4] 王克非. 語料庫翻譯學(xué)探索[M]. 上海：上海交通大學(xué)出版社，2012.

[5] 王克非. 雙語對應(yīng)語料庫：研制與應(yīng)用[M]. 北京：外語教學(xué)與研究出版社， 2004.

[6] 王若楓. 基于平行語料庫的計算機(jī)輔助翻譯軟件在翻譯教學(xué)中的應(yīng)用[D].哈爾濱：黑龍江大學(xué)，2015.

[7] 司莉，何依.2000年以來我國多語言語料庫研究進(jìn)展[J].現(xiàn)代情報，2016，36（6）：165-170.

[8] TIEDEMANN J. Parallel data， tools and interfaces in OPUS[C]. LREC，2012： 2214-2218.

[9] REYNOLDS B L. Action research： applying a bilingual parallel corpus collocational concordancer to Taiwanese medical school EFL academic writing[J]. RELC ?Journal， 2016， 47（2）： 213-227.

[10] CHUJO K， KOBAYASHI Y， MIZUMOTO A， et al. Exploring the effectiveness of combined web-based corpus tools for beginner EFL DDL[J]. Linguistics and Literature Studies， 2016，4（4）：262-274.

[11] HMIDA F，MORIN E，DAILLE B， et al. A bilingual KRC concordancer for assisted translation revision based on specialized comparable corpora[C]. Terminology and Knowledge Engineering Conference，2016.

[12] BARLOW M. Paraconc： concordance software for multilingual parallel corpora[C]. Proceedings of the Third International Conference on Language Resources and Evaluation，Workshop on Language Resources in Translation Work and Research，2002： 20-24.

[13] ANTHONY ?L. Antpconc （Version 1.1.0） [D]. Tokyo： Waseda University，2014.

[14] 程南昌. CUC_Paraconc[D].北京：中國傳媒大學(xué)，2013.

[15] XU J J，LIANG M C，JIA Y L. BFSU Paraconc 1.2[D]. Beijing： Beijing Foreign Studies University，2012.

[16] MOROPA K. Analysing the English-Xphosa parallel corpus of technical texts with Paraconc： a case study of term formation processes[J]. Southern African Linguistics and Applied Language Studies， 2007，25（2）：183-205.

[17] 胡開寶. 語料庫翻譯學(xué)概論[M]. 上海：上海交通大學(xué)出版社，2013.

[18] UNICODE CONSORTIUM. The unicode standard， version 2.0[M]. Redwood City： Addison-Wesley Longman Publishing Co. Inc. 1997.

[19] WIKIPEDIA. Translation memory exchange[EB/OL]. https：//en.wikipedia.org/wiki/Translation_Memory_eXchange.

[20] 胡開寶，鄒頌兵. 莎士比亞戲劇英漢平行語料庫的創(chuàng)建與應(yīng)用[J]. 外語研究，2009（5）： 64-71.

[21] 王建新. 計算機(jī)語料庫的建設(shè)與應(yīng)用[M].北京：清華大學(xué)出版社， 2005.

（責(zé)任編輯：杜能鋼）

軟件導(dǎo)刊2019年9期

軟件導(dǎo)刊的其它文章: 基于OBE理念的《數(shù)據(jù)庫技術(shù)與應(yīng)用》課程教學(xué)改革探索; 基于自編碼網(wǎng)絡(luò)模型的風(fēng)機(jī)故障檢測研究; 智能課堂助手：人工智能背景下的教學(xué)工具; 體感技術(shù)與教學(xué)深度融合：重塑學(xué)習(xí)體驗(yàn); 基于非銳化掩模與Beta變換的圖像增強(qiáng)研究; 一種小波域K-Means遙感圖像分類標(biāo)注算法