摘要:論文描述了可比語料庫的基本構(gòu)建方法,包括使用已有語料庫、網(wǎng)絡(luò)資源和復(fù)合方法的三種類型。隨后對單語種可比語料和多語種可比語料的可比度計算問題進(jìn)行了闡釋和分析。結(jié)果認(rèn)為,可比語料庫的構(gòu)建需要根據(jù)具體的應(yīng)用場景和需求進(jìn)行設(shè)計實施,根據(jù)不同應(yīng)用場景可比語料的可比度需作具體描述和相應(yīng)規(guī)定,并設(shè)定合理的度量指標(biāo)。
關(guān)鍵詞:可比語料庫;可比度
中圖分類號:G434? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)23-0224-04
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
1 引言
隨著可比語料庫研究和應(yīng)用的不斷深入,構(gòu)建大規(guī)??杀日Z料庫逐漸成為學(xué)科發(fā)展和語言信息處理的主要趨勢和迫切需要,很多學(xué)者都嘗試從不同的角度、采用不同的方法構(gòu)建可比語料庫。就當(dāng)前的研究現(xiàn)狀來看,構(gòu)建可比較語料庫的核心問題是如何獲取可比語料,如何建立語料間的映射關(guān)系以及如何衡量語料間的可比度。下面根據(jù)當(dāng)前可比語料庫構(gòu)建研究的相關(guān)成果,可比語料庫的構(gòu)建方法可以分為三類,即使用已有語料庫、網(wǎng)絡(luò)資源和混合數(shù)據(jù)的三種類型,下面依次就這些方法作研究討論。
2 使用已有語料庫的構(gòu)建方法
現(xiàn)有語料庫是可比語料的重要來源,基于現(xiàn)存語料庫的構(gòu)建方法主要是按照一定的比例、人工或手工抽取現(xiàn)存語料庫中的數(shù)據(jù)后組合匹配,在這方面諸多學(xué)者都做了有益的嘗試。Ismail等(2009)將歐洲平行語料庫中的英文—西班牙文互譯語料按時間劃分成兩部分,分別取不同時間段、非互譯的西班牙文和英文文本搭建可比較語料庫;Garera等(2009)也利用歐洲平行語料庫構(gòu)建英文—西班牙文可比語料庫,包括西班牙語語料庫部分包含10萬條句子,共計213萬詞次,英語部分同樣為10萬條句子,207萬詞次;Haghighi等(2008)利用新華社新聞平行語料庫構(gòu)建可比語料庫,具體來說選擇該平行語料庫中的前5萬句英文和后5萬句中文搭建可比語料庫;Rapp(1999)利用法蘭克福匯報中的德語新聞和衛(wèi)報中的英語新聞構(gòu)造德英可比較語料庫,德語語料來源于1993年至1996年法蘭克福匯報(Frankfurter Allgemeine Zeitung)的德語新聞?wù)Z料庫,共計1.35億詞次,英語語料來源于1993年至1996年英國衛(wèi)報(the Guardian)的英語新聞?wù)Z料庫,共計1.63 億詞次;徐華(2012)把對外廣播信息服務(wù)語料庫中英文語料分別分成前后兩部分,使用不同部分的中文語料和英文語料的構(gòu)成可比語料庫。
利用現(xiàn)存語料庫構(gòu)建可比語料庫的方法特點是首先是語料來源統(tǒng)一,語料類型一致,語料可比的依據(jù)也相對明確;其次,語料來源一般選擇現(xiàn)存的平行語料庫,采用數(shù)據(jù)順序的調(diào)整與調(diào)換手段,將語料的平行關(guān)系轉(zhuǎn)換成可比關(guān)系。
3 基于網(wǎng)絡(luò)的構(gòu)建方法
基于網(wǎng)絡(luò)自動采集構(gòu)建可比語料庫是當(dāng)前領(lǐng)域發(fā)展的主要趨勢,語料數(shù)據(jù)的一般來源于搜索引擎、維基百科、新聞網(wǎng)站、特定領(lǐng)域網(wǎng)站等。根據(jù)語料來源的不同,采集手段和方法都會不同。
3.1基于新聞網(wǎng)站的可比語料庫構(gòu)建
新聞文本作為可比語料具有天然的優(yōu)勢,主要原因是:首先,新聞報道以發(fā)布時間為準(zhǔn),方便以時間為依據(jù)收集語料;其次,同一事件在不同新聞媒體網(wǎng)站產(chǎn)出的報道不同,且數(shù)量可觀;最后,同一事件雖然在不同媒體報道的方式不同,但內(nèi)容具有相似性,十分契合可比語料的要求。Gigaword可比語料庫(美國賓夕法尼亞大學(xué)語言數(shù)據(jù)聯(lián)盟)包括中文、英文、阿拉伯文等語言,其數(shù)據(jù)來源主要是相關(guān)新聞媒體的報道。早期新聞可比語料庫構(gòu)建的主要思路是直接選取不同新聞組織發(fā)布的新聞報道作為候選語料,構(gòu)建過程中可以限定新聞報道的數(shù)據(jù)特征(如時間)和描述內(nèi)容(如標(biāo)題),以保證在候選語料加工形成可比語料階段語料噪音在可控范圍,利用特征匹配和過濾技術(shù)生成對齊文檔,構(gòu)建可比語料庫,Sheridan、Brasehler等(1996;1998)均采用了上述做法;Talvensaari等(2007)利用跨語言信息檢索技術(shù)進(jìn)行新聞可比語料構(gòu)建,源語言文檔和目標(biāo)語言文檔分別為瑞典新聞文檔和洛杉磯時報新聞文檔;Gupta(2008)使用互聯(lián)網(wǎng)爬蟲工具收集開放網(wǎng)絡(luò)上的新聞報道,并以此為基礎(chǔ)構(gòu)建了可比語料庫;Vu等(2009)提出了一種基于特征的新聞可比語料庫構(gòu)建方法,具體來說是將源語言與目標(biāo)語言語料通過時間、標(biāo)題—內(nèi)容的兩次篩選后候選文檔對,提取文本標(biāo)題-內(nèi)容特征、語言無關(guān)特征和單語術(shù)語特征,融合計算文檔相似度,從而基于相似度建立可比語料對關(guān)系;于海濤(2009)從新聞網(wǎng)站獲取中英文語料,隨后使用跨語言信息檢索技術(shù)進(jìn)行雙語相似度計算并建立可比語料對齊;黃德根、李麗雙等(Huang DG,2010)使用基于最大墑模型的多詞短語抽取和基于多項特征過濾的技術(shù)進(jìn)行漢英新聞可比語料構(gòu)建;房璐(2011)將新華網(wǎng)、人民網(wǎng)等新聞網(wǎng)站作為種子地址,利用網(wǎng)絡(luò)爬蟲收集英漢文本,之后利用跨語言信息檢索技術(shù)實現(xiàn)文本之間的對齊;原偉等(2019)以語料來源相同、發(fā)布時間相近、主題內(nèi)容相似為依據(jù)自建小型俄漢新聞網(wǎng)絡(luò)評論可比語料庫用情感傾向性判定和表達(dá)手段對比。
3.2基于維基百科的可比語料庫構(gòu)建
維基百科是一個由志愿者編撰的免費網(wǎng)絡(luò)百科全書,不僅包括傳統(tǒng)百科條目,還包括地名、年鑒、時事等詞條,并且以多語種的形式展現(xiàn)。維基百科作為可比語料來源具有諸多優(yōu)勢,比如語料主題性強(qiáng)、規(guī)模大、格式規(guī)范、擴(kuò)充速度快、信息結(jié)構(gòu)完整、定期備份、免費公開、下載便捷等等。尤其是維基百科提供的多語言鏈接,使得獲取的多語言文本天然上就是對齊的,為抽取多語言可比語料提供了極大的便利。其相關(guān)研究有:Yu等(2009)采集了維基百科中相應(yīng)語言的全部資源,通過多語種鏈接對齊后搭建可比語料庫;Otero等人(2010)面向考古領(lǐng)域利用了維基百科中的類別信息,使用多語言鏈接建立了可比語料庫;Ion等人(2010)利用WordNet中的命名實體下載相應(yīng)的英文維基百科頁面,在通過多語言鏈接獲取德語、羅馬尼亞文語料構(gòu)建了可比語料庫;劉颯(2012)利用維基百科網(wǎng)址列表下載網(wǎng)頁并利用跨語言鏈接進(jìn)行文檔對齊,構(gòu)建基于維基百科的領(lǐng)域可比語料庫;胡弘思(2013)獲取了維基百科的中文及英文的數(shù)據(jù)庫備份,進(jìn)行了處理后,建立了本地維基語料數(shù)據(jù)庫,隨后統(tǒng)計了詞匯數(shù)據(jù)、構(gòu)建了命名實體詞典,通過維基百科本身的網(wǎng)頁對應(yīng)關(guān)系獲得了中英可比語料文本。
從上面的研究可以看出,基于維基百科的可比語料庫構(gòu)建,現(xiàn)存兩種挖掘可比語料的方法:第一種,首先構(gòu)建對象領(lǐng)域的詞表,隨后依據(jù)詞表維基百科中的單一語種頁面,最后多語言鏈接采集其他語種的頁面;第二種,首先從維基百科中下載不同語種的所有語料數(shù)據(jù),再使用相似度計算等技術(shù)實現(xiàn)語言間的可比語料對齊。
3.3基于領(lǐng)域網(wǎng)站的專業(yè)可比語料庫構(gòu)建
對于專業(yè)領(lǐng)域的可比語料庫構(gòu)建,當(dāng)前一般采取網(wǎng)絡(luò)獲取語料的方式,而高質(zhì)量的領(lǐng)域詞表是獲取專業(yè)領(lǐng)域可比語料的關(guān)鍵,具體來說,構(gòu)建過程主要分為兩個階段的任務(wù)。第一個階段是單語語料采集,即使用領(lǐng)域關(guān)鍵詞在專業(yè)網(wǎng)站或者搜索引擎中檢索結(jié)果,搜索結(jié)果下載保存后獲取單語言的文本集合。第二階段,通過跨語言詞表的對應(yīng)關(guān)系,實現(xiàn)文檔的映射對齊,通過相似度計算排序后生成可比語料。
Talvensaari等(2008)通過Google搜索引擎獲取多個語言的領(lǐng)域詞表,再使用網(wǎng)絡(luò)爬蟲技術(shù)采集可比語料建立語料庫;Leturia等(2009)采用了兩種關(guān)鍵詞抽取和查詢途徑收集領(lǐng)域可比語料;Fiser等(2011)在研究醫(yī)學(xué)領(lǐng)域可比語料庫構(gòu)建的過程中,采用了一種新的方法,即從醫(yī)療衛(wèi)生雜志中采集英語和斯洛文尼亞語文本作為原始語料,隨后利用網(wǎng)絡(luò)爬蟲采集大規(guī)模語料對原始語料動態(tài)擴(kuò)充。為了保證從網(wǎng)絡(luò)獲取的語料與原始語料有較高契合度,通過計算初始文本與網(wǎng)絡(luò)文本的相似度來設(shè)置閾值,將相似度高的語料作為初始語料,在保證語料質(zhì)量的基礎(chǔ)上實現(xiàn)了語料有效擴(kuò)充。
4 復(fù)合式構(gòu)建方法
除了基于已有語料庫和互聯(lián)網(wǎng)的構(gòu)建方法之外,近年來出現(xiàn)融合式的可比語料構(gòu)建方法。例如,Li等(2011)將語料庫構(gòu)建分解成了兩個階段——原始語料準(zhǔn)備和語料擴(kuò)展,主要原因是原始語料的規(guī)模和質(zhì)量存在限制,可以使用外部語料數(shù)據(jù)補(bǔ)充原始語料,通過語料相似度計算對后加入,對質(zhì)量能夠有效控制。該方法的優(yōu)勢在于可以在擴(kuò)展語料規(guī)模的同時確??杀日Z料的質(zhì)量;不足是需要準(zhǔn)備高質(zhì)量的原始語料資源。劉颯(2012)分別基于搜索引擎、維基百科和領(lǐng)域數(shù)據(jù)庫中的可比語料構(gòu)建語料庫,對三種方法進(jìn)行比較分析,在語料可比度度量方面,以詞為單元,通過基于統(tǒng)計序列相似度、基于詞頻序列相似度、基于術(shù)語序列相似度三種方法在平行語料、可比語料、非可比語料等進(jìn)行實驗。
基于假設(shè)“可比文本中對應(yīng)的互譯詞語的出現(xiàn)頻度是相關(guān)的”,Tao等(2005)設(shè)計了一種不依靠任何語言資源(如雙語詞典、句對等)來獲取雙語可比語料的方法。具體來說,計算文本中每個詞的詞頻分布情況,如果源語言詞與目標(biāo)語言詞的頻度分布越相似,兩篇語料描述同一內(nèi)容的概率越大。這種方法適用于多語種可比語料庫的構(gòu)建,原因是該方法是與具體語言無關(guān),可避免語言數(shù)據(jù)不同引起的局限,如雙語句對、詞典質(zhì)量及覆蓋率等。弱點在于構(gòu)建過程中計算量巨大,對大規(guī)模語料庫的構(gòu)建效率較低,而且由于完全依賴詞頻統(tǒng)計,難以確保語料的可比對齊質(zhì)量。
Oard等(1998)基于跨語言檢索的方法處理可比語料,核心思想是使用跨語言信息檢索技術(shù)檢索與某種語言文檔內(nèi)容相似的另一種語言文檔,雙語文檔的匹配方法為:非翻譯同源匹配(依據(jù)不同語言詞語書寫形式或語音相似性來判斷語料匹配)、提問式翻譯(依據(jù)源語言提出的問題自動翻譯成目標(biāo)語言查詢詞進(jìn)行單語檢索)、文獻(xiàn)翻譯(用目標(biāo)語言描述的文獻(xiàn)全部自動翻譯成用源語言描述后進(jìn)行檢索)和中間語言翻譯四種方式(把源語言與目標(biāo)語言都自動翻譯成中間語言進(jìn)行匹配)。趙蓮(2010)對上述方法進(jìn)行了改進(jìn),在具體操作中先抽取源語言文檔中的關(guān)鍵詞并成目標(biāo)語言,利用翻譯后的查詢語句在目標(biāo)語言文檔集合中進(jìn)行查找,形成源語言一目標(biāo)語言文檔對,經(jīng)過濾后添加到可比較語料庫中。
5 語料的可比度及其計算
雖然當(dāng)前學(xué)界對可比語料的可比度沒有明確統(tǒng)一的定義,但是不可否認(rèn)的是可比度是可比語料質(zhì)量和應(yīng)用場景評估的重要指標(biāo),通常語料可比度同相似度是息息相關(guān)的。如果一定要給一個界定,我們認(rèn)為語料的可比度可以理解成為對應(yīng)語料之間在文檔類型、形態(tài)特征、主題內(nèi)容等方面的相似程度。從這個角度來說,在多數(shù)情況下,語料的“可比”程度就是它們的“相似”程度(原偉易綿竹,2017)。
5.1單語種語料的可比度計算
早期的單語種語料相似度研究多從語料統(tǒng)計指標(biāo)入手,其核心是計算文本相似度,方法不盡相同。例如,Kilgarriff等(1998)選取能夠代表語料特點的詞語作為特征詞,基于特征詞頻率分布、特征詞語料之間的排序分布等對語料進(jìn)行相似度計算; Saralegi等(2008)采用領(lǐng)域特征、報道類型、文檔主題、發(fā)表日期等多維特征,估計新聞?wù)Z料的總體可比度;Leturia 等(2009)統(tǒng)計分析領(lǐng)域語料中關(guān)鍵詞來評價語料的可比度;Li 等(2010)基于語料中詞匯翻譯的期望值來計算可比度,并通過實驗證實了有效性。TTC項目研究從兩個維度衡量可比語料可比度,首先是高質(zhì)量互譯文本對特征詞的頻率分布相似度,其次衡量不同語種文本集中錨點相似或相異程度。
5.2 多語種語料的可比度計算
針對雙語或多語種的可比語料,可比度計算問題就直接涉及了跨語言文本的相似度計算問題。當(dāng)前,該領(lǐng)域研究是學(xué)科研究的熱點方向。Potthast等(2011)在研究中將跨語言相似度計算的方法分為四類:基于N元語法的方法、基于詞典的方法、基于可比語料的方法和基于平行語料的方法?;贜元語法的方法首先對多語言文檔進(jìn)行預(yù)處理,提取其特征,使用N元語法作為特征詞對文檔進(jìn)行標(biāo)引,隨后N元語法特征進(jìn)行翻譯(機(jī)器翻譯或同源匹配技術(shù)、平行語料或雙語詞典等),借此將多語言文檔映射到某一語言空間,以便使得多語言文檔使用一種語言的向量空間體現(xiàn),這樣跨語言的文檔相似度計算即轉(zhuǎn)化為一種語言向量空間中不同向量夾角的計算;基于詞典的方法借助雙語詞典源語言文本逐次翻譯轉(zhuǎn)化為目標(biāo)語言文本或反方向進(jìn)行,從而將多語言文本在同一種語言的向量空間中進(jìn)行表示并進(jìn)行向量夾角計算,得出跨語言文本相似度;基于可比語料的方法利用語義分析標(biāo)引多語言文檔,并利用可比語料中文檔之間的相似或?qū)R關(guān)系向統(tǒng)一語義空間的映射轉(zhuǎn)換,借此跨語言文檔相似度計算;基于平行語料的方法利用平行語料中句子或短語對齊關(guān)系,通過潛在語義分析、比較分析、典型相關(guān)分析等技術(shù)構(gòu)建多語言語義空間,使得跨語言文檔相似度計算在同一個語義空間中實現(xiàn)。
[12] Li B., Gaussier E., Aizawa A. Clustering Comparable Extraction [A].In Proceedings of the Computational Linguistics[C]. Portland: 49th Annual Corpora for Bilingual Lexicon Meeting of the Association for Oregon. 2011.
[13] Oard D.W., Diekema A.R. Cross-Language Information Retrieval[J]. Annual Review of Information Science and Technology, 1998(33).
[14] Otero P.G., L‘opez I.G.. Wikipedia as Multilingual Source of Comparable Corpora[A]. In Proceedings of the 3rd Workshop on Building and Using Comparable Corpora, LREC2010[C]. Malta, 2010.
[15] Potthast M, Barrón-Cede?o A, Stein B, et al. Cross-language plagiarism detection[J]. Language Resources and Evaluation, 2011, 45(1): 45-62.
[16] Rapp R. Automatic identification of word translations from unrelated English and German corpora [A]. In Proceedings of ACL 1999[C], 1999.
[17] Saralegi X, San Vicente I, Gurrutxaga A. Automatic extraction of bilingual terms from comparable corpora in a popular science domain[C]//Proceedings of Building and using Comparable Corpora workshop. 2008: 27-32.
[18] Sheridan P., Ballerini JP. Experiments in multilingual information retrieval using the SPIDER system[A]. In: Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval[C]. Zurich, Switzerland. 1996:58-65.
[19] Talvensaari T., Pirkola A., Jarvelin K., et al. Focused web crawling in the acquisition comparable corpora[J]. Information Retrieval. 2008 (5).
[20] Tao T., Zhai C.X. Mining Comparable Bilingual Text Corpora for Cross一Language Information Integration[A]. In Proeeedings of the 11th ACM SIGKDD international conference on Knowledge diseovery in data mining[C]. Chieago, USA, 2005.
[21] Vu V., Aw A.A., Zhang M.. Feature—based Method for Document Aligment in Comparable News Corpora [A]. Proeeedings of the 12th Conference of the European Chapter of the ACL[C]. Athens, Greece, 2009.
[22] Yu K., Tsujii J. Bilingual dictionary extraction from Wikipedia [A].In: Proceeding of MT Summit XII[C]. Ottawa, Canada, 2009.
[23] 房璐,葛運(yùn)東,洪宇,等. 可比較語料庫構(gòu)建及在跨語言信息檢索中的應(yīng)用[J]. 廣西師范大學(xué)學(xué)報(自然科學(xué)版),2010(3).
[24] 胡弘思. 基于維基百科的雙語可比語料的句子對齊[D]. 上海交通大學(xué),2013.
[25] 劉颯. 專業(yè)領(lǐng)域可比語料的構(gòu)建與評價研究[D]. 南京理工大學(xué),2012.
[26] 徐華. 基于可比較語料庫的中英文詞表構(gòu)建研究[D]. 蘇州大學(xué),2012.
[27] 于海濤. 可比較語料庫的研究與構(gòu)建[D]. 大連理工大學(xué),2009.
[28] 原偉,易綿竹.基于維基百科的俄漢可比語料庫構(gòu)建及可比度計算[J].山東大學(xué)學(xué)報(理學(xué)版),2017,52(09):1-6.
[29] 原偉,代勛勛,徐琳宏.基于俄漢新聞網(wǎng)評可比語料庫的情感分析研究[J].解放軍外國語學(xué)院學(xué)報,2019,42(02):99-106+160.
[30] 趙蓮. 大規(guī)模中英可比較語料庫構(gòu)建[D]. 大連理工大學(xué),2010.
【通聯(lián)編輯:王力】