面向電子商務(wù)平臺的藏漢跨語言信息檢索關(guān)鍵技術(shù)研究

2016-10-21 14:09:46朱琳戴玉剛李艾林郝大鵬

中文信息 2016年6期

朱琳戴玉剛李艾林郝大鵬

摘要：本文以電子商務(wù)為平臺，以藏語和漢語語言特點為基礎(chǔ)，以藏漢雙語可比語料為資源，分析當(dāng)前自然語言處理技術(shù)，把雙語詞典和主題空間模型相結(jié)合，搭建藏漢跨語言信息檢索總體框架。為下一步把多語言電子商務(wù)、跨語言檢索、民族自然語言處理技術(shù)進(jìn)行結(jié)合提供了新的思路和途徑。

關(guān)鍵詞：電子商務(wù) 跨語言檢索雙語詞典主題空間模型

中圖分類號：TP391.3 文獻(xiàn)標(biāo)識碼：A 文章編號：1003-9082（2016）06-0015-02

一、引言

跨語言信息檢索（Cross Language Information Retrieval，CLIR），就是當(dāng)用戶用一種語言輸入要檢索的信息時，檢索的信息也可以用另外一種語言進(jìn)行呈現(xiàn)。它是一種打破語言障礙，涉及語言學(xué)、計算機(jī)科學(xué)、數(shù)學(xué)等多門學(xué)科知識進(jìn)行檢索信息的技術(shù)[1]。

1973年，G..Salton先生發(fā)表的《Experiments in multilingual information retrieval》，是對這項技術(shù)的最早研究。當(dāng)時所研究的檢索主要是對國際聯(lián)機(jī)進(jìn)行的，另外加上檢索系統(tǒng)不普及等因素，并沒有引起人們的關(guān)注。90年代后期，隨著Internet的迅猛發(fā)展， Internet的全球化信息結(jié)構(gòu)引發(fā)了人們對跨語言信息檢索的迫切需要，此時這項檢索技術(shù)真正成為了研究熱點[2]?，F(xiàn)在，許多公司都把檢索技術(shù)應(yīng)用到電子商務(wù)中，比如京東，雅虎，阿里巴巴等，但把跨語言技術(shù)應(yīng)用到電商中卻寥寥無幾，這與民族自然語言的特點與難點有關(guān)，由于民族自然語言的特殊性，國外的一些自然語言處理技術(shù)研究成果也無法應(yīng)用到對國內(nèi)民族語言進(jìn)行處理。而針對藏漢跨語言檢索的研究成果更是甚少，所以把民族語言處理技術(shù)、跨語言檢索技術(shù)等應(yīng)用到面向電子商務(wù)中愈來愈重要。

二、搭建面向電子商務(wù)平臺的藏漢跨語言信息檢索總體框架

用戶輸入查詢語后，如何在查詢語和檢索語之間搭建有效的橋梁樞紐，就是跨語言信息檢索技術(shù)研究的最核心最關(guān)鍵的問題[3]。本文擬融合字典和語料庫兩種技術(shù)來實現(xiàn)跨語言信息檢索模型的研究，從而克服單種方法的不足。本文采用了一種基于翻譯的技術(shù)進(jìn)行CLTR，這種技術(shù)的一個顯著特點就是將翻譯過程和檢索過程分離，即：先借助于跨語言的語義資源或者機(jī)器翻譯系統(tǒng)將語言內(nèi)容翻譯成目標(biāo)語言表示的內(nèi)容，然后使用成熟的單語言信息檢索模型進(jìn)行檢索[4]。其分離的翻譯過程將導(dǎo)致目標(biāo)語言的語義空間與原始語義空間的語義偏離。為了解決語義偏離問題，本文引入雙語主題模型技術(shù)，將目標(biāo)語言的語義空間與原始語義空間的語義進(jìn)行相似性計算。

三、構(gòu)建藏漢可比語料庫

藏漢雙語平行資源嚴(yán)重不足或沒有是當(dāng)前所面臨的嚴(yán)峻問題，可比語料具有來源廣、涉及領(lǐng)域全面、內(nèi)容豐富、易獲取等特點。本文擬建立面向跨語言信息檢索的藏漢可比語料庫，同時也可以為藏漢機(jī)器翻譯、雙語詞對和術(shù)語抽取、構(gòu)建語義詞典等研究提供基礎(chǔ)資源。主要從兩個方面進(jìn)行開展：1）從國內(nèi)公開發(fā)布的雙語電商網(wǎng)站搜集藏漢農(nóng)產(chǎn)品雙語語料；2）首先從互聯(lián)網(wǎng)上搜集藏語農(nóng)產(chǎn)品語料，然后進(jìn)行聚類，識別出相應(yīng)的主題，然后根據(jù)主題詞，人工翻譯成中文，據(jù)此采集相應(yīng)的中文農(nóng)產(chǎn)品語料。

本文主要從兩個方面進(jìn)行考慮：

（1）從支持藏漢雙語的網(wǎng)站上進(jìn)行采集

①搜集網(wǎng)頁：確定藏漢雙語主題相同的候選網(wǎng)站的平行網(wǎng)頁，設(shè)計網(wǎng)頁爬蟲程序自動從這些網(wǎng)站盡可能提取藏漢雙語主題平行的網(wǎng)頁；

②提取網(wǎng)頁內(nèi)容：分析各網(wǎng)站的網(wǎng)頁結(jié)構(gòu)，并過濾非文本內(nèi)容，主要提取網(wǎng)頁的 Title、Body 和Time等內(nèi)容，進(jìn)行格式轉(zhuǎn)換，添加標(biāo)記，最后生成 XML 文件。

③XML 文件預(yù)處理：XML 文件進(jìn)行初步的預(yù)處理，包括去除僅有單語言的文件、網(wǎng)頁去重、非法字符過濾等。然后進(jìn)行一些必要的人工檢查和初的統(tǒng)計。如，刪除每個文件中的圖片標(biāo)題、錨文本等不相關(guān)的文本內(nèi)容；

④文檔對齊：對預(yù)處理后的 XML 文件進(jìn)行文檔自動對齊，對結(jié)果進(jìn)行人工檢查和校對。

⑤文檔類別標(biāo)注：目的是為了后續(xù)進(jìn)行跨語言分類分類和聚類的研究，從而建立跨語言文本分類語料庫，先對部分藏漢雙語文檔使用 K-Means 算法聚類分析，確定文檔的類別。使用 SVM 分類模型訓(xùn)練已標(biāo)注類別的文檔，然后對未標(biāo)注的文檔進(jìn)行類別標(biāo)注。根據(jù)文檔內(nèi)容進(jìn)行人工類別標(biāo)注進(jìn)行校對和調(diào)整。

（2）先從互聯(lián)網(wǎng)上的藏文網(wǎng)站采集有關(guān)藏文農(nóng)產(chǎn)品新聞?wù)Z料，然后對藏文新聞?wù)Z料進(jìn)行聚類分類，再找出類別主題詞，將聚類出的所有類別的主題詞翻譯成中文，根據(jù)中文主題詞搜索采集與之對應(yīng)主題的中文可比語料。具體的可比語料存儲舉例如下所示：

1.雙語相似性主題詞抽取和共現(xiàn)主題詞統(tǒng)計

本文針對文檔主題對偶空間的表示和構(gòu)建進(jìn)行重點研究：綜合考慮雙語可比語料庫的語義特性，即通過提取雙語主題對構(gòu)造主題對偶空間，由此構(gòu)建詞的語義關(guān)系和文檔的語義關(guān)系。在信息檢索中，一個主題（或者概念）可以理解為描述該主題的關(guān)鍵詞項集合。本質(zhì)上，除關(guān)鍵詞項外的其余詞與主題存在一定的相關(guān)性，在建模時賦予關(guān)鍵詞更大的權(quán)重，而其余詞賦予更小的權(quán)重。假如只考慮線性空間的方式，一個主題則表示為所有詞項表的線性組合。

本文通過實驗需設(shè)置一個閾值，并從雙語主題中分別找出權(quán)重大于的詞項（主題詞），并根據(jù)這些主題詞在文中的位置、上下文關(guān)系進(jìn)行篩選，然后構(gòu)建雙語主題相關(guān)的主題詞對應(yīng)關(guān)系，本文稱之為相似性主題詞。根據(jù)抽取出的雙語主題詞，將其返回到與之對應(yīng)的篇章結(jié)構(gòu)當(dāng)中，找出主題詞所在句子中的上下文中的相關(guān)詞，構(gòu)建共現(xiàn)詞網(wǎng)絡(luò)。

2.基于藏漢雙語電子詞典的跨語言檢索技術(shù)研究

本文采用基于詞典的查詢翻譯策略，把藏漢雙語電子詞典與雙語相似性主題詞對進(jìn)行結(jié)合。對于每個源語查詢項，可以用電子詞典中自動抽取的一種或多種目標(biāo)語翻譯進(jìn)行替換[6]，獲取相應(yīng)的正確目標(biāo)語翻譯知識，這樣就在源語詞典以及目標(biāo)語詞典之間建立起鏈接，對譯詞在目標(biāo)語生成過程中就能獲取。另外，為了提高搜索的召回率，在查詢處理策略方面，根據(jù)現(xiàn)代同義詞電子詞典查詢的擴(kuò)展，再通過詞共現(xiàn)網(wǎng)絡(luò)進(jìn)行消歧。

結(jié)語

中國是擁有56個民族語言的大國，把民族自然語言加入到現(xiàn)代科技信息技術(shù)中，促進(jìn)了語言應(yīng)用領(lǐng)域的拓展和原有應(yīng)用領(lǐng)域的發(fā)展。本文通過分析研究自然語言處理的相關(guān)知識和技術(shù)，構(gòu)建了面向電子商務(wù)平臺的藏漢跨語言信息檢索框架。本文研究工作還有很多不足之處，但為多種民族語言信息處理技術(shù)應(yīng)用到其他領(lǐng)域提供了很好的實例和基礎(chǔ)，進(jìn)而打破語言障礙，增進(jìn)各民族交流，加快社會經(jīng)濟(jì)發(fā)展和民族文化的進(jìn)步。

參考文獻(xiàn)

[1]王曉偉.基于機(jī)器翻譯的查詢結(jié)果Rerank技術(shù)[D].內(nèi)蒙古大學(xué)，2011.

[2]郭宇鋒.跨語言信息檢索在機(jī)器人信息數(shù)據(jù)庫中的應(yīng)用研究[D].上海交通大學(xué)，2006.

[3]鞏文婧.基于語言模型的跨漢蒙信息檢索技術(shù)研究[D].內(nèi)蒙古大學(xué)，2012.

[4]朱培焱，夏棟梁.漢英跨語言信息檢索研究[J].計算機(jī)與現(xiàn)代化，2011，08：13-16.

[5]趙耀紅.基于向量空間模型的信息檢索系統(tǒng)的研究與實現(xiàn)[J].長春大學(xué)學(xué)報（自然科學(xué)版），2009，08：25-27.

[6]楊輝，張玥杰，張濤.基于詞典的英漢雙向跨語言檢索方法[J].計算機(jī)工程，2009，16：273-277.

作者簡介：朱琳（1990.9-），山東菏澤人，女，碩士研究生，研究方向為智能信息服務(wù)系統(tǒng)。