彭 杰
英漢口譯語料庫潛在語義分析數(shù)據(jù)的挖掘探討
彭 杰
當(dāng)今社會,人們在對英漢口譯語料庫的挖掘時(shí),要在對潛在的語義分析這一理論進(jìn)行深入的研究與探討,了解其中的真正含義,并結(jié)合我國英漢口譯語料庫的特點(diǎn),提出基于英漢口譯語料庫的特點(diǎn)探索出最為合理的度量方法。筆者將根據(jù)以往的經(jīng)驗(yàn),對如何在我國潛在的語義分析這一大環(huán)境下對英漢口語料庫進(jìn)行挖掘研究與探討。
語料庫 知識挖掘 語義分析 英漢口譯 潛在的
對口譯最早開始研究是在1998年,由日本的名古屋大學(xué)開始著手的,在經(jīng)過了由1999年至2003年這四年的研究當(dāng)中,名古屋的研究學(xué)者研究開發(fā)出了包含有英語和日語的語料庫,關(guān)于這一研究的結(jié)論,研究者撰寫出了一本近100萬字的關(guān)于同聲傳譯語料庫的書籍。之久在2004年意大利的博洛尼亞大學(xué)對這一書籍進(jìn)行了完善與總結(jié),研發(fā)出了一本叫做“歐洲議會口譯語料庫”,這是一個(gè)包含英語,西班牙語和意大利語的語料庫,這一語料庫是多語的平行同聲傳譯的語料庫。以上兩個(gè)語料庫是全世界最具有代表性的兩個(gè)大型語料庫,在這兩個(gè)語料庫的基礎(chǔ)上,世界各個(gè)國家都開始對自己國家的語言進(jìn)行研究,得出了一些基于本土文化內(nèi)涵的口譯語料庫。
我國開始對口譯語料庫的重視是在2007年,可以說,從世界當(dāng)中的口譯語料庫的發(fā)展情況來看,我國的語料庫研究起步較晚,研究成果不是很全面。但目前依據(jù)我國的語料庫研究成果來看,我國共有兩個(gè)口譯語料庫,一個(gè)是在2008年由我國文秋芳教授建立的,名為中國大學(xué)生英漢漢英口筆語料庫,這是我國第一個(gè)學(xué)習(xí)者口譯語料庫,但這一語料庫缺少充足全面的備注,而且對于我國文字的研究比較不全面。第二個(gè)是在2010年,由上海交通大學(xué)的胡開寶教授主導(dǎo)研究的,研究出的語料庫為“漢英會議口譯語料庫”,這一語料庫是基于我國的新聞發(fā)布會的漢英平行語料庫,新聞發(fā)布會的英語原創(chuàng)語料庫和我國政府的工作報(bào)告的漢英平行語料庫。經(jīng)過多年的積累,我國這一語料庫已經(jīng)積累了54萬字,這比我國最初的19萬字,是一個(gè)巨大的飛躍。
目前,雖然我國的口譯語料庫發(fā)展不是很完善,對其進(jìn)行研究的研究人員也不足,但基于我國漢語的博大精深,我國的口譯語料庫的發(fā)展前途還是很有發(fā)展前途的。我國要是想對現(xiàn)有的口譯語料庫進(jìn)行完善與發(fā)展,就要基于我國原有的研究成果,從我國的實(shí)際出發(fā),來完善我國的口譯語料庫,培養(yǎng)可以完善我國口譯語料庫的研究人員。
利用“口譯語料庫”對我國的發(fā)展情況可以緩解口譯發(fā)展緩慢的學(xué)術(shù)壓力,使國家節(jié)約對完善我國口譯語料庫的投入成本,避免一些不必要的經(jīng)濟(jì)費(fèi)用浪費(fèi),例如那些購買服務(wù)器,購買版權(quán),購買數(shù)據(jù)和培養(yǎng)研究人員的費(fèi)用都得到了節(jié)約。而且合理利用“口譯語料庫”可以及時(shí)獲得最新的信息服務(wù)信息和業(yè)務(wù)運(yùn)行法案,解決我國的口譯發(fā)展進(jìn)程問題。
傳統(tǒng)的完善口譯語料庫需要培養(yǎng)一些關(guān)于口譯研究的人員和完善我國已有的口譯語料庫系統(tǒng),其中培養(yǎng)研究人員的費(fèi)用就非常的昂貴,國家需要投入大量的人力,物力,財(cái)力來培養(yǎng)這一研究水平極高的研究人員。而“口譯語料庫”的利用可以在提高我國的口譯水平的基礎(chǔ)上,是我國可以充分發(fā)揮自身的戰(zhàn)略措施,最大限度地降低國家的研究投入費(fèi)用,減少政府開支,提高政府的所得研究利潤。
“口譯語料庫”在國家中的利用可以促進(jìn)我英漢口譯的專業(yè)化管理和規(guī)?;瘮U(kuò)大。我國國家對“口譯語料庫”進(jìn)行合理利用可以促進(jìn)我國對新的語義分析的接受程度,滿足國家對英漢口譯語料庫的需求,降低研究人員對于“口譯語料庫”研究的風(fēng)險(xiǎn)與門檻,使企業(yè)的英漢口譯語料庫的建設(shè)不斷完善,提高研究人員的研究效率。
國家對“口譯語料庫”這一最具有專業(yè)技術(shù)的學(xué)術(shù)項(xiàng)目進(jìn)行合理的研究,意味著國家的英漢口譯語料庫的研究得到了進(jìn)一步的專業(yè)化?!翱谧g語料庫”是一個(gè)集中了全國的人力和精力的最有水準(zhǔn)的研究項(xiàng)目。它可以深化國家的語言研究規(guī)模,完善國家的人員培養(yǎng)制度,使國家的口譯語料庫管理更加合理,使國家的語義分析更新速度順應(yīng)時(shí)代的需求。關(guān)注“口譯語料庫”在我國語義分析中應(yīng)用的重要性
如今,社會主義市場經(jīng)濟(jì)不斷地發(fā)展,物質(zhì)生活豐富的同時(shí)人們更加注重傳統(tǒng)文化的傳承。對傳統(tǒng)文化進(jìn)行傳承使英漢口譯語料庫必須進(jìn)行合理的應(yīng)用。針對這種情況。要明確口譯語料庫在漢英潛在語義中發(fā)揮的重要性進(jìn)行分析,重視口譯語料庫建設(shè)。能夠充分地發(fā)揮口譯語料庫的作用。隨著人們對語言研究不斷地深入,我國具有高素質(zhì)的居民人口數(shù)量增多,這就導(dǎo)致了國家對英漢口譯語料庫的完善,而“口譯語料庫”中詞匯的需求數(shù)量也大大增加,我國就業(yè)人口數(shù)量居高不下,而中小企業(yè)數(shù)量在不斷地增多,發(fā)展我國的傳統(tǒng)文化可以緩解我國的就業(yè)壓力,提高人民的生活水平。而如何提高我國“口譯語料庫”在的利用效果已經(jīng)非常重要了。目前,由于我國人口的學(xué)歷在不斷提高,這就使我國居民的綜合素質(zhì)的認(rèn)知水平得到了很大的提高,而從事研究的口譯語料庫的研究人員素質(zhì)水平有了很大水平的提高,國家也希望通過“口譯語料庫”這一方式,使我國的“口譯語料庫”發(fā)展更加完善。而“口譯語料庫”是英漢口譯語料庫管理中最為常見的一種,它在我國的需求量非常大,我國對如何提高“口譯語料庫”的應(yīng)用非常值得重視,而保障其有效的利用是對英漢口譯語料庫管理的手段。因此可以說我國加強(qiáng)對“口譯語料庫”的管理應(yīng)用是適應(yīng)社會發(fā)展與時(shí)代變遷的需要。
電子存儲文本在信息技術(shù)不斷發(fā)展的前提下應(yīng)用越來越廣泛,在推動人們信息傳播的同時(shí)也產(chǎn)生了大量的垃圾信息。在眾多文本中獲取到有用的信息成為存儲的重點(diǎn)建設(shè)項(xiàng)目。對于中文進(jìn)行深入性的研究可以通過文本分類器獲取到有用的信息。根據(jù)要求提取訓(xùn)練樣本,在相同特征基礎(chǔ)上構(gòu)建分類標(biāo)準(zhǔn),通過文本表現(xiàn)形式驗(yàn)證語料的性能。在統(tǒng)計(jì)基礎(chǔ)上進(jìn)行的傳統(tǒng)文本分類方式,主要依據(jù)的是詞頻,并沒有重視詞序或者詞義的重要性。語義信息能夠使加權(quán)階段的特征方式具有指導(dǎo)作用,并且在這基礎(chǔ)上對標(biāo)簽數(shù)據(jù)中的訓(xùn)練將會提升。
語義基礎(chǔ)上的文本分類方式與統(tǒng)計(jì)基礎(chǔ)上的分本分類方式相比,在形式上更加具有特征性,能夠深入性的挖掘內(nèi)在的含義。因?yàn)檫@一方法需要對整個(gè)語料庫的詞匯進(jìn)行確認(rèn),還要計(jì)算出語料庫中的詞語的出現(xiàn)頻率。通過這方法,研究人員可得出關(guān)于矩陣的稀疏成度。在語義基礎(chǔ)上的文本提取將會使文本特征更加的明顯,并且對加權(quán)步驟提出相應(yīng)的指導(dǎo)意見。《同義詞語林》在進(jìn)行文本特征分類的時(shí)候主要采用的就是在語義基礎(chǔ)上對文本進(jìn)行的處理。抑郁分析的英豪口譯語料庫中材料較少,需要配合《同義詞詞林》共同使用。在這之前還沒有系統(tǒng)的文本處理分類方式。完整的語義分析使對英漢口譯語料庫進(jìn)行深入性挖掘的重要形式,能夠提升《同義詞語林》的特性,并且消除多義詞,利用同義詞進(jìn)行轉(zhuǎn)換使用,自由的進(jìn)行詞組的搭配使用。對加權(quán)方式進(jìn)行特征改進(jìn),在傳統(tǒng)加權(quán)方式中沒有明確的指導(dǎo)作用,不能夠根據(jù)數(shù)據(jù)特性進(jìn)行詳細(xì)的分類。這樣就不能夠在根本上反應(yīng)類別之間的關(guān)系。利用加權(quán)方式進(jìn)行特征改善,強(qiáng)化指導(dǎo)作用。這種方式的創(chuàng)新能夠提升傳統(tǒng)加權(quán)方式的指導(dǎo)意義。并且充分的考慮整體詞語文本之間的關(guān)系。利用加權(quán)方式進(jìn)行特征指導(dǎo)是對文本與整體詞之間的綜合考慮。根據(jù)這種特點(diǎn)在經(jīng)過試驗(yàn)之后在《同義詞語林》中的應(yīng)用將會降低文本特征維度,使向量更加的明確,能夠在根本上提升文本分類精度。
英漢口譯語料庫中的英語部分從幾何學(xué)的角度可理解為是一種矩陣式結(jié)構(gòu),即“語料-詞匯”。矩陣中的每一個(gè)值都表示檢索詞匯在語料應(yīng)用中的出現(xiàn)頻率,這一頻率是個(gè)比較有規(guī)律的。而從語義空間當(dāng)中來提取的相似的語料詞匯,是一種對上下文語境進(jìn)行統(tǒng)計(jì)信息的綜合體現(xiàn),這一方法可以有效地計(jì)算出語料之間的語義相似度。其具體流程為以下幾點(diǎn):
(1)“語料-詞匯”這一M矩陣是通過對語料庫進(jìn)行獲取來得出的。當(dāng)我國的語料庫具有一定規(guī)模之后,這一挖掘方法會特別耗時(shí),因?yàn)檫@一方法需要對整個(gè)語料庫的詞匯進(jìn)行確認(rèn),還要計(jì)算出語料庫中的詞語的出現(xiàn)頻率。通過這方法,研究人員可得出關(guān)于矩陣的稀疏成度。
(2)對“語料-詞匯”這一M矩陣進(jìn)行奇異值分解這樣可以得出關(guān)于語料語義的利用的空間情況和詞匯語義的空間利用情況,通過對語料進(jìn)行降序排列,可以得出一些非零的奇異數(shù)值,通過得出這些數(shù)值,可以更加生動形象地了解到我國英漢口譯語料庫中語義詞匯的使用情況。
隨著我國的綜合國力的不斷提高,我國的經(jīng)濟(jì)發(fā)展水平和政治改革水平都在不斷地發(fā)展與完善。只有強(qiáng)化經(jīng)濟(jì)基礎(chǔ)才能夠促進(jìn)社會各個(gè)方面的發(fā)展,我國政治建設(shè)在經(jīng)濟(jì)不斷鞏固基礎(chǔ)上水平持續(xù)的提升,能夠?qū)⒏嗟年P(guān)注點(diǎn)放在民生問題上。中小企業(yè)的建設(shè)是我國民生問題的主要關(guān)注對象,如何提高我國的中小企業(yè)的發(fā)展水平,提高中小企業(yè)的競爭力,以解決我國居民的就業(yè)難問題,我國要從實(shí)際情況出發(fā),實(shí)事求是將“口譯語料庫”再中小企業(yè)中進(jìn)行合理的利用,把企業(yè)的會計(jì)信息化問題進(jìn)行合理的解決。
我國經(jīng)濟(jì)水平不斷地提升與人們的努力聯(lián)系密切,社會的持續(xù)進(jìn)步使人與人之間的交流逐步的擴(kuò)大。我國中小企業(yè)對“口譯語料庫”的需求量不斷增加,如何降低中小企業(yè)的財(cái)務(wù)成本,提高企業(yè)的經(jīng)濟(jì)收入,使中小企業(yè)的發(fā)展適應(yīng)我國經(jīng)濟(jì)發(fā)展水平,社會進(jìn)步和人們需求。
“口譯語料庫”可以減少中小企業(yè)對于會計(jì)信息化的投資和利用成本,降低中小企業(yè)進(jìn)入信息化,實(shí)現(xiàn)“口譯語料庫”的門檻,提升中小企業(yè)的競爭力,我國要結(jié)合以往的國情,對中小企業(yè)進(jìn)行合理“口譯語料庫”模式規(guī)劃,提高中小企業(yè)的信息化水平使我國的企業(yè)發(fā)展水平與國際水平接軌,提高我國的綜合國力和競爭力,使我國的國際地位進(jìn)一步提高,世界話語權(quán)越來越大。
“口譯語料庫”的應(yīng)用提高了企業(yè)的競爭力,使我國許多中小企業(yè)的規(guī)模進(jìn)一步擴(kuò)大,相應(yīng)性的增加了就業(yè)崗位數(shù)量,能夠在一定程度上解決人們的就業(yè)問題,緩解生活壓力。對于社會就業(yè)水平的解決具有很大的促進(jìn)作用。社會不斷發(fā)展促進(jìn)了經(jīng)濟(jì)建設(shè)水平越來越高,不斷地滿足人們的基本生活需求。而如何中小企業(yè)的競爭力,提高居民就業(yè)水平,增強(qiáng)綜合國力,使企業(yè)的信息化管理順應(yīng)時(shí)代的需求。此外,居民就業(yè)水平的提高可以提高居民的經(jīng)濟(jì)收入,提高生活水平。
[1]范守義.評翻譯界五十年之爭(1894- 1948)[J].中國翻譯,1986(1):2~8.
[2]文秋芳,王金栓.中國大學(xué)生英漢漢英口筆譯語料庫[M].北京:外語教學(xué)與研究出版社,2008.
[3]王巖.記者招待會現(xiàn)場漢英口譯語料庫的研制與應(yīng)用[J].海外英語,2014(17):164~168.
[4]趙巍,王雷.大規(guī)模英漢平行語料庫的開發(fā)與使用性探討[J].牡丹江師范學(xué)院報(bào):哲學(xué)社會科學(xué)版,2014(4):116~117.
[5]張威.口譯語料庫的開發(fā)與建設(shè):理論與實(shí)踐的若干問題[J].中國翻譯,2009(3):56~61,98.
[6]張威.口譯語料庫研究的原則與方法[J].外語電化教學(xué),2013(1):65~70.
(作者單位:紅河學(xué)院)
本文系2014年紅河學(xué)院科研基金項(xiàng)目(XJ14Y20):模糊數(shù)學(xué)在翻譯質(zhì)量評估(TQA)中的參數(shù)參照分析作用研究。
彭杰(1980-),男,云南屏邊人,講師,澳大利亞Macuqarie大學(xué)MTI碩士,研究方向:英語口筆譯理論與實(shí)踐。