• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于自建語料庫的礦業(yè)文本特征分析

      2017-09-11 06:47詹露
      速讀·中旬 2017年9期
      關鍵詞:翻譯實踐文本分析礦業(yè)

      摘 要:在中國礦業(yè)積極學習借鑒西方國家先進礦業(yè)技術的背景下,礦業(yè)文本的翻譯變得越發(fā)重要。但目前該領域翻譯人才缺乏,相關翻譯活動有一定難度,故本文以Maptek公司礦業(yè)相關文本作為語料自建語料庫,從詞頻、詞匯密度、平均詞長、平均句長四個方面對礦業(yè)文本的特征進行分析,以期為礦業(yè)領域的翻譯實踐提供些許建議。

      關鍵詞:語料庫;礦業(yè);文本分析;翻譯實踐

      1引言

      近年來,隨著中國工業(yè)化、城鎮(zhèn)化進程不斷加快,經濟高速發(fā)展帶動了礦產資源需求的高速增長,中國礦業(yè)展示出了前所未有的發(fā)展勢頭,2003—2011年,我國礦業(yè)產值從7357億元增長到了5.86萬億元,增長了7倍,年均增長率為29.6%,但相較于西方發(fā)達國家,我國礦業(yè)發(fā)展仍處于一個初始階段,距資本—技術密集型相差很遠。鑒于此,對西方發(fā)達國家礦業(yè)領域的文本進行翻譯,有助于學習和借鑒其先進的采礦技術和工藝,促進中國礦業(yè)不斷發(fā)展。但由于多種原因,目前國內該領域翻譯人才欠缺,礦業(yè)文本翻譯相關研究不足。

      2介紹

      當譯者著手翻譯一篇文章時,對文本的分析無疑是第一步。文本分析對于翻譯而言就如同臺階的第一步,萬丈高樓的基石。文本分析對譯者透徹理解原文、制定翻譯策略起著至關重要的作用。談及文本分析的方法,德國功能學派理論學家諾德所提出的文本分析模式(以下簡稱“諾德”模式)無疑占據(jù)了很重要的位置。諾德認為文本分析應該從語言和非語言兩方面因素進行,即文本內因素和文本外因素,文本外因素包含文本發(fā)送者、發(fā)送者意圖、文本接受者、媒介等,文本內因素則涉及篇章結構安排、詞匯層面、句子結構、超音段特征等方面。諾德模式無疑為文本特征分析提供了方向和角度,但其缺陷在于沒有提供分析文本內外因素的具體方式和衡量標準,比如分析詞匯層面的特定術語,該如何分析,有怎樣的指標,都沒有涉及,因而運用諾德模式進行文本分析會不好衡量和把握。但語料庫手段的引入無疑為進行客觀的文本特征分析,尤其是文本內因素的分析提供了一個很好的途徑。

      3自建語料庫

      當前,基于語料庫的翻譯研究不斷增多,所建語料庫類型也是種類繁多,內容日趨完善,但仍缺乏針對礦業(yè)文本專門建立的語料庫。自建語料庫大小比較靈活,可根據(jù)需要自行確定,但通常適用于沒有現(xiàn)成語料庫,現(xiàn)有語料庫不適用或不能滿足研究需求,需要對比語料庫以及需要特殊語料的情況。鑒于目前沒有直接可用的礦業(yè)文本語料庫,探尋礦業(yè)文本的文本特征以服務該領域翻譯實踐的需求又越發(fā)凸顯,故而本文作者專門建立了一個小型礦業(yè)文本語料庫,在此基礎上對礦業(yè)文本特征進行分析。

      3.1語料搜集

      Maptek公司是澳大利亞一家全球領先的礦業(yè)創(chuàng)新軟件、硬件以及技術服務供應商,本次自建語料庫所使用的語料是Maptek公司Vulcan軟件和I-Site軟件應用于采礦作業(yè)的案例,內容涵蓋整個采礦流程,涉及地質勘探、品位控制、礦山優(yōu)化以及地質建模等方面,語料字數(shù)總計為105,430字。

      3.2語料整理

      語料整理對于自建語料庫而言十分關鍵,會直接影響語料的處理速度和結果。語料文本如不加以清理會導致詞匯分析、統(tǒng)計不準確,詞性賦碼出錯或分析無法進行。此外,大多數(shù)語料庫軟件只能識別純文本類型的文件,不能識別其他編碼格式的文本,一些特殊格式標識符號在讀取中會出現(xiàn)亂碼,因而影響處理結果。在語料整理過程中,為確保語料庫統(tǒng)計高效且準確,預先使用了文本整理編輯器對文本進行了清理,刪去了多余空行、段首尾空格、全角空格,統(tǒng)一了中英文標點符號和文字格式,并保存成了純文本格式。

      4礦業(yè)文本特征分析

      利用Wordsmith和Concordance語料庫軟件從詞頻、詞匯密度、平均詞長、平均句長四個方面對語料進行分析??紤]到語料來自于一家澳大利亞公司,因而選取了BNC(British National Corpus)語料庫以及FLOB(Freiburg-LOB Corpus of British English)語料庫作為參照語料庫,進行礦業(yè)文本特征對比分析。

      4.1詞頻

      詞頻可以反映某類型文本或某個作品中的用詞傾向,進而反映出文本的特征。在Concordance軟件中,去除功能詞后根據(jù)詞頻從高到低排序,前20位詞語分別是:data,Vulcan,mine,model,I-Site,Maptek,coal,mining,modelling,block,project,pit,grade,planning,3D,ore,laser,time,design,scanner,其中“Maptek”,“Vulcan”,“I-Site”三個詞代表的是該語料所涉及的產品名稱,本文不予考慮。通常詞表中排在前面的高頻詞是功能詞,或者說是表達語法意義的虛詞,接著是較抽象、概括的詞,然后逐漸過渡到具體、含有特定含有的詞,像“data”,“mine”,“model”,“pit”,“ore”這樣的詞出現(xiàn)在高頻詞范圍內需要引起我們的關注。

      語料庫軟件可以顯示出每個單詞在文章中使用頻次所占的百分比,從客觀數(shù)據(jù)上體現(xiàn)某個單詞對于整個語料庫的貢獻。以“mine”和“pit”為例,對比BNC語料庫中這兩個詞的使用頻率,按不同文本類型進行統(tǒng)計,結果如下:

      圖1和圖2分別表示的是“mine”和“pit”兩詞在BNC語料庫中使用分布的文本類型及使用頻率,其中的“FREQ”表示的是出現(xiàn)頻數(shù),“PER MIL”是指語料庫中某一詞匯、短語每百萬詞(per million)出現(xiàn)的頻數(shù),又叫標準化頻數(shù)。結合詞頻統(tǒng)計中的百分比,利用“各自頻數(shù)/總字數(shù)*100 million”,可以推算出在礦業(yè)類型文本中每一百萬字中這兩個詞的使用頻次分別約是6127次和2665次,高于BNC語料庫總計的使用頻次。此外,BNC語料庫中并沒有對兩詞不同詞義的使用頻次進行區(qū)分,但通過Concordance軟件中的詞語語境篩查可以發(fā)現(xiàn)在礦業(yè)文本中這兩個詞都具有單一專業(yè)含義,分別表示“礦山”和“基坑”,因而就專業(yè)含義來講,自建語料庫中兩詞的使用頻次是遠高于其在其他英語文本類型中的頻次。endprint

      詞表前20位中多數(shù)詞都與采礦作業(yè)流程相關,專業(yè)詞意明確,涉及地質數(shù)據(jù)采集、塊體建模、基坑修建、礦床勘探等,如“model”,“block”,經過比較,這些詞的使用頻次都高于其在其他單個英文文本類型中的使用頻次,因而這些詞可以反映礦業(yè)文本在用詞上的傾向。礦業(yè)涉及內容多,涵蓋彈性力學、土力學、巖石力學、爆破工程等多方面知識,在翻譯該類型文本時需要對涉及這些方面的專業(yè)詞匯有所重視。利用自建語料庫對礦業(yè)文本的詞頻進行研究,明確礦業(yè)領域中的常用詞或通用詞匯,并基于詞頻建立起礦業(yè)領域的詞匯分級,廣泛應用于專業(yè)詞典編纂、專業(yè)教學,這將推動該領域的相關學習及翻譯實踐。

      4.2詞匯密度

      詞匯密度可以反映出某類文本用詞的多樣性、詞匯的豐富度。類符/形符比(type-token ratio,TTR)可以用來計算文本的詞匯密度,TTR比值越高,文本用詞越豐富,反之,則越貧乏。但若語料超過了1000字,類符數(shù)會隨著形符數(shù)的增加而增加,到后面類符數(shù)就會趨于穩(wěn)定,類符形符比就會不斷減小,所以需要采用標準類符形符比(standardized TTR)。經語料庫軟件處理所得的標準類符形符比結果為41.43,F(xiàn)LOB語料庫的STTR值為39.03,相較而言可以發(fā)現(xiàn)礦業(yè)文本中詞匯的使用是靈活且豐富的。礦業(yè)涉及學科多,文本內容廣而豐富,尤其是專業(yè)詞匯,多而細化,因而在翻譯過程中需要意識到礦業(yè)領域內用詞的豐富性,注重積累。

      4.3詞長

      詞長在一定程度上代表了語言單位的復雜性,是反映文本閱讀難易程度的一個標準。通常由2~5個字母組成的詞看作是小詞或常見詞,這些詞在整個語料庫中的比例越高,近似地反映出語料使用的小詞或常見詞越多。單詞越短小,文本越易理解,難度越低,文本的正式程度就越低;反之,文本越不易理解,難度越大,文本越正式。語料庫統(tǒng)計得到的單詞詞長分布結果如下:

      根據(jù)表1的數(shù)據(jù)可以計算出5個字母以下單詞的總數(shù)為62,717個,占全部語料文本的59.5%,按照楊秀珍等人的推論,礦業(yè)文本中使用的小詞多,文本閱讀起來應該更為簡單。由于人類的惰性、大腦信息處理能力的有限性乃至語言使用慣性,人們在言語交際過程中傾向于選用短小、簡單的詞匯表達特定意義以節(jié)省力量消耗,但礦業(yè)文本屬于專業(yè)領域的文本,語料所用文本來自于門戶網站,書面規(guī)范性強,詞匯的選擇較之口語表達肯定是更為謹慎認真的,但使用短小詞的占比那么高,不由得引人注意。

      結合本文作者翻譯礦業(yè)文本的實踐,發(fā)現(xiàn)文本中有很多常見短小詞并非常見通用意義,而是具有特定含義,比如“pit”指的是“基坑”,“grade”代表的是“品位”,“block”代表的“塊體”。這從某種程度上可以說明即使從詞長標準上來講礦業(yè)文本中使用的短小詞更多,但考慮到詞語含義非普遍意義,那么文本閱讀起來也并不一定容易。僅僅依據(jù)5個字母以下單詞的使用占比來判定文本難易程度是較為不當?shù)摹?/p>

      平均詞長是指文本中詞的平均長度,以字母數(shù)為單位。該指標考量的是文本用詞的平均情況,是對文本整體用詞的評估。一般文本的平均詞長為4個字母左右。語料庫統(tǒng)計得到的平均詞長為5.23,而FLOB語料庫的平均詞長為4.37,相較而言可以發(fā)現(xiàn)礦業(yè)文本在用詞上是較為復雜的。從表2也可以計算出5個字母以上詞匯(中長詞)的使用占比達到了40%,這一比例是較高的,對于礦業(yè)類型文本而言中長度詞語不僅具有專業(yè)意義,也更可能從長度上反映詞匯的難易程度。

      以上分析表明,雖然短小詞使用的占比一定程度上反映出了文本詞匯的難易度,但尤其是在專業(yè)領域中詞匯的難易度并不能單純地從詞長進行判定,往往短小詞匯所具有的專有意義是文本閱讀的一個困難。綜合詞長和平均詞長的數(shù)據(jù)結果,可以發(fā)現(xiàn)礦業(yè)文本閱讀起來較為不易,即使短小詞多,但意義可能并不常見。此外,礦業(yè)詞匯專業(yè)化強,表達細節(jié)信息的詞數(shù)量多,還有很多派生詞和復合詞,如“geomorphological”,“auto-registration”,“back-transformation”,詞匯較為復雜。

      4.4平均句長

      平均句長是以句子所包含的詞數(shù)為依據(jù),是衡量文本難度的一個參數(shù)。句子長度越長,句子越難理解;反之,理解則更為容易。句子長短的判定遵循一定的標準,根據(jù)句子長度把句子分為三類:短句(1~9個詞)、中長句(10~25個詞)和長句(25個詞以上)。運用語料庫軟件統(tǒng)計得到的平均句長結果是48.59,結合詞頻表中that,which以及其他連接詞使用的頻次較高,我們可以合理地推測礦業(yè)文本句式較為復雜,多用從句、分句。這一方面符合英語傾向于用從句的特征,另一方面可能是礦業(yè)文本闡釋詳盡的一種體現(xiàn)。

      從衡量句子的難易程度來講,其涉及的因素比較多。鄭錦全提出了句子閱讀難易度的三個考量因素:一是句子長短;二是句中所有詞語在文本中出現(xiàn)頻率的高低;三是詞語語意類別的多少。就句子長度而言,結合考量句內使用的專業(yè)詞匯,礦業(yè)文本可以算得上較難,譯者在翻譯該類型文本時,需要對長句引起重視。但就句中詞語在文本中的出現(xiàn)頻率和詞語語意類別而言,由于詞語所屬領域較為單一,在文本中出現(xiàn)的頻率也高,因而只要接觸足夠多,就會更加容易。這一點無疑說明礦業(yè)文本的翻譯可能在入門時由于專業(yè)原因較為困難,但只要注重積累,后期就可以更加輕松。

      5發(fā)現(xiàn)與展望

      根據(jù)語料庫分析所得數(shù)據(jù)可以發(fā)現(xiàn)礦業(yè)因其涉及的知識廣泛、內容眾多,使得該類型文本中詞匯使用靈活豐富,相關專業(yè)詞匯使用廣且使用頻次高,詞匯平均詞長大,句子多用長句,文本難度較大、專業(yè)性強。翻譯人員在從事礦業(yè)領域文本翻譯時,需要對長句予以重視,注重礦業(yè)學科專業(yè)詞匯的積累,尤其要對文本中常見短小詞的專業(yè)意義引起關注。但只要積累達到一定程度,礦業(yè)文本的翻譯是可行的且可以更為高效的。

      對于專業(yè)領域的文本而言,由于詞匯的特定含義,單從5個字母以下單詞使用的頻次來判定文本用詞的難易程度有所局限性,而中長詞往往可以從長度上普遍反映出文本用詞的情況,故而分析文本特征時需要結合考量中長詞的使用情況以及平均詞長。

      但本篇研究也有值得深入改進和發(fā)展的地方,自建語料庫所用語料的數(shù)量還可以有所增加。此外,可以在自建語料庫基礎上,利用參照語料庫,制作出礦業(yè)領域的專業(yè)詞匯,服務于翻譯實踐。

      參考文獻:

      [1]陳其慎,于汶加等.礦業(yè)發(fā)展周期理論與中國礦業(yè)發(fā)展趨勢[J].資源科學,2015(05):891-899.

      [2]Nord,Christiane.Translating as a Purposeful Activity:Functionalist Approaches Explained. Manchester:St Jerome,1997.

      [3]鄧曉宇,胡小婕等.基于類比語料庫的紅色旅游文本語言分析研究[J]. 江西理工大學學報,2015(06):102-106.

      [4]梁茂成,李文中等.語料庫應用教程[M].北京:外語教學與研究出版社,2010.

      [5]楊惠中.語料庫語言學導論[M].上海:上海外語教育出版社,2002.

      [6]姜文東,任娟.基于語料庫的《格列佛游記》文本詞匯特征分析[J].山東廣播電視大學學報,2013(02):55-56.

      [7]楊秀珍,續(xù)娜等.基于語料庫的《暮光之城》系列小說詞匯特點初探[J].長春理工大學學報(社會科學版),2010(02):71-73.

      [8]鄧耀臣,馮志偉.詞匯長度與詞匯頻數(shù)關系的計量語言學研究[J].外國語(上海外國語大學學報),2013(03):29-39.

      作者簡介:

      詹露(1994.03.08—),女,重慶人,同濟大學外國語學院英語語言文學2015級研究生,主要研究方向為翻譯學。endprint

      猜你喜歡
      翻譯實踐文本分析礦業(yè)
      礦業(yè)工程地質及水文地質教學模式構建與實踐
      預設理論在翻譯中的應用
      投資者情緒短期對股票市場的影響研究
      維護正統(tǒng)還是觀念復辟?
      試析翻譯理論在翻譯實踐中的應用
      翻譯活動中母語的重要性
      我國地方紀錄片的出路研究
      初中英語聽說課教學實踐探索
      南桐礦業(yè)杯 國慶60周年國企風采攝影大賽作品展
      高州市| 金湖县| 那坡县| 祁东县| 开封县| 太仆寺旗| 黄大仙区| 南靖县| 鞍山市| 花垣县| 兴和县| 上饶市| 石楼县| 义乌市| 循化| 曲阳县| 松原市| 甘南县| 遂溪县| 兴化市| 柳江县| 呼图壁县| 卓尼县| 息烽县| 辰溪县| 尚志市| 河源市| 石狮市| 彭泽县| 桐梓县| 天峨县| 梁河县| 桓仁| 息烽县| 和林格尔县| 观塘区| 伊金霍洛旗| 当阳市| 白沙| 洞口县| 梨树县|