• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      中日雙語平行語料庫之日語科技語標注技術(shù)

      2015-03-13 16:58:12李毅鵬
      企業(yè)導報 2015年2期

      李毅鵬

      摘 要:中日雙語平行語料庫由中文和日文兩種語言組成,在研發(fā)階段,我們主要從語言學角度對這兩種語言進行對比和分析。無論是從語言形態(tài)還是整篇文章的結(jié)構(gòu)來看,中日文都有著共同的特性。在計算機數(shù)據(jù)處理時,只有對兩種語言同時進行標注,才能達到互譯的效果。目前,大多數(shù)語料庫采用數(shù)據(jù)庫處理和文本處理相結(jié)合的組織模式,采用XML(Extend Marking Language)標記語言?,F(xiàn)如今雙語平行語料庫最流行的項目是應(yīng)用于XML的語義標注技術(shù),該標記語言的優(yōu)點在于語料處理比較直觀,基本和實際的文章相似,彌補了同類標注技術(shù)的不足。

      關(guān)鍵詞:科技日語;標注技術(shù);XML;中日雙語

      一、科技語的定義及表現(xiàn)形式

      科技實際內(nèi)容的另一種表現(xiàn)形式是科技語文章。科技文獻存在的前提是科技語言的掌握。語言學給出這樣的結(jié)論,科技日語是以日語為根基,傳遞的是科技方面的思想內(nèi)容,是日語中必不可少的一部分。科技日語語體描述的主體是現(xiàn)實生活中客觀存在的事實,這就是自身最大的特點,由于這個原因使其在表現(xiàn)手段、邏輯思維等方面有鮮明的特色。換句話說,科技日語語體在遣詞造句等方面有其自身的特點。只有充分地掌握這些特點,才能正確理解科技日語文章。

      語言是思維的外在表現(xiàn)形式,思維有賴于語言,尤其有賴于文章的準確性體現(xiàn)思維的明晰性,文章的層次性體現(xiàn)思維的條理性,文章的周密性體現(xiàn)思維的邏輯性閱讀過程中的判斷推理、分析綜合、類比想象、欣賞評價,都離不開思維。換言之,文章閱讀的過程,就是整理思維的過程而閱讀科技語體的文章,不僅是一個語義辨認、語法分析的過程,同時也是讀者運用相關(guān)學科的知識和經(jīng)驗對寫作者所傳遞的新理論,新信息,新資料進行判斷、推理、分析、綜合的復雜邏輯思維過程。因此,在閱讀整理科技日語語體的文獻時,除了掌握科技日語的基本語言特點,具有較高水平的語言分析能力外,還必須了解有關(guān)學科的基本知識和較強的邏輯思維能力,才能把握原文的精神實質(zhì),用恰當?shù)母拍钊ヅ袛嘣摹?/p>

      二、中日雙語科技語標注技術(shù)

      (一)中日雙語日語科技語標注技術(shù)采用的主要方法。目前,大多數(shù)語料庫采用數(shù)據(jù)庫處理和文本處理相結(jié)合的組織模式,采用XML(Extend Marking Language)標記語言。該標記語言的優(yōu)點在于語料處理比較直觀,基本和實際的文章相似。此種標記語言需要高配置、高性能的硬件設(shè)施,但是對于數(shù)據(jù)的處理能力較低,所以很難完成多用戶的共同處理任務(wù)。相對于其他的標記語言,該技術(shù)的功能較繁瑣,數(shù)據(jù)庫的管理和安全性的維護都很難能實現(xiàn)。由此得出該種標注技術(shù)只適用于數(shù)據(jù)量較小,雙語語料庫。但是,到目前為止還沒有研究出比XML標記語言更便利的標記語言,因此,市場依舊采用XML語言,在此基礎(chǔ)上研發(fā)出了多用戶并發(fā)操作模式,即群組分布式操作模式,以達到揚長避短的目的。

      群組分布式操作模式,通過市場熱門的數(shù)據(jù)庫應(yīng)用軟件,分解文本數(shù)據(jù),并將其存儲在一個公共數(shù)據(jù)庫中,主機之外的計算機只能為客戶機的身份操作數(shù)據(jù)庫。分布式計算機系統(tǒng)是由廣域網(wǎng)或局域網(wǎng)相互連接,可以在數(shù)臺計算機上同時運行程序的不同部分。通過B/S(Browser/Server,瀏覽器/服務(wù)器)或C/S(Client/Server,客戶端/服務(wù)器)結(jié)構(gòu),不僅能將語料數(shù)據(jù)有效的存儲和完成復雜的檢索,而且能實現(xiàn)了多用戶的群組操作,達到了事半功倍的效果。

      中日雙語語料庫的建設(shè)系統(tǒng)和使用系統(tǒng)是由數(shù)臺相互聯(lián)網(wǎng)的計算機組成,將一臺計算機放在中心的位置,充當服務(wù)器,剩下的計算機只有通過局域網(wǎng)訪問服務(wù)器才能獲得需要加工的數(shù)據(jù)。以此讓語言翻譯有關(guān)的研究人員都能操作數(shù)據(jù)庫。群組分布式操作模式像網(wǎng)一樣將用戶、創(chuàng)建人員、研究人員等與服務(wù)器相連,從而操作翻譯語料庫。

      (二)中日雙語科技語標注技術(shù)遇到的主要問題。(1)語言學理論上的問題。首先,中日雙語科技語標注技術(shù)缺乏統(tǒng)一的文法理論基礎(chǔ)。從自然語言處理實踐來看,還沒有哪一種語言學流派成為一種理想的理論基礎(chǔ),因此建立中日雙語科技語標注技術(shù)就面臨著缺乏語言學理論基礎(chǔ)。這樣,一方面是缺乏一個統(tǒng)一的語言理論來指導建立中日雙語科技語標注技術(shù),從而造成中日標注分別建立在兩個不同的語法體系的現(xiàn)象;另一方面,一旦選定某種文法理論來設(shè)定標注技術(shù),那么要引入另一個文法進行某些研究時,就會造成標注技術(shù)的沖突和冗余,其結(jié)果就是雙語標注技術(shù)的標準性無從談起。其次,中日雙語科技語標注技術(shù)面臨著描述雙語現(xiàn)象的難題,這一點在語言學中也是一個有待深入研究的問題。雙向機器翻譯系統(tǒng)的下一步工作是:利用等值翻譯理論,建立等值翻譯表達式,從而實現(xiàn)雙向機器翻譯系統(tǒng)的知識級的共享。但是這一方案在實踐上還有很多問題有待克服,其中之一就是如何進行雙語的描述問題:不僅需要分別充分描述漢語和日語各自的特點,而且還要能夠刻畫出二者相互轉(zhuǎn)換時的特征,也就是說需要刻畫出雙語的異同點。而恰恰在這里,語言學和比較語言學研究乃至翻譯研究,都沒有能夠提供一個充分可行的理論。也就是說,中日雙語標注集需要首先確定所需要表示的知識范圍:漢語和日語之間究竟在什么范圍、什么程度上存在那些異同,標注技術(shù)究竟在什么層次上刻畫雙語現(xiàn)象。此外,在雙語標注技術(shù)的出發(fā)點上,還存在著理性主義和經(jīng)驗主義兩種不同的意見。理性主義意見認為雙語標注技術(shù)應(yīng)該根據(jù)雙語研究的成果,對于雙語間相同的語言現(xiàn)象使用相同的符號,而對于那些不同的現(xiàn)象再引入相互區(qū)別的標志。當然這種狀態(tài)比較理想,但是目前這方面的語言學研究還不太成熟。另一種經(jīng)驗主義認為,雙語標注技術(shù)應(yīng)該針對每種語言的特點設(shè)置各自符號,而后在此基礎(chǔ)上進行雙語的比較和對照研究,才能夠充分揭示兩種語言的異同。這種意見從實踐的角度來看是可取的,其缺點是可能造成一定的符號冗余。(2)雙語標注技術(shù)設(shè)計的幾個難點。首先,公認性是雙語標注技術(shù)存在的基礎(chǔ)。公認常常意味著人們對某個事物達成了共識,但對于語言標注乃至整個自然語言處理來說,這種共識幾乎不存在。其次,開放性是中日雙語標注技術(shù)的設(shè)計核心。標注技術(shù)的開放性在機器翻譯研究中不僅僅是技術(shù)上的問題,而且具有十分重要的實踐意義。機器翻譯研究包括句法分析、詞義消歧識獲取、口語機器翻譯等不同專業(yè)眾多的研究方向。最后,兼容性是中日雙語標注技術(shù)實用化的體現(xiàn)。目前,語料庫研究和其他自然語言處理研究的果是機器翻譯研究的一個豐富的資源,如果能夠使標注技術(shù)兼容這些研究所使用的符號集,也是說在彼此之間能夠建立比較好的對應(yīng)關(guān)系,那么不僅可以利用這些豐富的研究成果和已的研究工具,而且可以使我們的研究和相關(guān)的研究之間具備了真正的可比性。

      (三)中日雙語科技語標注技術(shù)問題的初步解決方案。(1)中日科技語標注技術(shù)從整體上不依賴于某個特定的文法,而是根據(jù)目前漢語和日語的研究經(jīng)驗,分別對兩種語言中比較普遍的、公認需要研究的語言現(xiàn)象設(shè)置符號;對于其他可能需要的知識表示,留待后期完善。(2)標注技術(shù)包括詞法標注和句法標注兩大類,兩者的語法層次、符號大不相同,在詞法標注技術(shù)和句法標注技術(shù)中,分別將各自的符號劃分成三個部分:基本符號,常用符號和專用符號。(3)基本符號描述自然語言共有的一些特征或者中日雙語的基本概念,這些概念在各種語料庫中幾乎都有類似或相同的符號代表,例如詞法標注中的名詞、動詞等概念和句法標注中的名詞詞組、動詞詞組、介詞詞組等等。(4)中日文常用符號集主要包括一些比較公認或應(yīng)用比較廣泛的語法概念,例如人稱、數(shù)、性別、時態(tài)、語態(tài);甚至可能包括所需要的某個文法中的一些基本概念,如格語法中各種格的符號等等。中日文專用符號集可以看作是對以上兩種符號的補充,它往往是根據(jù)各種分支研究的需要所填補的各種表示符號。例如口語機器翻譯所需要的額外符號,漢語分詞研究所添加的特征標記等等?;痉柡统S梅栆话銇碚f是比較固定的,但是常用符號可能隨著研究的深入,經(jīng)課題組和有關(guān)專家討論后,進行有系統(tǒng)的改動或添加。(5)專用符號體現(xiàn)整體的開放性,可以根據(jù)需要隨時添加。不過,應(yīng)該首先盡可能沿用已有的符號,只有在十分必要時再進行增補。對于每個新增的符號,都要有嚴格的說明和定義;而新增一批專門用于某個分支研究的符號時,應(yīng)該專門書寫說明,記載該項研究繼承了哪些已有的符號,新增了哪些符號等等。一般來說,這些專用的符號都不允許脫離已有的標注集而另成體系。

      (三)中日雙語科技語標注技術(shù)的研究意義。其意義主要有以下幾個方面:(1)穩(wěn)定的研究基礎(chǔ)標準的中日雙語科技語標注技術(shù)是機器翻譯、雙語語料庫以及其他有關(guān)研究的知識表示基礎(chǔ)。以一個統(tǒng)一的基礎(chǔ)開展研究可以確保研究的延續(xù)性和一致性。(2)研究成果的積累有利于機器翻譯系統(tǒng)的開發(fā)和有關(guān)的雙語語料加工。如果能夠以一個標準的中日雙語標注技術(shù)為基礎(chǔ),那么每個為此目的開發(fā)的輔助工具和系統(tǒng)都可以直接繼承并加以利用,從而節(jié)省科研勞動,依靠成果積累加快研究的深入。(3)統(tǒng)一的對比平臺和轉(zhuǎn)換標準英漢雙語的語料加工在國內(nèi)外已經(jīng)有比較豐富的成果,而且所使用的符號體系各有特點。如果沒有一個標準的雙語標注集,就無法對這些工作進行比較,而且對于這些語料的進一步加工利用就會需要額外的轉(zhuǎn)換工作。因此,標準的中日雙語標注技術(shù)會促進對已有資源的利用??梢姡粋€標準的中日雙語標注技術(shù)對于涉及中日雙語的研究來說具有戰(zhàn)略意義(如果能夠在全國范圍內(nèi)建立這樣一個標準,其意義將更加巨大)。在這一過程中,我們發(fā)現(xiàn)建立中日雙語標注技術(shù)不只是對原有單向標注集的簡單歸納整理。雙語標注技術(shù)不僅涉及到一些比較復雜的實現(xiàn)策略問題,還涉及到比較語言學和翻譯理論中懸而未決的一些問題。

      結(jié)語:中日雙語科技語標注技術(shù)是中日雙語處理研究的知識表達基礎(chǔ)。由于目前國內(nèi)文獻對此類問題關(guān)注較少,本文比較詳細地論述了設(shè)計雙語標注技術(shù)的必要性、設(shè)計中的難點并提出了一個可行的解決方案。該方案不僅能夠適應(yīng)相當長的時間內(nèi)中日雙向機器翻譯和漢語語料庫研究,而且對于其他跨語言的比較研究和機器翻譯研究,都有一定的借鑒意義。

      應(yīng)該說,該標準仍然沒有能夠達到理想的狀態(tài),還不能勝任刻畫全部的中日雙語現(xiàn)象。不過,鑒于目前研究水平所限,我們認為中日雙語標注技術(shù)的進一步完善只有在更加細致的雙向機器翻譯研究,或者是更加完備的中日雙語比較研究的基礎(chǔ)上才能夠進行。而這些不是在短時間內(nèi)能夠做到的,也不是一個研究單位能夠勝任的,還有待于廣大計算語言學研究人員和語言學研究人員的共同努力。

      參考文獻:

      [1] 陸建江等、編著語義網(wǎng)原理技術(shù)[MI科學出版社2007.3.l第一版

      [2] 《文休學概論》秦秀白編著湖南教育出版社19 88

      [3] 《科技日語語體的基本特點》廣州華南理工大學外語系 錢紅日

      遵义县| 土默特右旗| 监利县| 汨罗市| 万载县| 长沙县| 徐州市| 黑河市| 日照市| 绥中县| 石河子市| 博罗县| 肥东县| 峨边| 玉林市| 灵丘县| 天气| 潜江市| 涞水县| 吴川市| 沙河市| 天等县| 玉田县| 中方县| 乐清市| 西吉县| 昭平县| 华阴市| 青冈县| 揭阳市| 吉安县| 丰都县| 精河县| 巴林右旗| 台前县| 汉寿县| 水城县| 应城市| 盖州市| 琼结县| 会同县|