張瑞國 萬 禮
(青島農(nóng)業(yè)大學(xué),山東 青島 266109)
自20世紀(jì)70年代美國制作了Brown Corpus以來,世界各國都開始研制語料庫,種類和規(guī)模越來越大。現(xiàn)在語料庫的制作不再限于國家研究項(xiàng)目或是某個(gè)大學(xué)的研究項(xiàng)目,個(gè)人只要有足夠資金和時(shí)間,也可以制作出相當(dāng)規(guī)模的語料庫。特別是針對于日語專業(yè)在校學(xué)生,針對于課堂使用教材,由學(xué)生動(dòng)手制作適合學(xué)生自己的中日對譯語料庫,可以更有效地學(xué)習(xí)日語并且能夠綜合地運(yùn)用日語。中日對譯語料庫即為儲(chǔ)存各類日語文章的大型文字倉庫,旨在根據(jù)各種需要對語料庫內(nèi)儲(chǔ)存的語言信息進(jìn)行檢索,抽取所需信息。是外語學(xué)習(xí)中必不可少的一項(xiàng)學(xué)習(xí)工具,具備省時(shí)、易得等特點(diǎn)。
該研究主要針對不同階段的日語學(xué)習(xí)者在日常學(xué)習(xí)中,對于生僻復(fù)雜語言現(xiàn)象難以根據(jù)自己以往的知識(shí)積累加以判斷解決的狀況,需要借助既定語境下大量語料數(shù)據(jù)進(jìn)行學(xué)習(xí)分析的需求,進(jìn)行了中日對譯語料庫的研究與開發(fā)。在以我校各語言學(xué)習(xí)階段學(xué)生為調(diào)查對象,對于其需求獲得大量反饋之后,開始了語料庫的開發(fā)工作。
該語料庫主要面向初中級學(xué)習(xí)者的語料學(xué)習(xí)工具,因此在內(nèi)容上我們以教材中的重點(diǎn)文章、日語新聞板塊(天聲人語等)、日本文學(xué)名著等為主要內(nèi)容。學(xué)習(xí)者在遇到生僻復(fù)雜語言現(xiàn)象時(shí)可借助語料庫中的語料內(nèi)容進(jìn)行搜索,通過對比、分析、判斷破除所遇到的復(fù)雜生僻語言瓶頸,滿足了學(xué)習(xí)者需要借助既定語境下大量語料數(shù)據(jù)進(jìn)行學(xué)習(xí)分析的需求。
具體內(nèi)容包括將單詞模塊化、文章化并挑選出經(jīng)典日語文章,經(jīng)典日語例句,讓每一個(gè)初學(xué)者使用者都可以輕松查詢到單詞相關(guān)聯(lián)的例句、文章。通過單詞理解記憶文章和例句,通過文章例句反饋學(xué)習(xí)單詞,加深理解,并有助于區(qū)分意義相近的重難點(diǎn)詞匯,使用者在使用的過程中改變以往一成不變的死記硬背的單詞學(xué)習(xí)方式,在閱讀、理解中記憶單詞,用單詞記句子、文章。語料全部實(shí)現(xiàn)了句段對齊和詞性標(biāo)注,全部摘錄于著名作品的經(jīng)典語句。本語料庫可以提供一般日語學(xué)習(xí)、語言及翻譯研究等多種目的的應(yīng)用。
在制作方法上我們參考于康(2013),首先針對我們的設(shè)定用戶,選取了相應(yīng)能力階段所需要的日語文獻(xiàn)資料進(jìn)行篩選,確定為初期語料。之后對篩選后的語料進(jìn)行掃描,將掃描后的PDF格式文件轉(zhuǎn)化為文字,通過日語文字編輯處理軟件秀丸進(jìn)行文字整理。之后建立并調(diào)試Java運(yùn)行環(huán)境,將整理好的語料通過Edamame軟件進(jìn)行轉(zhuǎn)換建庫,最后通過語言檢索軟件Himawari進(jìn)行檢索,并調(diào)試運(yùn)行,之后進(jìn)行制作標(biāo)簽,標(biāo)簽分類等進(jìn)一步細(xì)化功能的開發(fā),梳理和完善。在初期完善之后我們將軟件投放給學(xué)生進(jìn)行試用,對于學(xué)生提出的重復(fù)句,語料轉(zhuǎn)換過程中出現(xiàn)的亂碼錯(cuò)別字,空格等問題進(jìn)行了修改,并根據(jù)同學(xué)不斷增長的日語學(xué)習(xí)需求進(jìn)行了新語料的收集生成,并成立語料發(fā)展小組,貼合同學(xué)的需求不斷增加新語料的開發(fā),建立語料開發(fā)長效機(jī)制,及時(shí)淘汰模糊、曖昧語料。讓語料庫不斷開源,繼續(xù)長流,不斷為同學(xué)的日語學(xué)習(xí)服務(wù)。
經(jīng)過一年的研究開發(fā),最終開發(fā)出能為日語專業(yè)學(xué)習(xí)者所實(shí)用的語料庫,彌補(bǔ)了大語料庫費(fèi)用門檻高小語料庫不能完全滿足需要以及錯(cuò)誤較多的短板。從本校日語學(xué)習(xí)者的實(shí)際需要出發(fā),建立和不斷豐富語料素材。經(jīng)過研究發(fā)現(xiàn)并非只有少納言等大型語料庫,學(xué)習(xí)者可根據(jù)自己需要建立屬于自己的語料庫,使外語學(xué)習(xí)者根據(jù)自己的需要和學(xué)習(xí)方向擁有自己“專向?qū)S谩钡恼Z料庫成為可能。
參考文獻(xiàn):
[1]戴寶玉.基于語料庫的日語研究[M].上海學(xué)林出版社,2012.
[2]徐一平,曹大峰.中日對譯語料庫的研制與應(yīng)用論文集[M].北京外語教學(xué)與研究出版社,2002.
[3]于康.語料庫的制作與日語研究[M].浙江工商大學(xué)出版社,2013.