梁迪 梁爽
摘 要:本文以2年以來基于語料庫的現(xiàn)代漢語研究的文獻(xiàn)為依托,從基于標(biāo)記語料庫、靜態(tài)語料庫、自建語料庫三方面的研究,分析了現(xiàn)代漢語研究借助的語料庫類型,并據(jù)此分析了目前該研究方法存在的問題。
關(guān)鍵詞:語料庫;現(xiàn)代漢語;研究方法;問題
作者簡介:梁迪,1995年10月生,女,漢族,河北省廊坊市永清縣人,本科在讀,研究方向?yàn)闈h語言文學(xué)專業(yè);梁爽,1992年9月生,女,漢族,河北省廊坊市永清縣人,研究生在讀,研究方向?yàn)樗囆g(shù)設(shè)計(jì)。
[中圖分類號]:H109 [文獻(xiàn)標(biāo)識碼]:A
[文章編號]:1002-2139(2016)-12--01
一、緒論
正如Sinclair所言:“語料庫所提供的海量語料使研究者系統(tǒng)地對大量文本語料進(jìn)行審視,使我們有可能發(fā)現(xiàn)一些新的未發(fā)現(xiàn)的語言事實(shí)”。語料庫在語言研究中能提供空前廣泛的語言資料,使得對語言多方面、多層次的研究成為可能。本文以2000年以來基于語料庫的現(xiàn)代漢語研究的文獻(xiàn)為依托,深入分析文獻(xiàn)中基于語料庫的研究方法,并從借助的語料庫類型進(jìn)行具體綜述,據(jù)此對研究中存在的問題進(jìn)行了分析。
二、借助的語料庫類型
“語料庫為語言描述提供了豐富的數(shù)據(jù)資源,在基于語料庫的語言研究中,語言學(xué)家利用機(jī)儲數(shù)據(jù)庫去描寫語言的詞匯和語法”。基于語料庫的研究方法,方便研究者統(tǒng)計(jì)數(shù)據(jù),并在已有成果基礎(chǔ)上,深化對某一類詞群的研究。
然而,語料庫種類眾多,現(xiàn)代漢語研究方向也是多方面的,選擇與研究內(nèi)容相適應(yīng)的語料庫類型才能更好地提高研究效率,取得更佳的研究成果。筆者通過歸納2000年以來基于語料庫的現(xiàn)代漢語研究的文獻(xiàn),總結(jié)以下幾種常用的語料庫類型。
(一)基于標(biāo)注語料庫的研究
標(biāo)注就是使語料的某些單位(詞、句、段等)和表示對這些單位的某種層次的“理解”的知識信息(標(biāo)記符)相關(guān)聯(lián)。標(biāo)記語料庫即含有這些加工者添加其對語料的理解信息的語料庫。這樣的語料庫可以作為句法規(guī)律研究的重要參考。
孫建功等,基于標(biāo)記語料庫對單句句型句模對應(yīng)關(guān)系進(jìn)行研究,歸納總結(jié)出現(xiàn)代漢語單句句型和句模對應(yīng)關(guān)系的主要特點(diǎn)。杜婷借助《國家語委現(xiàn)代漢語通用平衡語料庫》的“標(biāo)注語料庫”(在線提供免費(fèi)檢索的語料約2000萬字),對現(xiàn)代漢語中小類詞口部動詞的頻度進(jìn)行了統(tǒng)計(jì),進(jìn)而發(fā)現(xiàn)其語法語用規(guī)律。
對語料庫的標(biāo)注工作,既是語料庫建設(shè)中的一個重要環(huán)節(jié),也豐富了語料庫的利用價值,使其在句型、詞匯等方面的研究中可以發(fā)揮出更大的作用。
(二)基于靜態(tài)語料庫的研究
靜態(tài)語料庫是收集某一固定時期的共時語言使用樣本構(gòu)成的語料庫,屬于共時語料庫的一種?,F(xiàn)有的許多類型的詞典,被眾多語言研究者運(yùn)用到語言學(xué)研究中,形成基于靜態(tài)語料庫的現(xiàn)代漢語研究范式。
亢世勇在進(jìn)行現(xiàn)代漢語謂賓動詞分類統(tǒng)計(jì)研究時,即利用《現(xiàn)代漢語詞典》等靜態(tài)語料庫作為語料源,利用計(jì)算機(jī)進(jìn)行窮盡性檢索,根據(jù)動詞所帶賓語類型對動詞分類。針對外來詞的研究,駱牛牛在《漢語經(jīng)濟(jì)外來詞研究》中,以多部具有代表性的外來詞詞典為語料庫,從中窮盡性檢索出符合條件的經(jīng)濟(jì)類詞條作為研究對象,以對其進(jìn)行分析、總結(jié)規(guī)律。
基于以詞典為主的靜態(tài)語料庫的研究,有利于更好地把握現(xiàn)代漢語發(fā)展演變過程中某一時段的共時特征,對歷時發(fā)展規(guī)律的研究有很好的基礎(chǔ)性作用。
(三)基于自建語料庫的研究
現(xiàn)代漢語中的詞匯也是在人際接觸交往中不斷更新的。漢語詞匯的日漸豐富,使得語料庫的發(fā)展速度達(dá)不到詞匯發(fā)展要求,因而出現(xiàn)研究者根據(jù)真實(shí)文本資料自建語料庫,用于自己的研究,也為后來的研究者提供借鑒意義。
薛松蕙人,通過在《現(xiàn)代漢語詞典》和《新華新詞語詞典》等辭書中檢索對應(yīng)詞條,建立了一個舊詞新義詞語語料庫來佐證自己的研究,為舊詞新義語料庫補(bǔ)充了新語料。盧海濱、王曉娟等分別自建了外來詞語料庫和派生詞語料庫,為他們的對比和實(shí)證研究提供重要參考依據(jù)。
這些自建的語料庫一方面可以方便研究者開展自己的研究論題,另一方面,它們也是已有的靜態(tài)語料庫的動態(tài)補(bǔ)充。研究者在自建語料庫的過程中提出的全新的建庫標(biāo)準(zhǔn)原則,為以后語料庫的豐富完善提供了指導(dǎo)性意義。
三、研究中存在的問題
基于語料庫的現(xiàn)代漢語研究雖已得到進(jìn)一步發(fā)展,研究方法也在逐步完善并廣泛應(yīng)用于各個方向的研究。然而,基于語料庫的研究方法在運(yùn)用時候仍然存在著一些問題:
(一)規(guī)模不夠大
我國現(xiàn)已建成的語料庫數(shù)目較多,涉及到的類型也較為豐富,但在規(guī)模上并不占優(yōu)勢。我國的大規(guī)模語料庫雖已存在破億的語料庫,國家語委現(xiàn)代漢語通用平衡語料庫全庫約為1億字符,但這樣大規(guī)模的語料庫也只是少數(shù),和國外的語料庫規(guī)模相比仍存在差距,需要進(jìn)一步擴(kuò)大規(guī)模。
(二)研究方向不全面
基于語料庫的現(xiàn)代漢語研究涉及到的領(lǐng)域很多,然而主要集中于詞匯,語法,語義等方面的研究,且利用的標(biāo)注語料庫、靜態(tài)語料庫、自建語料庫等,都是書面語語料庫,基于口語語料庫的研究甚少。因此,我國基于語料庫的研究并不全面,有很多研究角度有待開發(fā)。在跨學(xué)科研究領(lǐng)域仍有很長的路要去探索。
四、結(jié)論
2000年以來的基于語料庫的現(xiàn)代漢語研究方法,對于現(xiàn)代漢語有著較為全面廣泛的研究,在歸納分析現(xiàn)代漢語的詞匯、語法等方面的發(fā)展演變規(guī)律發(fā)揮著重要作用,進(jìn)而推動了現(xiàn)代漢語的發(fā)展。同時,這一方法在現(xiàn)代漢語研究中的廣泛應(yīng)用,對于完善現(xiàn)代漢語語料庫的建設(shè)也有著重要意義。但是,這一研究方法也存在著語料庫規(guī)模不夠大,技術(shù)不成熟,研究方向不全面等問題。因此,擴(kuò)大語料庫規(guī)模,完善研究技術(shù),拓寬研究領(lǐng)域,是推進(jìn)我國語料庫發(fā)展的重要方向。
參考文獻(xiàn):
[1]黃昌寧,李涓子.語料庫語言學(xué)[M].商務(wù)印書館,2002.
[2]亢世勇.現(xiàn)代漢語謂賓動詞分類統(tǒng)計(jì)研究[J].遼寧師范大學(xué)學(xué)報(bào)(社科版),2000(1).