• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      擴大漢語中介語語料庫語料來源的途徑*

      2022-07-14 02:57:50張寶林北京語言大學漢語國際教育研究院
      國際中文教育(中英文) 2022年2期
      關(guān)鍵詞:語料語料庫漢語

      張寶林 北京語言大學漢語國際教育研究院

      提 要 語料分布是語料平衡性的集中體現(xiàn),與語料庫的功能與使用價值密切相關(guān),是語料庫建設(shè)中一個十分重要的問題。以往的漢語中介語語料庫建設(shè)并未很好地解決這一問題,對基于語料庫的漢語教學與研究產(chǎn)生了相當程度的影響。這一問題的產(chǎn)生與語料庫建設(shè)者對語料庫的認識和建庫經(jīng)驗有關(guān),也與國際中文教育形勢的發(fā)展有關(guān),與不同國家和中國的地緣距離、歷史、政治、經(jīng)濟、貿(mào)易、外交、文化、教育等因素密切相關(guān)。該問題可從國內(nèi)、國外兩方面加以解決:通過國內(nèi)漢語教學單位廣泛收集目的語環(huán)境中的外國學習者產(chǎn)出的漢語語料;通過外派漢語教師、孔子學院、孔子課堂收集非目的語環(huán)境中的學習者語料。而學界的理解與支持、強有力的組織保障、明確可行的語料采集標準與操作規(guī)范、專業(yè)化的團隊與運作則是解決語料來源問題的重要條件。

      一、語料現(xiàn)狀

      (一)語料庫的發(fā)展與規(guī)模

      1995年“漢語中介語語料庫系統(tǒng)”問世,“該系統(tǒng)的研制填補了漢語中介語語料庫(以下簡稱“語料庫”)研究方面的空白,在漢語作為第二語言教學領(lǐng)域里取得了開創(chuàng)性成果,達到了國際領(lǐng)先的水平”(本刊記者,1995)。該庫具有十分重要的意義,被學界認為是漢語中介語語料庫的開山之作。其后,以“HSK動態(tài)作文語料庫”(以下簡稱“HSK語料庫”)為代表的多個語料庫相繼建成。而基于語料庫的對外漢語教學研究、漢語習得研究和中介語研究也得到了很大發(fā)展,形成了一批重要的研究成果。與以往手工收集、整理語料的同類研究相比,這些研究考察的語料規(guī)模大、樣本多,用大數(shù)據(jù)揭示語言規(guī)律,不但深化了對相關(guān)問題的認識,而且具有很強的客觀性和說服力,集中體現(xiàn)了語料庫的作用與應(yīng)用價值。這樣的研究成果與示范效應(yīng)引起了學界的廣泛關(guān)注,人們很快接受了基于語料庫的研究范式,更多的學者和教學單位受到激勵投入語料庫建設(shè),大大促進了漢語中介語語料庫建設(shè)的發(fā)展。目前,“漢語中介語語料庫建設(shè)漸成高潮,‘成為語料庫研究中的熱點’(譚曉平,2014),正在跨入一個繁榮發(fā)展的重要時期”(張寶林、崔希亮,2015)。

      目前,語料庫建設(shè)呈現(xiàn)出語料規(guī)模越來越大、標注范圍越來越廣、標注內(nèi)容越來越豐富全面的特點。例如,“漢語中介語語料庫系統(tǒng)”熟語料104萬字,“只經(jīng)過斷句、分詞和詞性標注等加工處理”(陳小荷,1996)。HSK語料庫熟語料424萬字,對字、詞、句、篇、標點符號等5個層面進行了窮盡性標注?!叭驖h語中介語語料庫”(以下簡稱“全球庫”)基礎(chǔ)語料達2367萬字,標注語料總規(guī)模約1.26億字;在字、詞、短語、句、篇、語體、辭格、標點符號、口語和視頻語料的語音、視頻語料的體態(tài)語等10個層面進行標注(張寶林、崔希亮,2022);標注模式則從偏誤標注提升為“偏誤標注+基礎(chǔ)標注”的模式,為表現(xiàn)分析(或稱語言運用分析)提供了條件,提升了語料庫建設(shè)與應(yīng)用研究水平。

      (二)語料分布

      語料庫的平衡性指“構(gòu)成特定語料庫中各部分語料的類型和比例相對適當,以滿足語料庫建設(shè)和使用中的合理性和可靠性等方面要求”(施春宏、張瑞朋,2013)。而語料分布是語料平衡性的集中體現(xiàn),與語料庫的功能和使用價值密切相關(guān),是語料庫建設(shè)中一個十分重要的問題。語料的平衡性指不同類型的語料在分布上應(yīng)盡可能均勻。不同國家和地區(qū)、不同母語、不同學習時間、不同專業(yè)背景、不同漢語水平的漢語學習者所產(chǎn)出的語料數(shù)量應(yīng)該完全相同。但在建庫實踐中,由于語料及其背景信息采集的困難,這一問題頗難解決。例如HSK語料庫和全球庫,在此問題上同樣存在諸多不足。

      HSK語料庫的語料覆蓋100個國家和地區(qū),但其分布差異很大,見表1。

      表1 HSK語料庫語料的國家和地區(qū)分布

      從表1可見,語料分布呈現(xiàn)兩個特點。

      第一,語料相對較多的國家和地區(qū)很少。例如,語料數(shù)量達到1000篇及以上的只有韓、日兩國,語料數(shù)量達到100—999篇的只有9個。語料少的國家和地區(qū)則很多,例如語料數(shù)量在10篇以下的達73國之多。語料的不平衡性十分嚴重。任海波(2010)認為,“HSK動態(tài)作文語料庫中,東南亞國家留學生的語料很多,而歐美國家留學生的語料則相對太少,語料的國別不平衡性比較明顯”。這是符合該語料庫的實際情況的。

      第二,語料庫的使用價值有限。如果把30篇語料作為小規(guī)模樣本的下限(且不考慮是否隨機取樣等其他相關(guān)因素),則只有18個國家和地區(qū)學習者的語料具有統(tǒng)計意義,其他82個國家和地區(qū)學習者的語料則是沒有統(tǒng)計意義的。有統(tǒng)計意義的國家和地區(qū)數(shù)量與國家和地區(qū)總數(shù)比例約為1:5.561。如此看來,HSK語料庫的使用價值確實非常有限。

      以同樣的方法考察全球庫的語料分布情況,見表2。

      表2 全球庫語料的國家和地區(qū)分布

      仍以上面衡量HSK語料庫的兩條標準來評價全球庫。

      第一,語料相對較多的國家和地區(qū)與語料相對較少的國家和地區(qū)的差距依然存在,但與HSK語料庫相比,差距已經(jīng)縮小了很多。例如,語料數(shù)量在1000篇及以上的國家和地區(qū)有11個,100—999篇以上的國家和地區(qū)有24個,30—99篇的合計32個,10—29篇的有46個。而不足10篇的國家和地區(qū)則不予統(tǒng)計,這個做法顯然是正確的,因為數(shù)據(jù)太少沒有意義2。

      第二,如果把30篇語料作為小規(guī)模樣本的下限(且不考慮是否隨機取樣等其他相關(guān)因素),則67個國家或地區(qū)學習者的語料具有統(tǒng)計意義,46個國家和地區(qū)學習者的語料沒有統(tǒng)計意義。有統(tǒng)計意義的數(shù)量與總數(shù)比例約為1:1.69。這個比例意義十分重大,它表明有統(tǒng)計意義的語料已經(jīng)在相當程度上超過了沒有統(tǒng)計意義的語料。很多國家和地區(qū)增加了語料,具有了統(tǒng)計意義。其中最典型的當屬中亞五國,哈薩克斯坦、吉爾吉斯斯坦的語料數(shù)量達到了1000—9999篇,烏茲別克斯坦、塔吉克斯坦、土庫曼斯坦達到了100—999篇;而在HSK語料庫中,這五個國家的語料均不足10篇。顯而易見,與HSK語料庫相比,全球庫的語料平衡性相對較好,使用價值遠高于HSK語料庫。

      同時必須看到,即便在全球庫中,僅從國家和地區(qū)分布的角度看,仍有大約4成的語料沒有統(tǒng)計意義。語料不平衡仍然是一個很大的問題。

      客觀地說,外國漢語學習者的語料分布情況差異確實很大。以HSK高等作文考試的成績分布為例,獲得11級證書3的考生人數(shù)極少,獲得10級的次之,獲得9級的較多,而未獲證考生最多(田清源,2011)。現(xiàn)實如此,成績不同考生的語料自然難以平衡。學習者的國家和地區(qū)分布也是這樣,東亞、東南亞國家的漢語學習者遠遠多于西亞、北亞國家的漢語學習者和歐美、非洲國家的漢語學習者,這是客觀事實。由此看來,完全、徹底、“理想的絕對平衡”可能只是一種理論上的追求,不但在實踐上很難做到,也不應(yīng)該作為追求的目標,因為那并不符合國際中文教育的實際情況(張寶林、崔希亮,2015)?!皬慕◣斓膶嶋H和語料庫的應(yīng)用來看,現(xiàn)實的取向更可取,也更可行?!保ɡ罟鹈罚?017)

      二、問題與原因

      在語料庫的語料分布問題上,不同國家和地區(qū)的語料數(shù)量差距確實較大,甚至很大:排位在前面的多達成千上萬篇,而排在后面的則不足30篇,甚至在10篇以下。而語料太少,就基于語料庫的研究而言,是無法得出具有客觀性、穩(wěn)定性和普遍意義的研究結(jié)論的。因此,語料分布的差距凸顯了語料不平衡性問題,會嚴重影響語料庫的作用和使用價值。

      導致語料不平衡的原因大致有以下幾方面。

      第一,語料庫建設(shè)者缺乏語料庫建設(shè)與應(yīng)用研究的實踐經(jīng)驗,對此問題認識不足,重視不夠。例如HSK語料庫的建設(shè)者在建庫之初對語料庫缺少切實的了解,不但從未建設(shè)過語料庫,而且沒有使用過語料庫,甚至沒有看到過中介語語料庫,完全是根據(jù)自己的對外漢語教學經(jīng)驗和科研經(jīng)驗邊干邊學,逐步摸索和積累相關(guān)知識,純屬“摸著石頭過河”。建設(shè)者的語料庫知識與建庫經(jīng)驗如此貧乏,要求其建設(shè)的語料庫能處理好語料的平衡性問題,顯然是不可能的。

      第二,和國際中文教育的發(fā)展情況密切相關(guān):國際中文教育形勢發(fā)展好的國家和地區(qū)漢語學習者多,產(chǎn)出的語料就多;形勢發(fā)展一般或不太好的國家和地區(qū)漢語學習者較少或很少,產(chǎn)出的語料自然也少。例如在HSK語料庫中鮮有非洲、拉丁美洲、太平洋島嶼的國家和地區(qū)的語料。隨著近十多年來這些地區(qū)國際中文教育的蓬勃發(fā)展,孔子學院、孔子課堂的廣泛建設(shè),埃及、阿爾及利亞、赤道幾內(nèi)亞、贊比亞、剛果(金)、尼日利亞、埃塞俄比亞、剛果(布)、南非、加納、馬達加斯加等非洲國家,墨西哥、巴拿馬、阿根廷、巴西、古巴等拉美國家,湯加、薩摩亞等太平洋島嶼國家,漢語學習者人數(shù)均有顯著增長,在全球庫中這些國家和地區(qū)的漢語學習者語料均達到了有統(tǒng)計意義的數(shù)量水平。

      換個角度看,語料可能在一定程度上反映了國際中文教育的實際情況,即不同國家和地區(qū)漢語學習者的整體數(shù)量。例如HSK語料庫是用1992—2005年參加高等漢語水平考試的考生的作文答卷建設(shè)的語料庫,在一定程度上體現(xiàn)了20世紀90年代至21世紀初各國漢語學習者的分布情況:學習者規(guī)模以韓國、日本為最,其次是部分東南亞國家,再次是歐美一些發(fā)達國家。而全球庫收集的是近10余年來的語料,從其語料分布情況看,韓國仍高居榜首,語料數(shù)量多達兩萬多篇;而日本已退居泰國、越南、印度尼西亞、美國之后,與哈薩克斯坦、吉爾吉斯斯坦、尼泊爾、菲律賓、巴基斯坦等國為“第二梯隊”,語料數(shù)量均在千篇以上;烏茲別克斯坦、塔吉克斯坦、土庫曼斯坦、柬埔寨、老撾、緬甸、伊朗、土耳其、孟加拉國、印度、馬爾代夫、阿富汗等亞洲國家和地區(qū),語料也都達到了100篇或30篇以上。

      從這些實例來看,語料庫的語料分布和近年來全世界國際中文教育的總體形勢是基本一致的。例如語料排名前15位的國家中,韓國、泰國、越南、日本、美國、印度尼西亞、哈薩克斯坦、俄羅斯、巴基斯坦等國都是名列前茅的來華留學生生源國。

      第三,不同國家語料多少,或者說漢語學習者多少,與其和中國的地緣距離、歷史、政治、經(jīng)濟、貿(mào)易、外交、文化、教育等因素密切相關(guān)。例如1992年中韓建交,經(jīng)貿(mào)關(guān)系不斷發(fā)展,韓國學習者人數(shù)持續(xù)增長并占據(jù)高位;日本與中國歷史文化聯(lián)系密切,相當一部分文字相同或相近,日本的大學又要求學生學習第二外語,因而漢語成為日本大學生所學二外的首選;“隨著泰中經(jīng)貿(mào)、文化等方面的交流發(fā)展,以及越來越多中國游客前往泰國旅游,掌握漢語的人才在泰國就業(yè)市場越來越受歡迎”(環(huán)球網(wǎng),2019),在泰國政府的支持下,漢語儼然已經(jīng)成為僅次于英語的第二大外語;據(jù)人民網(wǎng)(2018)消息,“48萬人去年來華留學,‘一帶一路’沿線國生源占半數(shù)以上”,近年來哈薩克斯坦等中亞國家漢語學習者逐漸增多,與其和中國經(jīng)濟貿(mào)易的快速增長密切相關(guān)。

      第四,其他原因。語料庫中有些國家的語料數(shù)量比較令人意外,應(yīng)屬“異常值”。例如韓國語料出奇地多,不但高居榜單首位,而且約為排名第二的泰國語料數(shù)量的3.87倍。同為中歐國家,瑞士語料數(shù)量多達429篇,名列第16位,而其人口只有約876萬;高于其鄰國法國(第18位,人口約6555萬)、德國(第22位,人口約8387萬)、奧地利(第28位,人口約906萬)、意大利(第33位,人口約6028萬)4。而奧地利的語料數(shù)量也多于比其人口數(shù)量多很多的意大利。

      不過,這些“異常值”的出現(xiàn)并不是偶然的,而是有其原因、可以解釋的。

      第一,多年來,韓國一直是來華留學人數(shù)最多的國家,其語料數(shù)量排在第一位是很自然的。但語料多達22,411篇,是唯一語料數(shù)過萬的國家。這是因為參與全球庫項目子課題之一的某校提供的基本都是韓國學習者的語料,包括數(shù)十萬字從韓國收集來的語料。

      第二,瑞士語料較多的原因是瑞士某校中文系教師原本就想建設(shè)漢語學習者語料庫,并已收集、積累了很多語料。得知全球庫項目之后,非常支持,把語料交給了課題組。全球庫因而得到了這筆寶貴的“意外之財”。

      第三,奧地利語料數(shù)量排名相對靠前是因為全球庫在建庫過程中發(fā)現(xiàn)德語背景的漢語學習者語料很少,于是主動和奧地利某校聯(lián)系,得到了該校漢語系教師的大力支持,專門為全球庫收集了語料。

      這幾個所謂的異常值表明,如果能積極主動地想辦法,是可以收集到我們需要的語料的。同時也警示我們,要特別注重語料的平衡性。

      三、解決問題的方法

      語料庫中有些國家的語料確實較少,甚至太少。依據(jù)這樣少的語料在漢語教學、漢語習得研究、漢語中介語研究方面無法得出具有客觀性、穩(wěn)定性和普遍性的研究結(jié)論,語料庫的價值與優(yōu)勢也就無法得以體現(xiàn)。

      語料的平衡性問題可以從以下一些途徑解決。

      第一,目的語環(huán)境下語料的收集。近年來,來華留學生人數(shù)逐年增長,是漢語中介語語料的重要來源?!案鶕?jù)教育部發(fā)布的統(tǒng)計數(shù)據(jù),2018年,共有來自196個國家和地區(qū)的49.2萬名留學生在國內(nèi)1004所高校和科研機構(gòu)學習?!保ń逃浚?019)如此龐大的來華留學生群體,其所學專業(yè)不同,漢語水平不一,為漢語中介語語料庫建設(shè)提供了巨大的潛在語料來源。如能結(jié)合留學生的國籍、母語、漢語水平、學習目的、漢語學習時長、所學專業(yè)、年級等情況,以及1000余所高校和科研機構(gòu)的地域分布、留學生人數(shù)等,定期分層抽樣、采集語料,目的語環(huán)境中的漢語學習者的靜態(tài)語料和動態(tài)語料問題即可得到解決。

      第二,邀請國外漢語教學單位或教師參加語料庫建設(shè),由他們收集學生的漢語語料,是一個頗有成效的方法。他們熟悉國外的相關(guān)規(guī)則,可以因地制宜地采取恰當?shù)姆椒ㄊ占Z料。這是一個已經(jīng)被采用的方法,應(yīng)進一步拓展使用,努力爭取更多的國外漢語教學單位和教師個人參與語料庫建設(shè)工作。

      第三,國內(nèi)眾多高校外派的漢語教師是獲取非目的語環(huán)境漢語中介語語料的重要力量之一。這些外派教師可以與所在國的高校協(xié)商語料合作與采集事宜,按語料收集標準收集當?shù)貪h語學習者產(chǎn)出的漢語中介語語料。需要特別注意的一個重要問題是,一些國家對學生語料的采集與使用有非常嚴格的規(guī)定,不能隨意采集,外派教師須遵守這方面的規(guī)定,與所在高校達成協(xié)議并征得學生同意之后,才能采集語料。

      第四,目前海外孔子學院和孔子課堂約有1700所(個),這是獲取非目的語環(huán)境漢語中介語語料的另一個重要來源??梢园颜Z料收集作為它們的一項常規(guī)任務(wù),定期采集,持續(xù)數(shù)年,便可積累大量語料,滿足語料庫建設(shè)對非目的語環(huán)境漢語中介語語料的需求,特別是對初等和中等教育階段學習者語料的需求。許津彰等(2021)選取英國學習漢語的高中生群體作為語料來源,探索英語母語背景的青少年漢語口語語料庫構(gòu)建,便是一個典型范例。

      第五,由于目前已入庫或已采集到的語料多寡不均,不能滿足平衡性的要求,因此語料采集應(yīng)采取普遍收集和定點收集相結(jié)合的策略,注重針對性,重點采集語料欠缺國家和地區(qū)的學習者語料,以解決語料的平衡性問題。

      落實上述語料采集途徑需要具備如下條件。

      第一,學界的理解與支持。廣泛采集國內(nèi)外學習者的漢語中介語語料是一項非常艱巨的任務(wù),不是哪一個或哪一些漢語教學單位能夠完成的,需要國內(nèi)外漢語學界的廣泛共識、大力支持和共同努力,才有可能實實在在地解決這一問題。

      第二,強有力的組織保障。要完成這樣一項艱巨任務(wù),尤其需要有堅強的組織領(lǐng)導發(fā)揮引領(lǐng)和凝心聚力的作用。例如可以由教育部中外語言交流合作中心、世界漢語教學學會等來組織實施語料采集工作。

      第三,明確可行的語料采集標準與操作規(guī)范。語料采集需制定明確的技術(shù)標準與清晰的操作規(guī)范,以保證采集到的語料真實、完整、具有代表性、背景信息完備,能夠滿足漢語教學、習得研究、中介語分析的需要。

      第四,專業(yè)化隊伍與運作。語料收集工作專業(yè)、龐雜,工作量巨大,應(yīng)選派專業(yè)人員組成專門機構(gòu),派專人負責相關(guān)事宜。例如應(yīng)由語料庫研究專家、主持過語料庫建設(shè)的學者負責制定語料采集標準、流程規(guī)范、審核手冊等;應(yīng)選派富有語料庫建設(shè)實際經(jīng)驗,特別是有語料采集實際工作經(jīng)驗的專業(yè)人員負責實施語料采集的相關(guān)事宜,以督促、落實與檢查語料采集工作的順利開展。

      上述途徑與方法可以有效解決語料的平衡性問題,從而進一步推動漢語中介語語料庫建設(shè),更好地為全世界的漢語教學與研究服務(wù)。

      附注

      1 計算方法:100國÷18國≈5.56。

      2 HSK語料庫(2.0版)也不再統(tǒng)計語料不足10篇的國家和地區(qū)。

      3 老HSK考試的最高證書等級為11級,9級則是高等漢語水平證書的最低一級。

      4 上述數(shù)據(jù)來自“世界人口評論”(World Population Review),總網(wǎng)址:https://worldpopulationreview.com/,數(shù)據(jù)為2022年實時動態(tài)數(shù)據(jù)。

      猜你喜歡
      語料語料庫漢語
      學漢語
      金橋(2022年6期)2022-06-20 01:36:16
      輕輕松松聊漢語 后海
      金橋(2020年11期)2020-12-14 07:52:56
      《語料庫翻譯文體學》評介
      追劇宅女教漢語
      漢語不能成為“亂燉”
      華人時刊(2017年17期)2017-11-09 03:12:08
      把課文的優(yōu)美表達存進語料庫
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實語料在翻譯教學中的應(yīng)用
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      《苗防備覽》中的湘西語料
      金溪县| 通城县| 彭州市| 太湖县| 麦盖提县| 仁怀市| 大庆市| 玉林市| 南开区| 合江县| 时尚| 彰武县| 马山县| 阿克陶县| 蕉岭县| 华安县| 深泽县| 酒泉市| 桂平市| 成武县| 岳阳市| 临颍县| 叙永县| 克什克腾旗| 钟山县| 福清市| 汉阴县| 托里县| 清河县| 民勤县| 富民县| 新邵县| 扎兰屯市| 茌平县| 庐江县| 定兴县| 阿瓦提县| 商河县| 萨嘎县| 平度市| 松原市|