• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      iWriteBaby中國學習者英語語料庫的創(chuàng)建*

      2019-08-22 00:49:50北京外國語大學許家金
      語料庫語言學 2019年1期
      關鍵詞:詞表語料語料庫

      北京外國語大學 許家金

      提要:我國大學生已廣泛使用在線寫作系統(tǒng)。這給英語寫作帶來深刻變革,也滋生出海量作文語料。本文介紹的800萬詞iWriteBaby中國學習者英語語料庫采集自iWrite在線寫作與評閱系統(tǒng)。該語料庫是目前我國已公開的最大規(guī)模英語學習者語料庫。其語料來源廣泛、話題多樣。本文還簡介了該庫的在線檢索平臺使用方法。

      1.背景

      從國際范圍來看,我國學習者語料庫研究起步較早。20世紀90年代初,北京語言學院(北京語言大學前身)便開始了外國留學生漢語中介語語料庫的建設與研究(儲誠志、陳小荷1993)。國際上的學習者語料庫研究也大約在1993年左右逐步開展起來(Granger 2015:8)。在1996年前后桂詩春、楊惠中兩位先行者開始了“中國學習者英語語料庫”(Chinese Learners' English Corpus,CLEC)的研制。CLEC語料庫于2003年出版發(fā)行。其后,各類英語學習者語料庫如雨后春筍。其中代表性的成果包括:“中國學生英語口筆語語料庫”(Spoken and Written English Corpus of Chinese Learners,SWECCL)、“中國大學生英漢漢英口筆譯語料庫”(Parallel Corpus of Chinese EFL Learners,PACCEL)、“大學英語學習者口語英語語料庫”(College Learners' Spoken English Corpus,COLSEC)。詳見徐秀玲、許家金(2017:63-64)的相關綜述。

      近年,我國大學生的英語寫作方式發(fā)生了顯著變化。在各大高校,學生們的日常寫作,乃至測驗和考試中的英語作文部分往往都是在線完成。由此產(chǎn)生的海量學生作文構成學習者英語語料庫的寶貴素材。本文介紹的“iWriteBaby中國學習者英語語料庫”(以下簡稱“iWriteBaby語料庫”)便是在這一背景下誕生的。

      2.iWriteBaby語料庫建設概況

      iWriteBaby語料庫中的數(shù)據(jù)來自iWrite英語寫作評閱引擎所產(chǎn)生的英語作文,我們將后者稱為iWrite語料庫,即iWrite總庫,截至2019年4月其總規(guī)模達1.85億詞次。該語料庫將不斷擴容,動態(tài)增長。我們從iWrite總庫中精選出800多萬詞,建成了iWriteBaby語料庫,與學界共享。我們希望這些取之于學生的作文,最終可以用之于學生,對改進學生英語寫作有所助益。

      iWriteBaby語料庫從2016年籌建,歷經(jīng)三年左右時間,于2019年3月23日在第四屆全國高等學校外語教育改革與發(fā)展高端論壇期間正式發(fā)布。

      iWriteBaby語料庫起初設計規(guī)模為1,000萬詞次,意在將先前百萬詞級學習者語料庫擴展至千萬詞級。在建設實踐中我們發(fā)現(xiàn),這1,000萬詞語料中仍然存在大量不合規(guī)文本。其中包含有與庫中其他作文部分或完全雷同的作文,明顯超出中國學習者英語水平的作文,含大量漢字的作文,隨意敲入的任意字符串組成的文本,甚至全文以漢語拼音寫成的作文,等等。如此刪去約170多萬詞。

      這次發(fā)布的iWriteBaby語料庫為iWriteBaby 1.0版。其中包含學習者英語作文52,855篇,計8,299,066詞次(單詞定義為[a-zA-Z0-9-]+)。庫中作文來自全國69所高校(其中重點大學與普通高校比例約為1: 10)。它們來自全國23個省市自治區(qū),48個不同的城市。這些學生分布在154個不同的學科專業(yè)。入庫的作文題目超過1,000個。

      iWriteBaby語料庫由北京外國語大學許家金總體設計,并完成相關的語料整理校對工作。語料庫建設的全過程得到北京外研在線數(shù)字科技有限公司、匯智明德(北京)教育科技有限公司的資金和技術支持。語料庫的整體設計得到梁茂成教授的指導。

      3.iWriteBaby語料庫在線檢索平臺

      目前的單機版語料庫軟件已很難處理800萬詞規(guī)模的iWriteBaby語料庫。因此,我們將該語料庫部署在“語料云”在線平臺(http://www.corpuscloud.cn)。該云平臺可以實現(xiàn)WordSmith、AntConc、BFSU PowerConc等單機版語料庫工具的相應功能,例如詞表、索引分析、搭配等。語料云是在大數(shù)據(jù)時代BFSU PowerConc的網(wǎng)絡實現(xiàn)(許家金、賈云龍 2013;許家金、吳良平 2014),強于分析大規(guī)模語料庫數(shù)據(jù)。

      在語料云平臺注冊賬號后,可免費訪問iWriteBaby語料庫。登錄后,用戶需在頁首導航欄找到“設置”,并在“顯示設置”中勾選iWriteBaby 1.0 beta。這樣便可在首頁“1.語料庫”欄中選擇iWriteBaby 1.0 beta語料庫進行檢索分析。

      3.1 詞表功能

      通過語料云的“工具”菜單找到“詞表生成”,就可以創(chuàng)建iWriteBaby語料庫的詞頻表。圖1中顯示的是iWriteBaby中最常用的詞匯。在詞表結果中顯示的庫容量為8,293,751詞,與前文我們提供的總詞數(shù)略有差別。這與該系統(tǒng)與我們的單詞定義不同有關。若使用該云平臺,則庫容信息及其他相應頻數(shù)都應統(tǒng)一以系統(tǒng)提供的數(shù)據(jù)為準。

      語料云平臺還允許我們生成2到5詞的多詞詞表(或詞塊列表)。除詞表外,該平臺還可生成詞性(串)列表等。

      圖1 詞表功能

      正如英語本族語者常用詞一樣,位列詞表頂端的詞匯基本都是功能詞。iWriteBaby語料庫詞表也有十分相近的趨勢,其高頻詞依次是the、to、and、of、is、a、in、we、it、can、I、you、more、that、are、for、people。其中people位列第17位,是排位最高的實義詞。

      3.2 檢索功能

      中國英語學習者為何使用people如此頻繁?我們可以通過語料云的“檢索”功能進一步加以了解。

      圖2 檢察功能

      3.3 搭配功能

      我們可通過搭配分析更多地了解people使用語境的典型搭配概率分布情況。

      圖3 搭配功能

      圖3中的典型搭配詞位于people的左邊緊鄰位置,構成people的限定語或修飾語。其完整形式為some people、many people、(a lot) of people、(more and) more people、other people、different people等。從上述典型搭配詞及原文語境,我們認為people以及people構成的短語,在中國學習者英語中發(fā)揮著代詞的作用。這也解釋了為何people位列虛詞聚集的詞表頂端。People的這一中介語表現(xiàn)在漢英翻譯中也存在(許家金 2016:18-19)??梢哉f,相當一部分的people用法是冗余的,而這些用法極有可能來自漢語母語的影響。例如,some people對應漢語的“有人”(相當于英語的someone、somebody);other people對應漢語的“別人,其他人”(相當于英語的others、they)。

      另外,iWriteBaby檢索界面還提供子庫分組功能。例如,用戶可按大學類型(普通大學、重點大學)、性別(男生、女生)、任務類型(班級測試、課下寫作、學??荚嚕┓謩e檢索分析結果,進而進行對比研究。

      4.結語

      根據(jù)對iWriteBaby語料庫的分析,我們針對中國英語學習者出現(xiàn)的典型英語表達錯誤,還創(chuàng)建了相關的教學案例庫(http://ucreate.unipus.cn),用于改進英語寫作。iWriteBaby語料庫項目是在CLEC等開創(chuàng)性語料庫項目基礎上,意在將基于語料庫的中介語研究向前推進一步。上述介紹的語料庫建設工作只是我們的初期目標,后續(xù)還會利用iWrite寫作平臺嘗試開發(fā)同題作文庫、學習者作文追蹤庫等更多的教學研究資源。

      猜你喜歡
      詞表語料語料庫
      A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
      英語世界(2021年13期)2021-01-12 05:47:51
      《語料庫翻譯文體學》評介
      把課文的優(yōu)美表達存進語料庫
      基于語料調查的“連……都(也)……”出現(xiàn)的語義背景分析
      敘詞表與其他詞表的互操作標準
      華語電影作為真實語料在翻譯教學中的應用
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      《苗防備覽》中的湘西語料
      國內外語用學實證研究比較:語料類型與收集方法
      國外敘詞表的應用與發(fā)展趨勢探討*
      圖書館建設(2012年3期)2012-10-23 05:16:30
      乃东县| 灯塔市| 新乐市| 富阳市| 皮山县| 益阳市| 讷河市| 洮南市| 盐池县| 山东| 方城县| 财经| 湟源县| 松阳县| 皮山县| 中卫市| 镇巴县| 孝感市| 英超| 沾益县| 攀枝花市| 盐城市| 志丹县| 津市市| 兴国县| 长葛市| 澳门| 绍兴市| 囊谦县| 苏尼特左旗| 徐汇区| 合山市| 巴里| 新津县| 虹口区| 望城县| 清河县| 蓝山县| 大埔县| 高尔夫| 桂东县|