外交學(xué)院 吉 潔
PATTIE兒童讀物及視聽材料英語語料庫(kù)的創(chuàng)建
外交學(xué)院 吉 潔
本文介紹“PATTIE(Preschoolers- and Teenagers-oriented Texts in English)兒童讀物及視聽材料英語語料庫(kù)”的建設(shè)概況。PATTIE語料庫(kù)主要收集由成人所寫,面向4歲到10多歲兒童的英文正式出版物,包括兒童文學(xué)、小學(xué)教材、科普讀物、報(bào)刊新聞和少兒動(dòng)畫5種體裁,涉及英美等地出版物。語料庫(kù)經(jīng)過詞性標(biāo)注和元信息標(biāo)記,可在BFSU CQPweb語料庫(kù)平臺(tái)在線檢索。與面向成人的語料相比,兒童輸入語料不僅在內(nèi)容上更符合兒童的認(rèn)知能力、價(jià)值觀念和興趣趨向,而且在語言使用上具有鮮明特點(diǎn)。PATTIE語料庫(kù)的建成將對(duì)兒童語言學(xué)習(xí)和教學(xué)發(fā)揮積極作用。
兒童讀物及視聽材料英語語料庫(kù)、PATTIE、兒童英語、語料庫(kù)建設(shè)
近20年來,語料庫(kù)語言學(xué)的研究熱點(diǎn)更多集中于學(xué)習(xí)者語料庫(kù)、雙語語料庫(kù)和短語學(xué)等研究(劉霞等 2014),兒童語料庫(kù)似乎并未得到廣泛關(guān)注。其實(shí),基于兒童語料的研究已經(jīng)持續(xù)了一個(gè)多世紀(jì)。Preyer(1889)和Stern & Stern(1907)基于其子女的語料,初步探討了兒童語言的習(xí)得與發(fā)展。Thorndike(1921)和陳鶴琴(1922)為建立詞表所收集的語料中,包含大量?jī)和膶W(xué)、小學(xué)教材或課外讀物。這些最初的紙質(zhì)兒童語料,為語言習(xí)得與教學(xué)相關(guān)研究提供了數(shù)據(jù)基礎(chǔ)(Braine 1963;Fries & Traver 1940;McCarthy 1954)。隨著電子語料庫(kù)的興起和相關(guān)技術(shù)的成熟,越來越多兒童語料庫(kù)建成,主要可分為兩大類:兒童輸出語料庫(kù)和兒童輸入語料庫(kù)。
兒童輸出語料庫(kù),主要收集兒童所產(chǎn)出的語言。其中規(guī)模較大的為卡內(nèi)基梅隆大學(xué)的兒童語言數(shù)據(jù)交流系統(tǒng)CHILDES(MacWhinney & Snow 1985),主要包含0-5歲兒童的多語種歷時(shí)口語語料。蘭卡斯特大學(xué)的LCCPW語料庫(kù)(Smith et al. 1998),為9-11歲兒童的英語歷時(shí)筆語語料。這些歷時(shí)口筆語語料多用于研究?jī)和恼Z言習(xí)得及發(fā)展(Le Normand et al. 2013;Ravid et al. 2008;范莉 2007)。此外,還有一些為特定研究目的而建設(shè)的兒童語料庫(kù)。例如,CMU(Eskenazi et al. 1997)、CNG(Hamalainen et al. 2013)和Jasmin(Cucchiarini & Van hamme 2013)語料庫(kù)分別收錄英語、葡萄牙語和荷蘭語的兒童口語,以改進(jìn)語音識(shí)別系統(tǒng);Gabania et al.(2011)自建兒童口語語料,以輔助診斷語言障礙;趙守輝、劉永兵(2007)建立了新加坡華族兒童語料庫(kù),以服務(wù)于國(guó)家語言規(guī)劃政策。
兒童輸入語料庫(kù),主要收集面向兒童的語言,如兒童文學(xué)、教材等。Sealey &Thompson(2004;2007)從BNC語料庫(kù)中抽取了40篇兒童文學(xué),建成小型CLLIP語料庫(kù),并將其分別用于課堂語言教學(xué)和文學(xué)特征分析。Johns et al.(2008)將兒童文學(xué)Swallows and Amazons建成小型語料庫(kù),讓臺(tái)灣學(xué)生通過解讀索引行來學(xué)習(xí)詞匯,取得了較好的教學(xué)效果。目前規(guī)模較大的輸入型語料庫(kù)較少,英語中僅有牛津兒童語料庫(kù)OCC(Wild et al. 2013)。該庫(kù)包含兒童文學(xué)和非文學(xué)兩部分輸入語料,以及部分兒童輸出的筆語語料,庫(kù)容約3,000萬詞。
總的來講,兒童輸出語料庫(kù)數(shù)量較多,相關(guān)研究也較為豐富,僅基于CHILDES語料庫(kù)的語言習(xí)得研究就多達(dá)數(shù)千篇1。相比之下,兒童輸入語料庫(kù)的數(shù)量較少,相關(guān)研究也寥寥無幾。成人語料庫(kù)已證實(shí)其在語言教學(xué)和數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)中的重要作用,但其語料不一定符合兒童學(xué)習(xí)者的認(rèn)知能力、價(jià)值觀念和興趣趨向。已有的兒童輸出語料庫(kù)主要為尚在發(fā)展中的兒童語言,也不適合作為例句教給學(xué)習(xí)者。因此,建立一個(gè)由成人所寫的、面向兒童的輸入語料庫(kù),既能保證語料的合理性,又能保證內(nèi)容的貼合性,對(duì)兒童語言學(xué)習(xí)和教學(xué)有一定的意義。然而,已有OCC語料庫(kù)僅供牛津出版社編纂詞典,并未公開發(fā)行。其輸入語料中,小說文學(xué)約占80%,略顯單一,且未包含兒童經(jīng)常接觸到的影視動(dòng)畫等口語語料?;谝陨显颍狙芯吭噲D建設(shè)一個(gè)采樣平衡、對(duì)研究人員開放的兒童讀物及視聽材料英語語料庫(kù),即Preschoolers- and Teenagers-oriented Texts in English語料庫(kù),簡(jiǎn)稱PATTIE語料庫(kù)。
2.1 語料構(gòu)成
本語料庫(kù)主要收集由成人所寫的、面向4歲至10多歲兒童的英文正式出版或發(fā)行作品2。語料總庫(kù)容約為200萬詞3,包括36個(gè)文本文件,分屬5種體裁:兒童文學(xué)、小學(xué)教材、科普讀物、報(bào)刊新聞、少兒動(dòng)畫。詳見表1。
兒童文學(xué)包括當(dāng)代文學(xué)和經(jīng)典文學(xué)兩部分。其中,當(dāng)代文學(xué)主要收集1990年之后出版的暢銷作品或獲獎(jiǎng)書籍,包括《哈利波特》系列、《神奇樹屋》系列、《穿條紋衣服的男孩》和《愛德華的奇妙之旅》等7部作品,共約49萬字,占總庫(kù)容24.75%。經(jīng)典文學(xué)主要收集1960年之前出版的,至今仍然被廣泛閱讀的經(jīng)典作品,如《愛麗絲漫游仙境》、《夏洛的網(wǎng)》、《小王子》、《綠野仙蹤》等8部作品,共約43萬字,占總庫(kù)容21.36%。
小學(xué)教材主要收集近年來英、美兩國(guó)主流小學(xué)教材或讀物,包括《加州語文》、《牛津閱讀樹》等4套教材,共約36萬字,占總庫(kù)容17.88%。
科普讀物收集了暢銷科普?qǐng)D畫書《神奇校車》,以及著名兒童出版社DK和Scott Foresman的兩套科學(xué)教材,共約8萬字,占總庫(kù)容4.19%。
報(bào)刊新聞主要收集美國(guó)《時(shí)代周刊兒童版》近兩年的新聞報(bào)道,涉及娛樂、體育、健康、科技、國(guó)內(nèi)、國(guó)外6大方面,共約10萬字,占總庫(kù)容5.36%。
少兒動(dòng)畫主要收集近20年收視率較高的、或者獲得較多獎(jiǎng)項(xiàng)的動(dòng)畫片劇本,包括“降世神通”、“數(shù)字精靈”等8部動(dòng)畫,共約53萬字,占總庫(kù)容26.46%。
總體來講,本庫(kù)涵蓋4歲至10多歲兒童的大部分語言輸入形式,并將其在兒童日常生活中的實(shí)際比例考慮在內(nèi)。例如,文學(xué)、教材及動(dòng)畫所占比例可能較大,而科普和新聞的比例可能略小。就來源地域而言,本庫(kù)優(yōu)先選用英國(guó)與美國(guó)的原始語料,僅有《伊索寓言》、《安徒生童話》和《格林童話》這3部作品屬于譯本語料。且總體取樣較為平均,英式英語和美式英語幾乎各占一半。就出版或發(fā)行時(shí)間而言,約80%語料取自1990年以后,較能體現(xiàn)當(dāng)代英語語言的特色。
表1 . 兒童英語輸入語料庫(kù)PATTIE的構(gòu)成
(續(xù)表)
2.2 語料采集、整理與標(biāo)注
本庫(kù)語料來源主要有4種形式:電子書、紙質(zhì)書、網(wǎng)頁、字幕文件。針對(duì)不同的形式,有以下不同的采集方式:1)文學(xué)作品主要為pdf格式的電子書,需要先使用Adobe Acrobat Pro軟件將頁眉頁腳裁剪掉,僅保留正文部分,并另存為Word文檔。再?gòu)腤ord文檔復(fù)制粘貼到純文本文件中4,并保存為ANSI編碼格式。2)小學(xué)教材和科普讀物主要為紙質(zhì)書,需要先將書籍掃描為pdf格式的電子書,然后使用ABBYY FineReader軟件進(jìn)行OCR文字識(shí)別。經(jīng)人工核對(duì)后,另存為純文檔。3)報(bào)刊新聞主要來源于網(wǎng)頁,需要從網(wǎng)頁中將新聞?wù)膹?fù)制粘貼到純文本文件中,并刪掉廣告等無關(guān)信息。4)少兒動(dòng)畫主要取自于srt格式的字幕文件,需要先編寫正則表達(dá)式,將時(shí)間軸等無關(guān)信息刪除,僅保留動(dòng)畫字幕文字正文,再將所有字幕文件合并另存為純文本文件。
語料采集完畢后,需要進(jìn)行格式整理。在PowerGREP軟件中執(zhí)行Text Cleaning Library.pgl操作5,通過“噪音刪除”、“斷行修正”、“文本清理”和“精益求精”4個(gè)步驟,可解決非正常斷行、中文或全角字符、多余空格或空行等多項(xiàng)問題。
語料整理完畢之后,即得到生文本語料庫(kù)(PATTIE_RAW)。使用CLAWS(C7編碼)對(duì)生語料進(jìn)行POS詞性標(biāo)注,即得到標(biāo)注過詞性的語料庫(kù)(PATTIE_POS)。根據(jù)表1為本語料庫(kù)標(biāo)注以下元信息:類別(genre)、出版時(shí)間(time)和區(qū)域(region),并單獨(dú)存儲(chǔ)為制表符分隔的(tab-delimited)文本文件。
2.3 在線檢索平臺(tái)
本語料庫(kù)可在BFSU CQPweb進(jìn)行在線檢索6。該平臺(tái)既可對(duì)單詞、短語進(jìn)行簡(jiǎn)單查詢,也可使用正則表達(dá)式對(duì)詞性賦碼、類聯(lián)接等形式進(jìn)行復(fù)雜檢索,還可實(shí)現(xiàn)生成詞表、計(jì)算主題詞等多項(xiàng)功能(許家金、吳良平 2014)。根據(jù)標(biāo)注的元信息,用戶可選定一個(gè)或多個(gè)限制條件(如1990年之后英國(guó)出版的兒童文學(xué)),對(duì)本庫(kù)中部分語料進(jìn)行針對(duì)性檢索。
建立專門面向兒童的輸入語料庫(kù),不僅由于其內(nèi)容更符合兒童的認(rèn)知水平和觀念興趣,也是由于其語言使用與面向成人的語料明顯不同。為了更好地挖掘兒童英語輸入語的特點(diǎn),本研究專門組建了400萬庫(kù)容的參照語料庫(kù),包括布朗家族的6個(gè)語料庫(kù)(Brown、LOB、Frown、FLOB、Crown、LOB)中的小說部分,以及其中Crown和CLOB兩庫(kù)的一般、學(xué)術(shù)和新聞部分,并自建了“老友記”和“摩登家庭”兩部情景劇的語料,以保證參照語料在內(nèi)容、結(jié)構(gòu)與比例上均與本語料庫(kù)具有可比性(見表2)。并且,布朗家族語料庫(kù)涵蓋英、美兩個(gè)地域,時(shí)間跨度從上世紀(jì)60年代至今,其中最新的Crown和CLOB兩庫(kù)皆為2009年左右的語料(Xu & Liang 2013),因此在時(shí)間和地域上也與本語料庫(kù)相似。具體對(duì)比結(jié)果如下:
就語料難度而言,面向兒童的語料整體難度低于成人語料。這主要表現(xiàn)在以下幾方面:1)兒童語料的標(biāo)準(zhǔn)類形比(STTR,每千詞)為38.13,成人語料為43.71,這說明兒童語料的詞匯豐富度不及成人語料。2)兒童語料的平均詞長(zhǎng)和句長(zhǎng)均低于成人語料。尤其是平均句長(zhǎng),兒童語料僅為8.59詞,約為成人句長(zhǎng)的一半,句式相對(duì)短小簡(jiǎn)單。3)使用Range軟件得到GSL詞表分布情況,其中第三級(jí)和詞表外詞匯對(duì)文本難度有較好的判別能力(梁茂成等 2010:138)。表2可見,兒童語料的三級(jí)詞匯占0.78%,詞表外詞匯占11.63%,分別低于成人語料的3.38%和12.76%,這說明兒童語料中的詞匯更加容易一些。
就常用詞語而言,兒童語料的詞語意義更具體,更物理化、可見化。成人語料的詞語意義更抽象,更心理化、社會(huì)化。對(duì)比兩種語料的關(guān)鍵詞發(fā)現(xiàn):1)兒童語料更常使用實(shí)體名詞,如親人(daddy、father、mum(my)、grandpa、granny、grandma、uncle)、動(dòng)物(dragon、rabbit、lion、duck、dog、dinosaur、bird、mouse、fox、frog)、自然(tree、forest、flower、water、snow、moon、sun、sky、wind、rock、sea、mountain)、食品(food、potato、cake、chocolate、apple)、玩具(toy、wand、rope、sword、kite)等,其所指較具體。而成人語料更常使用抽象名詞,如表示政治(administration、government、election)、經(jīng)濟(jì)(economy、finance、market、insurance、budget、income、fund)、社會(huì)文化(society、culture、religion、media、law)、關(guān)系(relationship、marriage)等詞,其意義較抽象。2)兒童語料更常使用身體動(dòng)詞,如看(look、see)、聽(hear)、說(said、ask、yell、shout、squeak、whisper、sing)、哭笑(cry、laugh、giggle)、四肢動(dòng)作(run、jump、hop、climb、ride、pull、grab)等。這些均屬物理動(dòng)作,具有可視性。而成人語料更常使用心理動(dòng)詞(know、consider)或者名物化了的心理活動(dòng)(analysis、decision、assessment)來表示動(dòng)作。3)兒童語料的常用形容詞多表示物理屬性,如形狀(little、big、giant、long)、顏色(red、green、blue)、溫濕(warm、cold、wet)、音量(loud、quiet)等。而成人語料的常用形容詞多表示社會(huì)屬性,如政治經(jīng)濟(jì)(financial、commercial、political)、社會(huì)文化(religious、married、legal)、區(qū)域性(local、global、international、British)、公開性(public、private)等。
就時(shí)態(tài)和句型而言,兒童語料常用過去時(shí)態(tài)和疑問句,成人語料常用完成時(shí)態(tài)、進(jìn)行時(shí)態(tài)和從句。對(duì)比兩種語料的POS碼發(fā)現(xiàn):1)兒童語料更常使用動(dòng)詞過去式(VVD)、動(dòng)詞原形(VVO)、動(dòng)詞不定式(VVI)以及情態(tài)動(dòng)詞(VM)。而成人語料更常使用動(dòng)詞過去分詞(VVN)、現(xiàn)在分詞(VVG)和第三人稱單數(shù)形式(VVZ)。2)兒童語料更常使用疑問副詞(RRQ),如where、how。而成人語料更常使用從屬連詞(CS),如that、if、whether、because、although等。使用從句也許是成人語料句長(zhǎng)更長(zhǎng)的原因之一。
表2 . 參照語料庫(kù)的構(gòu)成及其與本庫(kù)的對(duì)比
本文主要介紹了兒童英語讀物及視聽材料語料庫(kù)PATTIE的設(shè)計(jì)與建設(shè),并初步探討了兒童英語輸入語言的特點(diǎn)。PATTIE語料庫(kù)主要收集由成人所寫的、面向4歲到10多歲兒童的英文正式出版或發(fā)行作品,包括兒童文學(xué)、小學(xué)教材、科普讀物、報(bào)刊新聞和少兒動(dòng)畫5種體裁,涉及英國(guó)和美國(guó)不同地域,取樣結(jié)構(gòu)較為平衡。語料庫(kù)經(jīng)過詞性標(biāo)注和元信息標(biāo)注,可在BFSU CQPweb平臺(tái)在線檢索。與面向成人的語料相比,兒童輸入語料不僅在內(nèi)容上更符合兒童的認(rèn)知能力、價(jià)值觀念和興趣趨向,而且在語言使用上具有鮮明特點(diǎn),對(duì)兒童語言學(xué)習(xí)和教學(xué)有更多的實(shí)用價(jià)值。限于時(shí)間與精力,目前PATTIE語料庫(kù)的庫(kù)容較小,后續(xù)仍需作進(jìn)一步的擴(kuò)充。本語料庫(kù)還可與兒童輸出語料庫(kù)、國(guó)內(nèi)英語教材庫(kù)進(jìn)行交叉對(duì)比研究。
注釋
1. 根據(jù)CHILDES網(wǎng)站數(shù)據(jù)(http://talkbank.org/info/usage/childesbib.pdf),截止到2008年,基于該庫(kù)發(fā)表的相關(guān)研究共3,104篇。
2. 本庫(kù)所收語料的版權(quán)歸原出版社或發(fā)行方所有。本庫(kù)為免費(fèi)在線檢索平臺(tái),不提供全文查看或下載。僅供學(xué)術(shù)研究或?qū)W習(xí)教學(xué)使用,請(qǐng)勿用于任何商業(yè)用途。
3. 本文庫(kù)容采用“[A-Za-z0-9-]+”的計(jì)算方法。
4. 不直接另存為純文本,是為了避免行末出現(xiàn)多余換行符。
5. Text Cleaning Library.pgl是由筆者編寫的文本清理代碼,需在PowerGREP軟件中執(zhí)行,可從http://www.bfsu-corpus.org/channels/tools下載。
6. 本庫(kù)在線檢索網(wǎng)址為http://124.193.83.252/cqp/pattie/,用戶名和密碼均為“test”。
Braine, M. 1963. The ontogeny of English phrase structure: The first phase [J]. Language 39: 1-13.
Cucchiarini, C. & H. Van hamme. 2013. The JASMIN speech corpus: Recordings of children,non-natives and elderly people [A]. In P. Spyns & J. Odijk (eds.). Essential Speech and Language Technology for Dutch [C]. Berlin: Springer. 43-59.
Eskenazi, M., J. Mostow & D. Graff. 1997. The CMU Kids Corpus LDC97S63 [OL] https://catalog.ldc.upenn.edu/LDC97S63 (accessed 09/02/2015). Philadelphia: Linguistic Data Consortium.
Fries, C. & A. Traver. 1940. English Word List: A Study of their Adaptability and Instruction [M].Washington, D.C.: American Council of Education.
Gabania, K., T. Soloriob, Y. Liua, K. Hassanalia & C. Dollaghanc. 2011. Exploring a corpus-based approach for detecting language impairment in monolingual English-speaking children [J].Artificial Intelligence in Medicine 53: 161-170.
Hamalainen, A., S. Rodrigues, A. Judice, S. M. Silva, A. Calado, F. M. Pinto & M. S. Dias.2013. The CNG corpus of European Portuguese children’s speech [A]. In I. Habernal & V.Matousek (eds.). Text, Speech, and Dialogue [C]. Berlin: Springer. 544-551.
Johns, T., H. Lee & L. Wang. 2008. Integrating corpus-based CALL programs in teaching English through children’s literature [J]. Computer Assisted Language Learning 21: 483-506.
Le Normand, M., I. Moreno-Torres, C. Parisse & G. Dellatolas. 2013. How do children acquire early grammar and build multiword utterances? A corpus study of French children aged 2 to 4 [J]. Child Development 84: 647-661.
MacWhinney, B. & C. Snow. 1985. The child language data exchange system [J]. Journal of Child Language 12: 271-296.
McCarthy, D. 1954. Language development in children [A]. In L. Carmichael (ed.). Manual of Child Psychology [C]. New York: Wiley. 492-630.
Preyer, W. 1889. The Mind of a Child [M]. New York: Appleton.
Ravid, D., W. Dressler, B. Nir-Sagiv, K. Korecky-Kroll, A. Souman, K. Rehfelt. 2008. Core morphology in child directed speech: Crosslinguistic corpus analyses of noun plurals[A]. In H. Behrens (ed.). Corpora in Language Acquisition Research: History, Methods,Perspectives [C]. Amsterdam: Benjamins. 25-60.
Sealey, A. & P. Thompson. 2004. ‘What do you call the dull words?’ Primary school children using corpus-based approaches to learn about language [J]. English in Education 38: 80-91.
Smith, N., A. McEnery & R. Ivanic. 1998. Issues in transcribing a corpus of children's handwritten projects [J]. Literary and Linguistic Computing 13: 217-225.
Stern, C. & W. Stern. 1907. Die Kindersprache: Eine psychologische und sprachtheoretische Untersuchung [M]. Leipzig: Barth.
Thompson, P. & A. Sealey. 2007. Through children’s eyes? Corpus evidence of the features of children’s literature [J]. International Journal of Corpus Linguistics 12: 1-23.
Thorndike, E. 1921. The Teacher’s Word Book [M]. New York: Columbia University.
Wild, K., A. Kilgarriff & D. Tugwell. 2013. The Oxford Children’s Corpus: Using a children’scorpus in lexicography [J]. International Journal of Lexicography 26(2): 190-218.
Xu, J. & M. Liang. 2013. A tale of two C’s: Comparing English varieties with Crown and CLOB(The 2009 Brown family corpora) [J]. ICAME Journal 37: 175-183.
陳鶴琴,2014,語體文應(yīng)用字匯[J],《語料庫(kù)語言學(xué)》(1):94-102。
范 莉,2007,兒童對(duì)普通話中否定詞的早期獲得 [J],《現(xiàn)代外語》(2):144-154。
梁茂成、李文中、許家金,2010,《語料庫(kù)應(yīng)用教程》[M]。北京:外語教學(xué)與研究出版社。
劉 霞、許家金、劉 磊,2014,基于CiteSpace的國(guó)內(nèi)語料庫(kù)語言學(xué)研究概述(1998-2013)[J],《語料庫(kù)語言學(xué)》(1):69-77。
許家金、吳良平,2014,基于網(wǎng)絡(luò)的第四代語料庫(kù)分析工具CQPweb及應(yīng)用實(shí)例 [J],《外語電化教學(xué)》(5):10-15。
趙守輝、劉永兵,2007,新加坡華族學(xué)前兒童口語語料庫(kù)的生成 [J],《世界漢語教學(xué)》(2):98-105。
附錄一 PATTIE常用關(guān)鍵詞表(前100)
(續(xù)表)
(續(xù)表)
附錄二 PATTIE常用詞組列表(前50)
通信地址:100037 北京市外交學(xué)院英語系