胡曉清
( 魯東大學(xué) 文學(xué)院,山東 煙臺,264025 )
自1995年國內(nèi)第一個“漢語中介語語料庫”(儲誠志,陳小荷)建成至今,中國大陸和港澳臺地區(qū)陸續(xù)建成“HSK動態(tài)作文語料庫”(北京語言大學(xué))、“外國留學(xué)生語法信息偏誤庫”(南京師范大學(xué))、“漢字偏誤標(biāo)注的漢語連續(xù)性中介語語料庫”(中山大學(xué))、“東南亞華裔留學(xué)生作文語料庫”(暨南大學(xué))、“美國學(xué)生漢語作文縱向語料庫”(南京大學(xué))、“外國留學(xué)生漢語口語縱向語料庫”(南京大學(xué))、“小型外國學(xué)生漢語口語語料庫”(蘇州大學(xué))、“外國留學(xué)生口語語料庫”(香港中文大學(xué))、“漢語學(xué)習(xí)者漢字偏誤數(shù)據(jù)資料庫”(臺灣師范大學(xué))、“韓國留學(xué)生漢語中介語語料庫”(魯東大學(xué))、“多層偏誤標(biāo)注的國別化漢語中介語動態(tài)語料庫”(魯東大學(xué))等多個規(guī)模不等、特點不一、種類不同的漢語中介語語料庫。另有超大規(guī)模的“全球漢語中介語語料庫”等語料庫正在建設(shè)中。漢語中介語語料庫的建設(shè)對漢語作為第二語言教學(xué)研究起到了堅實的支撐作用,同時眾多研究者還將漢語中介語語料庫建設(shè)本身作為研究方向,對建庫理念、建庫范式、建庫原則、建庫層級、口語語料和書面語語料的采集、語料標(biāo)注、不同語料庫間的差異等進(jìn)行了專項研究或比較研究。*陳小荷:《“漢語中介語語料庫系統(tǒng)”介紹》,《第五屆國際漢語教學(xué)討論會論文選》1996年;張寶林:《談漢語中介語語料庫的建設(shè)標(biāo)準(zhǔn)》,《語言文字應(yīng)用》2015年第2期;肖奚強:《漢語中介語語料庫標(biāo)注的全面性及類別問題》,《漢語教學(xué)研究》2014年第3期;曹賢文:《留學(xué)生漢語中介語縱向語料庫建設(shè)的若干問題》,《語言文字應(yīng)用》2013年第2期;任海波:《關(guān)于中介語語料庫建設(shè)的幾點思考——以“HSK動態(tài)作文語料庫”為例》,《語言教學(xué)與研究》2010第6期;胡曉清:《韓國留學(xué)生漢語中介語語料庫的標(biāo)注研究》,《首屆漢語中介語語料庫建設(shè)與應(yīng)用國際學(xué)術(shù)討論會論文選集》2011年。筆者所在的團(tuán)隊自2006年起也一直在建設(shè)漢語中介語語料庫,迄今為止已完成兩個語料庫,在建第三個語料庫。建庫過程中,隨著對漢語中介語語料庫認(rèn)識的加深,漢語中介語語料庫建設(shè)理念不斷更新,建庫實踐隨之改進(jìn)。本文擬就國別化漢語中介語動態(tài)語料度的建庫理念、建庫實踐與前瞻等方面予以討論。
截至目前,國內(nèi)已開發(fā)的中介語語料庫除“HSK動態(tài)作文語料庫”全開放使用之外,其他語料庫部分開放或封閉使用。部分學(xué)者曾對單國別漢語中介語語料庫的建設(shè)有所質(zhì)疑,認(rèn)為多國別中介語語料庫中已包含的國別,其中介語情況可在多國別語料庫中檢索、提取,與其建設(shè)單國別中介語語料庫,不如加大多國別語料庫的規(guī)模。對此,我們有不同意見。
從語料數(shù)量看,目前語料庫中單國別中介語語料不夠充足。以韓國留學(xué)生漢語中介語為例,“漢語中介語語料庫”100萬字加工語料中朝鮮語占15%(陳小荷,1996),即韓國學(xué)生漢語中介語加工語料為15萬字。其他中介語語料庫未見國別抽樣具體數(shù)據(jù),但只要是平衡語料,韓國留學(xué)生語料應(yīng)不超過100萬字。[注]基于“HSK動態(tài)作文語料庫”總規(guī)模400萬字、南京師范大學(xué)語料庫100萬字、中山大學(xué)語料庫100余萬字、暨南大學(xué)語料庫400萬字的初步數(shù)據(jù)信息。如語料再進(jìn)行程度分級,分布到每個層級的韓國學(xué)生中介語語料會更少,這樣無法為單國別中介語偏誤研究和國別化漢語教學(xué)提供足量的語料。因此,有必要建設(shè)較大規(guī)模的針對韓國留學(xué)生的國別化漢語中介語語料庫。
從語料層級看,目前規(guī)模最大的“HSK動態(tài)作文語料庫”采自高級漢語水平考試作文語料,因此,語料均為高級學(xué)段作文?!皾h語中介語語料庫”中15萬字韓國學(xué)生語料若分布到初、中、高三級,每一層級語料量會更少。其他類同。這就使基于中介語語料庫進(jìn)行漢語字、詞、句、篇的難度序列研究受到分層級語料數(shù)量不足的制約。因此,有必要對分層級中介語語料庫予以關(guān)注。
從語料動態(tài)性看,文中所涉中介語語料庫均為動態(tài)語料庫,但側(cè)重點各有不同?!癏SK動態(tài)作文語料庫”的動態(tài)性偏重于歷時的可擴充性,即可隨著HSK高級考試的逐年進(jìn)行不斷補充新的語料。然而,庫中很難收錄到同一學(xué)習(xí)者的歷年動態(tài)語料?!皾h語中介語語料庫”本意也要對同一學(xué)習(xí)者不同學(xué)習(xí)階段語料進(jìn)行跟蹤收集,以便開展跟蹤性調(diào)查研究。然而在取樣時為了“使核心語料中各種屬性的語料分布比較均勻”(陳小荷,1996)不得不“損有余而補不足”(陳小荷,1996),規(guī)定同一作者的語料一般最多抽取4篇,如此便無法開展學(xué)習(xí)者個案跟蹤研究。要想使中介語語料既能滿足面向全體學(xué)習(xí)者的偏誤規(guī)律研究需要,又能展開面向單一學(xué)習(xí)者的個案跟蹤研究,語料庫建設(shè)中的動態(tài)性就要既考慮一般意義的歷時動態(tài),也要注意針對部分學(xué)時較長,學(xué)級跨初、中、高三段的學(xué)生,對其進(jìn)行語料的足量跟蹤收集。
從語料加工情況看,各中介語語料庫基于不同研究目的和用途,加工項目也不盡相同?!皾h語中介語語料庫”主要進(jìn)行了文字預(yù)處理、斷句、分詞、詞性標(biāo)注等加工,未對學(xué)習(xí)者偏誤進(jìn)行標(biāo)注。其他語料庫有的主要進(jìn)行了句法屬性和偏誤標(biāo)注;有的側(cè)重于偏誤標(biāo)注,未進(jìn)行分詞。如果考慮到全面研究的必要,進(jìn)行更多層面的加工標(biāo)注,語料庫會更高效、實用。我們的語料庫則試圖在語料加工上更加全面、細(xì)致。
另外,多國別中介語語料庫在語料加工中制定的規(guī)范和規(guī)則,應(yīng)該是面向所有漢語學(xué)習(xí)者的普適性規(guī)律,為此有時要排除、忽略只影響某一國別的特殊情況。而單國別語料庫可根據(jù)單一國別語料的實際情況,制定最適合該國別偏誤研究的標(biāo)注規(guī)范,避免寶貴的個性化偏誤現(xiàn)象淹沒于寬泛的規(guī)則中。
建設(shè)一個規(guī)模大、數(shù)量充足、層級鮮明、加工細(xì)致的單國別漢語中介語動態(tài)語料庫是對通用型漢語中介語語料庫的必要補充,國別化漢語中介語語料庫與通用型漢語中介語語料庫是漢語中介語語料庫建設(shè)的兩翼,共同支撐起漢語作為二語習(xí)得研究與漢語教學(xué)研究,其建設(shè)非常必要,且完全可行。
多層偏誤標(biāo)注的國別化漢語中介語動態(tài)語料庫建設(shè)主要建設(shè)流程圖1所示:
圖1 語料庫建設(shè)主要建設(shè)流程圖
2.1.1 語料的收集
“多層偏誤標(biāo)注的國別化漢語中介語動態(tài)語料庫”的語料來源有二:一是魯東大學(xué)國際教育學(xué)院從2006年至今,韓國留學(xué)生在校期間的作業(yè)和考試語料;另一個是合作單位(包括南京師范大學(xué)、煙臺大學(xué)等)提供的韓國留學(xué)生的作業(yè)和考試語料。語料采集后將紙質(zhì)語料進(jìn)行掃描存為jpg格式,并將圖片按次序編號。編號做到“一篇一號”,確保語料圖片與錄入后的語料在內(nèi)容和序號上完全對應(yīng),便于后期檢索軟件中可以將圖片和語料直接匹配。
2.1.2 語料的錄入
組織人員將圖片語料人工錄入計算機保存為word格式,依照“無差別錄入”原則,對別字、外文、繁體字、拼音等原樣錄入。不規(guī)范字和錯字無法依樣錄入,在相應(yīng)處錄入標(biāo)記[G]和[C],無法識別的字錄為標(biāo)記[#]。每一篇語料都進(jìn)行語料屬性登記。在標(biāo)題記錄了該語料的編號、寫作者來源(所在學(xué)校)、姓名、性別、出生年月、國籍、寫作日期、所在年級、寫作類型(作文/造句),寫作場合(考試/作業(yè))等10余項信息。(外校提供的生語料部分寫作者信息不全,信息不全的部分用0來補位。)
語料圖片格式與人工錄入后的格式如下例所示:
原始圖片(圖2-1)
圖2-1 原始圖片截圖
人工錄入后(圖2-2)
圖2-2 錄入語料截圖
從2006年著手收集韓國留學(xué)生語料至今,生語料已達(dá)400萬字(配圖片),與外校合作收集到在中國學(xué)習(xí)的韓國留學(xué)生中介語生語料100萬字左右,在母語環(huán)境下韓國學(xué)習(xí)者的漢語中介語生語料近100萬字。
2.2.1 標(biāo)注原則的確立
1)多維度標(biāo)注原則
誠如語料加工情況所顯示的那樣,各中介語語料庫基于不同研究目的和用途,加工項目也不盡相同。在此情形下,對語料進(jìn)行分詞、詞性標(biāo)注、基礎(chǔ)句式標(biāo)注和偏誤標(biāo)注,也要特別突出多維度標(biāo)注原則。
2)多層次標(biāo)注原則
對具體標(biāo)注項的標(biāo)注有時涉及不同層次。首先,我們遵循“從大到小”原則,即遵循篇章>句式>句法成分>詞>字的優(yōu)先序列。如對同一個偏誤,首先檢視是否存在篇章偏誤,再看句法層次偏誤、再看詞層面、字層面偏誤。這樣可有效避免標(biāo)小略大、重局部輕整體的現(xiàn)象。同時,在保證不遺漏高層偏誤信息的前提下,對下一層偏誤進(jìn)行多層標(biāo)注,這樣一則可保證標(biāo)注的一致性,二則可盡量保留有用信息。當(dāng)然,若干情況下不能完全照搬該原則(見后文),而應(yīng)對偏誤進(jìn)行細(xì)致分析,否則會導(dǎo)致標(biāo)注結(jié)果不準(zhǔn)確。
對語料細(xì)致全面地加工和標(biāo)注,便于使用者從不同層面、不同角度對韓國留學(xué)生學(xué)習(xí)過程中的問題進(jìn)行全面或單項研究。
2.2.2 標(biāo)注項目及標(biāo)記集的確立
“語料標(biāo)注內(nèi)容的全面,標(biāo)注操作的準(zhǔn)確度和一致性,標(biāo)注代碼的標(biāo)準(zhǔn)化與通用化,是提升語料庫質(zhì)量和價值的關(guān)鍵所在。”[注]張寶林:《關(guān)于通用型漢語中介語語料庫標(biāo)注模式的再認(rèn)識》,《世界漢語教學(xué)》2013年第1期。目前國內(nèi)比較成熟、影響較大且在網(wǎng)上公布的中介語語料庫是北京語言大學(xué)的“HSK動態(tài)作文語料庫”,規(guī)則比較系統(tǒng)、全面。在征得崔希亮教授同意的前提下,我們的標(biāo)注規(guī)范中偏誤標(biāo)注類型參考了“HSK動態(tài)作文語料庫”的標(biāo)注體系,并按照單國別語料固有的規(guī)律和特點對其進(jìn)行了細(xì)化完善。
字層面的問題。韓國留學(xué)生處于漢字文化圈內(nèi),有一定的漢字基礎(chǔ),理應(yīng)在字層面出現(xiàn)偏誤的情況減少。但在具體標(biāo)注中,韓國留學(xué)生字層面的偏誤出現(xiàn)率極高,特別是存在筆畫書寫不規(guī)范的情形,如將“豎彎鉤”寫為“豎提”,“反犬旁”的第一筆“撇”寫成“橫”等。檢索了部分語料,發(fā)現(xiàn)這種現(xiàn)象比較普遍,因此我們增加了“不規(guī)范字”類型,標(biāo)記為[G]。
詞層面的問題。原來確定的詞層面標(biāo)記主要有錯詞標(biāo)記{CC}、缺詞標(biāo)記{CQ}、多詞標(biāo)記{CD},舉凡詞層面出現(xiàn)的偏誤都?xì)w為上述幾類。而我們認(rèn)為錯詞既然有下設(shè)的細(xì)類,就應(yīng)一并給出不同的偏誤標(biāo)記,以方便后期對偏誤結(jié)果的提取利用。因此,我們將詞層面的偏誤分為詞序顛倒{CCX}、用詞不當(dāng){CCH}、生造詞{CCZ}、離合詞{CCL}、外文詞{W}、多詞{CD}、缺詞{CQ}七個種類。
句層面的問題。根據(jù)現(xiàn)有語法研究成果,結(jié)合中介語實際情況,我們將句層面偏誤分為三個層次:句式層面、句子成分層面、短語層面。句式層面由原來的11種擴充到16種,增加了形容詞謂語句、名詞性謂語句、像字句、否定句、疑問句5種句式。新增了短語層面,共分為定中搭配不當(dāng)、狀中搭配不當(dāng)、主謂搭配不當(dāng)、動賓搭配不當(dāng)、述補搭配不當(dāng)、主賓搭配不當(dāng)、介賓搭配不當(dāng)、成分標(biāo)記詞不當(dāng)?shù)?種情況。如果缺少了搭配層面的偏誤標(biāo)注,這部分偏誤可能會標(biāo)記為詞層面的用詞不當(dāng),檢索時只能提取出被標(biāo)記詞,無法檢索到前后搭配,對后續(xù)研究不利。
篇章層面,我們也細(xì)化為上下文語義缺乏聯(lián)系、關(guān)聯(lián)錯誤、指代錯誤3類。
國別化漢語中介語語料庫中的基礎(chǔ)標(biāo)注除詞性標(biāo)注外,增加了正確句式的標(biāo)注。而漢語中句式的類別在本體研究中各家多有爭論,如按照本體研究結(jié)果確立標(biāo)注的句式難以厘清理論上的分歧。同時,中介語語料庫的建設(shè)目的主要是為了日后進(jìn)行中介語研究,判斷一個句式重要度的一個重要指標(biāo)應(yīng)該是該句式在中介語中的使用率與偏誤度。因此,我們標(biāo)注的正確句式所涉類別與偏誤標(biāo)注中的句式偏誤的類別等同,以便于后期針對性地進(jìn)行研究。
2.2.3 標(biāo)注規(guī)范的確立
在前期“韓國留學(xué)生漢語中介語語料庫”標(biāo)注規(guī)范的基礎(chǔ)上,通過完善,制定出新的標(biāo)注規(guī)范。
語料標(biāo)注從偏誤標(biāo)注和基礎(chǔ)標(biāo)注兩個維度展開。偏誤標(biāo)注從字、詞、句、篇章、標(biāo)點五個層面進(jìn)行,基礎(chǔ)標(biāo)注除分詞和詞性標(biāo)注外,對正確句式進(jìn)行標(biāo)注。
2.2.3.1 偏誤標(biāo)注
1)標(biāo)點處理
[BC]:錯誤標(biāo)點標(biāo)記,用于標(biāo)示使用錯誤的標(biāo)點符號。把錯誤標(biāo)點移至[BC]中BC的后面,并在[BC]前填寫正確的標(biāo)點符號。例:
標(biāo)注前:勤奮/a,/w刻苦/a的/u精神/n
標(biāo)注后:勤奮/a、[BC,]/w刻苦/a的/u精神/n
[BQ]:空缺標(biāo)點標(biāo)記,用于標(biāo)示應(yīng)用標(biāo)點符號而未用的情況。把[BQ]插入空缺標(biāo)點之處,并在[BQ]中BQ的后面填寫所缺的標(biāo)點符號。例:
分詞后:大/a女兒/n是/v十三/m歲/q小/a女兒/n是/v十/m歲/q。/w
標(biāo)注后:大/a女兒/n是/v十三/m歲/q{ZQs}[BQ,/w]小/a女兒/n是/v十/m歲/q{ZQs}。/w
[BD]:多余標(biāo)點標(biāo)記,用于標(biāo)示不應(yīng)用標(biāo)點符號而用了的情況。把多余的標(biāo)點移至[BD]中BD的后面。例:
分詞后:后來/t我/r遇到/v很多/m,/w很/d好/a的/u中國/n朋友/n。/w
標(biāo)注后:后來/t我/r遇到/v很多/m[BD,/w]很/d好/a的/u中國/n朋友/n。/w
2)字處理
[C]:錯字標(biāo)記,用于標(biāo)示寫作者寫的不成字的字。用[C]代表錯字,在[C]前填寫正確的字。在標(biāo)注時需要對錯誤的分詞結(jié)果進(jìn)行調(diào)整。
例如:地球[C](“球”是錯字)
原句:這個電視劇是我和她們一起生活的內(nèi)[C]答。
分詞后:這個/r電視劇/n是/v我/r和/p她們/r一起/d生活/v的/u內(nèi)/f[/wC/n]/w答/x。/w
標(biāo)注后:這個/r電視劇/n是/v我/r和/p她們/r一起/d生活/v的/u內(nèi)[C]容[B答]/n{ZQs}。/w
[G]:不規(guī)范的字,用于標(biāo)記寫作者寫的不太規(guī)范的漢字。用[G]代表不規(guī)范的字,在[G]前填寫規(guī)范的字。同上,在標(biāo)注時需要對錯誤的分詞結(jié)果進(jìn)行調(diào)整。
如下例幾種情況均屬于不規(guī)范字。例如以下幾種情況:
這(走之旁不規(guī)范)
事(長橫不出頭)
覺(部首寫成了黨字頭)
狼(反犬旁像提手旁)
今(點寫成橫)
[#]:無法識別的字的標(biāo)記,用于標(biāo)示無法識別的字。每個不可識別的字用一個[#]表示。分詞軟件會將“[#]”也做分詞處理,需調(diào)整分詞結(jié)果。注意[#]后無詞性。
例:我/r不但[B儀]/c在/p課堂/n上/f認(rèn)真/a地/u{CCB的/u}{CJ-zxy聽講/v}[#]并且/c一/d有/v時間/n就/d跟/p我/r的/u中國/n朋友/n練習(xí)/v口語/n發(fā)音/v等/v。[BC;]/w
[B]:別字標(biāo)記,用于標(biāo)識把甲字寫成乙字的情況。別字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。把別字移至[B]中B的后面,并在[B]前填寫正確的字,并注意調(diào)整分詞結(jié)果。例如:
原句:她的姓各很外xiàng。
分詞后:她/r的/u姓/n各/r很/d外/axi/nà/xng/n。/w
標(biāo)注后:她/r的/u性[B姓]格[B各]/n很/d外向[Pxiàng]/a{ZQxw}。/w
[L]:漏字標(biāo)記,用于標(biāo)示作文中應(yīng)有而沒有的字。用[L]表示漏掉的字,并在[L]前填寫所漏掉的字。如:后悔[L](表示“悔”在原文中是漏掉的字。)例如:
原句:父親問他想什么。
分詞后:父親/n問/v他/r想/v什么/r。/w
標(biāo)注后:父親/n問/v他/r理[L]想/n{CJ-sy是/v}什么/r{CJs}。/w
提示:根據(jù)上下文,按照寫作者的本意來看,是寫作者把“理想”一詞漏寫了“理”,從而導(dǎo)致分詞軟件把“想”切分為動詞。我們先補出“理[L]想”,并給出該詞的詞性“/n”。
[D]:多字標(biāo)記,用于標(biāo)示作文中不應(yīng)出現(xiàn)而出現(xiàn)的字。把多余的字移至[D]中D的后面。如:我的[D的],表示括號中的“的”是多余的字(原文中寫了兩個“的”)。
例:我/r很/d有/v興致/n地/u跟/p他/r聊/v起/v[D起/v]天/n來/v。/w
[F]:繁體字標(biāo)記,用于標(biāo)示繁體字。把繁體字移至[F]中F的后面,并在[F]前填寫簡體字。
例如:記憶[F憶]、單[F單]純、養(yǎng)[F養(yǎng)]。
注意:
[1]繁體字標(biāo)記標(biāo)示的是使用正確的繁體字,如果該繁體字同時又是別字,則先標(biāo)繁體字標(biāo)記,再標(biāo)別字標(biāo)記。
例如:儉樸[F樸[B僕]]
提示:同樣,一個詞如果出現(xiàn)繁體字,分詞軟件會把它切分成兩個詞,需要合并后給出正確的詞性。如:
分詞后:留下/v很/d難忘/a的/u記/v憶/x
標(biāo)記后:留下/v很/d難忘/a的/u記憶[F憶]/n
[2]繁體字寫錯,標(biāo)為:后[F後[C]]。
[Y]:異體字標(biāo)記,用于標(biāo)示異體字。把異體字移至[Y]中Y的后面,并在[Y]前填寫簡體字。
例如:遍[Y徧]
[P]:拼音字標(biāo)記,用于標(biāo)示以漢語拼音代替漢字的情況。把拼音字移至[P]中P的后面,并在[P]前填寫簡體字。如果學(xué)生既給出正確漢字又給出拼音,標(biāo)為在拼音處標(biāo)記為[PD](意為拼音多余)。
例如:
分詞前:我們打sǎo的時候,我的做事是lā jí reng diào。
分詞后:我們/r打/ps/nǎ/xo/n的/u時候/n,/w我/r的/u做事/v是/vl/nā/xj/nī/xr/nē/xngdi/nà/xo/n。/w
標(biāo)注后:我們/r打掃[Psao]/v的/u時候/n,/w我/r做/v{CCH我/r}的/u事/n{CCH做事/v}是/v<垃[Plā]圾[Pjī]/n>{CJX2}<扔[Prēng]/v掉[Pdiào]/v>{CJX1}{CJP-dz}{CJs}。
如果別字、拼音嵌套,標(biāo)注方法如下:
原句:她的艮yán睛很大,她的bǐzi很高。
分詞后:她/r的/u艮/xy/ná/xn/n睛/a很/d大/a,/w她/r的/ub/nǐ/xzi/n很/d高/a。/w
標(biāo)注后:她/r的/u眼[B艮[PDyán]]睛/n很/d大/a{ZQxw},/w她/r的/u鼻[Pbǐ]子[Pzi]/n很/d高/a{ZQxw}。/w
3)詞處理
{CCX}:詞的構(gòu)成成分寫錯順序的標(biāo)記,簡稱錯序詞。
把寫錯的詞移至{CCX}中CC的后面,并在{CCX}前填寫正確的詞。
例如:
分詞后:眾/Ng所/u知/v周/q
標(biāo)注后:眾所周知/i{CCX眾所知周}
提示:要給填寫出的正確的詞打上正確的分詞標(biāo)記和詞性,并抹掉{CCX}內(nèi)錯序詞的詞性標(biāo)記。
{CCZ}:生造詞的標(biāo)記。指學(xué)生自造的、或在母語中可能有而漢語中不存在的詞。
提示:因為生造詞不是一個詞,所以要抹掉{CCZ}內(nèi)原有的詞性標(biāo)記和詞性。
例:來/v看/v表演/v的/u人/n都/d說/v我/r的/u演技/n{CCZ演技[Pji]力}很/d好強/a{CJP-zw}。/w
{CCH}:該用甲詞而用乙詞的標(biāo)記。由于寫作者對詞義的理解有偏差,其選用的詞不能正確表達(dá)他想表達(dá)的意思,甚至和其想表達(dá)的意思相反。盡管“詞不達(dá)意”,但不違背語法規(guī)則,無語法錯誤。
例1:王大江/nr想/v檢查/v{CCH查/v}汽車/n的/u油箱/n是否/d真的/d沒/v油/n了/u。/w(音節(jié)造成的搭配不當(dāng))
例2:“我/r給/p你/r介紹/v我/r的/u特長/n{CCH特技/n}。/w
例3:{CD但是/c}我/r的/u心里/s{CCH心理/n}像/p{CCH好像/p}{CJ+sy是/v}小/a孩子/n{CCH兒子/n}{CQ一樣/a}{CJ+zy就/d}興奮/a得/u厲害/a{CJs}{CJx}。/w
{CLH}:離合詞錯誤標(biāo)記,用于標(biāo)示各種和離合詞相關(guān)的錯誤。標(biāo)在有錯誤的離合詞的后邊,表示前邊的離合詞用法有誤。離合詞暫時以《現(xiàn)代漢語八百詞》后附錄的離合詞表為準(zhǔn)。
例1:我快要畢業(yè)/v{CLH}大學(xué){CQ了}。
例2:雖然這么[L]多年都沒見面/v{CLH}過,……
{W}:外文詞標(biāo)記,用于標(biāo)示以外文詞代替漢語詞的情況。把外文詞移至{W}中W的后面,并在{W}前填寫相應(yīng)的漢語詞。
例:非洲/n{WAfrica}、爵士樂/n{Wjazz}、節(jié)省/v{Wsave}
{CQ}:缺詞標(biāo)記,用于標(biāo)示作文中應(yīng)有而沒有的詞。在缺詞之處加此標(biāo)記,并在{CQ}中CQ的后面填寫所缺的詞。例:
例:我/r和/c我/r最好/d{CQ的/u}朋友/n是/v學(xué)校/n里/f{CCH以內(nèi)/f}最/d好/a的/u運動員/n{ZQs}。/w
{CD}:多詞標(biāo)記,用于標(biāo)示作文中不應(yīng)有而有的詞。把多余的詞移至{CD}中CD的后面。
例1:風(fēng)/n很/d清涼[B浪]/a{ZQxw},/w氣氛/n很/d熱鬧/a{ZQxw},/w人/n也/d多/a{ZQxw},/w{CD在/p}天空/n中/f的/u星星/n亮亮/v地/u照/v著/u我/r。/w
例2:我們/r到/v學(xué)校/n的/u時候/n,/w很/d多/a學(xué)生/n{CD們/k}和/p父母/n已經(jīng)/d來/v了/y。/w
{CY}:不清楚或無法理解的詞用{CY}標(biāo)示,表示“存疑”,標(biāo)在該詞的后面。與生造詞不同。生造詞是標(biāo)注者可以準(zhǔn)確理解其想表達(dá)的意思,也可以對錯誤進(jìn)行修改的詞,而對于{CY}詞標(biāo)注者無法理解,不知道如何修改。
例1:雖然/c這么[L]/r多年/m都/d沒/d見面/v過/v{CLH},/w但/c我/r和/p他們/r的/u{CY憶/x慣/v},/w是/v忘/v不/d了/v的/u。/w
例2:那個/r孩子/n很/d聰敏/a{ZQxw},/w孩子/n既/d聰明/a又/d用功/a,/w學(xué)習(xí)/v上/v進(jìn)步/v很快/d,/w老師/n們/k都/d說/v[BQ:/w]“/w這/r孩子/n多/a{CY詭/x道/n}!/w”/w
提示:對于“憶慣”“詭道”這樣的詞,雖然無法理解寫作者想表達(dá)什么,但肯定的是寫作者是把它們當(dāng)作一個詞來看的,經(jīng)過分詞軟件的加工,這類未登錄詞必然會切分開,為了后期程序可以自動提取到準(zhǔn)確的信息,我們用{CY}的標(biāo)記將這類詞整個都括起來,原分詞后給出的詞性不變。如:
{TYC}:同音詞引發(fā)的偏誤。
例:晃眼/a:孩子/n剛才/t還/d在/v這兒/r,/w一/d{TYC晃/v眼/n}工夫/n就/d不/d見/v了/u。/w
{CCB}:成分標(biāo)記詞不當(dāng)(限制在結(jié)構(gòu)助詞“的”“地”“得”、時態(tài)助詞“著”“了”“過”之間的混用及結(jié)構(gòu)助詞和時態(tài)助詞之間的混用)
例:每個/r周末/n她/r請/v我們/r去/v她/r家/n品嘗/v料理/n[BQ,/w]味道/n很/d好/a{ZQxw}[BQ,/w]像/p媽媽/n做/v的/u{CCB得/u}一/m樣/q{ZQx*}。/w
提示:如果“記得”是一個詞,但將“得”錯寫為“的”,按別字處理,但分詞軟件會將其切分開。標(biāo)注時應(yīng)修改別字且還原其一個詞的原貌并加注詞性。如下例所示:
分詞后:他/r說/v的/u話/n我/r還/d記/v的/u
標(biāo)注后:他/r說/v的/u話/n我/r還/d記得[B的]/v
4)句處理:
{CJ}:病句標(biāo)記,用于標(biāo)示錯誤的句子。一般標(biāo)在有錯誤的句子之后、該句標(biāo)點之前,并用小寫漢語拼音字母簡要標(biāo)明病句的錯誤類型。
句子錯誤類型可細(xì)分為:
{CJba}:把字句錯誤
例:他/r離婚/v后/f{CJ-zy才/d}{CQ把/p}/n這些/r事情/n告訴/v我/r{CJba}。/w
{CJbei}:被字句錯誤
例:因為/p我/r新/a買/v的/u數(shù)碼/n相機/n{CQ被/p}偷/v走/v了/u{CJbei}。/w
{CJbi}:比字句錯誤
例:他們/r身體/n都/d很/d好/a{ZQxw}[BQ,/w]媽媽/n比/p爸爸/n更/d{CCH很/d}好/a{CJbi}。/w
{CJl}:連字句錯誤
例:那/r時候/n我/r{CQ連/p}“/w你好/l”/w也/d不/d會/v{CJl}。/w
{CJy}:有字句錯誤
例:但是/c我/r覺得/v賢雅/nr很/d{CJ-sy有/v}魅力/n{CJy}。/w
注意:“有一天”“有時候”不是有字句。還要注意有字句和存現(xiàn)句的區(qū)別。
{CJs}:是字句錯誤
例:你/r平時/t{CJ-sy是/v}小雞肚腸/a的/u人/n嗎/y{CJs}?/w
注意:“是”有時候做句子的狀語,表強調(diào)。此時該句不是“是”字句。
{CJsd}:“是……的”句錯誤
例:這樣/r的/u施舍/v是/v會/v傷害/v他們/r的/u自尊心/n{CQ的/u}{CJsd}。/w
{CJcx}:存現(xiàn)句錯誤
例:城墻/n里/f是/v{CCH有/v}很/d繁華/a的/u市區(qū)/n{CCH市/n內(nèi)/f}{CJcx}/{CJy}。/w
{CJjy}:兼語句錯誤
例:他/r不/d能/v{CQ和/c}女兒/n們/k一起/d玩/v或者/d輔導(dǎo)/v{CCH領(lǐng)導(dǎo)/v}{CJ-by她們/r}學(xué)習(xí)/v{CJjy}{CJfd}。/w
{CJld}:連動句錯誤
例:我/r幾/m個/q月/n前/f參加/v過/u高級/a考試/v,/w那/r次/q<是/v>{CJX2}<我/r只/d>{CJX1}想/v{CJ+sy試試/v}[BD、/w]碰碰/v{CJ+dy我/r的/u}運氣/n{CJld}。/w
對于由動詞“來/去”組成的連謂結(jié)構(gòu)有時“來/去”仍然保留著運動趨向的意義,不能互換,由此原因造成的錯誤標(biāo)記為連動句錯誤。如:
例:所以他們掙的所有的錢[BD,/w]都拿給窮{CD的}孩子、[BC,]/w沒有父母的孩子去{CCH來}用{CJld}。
{CJshb}:雙賓語句錯誤
例:他/r是/v我/r的/u財神爺/n{ZQs},/w我/r要/v錢/n的/u時候/n,/w他/r就/d{CJ-sy給/v}我/r錢/n{CJshb}。/w
{CJxw}:形容詞謂語句錯誤
例:聲援/v的/u場面/n{CJ+sy成為/v}{CJ-zy很/d}壯[C]觀/a{CJxw}。
{CJfd}:否定句錯誤
例:這/r次/q放假/v好像/p沒/d{CCH不/d}放假/v一/m樣/q{CJfd}。/w
{CJx}:像字句錯誤【包括“(好)像……”“(好)像……一樣”“……似的”“像……似的”等結(jié)構(gòu)】
例:雖然/c他/r的/u個子/n很/d高/a,/w但是/c他/r的/u臉/n還/v{CJ-sy像/v}小孩/n{CCH小童/nr}{CJx},/w很/d可愛/a。/w
{CJmw}:名詞性謂語句
例:我/r弟弟/n{CJ+sy是/v}今年/t十八/m歲/q{CJmw}/{CJs},[BC。]/w但是/c弟弟/n身高/n一/m米/q八五/m、/w體重/n八十八/m公斤/q{ZQmw}。/w
{CJyw}:疑問句
例:“/w你/r有/v什么/r{CJ-by事/n}[BQ?/w]{CQ怎么/r}那么/r著急/a{CJyw}?/w
提示:對于一個句子同時涉及兩個句式的偏誤類型,則用“/”標(biāo)記。主要涉及到是字句和名詞性謂語句,是字句和形容詞謂語句,是字句和存現(xiàn)句幾種類型。比如下面這個句子,標(biāo)注者先確認(rèn)了它是形容詞謂語句,在輔助標(biāo)注工具里選擇了特殊句式中的{CJxw}后,還需手動加上/{CJs}。最終形成的標(biāo)記結(jié)果為{CJxw}/{CJs}:
例:我/r記憶/n中/f的/u{CJ+dy一/m件/q}感人/a的/u事/n{CJ+sy是/v}不/d太/d多/a{CJxw}/{CJs}。[BC.]/w
{CJ-}:句子成分殘缺錯誤標(biāo)記,用于標(biāo)示由于成分殘缺造成的病句。在短橫后邊標(biāo)明所缺成分的名稱,該名稱用小寫代碼表示;在小寫代碼之后填寫所缺的具體詞語,標(biāo)在成分殘缺之處。
{CJ+}:句子成分多余錯誤標(biāo)記,用于標(biāo)示由于成分多余(贅余)造成的病句。后邊用小寫代碼標(biāo)明多余成分的名稱,并把所多余的具體詞語移至該名稱的后面,標(biāo)在成分多余之處。
句子成分采用層次分析法的觀點,共8種:
{CJ-/+zhuy}:主語殘缺或多余
例:他/r的/u作品/n杜絕/v了/u{CJ-zhuy人們/n}不/d喜歡/v詩歌/n文學(xué)/n的/u現(xiàn)象/n。/w
{CJ-/+wy}:謂語殘缺或多余
例:如果/c兩/m個/q小時/n以后/f回家/v我/r的/u家/n{CJ-sy進(jìn)/v了/u}小偷[B愉]/n{CJ-wy怎么辦/l}{CJyw}?[BC.]/w
{CJ-/+sy}:述語殘缺或多余
例:但是/c周末/n的/u時候/n{CJ-zhuy他/r}常常/d{CJ-sy陪/v}女兒/n們/k一起/d玩/v。/w
{CJ-/+by}:賓語殘缺或多余
例:所以/c平時/t{CJ+zxy的/u時候/n}他/r不/d能/v{CQ和/c}女兒/n們/k一起/d玩/v或者/c輔導(dǎo)/v{CCH領(lǐng)導(dǎo)/v}{CJ-by她們/r}學(xué)習(xí)/v{CJjy}{CJfd}。/w
{CJ-/+buy}:補語殘缺或多余
例:比賽/v以后/f,/w他/r找/v{CJ-buy到/v}我/r。/w
{CJ-/+dy}:定語殘缺或多余
注意:數(shù)量短語作定語中,缺少量詞,補上的量詞標(biāo)記為缺少定語。
例:我/r來/v中國/ns以后/f{CJ+dy中國/ns}生活/n中/f發(fā)生/v{CCH有/v}了/u一/m件/q{CD的/u}事/n{CJy}[BQ。/w]
{CJ-/+zy}:狀語殘缺或多余
注意:缺少或多余“能愿動詞”也放在{CJ-/+zy}中。
例:我/r{CQ的/u}心/n咚[Pdòng]咚[Pdòng]/y{CQ地/u}{CJ-zy快/d}跳/v出來/v了/u,/w
{CJ-/+zxy}:中心語殘缺或多余
例:我/r在/p中國/n{CD的/u}生活/v{CJ-zxy的/u時間/n}雖然/c不/d長/a,/w但是/c很/d滿意/v。/w
有時成分的多余或殘缺發(fā)生在短語層面,按照句法層面來處理。
例1:她/r比/p我們/r早/起床/V。/w{CJ-sy起床/v}以后/t自己/r做飯/v。/w(時間短語缺少述語)
例2:我/r找/v她/r向/p{CJ-by她/r}傾訴/v。/w(介賓結(jié)構(gòu)缺少賓語)
{CJX}:語序錯誤標(biāo)記,用于標(biāo)示由于語序錯誤造成的病句。先把發(fā)生語序顛倒的幾個部分分別用<>括起來,并打上{CJX}的標(biāo)記,并在{CJX}中用阿拉伯?dāng)?shù)字標(biāo)出正確語序中出現(xiàn)的先后序列。
例1:我/r給/v你/r<我/r的/u丈夫/n>{CJX2}<介紹/v一下兒/m>{CJX1}。(表示{CJX2}前的內(nèi)容應(yīng)放在{CJX1}內(nèi)容之后)
例2:可是/c<這/r兩/m個/q問題/n>{CJX4}<同時/d>{CJX2}<要/v>{CJX1}<解決/v>{CJX3}非常/d不/d容易/a,/w
{CJP}:搭配錯誤標(biāo)記,用于標(biāo)示句法層面搭配不當(dāng)造成的病句。根據(jù)搭配錯誤類型,將其細(xì)分為以下幾類(句法成分搭配不當(dāng)?shù)钠`,能通過換詞糾錯,就換詞,在被換詞上打上句法成分搭配錯誤的標(biāo)記。無法通過換詞糾錯,則在該句完句標(biāo)點前打上成分搭配錯誤的標(biāo)記即可):
{CJP-dz}:定中搭配不當(dāng)
例:自己/r有/v雙/q聰明/a能干/a的/u手/n,/w什么/r都/d能/v創(chuàng)造/v出來/v{CJP-dz}。
提示:韓國留學(xué)生常常將“我做的事”和“我說的話”寫為“我的做事”和“我的說話”,類似這樣的錯誤請依照下例進(jìn)行修改。按照定中搭配不當(dāng)?shù)钠`類型,將“我”修訂為“我做”,將“做事”修訂為“事”。
例:我們/r打掃[Psao]/n的/u時候/n,/w我/r做/v{CCH我/r}的/u事/n{CCH做事/v}是/v<垃[Plā]圾[Pjī]/n>{CJX2}<扔[Prēng]/v掉[Pdiào]/v>{CJX1}{CJP-dz}。/w
{CJP-zz}:狀中搭配不當(dāng)
例:他/r慢慢/d地/u沖/v進(jìn)去/v{CJP-zz}。/w
{CJP-zw}:主謂搭配不當(dāng)
例:{CP-zd他/r的/u作品/n杜絕/v了/u{CJ-zhuy人們/r}不/d喜歡/v詩歌/n文學(xué)/n的/u現(xiàn)象/n{CJP-zw}。/wP}
下面兩例是主謂謂語句,構(gòu)成大謂語的小主語和小謂語存在搭配不當(dāng)?shù)钠`。
例:不良/b少年/n嘴/n里/f冒/v著/u濃煙/n{CJP-zw}。/w
例:我/r手心/n出/v了/u一/m身/q冷汗/n{CJP-zw}。/w
{CJP-db}:動賓搭配不當(dāng)
例:這么/r一來/c,/w導(dǎo)致/v{CCH產(chǎn)生/v}了/v小/a店/n的/u沒落/v{CJP-db}。/w
{CJP-sb}:述補搭配不當(dāng)
例:他/r看/v出來/v{CJP-sb起來/v}我們/r是/v韓國/ns人/n。/w
{CJP-zb}:主賓搭配不當(dāng)
例:謙虛/a是/v人們/r最/d基本/a的/u品質(zhì)/n{CCH道理/n}{CJP-zb}{CJs},/w也/d是/v人們/r的/u美德[B的]/n{ZQs}。/w
{CJP-jb}:介賓搭配不當(dāng)
例:好/a習(xí)慣/n對/p{CCH向/p}我們/r的/u生活/n影響/v很/d大/a{CJP-jb}。/w
{CJZR}:句式雜糅錯誤標(biāo)記,用于標(biāo)示把兩種不同句式、兩種不同說法混在一起的病句。標(biāo)在句子末尾,標(biāo)點之前。
例:我們/r照/v了/u一/m張/q照片/n,/w照片/n中/f帶/v著/u天真爛漫/a甜/a甜/a笑/v著/v{CJZR}。/w
{CJcd}:重疊錯誤標(biāo)記,用于標(biāo)示句中動詞的重疊錯誤,包括重疊方式上的錯誤,也包括不該用而用重疊,或該用而不用重疊的情況。標(biāo)在出現(xiàn)重疊錯誤的詞語之后。
例:還有/c我們/r{CJ-zy應(yīng)/v}對/p綠色/a食品/n{CJ-sy加以/v}研究/v研究/v{CJcd}。
該句添加能愿動詞“應(yīng)”后仍然不對,缺少“進(jìn)行/加以”,有一部分動詞在一些格式中不能直接作謂語,需要形式動詞的支撐。這種錯誤建議標(biāo)注為句層面下的缺少述語。
{CJgd}:固定格式錯誤標(biāo)記,用于標(biāo)示固定格式搭配上的錯誤。
“一……就……”缺少“一”或者“就”,“越來越”“在…看來”“看上去”“…的是”“對……來說”“特別是”“V來V去”等都屬于固定格式。
例:一/d提/v到/v旅行/v,/w我/r{CJ-zy就/d}想/v起來/v了/u1994年/t的/u歐洲/ns旅行/v{CJgd}。/w
{WWJ}:未完句標(biāo)記,用于標(biāo)示沒寫完的半截子的句子。標(biāo)在未完成句的末尾處。
例:她/r的/u男/b朋友/n是/v個/q大膽/a的/u男子漢/n{ZQs},/w其實/d他/r是/v我/r丈夫/n的/u朋友/n。/w我/r丈夫/n的/u朋友/n一定/d好/a的/u不/d是/v{WWJ}
{CJ?}:句處理存疑標(biāo)志,用于標(biāo)示錯誤類型不清楚的、或錯誤類型標(biāo)注很不方便的、或句義不明且有語法錯誤的病句。標(biāo)在存疑病句之后、該句標(biāo)點之前。
例:我/r聽/v了/u她/r的/u聲音/n好像/p嘛/y女/a的/u樣子/n了/u{CJ?}。/w
{dyde}:“的”的多余。
例:我/r想念/v我/r{CD的/u}在/p韓國/ns的/u父母/n{dyde}。/w
5)篇章處理(包括復(fù)句):
{CP}:篇章錯誤標(biāo)記,用于標(biāo)示篇章錯誤。大括號的前半和后半分別表示有錯誤的篇章的起點和終點,在起點處標(biāo)CP,在終點處標(biāo)P。即:{CP……,……?!?,……。P}
所謂篇章錯誤,主要指句子和句子之間在銜接方面的錯誤。最典型的情況是每個單句都正確,但作為一個整體來看則句子相互之間缺乏聯(lián)系,不能構(gòu)成一個緊湊、自然、流暢的成段表達(dá)。而產(chǎn)生這種情況的原因,可能是語義方面的,也可能是連接方式方面的。
{CP-yy……P}:上下文語義缺乏聯(lián)系的標(biāo)記。包括前后句意義無關(guān)、缺少過渡句、上下文語義沖突(如作文起題說好習(xí)慣能讓人取得成功并不是絕對的事情,下文大談好習(xí)慣對事業(yè)成功多么有幫助)。
例:我有兩個孩子,一個女兒,還有一個兒子。女兒長[L]像跟和我一樣,兒子也是跟我差不多。女兒今年高中二年級,所以現(xiàn)在學(xué)習(xí)很努力,半夜回家的時候太累了。但是女兒每天都對{CCH向}我說“媽媽,謝謝您,不要等我,你也是準(zhǔn)備考試很累{CJs}”{CJ-zhuy女兒}這樣說[BQ,]{CP-yy我對女兒尤其感謝。為了明年她考上大學(xué)!P}
{CP-gl……P}:關(guān)聯(lián)詞語偏誤的標(biāo)記。
(1)關(guān)聯(lián)詞語誤用、多用、漏用,標(biāo)記為{CP-gl……P}。句內(nèi)把多用、漏用、錯用的關(guān)聯(lián)詞語按照多詞{CD}、缺詞{CQ}和該用甲詞而用乙詞{CCH}來標(biāo)記。
例1:{CP-gl家是應(yīng)該給人舒適{CCH舒服}感和幸福感{CJs}。如果{CCH所以}能感受到這樣的感覺我可以拿錢讓保姆來做家務(wù)。P}
例2:{CP-gl雖然小王受傷而變成了殘疾人,但是他的妻子小楊[C]毅然接受了這個現(xiàn)實{CCH情況},[BC。]而且無怨無悔,{CD卻}把丈夫看作一個勇士。P}
例3:{CP-gl最近/t她/r的/u身體/n{CJP+zxy健[B建]康/n}不/d舒服/a。/w所以/c{CCH于是/c}我/r每天/r{CJ-zy都/d很/d}擔(dān)心/v她/r。/wP}
(2)在語料庫中,韓國留學(xué)生受母語影響頻繁使用“然后”和“還有”用來表示順承、因果、遞進(jìn)、并列等關(guān)聯(lián)義,我們將其先處理為篇章問題,再在內(nèi)部標(biāo)注是詞多還是詞層面的誤用。
例1:{CP-gl我朋友的外貌{CJ+sy是}五官[B館]端[B喘]正{CJs}。{CD然后}她的身高165CM以上[BQ。]P}
例2:{CP-gl我來中國{CQ的}時候會{CCH能}說{CQ的}漢語太少,而且{CCH還有}完全聽不懂{CCH1清楚}。P}
(3)“反正”的誤用
例:我在房間休息的時候,突然來{CCH過來}了{(lán)CQ個}中國朋友,手上拿{CCH帶}著一個<一點>{CJX2}<大>{CJX1}的箱子。{CP-gl我有點兒吃驚,<還是{CCH反正}>{CJX2}[BD,]<我>{CJX1}接待{CCH接應(yīng)}{CQ了}她。P}
{CP-zd……P}:用來標(biāo)記指稱問題引發(fā)的錯誤。包括:
(1)主語、賓語省略不當(dāng)造成理解的困難。因為省略的內(nèi)容往往充當(dāng)句子成分,所以缺少的成分還要按照句層面錯誤來處理;
例1:{CP-zd他是一個會計[BQ,]周圍的人說他有能力[BQ,]還說{CJP-zhuy他}相當(dāng)溫和[BQ、]可親[BQ。]P}
例2:{CP-zd他的臉上表現(xiàn)出來他的表情非常溫柔、善良。不認(rèn)識的人也一看他,就知道他是個好人。特別是{CJP-zhuy他}對我父母的態(tài)度真讓我感動。P}
(2)代詞冗余。多用的代詞還要按照句層面句子成分多余處理。
例:{CP-zd他每天晚上7點45分,{CJP+zhuy他}一定看電視里的運動新聞。P}
(3)指代混亂,指在文中沒有明確性別的前提下,人稱代詞的混亂使用造成的指代不明。如果性別已明確“他/她”混用,按照別字處理。
例:{CP-zd她天天6點起床,背著沉重的書包去上課。下課以后也不讓她{CCH我}休息。再去補習(xí)班。每天她這樣忙碌碌的過日子。P}
2.2.3.2 基礎(chǔ)標(biāo)注
基礎(chǔ)標(biāo)注是對正確的語言表現(xiàn)進(jìn)行標(biāo)注,目前基礎(chǔ)標(biāo)注僅在句式層面展開。正確句型分為完全正確的句型和基本正確的句型。前者指的是完全無誤的句子或是僅有字層面的偏誤不影響句式正確表達(dá)的句子;后者指的是有詞層面偏誤但不影響句子主干的句子和有句法層面的偏誤但不影響句子主干的句子。
據(jù)此,最終確立基礎(chǔ)標(biāo)注和偏誤標(biāo)注的雙維度標(biāo)注體系下的102個標(biāo)注項目,并按照漢語拼音縮寫確定標(biāo)注代碼。標(biāo)注清單如表1。
利用Qt軟件搭建的檢索平臺對生語料庫和標(biāo)注語料庫進(jìn)行信息的統(tǒng)計分析與查詢提取,包括:(1)字表和詞表的生成,其結(jié)果以txt文本的形式給出;(2)針對字、詞、句、篇章和標(biāo)點等多個元素,從基礎(chǔ)標(biāo)注和偏誤標(biāo)注兩個層面、橫向與縱向兩個維度,以學(xué)校、年級、性別、學(xué)期等因素為查詢條件,對所需語料進(jìn)行分析和查詢,語料查詢結(jié)果既可以定位到句子,也可以定位到語篇,而且查詢結(jié)果直接顯示在檢索平臺的界面上。
為語料加工的便利和準(zhǔn)確及后續(xù)研究中語料提取的便捷,本項目共開發(fā)了三種軟件,即輔助標(biāo)注軟件、語料加密軟件以及用戶檢索平臺。其中,用戶檢索平臺包括檢索界面和底層的算法軟件包兩部分。
輔助標(biāo)注軟件是在VC2008環(huán)境下開發(fā)的。該軟件按篇對語料進(jìn)行標(biāo)注,可隨時保存和中止標(biāo)注工作。標(biāo)注時,標(biāo)注員在確定要標(biāo)注的對象后,通過點擊鼠標(biāo)右鍵,利用彈出菜單,可自動添加偏誤標(biāo)注和基礎(chǔ)標(biāo)注的代碼,既提高了語料標(biāo)注的效率,又保證了所添加的標(biāo)注代碼在形式上的準(zhǔn)確性和一致性。
輔助標(biāo)注工具界面截圖如下:
語料加密軟件和用戶檢索平臺是在Qt環(huán)境下開發(fā)的。其中,語料加密軟件主要完成了語料加密,語料解密和對語料屬性信息的去隱私操作。利用軟件可以對語料源進(jìn)行自動加密和自動解密,大大提高語料源的安全性,在加密過程中自動將語料屬性信息中的寫作者姓名用阿拉伯?dāng)?shù)字進(jìn)行替換,既實現(xiàn)了去隱私操作,又不影響語料查詢中的縱向跟蹤處理。用戶檢索平臺能使用戶按照不同的條件和要求完成對所需的字表、詞表、語料屬性信息、語料的各種統(tǒng)計數(shù)據(jù)、語料偏誤標(biāo)注和基礎(chǔ)標(biāo)注的查詢統(tǒng)計、對生語料和標(biāo)注語料的全篇檢索查詢、對語料跟蹤性檢索等功能。詳見圖2-3。
表1 語料標(biāo)注代碼一覽表
圖2-3 輔助標(biāo)注工具界面圖
生語料收集整理好后,利用北京大學(xué)計算語言學(xué)研究所開發(fā)的分詞系統(tǒng)對其進(jìn)行自動分詞和詞性標(biāo)注。因為中介語語料庫本身就是一個繁復(fù)的錯字、錯詞、病句庫,大大影響了自動分詞的準(zhǔn)確度和精度。所以,利用自動分詞軟件進(jìn)行自動分詞后,需人工對分詞結(jié)果進(jìn)行校對。一方面要校對分詞軟件對正確語料的誤切,包括交互型歧義字段和組合型歧義字段引起的誤切等,更重要的是對非規(guī)范用法錯誤分詞或錯誤標(biāo)注詞性的校對。對這部分非規(guī)范詞(如生造詞、錯序詞),各個語料庫在處理時采用了不同的方法。如“漢語中介語語料庫”采用了“猜測其詞性標(biāo)記并記下可信度”[注]陳小荷:《“漢語中介語語料庫系統(tǒng)”介紹》,《第五屆國際漢語教學(xué)討論會論文選》1996年。的方法。“HSK動態(tài)作文語料庫”則“遇到這樣的詞就記下來,分詞前輸入詞表,從而保持分詞的正確”[注]張寶林、崔希亮:《關(guān)于“HSK動態(tài)作文語料庫”的建設(shè)構(gòu)想》,《第三屆全國語言文字應(yīng)用學(xué)術(shù)研討會論文集》2004年。。我們的做法是抹去非規(guī)范詞的詞性標(biāo)記,只在替代的規(guī)范詞后標(biāo)注詞性。非規(guī)范詞只標(biāo)注偏誤類型、不標(biāo)注詞性的好處是可以避免因猜測詞性造成的標(biāo)記不準(zhǔn),從而也避免了最后詞頻統(tǒng)計的精度失準(zhǔn)。對這部分不標(biāo)注詞性的非規(guī)范詞,我們將其單獨提取整理成非規(guī)范詞表,供下一步研究使用。
分詞后
圖3-1 語料分詞后截圖
標(biāo)注后
圖3-2 語料標(biāo)注后截圖
如上例所示:寫作者把“一起走路”的“起”寫為“走”,分詞軟件自動切分為“一/d走走/v路/n”,標(biāo)注員在標(biāo)注時既要將第一個“走”標(biāo)注為“起”的別字,也要將分詞結(jié)果調(diào)整為“一起[B走]/d走路/v”。在詞層面,處理錯序詞和自造詞時將不規(guī)范詞替換為規(guī)范詞后,只給規(guī)范詞添加上正確的詞性標(biāo)記,而抹掉不規(guī)范詞原有的詞性標(biāo)記,即原不規(guī)范詞的詞性標(biāo)記缺省。
在語料庫中,正確句式的標(biāo)注由于中介語語料的特殊性與偏誤標(biāo)注發(fā)生撞車現(xiàn)象,急需將交叉部分厘清,否則會出現(xiàn)雙重標(biāo)準(zhǔn)標(biāo)注問題。如下列句子:
例3-1:秋天/n的/u北京/ns是/v一/m年/q中/f最/d美麗/a的/u季節(jié)/n{CJP-zb}。
例3-2:謙虛/a是/v人們/r最/d基本/a{CCH基礎(chǔ)}的/u品質(zhì){CJP-dz}。/w
例3-3:他/r{CQ的/u}體重/n越來越/l{CCH太/d}輕/a{CCH瘦/a}了/y{CJP-zw}。/w
例3-4:他/r是/v我/r最/d好/a{CQ的/u}朋友/n。/w
例3-1中由于主賓搭配不當(dāng),影響了“是”字句的基本結(jié)構(gòu),是無異議的偏誤“是”字句。例3-2中前句存在定中搭配不當(dāng)?shù)膯栴},但“是”字句的主干“謙虛是品質(zhì)”無誤,因此將其定為有問題的正確“是”字句。后句中有別字問題,但不影響“是”字句語義,判斷為正確“是”字句。例3-3中“體重瘦”為主謂搭配不當(dāng),這影響了形容詞謂語句的語義,應(yīng)視為偏誤形容詞謂語句。例3-4中缺少定語標(biāo)記詞“的”,按照標(biāo)注規(guī)范,存在缺詞偏誤,不影響“是”字句主干,應(yīng)標(biāo)為有問題的正確“是”字句。因此,我們將正確句式歸納為以下四類:
1)完全無誤的句子。如:
例3-5:我/r是/v韓國/ns人/n{ZQs}。/w
應(yīng)標(biāo)為正確“是”字句,標(biāo)注符號為{ZQs}。
2)有字層面偏誤的句子。如:
例3-6:你為[B辦]什么笑{ZQyw}?
字層面的偏誤(別字、錯字、異體字、拼音字、多字等)不影響句式的正確,因此標(biāo)為正確句。再如:
例3-7:這/r是/v我/r的[D的]/u錯/n{ZQs}。
該句第二個“的”應(yīng)該是筆誤多余了,偏誤標(biāo)注為字層面的偏誤,而句式標(biāo)注為“正確是字句”。
3)有詞層面偏誤但不影響句子主干的句子。如:
例3-8:他/r是/v我/r最/d好/a{CQ的/u}朋友/n{ZQs*}。
例3-9:他/r是/v我/r媽媽/n{CD的/u}朋友/n的/u孩子/n{ZQs*}。
這兩個句子一個缺詞,一個多詞,但句子主干未受影響,因此標(biāo)為正確“是”字句。但考慮到畢竟與只有字層面偏誤的、完全無誤的句子有所不同,為便于研究,將其標(biāo)為“有問題的正確是字句”,標(biāo)注符號為{ZQs*}。
4)有句法層面的偏誤但不影響句子主干的句子。如:
例3-10:到/v現(xiàn)在/t{CJ-sy為止/v}很多/m事情/n讓/p我/r感動/a{ZQjy*}。
該句前面存在述語缺失和固定短語偏誤問題,但句子主干為兼語句,主干內(nèi)容和形式未受影響,因此,將其標(biāo)為有問題的正確兼語句,標(biāo)注符號為{ZQjy*}。再如:
例3-11:他/r一/m下課/b{CJ-zy就/d}回家/v照顧/v媽媽/n{ZQld*}。/w
該句“下課”后缺少狀語“就”,存在句子成分偏誤及固定格式“一......就”的偏誤,但句子主干為連動句,未受大的影響,應(yīng)標(biāo)注為有問題的正確連動句,標(biāo)注符號為{ZQld*}。
而下述例句由于偏誤已經(jīng)影響了句子主干而標(biāo)注為偏誤句式。
例3-12:那時/r我/r{CJ-zy有點兒/d}飄飄然/a{CJxw}。/w
例3-13:考試/v失敗/v了/y,/w我/r{CJ+zy真/d}難堪/a極/d了/u{CJxw}。/w
在漢語中,形容詞謂語句中的形容詞很少直接充當(dāng)句子的謂語,一般要與修飾成分或補充成分共現(xiàn),所以形容詞謂語句中缺少/疊加修飾成分的(狀語)或缺少/疊加補充成分,或修飾成分、補充成分相沖突的,都視為影響了句子主干,標(biāo)注為錯誤的形容詞謂語句。
因此,在基礎(chǔ)標(biāo)注與偏誤標(biāo)注同時進(jìn)行的中介語語料庫中,為了有效避免規(guī)范間的沖撞,使正確句式標(biāo)注和偏誤句式標(biāo)注不會出現(xiàn)纏繞混雜,應(yīng)將正確句式分層處理,以形式為主,兼顧意義,盡量準(zhǔn)確判斷何謂正確句,何謂偏誤句。
前文提及本語料庫對偏誤的標(biāo)注遵循“從大到小”的優(yōu)先原則。這樣一則可保證標(biāo)注的一致性,二則可盡量保留有用信息,提升偏誤標(biāo)注和后續(xù)理論研究的價值。這是一條總體原則,對大多數(shù)偏誤具有指導(dǎo)性。但標(biāo)注中我們發(fā)現(xiàn),若干情況下不能完全照搬該原則,而應(yīng)對偏誤進(jìn)行細(xì)致分析,否則會導(dǎo)致標(biāo)注結(jié)果不準(zhǔn)確。
3.3.1 詞層面和篇章層面偏誤的辨別和處理
在CSL(Chinese as Second Languang)中,漢語篇章教學(xué)往往在中、高級水平學(xué)習(xí)者層面進(jìn)行。實際上,漢語學(xué)習(xí)的各個階段都會出現(xiàn)篇章連貫和銜接方面的偏誤,只是不同學(xué)習(xí)階段所出現(xiàn)的篇章偏誤類型和比例有所差別。我們將篇章層面的偏誤限制在指稱問題引發(fā)的偏誤、關(guān)聯(lián)詞語不當(dāng)引發(fā)的偏誤、上下文語義缺乏聯(lián)系三個大類。其中代詞的缺失、混用常常會導(dǎo)致指代不明、指代混亂的問題;代詞的多余導(dǎo)致了表義的重復(fù)累贅,打斷了句子原有的連貫性。在漢語中,同一話題鏈的各小句,如果主語一致,一般情況下會共用一個主語,如果不承前或蒙后省略其他主語會讓人覺得累贅,文氣不通暢。標(biāo)注時,僅通過對代詞簡單地添加或刪除即可糾偏。但如果處理為詞層面的問題,或句法層面的句子成分缺失或多余,那么篇章層面的問題即被放過,在后期的提取中就會漏掉此類“似錯非錯”的偏誤。如下例所示:
例3-14:{CP-zd我/r去/v過/u不少/m地方/n,/w但/c{CJ+zhuy我/r}還是/d覺得/v杭州/ns是/v最/d美/a的/u城[L]市/n。/w{CJ-zhuy我/r}聽/v人/n說/v過/v“/w上/v有/v天堂/n,/w下/v有/v蘇/j杭/i”/w[BQ。/w]P}
這段話中的代詞“我”有時多余,有時缺失。不標(biāo)篇章偏誤,對中介語來說,似乎講得通。但會使最后的提取結(jié)果中缺少這部分語料,對篇章研究不利。因此,此處應(yīng)適當(dāng)從嚴(yán),應(yīng)標(biāo)盡標(biāo)。但是,下面的情況不能機械地、一概搬用從大到小原則。如:
例3-15:{CP-gl我/r朋友/n的/u外貌/n{CJ+sy是/v}五官[B館]/n端[B喘]正/a{CJs}。{CD然后/c}她/r的/u身高/n165CM/n以上/f{ZQmw*}[BQ。/w]P}
例3-16:{CP-gl我/r來/v中國/ns{CQ的/u}時候/n會/v{CCH能/v}說/v{CQ的/u}漢語/n太/d少/a{ZQxw},/w而且/c{CCH還有/c}完全/d聽/v不/d懂/v{CCH清楚/a}。/wP}
例3-17:為了/p學(xué)/v外語/n,/w不僅/c{CJ-zy要/v}學(xué)/v語言/n[BQ,]還/d{CCH還有/c}應(yīng)該/v知道/v那個/r國家/n的/u文化/n或者/c生活/vn習(xí)慣/n或者/c經(jīng)濟(jì)/n發(fā)展/vn的/u情況/n。/w
例3-18:我/r聽說/v四川/ns菜/n很/d辣/a,/w但是/c我們/r點/v的/u菜/n不/d太/d辣/a{ZQxw}{ZQfd},/w也/d{CCH還有/c}不/d油膩/a。/w
韓國留學(xué)生受母語影響頻繁使用“然后”和“還有”來表示順承、因果、遞進(jìn)、并列等關(guān)聯(lián)義,如例3-15、例3-16。這類偏誤按照從大到小的序列首先處理為篇章偏誤層面下的關(guān)聯(lián)詞語使用不當(dāng)?shù)膯栴},將有語義關(guān)聯(lián)的句子用篇章偏誤的標(biāo)記{CP-gl……P}括起來,再對使用有誤的“然后”“還有”進(jìn)行多詞、缺詞或詞語替換的標(biāo)注。
如例3-17、例3-18所示,韓國留學(xué)生也常常用“還有”表示“還”“也”的意思,這種情況只視為詞層面的問題,不處理為篇章問題。
因此,標(biāo)注中必須注意,有些偏誤盡管字面形式相似,但由于引發(fā)偏誤的原因不同,最后標(biāo)注的偏誤類型應(yīng)屬于不同的層面,這種情況一定要根據(jù)具體句義有針對性地處理,不能完全套用“從大到小原則”,也不能對同一個詞語偏誤歸類化處理,而應(yīng)根據(jù)具體情況一一加以甄別。當(dāng)然,這也是人工標(biāo)注的優(yōu)勢所在,其靈活性是機器自動標(biāo)注無法比擬的。
3.3.2 句法層面和字層面偏誤的辨別和處理
一個熟練的標(biāo)注者在標(biāo)注時容易因熟而機械,即常常出現(xiàn)“望形判錯”的失誤。在句法層面和字層面偏誤的辨別上我們遇到過以下情況:
一是對“的”“地”“得”的處理。標(biāo)注規(guī)范中結(jié)構(gòu)助詞“的”“地”“得”之間的混用標(biāo)記為“成分標(biāo)記詞使用不當(dāng)”,屬于句法層面的偏誤。如:
例3-19:
標(biāo)注前:我/r記/v的/u很/d清楚/a。/w
標(biāo)注后:我/r記/v得/u{CCB的/u}很/d清楚/a。/w
但這不是絕對的。如例3-19,寫作者將“記得”一詞誤寫為“記的”,應(yīng)該屬于別字的問題。而且這里的“得”“的”都不是結(jié)構(gòu)助詞,因此不應(yīng)歸入“成分標(biāo)記詞使用不當(dāng)”一類中。
例3-20:
標(biāo)注前:他/r說/v的/u話/n我/r還/d記/v的/u。/w
標(biāo)注后:他/r說/v的/u話/n我/r還/d記得[B的]/v。/w
二是對量詞偏誤的處理。在中介語語料中常常出現(xiàn)名量搭配不當(dāng)?shù)钠`。標(biāo)注規(guī)范中將量詞的錯用歸為句層面偏誤下的定中搭配不當(dāng)。如:
例3-21:
標(biāo)注前:他/r從來/d沒/d說/v過/u一/m種/q抱怨/v的/u話/n。/w
標(biāo)注后:他/r從來/d沒/d說/v過/u一/m句/q{CCH種/q}抱怨/v的/u話/n{CJP-dz}。/w
而在例3-22中,“一步電視劇”中的“步”經(jīng)過自動分詞后被打上量詞的詞性標(biāo)記,所以標(biāo)注者很容易將其處理為定中搭配不當(dāng)。而實際情況是,韓國留學(xué)生的別字偏誤主要有兩個類型,一類是形近別字,另一類是音同別字。此處出現(xiàn)偏誤的原因更趨近于“步”“部”因同音而成為別字,宜將其處理為別字層面的偏誤。
例3-22:
標(biāo)注前:我/r最/d喜歡/v的/u一/m步/q電視劇/n是/v《/w大長今/nr》/w[BQ。/w]
標(biāo)注后:我/r最/d喜歡/v的/u一/m部[B步]/q電視劇/n是/v《/w大長今/nr》/w{ZQs}[BQ。/w]
3.3.3 詞層面和句法層面偏誤的辨別和處理
詞層面和句法層面的偏誤一般情況下應(yīng)優(yōu)先考慮句法層面,但涉及到部分特殊詞語則需作兩層標(biāo)注。比較典型的是“著”“了”“過”的問題。在語料庫中,由“著”“了”“過”的缺少和多余引發(fā)的偏誤占有相當(dāng)高的比例。規(guī)范中明確規(guī)定“著”“了”“過”作為動態(tài)助詞的缺少、多余統(tǒng)一處理為詞層面的偏誤,如例3-23。但在例3-24中,“了”的缺失關(guān)涉到“把”字句的成句條件,故不能簡單標(biāo)注“缺詞”,而應(yīng)同時標(biāo)注“把字句”偏誤。
例3-23:他/r原來/d在/p東樣機電/nt工作/v,/w可是/c前年/t換/v{CQ了/u}公司[B可]/n。/w
例3-24:小林/nr,/w喝/v完/v以后/f,/w記住/v把/p小/a鍋/n和/c杯子/n洗/v{CQ了/u}{CJba}。/w
因此,詞層面和句法層面偏誤的辨別和處理有時可以兩層標(biāo)注。
3.3.4 詞層面和字層面偏誤的辨別和處理
有時,從語料字面來看,有些偏誤拿不準(zhǔn)是詞層面還是字層面的。這時,要結(jié)合學(xué)習(xí)者的實際,加以綜合判斷。如:
例3-25:姐姐/n跟/p我/r差/v2/m歲/q,/w有的/r時侯/n{CCH時/n}跟/p朋友/n一樣/a。/w
韓國留學(xué)生常常將“時”和“時候”混用,字面上很像漏字。實際上由于這兩個詞在韓語中的對應(yīng)詞只有一個,韓國留學(xué)生在使用漢語詞時容易將其混淆。因此,庫中統(tǒng)一將其處理為詞層面偏誤下的“該用甲詞而用乙詞”(CCH),而不處理為漏字。再如:
例3-26:我/r的/u心里/n{CCH心理/n}很/d高興/a{ZQxw*}。/w
例3-27:這樣/r的/u孩子/n更/d容易/a出現(xiàn)/v心理/n{CCH心里/n}問題/n。/w
“心理”和“心里”的混用也是韓國留學(xué)生的通病,同樣將其處理為CCH,而不處理為別字。這樣便于后期對兩組詞的用法加以仔細(xì)區(qū)別和研究。
3.4.1 句法結(jié)構(gòu)偏誤與句法成分偏誤的層級關(guān)系
句法層面的偏誤包括句式錯誤、句法成分的缺失/多余、句法成分搭配不當(dāng)、句式雜糅、語序錯誤等九種情況。實際上,句式偏誤和句法成分的缺失/多余、句法成分搭配不當(dāng)之間并不是簡單的平行關(guān)系。如果一個句子出現(xiàn)句法成分的缺失/多余或句法成分之間的搭配不當(dāng)?shù)绕`,同時該句又是16個“句式錯誤”類型之一,那么要對該句進(jìn)行分層標(biāo)注,除標(biāo)記句法成分的偏誤,還要打上句式錯誤的標(biāo)記。這種交叉的關(guān)系用文氏圖表示如下(見圖3-3):
圖3-3 文氏圖
特殊句式是漢語L2學(xué)習(xí)者學(xué)習(xí)的重點和難點。在標(biāo)注中發(fā)現(xiàn),有些句法成分層面的偏誤,實際上是由于寫作者對特定句式的句法語義特點沒有掌握或沒有完全掌握造成的。
例3-28:
標(biāo)注前:但是/c我/r覺得/v賢雅/nr很/d魅力/n。/w
標(biāo)注后:但是/c我/r覺得/v賢雅/nr很/d{CJ-sy有/v}魅力/n{CJy}。/w
例3-29:
標(biāo)注前:他/r大/a笑/v地/u走/v過去/v了/u。/w
標(biāo)注后:他/r大/a笑/v著/u{CCB地/u}走/v過去/v了/u。/w{CJld}。
例3-28既缺少述語“有”,同時也是“有”字句的句式偏誤。例3-29中寫作者試圖描寫“他”走路的狀態(tài)方式,套用了最常用的狀中結(jié)構(gòu)。在現(xiàn)在的語法體系中,“大笑著走過去”這類句子被劃入連動句的范圍,所以要對該句偏誤分兩層進(jìn)行標(biāo)注:一是成分標(biāo)記詞不當(dāng);二是連動句偏誤。
3.4.2 短語層面偏誤的處理
庫中可見到在短語內(nèi)缺少某個成分的偏誤,如介賓短語內(nèi)出現(xiàn)缺少賓語或缺少介詞的問題。這種偏誤雖然出現(xiàn)在短語內(nèi)部,但由于我們沒有單設(shè)短語層面的偏誤,因此將其統(tǒng)一標(biāo)注為句法層面的偏誤。如:
例3-30:我/r找/v她/r向/p{CJ-by她/r}傾訴/v。/w
例3-30中,“向她傾訴”是介賓短語中缺少介詞賓語“她”,標(biāo)記為句層面的“缺失賓語”。
另外,有的句子在短語層面未見偏誤,從句法層面看,如去除修飾、限定成分,只保留基本句干,句法搭配也合理。而將修飾、限定成分考慮在內(nèi),則句子語義不通。如:
例3-31:我/r手心/v出/v了/u一/m身/n冷汗/n{CJP-zw}。/w
例31是主謂謂語句,謂語部分“手心出了一身冷汗”又是一個“主語+謂語+賓語”結(jié)構(gòu)的小句。“手心出冷汗”“出冷汗”和“出了一身冷汗”的搭配都沒有問題,但“手心”和“冷汗”的修飾語“一身”無法搭配。雖然它們不在同一個句法層次上,不是典型的句法成分搭配不當(dāng),但考慮到這類偏誤數(shù)量不多,單立一條標(biāo)注規(guī)范不經(jīng)濟(jì),所以從大處著手,將這類情況標(biāo)注為句層面的“主謂搭配不當(dāng)”,待到后期提取偏誤后再作進(jìn)一步的細(xì)分。
語料庫的標(biāo)注質(zhì)量關(guān)乎語料庫的信度,而標(biāo)注質(zhì)量的高低則取決于標(biāo)注規(guī)范是否科學(xué)完善和標(biāo)注員的標(biāo)注水平。
一個標(biāo)注員同時承擔(dān)著對語料正誤的判別、標(biāo)注項的選取、標(biāo)注代碼的添加、分詞結(jié)果的校對等等多項工作。選取語言學(xué)基礎(chǔ)扎實、了解對外漢語教學(xué)狀況、初步熟悉外國留學(xué)生語言實際情況者作為標(biāo)注員,其意義不需贅述。但即使是符合上述標(biāo)準(zhǔn)的標(biāo)注員仍需強化培訓(xùn)。張寶林建議“通過專門課程的形式,詳細(xì)講述標(biāo)注規(guī)范的各項細(xì)則,并通過反復(fù)的實際標(biāo)注訓(xùn)練,使標(biāo)注人員深入了解并切實掌握標(biāo)準(zhǔn)(疑為“標(biāo)注”筆誤——引者注)的規(guī)范與標(biāo)準(zhǔn)……”[注]張寶林:《漢語中介語語料庫建設(shè)的現(xiàn)狀與對策》,《語言文字應(yīng)用》2010年第3期。,非常有針對性和實效。我們的做法是集中強化訓(xùn)練,以兩個月為期,進(jìn)行6—8期訓(xùn)練語料的標(biāo)注,每次標(biāo)注結(jié)束后進(jìn)行集中校正、集體討論。標(biāo)注員熟悉標(biāo)注規(guī)范、反復(fù)試標(biāo)的過程也是不斷發(fā)現(xiàn)問題,不斷完善標(biāo)注規(guī)范,細(xì)化偏誤類型的過程。事實證明,一支經(jīng)過培訓(xùn)的專業(yè)素養(yǎng)較高的標(biāo)注隊伍的確會在標(biāo)注過程中發(fā)現(xiàn)很多彌足珍貴的問題。正是在他們的慧眼下,我們的標(biāo)注規(guī)范才得以逐漸完善。
為了減輕標(biāo)注員的記憶負(fù)擔(dān)和標(biāo)注難度,提高標(biāo)注效率,也為了保證標(biāo)注代碼形式上的一致性,我們開發(fā)了配套的輔助標(biāo)注工具,利用輔助標(biāo)注工具添加代碼,實現(xiàn)了語料庫基礎(chǔ)標(biāo)注和偏誤標(biāo)注的人標(biāo)機助,大大提升了標(biāo)注質(zhì)量。
在第一次標(biāo)注完成后,進(jìn)行交叉校對二次過濾,加強對語料標(biāo)注過程的監(jiān)控。最后由專人審核統(tǒng)稿,提高語料標(biāo)注的正確率和一致性。
漢語中介語語料庫建設(shè)的目的是應(yīng)用,而為漢語作為第二語言習(xí)得研究和漢語教學(xué)研究提供實證是應(yīng)用的兩大重點。已經(jīng)建設(shè)完成的漢語中介語語料庫在上述兩方面研究中已經(jīng)發(fā)揮了重要的作用,基于各類漢語中介語語料庫已經(jīng)出版了很多專著、發(fā)表了大量研究論文。如張寶林將“HSK動態(tài)作文語料庫”中有關(guān)把字句的使用頻率與母語者使用把字句的頻率進(jìn)行對比,對學(xué)界一直以來的觀點“外國留學(xué)生對把字句的使用有回避現(xiàn)象”予以證偽。[注]張寶林:《回避與泛化——基于“HSK動態(tài)作文語料庫”的“把”字句習(xí)得考察》,《世界漢語教學(xué)》2010年第2期。如沒有“HSK動態(tài)作文語料庫”中統(tǒng)計數(shù)據(jù)的支撐,有關(guān)把字句習(xí)得的研究將失之主觀甚至以誤傳誤。筆者所建的“多層偏誤標(biāo)注的國別化漢語中介語動態(tài)語料庫”也是以應(yīng)用為導(dǎo)向建庫并進(jìn)行多層偏誤標(biāo)注。與前文所提的已建成的很多庫相似,自建庫做到了在平面化漢語中介語語料庫構(gòu)建中對語料處理的最大廣度。
然而,在建庫的后期及建庫完成后,我們發(fā)現(xiàn):現(xiàn)有漢語中介語語料庫依然難以滿足日益發(fā)展的研究需要。比如在習(xí)得與教學(xué)研究中,涉及對照語料時,所采用的基準(zhǔn)語料常常為報刊標(biāo)準(zhǔn)語料,學(xué)習(xí)者中介語語料與母語報刊標(biāo)準(zhǔn)語料在語體風(fēng)格上相差懸殊,兩相對照結(jié)果不盡人意,亟需建設(shè)漢語母語者發(fā)展語料庫作為學(xué)習(xí)者中介語發(fā)展語料庫的對照庫。另外,隨著漢語作為第二語言習(xí)得研究、漢語教學(xué)研究的深化,不同語言環(huán)境下學(xué)習(xí)者習(xí)得的同異、學(xué)習(xí)者口筆語表現(xiàn)的差異性、學(xué)習(xí)者偏誤與教材相關(guān)性等問題日益引起研究者的興趣??梢哉f,早前平面化的漢語中介語語料庫已經(jīng)無法支撐日益豐富、深化的研究需求,必須進(jìn)行漢語中介語語料庫建庫理念的再思考。
為此,我們提出建設(shè)“多維參照的國別化漢語中介語語料庫庫群”的設(shè)想,并正在付諸實施。新庫的建設(shè)是原有語料庫建設(shè)的延伸,但在建庫理念上也是對原有平面化建庫理念的一種顛覆,即開始由平面化建庫思路向立體化建庫理念轉(zhuǎn)變。這種理念的轉(zhuǎn)變必將對語料庫建設(shè)實踐及圍繞語料庫進(jìn)行的相關(guān)研究產(chǎn)生一連串的蝴蝶效應(yīng)。目前在建的北京語言大學(xué)“全球漢語中介語語料庫”也正在由平面庫向立體庫轉(zhuǎn)型??梢灶A(yù)見,未來,漢語中介語語料庫類型將不斷豐富,通用庫規(guī)模愈加宏大,國別庫愈加深化,而立體化建庫理念將逐漸被接受,并經(jīng)由更多建庫實踐予以佐證。