計算機(jī)輔助普通話水平測試評分問題的研究
——以二級甲等“機(jī)測”成績?yōu)橹行牡恼{(diào)查分析

2017-06-19 17:57:08童效杰

韓山師范學(xué)院學(xué)報 2017年2期

關(guān)鍵詞：應(yīng)試者普通話發(fā)音

童效杰

（韓山師范學(xué)院文學(xué)與新聞傳播學(xué)院，廣東潮州 521041）

計算機(jī)輔助普通話水平測試評分問題的研究
——以二級甲等“機(jī)測”成績?yōu)橹行牡恼{(diào)查分析

童效杰

（韓山師范學(xué)院文學(xué)與新聞傳播學(xué)院，廣東潮州 521041）

計算機(jī)輔助普通話水平測試將測試環(huán)境形式由人工轉(zhuǎn)變?yōu)橛嬎銠C(jī)，其突出作用是減少了人為因素干擾、增強(qiáng)了測試的客觀性和公正性，進(jìn)而提高了測試的規(guī)范性和權(quán)威性。然而通過對測試最終成績進(jìn)行分析和比較發(fā)現(xiàn)：計算機(jī)輔助普通話水平測試評判中，存在對應(yīng)試者的“特殊發(fā)音錯誤”和發(fā)音缺陷“測不準(zhǔn)”、對連讀和語流“不評測”等問題。這一現(xiàn)象必須引起重視并加以糾正，否則不僅會失去普通話水平測試的嚴(yán)肅性、科學(xué)性和權(quán)威性，而且也會對普通話學(xué)習(xí)和訓(xùn)練帶來錯誤的導(dǎo)向，進(jìn)而嚴(yán)重偏離推廣普通話工作的目標(biāo)。要進(jìn)一步加強(qiáng)對計算機(jī)輔助普通話水平測試的研究，擴(kuò)大語音樣本數(shù)據(jù)庫語音樣本類型和數(shù)量，以提高計算機(jī)網(wǎng)上評分的分辨識別能力，并通過加強(qiáng)人工復(fù)評來糾正部分計算機(jī)網(wǎng)上評分的偏差。

“機(jī)測”；特殊發(fā)音錯誤；發(fā)音缺陷；連讀；語流；“測不準(zhǔn)”；“不評測”

1994年10月30日，國家語言文字工作委員會、國家教育委員會、國家廣播電影電視部聯(lián)合頒發(fā)了《關(guān)于開展普通話水平測試工作的決定》（國語〔1994〕43號，下文簡稱《決定》），決定在全國正式啟動普通話水平測試工作，這是保證推廣普及普通話工作走向制度化、規(guī)范化、科學(xué)化的一項重要措施。在《決定》的指導(dǎo)下，全國各省從1995年開始陸續(xù)開展了針對在職教師、師范類專業(yè)畢業(yè)生、廣播電視播音員、公務(wù)員等的普通話水平測試工作，大大推動了語言文字規(guī)范化工作的進(jìn)程。到2014年，普通話水平測試工作已整整經(jīng)歷了20年。在這20年里，無論是對測試的宏觀管理還是測試的細(xì)節(jié)操作，都取得了重大成果，獲得了良好的社會聲譽(yù)。特別是現(xiàn)代科學(xué)技術(shù)在測試中的運(yùn)用，由中國科大訊飛承擔(dān)的研究課題“計算機(jī)輔助普通話水平測試”成果得到專家的鑒定，并在全國范圍內(nèi)的實際測試當(dāng)中全面實施，將測試環(huán)境形式由人工轉(zhuǎn)變?yōu)橛嬎銠C(jī)，這不僅把測試員從繁重的勞動中解脫出來，更重要的是大大減少了人為因素的干擾、增強(qiáng)了測試的客觀性和公正性，也大大提高了普通話水平測試的規(guī)范性和權(quán)威性。2014年1月22日，時任教育部副部長、國家語言文字工作委員會主任李衛(wèi)紅在全國語言文字信息化工作視頻會議上的講話中講到：“計算機(jī)輔助普通話水平測試快速發(fā)展，截至2012年底，全國共有30個?。▍^(qū)、市）已經(jīng)試點(diǎn)和實施了計算機(jī)輔助普通話水平測試，當(dāng)年使用計算機(jī)輔助測試的考生已達(dá)290萬人次，累計達(dá)887萬人次?！边@樣一個層次高、覆蓋面廣的國家級考試，評測標(biāo)準(zhǔn)和結(jié)果理應(yīng)客觀、全面、精細(xì)，可在實際測試中情況又怎樣呢？

一、問題的提出

計算機(jī)輔助普通話水平測試（以下簡稱為“機(jī)測”）評分中，應(yīng)試者的成績前三項（即讀單字詞、讀詞語、朗讀，共60分）測試結(jié)果由計算機(jī)自動評分，第四項“命題說話”（共40分）測試結(jié)果則由測試員通過在網(wǎng)上聽?wèi)?yīng)試者的錄音進(jìn)行人工評分，最后兩部分分?jǐn)?shù)合計即為應(yīng)試者取得的測試總成績，并以此確定應(yīng)試者的普通話等級。

韓山師范學(xué)院自2009年3月開展“機(jī)測”試點(diǎn)工作，為了積累經(jīng)驗和平穩(wěn)過渡，起初我們只是對少部分考生進(jìn)行“機(jī)測”，對其他大部分考生仍進(jìn)行傳統(tǒng)的人工評測（以下簡稱“人測”），采用“機(jī)測”和“人測”并行的方式開展全校的普通話水平測試工作。通過近兩年時間的試行，到2011年1月，全校的普通話水平測試工作就全部實行了“機(jī)測”。至今，“機(jī)測”已在我校實行了八個年頭。八年中，我們一直關(guān)注著“機(jī)測”的運(yùn)行情況和結(jié)果。實行“機(jī)測”后，普通話水平測試工作總體運(yùn)行平穩(wěn)、順利、正常，大大減輕了測試員的工作負(fù)擔(dān)，提高了測試工作的效率。從測試結(jié)果看，在“機(jī)測”與“人測”并行的頭兩年（2009年和2010年）里，兩種測試方式下的應(yīng)試者成績相比較，其在各等級的分布比例就有了一些變化，“機(jī)測”方式下獲得二級甲等成績應(yīng)試者的比例（占15%左右）比“人測”方式下獲得二級甲等成績應(yīng)試者的比例（占5%左右）有明顯提高，而獲得二級乙等成績應(yīng)試者的比例（占70%左右）比“人測”方式下的（占80%左右）有明顯降低，在其他等級上的人數(shù)分布比例變化不明顯。但由于試行“機(jī)測”階段參加“機(jī)測”的應(yīng)試者人數(shù)比較少，絕大多數(shù)應(yīng)試者參加的仍然是“人測”，對該兩年度的全體應(yīng)試者測試成績整體分布比例沒有造成太大的影響，因此這種情況沒有引起我們足夠的重視。2011年“機(jī)測”在我校全面實行后，我們更加關(guān)心“機(jī)測”結(jié)果的變化情況，發(fā)現(xiàn)幾年來的測試成績分布跟以往的“人測”相比有了一些明顯的不同和變化：每年度的全體應(yīng)試者中，獲得一級乙等以上（≥92分）成績者的比例與以往相比保持了相對穩(wěn)定，跟以往相當(dāng)，保持在0.1%以下；獲得二級甲等成績者的比例明顯上升，由以往“人測”的5%左右大幅上升到現(xiàn)在“機(jī)測”的35%左右；獲得二級乙等成績者的比例明顯下降，由以往“人測”的80%左右大幅下降到現(xiàn)在“機(jī)測”的55%左右；獲得二級乙等以下（＜80分）成績者的比例也有下降，由以往“人測”的15%以上下降到現(xiàn)在“機(jī)測”的10%以下。

我們對我?！皺C(jī)測”方式下應(yīng)試者測試成績明顯提高的現(xiàn)象進(jìn)行了調(diào)研分析，認(rèn)為這其中原因之一是學(xué)校加強(qiáng)了普通話教學(xué)培訓(xùn)和學(xué)生重視并強(qiáng)化了普通話訓(xùn)練學(xué)習(xí)的結(jié)果，但這個原因只能引起成績的緩慢提高，不能完全充分合理地解釋為何現(xiàn)行的“機(jī)測”成績比以往的“人測”成績會突然大幅變化（提高）。而且，一個現(xiàn)象更引起了我們的注意：有些“機(jī)測”應(yīng)試者在第四項“命題說話”得分并不高（日常實際說話也的確存在突出問題）的情況下，總成績分?jǐn)?shù)卻很高；尤其是有些“機(jī)測”應(yīng)試者第四項“命題說話”得分在32分左右的情況下，總成績?nèi)匀荒軌颢@得二級甲等（≥87分）的等級。通過進(jìn)一步大量調(diào)查了解，我們發(fā)現(xiàn)這種情況還不在少數(shù)，而監(jiān)控也沒有發(fā)現(xiàn)舞弊現(xiàn)象，不存在作弊行為。這引起了我們的嚴(yán)重關(guān)切，為了弄清楚具體情況，了解產(chǎn)生這種情況的原因，我們對“機(jī)測”的評分過程和結(jié)果進(jìn)行了調(diào)查和分析。

二、調(diào)查及分析

（一）分層抽樣的調(diào)查分析

普通話水平測試是對應(yīng)試者普通話標(biāo)準(zhǔn)程度的檢測和評估，包括語音、詞匯和語法三個方面。眾所周知，語音是語言的外化形式，不同語言之間差別最大的是語音。因此，語音是否標(biāo)準(zhǔn)便是評判普通話水平的首要標(biāo)準(zhǔn)，普通話水平測試的評分標(biāo)準(zhǔn)也映證了這一點(diǎn)?？墒菫槭裁磿霈F(xiàn)上述現(xiàn)象呢？我們采用分層抽樣的方法選取學(xué)校普通話水平測試站同一個測試任務(wù)（任務(wù)編號：130451）中獲各個級別成績應(yīng)試者共112人（樣本成績?nèi)珵椤皺C(jī)測”結(jié)果，為了使樣本更具代表性，其中一級乙等以上成績者只有2人，全取；二級甲等成績者中隨機(jī)取30人；二級乙等成績者中隨機(jī)取50人；三級甲等成績者人數(shù)較少，但也隨機(jī)取30人）的測試原始錄音，請資深的國家級普通話水平測試員進(jìn)行人工復(fù)評，將其結(jié)果與“機(jī)測”成績從不同角度進(jìn)行比較，調(diào)查其變化情況。情況如下：

表1 對“機(jī)測”結(jié)果進(jìn)行人工復(fù)評后的等級變化情況

表2 對“機(jī)測”結(jié)果進(jìn)行人工復(fù)評后的總成績分布變化情況

表3 對“機(jī)測”結(jié)果進(jìn)行人工復(fù)評后的前三項成績分布變化情況

表4 人工復(fù)評后的第四項成績分布變化情況

通過對112個“機(jī)測”樣本成績的人工復(fù)評發(fā)現(xiàn)，“機(jī)測”樣本成績中有相當(dāng)一部分與人工復(fù)評成績存在不小的出入，而且，“機(jī)測”樣本成績普遍比人工復(fù)評成績要高。對表1的分析顯示，從等級上看，2個一級乙等“機(jī)測”成績與人工復(fù)評成績完全吻合；30個二級甲等“機(jī)測”成績中，只有10個成績與人工復(fù)評成績吻合，其他20個成績發(fā)生錯檔現(xiàn)象，其人工復(fù)評結(jié)果全部為二級乙等成績，錯檔比例竟然高達(dá)66.67%，令人十分吃驚；50個二級乙等“機(jī)測”成績中，有44個成績與人工復(fù)評成績吻合，其他6個成績發(fā)生錯檔現(xiàn)象，其人工復(fù)評結(jié)果全部為三級甲等成績，錯檔比例為12%；30個三級甲等成績中，有28個成績與人工復(fù)評成績吻合，其他2個成績發(fā)生錯檔現(xiàn)象，其人工復(fù)評結(jié)果全部為三級乙等成績，錯檔比例為6.67%。

對表2的分析顯示，從總成績上看，一級乙等、二級乙等和三級甲等的“機(jī)測”成績與人工復(fù)評成績都不盡相同，但其與人工復(fù)評成績還是很接近的，誤差都比較?。ㄏ嗖疃紱]有超過3分的；即便是二級乙等中錯檔的6個成績和三級甲等中錯檔的2個成績，其誤差也在3分以內(nèi)；特別是一級乙等的2個成績，其誤差更是在0.5分以下）?？墒嵌壖椎鹊摹皺C(jī)測”成績與人工復(fù)評成績卻出現(xiàn)大部分分?jǐn)?shù)懸殊的情況，不僅誤差發(fā)生的面比較大，而且有些誤差還比較大，最大誤差竟然達(dá)到了7分以上。

對表3的分析顯示，從前三項成績上看，2個一級乙等的“機(jī)測”成績與人工復(fù)評的成績基本吻合，其誤差僅為0.1分和0.6分，屬于允許的誤差范圍，可以忽略不計。而二級甲等、二級乙等、三級甲等等三個級別的“機(jī)測”成績與人工復(fù)評成績比較，相當(dāng)一部分樣本存在較大誤差；尤其是二級甲等“機(jī)測”成績樣本，其與人工復(fù)評成績相比較，不僅誤差面大，而且有些樣本誤差幅度很大，最大誤差幅度超過了6.5分。

對表4的分析顯示，從對第四項“命題說話”成績的人工復(fù)評結(jié)果來看，所有樣本成績與人工復(fù)評成績之間的誤差都比較小或沒有誤差，其誤差都在合理的范圍內(nèi)。

（二）對二級甲等“機(jī)測”成績的隨機(jī)抽樣調(diào)查分析

上述情況是怎么發(fā)生的？它說明什么問題？為什么二級甲等“機(jī)測”成績樣本與人工復(fù)評成績結(jié)果產(chǎn)生如此大的出入？為什么這種誤差突出地發(fā)生在二級甲等“機(jī)測”成績中？為了進(jìn)一步弄清情況，我們以二級甲等“機(jī)測”成績?yōu)橹行?，專門針對二級甲等“機(jī)測”成績重新抽樣進(jìn)行分析，將上述測試任務(wù)（任務(wù)編號：130451）中“機(jī)測”成績?yōu)椤岸壖椎取钡臏y試錄音材料重新隨機(jī)抽取86份，請前述同一資深的國家級普通話水平測試員進(jìn)行人工復(fù)評，并將“機(jī)測”成績與人工復(fù)評成績進(jìn)行比較。

1．“機(jī)測”成績與人工復(fù)評成績的前三項得分總分差距比較

把“機(jī)測”成績與人工復(fù)評成績的前三項得分的總分進(jìn)行比較，觀察兩者的差距情況，結(jié)果如下（見表5）。

表5 “機(jī)測”成績與人工復(fù)評成績的前三項得分總分差距比較

表5顯示，人工復(fù)評成績和“機(jī)測”成績兩者的分?jǐn)?shù)差在3分以內(nèi)的樣本共有59個，占68.6%，其中分?jǐn)?shù)差在1分以內(nèi)的樣本只占22.1%；而兩者分?jǐn)?shù)差在3分以上的樣本達(dá)到了27個，占到了31.4%。而且，“機(jī)測”成績普遍高于人工復(fù)評成績，86個樣本中只有3個樣本“機(jī)測”成績低于人工復(fù)評成績，僅占3.5%。

2．“機(jī)測”成績與人工復(fù)評成績的前三項得分分?jǐn)?shù)段分布比較

把前三項得分的總分分為9個分?jǐn)?shù)段，將“機(jī)測”成績獲得者與人工復(fù)評成績獲得者的人數(shù)分布進(jìn)行比較，觀察兩者在各分?jǐn)?shù)段的人數(shù)分布情況，結(jié)果如下（見表6）。

表6 “機(jī)測”成績與人工復(fù)評成績的前三項得分分?jǐn)?shù)段分布比較

表6顯示，人工復(fù)評成績和“機(jī)測”成績的前三項得分總分所集中的分?jǐn)?shù)段是不同的，人工復(fù)評成績集中在54分以下，共有68個樣本，其中還有7個樣本的得分低于50分，占總樣本數(shù)的8.1%；而“機(jī)測”成績則集中在53-56分之間，共有69個樣本，沒有53分以下的，57分以上的樣本有7個，占總樣本數(shù)的8.1%。

3．第四項“命題說話”“機(jī)測”成績與人工復(fù)評成績比較

第四項“命題說話”成績，無論是“機(jī)測”還是人工復(fù)評，都是由測試員根據(jù)統(tǒng)一標(biāo)準(zhǔn)進(jìn)行評判所得，理應(yīng)不會有較大出入，但為了全面準(zhǔn)確地掌握情況和分析問題，還是有必要將兩者之間的差距情況進(jìn)行比較，結(jié)果如下（見表7）。

表7 “命題說話”“機(jī)測”成績與人工復(fù)評成績差距比較

表7顯示，第四項“命題說話”“機(jī)測”成績與人工復(fù)評成績完全相同的樣本有9個，分?jǐn)?shù)差距在0.1-0.5分之間的樣本有21個，分?jǐn)?shù)差距在0.6-1.0分之間的樣本有33個，分?jǐn)?shù)差距在1.1-1.5分之間的樣本有11個。也就是說，兩者分?jǐn)?shù)差距在1.5分之內(nèi)的樣本共有74個，占總樣本數(shù)的86.1%；而分?jǐn)?shù)差距在2.0分以上的樣本只有5個，僅占總樣本數(shù)的5.8%，而且最大分?jǐn)?shù)差距也在3分以內(nèi)。

4．“機(jī)測”與人工復(fù)評的四項總成績得分分布比較

把樣本的“機(jī)測”和人工復(fù)評總成績得分分為13個分?jǐn)?shù)段，將“機(jī)測”成績獲得者與人工復(fù)評成績獲得者的人數(shù)分布進(jìn)行比較，觀察兩者在各分?jǐn)?shù)段的人數(shù)分布情況，結(jié)果如下（見表8）。

樣本的“機(jī)測”總成績均為二級甲等，表8顯示，其中87-87.99分的樣本有53個，占總樣本數(shù)的61.6%；88-88.99分的樣本有19個，占總樣本數(shù)的22.1%；89-89.99分的樣本有9個，占總樣本數(shù)的10.5%；90分以上的樣本有5個，占總樣本數(shù)的5.8%。而經(jīng)人工復(fù)評，成績?yōu)槎壖椎纫陨系臉颖緝H有23個，僅占總樣本數(shù)的26.7%，絕大多數(shù)樣本（有63個，占總樣本數(shù)的73.3%）的人工復(fù)評成績只有二級乙等；即使考慮到可能存在的可接受性誤差因素，將人工復(fù)評成績中86分以上的樣本都記為二級甲等，二級甲等成績者也只有37個，僅占總樣本數(shù)的43.0%，仍未達(dá)到總樣本數(shù)的一半。同時，還應(yīng)看到，人工復(fù)評成績中有38個樣本（占總樣本數(shù)的44.2%）的得分是低于85分的，甚至有9個樣本（占總樣本數(shù)的10.5%）的得分低于82分，只是剛過二級乙等。

表8 “機(jī)測”與人工復(fù)評的四項總成績得分分布比較

值得注意的是，樣本中，在第四項“命題說話”項目上扣分高達(dá)7.5分以上的情況下，“機(jī)測”總成績也能達(dá)到二級甲等（即得分在87分以上）者竟然有31個，占總樣本數(shù)的36.0%；最為突出的是，在該項扣分高達(dá)8.5分的情況下，竟有樣本的“機(jī)測”總成績?nèi)匀贿_(dá)到了88.6分。

對上述二級甲等“機(jī)測”成績和人工復(fù)評成績的比較和分析結(jié)果表明：“機(jī)測”總成績和人工復(fù)評總成績在第四項“命題說話”項目上的得分差異不大，其差異都在合理和可接受的范圍內(nèi)；兩者之間的差異主要來自前三項的得分，而“機(jī)測”成績的前三項評分是由計算機(jī)在網(wǎng)上進(jìn)行的，也就是說，“機(jī)測”成績的前三項計算機(jī)網(wǎng)上評分是有問題的，計算機(jī)網(wǎng)上評分存在“測不準(zhǔn)”的問題。那么，計算機(jī)網(wǎng)上評分在哪些方面“測不準(zhǔn)”呢？

三、實驗分析

通過進(jìn)一步的細(xì)致觀察和分析，我們發(fā)現(xiàn)：“機(jī)測”中計算機(jī)網(wǎng)上評分對普通話語音的“對”和“普通發(fā)音錯誤”①為了研究的方便，根據(jù)實際教學(xué)和測試工作中掌握的情況，我們把普通話語音問題分為發(fā)音錯誤、發(fā)音缺陷、連讀和語流問題。發(fā)音錯誤是指把一個字的普通話讀音發(fā)成另一個字的讀音，又分為普通發(fā)音錯誤和特殊發(fā)音錯誤。其中，普通發(fā)音錯誤是指由于認(rèn)字錯誤而導(dǎo)致的發(fā)音錯誤，比如把“帥”認(rèn)成和讀成“師”、把“瘸”認(rèn)成和讀成“腐”等；特殊發(fā)音錯誤一般是受方言發(fā)音影響而與方言發(fā)音關(guān)系較大的發(fā)音錯誤，比如常見的特殊發(fā)音錯誤有把翹舌音讀成平舌音、把后鼻音讀成前鼻音、把鼻音讀成邊音等。發(fā)音缺陷是指普通話發(fā)音不到位的現(xiàn)象，比如翹舌靠前（即發(fā)音時舌尖放在上齒齦處）、尖音、聲調(diào)調(diào)值忽高忽低等。的判斷識別率高，計算機(jī)網(wǎng)上評分能客觀準(zhǔn)確地評判普通話語音的“對”和“普通發(fā)音錯誤”；對于標(biāo)準(zhǔn)規(guī)范的普通話，計算機(jī)在網(wǎng)上能準(zhǔn)確地判別，計算機(jī)網(wǎng)上評測能達(dá)到很好的效果，因此，“機(jī)測”評分在高等級（一級乙等以上）上錯誤率低、正確率高，“機(jī)測”成績能客觀地反映應(yīng)試者的普通話水平。但是，普通話水平測試不僅要考查應(yīng)試者發(fā)音的“對”和“普通發(fā)音錯誤”，對于應(yīng)試者的“特殊發(fā)音錯誤”、發(fā)音缺陷、連讀、語流等也要進(jìn)行考查。我們推測，“機(jī)測”評分“測不準(zhǔn)”的問題就出在計算機(jī)網(wǎng)上評分對“特殊發(fā)音錯誤”、發(fā)音缺陷、連讀、語流的評判上，普通話水平一級以下的應(yīng)試者，其發(fā)音不僅存在“對”和“普通發(fā)音錯誤”的問題，而且還在“特殊發(fā)音錯誤”、發(fā)音缺陷、連讀或語流上存在問題，由于計算機(jī)網(wǎng)上評分對這些方面不能有效判別，評判存在錯誤，評分也就不準(zhǔn)確了，從而影響了“機(jī)測”成績的客觀準(zhǔn)確性，導(dǎo)致“機(jī)測”成績不能客觀如實地反映應(yīng)試者的普通話水平。事實果真如此嗎？為了檢驗上述推測的正確性，我們進(jìn)行了一個有針對性的初步實驗：選擇一份試卷（試卷編號：I-20071216）中的前三項（即讀單字詞、讀詞語、朗讀）為實驗材料，請普通話規(guī)范標(biāo)準(zhǔn)、嫻熟地道（普通話水平為一級甲等）、經(jīng)驗豐富、語言模仿能力強(qiáng)的國家級測試員作為應(yīng)試者，故意分全部平舌、后鼻音讀成前鼻音、前鼻音讀成后鼻音、翹舌音靠前、尖音、上聲調(diào)值為21、聲調(diào)調(diào)值忽高忽低、明顯一字一頓讀詞語和文章、豎著讀等9種常見“特殊發(fā)音錯誤”、發(fā)音缺陷、連讀、語流問題進(jìn)行模擬朗讀，模擬朗讀共分9次（每次只單獨(dú)出現(xiàn)上述某一類語音問題，其他全為標(biāo)準(zhǔn)規(guī)范的普通話讀音），分別對其進(jìn)行“機(jī)測”評分和“人測”評分（“人測”評分仍由前述資深國家級普通話水平測試員進(jìn)行），比較9種模擬問題讀音情況下“機(jī)測”評分和“人測”評分的得分差異，結(jié)果如下（見表9）。

表9 模擬9種問題讀音情況下“機(jī)測”和“人測”的得分差距比較

表9顯示，9類模擬實驗證明：（1）全部平舌、后鼻音讀成前鼻音、前鼻音讀成后鼻音是常見的“特殊發(fā)音錯誤”，從“機(jī)測”評分和“人測”評分結(jié)果看，兩者在“全部平舌”讀音項上的得分差異較大，“機(jī)測”得分明顯高于“人測”得分，其差異達(dá)到了3.4分，說明“機(jī)測”對平翹舌音的分辨識別存在不準(zhǔn)的問題；而在“后鼻音讀成前鼻音”和“前鼻音讀成后鼻音”兩項上的得分幾乎沒有差異，說明“機(jī)測”對前鼻音和后鼻音的分辨識別是準(zhǔn)確的。（2）翹舌音靠前、尖音、上聲調(diào)值為21、聲調(diào)調(diào)值忽高忽低是常見的發(fā)音缺陷，從“機(jī)測”評分和“人測”評分結(jié)果看，兩者在這四個方面的得分都存在差異，“機(jī)測”得分均高于“人測”得分，每個方面的得分差異在1.5分左右，在四個方面的得分差異總計達(dá)到了6.25分，說明“機(jī)測”對發(fā)音缺陷的分辨識別也存在不準(zhǔn)的問題。（3）明顯一字一頓讀詞語和文章是典型的連讀和語流問題，從“機(jī)測”評分和“人測”評分結(jié)果看，“人測”不評測、應(yīng)試者不得分，而“機(jī)測”情況下應(yīng)試者不僅得分，而且還得分很高，說明“機(jī)測”對應(yīng)試者的連讀和語流問題沒有約束和要求。（4）“豎著讀”是應(yīng)試者對測試規(guī)則的嚴(yán)重和明顯違反，“機(jī)測”和“人測”對其都不予以評分。

通過上述實驗分析，我們可以發(fā)現(xiàn)“機(jī)測”中存在以下一些問題：第一，由于“特殊發(fā)音錯誤”和發(fā)音缺陷是與方言發(fā)音相聯(lián)系或關(guān)系較大的一類語音錯誤和語音缺陷，而各地方言彼此各不相同、千差萬別，語音缺陷更是繁雜多樣，“機(jī)測”要準(zhǔn)確精準(zhǔn)地對其進(jìn)行分辨識別比較困難，因此“機(jī)測”對應(yīng)試者的部分發(fā)音錯誤和發(fā)音到位情況“測不準(zhǔn)”的現(xiàn)象就出現(xiàn)了。第二，“機(jī)測”評分中對連讀和語流沒有約束和要求，應(yīng)試者只要單個字的發(fā)音正確，即使把詞語和文章一字一頓地都讀成單個兒單個兒的字，照樣可以得高分。也就是說，計算機(jī)網(wǎng)上評分根本就不把連讀和語流作為考查的內(nèi)容和范圍，不考慮應(yīng)試者普通話的連讀和語流情況，存在“機(jī)測”“不評測”的問題，不能全面客觀地反映應(yīng)試者的普通話情況。這些問題是造成“機(jī)測”成績不能準(zhǔn)確反映應(yīng)試者普通話實際水平的原因所在，因此，出現(xiàn)哪怕第四項“命題說話”得分只有31分、32分“機(jī)測”總成績也能夠上二級甲等的現(xiàn)象就不奇怪了。

四、總結(jié)和建議

普通話水平測試內(nèi)容有四項，是按照語言學(xué)習(xí)的自身規(guī)律（即字——詞——句）進(jìn)行排列的：第一項讀單音節(jié)字詞，第二項讀詞語，第三項朗讀短文，第四項命題說話。其測試語音由單一到綜合、測試內(nèi)容由認(rèn)讀到應(yīng)用、測試形式從有文字憑借到無文字憑借，目的在于全面準(zhǔn)確地考查應(yīng)試者的普通話水平。在普通話水平測試的四個測試項中，每個測試項的評判標(biāo)準(zhǔn)不同，也就是說每個測試項的要求各不相同，各有側(cè)重，其難度逐一加大。第一項考查的是普通話21個聲母、39個韻母和4個聲調(diào)發(fā)音的到位度。第二項是在發(fā)音到位的基礎(chǔ)上，側(cè)重考查詞語的連讀、輕重格式、音變等的準(zhǔn)確度。這兩項可以說都是純粹地檢測應(yīng)試者讀字和詞語的發(fā)音準(zhǔn)確度。而第三項和第四項才是進(jìn)入考查應(yīng)試者普通話的表情達(dá)意、自如交流情況的階段，是以句子為單位，根據(jù)其“讀”和“說”兩種表達(dá)形式呈現(xiàn)的情況，除了考查其語音的標(biāo)準(zhǔn)度之外，還要考查其語氣詞“啊”的音變和“一、不”變調(diào)等音變現(xiàn)象的發(fā)音標(biāo)準(zhǔn)度、自然流暢度（第四項還要考查其普通話詞匯、語法的規(guī)范度）。

“機(jī)測”評分是指普通話水平測試的前三項由計算機(jī)進(jìn)行網(wǎng)上評分，其具體評判標(biāo)準(zhǔn)不得而知，但是從調(diào)查分析結(jié)果來看，顯然沒有達(dá)到上述目的和要求。其對“特殊發(fā)音錯誤”和發(fā)音缺陷分辨識別不準(zhǔn)確，存在對應(yīng)試者的部分發(fā)音錯誤和發(fā)音到位情況“測不準(zhǔn)”的現(xiàn)象；而對連讀和語流又不作考查要求，存在“不評測”的現(xiàn)象，把讀詞語、讀句子等同于讀單字（尤其是第三項朗讀），不能全面客觀地反映應(yīng)試者的普通話情況?！皺C(jī)測”“測不準(zhǔn)”和“不評測”問題的存在，導(dǎo)致其評分結(jié)果不能客觀地反映應(yīng)試者的普通話實際水平，這一點(diǎn)在二級甲等上表現(xiàn)得尤為突出。

為了加強(qiáng)對測試工作的宏觀管理，使其更加規(guī)范、健康地發(fā)展，20年里，教育部、國家語委等部委有針對性地頒布了多部法律規(guī)章，這些法律規(guī)章的制定和實施，都在告訴我們：普通話水平測試是國家級測試，是推廣全國通用的普通話的重要舉措之一，理應(yīng)具有高度的科學(xué)性和權(quán)威性。而且，我們普通話教學(xué)和推廣的目的，是培養(yǎng)和訓(xùn)練人們能說一口標(biāo)準(zhǔn)流利的普通話，從而提高其語言表達(dá)能力和語言交際能力，而不僅僅只是使其普通話發(fā)音準(zhǔn)確無誤。教育部、國家語委教語用【2003】2號文明確指出，“普通話水平測試測查應(yīng)試人的普通話規(guī)范程度、熟練程度，認(rèn)定其普通話水平等級，是標(biāo)準(zhǔn)參照性考試”[1]。普通話水平測試的目的是考查和促進(jìn)應(yīng)試者熟練地運(yùn)用規(guī)范的普通話進(jìn)行交際的能力，使應(yīng)試者能夠運(yùn)用普通話正確而自然流暢地交流。

“學(xué)習(xí)一種語言，如果只是能把每個音素或音位的音發(fā)得很準(zhǔn)確，是不行的?！盵2]有聲語言的運(yùn)動狀態(tài)稱為“語流”，口語交際過程一定是有一連串發(fā)音的，一個音接著一個音，連續(xù)不斷，從而形成意思相對完整的語流。而這種語流所呈現(xiàn)出來的最小單位是句子，口語外化就是“讀”和“說”，即“讀句子”和“說句子”，而不是“讀字詞”和“說字詞”。我們知道，“清晰、準(zhǔn)確、流暢，一直是衡量一個人口語表達(dá)能力的三個基本維度”[3]，朗讀是把文字作品轉(zhuǎn)化為規(guī)范的有聲語言的再創(chuàng)作活動，其基本要求就是語音清晰、標(biāo)準(zhǔn)，語流流暢。語流所包含的基調(diào)、停連、重音、語速、語調(diào)等方面都是通過語音外化出來的，所以，在學(xué)習(xí)和訓(xùn)練普通話時，不僅要發(fā)音清晰準(zhǔn)確標(biāo)準(zhǔn)，同時也必須做到語流流暢，要幫助學(xué)生在學(xué)好語音、學(xué)好聲韻調(diào)的同時，學(xué)好語流的停連、輕重、抑揚(yáng)、長短、語調(diào)、節(jié)奏等等，“要提高PSC（普通話水平測試，筆者注）的成績，使學(xué)生的普通話水平能有一個質(zhì)的提高，讓學(xué)生說一口純正流利的普通話，教師必須要重視和加強(qiáng)普通話的語流教學(xué)”[4]，普通話水平測試必須體現(xiàn)對語流的評判。

而上述“機(jī)測”“測不準(zhǔn)”和“不評測”問題的存在卻違礙了這些要求的實現(xiàn)，對“特殊發(fā)音錯誤”和發(fā)音缺陷“測不準(zhǔn)”，對連讀、語流問題“不評測”，應(yīng)試者的普通話實際水平得不到真實的考查和體現(xiàn)，“機(jī)測”成績不能準(zhǔn)確有效地反映應(yīng)試者普通話的真實狀況，“機(jī)測”的鑒別和導(dǎo)向功能負(fù)向作用，長此以往，不僅對普通話水平測試的可信度、嚴(yán)謹(jǐn)性、科學(xué)性和權(quán)威性造成負(fù)面影響，而且也會對普通話學(xué)習(xí)和訓(xùn)練帶來錯誤的導(dǎo)向，進(jìn)而偏離推廣普通話工作的目標(biāo)，對推普工作帶來嚴(yán)重的消極后果。因此，對“機(jī)測”“測不準(zhǔn)”和“不評測”的問題必須高度重視，要對其加強(qiáng)研究，盡快采取措施加以解決。

首先，要按照普通話水平測試的性質(zhì)和要求，盡可能加大對各種“特殊發(fā)音錯誤”和發(fā)音缺陷樣本的采集數(shù)量，使“機(jī)測”語音樣本庫能最大限度涵蓋“特殊發(fā)音錯誤”和發(fā)音缺陷的各種語音表現(xiàn)情況，以增強(qiáng)計算機(jī)網(wǎng)上評分對應(yīng)試者語音的分辨識別能力，從而使“機(jī)測”評分能準(zhǔn)確地評判應(yīng)試者的“特殊發(fā)音錯誤”和發(fā)音缺陷。其次，要加強(qiáng)機(jī)器對連讀及語流的判斷和分析能力的研究，“機(jī)測”語音樣本庫的建設(shè)要在采集大量單字詞語音的基礎(chǔ)上，增加以雙音節(jié)詞、多音節(jié)詞、句子為單位的語音樣本數(shù)據(jù)采集，把連讀和語流作為“機(jī)測”考查的內(nèi)容和范圍，以便“機(jī)測”評分能分辨識別應(yīng)試者語音的連讀和語流情況，讓語音識別做到精細(xì)、準(zhǔn)確和客觀，能全面客觀地反映應(yīng)試者的語音面貌和普通話語言水平。再次，現(xiàn)行的“機(jī)測”評分采用的是對前三項進(jìn)行總體評價，給一個總的分?jǐn)?shù)，沒有對每一項單獨(dú)進(jìn)行評分，不便監(jiān)測和掌握“機(jī)測”評分中存在的問題，不利于對“機(jī)測”的科學(xué)研究和進(jìn)一步完善，建議采用適當(dāng)?shù)募夹g(shù)手段使“機(jī)測”評分能針對前三項的每一項進(jìn)行單獨(dú)評分。最后，在“機(jī)測”技術(shù)還沒有完全達(dá)到前兩者要求時，可以采用一些補(bǔ)救性措施來彌補(bǔ)和糾正“機(jī)測”的不足，以防范“機(jī)測”負(fù)面作用的進(jìn)一步擴(kuò)大?？梢圆捎眉哟笕斯?fù)評面的方式，來糾正部分“機(jī)測”成績失真的問題。按規(guī)定，現(xiàn)行的人工復(fù)評只針對“機(jī)測”成績?yōu)橐患壍膽?yīng)試者進(jìn)行；今后，我們可以擴(kuò)大人工復(fù)評的覆蓋面，不僅對“機(jī)測”成績一級獲得者的測試錄音全部進(jìn)行人工復(fù)評，對其他等級“機(jī)測”成績獲得者也按一定比例或按某一分?jǐn)?shù)范圍抽取其測試錄音進(jìn)行人工復(fù)評，以便掌握“機(jī)測”評分的精準(zhǔn)情況、監(jiān)測“機(jī)測”評分中存在的問題、糾正部分“機(jī)測”評分偏差。

隨著現(xiàn)代科學(xué)技術(shù)的飛速發(fā)展，我們有理由相信：“機(jī)測”技術(shù)也一定會不斷提高、完善，“機(jī)測”結(jié)果一定會越來越客觀、準(zhǔn)確，“機(jī)測”一定會達(dá)到科學(xué)化和具有權(quán)威性。

[1]國家語言文字工作委員會普通話培訓(xùn)測試中心．普通話水平測試實施綱要[M]．北京：商務(wù)印書館，2004：1．

[2]吳弘毅．實用播音教程·普通話語音和播音發(fā)聲[M]．北京：中國傳媒大學(xué)出版社，2002：88．

[3]劉傳清，戴子卉．基于普通候車室的大學(xué)生口語表達(dá)流暢度研究[J]．三峽論壇，2015（6）：64．

[4]張建強(qiáng)．PSC與語流教學(xué)[J]．賀州學(xué)院學(xué)報，2007（2）：61．

A Study of the Problem sof Com puter-Aided Scoring in the Putonghua Proficiency Test——An Instigation into Grade A Level2“Computer-Measured”Scores

TONG Xiao-jie
（College of Literatureand Journalism,Hanshan NormalUniversity,Chaozhou,Guangdong,521041）

Computer-aided Putonghua proficiency test converts the test environment from manualwork into computers,the prominent role ofwhich is to reduce human interference and enhance the objectivity and justice of the testso as to increase its normativity and authority.However,through the analysis and contrastof the final scores of tests,it is found that computer-aided Putonghua proficiency testhas problems like incorrect measurementofexaminees’“unique errors in pronunciation”and defects in pronunciation,nomeasurementof sound-linking and speech flow.Such problems can’t be ignored.Otherwise,not only would the seriousness, science and authority of the test be undermined,but alsomisleadingmight arise in Putonghua learning and training.Studies of computer-aided Putonghua proficiency tests should be enhanced,and the categories and quantities of the database of phonetic samples should be enlarged so that the capacity of discernment of com?puter network scoring could be improved.Besides,the errorsof computer network scoring can be partly correct?ed throughmanual reassessment.

computer-measured；unique errors in pronunciation；defects in pronunciation；sound-link?ing；speech flow；“incorrectmeasurement”；“nomeasurement”

H 01

1007-6883（2017）02-0065-08

責(zé)任編輯溫優(yōu)華

2016-07-21

童效杰（1966-），女，湖北通城人，韓山師范學(xué)院文學(xué)與新聞傳播學(xué)院副教授。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

計算機(jī)輔助普通話水平測試評分問題的研究——以二級甲等“機(jī)測”成績?yōu)橹行牡恼{(diào)查分析

一、問題的提出

二、調(diào)查及分析

三、實驗分析

四、總結(jié)和建議

計算機(jī)輔助普通話水平測試評分問題的研究
——以二級甲等“機(jī)測”成績?yōu)橹行牡恼{(diào)查分析

一、問題的提出

二、調(diào)查及分析

三、實驗分析

四、總結(jié)和建議