計算機(jī)輔助普通話水平測試“命題說話”項評分誤差控制

2017-06-01 11:29:53楊會永石家莊鐵道大學(xué)人文學(xué)院河北石家莊050043

石家莊鐵道大學(xué)學(xué)報(社會科學(xué)版) 2017年2期

楊會永, 張寧(石家莊鐵道大學(xué) 人文學(xué)院，河北石家莊 050043)

楊會永, 張寧
(石家莊鐵道大學(xué) 人文學(xué)院，河北石家莊 050043)

國家普通話水平測試“命題說話”項主觀性較強(qiáng)，評測誤差不容易控制。設(shè)計開發(fā)一套計算機(jī)軟件，對評測員的測評工作進(jìn)行實時監(jiān)控，力圖將由主觀性導(dǎo)致的測評誤差控制在最小程度，監(jiān)控主要從測試員試評誤差控制、測試員與測試員集體之間一致性對比誤差控制、測試員本人一致性誤差控制、不同評測點之間誤差控制、管理員抽查監(jiān)控誤差控制等六個方面進(jìn)行。這套程序?qū)δ壳罢谑褂玫脑u測系統(tǒng)產(chǎn)生積極的輔助作用。

普通話；命題說話；水平測試；誤差控制

目前國內(nèi)計算機(jī)輔助普通話水平測試所使用的是科大訊飛公司研制開發(fā)的“國家普通話水平智能測試系統(tǒng)”，該系統(tǒng)基于國家普通話水平測試大綱，可較準(zhǔn)確地對考生“命題說話”之外的三個題型進(jìn)行自動評測?！澳壳暗恼Z音評判技術(shù)還無法對考生在沒有文字憑借的情況下的第4題說話項目上的普通話水平進(jìn)行評判”[1]。這樣，第4題“命題說話”則由該系統(tǒng)錄音后由測試員基于該系統(tǒng)網(wǎng)絡(luò)平臺在網(wǎng)上進(jìn)行評分，這較之以前的人工集中評測有很多的方便之處。但須承認(rèn)的是，由于“命題說話”項的評分受評測員自身水平的影響較大，具有較強(qiáng)的主觀性，故對考生的評分存在程度不等的誤差。所以，如何有效減小“命題說話”項的評分誤差，真正測出考生實際的普通話水平，切實提高普通話水平測試的公信度，已成為計算機(jī)輔助普通話水平測試要解決的重要問題之一。我們結(jié)合自身多年的普通話測試經(jīng)驗，并學(xué)習(xí)借鑒國內(nèi)一些水平考試的有效做法，對計算機(jī)輔助普通話水平測試“命題說話”項的評分誤差控制做了研究。

我們對目前“命題說話”項的評分誤差控制主要是研究開發(fā)了一套計算機(jī)輔助普通話水平測試“命題說話”項人工評分誤差控制系統(tǒng)，該系統(tǒng)能對評測員的評測結(jié)果進(jìn)行實時監(jiān)控，能將由于評測員主觀性導(dǎo)致的評測誤差控制在評測過程之中。

一、測試員試評誤差控制

“命題說話”項評分標(biāo)準(zhǔn)中，“語音標(biāo)準(zhǔn)程度”較其他五項其主觀性最強(qiáng)，該項評分共分為六檔，評測員的評分誤差多在這項中出現(xiàn)。為使評測員對六檔評分標(biāo)準(zhǔn)有比較準(zhǔn)確的把握，我們設(shè)計從往年“命題說話”項語音數(shù)據(jù)中每檔選取50人的說話數(shù)據(jù)(評分確定比較準(zhǔn)確的)，通過排列組合編排100組試評題目，每組5個說話語料，每組題目要照顧到“語音標(biāo)準(zhǔn)程度”的不同檔次，即一組題目盡可能顯示多類型語音面貌。如果時間允許，可以多編排幾個說話語料，因為“當(dāng)其樣本容量增大時,測量的概化系數(shù)Eρ2和可靠性指數(shù)φ(類似于CTT中的信度)都會提高”。[2]測試員每天上網(wǎng)評測前均要為一組題目評分、對比后才能評測，以幫助測試員盡快找到語音面貌歸類感覺。

二、測試員與測試員集體之間一致性對比誤差控制

這項功能是監(jiān)測某測試員的評分與測試點全體測試員評分分布是否一致，如評測員集體評分分布為正態(tài)分布，而某測試員與正態(tài)分布有誤差，則表明該測試員評測與集體評測存在誤差。對此類誤差，有多種方法進(jìn)行控制，我們依靠評分曲線來控制。假如一個測試點有考生3 000人，測試員10名，考生測試之后測試員開始評測，每天所有測試員的評測分?jǐn)?shù)會自動生成一個曲線，每個測試員的評測分?jǐn)?shù)也會生成一個曲線，就會看到單個測試員評測分?jǐn)?shù)曲線和評測員集體評測分?jǐn)?shù)曲線的比較圖，隨著評測人數(shù)的增多，就會越來越清楚地看到每位評測員的打分傾向，是與集體打分分?jǐn)?shù)分布曲線吻合還是或高或低。上述單個評測員的評分?jǐn)?shù)據(jù)，與評測員集體數(shù)據(jù)相比較，如在誤差允許范圍內(nèi)，可視為合格。否則，監(jiān)測系統(tǒng)將在該評測員的屏幕和監(jiān)測員的屏幕上出現(xiàn)提示警告信息，以提醒評測員及時修正。這個方案我們是參考了一些地區(qū)高考作文評分電腦監(jiān)控的方法提出的，陳佳民指出：“有了評分常模,即對評分標(biāo)準(zhǔn)理解方面多了一個數(shù)量模式作為參照,就大大提高了對評分標(biāo)準(zhǔn)的理解的準(zhǔn)確性和一致性?！盵3]我們這套程序所提供的測試員集體的分?jǐn)?shù)曲線就是一個評分常模，可以作為個體評測員的評分參考。

圖1是我們所研制計算機(jī)輔助普通話水平測試“命題說話”項人工評分誤差控制系統(tǒng)的一個截圖。該圖是“語音標(biāo)準(zhǔn)程度”檔測試員集體評分曲線和劉榮貴測試員評分曲線的比較，從圖1中可以看出，劉榮貴測試員的得分分布基本在集體分布的左側(cè)，表明其控制標(biāo)準(zhǔn)偏嚴(yán)格，考生得分偏低。“詞匯與語法規(guī)范程度”等五項也可用同樣的方法進(jìn)行檢測，不再詳述。

圖1 普通話測試評測員個體打分與評測集體打分對比圖

三、測試員本人一致性誤差控制

這項功能的目的是檢查測試員在評測時掌握標(biāo)準(zhǔn)是否寬嚴(yán)適度，始終如一，是否隨意性大?？刂品椒ㄊ潜O(jiān)測員可定時隨機(jī)抽取某評測員已經(jīng)評測完成題目的百分之幾來由其本人復(fù)評。比如某評測員今天評測的3個說話語料，過兩天仍安排他復(fù)評。如同一說話語料同一測評員不同時間段的評分誤差超過一定限度，則可說明該測評員評測標(biāo)準(zhǔn)掌握不準(zhǔn)，需提醒或取消其評測資格。該方法在評測之初可多使用，包括復(fù)評比例也可提高，待評測穩(wěn)定后復(fù)評比例和次數(shù)可相對減少。

四、不同測試員兩評、三評誤差控制

“在普通話測試中一個主要的可能誤差,就是評分者之間或評分者本身內(nèi)部(例如:對甲、乙部評分松緊不一)的不一致性”。[4]為了避免這種人為的誤差，同一說話語料往往由兩個評測員評分，一般取其平均分作為得分。如果兩個評測員評分相差較大時，這時就會產(chǎn)生一個閾值，“閾值是指兩個評分之差的絕對值達(dá)到原先定義評測誤差的最大允許值”。[5]兩評相差的絕對值超過某一值時，評測系統(tǒng)會自動分配給第三位評測員評測。評測的閾值可由評測管理部門根據(jù)實際情況確定。這項功能目前科大訊飛的測試系統(tǒng)也有，但根據(jù)我們研制的控制系統(tǒng)檢測，科大訊飛平臺這項功能尚不完善，兩個評測員的評測分?jǐn)?shù)有些超過某一閾值的并不能檢測出來，在這方面還需完善。

五、不同評測點之間誤差控制

目前普通話測試中“命題說話”項的評測是由各單位自己負(fù)責(zé)評分的，如河北的各高校的評測都是每個學(xué)校的評測員評測本校的測試者。一個單位的測試員一般十幾個，這些測試員絕大多數(shù)都是兼職測試工作的，往往是每年集中評測一至二次，這就很可能造成一個單位的評測員評測水平參差不齊，也就很有可能出現(xiàn)一個單位總體評測分?jǐn)?shù)偏高或偏低的情況。為避免這種情況發(fā)生，保證一個地區(qū)評測的公正性，我們在系統(tǒng)中設(shè)計了不同評測點之間的誤差控制，即在評測時可參考同地區(qū)不同測試點的評測分?jǐn)?shù)。如同在石家莊的省屬重點高校的學(xué)生就可以作為評分互為參考的對象。這種誤差控制主要由省級普通話測試管理中心負(fù)責(zé)，可以隨機(jī)抽取某個評測點的已評說話語料由另一個評測點的評測員再評，如誤差率在允許的范圍內(nèi)可視為合格，如誤差率超過一定的閾值則需提醒被抽測評測點注意評測標(biāo)準(zhǔn)。

六、管理員抽查監(jiān)控誤差控制

本方法主要由省級評測管理中心和各測試站管理人員操作，主要使用管理、監(jiān)控手段從整體上來減少誤差。如可采用簡單隨機(jī)抽查某位測試員的評測成績；還可使用分階段抽樣方法，如可抽取第一天和某一天的評測成績做比較，看前后標(biāo)準(zhǔn)把握是否一致；還可自動抽樣檢測，即檢測系統(tǒng)可以根據(jù)統(tǒng)計結(jié)果自動抽取某位評測員的評測成績同整體評測成績相比，以發(fā)現(xiàn)評測中存在的問題；還可使用等距抽樣方法檢測，即間隔抽樣，如可抽取考號尾數(shù)是2的考生成績進(jìn)行復(fù)評。

七、其他功能

(一)分級率統(tǒng)計功能

我們這套程序可以將一個單位的所有考生的普通話測試等級進(jìn)行統(tǒng)計，以圖表形式直觀展示一個單位考生的普通話測試等級，見圖2。

圖2 普通話測試等級統(tǒng)計圖

圖2是石家莊鐵道大學(xué)2011年學(xué)生普通話測試等級統(tǒng)計圖，各個等級的情況一目了然，對總體了解一個單位的普通話等級情況非常方便。

(二)不同年份、不同單位測試成績的比較

這個功能可以為我們提供橫向和縱向的普通話測試成績比較數(shù)據(jù)，對理性認(rèn)識每一年的普通話成績提供翔實數(shù)據(jù)。將石家莊鐵道大學(xué)2011至2013年三年的“命題說話”項成績做了比較，發(fā)現(xiàn)2012年的成績明顯高于2013年和2011年，而2013和2011年的成績基本持平，我們覺得2012年學(xué)生的總體評測分?jǐn)?shù)偏高了，而不是2012年那一批學(xué)生的普通話水平確實高過2013和2011年的學(xué)生。如果獨立考察一年的測試成績這樣的問題是發(fā)現(xiàn)不了的。同理，不同學(xué)校的比較在這個程序中也可以比較，如果同層次學(xué)校同年級的學(xué)生普通話分?jǐn)?shù)有較大差距，很可能是評分標(biāo)準(zhǔn)的把握上有問題。重要的是，有了這樣的比較可以讓我們發(fā)現(xiàn)更多問題，做更多的思考，使我們對普通話測試這個主觀性較強(qiáng)的問題盡可能客觀化。

(三)得分異常情況處理

這項功能科大訊飛普通話智能測試系統(tǒng)也有，我們發(fā)現(xiàn)它還存在問題，一是統(tǒng)計有疏漏；二是有的異常檢測不出。如前文提到的評分誤差超過一定限度的有的就檢測不出，可為疏漏問題。像有的扣分標(biāo)準(zhǔn)只能扣0、1、2分，結(jié)果扣了3分或1.5分這類情況科大訊飛系統(tǒng)是檢測不出的。在我們這個系統(tǒng)里這類問題都得到了較好的解決。

八、結(jié)語

計算機(jī)輔助普通話水平測試“命題說話”項人工評分誤差控制系統(tǒng)總體而言是比較科學(xué)的，它能及時監(jiān)控到評測教師的評測誤差，將問題控制在開始階段；還有就是其客觀性，發(fā)現(xiàn)問題依據(jù)的是具體的數(shù)據(jù)而不是憑感覺，更具有說服力；蔡偉在談到高考作文評分誤差控制時說：“參照量表最大的也是公認(rèn)的優(yōu)點是直觀、具體、形象, 更易使評卷員產(chǎn)生一致的理解, 便于操作。評分標(biāo)準(zhǔn)和參照量表都是為了克服評分的隨意性而編制的?！盵6]這套系統(tǒng)的設(shè)計初衷也是用量化的標(biāo)準(zhǔn)來約束評測員打分的隨意性。另外，在實時的檢測過程中還能發(fā)現(xiàn)哪些測試員更負(fù)責(zé)，水平更高，相反水平低、不負(fù)責(zé)任的測試員也難逃這些數(shù)據(jù)的檢測，為選拔一批優(yōu)秀的測試員提供了較準(zhǔn)確的數(shù)據(jù)。針對“命題說話”項主觀性很強(qiáng)、容易出錯的特點，盡快開發(fā)比較科學(xué)實用、具有更高水平的計算機(jī)輔助人工測試評分誤差控制系統(tǒng)，將問題解決在過程或是萌芽之中，應(yīng)是十分必要的。

[1]雷竣.計算機(jī)輔助普通話測試的問題思考及技術(shù)對策[J].武漢理工大學(xué)學(xué)報,2010(13):161-163.

[2]楊志明，張雷.改進(jìn)普通話測試的概化理論分析[J].湖南師范大學(xué)教育科學(xué)學(xué)報,2003(1):76-82.

[3]陳佳民．用電腦建立常模監(jiān)控高考作文評分[J].華南師范大學(xué)學(xué)報,1996(2):87-91.

[4]張雷，侯杰泰.普通話測試的錄音評分可行性、信度及經(jīng)濟(jì)效率[J].心理學(xué)報，2001(2):97-103.

[5]丁琳.基于互聯(lián)網(wǎng)網(wǎng)上閱卷系統(tǒng)的設(shè)計和實現(xiàn)[D].上海：華東師范大學(xué),2003.

[6]蔡偉，婁慶華．高考作文評分誤差控制構(gòu)想[J].教育理論與實踐,2008(7)：24-25.

The Preliminary Ideas on Proposition Speaking Error Control in Computer-aided Putonghua Proficiency Test

Yang Huiyong, Zhang Ning

(College of Humanities, Shijiazhuang Tiedao University, Shijiazhuang, 050043, China)

The Proposition Speaking in Putonghua Proficiency Test has strong subjectivity. We design and develop a set of computer software which can be used to monitor the testers and control their errors to the minimum. The monitor system includes six aspects, i.e. error control, scoring consistency among testers, scoring consistency of individual tester, error control different test site, and the errors found by administrators.

Putonghua; Proposition Speaking; proficiency test; error control

2016-12-20

楊會永(1967- )，男，副教授，博士，研究方向：漢語言文字學(xué)。

2095-0365(2017)02-0068-04

G434

10.13319/j.cnki.sjztddxxbskb.2017.02.13

本文信息:楊會永,張寧.計算機(jī)輔助普通話水平測試“命題說話” 項評分誤差控制[J].石家莊鐵道大學(xué)學(xué)報：社會科學(xué)版，2017，11(2)：68-71.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

計算機(jī)輔助普通話水平測試“命題說話”項評分誤差控制

一、測試員試評誤差控制

二、測試員與測試員集體之間一致性對比誤差控制

三、測試員本人一致性誤差控制

四、不同測試員兩評、三評誤差控制

五、不同評測點之間誤差控制

六、管理員抽查監(jiān)控誤差控制

七、其他功能

八、結(jié)語

一、測試員試評誤差控制

二、測試員與測試員集體之間一致性對比誤差控制

三、測試員本人一致性誤差控制

四、不同測試員兩評、三評誤差控制

五、不同評測點之間誤差控制

六、管理員抽查監(jiān)控誤差控制

七、其他功能