陳 靜 王 碩 劉 蘇 張 華*
(1.首都醫(yī)科大學(xué)附屬北京同仁醫(yī)院北京市耳鼻咽喉科研究所耳鼻咽喉頭頸科學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京100730;2.首都醫(yī)科大學(xué)生物醫(yī)學(xué)工程學(xué)院,北京100069)
言語(yǔ)測(cè)聽(tīng)是一種用言語(yǔ)信號(hào)作為聲刺激來(lái)檢查受試者言語(yǔ)聽(tīng)閾和言語(yǔ)識(shí)別能力的聽(tīng)力學(xué)測(cè)試方法。言語(yǔ)測(cè)聽(tīng)材料的復(fù)測(cè)信度(test-retest reliability)指以同樣測(cè)試材料在不同時(shí)間段內(nèi)測(cè)量同一對(duì)象所得結(jié)果的穩(wěn)定性,是考核言語(yǔ)測(cè)聽(tīng)材料可靠性的重要指標(biāo)[1]。單音節(jié)言語(yǔ)詞表是臨床應(yīng)用最為廣泛的言語(yǔ)識(shí)別率(speech recognition score,SRS)測(cè)試材料。
國(guó)外現(xiàn)有英文言語(yǔ)測(cè)聽(tīng)材料中多數(shù)已經(jīng)實(shí)現(xiàn)復(fù)測(cè)信度的評(píng)估[2]。英文單音節(jié)測(cè)試詞表相關(guān)研究記載較少,僅有NU-6(N.U.Auditory Test No.6)和Maryland CNC測(cè)試表實(shí)現(xiàn)了復(fù)測(cè)信度評(píng)估,因此該詞表作為同類詞表中最敏感的測(cè)試工具而廣泛應(yīng)用于臨床[3]。目前在中國(guó)已有一些漢語(yǔ)普通話言語(yǔ)測(cè)聽(tīng)材料面世。相關(guān)研究正處在發(fā)展階段:郗昕等[4]完成了漢語(yǔ)普通話單音節(jié)測(cè)試表在北京聽(tīng)力正常人群中的復(fù)測(cè)信度評(píng)估;陳艾婷等[5]評(píng)價(jià)了一組等價(jià)的漢語(yǔ)普通話單音節(jié)詞表在聽(tīng)力損失人群中的復(fù)測(cè)信度;冀飛等[6]進(jìn)行了漢語(yǔ)普通話單音節(jié)測(cè)聽(tīng)表在不同方言地區(qū)聽(tīng)力正常人群中的復(fù)測(cè)信度研究。
王靚等[7]圍繞普通話言語(yǔ)測(cè)聽(tīng)材料(mandarin speech test materials,MSTMs)開(kāi)展了一系列研究工作,詞表的等價(jià)性和可靠性已從臨床實(shí)踐[7-9]得到驗(yàn)證。本實(shí)驗(yàn)在上述工作的基礎(chǔ)上,對(duì)MSTMs中的單音節(jié)小詞表的復(fù)測(cè)信度進(jìn)行分析,完善MSTMs的標(biāo)準(zhǔn)化設(shè)計(jì),為今后進(jìn)一步應(yīng)用和推廣該材料打下必要基礎(chǔ)。
北京市耳鼻咽喉科研究所研發(fā)的普通話言語(yǔ)測(cè)聽(tīng)材料MSTMs(mandarin speech test materials)是一套完整的、集測(cè)聽(tīng)材料和測(cè)聽(tīng)軟件于一體的言語(yǔ)測(cè)聽(tīng)系統(tǒng)。本次實(shí)驗(yàn)以該材料中的單音節(jié)小詞表為測(cè)試表。共16張,每張20個(gè)單音節(jié)詞,附帶練習(xí)表1張,表內(nèi)包含10個(gè)詞。
利用Cool Edit Pro 2.0聲音處理軟件檢驗(yàn),各詞表間聲能量均方根值變化在±1dB之內(nèi),符合國(guó)家標(biāo)準(zhǔn)GB/T17696-1999《聲學(xué)測(cè)聽(tīng)方法第三部分:語(yǔ)言測(cè)聽(tīng)》中言語(yǔ)級(jí)法的規(guī)定。對(duì)修訂后的16張小詞表進(jìn)行切割,在每個(gè)測(cè)試音節(jié)前后各加入0.5 s靜音。將練習(xí)表與測(cè)試表音頻導(dǎo)入首都醫(yī)科大學(xué)生物醫(yī)學(xué)工程學(xué)院與首都醫(yī)科大學(xué)附屬北京同仁醫(yī)院聯(lián)合開(kāi)發(fā)的漢語(yǔ)言語(yǔ)測(cè)聽(tīng)智能化系統(tǒng)以用于測(cè)試[10]。
招募聽(tīng)力正常的北京高校在校生共16例,其中男生8例,女生8例,年齡20至25歲,平均年齡22.2歲;聽(tīng)力較好耳在0.25、0.5、1、2、4 和8k Hz處純音聽(tīng)閾 <15 dB HL;鼓室導(dǎo)抗測(cè)試結(jié)果均為A型,受試者均未患耳科疾病且無(wú)相關(guān)病史;平日主要交流方式為普通話,吐字清晰且較標(biāo)準(zhǔn);所有受試者均首次接觸測(cè)試材料。
用MSTMs單音節(jié)小詞表對(duì)16例受試者進(jìn)行識(shí)別率測(cè)試。
1)測(cè)試地點(diǎn):首都醫(yī)科大學(xué)附屬北京同仁醫(yī)院耳鼻喉科臨床聽(tīng)力學(xué)中心標(biāo)準(zhǔn)雙間隔聲室,本底噪聲<20 dB(A)。
測(cè)試前使用B&K 2209型精密聲級(jí)計(jì),B&K 4145電容傳聲器和B&K 4152型仿真耳,參考國(guó)標(biāo)GB/T 7341.2-1998對(duì)耳機(jī)進(jìn)行校準(zhǔn)。校準(zhǔn)時(shí),調(diào)節(jié)1k Hz校準(zhǔn)純音來(lái)代替言語(yǔ)信號(hào),輸出的20 dB SPL被定為0 dB聽(tīng)力級(jí)(HL)。
2)測(cè)試順序:實(shí)驗(yàn)采用拉丁方設(shè)計(jì),將詞表順序循環(huán)排列,使每張表均有1次機(jī)會(huì)作為首張測(cè)試表出現(xiàn),以此將若干例受試者個(gè)人心理、生理狀態(tài)等混雜因素相對(duì)若干張表均衡分布。排序設(shè)計(jì)見(jiàn)表1。
表1 MSTMs小詞表測(cè)試順序Tab.1 Test sequence of the monosyllable word short lists in mandarin speech test materials
3)測(cè)試步驟:以受試者500~4 000頻率處純音聽(tīng)閾均值較好一側(cè)為測(cè)試耳。測(cè)試前由測(cè)試者講解測(cè)試流程,并播放1張練習(xí)表以便受試者熟悉測(cè)試方法(練習(xí)表不計(jì)分)測(cè)試采用固定給聲強(qiáng)度(通過(guò)預(yù)試驗(yàn),確定小詞表采用12 dB HL),將受試者得分控制在70%上下;由測(cè)試者手動(dòng)選擇詞表;每張?jiān)~表測(cè)試項(xiàng)目的播放順序通過(guò)軟件隨機(jī)給出。測(cè)試過(guò)程中根據(jù)受試者要求適當(dāng)安排休息。2次測(cè)試間隔6至35 d(中位數(shù)11 d),受試者于同一時(shí)間段(±2 h),在相同測(cè)試環(huán)境下,以同樣的測(cè)試材料、測(cè)試設(shè)備和給聲強(qiáng)度,由同一名測(cè)試者進(jìn)行單音節(jié)識(shí)別率的復(fù)測(cè)。
受試者以口述作為應(yīng)答形式,測(cè)試者通過(guò)手動(dòng)操作智能測(cè)聽(tīng)軟件進(jìn)行計(jì)分。計(jì)分時(shí)以整字為單位,即單音節(jié)字的聲母、韻母和聲調(diào)完全復(fù)述正確則得一分,否則不得分;每張?jiān)~表單獨(dú)計(jì)算得分。計(jì)算方法如下:單音節(jié)詞識(shí)別率=(正確復(fù)述詞數(shù)/總詞數(shù))×100%。
復(fù)測(cè)信度可由前后2次測(cè)試結(jié)果的差異程度進(jìn)行描述。單音節(jié)識(shí)別率測(cè)試結(jié)果符合二項(xiàng)分布,其差異程度與得分相關(guān)聯(lián)(識(shí)別率在接近0%及100%時(shí)變異度最小,50%處變異度最大)。為消除此種關(guān)聯(lián)性,本實(shí)驗(yàn)通過(guò)Matlab 2010軟件編程實(shí)現(xiàn)“合理化”反正弦變換(“rationalized”arcsine transform)對(duì)識(shí)別率進(jìn)行調(diào)整,使不同得分下隨機(jī)誤差大致相等。其公式為:
式中X為應(yīng)答正確項(xiàng)目數(shù),N為表中測(cè)試項(xiàng)目總數(shù),R為反正弦變換后的單位(rationalized arcsine units,RAU)[11]。
復(fù)測(cè)信度常用Pearson相關(guān)系數(shù)或臨界差值(critical difference,CD)進(jìn)行評(píng)估。本實(shí)驗(yàn)采用統(tǒng)計(jì)學(xué)軟件SPSS19.0對(duì)經(jīng)“合理化”反正弦變換調(diào)整的兩輪測(cè)試得分進(jìn)行相關(guān)性分析和配對(duì)t檢驗(yàn),計(jì)算相關(guān)系數(shù)r值;逐表計(jì)算兩輪測(cè)試得分差異的標(biāo)準(zhǔn)差(standard deviation,SD),以 95% 置信區(qū)間(confidence interval,CI)計(jì)算各表臨界差值,計(jì)算式為:CD=SD×1.96。
由于測(cè)試表之間嚴(yán)格等價(jià),詞表整體標(biāo)準(zhǔn)差可由各表得分差異的平均偏離程度(以方差表示)間接求得,則:
(N為材料包含的詞表數(shù)),當(dāng)兩次測(cè)試結(jié)果差異大于該臨界值時(shí)可認(rèn)為該差異具有臨床意義。
16張小詞表兩輪測(cè)試總體得分為(69.5±10.6)%、(71.0±11.4)%。經(jīng)“合理化”反正弦變換,最終得到2輪測(cè)試結(jié)果(68.1±10.7)%、(69.1±11.7)%。經(jīng)Shapiro-Wilk正態(tài)性檢驗(yàn),變換后數(shù)據(jù)均服從正態(tài)分布(P>0.05)。
小詞表兩輪測(cè)試得分總體相關(guān)系數(shù)r=0.748(P<0.01),測(cè)試結(jié)果顯著相關(guān)。將各受試者前后兩輪測(cè)試平均成績(jī)進(jìn)行配對(duì)t檢驗(yàn)。結(jié)果顯示小詞表兩輪測(cè)試得分比較差異無(wú)統(tǒng)計(jì)學(xué)意義(P=0.249)。
普通話單音節(jié)小詞表總體標(biāo)準(zhǔn)差為11.5%,臨界差值22.5%。由于本實(shí)驗(yàn)所使用測(cè)試材料為每表20詞,共計(jì)100%,則每詞可以5%計(jì)算。當(dāng)干預(yù)前后測(cè)試得分差值超過(guò)25%即5個(gè)詞(以詞計(jì)分,得分只能是5%的整數(shù)倍)時(shí)該差值不可用復(fù)測(cè)信度解釋,而應(yīng)考慮為測(cè)試前后干預(yù)效果(表2)。
表2 MSTMs單音節(jié)小詞表兩輪測(cè)試得分標(biāo)準(zhǔn)差、臨界差值、相應(yīng)測(cè)試項(xiàng)數(shù)目Tab.2 The standard deviation,critical difference and corresponding test items of the two tests
用同樣的測(cè)試方法在不同時(shí)間段內(nèi)對(duì)同一對(duì)象進(jìn)行重復(fù)測(cè)試,其得分差異由測(cè)試過(guò)程中產(chǎn)生的各種誤差決定。這些誤差包括隨機(jī)誤差和各種因素造成的變異[2]。復(fù)測(cè)信度在理論上應(yīng)以隨機(jī)誤差來(lái)表示。理想情況下,同一張表前后測(cè)試得分差異總和為0;測(cè)試結(jié)果相互獨(dú)立,服從二項(xiàng)分布。基于這一點(diǎn),Thornton等[12]提出根據(jù)測(cè)試項(xiàng)目數(shù)推算出隨機(jī)誤差的數(shù)學(xué)模型,并且列出當(dāng)測(cè)試項(xiàng)目數(shù)一定時(shí),95%置信區(qū)間下不具有統(tǒng)計(jì)學(xué)意義的差異范圍。
Studebaker等[11]提出另一種直接計(jì)算置信區(qū)間的方法,即求RAU方差 Vrau。RAU可理解為“合理化”反正弦變換調(diào)整后的測(cè)試得分,仍然保持原始百分?jǐn)?shù)形式,但消除了隨機(jī)誤差與得分間的關(guān)聯(lián)性,使不同識(shí)別率下隨機(jī)誤差基本保持一致。對(duì)于測(cè)試項(xiàng)目數(shù)和置信水平已知的測(cè)試表,僅有一個(gè)RAU值用來(lái)表達(dá)它的臨界區(qū)間,該值可以通過(guò)幾步簡(jiǎn)單計(jì)算求得。公式如下:
若:N <50,V=1/(N+0.5)
若:N≥50,V=1/(N+1)
Vrau=V×2159.8(常數(shù))
根據(jù)方差計(jì)算臨界差值,公式如下:
其中V為反正弦變換方差;n為觀察指數(shù)(number of observations),本式中n=1。由此可知,測(cè)試項(xiàng)目數(shù)為20的詞表其CD推算值為28.5%。實(shí)驗(yàn)測(cè)得本套材料的相應(yīng)值為22.5%,略小于理論推算。
影響復(fù)測(cè)信度測(cè)量結(jié)果的因素可大致分為3個(gè)方面,即測(cè)試環(huán)境的影響,受試者個(gè)體差異的影響,測(cè)試材料特征的影響。由于實(shí)際測(cè)量結(jié)果總是被多種因素同時(shí)作用、交互影響,這就要求實(shí)驗(yàn)采用多因素均衡設(shè)計(jì),最大限度地排除系統(tǒng)誤差[1];同一名受試者的初測(cè)和復(fù)測(cè)應(yīng)當(dāng)在完全相同的條件下進(jìn)行——包括使用同樣的測(cè)試材料、測(cè)試設(shè)備和刺激聲強(qiáng)度,身處同樣的聲學(xué)環(huán)境下由同一測(cè)試者進(jìn)行測(cè)試,兩次測(cè)試的設(shè)備校準(zhǔn),耳機(jī)型號(hào)保持一致,這有利于去除儀器和計(jì)分帶來(lái)的誤差[13-16]。本次試驗(yàn)控制了影響隨機(jī)誤差范圍的因素,以保證評(píng)估結(jié)果的真實(shí)可靠。
Plomp等[17-20]在改善句表信度的相關(guān)研究中發(fā)現(xiàn),影響復(fù)測(cè)信度的最主要因素為學(xué)習(xí)效應(yīng),即受試者對(duì)測(cè)試方法和測(cè)試內(nèi)容的熟悉程度。由于單音節(jié)測(cè)試材料言語(yǔ)冗余度很小,不便于記憶,故這里的學(xué)習(xí)效應(yīng)主要指受試者對(duì)測(cè)試方法的熟悉程度。單音節(jié)小詞表兩輪測(cè)試分差不具有統(tǒng)計(jì)學(xué)意義(P=0.249),說(shuō)明學(xué)習(xí)效應(yīng)對(duì)本次研究的影響不大。
復(fù)測(cè)信度的評(píng)估,其主要臨床目的在于判斷患者接受干預(yù)前后測(cè)試結(jié)果的差異是否具有臨床意義。本次實(shí)驗(yàn)對(duì)MSTMs單音節(jié)小詞表的復(fù)測(cè)信度進(jìn)行評(píng)估,得CD值為22.5%,小于理論臨界值28.5%,可以用于臨床測(cè)試。
[1]冀飛.言語(yǔ)測(cè)聽(tīng)材料的復(fù)測(cè)信度評(píng)估[J].聽(tīng)力學(xué)及言語(yǔ)疾病雜志,2009,17(3):209-211.
[2]Lisa L M,Jeffrey L,Danhauer.Audiologic evaluation and management and speech perception assessmen[M].San Diego,CA:Singular Publishing Group,1997,59-74.
[3]張華.研發(fā)漢語(yǔ)測(cè)聽(tīng)材料的重要性(專家筆談)[J].中華耳科學(xué)雜志,2008,6(1):11-12.
[4]郗昕,趙烏蘭,冀飛,等.漢語(yǔ)單音節(jié)測(cè)聽(tīng)表在北京聽(tīng)力正常人群眾的復(fù)測(cè)信度評(píng)估[J].聽(tīng)力學(xué)及言語(yǔ)疾病雜志,2009,17(2):95-99.
[5]陳艾婷,冀飛,郗昕,等.一組漢語(yǔ)普通話單音節(jié)詞表在聽(tīng)力損失人群中的復(fù)測(cè)信度研究[J].聽(tīng)力學(xué)及言語(yǔ)疾病雜志,2009,17(3):201-204.
[6]冀飛,郗昕,韓東一,等.漢語(yǔ)普通話單音節(jié)測(cè)聽(tīng)表的多中心復(fù)測(cè)信度研究[J].中華耳鼻咽喉頭頸外科雜志,2010,45(3):200-205.
[7]王靚,張華,王碩,等.普通話單音節(jié)詞言語(yǔ)測(cè)聽(tīng)材料的等價(jià)性分析[J].中國(guó)耳鼻咽喉頭頸外科,2006,13(6):397-401.
[8]張華,王碩,王靚,等.普通話言語(yǔ)測(cè)聽(tīng)材料的數(shù)字化錄制與等價(jià)性分析[J].臨床耳鼻咽喉科雜志,2006,20(22):1011-1015.
[9]張華,曹文,王碩,等.語(yǔ)音學(xué)理論在普通話單音節(jié)小詞表編錄中的應(yīng)用[J].聽(tīng)力學(xué)及言語(yǔ)疾病雜志,2009,17(2):100-106.
[10]Wu W,Zhang H,Chen J,et al.Development and evaluation of a computerized Mandarin speech test system in China[J].Comput Biol Med,2011,41(3):131-138.
[11]Studebaker G A.“Rationalized”arcsine transform[J].J Speech Hear Res,1985,28(3):455-462.
[12]Thornton A R,Raffin M J.Speech-discrimination scores modeled as a binomial variable[J].J Speech Hear Res,1978,21(3):507-518.
[13]Bamford J,Wilson I.Methodological considerations and practical aspects of the BKB sentences lists[M].London,UK:Acadamic Press,1979:146-187.
[14]Dillon H.A quantitave examination of the sources of speech discrimination test score variability[J].Ear Hear,1982,3(2):51-58.
[15]Tom W.Tillman,Raymond Carhart,An Expanded Test for Speech Discrimination Utilizing CNC Monosyllabic Words.Northwestern University Auditory Test No.6.USAF School of Aerospace Medicine Technical Report,1966.
[16]Wilson R H,Carter A S.Relation between slopes of word recognition psychometric functions and homogeneity of the stimulus materials[J].J Am Acad Audiol,2001,12(1):7-14.
[17]Plomp R,Mimpen A M.Improving the reliability of testing the speech reception threshold for sentences[J].Audiology,1979,18(1):43-52.
[18]Wagener K,Josvassen J L,Ardenkjaer R.Design optimization and evaluation of a danish sentence test in noise[J].Int J Audiol,2003,42(1):10-17.
[19]Rhebergen K S,Versfield N J,Dreschler W A.Learning effect observed for the speech reception threshold in interrupted noise with normal hearing listeners[J].Int J Audiol,2008,47(4):185-188.
[20]Causey G D,Hood L J,Hezmanson C L,et al.The Maryland CNC Test:normative studies[J].Audiology,1984,23(6):552-568.
首都醫(yī)科大學(xué)學(xué)報(bào)2012年6期