• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于共同題非等組設(shè)計的等值結(jié)果評價標準研究綜述

      2018-05-30 08:18:32張健任杰
      中國考試 2018年3期
      關(guān)鍵詞:等值測驗分數(shù)

      張健 任杰

      (北京語言大學(xué),北京 100083)

      等值是將同一測驗不同版本的分數(shù)統(tǒng)一到一個量尺上的過程[1]。經(jīng)過等值的分數(shù)才可以直接比較,因此,等值是測驗公平性和科學(xué)性的重要保障。為了實現(xiàn)同一測驗不同版本分數(shù)的可比性,目前國內(nèi)外許多大型標準參照測驗均對測驗分數(shù)進行了等值處理。標準參照測驗是以具體體現(xiàn)教學(xué)目標的標準作為依據(jù),確定學(xué)生是否達到標準以及達標的程度如何的一種評價方法,即“人與標準比較”的方法,它是衡量學(xué)生能做什么的絕對評價。

      在我國,大學(xué)英語四、六級考試(CET-4,CET-6),少數(shù)民族漢語水平等級考試(MHK)等均屬于標準參照測驗。對于這類測驗而言,其標準是長期穩(wěn)定的,但是其不同年份的試卷難度和考生能力很難保證完全相同。就難度而言,盡管命題專家在命題過程中盡力保持考試難度的穩(wěn)定性,但是不同試卷之間在難度、分數(shù)分布方面的差別還是在所難免的。這種差別不僅會影響到考試的質(zhì)量,也會影響評價標準的客觀性。為了將不同年份的試卷置于同一個量尺上并用同一標準比較,需要對不同試卷進行等值處理。此外,隨著我國高考外語“一年兩考”模式的開啟,作為常模參照測驗的高考英語也面臨著同樣的問題。常模參照測驗是將考生測驗分數(shù)與其所在考生群體進行比較,即“人與人比較”,但同一年份的兩份高考英語試卷很難保證難度完全一致,這使得作答較難試卷的考生處于劣勢,直接影響高考英語的公平性。因此,無論是標準參照測驗還是像高考英語這樣的常模參照測驗,都需要經(jīng)過等值技術(shù)將不同試卷置于同一量尺上,最終實現(xiàn)不同試卷分數(shù)的可比性。近年來,雖然等值技術(shù)在我國已得到廣泛應(yīng)用,如CET-4、CET-6、MHK等,但不同研究者對等值結(jié)果的評價標準卻不盡相同。謝小慶使用總平均加權(quán)差異平方和(MSD)對HSK的等值結(jié)果進行評價[2],焦麗亞使用變異均方根(RMSD)對湖南某地區(qū)中考數(shù)學(xué)成績的等值結(jié)果進行評價[3]。此外,還有學(xué)者采用模擬檢驗、跨樣本一致、標準誤、重要差異等方式評價等值結(jié)果[4-7]。這些等值結(jié)果評價標準的區(qū)別是什么?它們的使用條件是否相同?對于具體的測驗而言應(yīng)該選用哪種標準?目前學(xué)界對這些問題的探討還遠遠不夠,這可能導(dǎo)致由于評價標準的不同,使得不同研究者對同一等值結(jié)果的解釋大相庭徑,直接影響研究結(jié)論的可信度。因此,只有深入地認識等值結(jié)果的評價標準,才能根據(jù)實際需要選擇合適的標準并對等值結(jié)果進行合理評價,使等值技術(shù)真正落到實處。

      1 等值誤差

      對等值結(jié)果的評價本質(zhì)上是對等值誤差的評價。等值過程中存在著兩類誤差,一類是隨機誤差,一類是系統(tǒng)誤差。隨機誤差來源于樣本,可以通過增加樣本量來減少;系統(tǒng)誤差遠比隨機誤差復(fù)雜,原因主要有:研究違背了等值方法的統(tǒng)計假設(shè)或數(shù)據(jù)收集原則,一些等值技術(shù)的使用無形中引入了系統(tǒng)誤差等。針對等值過程中存在的誤差,研究者們提出了一系列評價標準,然而,沒有一個等值結(jié)果評價標準可以應(yīng)用到所有的等值情境中[8]。對于經(jīng)典測量理論(CTT)等值而言,經(jīng)過等值可以得到分數(shù)的等值結(jié)果;對于項目反應(yīng)理論(IRT)等值而言,經(jīng)過等值不僅可以得到分數(shù)等值的結(jié)果,還可以得到參數(shù)等值的結(jié)果(包括項目參數(shù)等值結(jié)果和被試能力參數(shù)等值結(jié)果)。因此,我們根據(jù)評價對象的不同,將等值結(jié)果評價標準劃分為以下兩種類型:一類是用于評價等值分數(shù)的標準,另一類是用于評價等值參數(shù)的標準。下文將以共同題非等組設(shè)計為例,對該等值設(shè)計下的等值結(jié)果評價標準進行梳理,以期通過對比不同等值結(jié)果評價標準的原理、適用范圍及其優(yōu)缺點等,深化對等值結(jié)果評價標準的認識,并為研究者今后根據(jù)實際需要選擇合理的評價標準提供借鑒。

      2 等值分數(shù)的評價標準

      2.1 共同組標準

      在共同題非等組設(shè)計中,可以采用共同組作為標準對等值結(jié)果進行評價,共同題等值分數(shù)結(jié)果和共同組等值分數(shù)結(jié)果差異越小,則代表等值方法越優(yōu)。計算指標上可以選用總平均加權(quán)差異平方和(MSD):

      其中j是原始分數(shù),是作為標準的共同組等值分數(shù),xj是經(jīng)過等值的分數(shù),fj是獲得原始分j的人數(shù)[2],且

      這種方法雖然簡單客觀,但是也有其局限性。尤其是在大型標準化考試中很難找到滿足條件的共同組,因為一次測驗不可能讓被試在短時間內(nèi)同時考兩次,即使能找到合適的被試,被試前后參加同一個測驗的動機等因素也會直接影響等值效果。

      2.2 等值分數(shù)的標準誤

      等值分數(shù)標準誤是描述等值隨機誤差的指標。通過從總體中重復(fù)抽樣,以一個完全擬合數(shù)據(jù)條件的等值方法進行等值,那么,等值結(jié)果分布的平均數(shù)即是真正的等值分數(shù),而分布的標準差即是等值分數(shù)標準誤[9]。戴海崎認為,采用Bootstrap法估計等值分數(shù)標準誤比較接近于等值結(jié)果評價標準誤的定義[10],并提出Bootstrap法估計等值分數(shù)標準誤主要包括以下幾個步驟:

      1)從X測驗一個容量為Nx的樣本中有返回地隨機抽取一個Bootstrap樣本,容量為nx;

      2)從Y測驗一個容量為Ny的樣本中有返回地隨機抽取一個Bootstrap樣本,容量為ny;

      3)用相應(yīng)的等值方法,在所抽取的兩個Bootstrap樣本上估計X與Y的等值關(guān)系,記為

      重復(fù)步驟1)~3)R次,則獲得R個等值關(guān)系式,即

      4)在R足夠大情況下,用式(5)求出等值分數(shù)標準誤的Bootsrap估計值

      其中,

      等值分數(shù)標準誤是目前主流的對等值分數(shù)的評價標準,大量的研究均采用這種等值結(jié)果評價標準[11-14]。通過對等值分數(shù)標準誤的估計原理分析,我們發(fā)現(xiàn)等值分數(shù)標準誤的本質(zhì)是考察等值分數(shù)受樣本影響的大小,其假設(shè)是在樣本不同的情況下,等值分數(shù)結(jié)果越穩(wěn)定的方法越好。然而,在計算過程中,等值分數(shù)標準誤也受到了樣本量的影響,當樣本量越大時,等值分數(shù)標準誤越穩(wěn)定,當樣本量較少時,等值分數(shù)標準誤的估計結(jié)果不穩(wěn)定。因此,當樣本量較小時,不建議采用等值分數(shù)標準誤作為等值分數(shù)的評價標準。

      2.3 重要差異

      Dorans提出了一種重要差異(Differences That Matter)作為等值的評價標準。他認為,在特定分數(shù)點上,等值結(jié)果之間的差異大于0.5倍原始分數(shù),則為兩種方法有重要的差異[15]。這種重要差異的標準在SAT測驗等值上已得到廣泛應(yīng)用。Brossman等用等百分位等值結(jié)果作為標準,采用重要差異的方法檢驗MIRT真分數(shù)法和觀察分數(shù)法等值結(jié)果的穩(wěn)定性[16]。由此可見,重要差異方法的本質(zhì)是將一個新方法的等值分數(shù)結(jié)果與一個公認較好的方法的等值分數(shù)結(jié)果對比,以公認較好的方法的分數(shù)等值結(jié)果為標準,比較二者差異,差異越小,則說明新方法的等值效果越好,然而在現(xiàn)實中很難找到一個適用于不同等值情境的公認的較好方法。

      2.4 跨樣本一致性檢驗

      跨樣本一致性檢驗的基本原理是:由于抽樣會帶來隨機誤差,因此受樣本的影響最小的等值方法就是最穩(wěn)定、最優(yōu)的等值方法。跨樣本一致性檢驗的操作步驟如下:首先,將總體劃分為幾個樣本,這幾個樣本之間互不包含;其次,用總體數(shù)據(jù)和樣本數(shù)據(jù)分別進行等值;最后,比較樣本等值結(jié)果與總體等值結(jié)果的差異,差異最小的方法即在不同樣本中表現(xiàn)最為一致的方法就是較好的方法??鐦颖疽恢滦詸z驗的計算采用REMSD指標,公式如下:

      共同題非等組設(shè)計包含兩個被試群體。T是由被試組P和被試組Q按照一定比例組成的綜合組。Tj表示從綜合組T中抽取出的小樣本,公式中eTj(x)表示在綜合組小樣本Tj中將X卷分數(shù)等值到Y(jié)卷上的分數(shù),eT(x)表示綜合組T上X卷分數(shù)等值到Y(jié)卷上的分數(shù)。eTj(x)和eT(x)的等值方法相同。ET{ }是指T組在X卷上分布的平均數(shù),Wj表示被試組P和被試組Q的權(quán)重[6]。另外,可以采用前述的重要差異標準判斷REMSD結(jié)果是否在合理范圍。跨樣本一致性檢驗僅能描述等值方法受樣本影響的程度,一種等值方法的跨樣本一致性越高,表明用該方法等值時的隨機誤差越小,但是該方法對系統(tǒng)誤差無法估計。

      2.5 等值分數(shù)交叉檢驗

      等值分數(shù)交叉檢驗的方法和跨樣本一致性檢驗類似,也是以大樣本所得的等值分數(shù)結(jié)果為標準,通過對比小樣本等值分數(shù)結(jié)果與大樣本等值分數(shù)結(jié)果的差異,差異最小的方法就是較好的方法。與跨樣本一致性檢驗不同的是,交叉檢驗只選取大樣本中的一部分小樣本,僅涉及一個小樣本群體。其計算公式是

      其中,Yi表示在等值分數(shù)交叉檢驗的樣本中,將測驗X上總分排在第i位的考生采用某種方法等值到測驗Y上的實際分數(shù),n是獲得該分數(shù)的人數(shù),Yi

      '表示在大樣本中將測驗X上總分排在第i位的考生采用同種方法等值到測驗Y上的實際分數(shù),N是交叉驗證樣本的總?cè)藬?shù)。T指標的值越小,表明各等值方法所得結(jié)果的一致性越高[14]。和跨樣本一致性檢驗一樣,交叉檢驗方法也只能夠選取出隨機誤差最小的等值方法,但對不同等值方法的系統(tǒng)誤差的大小卻無法估計。

      3 等值參數(shù)的評價標準

      3.1 共同題參數(shù)穩(wěn)定性

      在共同題非等組設(shè)計下,共同題是用于連接兩個平行測驗的橋梁。對于共同題參數(shù)而言,從理論上看,用分別校準法將新測驗的共同題參數(shù)等值到基準測驗上時,等值后的共同題參數(shù)應(yīng)該是相同的,但實際由于等值誤差的存在,使得經(jīng)過等值后的共同題參數(shù)往往不一致。正因為如此,若經(jīng)過某種等值方法等值后的共同題參數(shù)差別越小,則說明等值誤差越小,等值方法越好。根據(jù)這一思路,研究者提出以RMSD作為分別校準法下評判項目參數(shù)等值方法精確性的操作性檢驗標準,以此衡量各種等值方法的誤差大小[3]。RMSD計算公式如下:

      其中,m代表共同題的數(shù)量,Xi為作為基準測驗的項目參數(shù),X'i為新測驗等值到基準測驗上的項目參數(shù)。RMSD值越小,表明等值方法的等值誤差越小,經(jīng)過該等值方法等值后的共同題參數(shù)越穩(wěn)定。共同題參數(shù)穩(wěn)定性的估計中既包含了隨機誤差的大小,也包含了系統(tǒng)誤差的大小,因此,相較而言,共同題參數(shù)穩(wěn)定性的方法對等值誤差的估計更全面。但是共同題參數(shù)穩(wěn)定性方法的使用有一定的局限性,它僅適合對共同題非等組設(shè)計下采用分別校準法所得的參數(shù)等值結(jié)果進行評價,對于其他等值方法如同時校準法、固定校準法,則共同題參數(shù)穩(wěn)定性指標無法適用,這也使得共同題參數(shù)穩(wěn)定性指標的使用范圍受到一定限制。

      3.2 模擬研究參數(shù)返真性

      在等值參數(shù)評價標準中,通過模擬研究觀察參數(shù)的返真性是目前主流的評價標準,大量的研究均采用這種參數(shù)等值結(jié)果評價標準[4-5,17]。這種方法的操作步驟如下:首先,通過使用IRT模型估計基準測驗X的參數(shù)(包括項目參數(shù)和能力參數(shù))并給定等值系數(shù)A和B;其次,以測驗X的參數(shù)結(jié)果和等值系數(shù)A和B為真值,采用Monte-Carlo法生成新的測驗X′的數(shù)據(jù)來模擬測驗X的作答情況;然后,估計新測驗X′的項目參數(shù)和能力參數(shù)。再次,采用不同的等值方法將新生成的測驗X′的參數(shù)重新等值到原始的基準測驗X上;最后,以測驗X的真實參數(shù)結(jié)果作為等值的標準,對比新測驗X′等值后的參數(shù)結(jié)果和測驗X的真實參數(shù)結(jié)果的差異,偏差越小代表等值效果越優(yōu),等值方法的參數(shù)返真性越好。

      在具體研究中,通常采用以下兩類指標衡量偏差的大小,一類是衡量項目參數(shù)返真性指標,另一類是衡量等值系數(shù)返真性指標。

      3.2.1 均方根誤差指標和偏差

      均方根誤差指標(RMSE)、偏差(BIAS)均采用X′等值后的難度、區(qū)分度參數(shù)和原來的X的難度、區(qū)分度參數(shù)對比。這里的參數(shù)僅指共同題等值前后的參數(shù)。計算公式如下:

      其中表示等值后的各參數(shù),?r表示參數(shù)的真實值,R表示全卷的題目數(shù)量,N表示重復(fù)的次數(shù)[4]。RMSE和BIAS的結(jié)果越小,代表等值后的共同題參數(shù)越接近真值,等值效果越好。

      3.2.2 平均絕對離差

      平均絕對離差(ABSE)表示的是等值系數(shù)真值與估計值的差異。其公式如下:

      在式(12)中,R代表模擬實驗的總次數(shù),A和B表示等值系數(shù)真值,表示經(jīng)過第r次模擬后的等值系數(shù)估計值,ABSE的值越小,代表等值系數(shù)估計值對真值的修復(fù)程度越好,即等值系數(shù)估計值越接近于真值。

      盡管采用模擬研究觀察參數(shù)返真性的方法是目前等值參數(shù)評價的主流方法,但也存在著一些問題,其最突出的問題是模擬數(shù)據(jù)與真實數(shù)據(jù)之間存在一定的差別,這對研究結(jié)果的使用產(chǎn)生很大制約。為了使模擬數(shù)據(jù)的結(jié)果更接近真實數(shù)據(jù),研究者往往會進行多次模擬,一般而言,模擬次數(shù)不低于30次。

      3.3 等值系數(shù)的標準誤

      基于IRT的等值主要包括兩部分,第一部分是參數(shù)等值,包括項目參數(shù)等值和被試能力參數(shù)等值;第二部分是測驗分數(shù)的導(dǎo)出,又分為IRT真分數(shù)法和IRT觀察分數(shù)法兩類。當有兩個群體分別參加了兩個測驗X和Y,其中X是基準測驗,Y是新測驗,X和Y均有j道項目,且包含m個共同題(anchor item)。根據(jù)IRT等值理論,首先應(yīng)進行測驗X和Y的項目參數(shù)和被試能力參數(shù)的等值,測驗X和Y的項目參數(shù)和能力參數(shù)具有如下關(guān)系[18]:

      其中,A和B就是等值系數(shù),IRT參數(shù)等值的核心就是求解等值系數(shù)A和B。正是由于求解等值系數(shù)A和B時所采用的估計參數(shù)的原理不同,才會產(chǎn)生不同的IRT等值方法。利用一種等值方法求解等值系數(shù)時,不僅會產(chǎn)生等值系數(shù),還會產(chǎn)生等值系數(shù)估計的標準誤,它是衡量等值系數(shù)受隨機誤差影響的程度。等值系數(shù)標準誤越大,表明該等值方法的隨機誤差越大,等值結(jié)果越差。在應(yīng)用方面,吳銳以等值系數(shù)估計的標準誤為衡量標準,對IRT項目特征曲線法的等值結(jié)果進行分析[19]。但是,這種等值評價標準僅適用于IRT分別校準法,對IRT同時校準法和IRT固定校準法卻不適用。

      3.4 項目參數(shù)交叉檢驗

      等值參數(shù)交叉檢驗方法和等值分數(shù)交叉檢驗的原理基本相同,即以大樣本所得的參數(shù)等值結(jié)果為標準,通過對比小樣本參數(shù)等值的結(jié)果與大樣本參數(shù)等值結(jié)果的差異,差異最小的方法就是較好的方法。其計算公式是:

      其中,Yi表示在交叉檢驗的樣本中,Y測驗上第i題等值后的項目參數(shù),N表示測驗的題目個數(shù),Y'i表示在大樣本中Y測驗上第i題等值后的項目參數(shù)。RMSD指標的值越小,表明各等值方法所得結(jié)果的一致性越高[3]。等值參數(shù)交叉檢驗的方法僅適用于IRT等值,此外,等值參數(shù)交叉檢驗法也只能夠選取出隨機誤差最小的等值方法,無法對等值方法的系統(tǒng)誤差進行估計。

      4 結(jié)語與建議

      通過梳理國內(nèi)外關(guān)于等值結(jié)果評價標準的文獻,我們以共同題非等組設(shè)計為例,根據(jù)評價對象的不同,將等值結(jié)果的評價標準劃分為兩種類型:一類是用于評價等值分數(shù)的標準,一類是用于評價等值參數(shù)的標準,如表1所示。這兩類標準既有聯(lián)系又有區(qū)別,如交叉檢驗的標準既可以用于等值分數(shù)的評價也可以用于等值參數(shù)的評價,只是公式內(nèi)容略有不同。而共同題穩(wěn)定性的標準僅適用于等值參數(shù)的評價,重要差異的標準僅適合對等值分數(shù)結(jié)果進行評價。此外,我們對每種等值結(jié)果評價標準的適用范圍及其局限性進行了簡要說明,這將有助于研究者從宏觀上把握等值結(jié)果評價標準的分類,并結(jié)合研究實際選擇合理的等值結(jié)果的評價標準。

      表1 等值結(jié)果評價標準概覽

      為此,我們提出以下建議:

      第一,研究者可根據(jù)其等值研究所選用的等值方法的不同、等值結(jié)果的不同選擇與其相對應(yīng)的等值結(jié)果的評價標準。比如:若研究采用的是CTT等值方法,則只能選取用于評價等值分數(shù)的評價標準。

      第二,以往的等值研究往往是采用一種標準對多種等值方法的結(jié)果進行評價,由于每種等值結(jié)果評價標準都有一定的局限性,僅僅采用一種標準對多種等值結(jié)果進行評價的做法過于絕對。因此,我們建議研究者可以根據(jù)研究對象的不同,采用多種評價標準對等值結(jié)果進行綜合評價,從不同角度對等值結(jié)果進行合理解釋,這不僅有助于深化研究者對各種等值方法的認識,也使得等值研究的結(jié)論更加合理、全面、可靠。

      [1]謝小慶.對15種測驗等值方法的比較研究[J].心理學(xué)報,2000,32(2):217-223.

      [2]謝小慶.謝小慶教育測量學(xué)論文集[M].北京:北京語言大學(xué)出版社,2012:160.

      [3]焦麗亞.基于IRT的共同題非等組設(shè)計中五種項目參數(shù)等值方法的比較研究[J].考試研究,2009(2):85-99.

      [4]劉玥,劉紅云.不同鉚測驗設(shè)計下多維IRT等值方法的比較[J].心理學(xué)報,2013,45(4):466-480.

      [5]YAO L H.Multidimensional linking for domain scores and overall scores for nonequivalent groups[J].Applied Psychological Measurement,2011,35(1):48-66.

      [6]張泉慧,黃慧英.IRT理論不同模型下同時校準等值方法的跨樣本研究[J].中國考試,2016(2):3-8.

      [7]BROSSMAN B G,LEE W C.Observed score and true score equating procedures for multidimensional item response theory[J].Applied Psychological Measurement,2013,37(6):460-481.

      [8]HARRIS D J,CROUSE J D.A study of criteria used in equating[J].Applied Measurement in Education,1993(6):195-240.

      [9]羅照盛.經(jīng)典測量理論等值的誤差研究[J].心理科學(xué),2000,23(4):494-501.

      [10]戴海崎.等值誤差理論與我國高考等值的誤差控制[J].江西師范大學(xué)學(xué)報,1999,32(1):30-36.

      [11]PARSHALL C G,HOUGHTON P D B,KROMREY J D.Equating Error and Statistical Bias in Small Sample Linear Equating[J].Journal of Educational Measurement,1995,32(1):37-54.

      [12]HAN YI KIM.A comparation of smoothing methods for the common item nonequivalent groups design[D].Iowa,US:The University of Iowa,2014.

      [13]劉玥,劉紅云.多維數(shù)據(jù)IRT真分數(shù)等值和IRT觀察分數(shù)等值研究[J].心理學(xué)探新,2015,35(1):56-61.

      [14]焦麗亞,辛濤.基于CTT的錨測驗非等組設(shè)計中四種等值方法的比較研究[J].心理發(fā)展與教育,2006(1):97-102.

      [15]DORANS N J,HOLLAND P W,THAYER D T,TATENENI K.Population invariance of score linking:Theory and applications to advanced placement program examinations[M].Princeton,US:Educational Testing Service,2003.

      [16]BROSSMAN B G,LEE W C.Observed score and true score equating procedures for multidimensional item response theory[J].Applied Psychological Measurement,2013,37(6):460-481.

      [17]張軍之.基于多維IRT的測驗等值研究[D].南昌:江西師范大學(xué),2016.

      [18]KOLEN M J,BRENNAN R L.Test Equating,Scaling and Linking:Methods and Practices(2nded)[M].New York,US:Springer,2004.

      [19]吳銳.含題組測驗的IRT等值問題研究[D].南昌:江西師范大學(xué),2007.

      猜你喜歡
      等值測驗分數(shù)
      分數(shù)的由來
      異步電動機等值負載研究
      防爆電機(2020年5期)2020-12-14 07:03:50
      無限循環(huán)小數(shù)化為分數(shù)的反思
      可怕的分數(shù)
      《新年大測驗》大揭榜
      趣味(語文)(2018年7期)2018-06-26 08:13:48
      算分數(shù)
      兩個處理t測驗與F測驗的數(shù)學(xué)關(guān)系
      考試周刊(2016年88期)2016-11-24 13:30:50
      電網(wǎng)單點等值下等效諧波參數(shù)計算
      基于戴維南等值模型的靜穩(wěn)極限在線監(jiān)視
      你知道嗎?
      宁波市| 禄丰县| 平罗县| 治多县| 施秉县| 武威市| 葫芦岛市| 申扎县| 普兰店市| 奇台县| 儋州市| 太湖县| 玉树县| 江门市| 蛟河市| 夏邑县| 鄂伦春自治旗| 贺兰县| 新绛县| 越西县| 兰西县| 两当县| 保德县| 萍乡市| 黄浦区| 闵行区| 石阡县| 包头市| 安溪县| 汉川市| 东丽区| 和林格尔县| 晋宁县| 东城区| 图木舒克市| 防城港市| 远安县| 枝江市| 郓城县| 南宁市| 郁南县|