• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      結(jié)合K-均值聚類分析的線性回歸法在相關(guān)性分析中的應(yīng)用
      ——以高考英語成績(jī)與高考總成績(jī)的相關(guān)性為例

      2018-08-17 10:01:06董世榮
      關(guān)鍵詞:總成績(jī)線性聚類

      董世榮

      (閩南師范大學(xué)外國(guó)語言學(xué)院,福建漳州 363000)

      回歸分析(Regression Analysis)是研究因變量y和自變量x之間數(shù)量變化規(guī)律,并通過一定的數(shù)學(xué)表達(dá)式來描述這種關(guān)系,進(jìn)而確定一個(gè)或幾個(gè)自變量的變化對(duì)因變量的影響程度。可以簡(jiǎn)單地理解為用一種確定的函數(shù)關(guān)系近似代替比較復(fù)雜的相關(guān)關(guān)系,用線性回歸方程來描述其關(guān)系,進(jìn)而確定一個(gè)或幾個(gè)變量的變化對(duì)另一個(gè)變量的影響程度。回歸分析所研究的主要問題就是如何利用變量x,y的觀察值(樣本),對(duì)回歸函數(shù)進(jìn)行統(tǒng)計(jì)推斷,包括對(duì)它進(jìn)行估計(jì)及檢驗(yàn)與其有關(guān)的假設(shè)等,從而為預(yù)測(cè)提供科學(xué)依據(jù)。

      目前,在外語定量研究中基本都是采用線性回歸方法對(duì)兩個(gè)變量間相關(guān)性進(jìn)行研究。簡(jiǎn)單線性回歸的原理是基于最小二乘法原則(即保證各實(shí)測(cè)點(diǎn)至直線的縱向距離的平方和最小)得到回歸系數(shù)R2和回歸直線在Y軸上的截距b[1-4]。本文把SPSS 19.0系統(tǒng)軟件中K-均值聚類分析原理與一元線性回歸原理相結(jié)合,提出一種研究?jī)蓚€(gè)變量間相關(guān)性的新方法。

      1 數(shù)據(jù)與方法

      1.1 數(shù)據(jù)來源

      某校2014級(jí)某專業(yè)的學(xué)生,共計(jì)92人,以其高考總成績(jī)與高考英語成績(jī)?yōu)檠芯繉?duì)象。

      1.2 研究方法

      (1)以樣本的高考總成績(jī)?yōu)橐蜃兞?、高考英語成績(jī)?yōu)樽宰兞浚瑢?duì)樣本數(shù)據(jù)進(jìn)行一元線性回歸的相關(guān)性研究(以下簡(jiǎn)稱方法一)。線性回歸方法在SPSS 19.0統(tǒng)計(jì)軟件中的設(shè)置方法如下:“Analyze”→“Regression”→“Linear”,從而得到相應(yīng)的輸出結(jié)果。

      (2)結(jié)合K-均值聚類分析、再進(jìn)行一元線性回歸的相關(guān)性研究方法(以下簡(jiǎn)稱方法二):設(shè)置聚類數(shù),把高考總成績(jī)變量作為被聚對(duì)象進(jìn)行分類并迭代,把若干個(gè)最終聚類成績(jī)結(jié)果作為Y軸數(shù)據(jù)。再對(duì)每個(gè)聚類數(shù)內(nèi)的若干個(gè)高考英語成績(jī)變量取平均值,并將這些均值數(shù)據(jù)作為X軸數(shù)據(jù);然后對(duì)這兩列數(shù)據(jù)(X軸和Y軸)進(jìn)行一元線性回歸處理,從而得到相應(yīng)的線性方程和線性系數(shù)R2。

      2 方法一的結(jié)果分析

      2.1 數(shù)據(jù)來源的描述性統(tǒng)計(jì)

      將92名學(xué)生的高考總成績(jī)和高考英語成績(jī)進(jìn)行初步的統(tǒng)計(jì)分析,提取各項(xiàng)相關(guān)數(shù)據(jù)制表進(jìn)行對(duì)比,其結(jié)果如表1所示。

      表1 兩種成績(jī)的描述性分析

      由表1數(shù)據(jù)顯示,高考英語成績(jī)和高考總成績(jī)的標(biāo)準(zhǔn)差分別為13.41和8.746,說明該專業(yè)學(xué)生的整體水平差異比英語水平差異相對(duì)較小,同時(shí)也說明這些學(xué)生的英語水平參差不齊,差距較懸殊。另外,高考英語成績(jī)與高考總成績(jī)Pearson相關(guān)性的雙側(cè)顯著性檢驗(yàn)結(jié)果p為0.009,小于0.05,應(yīng)否定零假設(shè),即高考英語成績(jī)與高考總成績(jī)間不是獨(dú)立的,存在著相關(guān)性,Pearson相關(guān)系數(shù)為0.269。

      2.2 方法一在SPSS 19.0軟件中的操作方法及計(jì)算結(jié)果

      在主菜單欄中按“Analyze”→“Regression”→“Linear”和“Analyze”→“Graphs”→“Scatter”的順序逐一點(diǎn)擊鼠標(biāo),并進(jìn)行相關(guān)設(shè)置;對(duì)92名學(xué)生的高考總成績(jī)和高考英語成績(jī)進(jìn)行統(tǒng)計(jì)處理,提取出各項(xiàng)相關(guān)數(shù)據(jù),并以高考總成績(jī)?yōu)橐蜃兞縴,以高考英語成績(jī)?yōu)樽宰兞縳,其線性回歸方程為y=0.173x+491.3。

      該線性回歸方程表明:高考英語成績(jī)每增加1分,其高考總成績(jī)約增加0.173分[4]。該方程中高考總成績(jī)與高考英語成績(jī)這兩個(gè)變量間的相關(guān)系數(shù)R2為0.072,表明這兩個(gè)成績(jī)變量并不服從正態(tài)分布。

      3 方法二的結(jié)果分析

      3.1 聚類分析的原理

      聚類分析又稱群分析,是根據(jù)事物本身的特性研究個(gè)體分類的方法。通俗地說,就是指相似元素的集合,因此這種方法也常被稱為逐步聚類分析,即先把被聚對(duì)象進(jìn)行初始分類,然后逐步調(diào)整,得到最終分類。

      SPSS軟件中的聚類分析的原理如下:(1)根據(jù)用戶提供的待分析數(shù)據(jù)的分布情況,結(jié)合用戶分析需要所設(shè)定的聚類數(shù)目,采用距離最近原則進(jìn)行分類;(2)逐一計(jì)算每一數(shù)據(jù)到各個(gè)中心點(diǎn)的距離,最后把各個(gè)數(shù)據(jù)按照距離最近的原則歸入各個(gè)類別,并計(jì)算新形成類別的中心點(diǎn);(3)再按照新的中心位置,重新計(jì)算每一數(shù)據(jù)距離新的類別中心點(diǎn)的距離,并重新進(jìn)行迭代收斂,直到達(dá)到一定的收斂標(biāo)準(zhǔn)并形成最終的聚類中心。

      3.2 方法二在SPSS 19.0軟件中的操作步驟及計(jì)算結(jié)果

      (1)在SPSS 19.0主菜單中按“Analyze”→“Classify”→“K-Means Cluster”的順序逐一單擊鼠標(biāo)鍵,打開快速聚類主對(duì)話框。然后分別把高考總成績(jī)變量移入“Variables”中,把高考英語成績(jī)變量移入“Label Cases by”中。在“Number of Clusters”中,根據(jù)分析設(shè)置需要,填入相應(yīng)的聚類分類數(shù)。其他的采用系統(tǒng)默認(rèn)設(shè)置。

      (2)在主對(duì)話框中分別打開“Save New Variables”和“Option”對(duì)話框,然后勾選“Cluser membership”及“Initial cluster centers,Cluster information for each case”選項(xiàng),其他的按照默認(rèn)設(shè)置即可。

      (3)提取SPSS輸出結(jié)果中Final Cluster Centers的高考總成績(jī)數(shù)據(jù)于新建的Excel文件中,并作為Y軸數(shù)據(jù);提取SPSS輸出結(jié)果的Report中Mean數(shù)據(jù)(高考英語成績(jī)),作為X軸數(shù)據(jù);然后再將X軸與Y軸數(shù)據(jù)進(jìn)行擬合直線作圖,從而得到線性方程和線性系數(shù)R2。

      (4)改變步驟(1)中Number of Clusters的數(shù)值,進(jìn)行類似操作,得到不同聚類數(shù)時(shí)高考總成績(jī)和高考英語成績(jī)間的線性方程和線性系數(shù)R2(表2),并將聚類數(shù)m與線性系數(shù)R2進(jìn)行作圖(圖1)。

      表2 不同聚類數(shù)與線性方程及線性系數(shù)之間的變化關(guān)系

      由表2數(shù)據(jù)顯示,隨著聚類數(shù)的不斷增多,其相關(guān)系數(shù)的值也逐漸增大。當(dāng)聚類數(shù)為6時(shí),線性系數(shù)為0.875。然后隨著聚類數(shù)增大,其線性系數(shù)又逐漸降低。但聚類數(shù)并不能無限增大,當(dāng)聚類數(shù)超過高考總成績(jī)的數(shù)量時(shí),無法得到線性系數(shù),例如這92位同學(xué)的高考總成績(jī)分別為35個(gè)不同數(shù)值,則聚類數(shù)不能超過35,否則該方法無法使用。

      4 兩種方法在兩變量相關(guān)性分析時(shí)的優(yōu)缺點(diǎn)對(duì)比

      表3 高考英語成績(jī)的正態(tài)分布分析

      表4 兩種方法在進(jìn)行兩變量間相關(guān)性分析時(shí)的差異對(duì)比

      注:*實(shí)際高考總成績(jī):某一指定的高考英語成績(jī)對(duì)應(yīng)的若干個(gè)實(shí)際的高考總績(jī)??赡艿母呖伎偝煽?jī)(1):指定某一英語成績(jī),采用方法一得到的高考總成績(jī)??赡艿母呖伎偝煽?jī)(2):指定某一英語成績(jī),采用方法二得到的高考總成績(jī)(6次和30次分別為聚類數(shù),進(jìn)一步對(duì)比不同聚類數(shù)在相關(guān)性分析中的差異性)。

      對(duì)圖3的研究結(jié)果表明:(1)以實(shí)際的高考總成績(jī)的標(biāo)準(zhǔn)差為對(duì)照線(a線),當(dāng)采用方法一(b線)進(jìn)行相關(guān)性研究時(shí),其在大于52%區(qū)域(圖3中CD段區(qū)域)和小于3%區(qū)域(圖3中AB段區(qū)域),離a線較近,表明采用線性回歸(方法一)得到的高考總成績(jī)與實(shí)際高考總成績(jī)的偏差較小,即該方法在兩變量間相關(guān)性分析時(shí)能夠得到較合理的分析結(jié)果。(2)以實(shí)際的高考總成績(jī)的標(biāo)準(zhǔn)差為對(duì)照線(a線),當(dāng)采用方法二(c線和d線)進(jìn)行相關(guān)性研究時(shí),其在正態(tài)分布的3%~52%區(qū)域(圖3中BC和CD段區(qū)域),c線與a線的距離及d線與a線的距離均小于b線與a線的距離。這表明采用結(jié)合聚類分析的線性回歸法(方法二)得到的高考總成績(jī)與實(shí)際高考總成績(jī)的偏差較小,即該方法在兩變量間相關(guān)性分析時(shí)能夠得到較合理的分析結(jié)果。同時(shí),不同的聚類數(shù)會(huì)對(duì)相關(guān)性分析結(jié)果造成一定影響。

      5 總結(jié)

      本文將某校2014級(jí)某專業(yè)學(xué)生的高考總成績(jī)及高考英語成績(jī)作為研究對(duì)象,分析了學(xué)生高考英語成績(jī)及高考總成績(jī)的相關(guān)性。研究結(jié)果表明,該專業(yè)學(xué)生的高考總成績(jī)差異幅度比英語成績(jī)差異幅度要小,英語水平總體參差不齊,差距較懸殊。

      分別采用方法一和方法二對(duì)學(xué)生的高考英語成績(jī)及高考總成績(jī)的相關(guān)性進(jìn)行分析。在高考英語成績(jī)的不同分布階段,兩個(gè)方法各自有優(yōu)缺點(diǎn)。因此,為了達(dá)到較高的合理性或準(zhǔn)確性,當(dāng)樣本數(shù)據(jù)分布比較接近正態(tài)分布時(shí),應(yīng)采用一元線性回歸法(方法一)進(jìn)行兩變量間相關(guān)性分析;當(dāng)樣本數(shù)據(jù)分布比較偏離正態(tài)分布時(shí),應(yīng)采用結(jié)合聚類分析的一元線性回歸法(方法二)進(jìn)行兩變量間相關(guān)性分析。

      猜你喜歡
      總成績(jī)線性聚類
      漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
      線性回歸方程的求解與應(yīng)用
      二階線性微分方程的解法
      基于DBSACN聚類算法的XML文檔聚類
      謝文駿與劉翔110m欄分段成績(jī)與總成績(jī)的灰色關(guān)聯(lián)度對(duì)比分析
      體育科研(2016年5期)2016-07-31 17:44:26
      基于改進(jìn)的遺傳算法的模糊聚類算法
      飛鏢比賽
      飛鏢比賽
      讀寫算(上)(2015年25期)2015-09-10 12:15:02
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
      图木舒克市| 贡嘎县| 宕昌县| 文登市| 类乌齐县| 朝阳区| 罗山县| 正宁县| 虹口区| 饶平县| 东山县| 靖边县| 乌拉特前旗| 甘洛县| 大宁县| 广元市| 曲周县| 三明市| 巴塘县| 武强县| 虎林市| 建湖县| 鹰潭市| 潍坊市| 道孚县| 岳阳县| 泽库县| 鲁山县| 蓬莱市| 兴山县| 广汉市| 甘肃省| 瑞昌市| 曲沃县| 安顺市| 大港区| 焉耆| 达尔| 获嘉县| 雅安市| 时尚|