譚彩娟 賴承棟 苗晴
摘要:從研究家庭綜合環(huán)境與認(rèn)知能力的關(guān)系的問題出發(fā),針對(duì)中國(guó)教育追蹤調(diào)查的九年級(jí)學(xué)生數(shù)據(jù)和家長(zhǎng)數(shù)據(jù),根據(jù)衡量家庭綜合環(huán)境的八個(gè)因素即親密度、情感表達(dá)、矛盾性、期望性、知識(shí)性、娛樂性、控制性和家庭經(jīng)濟(jì)狀況,基于改進(jìn)的k-means聚類算法,將調(diào)查對(duì)象聚類為四類家庭綜合環(huán)境。研究發(fā)現(xiàn):民主型家庭氛圍配合勞逸結(jié)合的教育方式和正統(tǒng)性家庭氛圍結(jié)合理性的教育方式,這兩種家庭綜合環(huán)境與中學(xué)生的認(rèn)知能力呈正相關(guān)關(guān)系;沖突型家庭環(huán)境搭配專制型教育方式和放任型家庭氛圍結(jié)合放養(yǎng)型教育方式,這兩類家庭綜合環(huán)境與中學(xué)生的認(rèn)知能力呈負(fù)相關(guān)關(guān)系。
關(guān)鍵詞:k-means聚類;家庭綜合環(huán)境;認(rèn)知能力
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)33-0178-03
1 概述
認(rèn)知能力是指人腦加工、儲(chǔ)存和提取信息的能力,具體表現(xiàn)為文字表達(dá)能力,抽象思維能力、和空間識(shí)別能力等。關(guān)于影響認(rèn)知能力的因素,國(guó)內(nèi)外都有相關(guān)的研究。2014年7月8日,英國(guó)牛津大學(xué)克里斯·斯潘瑟與他的研究團(tuán)隊(duì)一項(xiàng)遺傳學(xué)研究顯示,在閱讀能力和數(shù)學(xué)能力上的差異,更可能是由學(xué)習(xí)環(huán)境造成的,而不是他們的基因。2015年王仁曾、劉暢探討了性別、年齡、民族、父母等“先天因素”和受教育狀況、職業(yè)經(jīng)歷、經(jīng)濟(jì)條件等“后天因素”都會(huì)影響中國(guó)人的認(rèn)知能力[1]。本文從研究家庭綜合環(huán)境與認(rèn)知能力的關(guān)系的問題出發(fā),考慮親密度、情感表達(dá)、矛盾性、期望性、知識(shí)性、娛樂性、控制性和家庭經(jīng)濟(jì)狀況八個(gè)衡量家庭綜合環(huán)境的因素,采用中國(guó)教育最終調(diào)查提供的全面、專業(yè)、高質(zhì)量的九年級(jí)調(diào)查數(shù)據(jù),運(yùn)用改進(jìn)的k-means聚類算法,探索家庭綜合環(huán)境與認(rèn)知能力之間的關(guān)系。
2 數(shù)據(jù)收集及研究因素
本文的樣本數(shù)據(jù)來源于中國(guó)教育追蹤調(diào)查(CEPS)的調(diào)查數(shù)據(jù)[2],該調(diào)查根據(jù)2010年全國(guó)第六次人口普查數(shù)據(jù),將全國(guó)(31個(gè)省、自治區(qū)、直轄市,不含港澳臺(tái))共2870個(gè)有常住人口的縣(區(qū))級(jí)行政單位中,共抽取28個(gè)縣(區(qū)),其中包括上海3個(gè)縣和擁有大量流動(dòng)人口的10個(gè)縣,其余15個(gè)縣在全國(guó)各縣中隨機(jī)抽取。在每個(gè)選中的縣(區(qū))中抽取4所學(xué)校,在每所被選中的學(xué)校中分別取4個(gè)班級(jí),包括2個(gè)七年級(jí)班和2個(gè)九年級(jí)班。本文的樣本數(shù)據(jù)采用中國(guó)教育追蹤調(diào)查(CEPS)的七年級(jí)數(shù)據(jù),剔除七年級(jí)無效調(diào)查問卷后(部分題目未作答),共有6124份有效調(diào)查數(shù)據(jù)。
中國(guó)教育追蹤調(diào)查(CEPS)同時(shí)采用3個(gè)維度、11個(gè)構(gòu)念,衡量學(xué)生的綜合認(rèn)知能力。第1個(gè)維度為語言題題,包含詞組類比和語言文字推理,第2個(gè)維度為圖形題,包括圖形規(guī)律分析、折紙類題目和集合圖形應(yīng)用,第3個(gè)維度為計(jì)算與邏輯題,包含數(shù)學(xué)應(yīng)用、自定義運(yùn)算規(guī)則、數(shù)列應(yīng)用、抽象規(guī)律分析、概率和數(shù)值大小逆向思維。其中,測(cè)試內(nèi)容不涉及學(xué)校課程所教授的具體識(shí)記性知識(shí),而是測(cè)量學(xué)生的邏輯思維與問題解決能力,并且具有國(guó)際可比性、全國(guó)標(biāo)準(zhǔn)化的特點(diǎn)。另外,采用三參數(shù)的IRT模型(用來分析調(diào)查問卷的數(shù)學(xué)模型)估計(jì)出學(xué)生認(rèn)知能力測(cè)試標(biāo)準(zhǔn)化總分。
我國(guó)學(xué)者綜合中國(guó)實(shí)際情況將Moss等人于1981年研制的《家庭環(huán)境量表》進(jìn)行了三次修訂[3],得出了符合中國(guó)文化的家庭環(huán)境因素,具有較好的信度和效度。本文的研究參考修訂版的《家庭環(huán)境量表》,將親密度、情感表達(dá)、矛盾性、期望性、知識(shí)性、娛樂性、控制性和家庭經(jīng)濟(jì)狀況作為衡量家庭綜合環(huán)境的因素。
另外,中國(guó)教育追蹤調(diào)查(CEPS)以問卷調(diào)查為主要手段,對(duì)全體被調(diào)查學(xué)生及其家長(zhǎng)或監(jiān)護(hù)人、班主任老師、主課任課老師以及學(xué)校負(fù)責(zé)人進(jìn)行問卷調(diào)查。問卷的內(nèi)容包括:學(xué)生的基本信息、戶籍與流動(dòng)、成長(zhǎng)經(jīng)歷、身心健康、親子互動(dòng)、家庭教育環(huán)境、家庭教育投入、對(duì)孩子的教育期望等。本文從中國(guó)教育追蹤調(diào)查的家長(zhǎng)問卷和學(xué)生問卷中,選用符合八個(gè)家庭環(huán)境因素的問題進(jìn)行分析研究。
3 K-means聚類算法
K-means聚類算法的基本思想是依據(jù)實(shí)際情況選取適當(dāng)?shù)木垲悅€(gè)數(shù)K和隨機(jī)初始聚類簇的中心。按照最鄰近簇心原則把原始樣本點(diǎn)賦給各個(gè)簇,同時(shí)求出每類中所有樣本點(diǎn)與所在類質(zhì)心的距離均值,并將求出的均值作為該類的新質(zhì)心。然后按平均法重新計(jì)算各個(gè)簇的質(zhì)心并一直迭代,直到各個(gè)簇的質(zhì)心的移動(dòng)距離收斂,最終確定各個(gè)簇的質(zhì)心。
K-means聚類算法操作步驟簡(jiǎn)單,易于操作,但存在以下缺陷:
1) K-means的K值是個(gè)不確定因素,需要憑借先驗(yàn)規(guī)律或根據(jù)實(shí)際情況選取。
2) 初始的K個(gè)聚類簇的質(zhì)心點(diǎn)是隨機(jī)選取的,給定不同的初始質(zhì)心點(diǎn),就有不同的聚類結(jié)果。初始質(zhì)心是隨機(jī)選取的,所以會(huì)導(dǎo)致局部最優(yōu)的情況,傳統(tǒng)的K-means算法無法判斷聚類結(jié)果是否達(dá)到整體最優(yōu)的聚類效果。
4 改進(jìn)的K-means聚類算法
本文基于k-means聚類算法對(duì)6124份有效原始數(shù)據(jù)進(jìn)行分析,將家庭環(huán)境相似性大的聚為一類。當(dāng)數(shù)據(jù)聚類后再研究不同聚類下中學(xué)生認(rèn)知能力與家庭環(huán)境因素間的關(guān)系。針對(duì)K-means聚類算法K值不容易選取和隨機(jī)初始質(zhì)心點(diǎn)會(huì)造成局部最優(yōu)的缺陷,本文采用輪廓系數(shù)和組內(nèi)平方誤差和(SSE)的方法對(duì)傳統(tǒng)的K-means算法進(jìn)行改進(jìn),解決K值的選取和聚類效果局部最優(yōu)的問題。
4.1 整體輪廓系數(shù)算法
輪廓系數(shù)結(jié)合了聚類的凝聚度和分離度,用于評(píng)估聚類的效果。輪廓系數(shù)取值范圍為[-1,1],通過整體輪廓系數(shù)可判斷聚類效果,具體方法如下:
1) 聚類凝聚度a(i):每個(gè)樣本點(diǎn)i與其同一簇內(nèi)所有其他樣本點(diǎn)歐式距離的均值;
2) 聚類分離度b(i):選取樣本點(diǎn)i外的一個(gè)簇b,計(jì)算i與b內(nèi)所有樣本點(diǎn)間的兩兩距離的平均值,遍歷其他簇,K個(gè)平均值中的最小值即為聚類分離度;
3) 樣本點(diǎn)輪廓系數(shù)s(i):[s(i)=b(i)-a(i)maxa(i),b(i)];
4) 整體輪廓系數(shù)s:[i=1ns(i)n][s=i=1ns(i)n]。
整體輪廓系數(shù)量化數(shù)據(jù)聚類的緊密程度,從上式可知,s(i)越小,說明i與所在簇的樣本點(diǎn)的平均距離遠(yuǎn)于最近的其他簇,即聚類效果較差。相反,如果s(i)越大,說明聚類效果比較好。因此,整體輪廓系數(shù)最大的K值為最優(yōu)的聚類個(gè)數(shù)。
4.2 組內(nèi)誤差平方和方法
組內(nèi)誤差平方和(SSE)[4]是度量聚類結(jié)果的另一指標(biāo)。隨著K值的增大,每類內(nèi)的數(shù)據(jù)也會(huì)變少,距離也會(huì)變小,所以SSE嚴(yán)格下降。但是,組內(nèi)平方誤差和減少緩慢時(shí),表明增加聚類數(shù)的聚類效果也不會(huì)增強(qiáng),我們可選擇此時(shí)的“肘點(diǎn)”對(duì)應(yīng)的K值為最佳聚類數(shù)。因此,通過畫出SSE的折線圖找出其“肘點(diǎn)”為最優(yōu)K值。
5 基于改進(jìn)的K-means聚類分析
5.1 數(shù)據(jù)預(yù)處理
由于本文是以調(diào)查問卷的形式展開研究,題目是文字描述的選擇題,但是K-means聚類算法是處理數(shù)值型的數(shù)據(jù),因此對(duì)調(diào)查問卷的結(jié)果進(jìn)行數(shù)值轉(zhuǎn)換處理。
調(diào)查問卷中包含兩類題目,分別為有兩個(gè)選項(xiàng)的單項(xiàng)選擇題和有多個(gè)選項(xiàng)的單項(xiàng)選擇題。針對(duì)有兩個(gè)選項(xiàng)的單選題,將其轉(zhuǎn)換成0-1型問題,即其中一個(gè)選項(xiàng)取值為0,另一選項(xiàng)取值為1。對(duì)于有多個(gè)選項(xiàng)的單項(xiàng)選擇題,參考Liker五點(diǎn)式計(jì)分法,根據(jù)題目的選項(xiàng)個(gè)數(shù),從0到1區(qū)間等間距取值,并將取值賦給選項(xiàng)。
為了更好地進(jìn)行聚類分析,對(duì)轉(zhuǎn)換后的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化過程遵循的原則是:將各個(gè)家庭環(huán)境因素對(duì)應(yīng)題目取值的總和除以該類因素題目的總數(shù),最終標(biāo)準(zhǔn)化值的范圍是[0,1],標(biāo)準(zhǔn)化后的數(shù)值如表1所示。
親密度、情感表達(dá)、控制性、娛樂性、期望性、知識(shí)性和經(jīng)濟(jì)狀況的標(biāo)準(zhǔn)值越高,表示該因素的程度越高。例如,親密度的標(biāo)準(zhǔn)值越高,表明父母與孩子的關(guān)系越親密。矛盾性標(biāo)準(zhǔn)值的具體分析如下:
[0.00,0.15]: 父母與子女矛盾低,但出現(xiàn)分歧時(shí),父母都順著孩子。
[0.15,0.25]:父母與子女比較理性相處,出現(xiàn)分歧時(shí),用理論事。
[0.25,0.50]:父母與子女非理性相處,出現(xiàn)分歧時(shí),父母說服或強(qiáng)迫孩子接受自己的觀念
[0.50,0.65]:父母經(jīng)常吵架,與子女關(guān)系較緩和,出現(xiàn)分歧時(shí),大多都順著孩子。
[0.65,0.75]:父母經(jīng)常吵架,與子女理性相處,與子女的意見出現(xiàn)分歧時(shí),用理論事。
[0.75,1.00]: 父母經(jīng)常吵架,與子女關(guān)系緊張,與子女的意見出現(xiàn)分歧時(shí),說服或強(qiáng)迫孩子接受自己的觀念。
5.2 聚類K值的選取
本文采用整體輪廓系數(shù)法和組內(nèi)平方誤差和選取最優(yōu)聚類個(gè)數(shù)K值,選用K值的準(zhǔn)則:綜合考慮整體輪廓系數(shù)和組內(nèi)平方誤差和,最優(yōu)K值對(duì)應(yīng)的整體輪廓系數(shù)盡可能大,且在組內(nèi)平方誤差和拐點(diǎn)圖的“肘點(diǎn)”附近。本文采用枚舉法,計(jì)算整體輪廓系數(shù)S和組內(nèi)平方誤差和SSE,遍歷2至10的K值,為了避免局部最優(yōu)的狀況,每個(gè)K運(yùn)行50次,選取50次中最大的整體輪廓系數(shù)(S)和對(duì)應(yīng)的組內(nèi)平方誤差和(SSE),計(jì)算結(jié)果和折線圖如下所示:
從整體輪廓系數(shù)圖可知,在K=2處,輪廓系數(shù)取得最大值,在K=4處,取得第二個(gè)峰值。由組內(nèi)平方誤差和折線圖可知,從K=2到K=5下降得很快,K=5以后下降相對(duì)較慢,K=5處為組內(nèi)平方誤差和折線圖的“肘點(diǎn)”。根據(jù)本文選取K值的準(zhǔn)則,最優(yōu)聚類個(gè)數(shù)K取值為4。結(jié)合整體輪廓系數(shù)和組內(nèi)平方誤差和的方法解決了傳統(tǒng)k-means方法無法客觀確定K值和聚類結(jié)果局部最優(yōu)的缺陷。
5.3 聚類結(jié)果及分析
由聚類結(jié)果可知,本次調(diào)查對(duì)象的家庭綜合環(huán)境可以分為以下四類:
第1類:子女與父母關(guān)系親密,情感方面的交流頻繁,父母關(guān)系融洽,家庭環(huán)境氛圍屬于民主型。在孩子教育方面,理性教育孩子,遇到意見分歧時(shí)用理論事,對(duì)子女要求嚴(yán)格,對(duì)孩子的期望高,但組織親子活動(dòng)較多,屬于勞逸結(jié)合的教育方式。父母的平均文化程度較高,經(jīng)濟(jì)狀況屬于中上。
第2類:子女與父母關(guān)系不親密,缺乏情感方面的溝通,父母經(jīng)常吵架,家庭環(huán)境氛圍屬于沖突型。在孩子教育方面,與子女出現(xiàn)分歧時(shí),說服孩子或強(qiáng)迫孩子接受自己的觀念,對(duì)子女管教一般,親子活動(dòng)較少,對(duì)孩子的教育期望在本科水平左右,屬于專制型的教育方式。父母文化水平偏低,經(jīng)濟(jì)狀況中等。
第3類:父母與子女關(guān)系不親密,基本沒有情感交流,父母關(guān)系較好,家庭環(huán)境氛圍屬于放任型。在孩子教育方面,出現(xiàn)分歧時(shí),用理論事,親子活動(dòng)很少,對(duì)子女管教一般,對(duì)孩子的教育期望在高中和本科之間,屬于放養(yǎng)型的教育方式。父母文化水平較低,家庭的經(jīng)濟(jì)狀況中下。
第4類:父母與子女親密關(guān)系一般,缺乏情感交流,對(duì)子女管教嚴(yán)格,父母關(guān)系融洽,家庭環(huán)境氛圍屬于正統(tǒng)型。在孩子的教育方面,遇到分歧時(shí)就事論事,對(duì)孩子的期望高,參與親子活動(dòng)的頻率正常,期待教育水平為本科以上,屬于理性的教育方式。父母文化程度較高,經(jīng)濟(jì)狀況屬于中上。
由上表數(shù)據(jù)對(duì)比可知,在四類家庭綜合環(huán)境中,認(rèn)知能力測(cè)試分?jǐn)?shù)低于0的人數(shù),第3類占的比例最高,第2類次之;認(rèn)知能力測(cè)試分?jǐn)?shù)大于1的人數(shù),第1類占的比例最高,第4類次之,而且與第一類的比例相近。因此,在這四類家庭綜合環(huán)境中,第1類的中學(xué)生認(rèn)知能力最好,第4類的中學(xué)生認(rèn)知能力次之,第2類的中學(xué)生認(rèn)知能力較差,第3類的中學(xué)生認(rèn)知能力最差。
相比第2類和第3類,第1類和第4類認(rèn)知能力測(cè)試分?jǐn)?shù)大于0.7的中學(xué)生人數(shù)比例大幅度增加,分?jǐn)?shù)低于0的中學(xué)生人數(shù)比例下降明顯,因此,民主型家庭氛圍配合勞逸結(jié)合的教育方式和正統(tǒng)性家庭氛圍結(jié)合理性的教育方式,這兩種家庭綜合環(huán)境與中學(xué)生的認(rèn)知能力呈正相關(guān)關(guān)系。相反,第2類和第4類認(rèn)知能力冊(cè)數(shù)分?jǐn)?shù)大于0.7的中學(xué)生人數(shù)比例大幅度下降,分?jǐn)?shù)低于0的中學(xué)生人數(shù)比例急劇上升,所以沖突型家庭環(huán)境搭配專制型教育方式和放任型家庭氛圍結(jié)合放養(yǎng)型教育方式,這兩類家庭綜合環(huán)境與中學(xué)生的認(rèn)知能力呈負(fù)相關(guān)關(guān)系。
6 結(jié)論
本文基于改進(jìn)的k-means聚類算法,采用中國(guó)教育追蹤調(diào)查的九年級(jí)學(xué)生數(shù)據(jù)和家長(zhǎng)數(shù)據(jù),經(jīng)研究表明,民主型家庭氛圍配合勞逸結(jié)合的教育方式和正統(tǒng)型家庭氛圍搭配理性的教育方式,這兩種家庭綜合環(huán)境更有利于中學(xué)生的認(rèn)知能力的培養(yǎng)。相反,沖突型家庭環(huán)境搭配專制型教育方式和放任型家庭氛圍結(jié)合放養(yǎng)型教育方式,這兩類家庭綜合環(huán)境不利于培養(yǎng)中學(xué)生的認(rèn)知能力。
因此,在實(shí)際生活中,家長(zhǎng)應(yīng)該注重家庭綜合環(huán)境,忽略或偏重家庭綜合環(huán)境中的某個(gè)因素,會(huì)導(dǎo)致不一樣的家庭綜合環(huán)境,從而影響孩子的認(rèn)知能力的發(fā)展。例如,如今大多數(shù)家長(zhǎng)都送孩子到教育機(jī)構(gòu)學(xué)習(xí),培養(yǎng)孩子的多才多藝,但是忽略與孩子的情感交流,缺乏溝通,會(huì)導(dǎo)致第2類或第3類的家庭環(huán)境的形成,潛移默化地影響孩子的認(rèn)知能力的發(fā)展。因此,家長(zhǎng)應(yīng)綜合建設(shè)家庭綜合環(huán)境,營(yíng)造一個(gè)有利于孩子認(rèn)知能力發(fā)展的氛圍。
參考文獻(xiàn):
[1] 王仁曾,劉暢. 先天與后天:如何影響中國(guó)人的認(rèn)知能力表現(xiàn)[J]. 蘭州大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2016(2):89-102.
[2] 中國(guó)人民大學(xué)中國(guó)調(diào)查與數(shù)據(jù)中心中國(guó)教育追蹤調(diào)查(CEPS)項(xiàng)目組.中國(guó)教育追蹤調(diào)查(CEPS)基線數(shù)據(jù)[Z].2015.
[3] 費(fèi)立鵬.家庭環(huán)境量表中文版(FES-CV)[EB/OL]. http://www.xinlixue.cn/
[4] 成衛(wèi)青,盧艷紅. 一種基于最大最小距離和 SSE 的自適應(yīng)聚類算法[J]. 南京郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2015,35(2):102-107.