趙玉航
[中國(guó)石油大學(xué)(華東)理學(xué)院,山東 青島 266555]
隨著我國(guó)經(jīng)濟(jì)的穩(wěn)步增長(zhǎng),人們生活水平不斷提高,“幸福”一詞漸漸出現(xiàn)在大眾視野。幸福是人們對(duì)生活滿意程度的一種主觀感受,這種主觀的幸福感是衡量人們生活質(zhì)量的綜合性心理指標(biāo)。幸福指數(shù)則在數(shù)字上反映了人們的生活狀況與發(fā)展需求,是衡量主觀幸福感具體程度的主觀指標(biāo)數(shù)值,是用于評(píng)估老年人是否健康的核心標(biāo)準(zhǔn)之一[1]。我國(guó)65歲以上老年人口數(shù)目不斷增加,給我國(guó)社會(huì)與勞動(dòng)力市場(chǎng)帶來(lái)新的挑戰(zhàn)。老年人的幸福水平直接反映了一個(gè)國(guó)家的經(jīng)濟(jì)水平與社會(huì)福祉,如何提升老年人的幸福感已成為研究熱點(diǎn)。
自20世紀(jì)70年代以來(lái),世界人口老齡化速度逐漸加快,我國(guó)成功實(shí)施計(jì)劃生育,衛(wèi)生保健事業(yè)不斷進(jìn)步,并將積極應(yīng)對(duì)人口老齡化納入國(guó)家戰(zhàn)略,生育率、病死率不斷下降且人均壽命不斷增加。第四次中國(guó)城鄉(xiāng)老年人生活狀況抽樣調(diào)查結(jié)果顯示,60.8%的老年人“感到幸?!?比2000年的48.8%提升了12%。從城鄉(xiāng)差值來(lái)看,城鎮(zhèn)老年人口“感到幸?!钡谋壤秊?8.1%,比2000年的66.2%提升了1.9%,農(nóng)村老年人口“感到幸福”的比例為53.1%[2]。但由于高齡及無(wú)勞動(dòng)能力、無(wú)經(jīng)濟(jì)來(lái)源等問(wèn)題的存在,老年人的健康狀況與生活質(zhì)量依然需要引起關(guān)注,如何提升老年人的幸福指數(shù)與評(píng)估老年人是否幸福仍是公共衛(wèi)生研究領(lǐng)域的熱點(diǎn)話題。
從現(xiàn)有文獻(xiàn)來(lái)看,測(cè)量老年人幸福感的研究工具有十余種,大多是引自國(guó)外的量表,或直接使用,或經(jīng)修訂后使用,調(diào)研方式以結(jié)構(gòu)化問(wèn)卷為主。測(cè)量工具對(duì)老年人幸福感的全面了解與把握越來(lái)越準(zhǔn)確,能夠通過(guò)人格、社會(huì)及其他情景間的交互關(guān)系測(cè)量與評(píng)估幸福感。目前,學(xué)界較知名且認(rèn)可度較高的幸福感測(cè)量方法是經(jīng)驗(yàn)取樣法,但其實(shí)施成本高,測(cè)量誤差較大[3]。Kahneman 等提出昔日再現(xiàn)法,將日記重現(xiàn)改為生活事件回顧表,提高了調(diào)查表的信度與效度,并能在一定程度上減輕了被試人員的負(fù)擔(dān),在方法上更加科學(xué)有效[4、5]。劉國(guó)珍等在總結(jié)梳理幸福含義的基礎(chǔ)上,區(qū)分形成幸福的四種測(cè)量范式,包括生活質(zhì)量幸福測(cè)量、情緒狀態(tài)幸福測(cè)量、自我完善幸福測(cè)量與日常體驗(yàn)幸福測(cè)量,說(shuō)明了各種測(cè)量范式下主要的測(cè)量工具與方法[6]。朱雅麗等從經(jīng)濟(jì)保障、健康狀況、生活照料與精神慰藉四個(gè)維度構(gòu)建幸福感評(píng)價(jià)指標(biāo)體系[7]。
大多數(shù)研究從定性的角度進(jìn)行分析,并沒(méi)有數(shù)據(jù)佐證,也沒(méi)有從定量的角度利用統(tǒng)計(jì)學(xué)方法對(duì)老年人幸福感進(jìn)行研究。采用因子分析法,可以從變量群中提取共性因子,在眾多變量中找出隱藏的具有代表性的因子,將相同本質(zhì)的變量歸入一個(gè)因子,減少變量的數(shù)目,檢驗(yàn)變量間關(guān)系的假設(shè)。以2018—2019年老年健康影響因素調(diào)查數(shù)據(jù)為依據(jù),利用因子分析法對(duì)老年人幸福指數(shù)進(jìn)行定量分析,通過(guò)累計(jì)方差貢獻(xiàn)率對(duì)提取的因子進(jìn)行加權(quán)得到綜合得分,構(gòu)建老年人幸福指數(shù),以期實(shí)現(xiàn)對(duì)“幸?!边@一模糊名詞的定量處理。
數(shù)據(jù)來(lái)自中國(guó)老年健康影響因素跟蹤調(diào)查社區(qū)數(shù)據(jù)集,其由北京大學(xué)“中國(guó)老年健康影響因素跟蹤調(diào)查”課題組在1998—2014年跟蹤調(diào)查的基礎(chǔ)上,通過(guò)查詢國(guó)內(nèi)公開(kāi)發(fā)行的各類統(tǒng)計(jì)年鑒及數(shù)據(jù)庫(kù),搜集整理中國(guó)老年健康影響因素跟蹤調(diào)查樣本所覆蓋的全國(guó)23個(gè)省市自治區(qū)860多個(gè)縣、縣級(jí)市或區(qū)的社會(huì)經(jīng)濟(jì)、醫(yī)療與老齡服務(wù)、空氣污染與其他環(huán)境污染等社區(qū)信息得到的,是與個(gè)體微觀跟蹤調(diào)查數(shù)據(jù)有機(jī)整合的社區(qū)中觀數(shù)據(jù),能夠?yàn)檎哐芯刻峁┛煽康臄?shù)據(jù)支持。
選取2018—2019年老年健康影響因素調(diào)查數(shù)據(jù),共計(jì)15874個(gè)樣本量,17個(gè)特征變量信息,具體的特征變量信息如表1所示。
表1 變量信息Tab.1 Variable information
采用調(diào)查問(wèn)卷的方式進(jìn)行數(shù)據(jù)收集,極易出現(xiàn)調(diào)查對(duì)象漏填的情況,故特征變量不可避免會(huì)出現(xiàn)數(shù)據(jù)缺失。變量e62 (子女照顧情況) 的缺失比例為70.85%,表明該變量大部分?jǐn)?shù)據(jù)是缺失的,不能進(jìn)行后續(xù)的統(tǒng)計(jì)分析與建模,故剔除該變量。其余變量中,e67(子女一周照顧時(shí)間) 的缺失比例為24.13%,占比最大。有9個(gè)特征變量缺失值占比在10%以下,b11(自認(rèn)生活狀況)的缺失比例最小,為0.86%。詳見(jiàn)圖1。
圖1 特征變量數(shù)據(jù)缺失占比Fig.1 Proportion of missing feature variable data
采用KNN算法填補(bǔ)缺失值。KNN算法又稱為近鄰分類算法(k-nearest neighbor classification),是一種廣泛使用的缺失值插補(bǔ)方法,其本質(zhì)是通過(guò)距離測(cè)量識(shí)別相鄰點(diǎn),通常相鄰點(diǎn)具有近似的數(shù)據(jù)特征。在機(jī)器學(xué)習(xí)中,通過(guò)在訓(xùn)練集中找到與該實(shí)例最鄰近的k個(gè)樣本點(diǎn),利用k個(gè)相似樣本點(diǎn)間的數(shù)據(jù)特征估計(jì)缺失的特征數(shù)據(jù)。在KNN算法中,兩樣本點(diǎn)間距離度量一般采用歐式距離,公式如下:
(1)
將歐式距離相近的歸為一類,最后劃分為K個(gè)類。對(duì)于數(shù)值型數(shù)據(jù),取同一類的平均數(shù)填補(bǔ)缺失值。對(duì)于分類型數(shù)據(jù),取同一類的眾數(shù)填充缺失值。通過(guò)python中的KNNImputer模塊對(duì)數(shù)據(jù)集進(jìn)行缺失值填充,最終共處理缺失值30 001個(gè)。
1)確定待分析的原有若干變量是否適合進(jìn)行因子分析。一般的正交因子模型為:
(2)
轉(zhuǎn)換為矩陣形式為:
(3)
因子分析是從眾多的原始變量中重構(gòu)少數(shù)幾個(gè)具有代表意義的因子變量的過(guò)程,其潛在的要求為原有變量間要具有較強(qiáng)的相關(guān)性。故需先進(jìn)行相關(guān)性分析,計(jì)算原始變量間的相關(guān)系數(shù)矩陣。在進(jìn)行原始變量的相關(guān)分析之前,需對(duì)輸入的原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化計(jì)算。
相關(guān)系數(shù)的值介于-1與1之間,即-1≤r≤1,其性質(zhì)如下:
當(dāng)r>0時(shí),表示兩變量正相關(guān),r<0時(shí),兩變量為負(fù)相關(guān)。
當(dāng)|r|=1時(shí),表示兩變量為完全線性相關(guān),即為函數(shù)關(guān)系。
當(dāng)r=0時(shí),表示兩變量間無(wú)線性相關(guān)關(guān)系。
當(dāng)0<|r|<1時(shí),表示兩變量存在一定程度的線性相關(guān)。且|r|越接近1,兩變量間線性關(guān)系越密切,|r|越接近于0,表示兩變量的線性相關(guān)關(guān)系越弱。
一般可按三級(jí)劃分:|r|<0.4為低度線性相關(guān),0.4≤|r|<0.7為顯著性相關(guān),0.7≤|r|<1為高度線性相關(guān)。
2)構(gòu)造因子變量。因子分析中有很多確定因子變量的方法,如基于主成分模型的主成分分析與基于因子分析模型的主軸因子法、極大似然法、最小二乘法等,前者應(yīng)用最為廣泛。
主成分分析法通過(guò)坐標(biāo)變換將原始變量作線性變化,轉(zhuǎn)換為另一組不相關(guān)的變量(主成分)。求相關(guān)系數(shù)矩陣的特征根λi(λ1>λ2>…>λp>0)與相應(yīng)的標(biāo)準(zhǔn)正交的特征向量li,根據(jù)相關(guān)系數(shù)矩陣的特征根,即公共因子Fi的方差貢獻(xiàn)(等于因子載荷矩陣A中第j列各元素的平方和),計(jì)算公共因子Fi的方差貢獻(xiàn)率CV與累積貢獻(xiàn)率CVC。公式如下:
(4)
(5)
根據(jù)因子的累積方差貢獻(xiàn)率來(lái)確定公因子個(gè)數(shù),一般取累積貢獻(xiàn)率大于85%的特征值所對(duì)應(yīng)的第一、第二、…、第m(m≤p)個(gè)主成分。
3) 因子變量的命名解釋。因子變量的命名解釋是因子分析的另一個(gè)核心問(wèn)題,在實(shí)際應(yīng)用分析中,主要通過(guò)對(duì)因子載荷矩陣進(jìn)行分析得到因子變量與原有變量間的關(guān)系,從而對(duì)新的因子變量進(jìn)行命名。有時(shí)因子載荷矩陣的解釋性不好,需進(jìn)行因子旋轉(zhuǎn),使原有因子變量更具有可解釋性。因子旋轉(zhuǎn)的主要方法有正交旋轉(zhuǎn)與斜交旋轉(zhuǎn),方差最大正交旋轉(zhuǎn)最為常用,基本思想是使公共因子的相對(duì)負(fù)荷的方差之和最大,且保持原公共因子的正交性與公共方差總和不變。可使每個(gè)因子上具有最大載荷的變量數(shù)最小,故可簡(jiǎn)化對(duì)因子的解釋。
4) 計(jì)算因子變量得分。因子變量確定后,為確定因子得分,即樣本數(shù)據(jù)在不同因子上的具體數(shù)據(jù)值,采用回歸法、Bartlette法等進(jìn)行計(jì)算。計(jì)算因子得分應(yīng)首先將因子變量表示為原始變量的線性組合。即:
(6)
1)KMO檢驗(yàn)。KMO檢驗(yàn)是抽樣適合性檢驗(yàn),對(duì)原始變量間的簡(jiǎn)相關(guān)系數(shù)與偏相關(guān)系數(shù)的相對(duì)大小進(jìn)行檢驗(yàn)。計(jì)算公式為:
(7)
若原始數(shù)據(jù)中確實(shí)存在公共因子,則各變量間的偏相關(guān)系數(shù)應(yīng)該很小,這時(shí),KMO的值接近于1,原數(shù)據(jù)適用于因子分析。在實(shí)際分析中,KMO統(tǒng)計(jì)量大于0.7可視為效果比較好。
2)Bartlett’s球狀檢驗(yàn)。Bartlett’s球狀檢驗(yàn)用于檢驗(yàn)相關(guān)陣中各變量間的相關(guān)性,是否為單位陣,即檢驗(yàn)各個(gè)變量是否各自獨(dú)立。Bartlett’s球形檢驗(yàn)判斷中,若相關(guān)陣是單位陣,則各變量獨(dú)立因子分析法無(wú)效。當(dāng)P值小于0.05時(shí)說(shuō)明符合標(biāo)準(zhǔn),數(shù)據(jù)呈球形分布,各變量在一定程度上相互獨(dú)立。
(8)
其中,
(9)
由于所選數(shù)據(jù)指標(biāo)受量綱大小的影響,首先要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,基于python進(jìn)行因子分析建模。
熱力圖能夠體現(xiàn)各變量間的相關(guān)關(guān)系。f651a2.1與f651a2 變量的相關(guān)系數(shù)為1,f651a1.1與f651a1變量的相關(guān)系數(shù)為1,b12與b11存在高度相關(guān)關(guān)系。相關(guān)系數(shù)矩陣為奇異矩陣,無(wú)法求出特征值與特征向量。考慮剔除f651a1.1、f651a2.1與b11強(qiáng)相關(guān)變量構(gòu)造相關(guān)系數(shù)矩陣,見(jiàn)圖2。
圖2 修改變量后的相關(guān)系數(shù)矩陣Fig.2 Correlation coefficient matrix after modifying variables
本研究中KMO值為0.8434233,說(shuō)明適合做因子分析。且Bartlett’s檢驗(yàn)P值小于0.05,即變量間存在顯著的相關(guān)性。詳見(jiàn)表2。
表2 KMO與Bartlett’s的檢驗(yàn)結(jié)果Tab.2 KMO and Bartlett’s test results
前四個(gè)公共因子方差貢獻(xiàn)率為0.8903,大于0.85,說(shuō)明其可以解釋大部分變量,故選取四個(gè)公共因子作為影響因素,詳見(jiàn)表3。
表3 方差貢獻(xiàn)率Tab.3 Variance contribution rate
子女經(jīng)濟(jì)來(lái)源變量與醫(yī)療費(fèi)用變量在factor 1上載荷較大,這些變量與經(jīng)濟(jì)相關(guān),故命名為經(jīng)濟(jì)因子指數(shù)。是否精力充沛、自認(rèn)健康狀況與睡眠時(shí)間在factor 2上載荷較大,這些變量與個(gè)人的身體健康相關(guān),故命名為健康因子。同居人數(shù)、住房類型、子女照顧情況等變量在factor 3上載荷較大,這些變量與老年人的生活息息相關(guān),故命名為生活因子。社區(qū)服務(wù)種類與是否參加社會(huì)活動(dòng)在factor 4上載荷數(shù)較大,這些變量與社會(huì)服務(wù)相關(guān),故命名為社會(huì)因子[12]。詳見(jiàn)表4、表5。
表4 因子旋轉(zhuǎn)矩陣Tab.4 Factor rotation matrix
表5 因子命名與特征變量Tab.5 Factor naming and feature variables
四個(gè)公共因子的方差貢獻(xiàn)率分別為:0.283930、0.236206、0.214108與0.200771,對(duì)樣本的因子得分進(jìn)行加權(quán)平均,得到老年人幸福指數(shù)的測(cè)量模型:
老年人幸福指數(shù)=0.283930×樣本經(jīng)濟(jì)因子+0.236206×樣本健康因子+0.214108×樣本生活因子+0.200771×樣本生活因子
對(duì)最后的綜合指數(shù)進(jìn)行指數(shù)化處理,將得分取值壓縮到[0,100],得到的部分老年人幸福指數(shù),詳見(jiàn)表6。
表6 部分老年人幸福指數(shù)Tab.6 Part of the elderly happiness index
基于北京大學(xué)“中國(guó)老年健康影響因素跟蹤調(diào)查”課題組2018—2019年的問(wèn)卷調(diào)查數(shù)據(jù),使用KNN填充法進(jìn)行數(shù)據(jù)填補(bǔ),無(wú)法完全反映各老年人的真實(shí)情況。且因子分析是一種常用的降維方法,選取4個(gè)公共因子不可避免會(huì)導(dǎo)致一些信息的損失。后續(xù)研究可考慮使用主成分分析與LDA相關(guān)方法。