盧 浩 鄭文淵 西南財(cái)經(jīng)大學(xué)
2020年9月,國家醫(yī)保局會(huì)同財(cái)政部印發(fā)《關(guān)于擴(kuò)大長期護(hù)理保險(xiǎn)制度試點(diǎn)的指導(dǎo)意見》,隨即在社交媒體平臺(tái)上引發(fā)網(wǎng)民廣泛討論。本研究將以網(wǎng)民關(guān)于長期護(hù)理保險(xiǎn)(以下簡稱“長護(hù)險(xiǎn)”)政策的評(píng)論為研究對(duì)象,采用TF-IDF特征抽取、K-means聚類等方法,建立長護(hù)險(xiǎn)輿情分布模型。結(jié)果顯示,長護(hù)險(xiǎn)政策輿情根據(jù)語義可分為五大主題,且輿情主題分布在地區(qū)上存在明顯差異。本文在上述研究基礎(chǔ)上進(jìn)行深入分析,為我國長護(hù)險(xiǎn)發(fā)展提出相關(guān)建議。
截至2019年底,我國60歲及以上人口達(dá)2.54億,失能人數(shù)超4000萬,失能人員長期護(hù)理保障問題成為社會(huì)亟待解決的問題。中共十八屆五中全會(huì)公報(bào)提出“積極開展應(yīng)對(duì)人口老齡化行動(dòng)”,中共中央“十三五”規(guī)劃綱要更明確指出“探索建立長期護(hù)理保險(xiǎn)制度”。2020年9月10日,國家醫(yī)保局會(huì)同財(cái)政部印發(fā)《關(guān)于擴(kuò)大長期護(hù)理保險(xiǎn)制度試點(diǎn)的指導(dǎo)意見》,擬在初步試點(diǎn)的成果之上進(jìn)一步完善我國長護(hù)險(xiǎn)政策框架。在我國人口老齡化加快的社會(huì)背景下,探索建立長護(hù)險(xiǎn)制度成為解決失能人員長期護(hù)理問題、健全我國社會(huì)保障體系的重要途徑。
目前,已有不少學(xué)者對(duì)長護(hù)險(xiǎn)實(shí)施效果進(jìn)行客觀分析,并取得了一定的成果。陳鶴(2020)基于江西省上饒市調(diào)查數(shù)據(jù),以描述性統(tǒng)計(jì)和定序Logistic回歸分析受益人的滿意程度及影響因素,結(jié)果表明,待遇水平、居家上門護(hù)理待遇給付方式顯著影響長護(hù)險(xiǎn)滿意度;李元、陳立行(2019)選取長春市長護(hù)險(xiǎn)制度實(shí)踐數(shù)據(jù),采用模糊綜合評(píng)價(jià)法分析長護(hù)險(xiǎn)制度實(shí)施效果,發(fā)現(xiàn)保障對(duì)象、資金來源、服務(wù)傳遞機(jī)制和照護(hù)人力資源等方面有待提高完善;胡蕊(2020)則抽取安慶市參加長護(hù)險(xiǎn)的人員進(jìn)行問卷調(diào)查,通過單因素分析和多因素分析,發(fā)現(xiàn)安慶市長護(hù)險(xiǎn)實(shí)施存在護(hù)理費(fèi)用昂貴、失能評(píng)估標(biāo)準(zhǔn)不科學(xué)、養(yǎng)老院護(hù)工短缺等問題。以上研究采用量化分析方法客觀評(píng)估了長護(hù)險(xiǎn)實(shí)施效果,但目前還沒有文獻(xiàn)針對(duì)長護(hù)險(xiǎn)政策輿情進(jìn)行評(píng)估。
在微博評(píng)論輿情研究方面,不少學(xué)者運(yùn)用不同的自然語言處理算法研究了多個(gè)領(lǐng)域的政策輿情。汪蕓霞(2019)通過微博平臺(tái)上有關(guān)美團(tuán)打車進(jìn)入市場的評(píng)論數(shù)據(jù),選擇支持向量機(jī)和卷積神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行情感分類,得出總體評(píng)論以及不同情感類別評(píng)論的關(guān)注熱點(diǎn);劉虎(2020)對(duì)網(wǎng)民評(píng)論數(shù)據(jù)構(gòu)建潛在狄利克雷分配(LDA)主題聚類模型,通過識(shí)別與“套現(xiàn)”共現(xiàn)的關(guān)鍵詞找出導(dǎo)致后疫情時(shí)代消費(fèi)券“套現(xiàn)”泛濫的主要原因;魯雨晴(2021)則對(duì)新型冠狀肺炎疫情期間關(guān)于復(fù)工復(fù)學(xué)的評(píng)論數(shù)據(jù)進(jìn)行情感分析,計(jì)算用戶的情感傾向性、情感強(qiáng)度等,并使用K-均值聚類算法進(jìn)行聚類,通過方差分析驗(yàn)證了三類地區(qū)文本數(shù)據(jù)中的負(fù)面評(píng)價(jià)比例存在顯著差異。
綜上所述,目前國內(nèi)外學(xué)者已經(jīng)在長護(hù)險(xiǎn)的多個(gè)方面取得成果,且微博評(píng)論輿情研究也已經(jīng)在多個(gè)政策輿情分析上進(jìn)行了應(yīng)用。但在梳理文獻(xiàn)的過程中,我們發(fā)現(xiàn),從長護(hù)險(xiǎn)政策輿情的角度分析長護(hù)險(xiǎn)制度構(gòu)建的研究還存在空白。新浪微博是目前國內(nèi)最大的社交媒體平臺(tái),該平臺(tái)實(shí)時(shí)產(chǎn)生的社會(huì)熱點(diǎn)話題能引發(fā)廣大網(wǎng)民的廣泛討論,大量的評(píng)論數(shù)據(jù)比較具有代表性。因此,本研究將以網(wǎng)民在新浪微博中關(guān)于長護(hù)險(xiǎn)政策的評(píng)論為研究對(duì)象,采用TF-IDF特征抽取、K-means聚類等自然語言處理方法建立輿情分布模型,并探究輿情分布在地區(qū)上的差異,為建立并完善長護(hù)險(xiǎn)制度提供參考。
TF-IDF(Term Frequency-Inverse Document Frequency)模型,是一種用于評(píng)估某一詞語在語料庫中的某一條語料中的重要程度的特征抽取算法。該模型的核心思想為:如果某個(gè)詞語在一條語料中出現(xiàn)的頻率很高,而在其他語料中出現(xiàn)的頻率較低,則該詞語可以反映該條語料的主題特征。
詞頻(Term Frequency,TF),指語料庫中某條指定文本中某個(gè)詞語在該文本中出現(xiàn)的頻率。某個(gè)詞語在指定文本中出現(xiàn)的頻率越高,則該詞語與該文本主題越相關(guān)。TF值可表示為如下公式:
式(1)中,nij表示語料庫中第j個(gè)詞語在di這條文本中出現(xiàn)的次數(shù)。
逆文本頻率(Inverse Document Frequency,IDF),指語料庫中某個(gè)指定詞語在整個(gè)語料庫中出現(xiàn)的頻率。為了平衡常用詞語的頻率,需要通過IDF降低常用詞在指定文本中的權(quán)重。IDF計(jì)算公式可表示為:
在式(2)中,│D│表示語料庫中的文本總量,│{j:ti∈dj}│表示語料庫中包含詞語ti的文本數(shù)量。為了避免分母出現(xiàn)等于0的情況,分母通常使用1+│{j:ti∈dj}│。
TF-IDF的值等于TF值與IDF值的乘積,如式(3):
上文提到的TF-IDF模型得到的向量空間存在一定的缺陷:隨著文本數(shù)量的增加,向量空間維數(shù)增大將造成向量空間維度過高的問題;同時(shí),某一特定文本中不會(huì)出現(xiàn)的詞語也會(huì)不斷增多,導(dǎo)致矩陣稀疏。為了解決向量空間的高維數(shù)和稀疏性問題,需要對(duì)向量空間進(jìn)行降維處理。
主成分分析法(Principal Component Analysis,PCA),是一種使用最為廣泛的數(shù)據(jù)降維算法。主成分分析法將高緯度的變量轉(zhuǎn)化為低緯度的主成分,低緯度的主成分由多個(gè)多維度變量線性表示,能夠保留變量中的有用信息,用少量數(shù)據(jù)反映原始數(shù)據(jù)的特征。
K-means聚類算法是機(jī)器學(xué)習(xí)領(lǐng)域一種典型的無監(jiān)督學(xué)習(xí)算法,其主要思想是兩個(gè)目標(biāo)的歐式距離越近,則相似度越大。K-means的算法步驟如下:
1.確定聚類類別數(shù)目K;
2.初始化k個(gè)樣本作為聚類中心c=c1,c2,...ck;
3.分別計(jì)算每個(gè)樣本1到k個(gè)聚類中心的歐式距離,并將其分到距離最小的聚類中心所對(duì)應(yīng)的類中;
4.重復(fù)步驟2、3,直至達(dá)到設(shè)定的終止條件。
K-means聚類算法使用場景廣泛,包括文本分類、客戶分類、保險(xiǎn)欺詐監(jiān)測等。文本分類是K-means算法分類的典型使用場景,根據(jù)文本向量化后的向量空間,K-means算法可以有效地將文本分為多個(gè)不同類別。
1.研究對(duì)象
2020年9月27日,微博話題#社保第六險(xiǎn)要來了#成為新浪微博熱搜榜第二名。網(wǎng)民在該話題下的大量評(píng)論為長護(hù)險(xiǎn)政策輿情研究提供了數(shù)據(jù)基礎(chǔ),因此,本研究的研究對(duì)象為網(wǎng)民在#社保第六險(xiǎn)要來了#話題微博中的評(píng)論。
2.數(shù)據(jù)獲取
本文在requests庫、json庫等第三方庫的基礎(chǔ)上,自主開發(fā)了基于模擬登錄的網(wǎng)絡(luò)爬蟲程序。通過該程序共獲取了1471條關(guān)于“社保第六險(xiǎn)”的微博評(píng)論,其中792條為一級(jí)評(píng)論,即對(duì)微博內(nèi)容的評(píng)論;679條為二級(jí)評(píng)論,即對(duì)一級(jí)評(píng)論的評(píng)論。
3.數(shù)據(jù)預(yù)處理
(1)數(shù)據(jù)去重
對(duì)數(shù)據(jù)進(jìn)行去重,刪除原始數(shù)據(jù)中出現(xiàn)兩次及以上的評(píng)論,僅保留其中一條。
(2)刪除表情、轉(zhuǎn)發(fā)、回復(fù)、網(wǎng)址、圖片等無關(guān)內(nèi)容。
通過正則表達(dá)式對(duì)評(píng)論中的無關(guān)內(nèi)容進(jìn)行匹配,用空字符代替匹配到的無關(guān)內(nèi)容。
(3)分詞
本文在jieba第三方中文分詞庫的基礎(chǔ)上,加入了“長期護(hù)理險(xiǎn)”“五險(xiǎn)一金”“延遲退休”等與長護(hù)險(xiǎn)相關(guān)的特殊詞匯,提高了微博評(píng)論文本分詞的精確度。
(4)去除停用詞
為了提高文本量化和文本聚類的準(zhǔn)確度和效率,本文采用《哈工大停用詞表》,去除了文本中如“萬一”“不僅”“可是”等停用詞。
4.預(yù)處理結(jié)果
經(jīng)過數(shù)據(jù)預(yù)處理后,剔除評(píng)論內(nèi)容預(yù)處理后變?yōu)榭罩档脑u(píng)論數(shù)據(jù),并人工剔除評(píng)論中與長護(hù)險(xiǎn)明顯不相關(guān)的評(píng)論內(nèi)容,最終共保留867條評(píng)論數(shù)據(jù),可初步繪制評(píng)論數(shù)據(jù)詞云,如圖1。
圖1 評(píng)論數(shù)據(jù)詞云
1.特征抽取
將預(yù)處理后的評(píng)論數(shù)據(jù)形成語料庫并建模,得到語料庫的向量空間D867×2738,向量空間D867×2738包含了語料庫中所有詞語分布情況的信息。
其中,di表示向量空間中第i條評(píng)論的向量;wi,j表示第i條評(píng)論中第ij個(gè)特征項(xiàng)的權(quán)重。
TF-IDF平均值最大的10個(gè)熱詞如表1所示。
表1 TF-IDF平均值前十大熱詞
2.向量空間降維
通過PCA模型將原始向量空間D867×2738降維至指定維度m,從而得到新的向量空間D'867×m。由于向量空間的高維度和稀疏性,傳統(tǒng)的方差貢獻(xiàn)率法在選擇向量空間維度m上失效??紤]到PCA模型主要是為了提高K-means算法的精度和效率,本研究中采用通過觀察K-means聚類效果選擇向量空間維度的方法,經(jīng)過不斷試驗(yàn),最終選擇m=27作為向量空間維度,降維后得到的前五大主成分與權(quán)重最高的前十大特征項(xiàng)的線性關(guān)系如表2。
3.評(píng)論聚類分析
(1)聚類數(shù)目的選擇及K-means聚類—人工語義分類過程
由于向量空間的高維度和稀疏性,且TF-IDF模型具有無法處理一詞多義與多詞一義情況的缺陷,本研究提出基于K-means聚類—人工語義分類過程的聚類數(shù)目選擇方法,經(jīng)過反復(fù)試驗(yàn),最終選擇聚類數(shù)目n=20較為合適,聚類可視化結(jié)果如圖2。
圖2 K-means聚類可視化結(jié)果
基于K-means聚類結(jié)果進(jìn)行人工語義判斷,20個(gè)簇群中有8個(gè)簇群為與長護(hù)險(xiǎn)弱相關(guān)的數(shù)據(jù);剩余12個(gè)簇群的強(qiáng)相關(guān)評(píng)論可根據(jù)語義分為5類,其主題可分別概括為護(hù)理質(zhì)量、繳費(fèi)負(fù)擔(dān)、普及程度、實(shí)用價(jià)值和享受期限。
(2)強(qiáng)相關(guān)評(píng)論聚類結(jié)果分析
剔除聚類結(jié)果中不能提供有關(guān)長護(hù)險(xiǎn)政策輿情信息的弱相關(guān)評(píng)論,主要分析強(qiáng)相關(guān)評(píng)論聚類結(jié)果,聚類可視化結(jié)果如圖3。
從圖3中可以看出,普及程度是長護(hù)險(xiǎn)輿情中最突出的主題,該主題共包括了7個(gè)簇群。其次,實(shí)用價(jià)值是長護(hù)險(xiǎn)輿情中的第二大主題,并且該主題下評(píng)論數(shù)據(jù)分布相比于其他主題更加分散。各主題在長護(hù)險(xiǎn)輿情中的具體占比如圖5。
圖3 強(qiáng)相關(guān)評(píng)論主題分布
圖4 全部評(píng)論及普及程度主題評(píng)論詞頻分布
圖5 各主題占所有評(píng)論數(shù)據(jù)比重
接下來分析各主題的詞頻分布情況,各主題的關(guān)鍵詞各不相同,詞頻分布反映了各主題語義層面的信息,各主題的關(guān)鍵詞和該主題下的代表性評(píng)論如表3。
表3 各主題維度、關(guān)鍵詞及代表性評(píng)論
根據(jù)各主題語義層面的信息,結(jié)合各主題下的具體評(píng)論內(nèi)容,下面對(duì)長護(hù)險(xiǎn)政策輿情五大主題進(jìn)行詳細(xì)分析。
護(hù)理質(zhì)量主題下的評(píng)論主要反映了輿情中對(duì)于護(hù)理方式、護(hù)理人員專業(yè)水平、護(hù)理服務(wù)質(zhì)量等方面的問題。其中,針對(duì)上海市“每周服務(wù)7次,每次服務(wù)1個(gè)小時(shí)”的長期護(hù)理方式,網(wǎng)民普遍認(rèn)為每天一個(gè)小時(shí)的護(hù)理時(shí)間難以有效解決老年人長期護(hù)理問題。
繳費(fèi)負(fù)擔(dān)主題下的評(píng)論反映了長護(hù)險(xiǎn)繳費(fèi)帶來的經(jīng)濟(jì)壓力。發(fā)表此類評(píng)論的網(wǎng)民認(rèn)為,目前的“五險(xiǎn)一金”已經(jīng)在一定程度上壓縮了實(shí)際到手工資,繳納長護(hù)險(xiǎn)保費(fèi)無疑會(huì)增加他們的經(jīng)濟(jì)負(fù)擔(dān)。
普及程度是公眾反映最為強(qiáng)烈的主題,由于目前部分企業(yè)或單位甚至還未做到為員工繳納“五險(xiǎn)一金”,公眾對(duì)于作為社保“第六險(xiǎn)”的長護(hù)險(xiǎn)政策能否在企業(yè)層面落實(shí)存有疑慮。
實(shí)用價(jià)值主題下的評(píng)論具有一定分散性,反映了長護(hù)險(xiǎn)實(shí)用價(jià)值的多方面因素。首先,長護(hù)險(xiǎn)的繳費(fèi)期間與給付期間存在較大的時(shí)間滯后,政策變動(dòng)風(fēng)險(xiǎn)可能降低退休后長護(hù)險(xiǎn)的實(shí)用價(jià)值;其次,由于目前社會(huì)養(yǎng)老保險(xiǎn)基金不足及個(gè)人賬戶“空賬”問題,公眾對(duì)長護(hù)險(xiǎn)的收益性缺乏信心;最后,長護(hù)險(xiǎn)給付條件為達(dá)到失能狀態(tài),老年后若沒有發(fā)生失能的情況,則已繳保費(fèi)將失去價(jià)值,且公眾對(duì)于失能老人界定標(biāo)準(zhǔn)也存有疑慮。
享受期限主題下的評(píng)論反映了長護(hù)險(xiǎn)享受期限具有不確定性的問題。長護(hù)險(xiǎn)在參保人退休后達(dá)到失能狀態(tài)才能給付,在當(dāng)前逐步實(shí)施延遲退休的社會(huì)背景下,公眾對(duì)退休后的生存期限預(yù)期降低,隨著退休年齡延后,長護(hù)險(xiǎn)的實(shí)用價(jià)值也隨之下降。
(3)分地區(qū)強(qiáng)相關(guān)評(píng)論聚類結(jié)果分析
為了進(jìn)一步挖掘長護(hù)險(xiǎn)輿情信息,接下來分析長護(hù)險(xiǎn)輿情主題在地區(qū)上的分布差異。將聚類結(jié)果根據(jù)經(jīng)濟(jì)發(fā)展水平劃分為中、東、西部三大經(jīng)濟(jì)分區(qū),用各地區(qū)下的主題權(quán)重wi,j來反映各主題在三大經(jīng)濟(jì)分區(qū)上的分布情況。
第i個(gè)地區(qū)的第j個(gè)主題在該地區(qū)的權(quán)重可被定義為:
其中,ci,j表示第i個(gè)地區(qū)的第j個(gè)主題的評(píng)論數(shù)量。
對(duì)各主題下的地區(qū)權(quán)重進(jìn)行均值歸一化處理,各地區(qū)主題分布權(quán)重歸一化結(jié)果如表4,根據(jù)權(quán)重繪制各地區(qū)主題分布結(jié)果如圖6。
表4 各地區(qū)主題分布權(quán)重歸一化結(jié)果
圖6 各地區(qū)主題分布雷達(dá)圖
從雷達(dá)圖中可以看出,三個(gè)經(jīng)濟(jì)分區(qū)的長護(hù)險(xiǎn)輿情主題分布存在明顯差異。東部地區(qū)經(jīng)濟(jì)較發(fā)達(dá),相比于經(jīng)濟(jì)負(fù)擔(dān),民眾更注重長護(hù)險(xiǎn)的實(shí)用價(jià)值和護(hù)理質(zhì)量,故輿情主題傾向于享受期限、實(shí)用價(jià)值和護(hù)理質(zhì)量;中部地區(qū)人均收入水平中等,繳費(fèi)負(fù)擔(dān)相對(duì)更大,且對(duì)于長護(hù)險(xiǎn)普及缺乏信心,主題分布傾向于繳費(fèi)負(fù)擔(dān)、實(shí)用價(jià)值和普及程度;西部地區(qū)主題分布則傾向于普及程度、繳費(fèi)負(fù)擔(dān)和護(hù)理質(zhì)量,西部地區(qū)經(jīng)濟(jì)欠發(fā)達(dá),繳費(fèi)負(fù)擔(dān)自然成為重要影響因素,同時(shí)也可能存在基本社會(huì)保險(xiǎn)普及不足的情況。
本文通過TF-IDF模型、PCA特征降維和K-means聚類算法對(duì)網(wǎng)民關(guān)于長護(hù)險(xiǎn)的評(píng)論進(jìn)行文本挖掘和主題建模,研究長護(hù)險(xiǎn)政策輿情主題分布情況。結(jié)論顯示,長護(hù)險(xiǎn)政策輿情根據(jù)語義可分為五大主題。在此基礎(chǔ)上,本研究還發(fā)現(xiàn)長護(hù)險(xiǎn)輿情主題在地區(qū)分布上存在明顯差異。
根據(jù)以上研究結(jié)論,對(duì)我國建立完善長護(hù)險(xiǎn)制度提出如下建議:
通過本文的研究結(jié)果可知,民眾對(duì)于基本社會(huì)保險(xiǎn)普及不足的問題反映強(qiáng)烈。“五險(xiǎn)一金”在企業(yè)層面的落實(shí)不到位降低了人民群眾對(duì)于基本社會(huì)保險(xiǎn)的信心。作為社保“第六險(xiǎn)”的長護(hù)險(xiǎn)被群眾自然地與“五險(xiǎn)一金”聯(lián)系在一起,因此,全面推行長護(hù)險(xiǎn)政策首先要解決“五險(xiǎn)一金”中存在的問題,并切實(shí)保證長護(hù)險(xiǎn)在企業(yè)層面落實(shí)。
根據(jù)分地區(qū)強(qiáng)相關(guān)評(píng)論聚類結(jié)果分析,長護(hù)險(xiǎn)政策輿情主題在地區(qū)分布上存在明顯差異。在構(gòu)建長護(hù)險(xiǎn)制度時(shí),可在制度定性、籌資方式和給付方式等方面結(jié)合地區(qū)經(jīng)濟(jì)發(fā)展水平做差異化設(shè)計(jì)。東部經(jīng)濟(jì)發(fā)達(dá)地區(qū)可考慮商業(yè)長護(hù)險(xiǎn)模式,采取自愿繳費(fèi)的籌資方式,給付時(shí)側(cè)重服務(wù)給付,增加老年失能人員照料陪護(hù)時(shí)間;中、西部經(jīng)濟(jì)欠發(fā)達(dá)地區(qū)可考慮社會(huì)長護(hù)險(xiǎn)模式,采取“個(gè)人繳付+企業(yè)繳付+政府財(cái)政補(bǔ)貼”的三方籌資方式,給付時(shí)側(cè)重現(xiàn)金給付,緩解扶養(yǎng)老年失能人員的經(jīng)濟(jì)壓力。