• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于社區(qū)居民健康大數(shù)據(jù)預(yù)測(cè)高血壓的患病風(fēng)險(xiǎn)

      2020-05-11 11:48周陽(yáng)王妮黃艷群
      醫(yī)學(xué)信息 2020年6期
      關(guān)鍵詞:機(jī)器學(xué)習(xí)高血壓

      周陽(yáng) 王妮 黃艷群

      摘要:目的 ?利用居民健康大數(shù)據(jù)預(yù)測(cè)高血壓的患病風(fēng)險(xiǎn),并分析高血壓相關(guān)的重要因素。方法 ?基于社區(qū)公共衛(wèi)生系統(tǒng)數(shù)據(jù)集,利用機(jī)器學(xué)習(xí)中的Logistic回歸、隨機(jī)森林和支持向量機(jī)算法建立高血壓患病風(fēng)險(xiǎn)預(yù)測(cè)模型,并比較三者的預(yù)測(cè)性能,另通過隨機(jī)森林中的基尼系數(shù)下降法分析高血壓患病的影響因素。結(jié)果 ?支持向量機(jī)模型的準(zhǔn)確率(87.00%)、精確率(85.00%)、召回率(88.00%)、F1值(0.88)和ROC曲線下面積(0.932)優(yōu)于隨機(jī)森林模型(85.00%、84.00%、87.00%、0.87和0.929)和Logistic回歸模型(83.00%、85.00%、81.00%、0.81和0.920)。Gini系數(shù)分析顯示,冠心病、年齡、糖尿病和教育水平在預(yù)測(cè)高血壓患病風(fēng)險(xiǎn)中具有重要作用;現(xiàn)教育水平、職業(yè)類型、其他慢病、婚姻情況、體重指數(shù)、父親患有高血壓、母親患有高血壓、飲酒、飲食偏咸、吸煙、鍛煉在預(yù)測(cè)高血壓患病風(fēng)險(xiǎn)中具有一般作用;性別、飲食偏素、飲食偏甜、飲食偏油、飲食偏辣在預(yù)測(cè)高血壓患病風(fēng)險(xiǎn)中作用不大。結(jié)論 ?支持向量機(jī)預(yù)測(cè)模型的預(yù)測(cè)高血壓患病風(fēng)險(xiǎn)最優(yōu)。文化程度低、合并患有冠心病、糖尿病和其他慢病、有家族史和老年人為高血壓易患人群,針對(duì)此類人群應(yīng)重點(diǎn)關(guān)注體重指數(shù)、飲酒和飲食習(xí)慣(偏咸)方面。

      關(guān)鍵詞:高血壓;機(jī)器學(xué)習(xí);社區(qū)居民健康檔案;基尼系數(shù)下降法

      中圖分類號(hào):R544.1 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? DOI:10.3969/j.issn.1006-1959.2020.06.001

      文章編號(hào):1006-1959(2020)06-0001-05

      Abstract:Objective ?To predict the risk of hypertension by using big data of residents' health and analyze the important factors related to hypertension. Methods ?Based on the data set of community public health system, using Logistic regression, random forest, and support vector machine algorithms in machine learning to establish a prediction model for the risk of hypertension, and compare the prediction performance of the three models; In addition, the influencing factors of hypertension were analyzed by Gini coefficient decline method in random forest. Results ?SVM model's accuracy (87.00%), accuracy (85.00%), recall (88.00%), F1 value (0.88), and area under the ROC curve (0.932) are better than the random forest model (85.00%, 84.00%, 87.00%, 0.87, and 0.929) and Logistic regression models (83.00%, 85.00%, 81.00%, 0.81, and 0.920). Coronary heart disease, age, diabetes, and education level play an important role in predicting the risk of hypertension; current education level, occupation type, other chronic diseases, marital status, body mass index, father with hypertension, mother with hypertension, drinking, eating a salty diet, smoking, and exercising have a general role in predicting the risk of hypertension. Gender, diet, vegan, sweet, oil, and spicy diets have little effect on predicting the risk of hypertension. Conclusion ?The support vector machine prediction model is the best predictor of the risk of hypertension. People with low education level, co-existing coronary heart disease, diabetes and other chronic diseases, family history, and the elderly are susceptible to hypertension. Targeting this group of people should focus on body mass index, drinking, and eating habits (salty).

      Key words:Hypertension;Machine learning;Community health records;Gini coefficient decline method

      根據(jù)中國(guó)高血壓防治指南[1](簡(jiǎn)稱指南),我國(guó)高血壓患病率呈不斷升高的趨勢(shì),特別是血壓值處于130~139/80~89 mmHg的人群極易進(jìn)展為高血壓。高血壓主要分為沒有明確發(fā)病原因的繼發(fā)性高血壓和原發(fā)性高血壓,其中后者占發(fā)病人群的95%[1]。流行病學(xué)研究認(rèn)為[2],我國(guó)的高血壓發(fā)病主要受高鈉低鉀飲食、超重與肥胖、過度飲酒和長(zhǎng)期精神緊張有關(guān),且在更年期前男性發(fā)病率高于女性,更年期后女性發(fā)病率高于男性。本文利用健康大數(shù)據(jù)對(duì)以上問題進(jìn)行分析,采用機(jī)器學(xué)習(xí)算法建立高血壓患病風(fēng)險(xiǎn)模型,為醫(yī)生診斷和居民保健提供參考依據(jù),并進(jìn)一步通過特征的重要性分析高血壓的重要影響因素,現(xiàn)報(bào)道如下。

      1材料與方法

      1.1數(shù)據(jù)預(yù)處理 ?通過石景山區(qū)衛(wèi)生信息平臺(tái)選取2018年1月~12月約20萬(wàn)份北京市石景山區(qū)居民健康檔案,提取居民的年齡、性別、身高、體重、血型、患病情況、文化程度、職業(yè)、婚姻狀況、藥物過敏、暴露史、親屬病史、殘疾情況、是否吸煙、是否飲酒、是否鍛煉、睡眠狀況、飲食習(xí)慣等方面的101個(gè)特征變量進(jìn)行描述。所有特征只保留一個(gè)重復(fù)變量,排除意義不明變量、出現(xiàn)頻率小于5%的變量。最終保留了20個(gè)特征變量:年齡、性別、糖尿病、冠心病、其他慢病、受教育水平(按照受學(xué)歷教育的年限劃分)、職業(yè)類型(分為國(guó)家機(jī)關(guān)、黨群組織、企業(yè)、事業(yè)單位負(fù)責(zé)人,專業(yè)技術(shù)人員,辦事人員和有關(guān)人員,商業(yè)、服務(wù)業(yè)人員,農(nóng)、林、牧、漁、水利業(yè)生產(chǎn)人員,生產(chǎn)、運(yùn)輸設(shè)備操作人員及有關(guān)人員,軍人,學(xué)生,其他)、婚姻狀況(未婚、已婚、喪偶、離異、未說明的婚姻狀況)、父親是否患有高血壓、母親是否患有高血壓、是否吸煙、是否飲酒、是否鍛煉身體、飲食是否偏甜、飲食是否偏咸、飲食是否偏油、是否素食、飲食是否偏辣、體重指數(shù)(body mass index,BMI)。

      1.2預(yù)測(cè)模型算法及評(píng)價(jià)

      1.2.1 Logistic回歸模型 ?將21個(gè)潛在的影響因素(如年齡、性別等)作為模型的自變量,是否患高血壓作為因變量,模型的輸出即某人患高血壓的概率。以0.5為概率分界點(diǎn),若模型的輸出概率>0.5,則判為患高血壓。

      1.2.2隨機(jī)森林 ?利用隨機(jī)森林(random forest,RF)預(yù)測(cè)高血壓的患病風(fēng)險(xiǎn),另通過增加隨機(jī)噪聲,利用平均基尼系數(shù)(Giniindex,GI)下降程度衡量單個(gè)輸入變量(特征)對(duì)預(yù)測(cè)結(jié)局的重要性,GI下降越多說明相應(yīng)變量越重要[3]。將所有樣本的結(jié)局分為兩類,即患高血壓和不患高血壓,特征j在決策樹節(jié)點(diǎn)m中的重要性,即節(jié)點(diǎn)m分枝前后GI的化量,其中節(jié)點(diǎn)m的GIm定義為:

      其中pm1和pm2分別為節(jié)點(diǎn)m中第一類和第二類樣本所占比例,特征j在隨機(jī)森林中所有決策樹的所有節(jié)點(diǎn)中的重要性之和經(jīng)過歸一化后,即為特征j基于Gini系數(shù)的重要性。

      1.2.3支持向量機(jī) ?采用支持向量機(jī)(support vector machine,SVM)常用的高斯核函數(shù)進(jìn)行分析:

      k(x,y)=exp(-x-y2/2×σ2)(2)

      1.2.4模型性能的評(píng)價(jià) ?預(yù)測(cè)模型的性能評(píng)價(jià)指標(biāo)主要有準(zhǔn)確率、精確率、召回率、F1值和ROC曲線下面積。在二分類問題下,一個(gè)預(yù)測(cè)可能產(chǎn)生4種不同的結(jié)果,即真陽(yáng)性(true positive,TP)、真陰性(true negative,TN)、假陽(yáng)性(false positive,F(xiàn)P)和假陰性(false negative,F(xiàn)N)。4種評(píng)價(jià)指標(biāo)的計(jì)算方法如下:準(zhǔn)確率:Acc=(TP+TN)/(TP+TN+FP+FN);精確率:Precision=TP/(TP+FP);召回率:Recall=TP/(TP+FN);F1值:F1=2Precision×Recall/(Precision+Recall)。利用ROC曲線下面積[4]綜合評(píng)價(jià)預(yù)測(cè)模型的性能。

      1.3模型實(shí)現(xiàn)及流程 ?在獲得預(yù)處理數(shù)據(jù)后,將其按照7∶3的比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集,將訓(xùn)練集送入上述分類器中進(jìn)行訓(xùn)練,獲得有效模型后,用測(cè)試集檢測(cè)模型性能。研究流程見圖1。

      2結(jié)果

      2.1數(shù)據(jù)基本情況 ?原始數(shù)據(jù)經(jīng)過處理后,樣本量為196554,保留了21個(gè)特征變量。高血壓患病情況以及患者其他特征見表1。

      數(shù)據(jù)進(jìn)行疾病預(yù)測(cè)研究的價(jià)值。隨機(jī)森林是一種基于決策樹的集成學(xué)習(xí)算法,它將多棵決策樹組合起來(lái),因此性能通常優(yōu)于單棵決策樹。連巧齡等[9]利用決策樹模型探究社區(qū)老年人高血壓患病狀況及其影響因素,結(jié)果顯示決策樹預(yù)測(cè)類別與實(shí)際類別的符合率為74.0%,靈敏度為71.8%,特異度為78.3%,ROC曲線下的面積為0.750。本研究中隨機(jī)森林的預(yù)測(cè)模型的符合率為85.00%,ROC曲線下面積達(dá)0.929。支持向量機(jī)模型是一種統(tǒng)計(jì)學(xué)習(xí)模型,適用于高維特征空間的分類問題。本研究中支持向量機(jī)模型的準(zhǔn)確率可達(dá)87.00%,ROC曲線下面積達(dá)0.932,高于隨機(jī)森林和Logistic回歸模型,表現(xiàn)出了優(yōu)異的預(yù)測(cè)性能。由此可知,患病風(fēng)險(xiǎn)的預(yù)測(cè)效果與采用模型有關(guān),特別是針對(duì)大規(guī)模醫(yī)療健康數(shù)據(jù),選擇適用于具體預(yù)測(cè)任務(wù)的預(yù)測(cè)模型至關(guān)重要。

      郭明賢等[10]研究發(fā)現(xiàn),農(nóng)村老年原發(fā)性高血壓的發(fā)生與超重、高鹽飲食、慢性病、文化程度等可控制因素密切相關(guān),也與家族遺傳不可控制因素相關(guān)。楊靜等[8]研究發(fā)現(xiàn),老年人群BMI、腰圍、腰高比、內(nèi)臟脂肪指數(shù)和身體圓潤(rùn)指數(shù)水平增加會(huì)提高高血壓發(fā)病風(fēng)險(xiǎn)。連巧齡等[9]研究發(fā)現(xiàn),肥胖、腹型肥胖、月收入3000元以上、吸煙、飲酒、不參與鍛煉、嗜咸飲食、A型性格、有高血壓家族史是福州市社區(qū)老年人群高血壓患病的危險(xiǎn)因素。本研究利用隨機(jī)森林模型中的基尼系數(shù)計(jì)算特征的重要性,結(jié)果顯示冠心病、年齡、糖尿病和教育水平在預(yù)測(cè)高血壓患病風(fēng)險(xiǎn)中具有重要作用;現(xiàn)教育水平、職業(yè)類型、其他慢病、婚姻情況、體重指數(shù)、父親患有高血壓、母親患有高血壓、飲酒、飲食偏咸、吸煙、鍛煉在預(yù)測(cè)高血壓患病風(fēng)險(xiǎn)中具有一般作用;性別、飲食偏素、飲食偏甜、飲食偏油、飲食偏辣在預(yù)測(cè)高血壓患病風(fēng)險(xiǎn)中作用不大,可見文化程度低、合并冠心病、糖尿病和其他慢病、有家族史和老年人為高血壓易患人群,應(yīng)提醒患者及家屬和醫(yī)護(hù)人員在BMI、飲酒和飲食習(xí)慣(偏咸)方面加以注意和控制。

      綜上所述,基于支持向量機(jī)的預(yù)測(cè)模型的性能最為優(yōu)異,此外文化程度低、合并患有冠心病、糖尿病和其他慢病、有家族史和老年人為高血壓易患人群,針對(duì)此類人群應(yīng)重點(diǎn)關(guān)注體重指數(shù)、飲酒和飲食習(xí)慣(偏咸)方面。

      參考文獻(xiàn):

      [1]中國(guó)高血壓防治指南修訂委員會(huì),高血壓聯(lián)盟(中國(guó)),中華醫(yī)學(xué)會(huì)心血管病學(xué)分會(huì)中國(guó)醫(yī)師協(xié)會(huì)高血壓專業(yè)委員會(huì), 等.中國(guó)高血壓防治指南( 2018年修訂版)[J].中國(guó)心血管雜志,2019,24(1):24-56.

      [2]王鴻.原發(fā)性高血壓的病因研究進(jìn)展[J].中國(guó)醫(yī)藥指南,2014(21):85-86.

      [3]黎成.基于隨機(jī)森林和ReliefF的致病SNP識(shí)別方法[D].西安電子科技大學(xué),2014.

      [4]鄒忠蘭,張愛華,楊敬源,等.肝生化指標(biāo)在燃煤型砷中毒中診斷價(jià)值ROC曲線評(píng)價(jià)[J].中國(guó)公共衛(wèi)生,2016,32(6):861-865.

      [5]劉陽(yáng),孫華東,張艷榮,等.基于支持向量機(jī)的糖尿病預(yù)測(cè)模型研究[J].哈爾濱商業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,34(1):61-65.

      [6]白江梁,張超彥,李偉,等.某醫(yī)院體檢人群糖尿病預(yù)測(cè)模型研究[J].實(shí)用預(yù)防醫(yī)學(xué),2018,25(1):116-119.

      [7]孫濤,徐秀林.基于機(jī)器學(xué)習(xí)的醫(yī)療大數(shù)據(jù)分析與臨床應(yīng)用[J].軟件導(dǎo)刊,2019(11):1-5.

      [8]楊靜,王飛,韓煦,等.人體測(cè)量學(xué)指標(biāo)與老年人群高血壓發(fā)病風(fēng)險(xiǎn)的前瞻性隊(duì)列研究[J].中華預(yù)防醫(yī)學(xué)雜志,2019,53(3):272-278.

      [9]連巧齡.基因與環(huán)境因素對(duì)社區(qū)老年人原發(fā)性高血壓患病狀況及控制的影響[D].福建醫(yī)科大學(xué),2015.

      [10]郭明賢,周亞東,張桂紅.陜西農(nóng)村老年高血壓病的患病率與危險(xiǎn)因素分析[J].心腦血管病防治,2015,15(4):309-311.

      收稿日期:2019-12-19;修回日期:2020-01-22

      編輯/杜帆

      猜你喜歡
      機(jī)器學(xué)習(xí)高血壓
      全國(guó)高血壓日
      高血壓用藥小知識(shí)
      這些高血壓的治療誤區(qū)你知道嗎
      如何把高血壓“吃”回去?
      高血壓,并非一降了之
      前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      中醫(yī)干預(yù)治療高血壓49例
      兴山县| 准格尔旗| 广南县| 兴海县| 怀安县| 萨嘎县| 竹山县| 崇礼县| 肥城市| 三江| 自治县| 永州市| 呼和浩特市| 保亭| 金乡县| 婺源县| 安庆市| 石屏县| 兴化市| 江达县| 东台市| 忻城县| 印江| 芦山县| 分宜县| 红河县| 浙江省| 临澧县| 和政县| 黎城县| 奉新县| 高陵县| 紫云| 瑞昌市| 潍坊市| 沂南县| 镇平县| 古田县| 南康市| 大安市| 兴城市|