基于在線醫(yī)療咨詢文本的抑郁癥癥狀短語的自動識別

2023-08-31 02:26:34聶卉吳曉燕

現(xiàn)代情報 2023年9期

關(guān)鍵詞：抑郁癥

聶卉　吳曉燕

關(guān)鍵詞：在線醫(yī)療咨詢文本；抑郁癥；語義建模；短語識別

ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１００８－０８２１．２０２３．０９．００６

〔中圖分類號〕Ｇ２０２；ＴＰ３９１〔文獻標識碼〕Ａ〔文章編號〕１００８－０８２１（２０２３）０９－００６３－１１

據(jù)世界衛(wèi)生組織報告，抑郁癥已成為全球巨大的疾病負擔(dān)，約３８％的世界人口患有不同程度的抑郁癥［１］。要降低疾病危害，患者盡早接受醫(yī)療救助至關(guān)重要。“線上問診” 打破了傳統(tǒng)就醫(yī)模式的時空束縛，調(diào)查顯示抑郁癥病患對線上問診的接受度高達９２２４％［２］。在線問診記錄是患者與醫(yī)生的交流文本，求診者對病程、感受、狀態(tài)、情緒的陳述［３］反饋出其罹患疾病的性質(zhì)、嚴重度及對健康的影響，是疾病診斷的重要依據(jù)［４］。在真實的醫(yī)療場景中，相較其他疾病，抑郁癥診斷也主要依托量表及患者與醫(yī)生的交流記錄，因此，大規(guī)模在線問診記錄為抑郁癥研究提供了充分的數(shù)據(jù)支持。

現(xiàn)有基于互聯(lián)網(wǎng)的抑郁癥研究，主要是通過分析用戶生成內(nèi)容來預(yù)測抑郁風(fēng)險，首要任務(wù)是識別抑郁癥狀。早期研究采用詞典法，但靜態(tài)詞典不能全面覆蓋患者病況，預(yù)測精準度低；而隨后提出的有監(jiān)督機器學(xué)習(xí)則需付出人工標注成本。因此，設(shè)計一個無需標注，也能高效地從患者問診記錄中識別抑郁病癥的方案成為本研究要點。

深度學(xué)習(xí)建模技術(shù)在自然語言處理方面性能卓越。基于大規(guī)模的抑郁癥在線咨詢文本語料，本研究引入深度學(xué)習(xí)建模技術(shù)，采用無監(jiān)督機器學(xué)習(xí)策略構(gòu)建癥狀識別模型，并通過抑郁癥典型特征分析、抑郁癥風(fēng)險預(yù)測兩個實際應(yīng)用檢驗癥狀識別模型的實效。本研究工作旨為輔助醫(yī)生診斷、提高醫(yī)療平臺問診服務(wù)效率、增強抑郁癥篩查和防控能力提供技術(shù)參考。

１文獻綜述

１.１醫(yī)學(xué)術(shù)語與疾病癥狀的識別研究

與疾病有關(guān)的醫(yī)學(xué)術(shù)語的識別與表示是醫(yī)學(xué)自然語言處理領(lǐng)域的經(jīng)典問題［５］。早期研究主要采用詞典和規(guī)則匹配法，如ＭａｔｈｅｎｙＭＥ等［６］基于關(guān)鍵字和本體規(guī)則，從臨床記錄中自動抽取傳染性疾病的癥狀。ＢｙｒｄＲＪ等［７］借助詞典與語法分析，從病人記錄中提取心力衰竭的描述。基于詞典和規(guī)則的方法完全依靠醫(yī)學(xué)領(lǐng)域詞典和專家，實際應(yīng)用中普適性較差［８］。隨后，學(xué)者們提出了有監(jiān)督機器學(xué)習(xí)方案，因為有學(xué)習(xí)過程，有監(jiān)督學(xué)習(xí)擺脫了外部資源的制約，可應(yīng)用于不同場景。用有監(jiān)督機器學(xué)習(xí)抽取醫(yī)學(xué)術(shù)語的３個主流算法是支持向量機（ＳＶＭ）、隱馬爾可夫模型（ＨＭＭ）和條件隨機場（ＣＲＦ），ＣＲＦ應(yīng)用最廣［９］。葉楓等［１０］以語言符號、詞性、構(gòu)詞模式、詞邊界、上下文為特征，采用ＣＲＦ識別電子病歷中包括癥狀在內(nèi)的醫(yī)學(xué)命名實體。ＦｏｒｓｙｔｈＡＷ等［１１］用ＣＲＦ從乳腺癌患者的診療記錄中提取疾病癥狀并判斷性質(zhì)。相較詞典匹配，有監(jiān)督機器學(xué)習(xí)方案顯著提升了術(shù)語識別的查全率，整體表現(xiàn)更優(yōu)。但有監(jiān)督機器學(xué)習(xí)算法的表現(xiàn)很大程度上取決于特征工程，存在不穩(wěn)定性。

近年，深度學(xué)習(xí)為醫(yī)學(xué)領(lǐng)域的自然語言處理任務(wù)提供了富有潛力的方案。深度學(xué)習(xí)框架不考慮特征工程，以分布式向量表示醫(yī)學(xué)文本，并應(yīng)用于疾病診斷。如ＧｕｏＤ等［１２］先利用ＭｅｔａＭａｐ從病案記錄中抽取癥狀，然后用詞向量表示癥狀，再運用深度學(xué)習(xí)框架（Ｂｉ－ＬＳＴＭ）預(yù)測疾病發(fā)生風(fēng)險。ＬｕｏＸ等［１３］同樣先用ＭｅｔａＭａｐ提取病案中有關(guān)體征和生理的醫(yī)學(xué)術(shù)語，再整合用藥等信息，構(gòu)建咳嗽診斷模型，該研究對比了多種機器學(xué)習(xí)方案，基于ＢＥＲＴ預(yù)訓(xùn)練模型的診斷模型表現(xiàn)最佳。

１.２抑郁癥狀的提取與應(yīng)用研究

作為面向特定疾病的醫(yī)學(xué)癥狀識別研究，抑郁癥癥狀識別遵循同樣的技術(shù)路線。ＫａｒｍｅｎＣ等［１４］根據(jù)抑郁癥量表獲取癥狀術(shù)語種子，然后利用詞典拓展同義詞，生成癥狀詞典。Ｃａｖａｚｏｓ－ＲｅｈｇＰＡ等［１５］直接依據(jù)《精神障礙診斷與統(tǒng)計手冊》（ＤＳＭ－５），對Ｔｗｉｔｔｅｒ推文中的抑郁癥狀進行手動編碼，然后統(tǒng)計出與重度抑郁癥相關(guān)的癥狀描述。ＷｕＣ等［１６］利用電子健康記錄檢測重度抑郁癥的典型癥狀，癥狀識別采用了ＣＲＦ。深度學(xué)習(xí)技術(shù)則越來越多地在最新的研究文獻中出現(xiàn)，ＵｄｄｉｎＭＺ等［１７］通過公共信息網(wǎng)獲取用戶生成內(nèi)容，根據(jù)醫(yī)生列出的抑郁癥狀為用戶建模，再運用深度學(xué)習(xí)框架ＲＮＮ預(yù)測用戶的抑郁癥傾向。ＹａｏＸ等［１８］運用深度學(xué)習(xí)框架Ａｔｔ－ＢｉＬＳＴＭ構(gòu)建文本分類器，對抑郁癥社區(qū)中用戶提及的抑郁癥狀進行分類整理，再通過網(wǎng)絡(luò)分析挖掘癥狀間的關(guān)聯(lián)。

包括深度學(xué)習(xí)，應(yīng)用有監(jiān)督機器學(xué)習(xí)算法，移植性和標注成本是兩個不可回避的問題。面對大規(guī)模語料，有學(xué)者嘗試了無監(jiān)督機器學(xué)習(xí)策略，ＭａＬ等［１９］使用詞向量表示癥狀，用聚類技術(shù)抽取抑郁癥狀。ＵｓｍａｎＡ等［２０］首先構(gòu)建基于詞向量的情感詞典，再運用深度聚類算法分析患者發(fā)布文本，以可視化方式呈現(xiàn)患者文本中的情緒?？梢?，用無監(jiān)督機器學(xué)習(xí)算法識別疾病癥狀同樣可行［２１］。相關(guān)研究發(fā)現(xiàn)對于患者個性化的陳述，癥狀表達存在句法和語義上的變異性［４］，常無法直接對應(yīng)單一詞項，短語的長度靈活，表達語義豐富，顯然更適于描述疾病癥狀。

綜上，無監(jiān)督機器學(xué)習(xí)的普適性為在大規(guī)模語料集上快速檢測抑郁癥風(fēng)險提供了新的技術(shù)選擇，短語形式的癥狀描述則能更準確地表達語義，因此，采用無監(jiān)督機器學(xué)習(xí)策略，基于語義建模，實現(xiàn)短語級抑郁癥狀的自動識別值得探究。

２研究設(shè)計

數(shù)據(jù)層面，基于求診者的問診記錄建立語料庫，是本研究的首要任務(wù)。問診記錄中的“疾病描述”部分包含大量抑郁癥狀描述，本研究從中提取這些癥狀描述，用于構(gòu)建患者模型，并用于抑郁癥典型癥狀分析和抑郁癥風(fēng)險預(yù)測兩個任務(wù)。在原始語料中，沒有字段明確標識病況（是否是確診患者以及抑郁的程度），病況從問診記錄中獲取，并據(jù)此生成研究語料集。方法層面，識別癥狀短語是研究重點，主要涉及短語抽取與語義建模兩個任務(wù)。對此，本研究采用無監(jiān)督機器學(xué)習(xí)策略并引入深度學(xué)習(xí)模型表示癥狀。應(yīng)用層面，在抑郁癥典型癥狀分析和抑郁癥風(fēng)險預(yù)測兩個具體任務(wù)上檢測癥狀識別算法的實效。依據(jù)上述設(shè)計，將整個研究分為三部分，如圖１所示：語料庫構(gòu)建，抑郁癥狀短語自動識別及應(yīng)用，核心是癥狀短語的識別算法。

３研究方法

研究采用無監(jiān)督機器學(xué)習(xí)方案實現(xiàn)抑郁癥狀短語的自動識別。算法基本思想是，基于抑郁癥量表先構(gòu)建癥狀種子詞庫，再從“疾病描述” 文本提取有關(guān)癥狀的敘述（短語形式）作為癥狀候選項，計算候選項與種子間的語義相似度，據(jù)此判定候選短語是否為抑郁癥癥狀，并明確癥狀的類別。算法核心是如何對短語進行恰當(dāng)?shù)恼Z義表示，本研究選擇了Ｗｏｒｄ２Ｖｅｃ、Ｄｏｃ２Ｖｅｃ和Ｓｅｎｔｅｎｃｅ－ＢＥＲＴ３種語言模型，通過數(shù)據(jù)實驗從中選出最佳。整個算法包括抑郁癥癥狀種子庫構(gòu)建、候選癥狀短語提取、癥狀識別３個部分。

３.１抑郁癥癥狀種子庫構(gòu)建

抑郁癥癥狀種子是一組描述抑郁典型癥狀的詞項或短語，是診斷患者抑郁的重要依據(jù)。臨床檢測中，患者需要填寫抑郁測試量表，醫(yī)生據(jù)此了解其感知、認知、生理、行為等方面的狀態(tài)，量表題項中有針對癥狀的規(guī)范表達。例如，貝克抑郁量表ＢＤＩ－Ⅱ量表的題項“我比之前睡眠過少” 中“睡眠過少” 就是抑郁癥“睡眠障礙” 的典型癥狀。

研究首先依據(jù)國際疾病分類ＩＣＤ－１０（Ｉｎｔｅｒｎａ?ｔｉｏｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎｏｆＤｉｓｅａｓｅｓ，ＩＣＤ）體系標準診斷中的癥狀類別建立抑郁癥癥狀分類體系，再按分類體系從量表題項中梳理出表述癥狀的代表性短語或詞項，即癥狀種子。研究共梳理了１０個臨床心理學(xué)常用量表，包括貝克抑郁量表Ⅱ（ＢＤＩ－Ⅱ）、抑郁癥ＤＳＭ－ＩＶ的診斷標準、抑郁癥診斷標準ＩＣＤ－１０、流行病學(xué)研究中心抑郁量表（ＣＥＳ－Ｄ）、老年抑郁量表（ＧＤＳ）、漢密爾頓抑郁量表（ＨＡＭ－Ｄ）、蒙哥馬利－阿斯伯格抑郁量表（ＭＡＤＲＳ）、Ｚｕｎｇ抑郁自評量表（ＳＤＳ）、ＤＳＭ－５對抑郁癥的診斷標準、ＰＨＱ－９抑郁癥篩查量表。將從量表中提取的癥狀種子映射到癥狀分類體系中，形成癥狀種子庫。如表１所示，癥狀種子庫含有８６個種子詞，對應(yīng)１０類抑郁癥典型癥狀。

３.２候選癥狀短語提取

候選短語提取在開源漢語語言平臺ＨａｎＬＰ（ｈｔ?ｔｐｓ：／／ｗｗｗ．ｈａｎｌｐ．ｃｏｍ／）［２２］上實現(xiàn)。該平臺在中文自然語言處理領(lǐng)域有廣泛應(yīng)用，提供分詞、詞性標注、命名實體識別、短語識別等基本語言處理功能，其中，短語識別基于互信息與信息熵實現(xiàn)。研究利用該平臺從“疾病描述” 文本中抽取短語，并對組成短語的詞項進行詞性標注，將含有動詞（包括動詞ｖ、動詞性慣用語ｖｌ和不及物動詞ｖｉ）、名詞（包括名詞ｎ、名動詞ｖｎ、專有名詞ｎｚ）和形容詞（包括形容詞ａ和名形詞ａｎ）的短語作為候選癥狀短語，短語抽取效果如表２所示?？梢钥闯?，候選短語中有大量與抑郁癥癥狀有關(guān)的敘述，后續(xù)識別任務(wù)即通過語義計算確立候選短語與抑郁癥典型癥狀間的關(guān)系。

３.３癥狀識別

要確立候選短語與抑郁癥典型癥狀的語義關(guān)聯(lián)，語義模型的選擇是關(guān)鍵。研究選用了Ｗｏｒｄ２Ｖｅｃ、Ｄｏｃ２Ｖｅｃ和Ｓｅｎｔｅｎｃｅ－ＢＥＲＴ３個語義模型對抑郁癥癥狀短語向量化。Ｗｏｒｄ２Ｖｅｃ是經(jīng)典的詞向量模型，成功運用在各種自然語言分析任務(wù)中，完成了從詞袋到詞向量語義特征表示的跨越［２３］。Ｄｏｃ２Ｖｅｃ［２４］是Ｗｏｒｄ２Ｖｅｃ的文檔級模型?？紤]到本研究中，抑郁癥癥狀采用短語表達，Ｄｏｃ２Ｖｅｃ模型可能更合理。

ＢＥＲＴ是目前自然語言處理領(lǐng)域最流行的語言模型，它通過在大規(guī)模語料上采用ＮＳＰ（ＮｅｘｔＳｅｎ?ｔｅｎｃｅＰｒｅｄｉｃｔｉｏｎ）機制和掩碼語言模型（ＭａｓｋｅｄＬａｎ?ｇｕａｇｅＭｏｄｅｌ，ＭＬＭ）做預(yù)訓(xùn)練任務(wù)，能夠使模型學(xué)到豐富的語義知識，具備理解文本深層語義的能力［２５］。盡管如此，在句子對回歸等任務(wù)（如文本相似度計算，語義聚類）上，原生ＢＥＲＴ需將句子拼接后輸入模型，再通過帶有自注意機制Ｓｅｌｆ－ａｔｔｅｎ?ｔｉｏｎ的ｔｒａｎｓｆｏｒｍｅｒ網(wǎng)絡(luò)進行預(yù)測，這導(dǎo)致巨大的計算開銷，在語義相似度搜索等任務(wù)上的表現(xiàn)并不理想。為此，ＲｅｉｍｅｒｓＮ等［２６］對ＢＥＲＴ結(jié)構(gòu)進行修改，他們使用孿生網(wǎng)絡(luò)或３胞胎網(wǎng)絡(luò)（ＳｉａｍｅｓｅａｎｄＴｒｉｐ?ｌｅｔＮｅｔｗｏｒｋ）生成維度固定的語句向量，語義相近的語句，語句向量的空間距離接近，通過余弦相似度、歐式距離計算能夠快速找到語義相近的語句，這就是Ｓｅｎｔｅｎｃｅ－ＢＥＲＴ的構(gòu)建原理。相較原生ＢＥＲＴ，Ｓｅｎｔｅｎｃｅ－ＢＥＲＴ在不影響準確性的同時，能夠大幅提升計算效率（計算余弦相似度大概為０.０１秒），特別適用于文本相似度計算、文本聚類等無監(jiān)督機器學(xué)習(xí)任務(wù)［２７］。

Ｓｅｎｔｅｎｃｅ－ＢＥＲＴ的結(jié)構(gòu)如圖２所示。兩個語句ＳｅｎｔｅｎｃｅＡ和ＳｅｎｔｅｎｃｅＢ通過共享參數(shù)的ＢＥＲＴ模型生成它們的字向量（ＴｏｋｅｎＥｍｂｅｄｄｉｎｇ），再傳入池化層（Ｐｏｏｌｉｎｇ）進行平均池化操作，得到固定維度的句向量ｕ和ｖ。然后計算ｕ和ｖ的余弦相似度Ｃｏｓ－ｓｉｍｉｌａｒｉｔｙ（ｕ，ｖ），并輸出。微調(diào)過程中均方誤差（ＭｅａｎＳｑｕａｒｅｄＥｒｒｏｒ，ＭＳＥ）為損失函數(shù)。在Ｒｅｉ?ｍｅｒｓＮ等［２６］的實驗中，文本語義相似度計算的評測語料是語義文本相似計算（ＳｅｍａｎｔｉｃＴｅｘｔｕａｌＳｉｍｉ?ｌａｒｉｔｙ，ＳＴＳ）任務(wù)的數(shù)據(jù)，這些數(shù)據(jù)是成對帶類標的語句，類標標識了語句間的關(guān)系，取值范圍為０～５。評測實驗直接用訓(xùn)練好的模型計算語句對的相似度，然后通過皮爾曼等級相關(guān)系數(shù)評測模型優(yōu)劣，結(jié)果顯示，相較原生ＢＥＲＴ，Ｓｅｎｔｅｎｃｅ－ＢＥＲＴ表現(xiàn)最佳。

本研究要計算種子詞與候選癥狀短語之間的語義相似度，分別采用了Ｗｏｒｄ２Ｖｅｃ、Ｄｏｃ２Ｖｅｃ和Ｓｅｎｔｅｎｃｅ－ＢＥＲＴ３個模型對候選癥狀短語和種子詞向量化，再計算候選癥狀短語與每類種子詞的語義相似度，見式（１）。其中，ｔ為候選癥狀短語向量，Ｃ_ｉ對應(yīng)癥狀類ｉ，為候選癥狀短語ｔ與種子詞ｓ的余弦相似度。依據(jù)式（１）分別計算候選詞ｔ與每個癥狀類Ｃ_ｉ（ｉ＝１，２，…，１０）的相似度，若相似度的最大值滿足閾值設(shè)定，指定相似度最大的類Ｃ_Ｍａｘ為候選癥狀ｔ的類別。

４實驗與結(jié)果

４.１語料庫構(gòu)建

４.１.１數(shù)據(jù)源與數(shù)據(jù)采集

“好大夫在線” （ｈｔｔｐｓ：／／ｗｗｗ．ｈａｏｄｆ．ｃｏｍ／）是國內(nèi)領(lǐng)先的在線醫(yī)療平臺。據(jù)最新統(tǒng)計，該平臺收錄了國內(nèi)１萬多家正規(guī)醫(yī)院的８９萬名醫(yī)生的信息，累計服務(wù)量超過７９００萬人次［２８］。問診記錄規(guī)模在國內(nèi)在線醫(yī)療平臺中名列前茅?；谠撈脚_的數(shù)據(jù)質(zhì)量及在醫(yī)療服務(wù)領(lǐng)域的權(quán)威性，本研究將其作為數(shù)據(jù)源，采集了“好大夫在線” 近３年問診記錄百萬余條，其中３６１６４７條記錄來自精神科、心理咨詢科和神經(jīng)內(nèi)科，從中篩選出抑郁癥醫(yī)療咨詢記錄７１６５４條。每條記錄包含疾病描述、疾病名、患者性別、年齡、病程等字段。其中， “疾病描述”為文本型字段，是患者面對醫(yī)生針對個人病情的詳細陳述，為患者問診的主要內(nèi)容。本研究選擇該字段內(nèi)容提取患者的病征、情緒、心理狀態(tài)和行為，數(shù)據(jù)采集樣例如圖３所示。

４.１.２抑郁癥預(yù)測評測語料

抑郁癥預(yù)測評測語料用于檢驗抑郁癥人群的自動識別效果。研究采用關(guān)鍵詞匹配策略從問診記錄中提取確診信息，并對語料做標注。具體步驟如下：

首先對“疾病描述” 的內(nèi)容進行分詞，剔除單個字詞語、數(shù)字、標點符號及過短（文本長度＜１８）記錄，獲得抑郁癥問診記錄７０７０５條。算法遍歷每條記錄內(nèi)容，依據(jù)匹配規(guī)則，提取確診信息。例如： “…今天去了北京安定醫(yī)院診療。做了心理評估，結(jié)果為輕度抑郁?！?，由此斷定問診者患“輕度” 抑郁癥，將其問診記錄標注為“輕度”。完成初始標注后，進行抽樣檢查，發(fā)現(xiàn)部分確診情況只是患者推測，如“感覺有輕／中／重度抑郁”，故設(shè)定“非確診” 規(guī)則對初標注語料進行二次梳理與核查，最終獲得帶抑郁癥程度標記的語料８３９１條，其中，重度抑郁３０９０條，中度抑郁３０１６條，輕度抑郁問診記錄２２８５條。另外，從非精神類疾病的問診記錄中隨機抽?。?７９７條，歸為“非抑郁”， “非抑郁” 疾病涵蓋多種疾病，這些疾病在生理層面與抑郁癥可能存在類似癥狀，如“頭痛”“乏力”，但精神情志層面與抑郁癥應(yīng)有顯著差異。將這類問診記錄與抑郁癥問診記錄進行整合，分成“輕度、中度、重度、非抑郁” ４組，共計１１１８８條，語料命名為ＤＡＴＡＳＥＴ１。

４.１.３抑郁癥癥狀識別評測語料

研究采用Ｗｏｒｄ２Ｖｅｃ、Ｄｏｃ２Ｖｅｃ和Ｓｅｎｔｅｎｃｅ－ＢＥＲＴ３個語義模型表示癥狀短語，抑郁癥癥狀識別語料用于評測３個模型的性能表現(xiàn)。語料標注采用人工方式，從抑郁癥患者的７０７０５條問診記錄中隨機抽?。福埃?條，對照抑郁癥癥狀分類體系，如表２所示，對“疾病描述” 文本中提及的候選癥狀短語進行人工歸類，示例如表３所示。形成一個小規(guī)模的評測語料集ＤＡＴＡＳＥＴ２。

４.２抑郁癥癥狀識別模型

采用４.１.３的癥狀短語識別方法，在ＤＡＴＡ?ＳＥＴ２上進行實驗。Ｗｏｒｄ２Ｖｅｃ和Ｄｏｃ２Ｖｅｃ基于３６１６４７條來自精神科、心理咨詢科、神經(jīng)內(nèi)科的問診記錄構(gòu)建。３個語言模型的參數(shù)設(shè)置如表４所示。另外，依據(jù)算法，在確定候選短語ｔ的癥狀類別Ｃ時，要求ｔ與Ｃ的相似度超過閾值ε。研究將ε 作為參數(shù)，通過實驗確定，如圖４（ａ）、圖４（ｂ）所示。

評測指標是識別１０類癥狀短語的準確率、召回率和Ｆ１值的微平均值。如圖４（ａ）所示，模型Ｗｏｒｄ２Ｖｅｃ和Ｓｅｎｔｅｎｃｅ－ＢＥＲＴ的表現(xiàn)優(yōu)于Ｄｏｃ２Ｖｅｃ。當(dāng)ε∈［０.５，０. ６］時，Ｗｏｒｄ２Ｖｅｃ和Ｓｅｎｔｅｎｃｅ－ＢＥＲＴ的Ｆ１值接近，分值最高。細分ε 的實驗結(jié)果見圖４（ｂ）。整體觀察，當(dāng)ε ＝０.５１時，Ｓｅｎｔｅｎｃｅ－ＢＥＲＴ的表現(xiàn)最好，Ｆ１值為７０.２７％，略優(yōu)于Ｗｏｒｄ２Ｖｅｃ的最好表現(xiàn)（Ｆ１＝７０.０９％）。準確率指標上，Ｓｅｎ?ｔｅｎｃｅ－ＢＥＲＴ最好達到７３.８５％，高Ｗｏｒｄ２Ｖｅｃ３.７６個百分點，表明Ｓｅｎｔｅｎｃｅ－ＢＥＲＴ的錯誤率更低。但召回率指標上，Ｓｅｎｔｅｎｃｅ－ＢＥＲＴ為６７.０３％，低于Ｗｏｒｄ２Ｖｅｃ（召回率７０.０９％）。權(quán)衡兩個模型，研究認為對于疾病癥狀識別任務(wù)，在語料相對充足的前提下，準確率更重要。因此，后續(xù)采用Ｓｅｎｔｅｎｃｅ－ＢＥＲＴ表示短語，閾值ε 設(shè)定為０.５１。因該評測語料規(guī)模相對較小，Ｓｅｎｔｅｎｃｅ－ＢＥＲＴ癥狀識別算法的實效在抑郁癥患者典型特征分析和抑郁預(yù)測兩個任務(wù)上將做進一步檢測。

４.３抑郁癥典型癥狀分析

將４.２的抑郁癥癥狀識別算法應(yīng)用于ＤＡＴＡ?ＳＥＴ１。針對不同抑郁程度的病人，抽取“疾病描述” 中的癥狀短語進行統(tǒng)計。圖５展示了“輕度，中度，重度” ３組患者問診記錄中癥狀短語的分布情況?？傮w觀察，嚴重困擾抑郁癥患者的３類癥狀分別是心境低落（類１）、睡眠障礙（類９）和精力下降（類３），３類癥狀的出現(xiàn)頻率顯著高于其他癥狀；而不同抑郁程度的患者，３類癥狀出現(xiàn)頻率差異不大，說明心境低落、睡眠障礙和精力下降是抑郁患者的共有表現(xiàn)。但圖４揭示出，隨著患者病情加重，興趣和愉快感喪失（類２）、自傷或自殺觀念行為（類８）、食欲下降（類１０）癥狀的提及率逐步上升，尤其輕度、中度和重度患者問診記錄中有關(guān)“自傷或自殺觀念行為（類８）” 的短語的提及率有顯著差異，說明“自傷或自殺觀念行為” 的出現(xiàn)是抑郁嚴重度診斷的重要依據(jù)，嚴重抑郁伴隨著極端行為的發(fā)生，這一結(jié)論與臨床檢測量表的測度依據(jù)一致，從一定程度上檢驗了癥狀識別算法的效力。

４.４根據(jù)癥狀識別抑郁人群

該實驗通過建立抑郁癥預(yù)測模型明確抑郁癥人群的典型特征，進一步檢驗本文提出的癥狀識別算法的實效。根據(jù)１０類癥狀創(chuàng)建１０個特征變量，若“疾病描述” 中提及了某類癥狀，則對應(yīng)的特征變量賦１，否則為０，即將病情描述文本轉(zhuǎn)換為１０維的０／１矢量，以癥狀矢量為輸入，預(yù)測問診者是否為確診病人。

預(yù)測模型選用了分類性能優(yōu)異，并能夠進行特征重要性分析的ＸＧＢｏｏｓｔ集成樹算法［３１］。以ＤＡＴＡ?ＳＥＴ１為實驗數(shù)據(jù)，按１∶４劃分為測試集和訓(xùn)練集。在訓(xùn)練集上采用五折交叉驗證的網(wǎng)格搜索法確定重要參數(shù)，參數(shù)取值及最優(yōu)參數(shù)結(jié)果如表５所示，采用最優(yōu)參數(shù)模型對測試集的問診記錄做預(yù)測。結(jié)果如表６所示，二分類模型的Ｆ１值達到７５.３％，精確率和召回率接近，均在７５％以上，模型整體表現(xiàn)較理想。對抑郁患者的識別能夠達到精確率（７８.８１％），高于非抑郁患者（７２.２９％），說明基于癥狀特征構(gòu)建的預(yù)測模型能較好區(qū)分抑郁與非抑郁癥患者。

ＸＧＢｏｏｓｔ同時計算出１０類癥狀特征變量的相對重要度。特征重要度反映各特征項在預(yù)測任務(wù)中的貢獻，據(jù)此也可揭示抑郁癥人群的典型癥狀。結(jié)果如圖６所示，心境低落（類１）、睡眠障礙（類９）、自傷或自殺的觀念或行為（類８）３類癥狀是診斷抑郁癥的重要因素，基于ＸＧＢｏｏｓｔ的特征重要度排名與抑郁癥典型癥狀特征分析結(jié)果一致。心境低落（類１）、睡眠障礙（類９）是患者提及率最高的癥狀，特別是心境低落（類１），其重要度遠高出其他９個變量。這兩個癥狀也是抑郁癥診斷標準ＩＣＤ－１０７列出的抑郁癥主要特征。自傷或自殺的觀念或行為（類８）是區(qū)分抑郁程度的重要線索，同樣也是臨床判斷病患病況的關(guān)鍵信息。這些與臨床抑郁癥診斷標準相吻合結(jié)論，間接驗證了本文抑郁癥狀自動識別算法的有效性。

５研究結(jié)論與局限

５.１研究結(jié)論

本研究利用心理學(xué)領(lǐng)域的抑郁癥測度量表，運用自然語言處理及深度學(xué)習(xí)建模技術(shù)，以無監(jiān)督機器學(xué)習(xí)方法實現(xiàn)了基于患者在線問診記錄的抑郁癥癥狀的自動抽取?；诔槿〉募膊“Y狀，對不同抑郁程度的患者進行了典型癥狀分析，并實現(xiàn)抑郁癥人群的自動檢測，檢驗了本文抑郁癥癥狀識別算法的有效性。主要結(jié)論歸結(jié)為以下兩點：

方法層面，在評測語料上，本文提出算法的癥狀識別精度為７３.８５％。應(yīng)用該算法分析抑郁癥患者典型特征、識別抑郁癥人群，結(jié)果與臨床診斷標準基本一致，驗證了算法的可行性與合理性。癥狀短語的語義建模實驗比較了３個深度學(xué)習(xí)模型，Ｗｏｒｄ２Ｖｅｃ、Ｄｏｃ２Ｖｅｃ和Ｓｅｎｔｅｎｃｅ－ＢＥＲＴ，具有深層次語義表達能力Ｓｅｎｔｅｎｃｅ－ＢＥＲＴ整體表現(xiàn)最佳，表明強化短語的語義表示，用無監(jiān)督的機器學(xué)習(xí)方案也能夠有效識別疾病癥狀。

應(yīng)用層面，從患者問診記錄中的“疾病描述”中提取抑郁癥癥狀，應(yīng)用描述統(tǒng)計和集成樹算法ＸＧＢｏｏｓｔ對抑郁癥群體的典型癥狀進行分析。描述統(tǒng)計得出的結(jié)論是，心境低落、睡眠障礙和精力降低是抑郁癥患者的共有癥狀，興趣和愉快感喪失、自傷或自殺觀念行為、食欲下降是中／重度病患的典型表現(xiàn)。抑郁癥人群的預(yù)測實驗則揭示，心境低落、睡眠障礙、自傷或自殺的觀念或行為是診斷抑郁癥的３個主要依據(jù)。這些依據(jù)在線醫(yī)療文本數(shù)據(jù)得出的結(jié)論與臨床心理學(xué)的抑郁癥診斷標準相吻合，說明本方案在實際應(yīng)用中能為醫(yī)生快速診斷病情提供有價值的參考，而檢測手段的自動化將有助于提升醫(yī)療平臺對危重患者的響應(yīng)能力，采取有效的干預(yù)措施，降低病癥帶給人類健康的危害。

５.２研究局限和后續(xù)研究思考

本研究有３點不足，為后續(xù)工作提供了研究思路： ①本研究重點分析醫(yī)療咨詢文本中患者疾病癥狀的顯性表達，用短語描述癥狀，盡管運用了語義模型，但語句的上下文信息并未納入模型，這可能導(dǎo)致抑郁癥的某些癥狀表述未能提取，從而對抑郁癥人群識別模型的預(yù)測精度產(chǎn)生影響。后續(xù)考慮直接利用疾病描述本文建模，基于隱性表達的特征預(yù)測抑郁癥發(fā)生風(fēng)險，并與本文模型進行對比； ②因癥狀短語的標注成本較高，癥狀識別評測語料規(guī)模偏小。本研究通過兩個下游任務(wù)檢測算法，后續(xù)將擴大評測語料的規(guī)模，進一步優(yōu)化算法； ③將癥狀提取結(jié)果應(yīng)用于檢測抑郁人群，以實現(xiàn)抑郁癥早期發(fā)現(xiàn)，而抑郁嚴重程度預(yù)測將有助于實施個性化治療，這將成為未來的另一探索方向。