• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于醫(yī)療臨床數(shù)據(jù)的兩階段專業(yè)級大語言模型微調(diào)

      2024-10-14 00:00:00孫麗萍童子龍錢乾陸鑫濤凌晨方誠湯其宇蔣曉
      計算機(jī)應(yīng)用研究 2024年10期

      摘 要:通用大語言模型(large language model,LLM)缺乏對專業(yè)領(lǐng)域知識理解的深度和廣度,對專業(yè)領(lǐng)域問題回答的準(zhǔn)確度不夠,常常產(chǎn)生幻覺,阻礙了大語言模型的商業(yè)應(yīng)用落地。因此,基于專業(yè)領(lǐng)域特有數(shù)據(jù)提高大型語言模型的專業(yè)性成為當(dāng)前大語言模型應(yīng)用落地的關(guān)鍵挑戰(zhàn)。針對通用大語言模型在特定領(lǐng)域知識理解與生成內(nèi)容專業(yè)性不夠的問題進(jìn)行了研究?;赑-Tuning v2與Freeze兩種參數(shù)高效微調(diào)方法,提出了一種專業(yè)級大語言模型的兩階段微調(diào)框架。依賴該框架與肝膽科臨床數(shù)據(jù)對ChatGLM-6B進(jìn)行微調(diào),得到一個針對肝膽??频膶I(yè)級大語言模型,命名為MedGLM.H。根據(jù)實(shí)驗(yàn)顯示,微調(diào)后的大語言模型對于肝膽??茊栴}的準(zhǔn)確率從31%提升到了62%;得分率從57%提升到了73%。在進(jìn)行兩階段微調(diào)后,模型在肝膽??频膯柎鹬斜憩F(xiàn)出更高的準(zhǔn)確性與專業(yè)性,根據(jù)三名臨床醫(yī)生進(jìn)行的對話實(shí)驗(yàn),證明了微調(diào)后的模型在更專業(yè)的醫(yī)療場景中具備應(yīng)用潛力。

      關(guān)鍵詞:大語言模型;微調(diào);肝膽科;人工智能

      中圖分類號:TP391.1 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2024)10-004-2906-05

      doi:10.19734/j.issn.1001-3695.2024.03.0071

      Two-phases fine-tuning of professional large language model via clinical data

      Sun Liping1, 2, Tong Zilong3, Qian Qian3, Lu Xintao3, Ling Chen1, Fang Cheng4, Tang Qiyu4, Jiang Xiao5

      (1.Medical Instrumentation College, Shanghai University of Medicine & Health Sciences, Shanghai 201318, China; 2.School of Information Science & Technology, Fudan University, Shanghai 200433, China; 3.School of Health Sciences & Engineering, University of Shanghai for Science & Technology, Shanghai 200093, China; 4.Third Affiliated Hospital of Naval Medical University, Shanghai 200438, China; 5. 905th Hospital of PLA, Shanghai 200052, China)

      Abstract:General large language model (LLM) lacks the depth and breadth of understanding of domain-specific knowledge, resulting in insufficient accuracy in addressing domain-specific questions and often leading to illusions, which hinders the commercial deployment of large language models. Therefore, enhancing the professionalism of large language models based on domain-specific data has become a key challenge for the practical application of large language models. This study aimed to address the issue of insufficient domain-specific knowledge understanding and content professionalism of general large language models in specific domains. This paper proposed a two-stage fine-tuning framework for professional large language models based on the efficient parameter fine-tuning methods of P-Tuning v2 and Freeze. This framework, relying on clinical data from hepatobiliary specialties, fine-tuned ChatGLM-6B to obtain a professional-level large language model for hepatobiliary specialties, named MedGLM.H. According to the experiments, the fine-tuned large language model exhibited an increase in accuracy for hepatobiliary specialist questions from 31% to 62%, and the scoring rate increased from 57% to 73%. After two-phase fine-tuning, the model demonstrates higher accuracy and professionalism in hepatobiliary specialty QA. Dialogue experiments conducted with three clinical doctors confirm the application potential of the fine-tuned model in more specialized medical scenarios.

      Key words:large language model; fine-tune; hepatobiliary; artificial intelligence

      0 引言

      近期,LLM如ChatGPT[1]、Bard、ChatGLM[2]等備受矚目,它們展現(xiàn)出的對常識問題的理解能力、流暢的對話能力、上下文記憶能力、文本生成能力以及邏輯推理能力,標(biāo)志著人類邁向通用人工智能的這導(dǎo)致了在特定領(lǐng)域的應(yīng)用中存在著不準(zhǔn)確性和可信度問題[3~6]。

      特定領(lǐng)域的知識和理解對于LLM的成功應(yīng)用至關(guān)重要。舉例來說,對于醫(yī)療保健領(lǐng)域,LLM需要準(zhǔn)確理解醫(yī)學(xué)術(shù)語、診斷方法、藥物治療等內(nèi)容,以便提供準(zhǔn)確的建議或診斷。而在金融領(lǐng)域,LLM需要理解投資策略、市場分析、風(fēng)險評估等方面的知識,以支持投資決策或提供財務(wù)咨詢。因此,為了充分發(fā)揮LLM的潛力,需要針對不同領(lǐng)域進(jìn)行定制化的知識和技能培訓(xùn),從而使其能夠在特定領(lǐng)域中表現(xiàn)出專業(yè)水平。

      然而,從零開始訓(xùn)練特定領(lǐng)域的LLM是一項(xiàng)極具挑戰(zhàn)性和成本高昂的任務(wù)。這不僅需要大量的算力支持,還需要擁有深厚領(lǐng)域知識的AI算法工程師進(jìn)行指導(dǎo)和優(yōu)化。這種成本和復(fù)雜性對于許多機(jī)構(gòu)來說是難以承受的,尤其是對于小型企業(yè)或研究機(jī)構(gòu)。因此,基于通用且可靠的大型語言模型進(jìn)行微調(diào)以適應(yīng)特定領(lǐng)域的需求成為了一種更加可行和經(jīng)濟(jì)的選擇。

      通過微調(diào)通用模型,可以將其轉(zhuǎn)換為針對特定領(lǐng)域的大語言模型,從而獲得更高的準(zhǔn)確性和可信度。這種方法不僅可以節(jié)省大量的時間和資源,還可以確保模型具有足夠的靈活性,以適應(yīng)不斷變化的領(lǐng)域需求。同時,微調(diào)過程中可以通過引入領(lǐng)域?qū)<业闹R和反饋來提高模型的性能,從而進(jìn)一步增強(qiáng)其在特定領(lǐng)域的應(yīng)用能力。

      除了微調(diào)外,還可以采用其他策略來提高LLM在特定領(lǐng)域的應(yīng)用能力。例如,結(jié)合外部數(shù)據(jù)源進(jìn)行訓(xùn)練,引入領(lǐng)域?qū)<覅⑴c模型設(shè)計和評估過程,以及建立特定領(lǐng)域的知識圖譜來輔助模型理解和推理。這些策略可以進(jìn)一步增強(qiáng)模型在特定領(lǐng)域的專業(yè)性和適用性,從而提高其實(shí)際落地的可能性。

      因此,盡管LLM在通用領(lǐng)域取得了巨大的進(jìn)步,但其在特定領(lǐng)域的應(yīng)用仍然面臨諸多挑戰(zhàn)。為了充分發(fā)揮其潛力,則需要通過微調(diào)和其他策略來提升其專業(yè)性和適用性,從而實(shí)現(xiàn)在特定領(lǐng)域的商業(yè)化落地。這不僅需要技術(shù)上的創(chuàng)新和優(yōu)化,還需要跨學(xué)科的合作和領(lǐng)域?qū)<业膮⑴c,以確保模型能夠真正服務(wù)于實(shí)際需求,并為社會帶來更大的價值和影響。

      1 研究現(xiàn)狀

      1.1 醫(yī)學(xué)通用大語言模型

      醫(yī)療健康領(lǐng)域已經(jīng)出現(xiàn)一些基于通用大語言模型微調(diào)的醫(yī)學(xué)大語言模型,如德克薩斯大學(xué)西南醫(yī)學(xué)中心的Li等人[7]基于205 000條真實(shí)的醫(yī)患交流數(shù)據(jù)和ChatGPT生成的5 000條數(shù)據(jù)對LLaMA進(jìn)行微調(diào),得到ChatDoctor這一醫(yī)學(xué)通用的大語言模型。此外,上海科技大學(xué)的Xiong等人[8]利用ChatGPT和其他基于英語的醫(yī)學(xué)通用大語言模型收集了醫(yī)學(xué)對話數(shù)據(jù)庫并翻譯為中文,對清華大學(xué)開源的中文大語言模型ChatGLM-6B進(jìn)行參數(shù)高效微調(diào),得到一個醫(yī)學(xué)通用的大語言模型——DoctorGLM;哈爾濱工業(yè)大學(xué)的Wang等人[9]通過醫(yī)學(xué)知識圖譜和GPT3.5API構(gòu)建了中文醫(yī)學(xué)指令數(shù)據(jù)集,在此基礎(chǔ)上對ChatGLM-6B進(jìn)行了指令微調(diào),微調(diào)后的大語言模型命名為ChatGLM-Med?;谙嗤臄?shù)據(jù)Wang等人[9]還訓(xùn)練了醫(yī)療版本的LLaMA模型——華駝。這些醫(yī)學(xué)通用大語言模型的成功表明利用醫(yī)療數(shù)據(jù)對大語言模型微調(diào)可以得到醫(yī)學(xué)專業(yè)能力更強(qiáng)的大語言模型[10]。此外,這些通過微調(diào)得到的醫(yī)學(xué)通用大語言模型都能在消費(fèi)級顯卡部署或訓(xùn)練。這對于研發(fā)或部署專用醫(yī)學(xué)大語言模型的醫(yī)院或機(jī)構(gòu)有著巨大的誘惑。

      1.2 參數(shù)高效微調(diào)方法

      得益于以LoRA(low-rank adaptation,LoRA)[11]為代表的參數(shù)高效微調(diào)方法(parameter-efficient fine-tuning, PEFT),大語言模型微調(diào)的算力需求與訓(xùn)練時間相比全參數(shù)微調(diào)大大降低。對于某一專業(yè)領(lǐng)域的大語言模型的訓(xùn)練,一個很常見的策略是從公共的知識庫獲取相關(guān)領(lǐng)域的專業(yè)知識作為訓(xùn)練數(shù)據(jù),利用這些數(shù)據(jù)對通用大語言模型進(jìn)行參數(shù)高效微調(diào)。值得注意的是,如果意向訓(xùn)練更加專業(yè)的大語言模型,那么僅僅使用公開知識庫的數(shù)據(jù)微調(diào)得到的大語言模型的專業(yè)程度并不會十分令人滿意。一個主要的原因是公開的知識庫對更細(xì)分領(lǐng)域的專業(yè)知識收錄不夠?qū)I(yè),難以得到從業(yè)者的認(rèn)可[3]。因此,使用專業(yè)性的文件或數(shù)據(jù)微調(diào)大語言模型被視為一個可行的方法。由于標(biāo)準(zhǔn)化作業(yè)流程的要求,專業(yè)性文件種包含了許多專業(yè)術(shù)語及專有名詞,文件的格式也有特殊的要求,往往并不適合直接用于微調(diào)。這些專業(yè)性文件需要有一定專業(yè)基礎(chǔ)的工作人員對數(shù)據(jù)進(jìn)行加工才適合用于大語言模型的微調(diào)。

      1.3 本研究的貢獻(xiàn)

      本文提出一種基于醫(yī)學(xué)領(lǐng)域?qū)I(yè)性文件訓(xùn)練醫(yī)學(xué)領(lǐng)域?qū)?拼笳Z言模型的兩階段微調(diào)框架,并基于此框架微調(diào)出面向肝膽醫(yī)學(xué)的專科大模型。本文的主要貢獻(xiàn)有兩點(diǎn),即:

      a)利用公開的知識圖譜或?qū)Υ笠?guī)模的語言模型進(jìn)行知識蒸餾,收集一定數(shù)量目標(biāo)域的訓(xùn)練數(shù)據(jù)對源模型進(jìn)行參數(shù)高效微調(diào);

      b)對專業(yè)性文件進(jìn)行數(shù)據(jù)處理,使其符合微調(diào)的數(shù)據(jù)要求及格式,使用相對少量的更專業(yè)數(shù)據(jù)對第一階段微調(diào)后的模型進(jìn)行第二次freeze微調(diào)[12],最終訓(xùn)練了一個針對肝膽專科的大語言模型。

      本文將這種兩次微調(diào)的框架命名為“造極”。基于“造極”與臨床病歷數(shù)據(jù), 本文訓(xùn)練了一個針對肝膽??频尼t(yī)療對話大語言模型——MedGLM.H。訓(xùn)練使用的臨床病歷數(shù)據(jù)是由東方肝膽外科醫(yī)院提供的肝膽??频牟粠в行彰幕颊卟v、診療記錄和手術(shù)記錄, 本文期望經(jīng)過這些臨床專業(yè)數(shù)據(jù)的訓(xùn)練,它能夠準(zhǔn)確回答出肝膽??频囊恍﹩栴},包括但不限于治療方案、手術(shù)要求、檢驗(yàn)指標(biāo)解讀及用藥規(guī)范等。由于目前整理的病歷文本數(shù)據(jù)量有限,MedGLM.H在對治療方案與檢驗(yàn)指標(biāo)解讀等回答上尚未達(dá)到專業(yè)水準(zhǔn)。在后續(xù)的更新迭代版本會針對這一缺陷進(jìn)行改進(jìn)。

      2 基于ChatGLM-6B的兩階段微調(diào)方法

      2.1 框架

      MedGLM.H的訓(xùn)練包括通用醫(yī)學(xué)知識訓(xùn)練與肝膽??频膶I(yè)知識訓(xùn)練。這點(diǎn)類似于中國臨床醫(yī)生的培養(yǎng)政策:中國的醫(yī)生在成為一名正式的臨床醫(yī)生之前必須首先在醫(yī)院的所有科室進(jìn)行輪轉(zhuǎn)實(shí)習(xí),以培養(yǎng)臨床醫(yī)生的綜合能力。各科室輪轉(zhuǎn)實(shí)習(xí)后,實(shí)習(xí)醫(yī)生會留在他最終選擇的科室成為該科室的實(shí)習(xí)醫(yī)生,繼續(xù)深入學(xué)習(xí)該科室的專業(yè)知識與臨床技能。MedGLM.H的兩階段微調(diào)對應(yīng)著臨床醫(yī)生的全科輪轉(zhuǎn)實(shí)習(xí)與定崗實(shí)習(xí)。

      基于“造極”的兩階段微調(diào)的全過程如圖1所示,其中第一階段的微調(diào),使用公開的醫(yī)學(xué)知識圖譜并借助GPT3.5的API接口生成通用的醫(yī)學(xué)知識問答數(shù)據(jù),對ChatGLM-6B進(jìn)行P-Tuning v2微調(diào)。第一階段微調(diào)后的模型命名為MedGLM.General,MedGLM.General可以回答部分通用醫(yī)學(xué)方面的基礎(chǔ)問題,但其回答問題的性能尚無法與其他通過海量通用醫(yī)學(xué)數(shù)據(jù)訓(xùn)練后的模型相比。第二階段的微調(diào)使用臨床的病歷數(shù)據(jù)進(jìn)行加工,用有限的數(shù)據(jù)對MedGLM.General進(jìn)行freeze微調(diào),訓(xùn)練得到的MedGLM.H能夠在保證通用醫(yī)學(xué)問答的性能下解答針對肝膽??频膯栴}。

      2.2 源模型

      許多研究人員在選擇源模型進(jìn)行微調(diào)時有著相似的偏好。在基于中文的大語言模型微調(diào)中,工程師通常選擇ChatGLM-6B作為源模型;而在英文方面的微調(diào)中,較為常見的源模型是LLaMA[13]。

      這兩個模型具有幾個共同特點(diǎn),首先它們都是開源的大語言模型,并且具有出色的性能表現(xiàn)。同時,它們的參數(shù)量都達(dá)到了十億級別(ChatGLM-6B含有60億個參數(shù),LLaMA含有70億個參數(shù)),這個級別的參數(shù)量對于大型語言模型而言只是達(dá)到門檻要求。盡管如此,由于它們的參數(shù)量相對較小且性能仍然足夠,微調(diào)這些模型所需的計算資源可以被許多實(shí)驗(yàn)室支持。因此,十億級別參數(shù)量的大語言模型是進(jìn)行微調(diào)的一個熱門選擇。

      MedGLM.H的訓(xùn)練源模型是ChatGLM-6B。該模型基于general language model(GLM)架構(gòu),參數(shù)量為62億。結(jié)合模型量化技術(shù),工程師可以在消費(fèi)級顯卡上進(jìn)行本地部署(INT4量化級別最低只需要6 GB顯存)。因此ChatGLM-6B被開發(fā)了許多個訓(xùn)練版本。目前很多中文的醫(yī)學(xué)大語言模型都是基于ChatGLM-6B進(jìn)行微調(diào),例如:DoctorGLM、ChatGLM-Med。

      2.3 構(gòu)建數(shù)據(jù)集

      首次微調(diào)的數(shù)據(jù)集主要來自公開的中文醫(yī)學(xué)知識庫,并參考cMeKG生成了一些數(shù)據(jù)。這些數(shù)據(jù)集的內(nèi)容包括并發(fā)癥、臨床癥狀、藥物治療和輔助治療等。醫(yī)學(xué)知識庫以中心詞對應(yīng)疾病和癥狀到所屬科室與發(fā)病部位為一組的形式儲存。再利用GPT3.5的API接口圍繞醫(yī)學(xué)知識庫構(gòu)建問答數(shù)據(jù),訓(xùn)練數(shù)據(jù)為“問題—回答”的形式。共計收集20 000條全科醫(yī)學(xué)的問答數(shù)據(jù)。

      第二次微調(diào)使用了1 300條肝膽專科臨床病患的病歷文本及診療記錄數(shù)據(jù),其中的檢驗(yàn)數(shù)據(jù)或治療方案通常有很強(qiáng)的獨(dú)特性(如:某藥物用量、注射的量;囊腫或腫瘤的尺寸以及超聲多普勒檢查的血液流速等)。這些過于精確的數(shù)據(jù)對于大語言模型來說可參考性很低。因此,在處理病歷數(shù)據(jù)時需要將這些數(shù)值剔除。除此之外,為了使MedGLM.H的回答更加專業(yè)且準(zhǔn)確,病歷數(shù)據(jù)還需要進(jìn)行再加工,數(shù)據(jù)形式如圖2所示。

      醫(yī)療記錄數(shù)據(jù)通過將查詢部分和檢查結(jié)果部分分類為“Q”,并利用相應(yīng)的診斷結(jié)果、相關(guān)檢查措施、手術(shù)要求、藥物指南和執(zhí)行后結(jié)果作為它們各自的“A”來進(jìn)行處理。此外,鑒于醫(yī)療記錄數(shù)據(jù)的標(biāo)準(zhǔn)化和專業(yè)性質(zhì),對部分醫(yī)療用語的改寫也是數(shù)據(jù)處理的一項(xiàng)重要工作。為了遵循數(shù)據(jù)保密原則,數(shù)據(jù)處理任務(wù)由本文的工作人員手動完成。

      由于患者醫(yī)療記錄和臨床數(shù)據(jù)的敏感性, 本文無法公開發(fā)布MedGLM.H的源代碼和數(shù)據(jù)集。測試版本將在東方肝膽外科醫(yī)院內(nèi)部部署,由專業(yè)醫(yī)生及部分臨床患者進(jìn)行測試。根據(jù)測試的結(jié)果進(jìn)一步改進(jìn),以加速最終發(fā)布MedGLM.H的時間。值得一提的是,MedGLM.H的訓(xùn)練環(huán)境是隔離且安全的,確保對機(jī)密數(shù)據(jù)的保護(hù)并防止任何泄露。

      2.4 階段1:基于通用醫(yī)學(xué)知識進(jìn)行P-Tuning v2微調(diào)

      由于LoRA在LLM的多輪對話中表現(xiàn)不佳,正如Xiong等人在DoctorGLM的后續(xù)版本中所提到的,進(jìn)一步使用P-Tuning v2進(jìn)行微調(diào)相比LoRA微調(diào)版本表現(xiàn)出了改進(jìn)的測試結(jié)果。因此,本文利用P-Tuning v2進(jìn)行第一次通用醫(yī)學(xué)LLM的微調(diào)。

      P-Tuning v2被視為Prefix-Tuning的一種版本,重點(diǎn)解決了prompt tuning在小模型上效果不佳的問題,并將prompt tuning拓展至更復(fù)雜的自然語言理解(NLU)任務(wù)中,如機(jī)器閱讀理解(MRC)答案抽取、命名實(shí)體識別(NER)實(shí)體抽取等序列標(biāo)注任務(wù)。在不同模型規(guī)模和NLU任務(wù)的微調(diào)中,它的性能可以與全參數(shù)微調(diào)方法相媲美,而只有01%~3%的微調(diào)參數(shù)。在訓(xùn)練中P-Tuning v2凍結(jié)模型的主要部分,對前綴進(jìn)行多層提示優(yōu)化。不同層中的提示作為前綴token加入到輸入序列中。添加到更深層次的提示可以對輸出預(yù)測產(chǎn)生更多的影響[14]。

      P-Tuning v2的運(yùn)算邏輯與結(jié)構(gòu)可以通過以下幾個關(guān)鍵部分來解釋:

      a)前綴編碼器 (prefixencoder): 這是一個自定義的模塊,用于生成可訓(xùn)練的前綴嵌入。它使用PyTorch的embedding層來為每個前綴ID創(chuàng)建一個嵌入向量。這些前綴嵌入將作為額外的輸入,與原始輸入一起參與模型的后續(xù)計算。

      b)模型擴(kuò)展: 這個類繼承自預(yù)訓(xùn)練的源模型,并且添加了前綴編碼器。在模型的前向傳播過程中,前綴編碼器生成的前綴嵌入會與原始輸入嵌入合并。

      c)前向傳播過程:

      (a)使用prefixencoder對前綴ID進(jìn)行編碼,得到前綴嵌入;

      (b)獲取原始輸入ID的嵌入表示;

      (c)將前綴嵌入與輸入嵌入連接起來,形成一個擴(kuò)展的嵌入序列;

      (d)將這個擴(kuò)展的嵌入序列輸入到源模型中,進(jìn)行正常的前向傳播。

      d)訓(xùn)練與更新:

      (a)在訓(xùn)練過程中,模型的參數(shù)和前綴嵌入會根據(jù)任務(wù)目標(biāo)進(jìn)行更新;

      (b)通過反向傳播算法,計算損失函數(shù)關(guān)于模型參數(shù)的梯度,并更新模型參數(shù)和前綴嵌入。

      P-Tuning v2的核心思想是通過在模型的每一層引入可訓(xùn)練的前綴,從而使模型能夠?qū)W習(xí)到特定任務(wù)的信息。這種方法不僅提高了模型的靈活性,而且在不增加過多參數(shù)的情況下,提升了模型對特定任務(wù)的適應(yīng)能力。

      將模型的參數(shù)集合定義為θ,其中包含多層的模型參數(shù)(θ1,θ2,…,θn)。每一層(i)添加一組可學(xué)習(xí)的提示Pi,與模型的輸入X共同參與模型的計算。

      每一層的提示Pi可以表示為:[Pi=fi(Pi-1,θi)],其中fi為計算函數(shù),θi是第i層的參數(shù),Pi-1為前一層的提示。在訓(xùn)練過程中,每層提示Pi通過最小化損失函數(shù)L進(jìn)行更新:

      Pl:[minP1,…,PnL(Y,Y^(X,P1,…,Pn,Θ))](1)

      其中:Y為真實(shí)標(biāo)簽,Y^是模型的預(yù)測輸出。

      MedGLM.H模型的任務(wù)是在肝膽領(lǐng)域提供專業(yè)的問答,基本上是一個涉及序列標(biāo)注的具有挑戰(zhàn)性的NLU任務(wù)。在Zhang等人進(jìn)行的研究中,當(dāng)面臨這些困難的NLU挑戰(zhàn)時,P-Tuning v2表現(xiàn)出與Fine-Tune相當(dāng)?shù)男阅?,同時需要更低的計算資源。因此, P-Tuning v2更適合MedGLM的第一階段訓(xùn)練。

      2.5 階段2:基于私有臨床數(shù)據(jù)微調(diào)

      在第一階段之后,MedGLM.General的底層已經(jīng)得到很好的訓(xùn)練,在一般醫(yī)學(xué)問答任務(wù)中表現(xiàn)出合理的準(zhǔn)確性。為了保留MedGLM.General在一般醫(yī)學(xué)問答任務(wù)中的性能, 本文選擇在微調(diào)的第二階段凍結(jié)基礎(chǔ)層,僅允許更新最后5層的參數(shù)。

      對于凍結(jié)的參數(shù)θi,(i≤k):[θ(t+1)i=θti]。

      對于參與微調(diào)的參數(shù)θj,(j≤k):[θ(t+1)j=θtj-ηLθj],它們按照梯度下降法更新。其中t為迭代次數(shù),η為學(xué)習(xí)率,L是損失函數(shù)。

      在數(shù)學(xué)上,這可以表示為在微調(diào)過程中,對于每個凍結(jié)的參數(shù)θi, 本文設(shè)置(Lθi=0)。這意味著這些參數(shù)的梯度為零,因此在反向傳播過程中不會更新。對于需要更新的參數(shù), 本文正常計算梯度并更新參數(shù)值。

      freeze微調(diào)的優(yōu)點(diǎn)是能夠利用預(yù)訓(xùn)練模型的強(qiáng)大表示能力,同時通過微調(diào)少數(shù)參數(shù)來適應(yīng)特定任務(wù),這在數(shù)據(jù)量有限或者計算資源受限的情況下尤其有用。

      鑒于已處理的專業(yè)臨床數(shù)據(jù)量有限,freeze微調(diào)使得可以使用少量數(shù)據(jù)進(jìn)行模型細(xì)化,同時保留源模型的一些性能。經(jīng)過freeze微調(diào)后,MedGLM.H能夠在保持MedGLM.General在一般醫(yī)學(xué)知識問答任務(wù)中強(qiáng)大性能的同時,解決肝膽e034b963c0f7cebd3ff043842b28dad1專業(yè)領(lǐng)域的特定問題。

      3 實(shí)驗(yàn)與結(jié)果

      3.1 實(shí)驗(yàn)設(shè)計

      為了驗(yàn)證兩階段微調(diào)的有效性及MedGLM.H的專業(yè)性,本文設(shè)計了四個實(shí)驗(yàn)以評估微調(diào)方法的綜合性能、MedGLM.H模型對于臨床醫(yī)療問題的解答效果、模型在微調(diào)前后的性能對比以及MedGLM.H對于肝膽專科醫(yī)學(xué)的專業(yè)性。

      用模型微調(diào)效果的通用評價指標(biāo)進(jìn)行微調(diào)方法性能的評估;設(shè)置一項(xiàng)對于臨床醫(yī)療問題的雙盲評估實(shí)驗(yàn),由臨床醫(yī)生根據(jù)通用醫(yī)療大語言模型與MedGLM.H對相同臨床醫(yī)療問題的回答進(jìn)行評估

      ;設(shè)置肝膽??圃囶}集,對比微調(diào)前后模型的準(zhǔn)確率與得分率;最后,由三位臨床醫(yī)生進(jìn)行10輪的對話以評估模型在專業(yè)醫(yī)療場景的實(shí)用性。

      1)微調(diào)效果評估實(shí)驗(yàn)

      實(shí)驗(yàn)驗(yàn)證階段, 本文在東方肝膽外科醫(yī)院的病歷數(shù)據(jù)中避開訓(xùn)練集,隨機(jī)選擇了500組肝膽科患者的問診主訴作為Q(question),使用GPT-4對問診進(jìn)行回答作為A(answer),以此作為驗(yàn)證集。 本文采用BLEU(bilingual evaluation understudy)值[15]和Rouge score(Rouge,recall-oriented understudy for gisting evaluation)[16]對微調(diào)后的模型進(jìn)行評估,評估結(jié)果在第3.3小節(jié)。然而,應(yīng)注意的是,BLEU和Rouge分?jǐn)?shù)僅在評估模型生成的答案在驗(yàn)證集中與參考答案匹配的程度方面是可靠的。對于真實(shí)的臨床應(yīng)用,仍然需要進(jìn)行進(jìn)一步的評估[17]。

      2)雙盲問答對比實(shí)驗(yàn)

      為了對比MedGLM.H對于臨床醫(yī)療問題的解答效果,本文選取MedGLM.H的源模型ChatGLM-6B以及該模型通過Instruct-Tuning微調(diào)后得到的醫(yī)學(xué)通用大語言模型ChatGLM-Med進(jìn)行雙盲評估實(shí)驗(yàn)。在實(shí)驗(yàn)中,三個模型對于同一肝膽科臨床醫(yī)療問題進(jìn)行解答,由專業(yè)的肝膽科臨床醫(yī)生對模型生成的答案質(zhì)量進(jìn)行綜合評分。

      3)微調(diào)前后對比實(shí)驗(yàn)

      此外,在驗(yàn)證兩階段微調(diào)框架的有效性及MedGLM.H在肝膽??频膶I(yè)性方面,通過建立肝膽??频恼鎸?shí)題庫作為驗(yàn)證集,與未經(jīng)微調(diào)的ChatGLM-6B進(jìn)行對比實(shí)驗(yàn)。驗(yàn)證集中的真題來自中國執(zhí)業(yè)醫(yī)師資格考試、臨床醫(yī)院中肝膽科出科考試與臨床醫(yī)學(xué)專業(yè)考試中關(guān)于肝膽科的真實(shí)考題。整合后的肝膽??圃囶}包括100道單項(xiàng)選擇題與10道主觀題。統(tǒng)計對比選擇題的正確率與簡答題的得分率。簡答題的判分由東方肝膽外科醫(yī)院的臨床醫(yī)生進(jìn)行。

      4)臨床醫(yī)生對話評估實(shí)驗(yàn)

      為了驗(yàn)證MedGLM.H的臨床適用性和專業(yè)性, 本文邀請了三位有著豐富臨床經(jīng)驗(yàn)的肝膽科醫(yī)生與MedGLM.H進(jìn)行10輪對話。將MedGLM.H的回答在準(zhǔn)確性、對醫(yī)生的參考價值和對病人的適用性三個維度上進(jìn)行評估。旨在評估MedGLM.H的臨床適用性和專業(yè)性。

      3.2 評價指標(biāo)

      BLEU分?jǐn)?shù)是用于評估AI模型機(jī)器翻譯質(zhì)量的一項(xiàng)評價指標(biāo),它會根據(jù)模型生成的結(jié)果與驗(yàn)證集中答案的匹配程度給出分?jǐn)?shù),這個分?jǐn)?shù)在0~1,BLEU值越接近1則翻譯質(zhì)量越高。Rouge score是一種用于衡量自動文摘生成質(zhì)量的指標(biāo),它根據(jù)生成的文摘與參考摘要之間的匹配程度給出分?jǐn)?shù),同樣在0~1,1表示最匹配,0表示最不相關(guān)。

      BLEU值與Rouge score的評估僅能保證MedGLM.H的回答是否與GPT-4相接近(盡管GPT-4對于醫(yī)學(xué)問題的回答質(zhì)量已經(jīng)非常高),無法表明MedGLM.H對肝膽科患者或醫(yī)生的適用性。因此設(shè)計準(zhǔn)確性、對醫(yī)生的可參考性、對病人的適用性三維度的評估是必要的。

      3.3 結(jié)果與分析

      本文對比了幾種基于ChatGLM-6B微調(diào)的醫(yī)學(xué)大語言模型的微調(diào)方法與硬件環(huán)境,并對驗(yàn)證集進(jìn)行BLEU與Rouge score指標(biāo)評估,各大語言模型的對比驗(yàn)證結(jié)果記錄在表1。

      為了更加直觀地對比幾個醫(yī)療模型對于臨床問題的解答效果, 本文進(jìn)行了一次雙盲問答對比實(shí)驗(yàn),由東方肝膽外科醫(yī)院的臨床醫(yī)生對答案的質(zhì)量進(jìn)行綜合評分。在這個對比實(shí)驗(yàn)中, 本文展示了三個醫(yī)學(xué)模型對于臨床問題的回答。對話的內(nèi)容和答案分別由三個不同的醫(yī)學(xué)模型生成,但在展示給評估者時,沒有顯示模型的名稱,以確保評估是雙盲的。臨床醫(yī)生對這些答案的質(zhì)量進(jìn)行評估,并給出了綜合得分。評估者只根據(jù)內(nèi)容和質(zhì)量來評估答案,而不知道模型的身份。這種實(shí)驗(yàn)證明了醫(yī)學(xué)模型在回答臨床問題時的性能,并提供了更直觀的比較。對話的內(nèi)容如表2所示。

      對比實(shí)驗(yàn)的結(jié)果見表3,準(zhǔn)確率表示模型對于試題中單項(xiàng)選擇題的正確率,得分率為模型對于簡答題生成的答案的得分。每道簡答題的答案由肝膽專科的醫(yī)生進(jìn)行0~10分的打分,共計10道簡答題。醫(yī)生對于簡答題的評判標(biāo)準(zhǔn)與臨床醫(yī)學(xué)專業(yè)考試及肝膽科實(shí)習(xí)醫(yī)生出科考試一致,以此保證實(shí)驗(yàn)結(jié)果的有效性。

      在基于肝膽??圃囶}的對比實(shí)驗(yàn)中,MedGLM.H展現(xiàn)了較高水準(zhǔn)的肝膽專業(yè)問答水平。在得分上,與Flan-PaLM 540B在美國執(zhí)業(yè)醫(yī)師資格考試中取得的準(zhǔn)確率相當(dāng)[17]。其中MedGLM.H對于單項(xiàng)選擇題的準(zhǔn)確率達(dá)到了源模型的兩倍,簡答題的得分率在源模型的對比下也顯示出了較大的改進(jìn)。盡管目前MedGLM.H對于執(zhí)業(yè)醫(yī)師資格考試等專業(yè)試題的準(zhǔn)確率與臨床醫(yī)生仍有一定差距。但就目前而言,本研究在輕量級大語言模型微調(diào)中進(jìn)行專業(yè)領(lǐng)域的針對性微調(diào)表現(xiàn)出了一定的潛力。

      本文期望MedGLM.H能夠解答肝膽科常見的臨床問題并且為醫(yī)生提供一些治療意見。因此,對于MedGLM.H生成的答案還需要進(jìn)行三個維度的評估,分別為:生成答案的準(zhǔn)確度、生成的答案對病人的適用度以及給醫(yī)生的參考價值。 本研究邀請了三位來自東方肝膽外科醫(yī)院的主治醫(yī)生與MedGLM.H進(jìn)行10輪的對話,最終對MedGLM.H生成的答案進(jìn)行評估。圖3展示了三位醫(yī)生對MedGLM.H生成答案的評估。

      可以證明MedGLM.H在更專業(yè)的醫(yī)療場景中執(zhí)行對話任務(wù)的效果有一定的專業(yè)水準(zhǔn)。這為訓(xùn)練更加專業(yè)的醫(yī)療大語言模型提供了一個思路:使用經(jīng)過加工的??撇v文本數(shù)據(jù)對醫(yī)療通用大語言模型進(jìn)行微調(diào)可以得到一個聚焦于某一科室的大語言模型,并且它的成本是絕大部分醫(yī)院或臨床醫(yī)學(xué)研究團(tuán)隊(duì)能夠負(fù)擔(dān)得起的。

      4 討論與展望

      盡管醫(yī)學(xué)通用的大語言模型已經(jīng)在早前推出,但這些大語言模型并沒有廣泛地部署在臨床醫(yī)院。一個主要的原因是這些大語言模型的對話質(zhì)量對比此前一些醫(yī)院部署的問答系統(tǒng)并沒有突破性的進(jìn)展。由于訓(xùn)練這些醫(yī)學(xué)通用大語言模型的數(shù)據(jù)集很多都是來自這些基于醫(yī)療咨詢數(shù)據(jù)庫的問答系統(tǒng),所以這些大語言模型的回答不可避免地會與早先的問答系統(tǒng)高度類似,并沒有體現(xiàn)出AIGC技術(shù)的優(yōu)越性[18]。MedGLM.H解決這一問題的方法是使用經(jīng)過處理的病人病歷及診療記錄的文本數(shù)據(jù)對大語言模型進(jìn)行微調(diào),以提高它的對話質(zhì)量。

      本文的工作在低學(xué)術(shù)預(yù)算的情況下,基于通用醫(yī)學(xué)知識圖譜和專業(yè)的臨床數(shù)據(jù)通過“造極”訓(xùn)練了針對肝膽??频尼t(yī)療對話大語言模型。在中國執(zhí)業(yè)醫(yī)生資格考試等專業(yè)醫(yī)學(xué)考試中肝膽科試題的準(zhǔn)確率與更大參數(shù)級別的大語言模型Flan-PaLM 540B在美國執(zhí)業(yè)醫(yī)師資格考試中取得的準(zhǔn)確率相當(dāng)。這為許多有相似情況的學(xué)術(shù)團(tuán)隊(duì)提供了思路,對推廣訓(xùn)練或部署專業(yè)大語言模型也作出了一定的貢獻(xiàn)。

      盡管MedGLM.H在實(shí)驗(yàn)驗(yàn)證階段展示了一定的專業(yè)水平,能夠回答肝膽科一些專業(yè)的問題。但由于參與微調(diào)訓(xùn)練的數(shù)據(jù)并不十分完善且數(shù)據(jù)量有限,加之這項(xiàng)工作仍處于研究早期,它的回答不應(yīng)該被完全信任。 本研究期待接下來的工作能夠使它更加可信任,以便于部署到醫(yī)療資源匱乏的地區(qū)或社區(qū)醫(yī)院。

      本研究的目標(biāo)是訓(xùn)練一個能夠給醫(yī)生提供專業(yè)診療意見、為臨床病患解答專業(yè)性醫(yī)學(xué)問題的專業(yè)醫(yī)療對話大語言模型。就目前的工作而言, 本研究邁出了第一步。它仍有許多問題亟待解決。如:MedGLM.H的回答需要保證相當(dāng)高的準(zhǔn)確率,給出的診療意見也需要大基數(shù)的實(shí)驗(yàn)來驗(yàn)證其有效性與無害性;對于醫(yī)學(xué)檢驗(yàn)結(jié)果的診斷與解答還需要進(jìn)一步的訓(xùn)練以提高準(zhǔn)確度。在未來, 本研究預(yù)備進(jìn)行以下工作來改進(jìn)Med-GLM,使它的回答能夠更加準(zhǔn)確與多元。

      a)在東方肝膽外科醫(yī)院不斷進(jìn)行測試,收集測試結(jié)果對大語言模型進(jìn)行改進(jìn)。

      b)使用各科室的臨床數(shù)據(jù)與病歷文本設(shè)計醫(yī)學(xué)知識圖譜,以外接知識庫的形式接到MedGLM.General,使MedGLM.General能夠回答除肝膽科以外的專業(yè)問題。

      c)接入傳統(tǒng)機(jī)器學(xué)習(xí)或深度學(xué)習(xí)對某些疾病的預(yù)測模型,醫(yī)生能夠向MedGLM提問相關(guān)病癥發(fā)展階段的指標(biāo)特征或干預(yù)措施對病癥發(fā)展的影響。

      d)通過設(shè)計prompt并使用特定數(shù)據(jù)微調(diào)使MedGLM能夠做到對部分疾病的早期篩查。

      參考文獻(xiàn):

      [1]Radford A, Narasimhan K, Salimans T,et al. Improving language understanding by generative pre-training [EB/OL]. (2018) [2024-03-13].

      http://www.mikecaptain.com/resources/pdf/G PT-1.pdf.

      [2]Du Zhengxiao, Qian Yujie, Liu Xiao,et al. GLM: general language model pretraining with autoregressive blank infilling [C]// Proc of the 60th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2022: 320-335.

      [3]Himabindu L, Dylan S, Chen Yuxin,et al. Rethinking explainability as a dialogue: a practitioner’s perspective [EB/OL]. (2022) [2024-03-13]. http://doi.org/10.48550/arXiv.2202.01875.

      [4]Esteva A, Chou K, Yeung S,et al. Deep learning-enabled medical computer vision [J]. NPJ Digital Medicine, 2021, 4(1): 5.

      [5]Yim J, Chopra R, Spitz T,et al. Predicting conversion to wet age related macular [J]. Nature Medicine, 2020 (26): 892-899.

      [6]Tomaev N, Harris N, Baur S,et al. Developing continuous risk mo-dels for adverse event prediction in electronic health records using deep learning [J]. Nature Protocol, 2021 (16): 2765-2787.

      [7]Li Yunxiang, Li Zihan, Zhang Kai,et al. ChatDoctor: a medical chat model fine-tuned on LLaMA model using medical domain knowledge [EB/OL]. (2023) [2024-03-13]

      https://doi.org/10.48550/arXiv.2303.14070.

      [8]Xiong Honglin, Wang Sheng, Zhu Yitao,et al. DoctorGLM: fine-tuning your Chinese doctor is not a herculean task [EB/OL]. (2023) [2024-03-13].

      https://doi.org/10.48550/arXiv.2304.01097.

      [9]Wang Haochun, Liu Chi, Xi Nuwa,et al. HuaTuo: tuning LLaMA model with Chinese medical knowledge [EB/OL]. (2023) [2024-03-13].

      https://doi.org/10.48550/arXiv.2304.06975.

      [10]Liu Zhengliang, Yu Xiaowei, Zhang Lu,et al. DeID-GPT: zero-shot medical text de-identification by GPT-4 [EB/OL]. (2023) [20 24-03-13].

      https://doi.org/10.48550/arXiv.2303.11032.

      [11]Hu E, Shen Yelong, Wallis P,et al. LORA: low-rank adaptation of large language models [C]// Proc of the 10th International Confe-rence on Learning Representations. Washington, DC: IUR, 2022.

      [12]Shin J, Choi S, Choi Y,et al. A pragmatic approach to on-device incremental learning system with selective weight updates [C]//Proc of 57th ACM/IEEE Design Automation Conference. Piscataway,NJ:IEEE Press, 2020: 1-6.

      [13]Touvron H, Lavril T, Izacard G,et al. LLaMA: open and efficient foundation language models [EB/OL]. (2023) [2024-03-13]. https://doi.org/10.48550/arXiv.2302.13971.

      [14]Liu Xiao, Ji Kaixuan, Tam W,et al. P-Tuning v2: prompt tuning can be comparable to fine-tuning universally across scales and tasks [C]// Proc of the 60th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2022: 61-68.

      [15]Papineni K, Roukos S, Ward T,et al. BLEU: a method for automatic evaluation of machine translation [C]// Proc of the 40th Annual Meeting of Association for Computational Linguistics. Stroudsburg, PA: ACL, 2002: 311-318.

      [16]Lin C Y. ROUGE: a package for automatic evaluation of summaries [C]// ACL Proc of Workshop on Text Summarization Branches Out. Stroudsburg, PA: ACL, 2004: 74-81.

      [17]Singhal K, Azizi S, Tu T,et al. Large language models encode clinical knowledge [J]. Nature, 2023, 620(7972): 172-180.

      [18]Cao Yihan, Li Siyu, Liu Yixin,et al. A comprehensive survey of AI-generated content (AIGC): a history of generative AI from GAN to ChatGPT [J]. Journal of the ACM, 2018, 4(37): 111-155.

      湘西| 云安县| 桐乡市| 亚东县| 安图县| 中江县| 辽宁省| 南昌市| 台北市| 北安市| 双峰县| 甘孜| 枣强县| 临颍县| 布拖县| 武胜县| 九龙县| 凌云县| 民县| 冀州市| 景泰县| 白朗县| 宁海县| 金湖县| 大港区| 昂仁县| 绥中县| 城固县| 平度市| 应用必备| 绥江县| 永定县| 新闻| 桂平市| 武川县| 北流市| 册亨县| 凌海市| 丁青县| 隆尧县| 兴国县|