顏見智 何雨鑫 駱子燁 胡 晗 范士喜 湯步洲
(1哈爾濱工業(yè)大學(xué)(深圳) 深圳518055 2鵬城實(shí)驗(yàn)室 深圳518055 3深圳職業(yè)技術(shù)大學(xué) 深圳518055)
語言模型是計(jì)算語言學(xué)范疇概念,用于建模任意字詞序列屬于自然語言的概率。在深度學(xué)習(xí)流行之前,語言模型多是基于統(tǒng)計(jì)的N-gram語言模型;隨后,基于人工神經(jīng)網(wǎng)絡(luò)的語言模型(神經(jīng)概率語言模型)逐漸占據(jù)主導(dǎo)地位。當(dāng)神經(jīng)概率語言模型的有效參數(shù)規(guī)模達(dá)到一定量級就成為大語言模型。
2003年Bengio Y[1]在其論文ANeuralProbabilisticLanguageModel中首次提出神經(jīng)概率語言模型,基于詞嵌入向量和多層感知機(jī)計(jì)算文本中每個(gè)詞的條件概率。受限于當(dāng)時(shí)的算力資源,該工作并沒有得到太多重視。2013年Mikolov T[2]延續(xù)Bengio的思想提出word2vec,利用各種高效的損失設(shè)計(jì)成功實(shí)現(xiàn)在包含16億詞的語料庫上的預(yù)訓(xùn)練。2015年Dai A M等[3]提出基于長短期記憶神經(jīng)網(wǎng)絡(luò)(long-short term memory,LSTM)的語言模型,提出先利用語言模型任務(wù)在大規(guī)模語料上進(jìn)行預(yù)訓(xùn)練,再在下游任務(wù)微調(diào)的思路。
然而前饋神經(jīng)網(wǎng)絡(luò)的表示能力較弱,循環(huán)神經(jīng)網(wǎng)絡(luò)又難以高效并行訓(xùn)練,因此一種基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)Transformer[4]開始受到關(guān)注。從2018年起Transformer幾乎成為神經(jīng)概率語言模型的標(biāo)配,研究者也習(xí)慣將這類語言模型稱為預(yù)訓(xùn)練語言模型(pre-trained language models,PLMs)。根據(jù)模型架構(gòu)不同,可以將PLMs分為以下4類:一是基于雙向編碼器的PLMs,如雙向編碼器表征(bidirectional encoder representation from transformers,BERT)[5]及其變種。二是基于單向解碼器的PLMs,如生成式預(yù)訓(xùn)練Transformer(generative pre-trained transformer,GPT)系列模型[6]、PaLM系列模型[7]、LLaMa系列模型[8]以及BLOOM/Z[9]。三是基于編碼器-解碼器的PLMs,如BART[10]、T5系列模型[11]和UL2[12]。四是基于混合掩碼解碼器的PLMs,如XLNet[13]、UniLM[14]以及GLM系列模型[15]。目前這4類PLMs中只有后3類能夠成功完成量變到質(zhì)變的躍遷,成為大語言模型;而BERT等基于雙向編碼器的PLMs則止步不前。原因也許在于去噪自編碼這一預(yù)訓(xùn)練目標(biāo)較簡單,不需要大規(guī)模參數(shù)模型就能完成得很好。單純的去噪自編碼任務(wù)無法充分激發(fā)預(yù)訓(xùn)練語言模型的潛力。
而自回歸生成的預(yù)訓(xùn)練目標(biāo)則更具挑戰(zhàn)性。模型需要在對世界進(jìn)行高質(zhì)量建模的同時(shí)具備強(qiáng)大的推理能力。研究結(jié)果表明只有當(dāng)模型參數(shù)規(guī)模達(dá)到一定量級,模型才會(huì)涌現(xiàn)出這些能力[16]。沒有大語言模型就無法很好地完成自回歸生成;沒有自回歸生成這樣一個(gè)高難度的預(yù)訓(xùn)練目標(biāo),大語言模型就沒有產(chǎn)生的必要。因此,當(dāng)提及大語言模型(large language model,LLM)時(shí),實(shí)際上是指生成式大語言模型。
雖然LLM能涌現(xiàn)語義理解、文本生成和邏輯推理能力,但還無法較好地服從人類指令,其生成內(nèi)容也不一定符合人類價(jià)值理念。因此在完成LLM的預(yù)訓(xùn)練后,一般會(huì)進(jìn)行有監(jiān)督微調(diào)(supervised fine-tuning,SFT)[17]和基于人類反饋的強(qiáng)化學(xué)習(xí)(reinforcement learning from human feedback,RLHF)[18],使LLM能夠服從人類指令并生成符合人類價(jià)值觀的內(nèi)容,成為實(shí)用的人工智能助手。此處有監(jiān)督微調(diào)采用的上下文指令學(xué)習(xí)樣本[19]是一種特殊的提示形式[20]。LLM經(jīng)過有監(jiān)督微調(diào),甚至能掌握調(diào)用外部工具的能力,具備成為人機(jī)交互的統(tǒng)一接口、重塑現(xiàn)代信息處理系統(tǒng)的潛力。
生成式LLM因其出色的語義理解、文本生成和邏輯推理能力,正在被嘗試應(yīng)用于多個(gè)領(lǐng)域。在醫(yī)療領(lǐng)域,從基礎(chǔ)的醫(yī)療信息抽取、醫(yī)療實(shí)體標(biāo)準(zhǔn)化,到常用的文本分類、信息檢索、問答和對話等應(yīng)用,再到醫(yī)療領(lǐng)域特有的醫(yī)師考試、病歷生成、醫(yī)療結(jié)果預(yù)測、藥物研發(fā)和醫(yī)學(xué)影像分析等任務(wù)均有嘗試,取得了令人驚喜的結(jié)果。國內(nèi)外代表性生成式大語言模型的基本特點(diǎn)及性能測試情況如下。
ChatGPT(chat generative pre-trained transformer)是OpenAI于2022年11月30日發(fā)布的一款基于人工智能技術(shù)的聊天機(jī)器人,基于含有1 750億 參數(shù)的生成式大語言GPT-3.5模型[21]開發(fā),能與用戶以問答的形式進(jìn)行自然語言交互,為用戶提供通用、有用信息和建議。盡管ChatGPT沒有專門針對醫(yī)療領(lǐng)域進(jìn)行微調(diào),但也具有良好的醫(yī)療領(lǐng)域任務(wù)處理能力。ChatGPT基本能通過美國職業(yè)醫(yī)師資格考試(United States Medical Licensing Exam,USMLE),并能提供較好的解釋[22];未能通過中國國家醫(yī)師資格考試(Chinese National Medical Licensing Examination,CNMLE),但已表現(xiàn)出很大潛力[23]。在基礎(chǔ)生命支持(Basic Life Support,BLS)和高級心血管生命支持(Advanced Cardivascular Life Support,ACLS)考試中,BLS成績較好,ACLS成績較差,但均未通過[24]。ChatGPT也可應(yīng)用于臨床試驗(yàn)人員招募,經(jīng)過臨床實(shí)體識別、否定信息識別、關(guān)鍵詞抽取和臨床試驗(yàn)檢索等系列提示學(xué)習(xí)指令,獲得優(yōu)于傳統(tǒng)檢索和基于BERT關(guān)鍵信息抽取檢索方法的性能[25]。2023年3月14日OpenAI發(fā)布GPT-4,更新之后的ChatGPT(即ChatGPT 4.0)能力得到很大提升。在USMLE問題上正確率達(dá)90%[26];在CNMLE的中英文數(shù)據(jù)集和中國全國醫(yī)學(xué)研究生入學(xué)考試的中文數(shù)據(jù)集上均獲得超過80%的分?jǐn)?shù),明顯優(yōu)于前一版本[27]。盡管兩個(gè)版本的ChatGPT在回答語言流暢性方面性能出色,但在錯(cuò)誤回答方面依然存在較大比例的幻覺,開放領(lǐng)域幻覺現(xiàn)象更為明顯。在出院小結(jié)邏輯一致性和小組學(xué)習(xí)語言流暢性與滿意度的小規(guī)模測試中,ChatGPT 3.5不能滿足出院小結(jié)邏輯一致性要求,ChatGPT 4.0能在60%的情況下滿足。兩個(gè)版本ChatGPT在小組學(xué)習(xí)任務(wù)上的語言流暢性和滿意度達(dá)到100%。
2023年5月10日谷歌發(fā)布新一代人工智能大語言模型PaLM 2以及基于PaLM 2的醫(yī)療領(lǐng)域變體Med-PaLM[28]。Med-PaLM可以檢索醫(yī)學(xué)知識、回答問題、生成有用的模板和解碼醫(yī)學(xué)術(shù)語,以及從圖像(如X光胸片)中解讀信息。在MedMCQA數(shù)據(jù)集上,Med-PaLM獲得72.3%的分?jǐn)?shù),超過Flan-PaLM14%以上,但略低于GPT-4。在PubMedQA數(shù)據(jù)集上,Med-PaLM獲得75.0%的分?jǐn)?shù),低于BioGPT-Large的81.0%。在MMLU臨床主題上,Med-PaLM在6個(gè)主題中的3個(gè)上表現(xiàn)最佳,而GPT-4在其他3個(gè)上表現(xiàn)更好。在1 000多個(gè)實(shí)際醫(yī)療場景問答中,Med-PaLM在9項(xiàng)基準(zhǔn)測試中有8項(xiàng)表現(xiàn)良好,相較于人類醫(yī)生回答更受認(rèn)可;72.9%的回答被認(rèn)為與醫(yī)生回答一致。Med-PaLM在MedQA數(shù)據(jù)集上的測試結(jié)果很好,但醫(yī)學(xué)領(lǐng)域應(yīng)用關(guān)乎人的健康,僅通過簡單的基準(zhǔn)測試難以全面評估模型的生成事實(shí)性和回答安全性。因此,除了在MedQA數(shù)據(jù)集上的直觀定量對比,還進(jìn)行了人工評估,選取1 066個(gè)消費(fèi)者醫(yī)療問題,在9個(gè)與臨床效用相關(guān)的屬性(如事實(shí)性、醫(yī)學(xué)推理能力和低風(fēng)險(xiǎn)性)上,Med-PaLM在8個(gè)屬性上給出了比醫(yī)生評分更高的回答。
大部分現(xiàn)有語言模型是基于爬蟲爬取、未經(jīng)整理的大規(guī)模語料訓(xùn)練構(gòu)建的,而Galactica[29]大模型是在大量且精心構(gòu)造的人類科學(xué)知識語料庫上訓(xùn)練得到的。所使用語料庫包括4 800余萬篇論文、教科書和講義、數(shù)百萬種化合物和蛋白質(zhì)、科學(xué)網(wǎng)站、百科全書等。Galactica在MedQA數(shù)據(jù)集上的準(zhǔn)確率達(dá)到44.4%,在PubMedQA數(shù)據(jù)集上達(dá)到77.6%,在BioASQ數(shù)據(jù)集上達(dá)到94.3%。
為了研究醫(yī)學(xué)領(lǐng)域的生成式大語言模型,并評估其在醫(yī)學(xué)研究和醫(yī)療保健領(lǐng)域的實(shí)用性,佛羅里達(dá)大學(xué)研究團(tuán)隊(duì)整理了其附屬醫(yī)院包含820億token、去隱私信息的臨床文本,以及包含1 950億token的Pile數(shù)據(jù)集,將之一起用于訓(xùn)練GatorTronGPT[30]。該模型使用GPT-3架構(gòu)從頭開始訓(xùn)練,在醫(yī)療信息抽取、文本相似度計(jì)算等任務(wù)上均超過以往最佳性能。在PubMedQA數(shù)據(jù)集上取得77.6%的準(zhǔn)確率,在MedQA數(shù)據(jù)集上取得45.1%的準(zhǔn)確率,在MedMCQA數(shù)據(jù)集上取得42.9%的準(zhǔn)確率。
斯坦?;A(chǔ)模型研究中心和MosaicML聯(lián)合開發(fā)了一種經(jīng)訓(xùn)練可以解釋生物醫(yī)學(xué)語言的大型語言模型PubMedGPT[31]。其采用Pile數(shù)據(jù)集的PubMed Abstracts和PubMed Central部分訓(xùn)練得到。在MedQA數(shù)據(jù)集上的準(zhǔn)確率達(dá)到50.3%,在PubMedQA數(shù)據(jù)集上達(dá)到74.4%,在BioASQ數(shù)據(jù)集上達(dá)到95.7%。在使用較少訓(xùn)練數(shù)據(jù)的情況下獲得良好性能。
PMC-LLaMA[32]是上海交通大學(xué)于2023年4月發(fā)布的醫(yī)學(xué)大語言模型。其基于LLaMA-7B模型,在480萬篇生物醫(yī)學(xué)學(xué)術(shù)論文數(shù)據(jù)集基礎(chǔ)上微調(diào)得到。在3個(gè)生物醫(yī)學(xué)問答數(shù)據(jù)集(USMLE、MedMCQA和PubMedQA)上對比全量參數(shù)微調(diào)和PEFT微調(diào)兩種方式。與LLaMA-7B相比,全量參數(shù)微調(diào)得到的PMC-LLaMA在USMLE和MedMCQA上均獲得明顯的性能提升,在PubMedQA上則沒有提升;PEFT微調(diào)得到的PMC-LLaMA在3個(gè)數(shù)據(jù)集上均獲得明顯的性能提升。通過GPT-4評價(jià),PMC-LLaMA比LLaMA在zero-shot任務(wù)上能提供更多和輸入相關(guān)的上下文,表現(xiàn)出對醫(yī)學(xué)背景知識更深入的理解能力。受限于設(shè)備性能,PMC-LLaMA僅在480萬篇生物醫(yī)學(xué)論文數(shù)據(jù)集上訓(xùn)練了5輪,模型訓(xùn)練可能并不充分,暗示PMC-LLaMA還存在很大潛能。
MedGPT是醫(yī)聯(lián)于2023年5月25日發(fā)布的國內(nèi)首款基于Transformer框架的醫(yī)療大語言模型。模型從醫(yī)療知識圖譜中獲取大量準(zhǔn)確、結(jié)構(gòu)化的醫(yī)療知識,并使用經(jīng)過整理的近20億條真實(shí)世界中的醫(yī)患溝通對話、檢驗(yàn)檢測和病歷信息進(jìn)行訓(xùn)練,使用800萬條高質(zhì)量結(jié)構(gòu)化臨床診療數(shù)據(jù)進(jìn)行微調(diào),最后通過醫(yī)生的真實(shí)反饋進(jìn)行強(qiáng)化學(xué)習(xí)。MedGPT率先實(shí)現(xiàn)使AI大模型與真實(shí)患者連續(xù)自由對話的功能,能夠整合多種醫(yī)學(xué)檢驗(yàn)檢測模態(tài)能力,支持醫(yī)療問診中的多模態(tài)輸入和輸出。問診結(jié)束后,MedGPT還能給患者開具合適的醫(yī)學(xué)檢查項(xiàng)目,再根據(jù)問診和檢查結(jié)果,為患者設(shè)計(jì)治療方案,實(shí)現(xiàn)全流程覆蓋的智能化診療。醫(yī)聯(lián)抽取532名復(fù)診患者檔案進(jìn)行信息脫敏,并進(jìn)行模擬首診實(shí)驗(yàn),結(jié)果顯示MedGPT的診斷結(jié)果與線下門診的原有診斷吻合率超過97.5%,充分證明MedGPT的診斷能力。MedGPT能從多輪問診中收集足夠信息,逐步得出診斷結(jié)論,診斷的準(zhǔn)確率和安全性較高,已達(dá)到主治醫(yī)師水平。
山海大模型是云知聲于2023年5月24日發(fā)布的通用領(lǐng)域大模型,已進(jìn)入有序迭代階段。其能快速積累特定領(lǐng)域的專業(yè)知識,通過語料的不斷迭代升級突破專業(yè)能力,在醫(yī)療領(lǐng)域的性能也十分優(yōu)異。為提供更加全面、專業(yè)的醫(yī)療知識支持,山海大模型學(xué)習(xí)了大量醫(yī)學(xué)文獻(xiàn)、醫(yī)學(xué)教材和病歷數(shù)據(jù),得到醫(yī)療基座模型。2023年6月在MedQA任務(wù)上的準(zhǔn)確率提升到87.1%,超越了Med-PaLM;臨床執(zhí)業(yè)醫(yī)師資格考試提升至523分(總分600分),超過99%的考生。同年7月28日迎來新一輪迭代升級,并在當(dāng)月的全球大模型綜合性考試評測(C-Eval)中躋身榜單前10名。在同年8月24—27日舉辦的第十七屆全國知識圖譜與語義計(jì)算大會(huì)上,云知聲團(tuán)隊(duì)通過大賽官方提供的訓(xùn)練數(shù)據(jù)對醫(yī)療基座模型進(jìn)行指令微調(diào),并采取數(shù)據(jù)增強(qiáng)、思維鏈等技術(shù)手段不斷優(yōu)化模型表現(xiàn),再利用模型融合技術(shù)構(gòu)建UNIGPT-MED比賽模型,在PromtCBLUE醫(yī)療大模型評測中奪得AB雙榜冠軍。同年8月28日山海大模型再次迭代升級,參數(shù)規(guī)模達(dá)到千億級。山海大模型2.0在預(yù)訓(xùn)練階段使用海量的醫(yī)學(xué)病歷、醫(yī)學(xué)教材、臨床指南和醫(yī)學(xué)文獻(xiàn)等數(shù)據(jù),并在對齊階段使用人機(jī)結(jié)合方法構(gòu)建近百萬級的病歷理解、醫(yī)學(xué)考試和醫(yī)學(xué)知識問答等指令學(xué)習(xí)數(shù)據(jù)。當(dāng)月實(shí)測性能在全球大模型綜合性考試評測(C-Eval)中超越GPT-4,以平均70分的成績位列第3名。
添翼醫(yī)療大模型是東軟于2023年6月發(fā)布的醫(yī)療領(lǐng)域大模型,與飛標(biāo)醫(yī)學(xué)影像標(biāo)注平臺(tái)4.0、基于Web的虛擬內(nèi)窺鏡等多款“AI+醫(yī)療行業(yè)應(yīng)用”相結(jié)合,形成在“AI+醫(yī)療領(lǐng)域”的“1+N”組合,加速推動(dòng)了東軟“AI+領(lǐng)域應(yīng)用”的人工智能生態(tài)圖譜戰(zhàn)略布局。醫(yī)生能通過自然語言與添翼交互,快速準(zhǔn)確地完成醫(yī)療報(bào)告與病歷、醫(yī)囑開立。添翼能成為患者全天私人專屬醫(yī)生,提供全面的診后健康飲食、營養(yǎng)與運(yùn)動(dòng)建議等。
百度靈醫(yī)(靈醫(yī)bot)是基于百度文心大模型,融合全國超800家醫(yī)院、4 000多家基層診療機(jī)構(gòu)的智慧醫(yī)療服務(wù)經(jīng)驗(yàn),推出的醫(yī)療領(lǐng)域?qū)υ挋C(jī)器人。此外,靈醫(yī)bot所使用醫(yī)學(xué)知識圖譜包含萬級醫(yī)學(xué)專業(yè)書籍、億級權(quán)威專家審校的科普內(nèi)容;訓(xùn)練數(shù)據(jù)來自超百萬條經(jīng)三甲醫(yī)院主任醫(yī)師帶隊(duì)的醫(yī)學(xué)專家隊(duì)伍標(biāo)注、評估和整理的醫(yī)學(xué)數(shù)據(jù);涵蓋長/短醫(yī)療文本分類、醫(yī)療問答、醫(yī)患對話和病歷生成、沖突檢測、因果關(guān)系推理、病灶檢測、分割與分類等高質(zhì)量標(biāo)注語料。面向醫(yī)療領(lǐng)域從業(yè)者,靈醫(yī)bot能對自有知識內(nèi)容進(jìn)行快速問答,提供病歷生成、輔助治療、病歷質(zhì)控等服務(wù)。面向患者,靈醫(yī)bot升級了智能分導(dǎo)診、預(yù)問診等功能,提升病因分析、危急情況識別、檢驗(yàn)檢查識別、口語表達(dá)識別的及時(shí)性和準(zhǔn)確性。2023年7月20日百度“靈醫(yī)智惠”與固生堂聯(lián)合舉辦了大模型戰(zhàn)略合作啟動(dòng)儀式,促成了國內(nèi)中醫(yī)藥領(lǐng)域首個(gè)大模型應(yīng)用落地,并在同年9月19日正式發(fā)布。
Deepwise MetAI是深睿醫(yī)療于2023年4月推出的智慧影像和大數(shù)據(jù)通用平臺(tái),也是國內(nèi)首個(gè)融合計(jì)算機(jī)視覺、自然語言處理、深度學(xué)習(xí)等技術(shù)構(gòu)建的平臺(tái)。以深睿自主研發(fā)的通用醫(yī)學(xué)影像理解模型DeepWise-CIRP Model為支撐,將影像科日常應(yīng)用產(chǎn)生的數(shù)據(jù)結(jié)構(gòu)化,進(jìn)而實(shí)現(xiàn)影像處理、打印、診斷、會(huì)診、教學(xué)、科研一站式全周期智能管理,并實(shí)現(xiàn)跨越呼吸系統(tǒng)、心血管系統(tǒng)、神經(jīng)系統(tǒng)、運(yùn)動(dòng)系統(tǒng)、女性關(guān)愛等多個(gè)領(lǐng)域圖文并茂的AI生成式結(jié)構(gòu)化報(bào)告。Deepwise MetAI在科研和市場需求領(lǐng)域均獲得認(rèn)可。在科研方面,2023年6月16日深睿醫(yī)療與香港大學(xué)、四川大學(xué)華西醫(yī)學(xué)院、澳門科技大學(xué)合作開展關(guān)于多模態(tài)數(shù)據(jù)的醫(yī)學(xué)診斷研究,使用IRENE深度學(xué)習(xí)框架在多模態(tài)數(shù)據(jù)上訓(xùn)練醫(yī)學(xué)診斷模型,顯著改善4種疾病(支氣管擴(kuò)張、氣胸、間質(zhì)性肺疾病和結(jié)核病)的診斷效果[33]。
ClouD GPT是智云健康于2023年5月發(fā)布的慢性病管理領(lǐng)域的首個(gè)大語言模型,由ClouDr Machine Learning Infrastructure基礎(chǔ)平臺(tái)提供智能診斷技術(shù),并成為智云醫(yī)療大腦的一部分。經(jīng)過大量、專業(yè)的醫(yī)學(xué)數(shù)據(jù)訓(xùn)練,ClouD GPT能夠應(yīng)對不同模式下的復(fù)雜情況。目前智云健康已在醫(yī)院及互聯(lián)網(wǎng)醫(yī)院的軟件即服務(wù)(software as a service,SaaS)中安裝應(yīng)用ClouD GPT,主要用于臨床輔助決策。在醫(yī)院SaaS方面,ClouD GPT能夠全面分析患者病情,為同類疾病提供預(yù)警及建議治療方案,協(xié)助醫(yī)師更快、更精準(zhǔn)地確立診療方案。在互聯(lián)網(wǎng)醫(yī)院SaaS方面,ClouD GPT能夠協(xié)助醫(yī)生及藥師進(jìn)行處方質(zhì)量控制,并提升醫(yī)生診療方案的效率及準(zhǔn)確性。此外,得益于智云醫(yī)療大腦,ClouD GPT還可以應(yīng)用于AI藥物和器械研發(fā),為慢性病數(shù)字醫(yī)療提供多項(xiàng)關(guān)鍵技術(shù)。例如,在心血管疾病領(lǐng)域成功研發(fā)了“ClouDTx-CVD”數(shù)字療法,是首個(gè)公開發(fā)表的在心血管疾病治療領(lǐng)域采用數(shù)字療法干預(yù)血脂的臨床研究。
國內(nèi)已發(fā)布的其他醫(yī)療領(lǐng)域大模型,包括以開源通用預(yù)訓(xùn)練大語言模型為基座的哈爾濱工業(yè)大學(xué)的本草(原名華佗)、香港中文大學(xué)(深圳)的華佗等,以華為鯤鵬生態(tài)下自研通用預(yù)訓(xùn)練大語言模型腦海為基座的鵬城實(shí)驗(yàn)室的扁鵲等。
醫(yī)學(xué)依賴于專家知識和經(jīng)驗(yàn),生成式大語言模型依賴于數(shù)據(jù),醫(yī)療專家知識和經(jīng)驗(yàn)往往蘊(yùn)含在醫(yī)療數(shù)據(jù)中,這為生成式大語言模型緩解醫(yī)療資源短缺提供了可能性。未來生成式大語言模型在醫(yī)療領(lǐng)域應(yīng)用前景廣闊,但模型評估仍存在諸多挑戰(zhàn)。雖然已有在公開數(shù)據(jù)集上的模型評估、基于ChatGPT 4.0的自動(dòng)評估,甚至還有專業(yè)醫(yī)生的人工評估,但這些評估均存在規(guī)模小、不全面、封閉和難以復(fù)制等問題。目前,盡管已經(jīng)涌現(xiàn)出各種各樣的生成式大語言模型,但由于缺乏統(tǒng)一評估標(biāo)準(zhǔn),不同模型的性能難以客觀全面地進(jìn)行比較,這也導(dǎo)致不同研究結(jié)果難以互相驗(yàn)證和重現(xiàn),從而大大降低模型可信度。
幻覺指大模型在處理常識問題時(shí),生成的內(nèi)容在語義或句法上符合邏輯,但內(nèi)容不正確或無意義[34]。醫(yī)療領(lǐng)域錯(cuò)誤或不準(zhǔn)確的信息可能對患者健康產(chǎn)生嚴(yán)重影響。因此,應(yīng)用生成式大語言模型時(shí)準(zhǔn)確性和可靠性至關(guān)重要。評估和減少生成式大語言模型在醫(yī)療領(lǐng)域中的幻覺是確保模型高準(zhǔn)確性和可靠性的關(guān)鍵。為此,研究者最近提出了一些基準(zhǔn)數(shù)據(jù)集。例如Med-HALT[35],包括創(chuàng)新的檢測方式,并涵蓋多國醫(yī)療檢查,可以評估Text-Davinci、GPT-3.5、LLaMa-2、MPT和Falcon等LLMs的性能??傮w而言,面向醫(yī)療領(lǐng)域的幻覺數(shù)據(jù)集仍然匱乏,這一情況可能是由醫(yī)療數(shù)據(jù)隱私和安全性導(dǎo)致的。
醫(yī)療數(shù)據(jù)通常包含敏感信息。在使用生成式大語言模型時(shí),必須確保數(shù)據(jù)的隱私和安全得到充分保護(hù),以防止數(shù)據(jù)泄露和濫用。否則可能會(huì)引發(fā)敏感信息濫用、患者對醫(yī)療機(jī)構(gòu)信任度降低、醫(yī)患矛盾激化等一系列重大問題。一是在數(shù)據(jù)合規(guī)性方面,醫(yī)療數(shù)據(jù)通常受到法規(guī)(如美國《健康保險(xiǎn)攜帶和責(zé)任法案》(Health Insurance Portability and Accountability Act,HIPPA)和歐盟《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation,GDPR)等)的約束,需要確保生成式大語言模型在訓(xùn)練和應(yīng)用時(shí)符合這些法規(guī),包括數(shù)據(jù)訪問控制、審計(jì)跟蹤、數(shù)據(jù)脫敏等合規(guī)性措施。在一些情況下,醫(yī)療領(lǐng)域需要多個(gè)組織之間共享數(shù)據(jù)以進(jìn)行合作研究。確保這些共享數(shù)據(jù)的隱私和安全性是一個(gè)復(fù)雜的問題,需要設(shè)計(jì)安全的數(shù)據(jù)共享協(xié)議和技術(shù)。
為了確保生成式大語言模型的開發(fā)和應(yīng)用符合道德準(zhǔn)則和法規(guī),建立相應(yīng)倫理審查和監(jiān)管機(jī)制將有助于提高醫(yī)療AI大模型系統(tǒng)的可信度。應(yīng)建立專門的倫理審查委員會(huì),對生成式大語言模型數(shù)據(jù)收集、存儲(chǔ)和處理,數(shù)據(jù)中偏見影響的評估等方面進(jìn)行全面跟蹤監(jiān)管,以確保生成式大語言模型的合法性、道德性和可信度。
與通用領(lǐng)域相比,醫(yī)療領(lǐng)域因其特殊性,對生成式大語言模型的結(jié)果可控性要求更高,以確保其合理性、安全性和符合醫(yī)療實(shí)踐規(guī)范。但生成式大語言模型的高度復(fù)雜性和黑盒性質(zhì),使其生成的結(jié)果難以有效控制和管理。缺乏結(jié)果可控性表現(xiàn)在算法本身可控難度大,以及可能引發(fā)的醫(yī)療嚴(yán)重后果和法律法規(guī)風(fēng)險(xiǎn)等多個(gè)方面。
深度學(xué)習(xí)模型可解釋性差的問題至今仍難以解決。就醫(yī)療生成式大語言模型而言,難以解釋其決策過程以及模型的錯(cuò)誤或不當(dāng)行為會(huì)帶來以下問題。首先,醫(yī)療專業(yè)人士和患者難以理解模型為何作出特定的醫(yī)療決策或提供特定的診斷建議。醫(yī)生可能會(huì)不信任和否定模型建議,以作出最佳治療決策。同時(shí)患者希望了解為什么模型提供特定醫(yī)療建議,可解釋性的缺乏會(huì)導(dǎo)致患者對治療方案不信任。其次,可解釋性不足可能導(dǎo)致模型的錯(cuò)誤無法被及時(shí)發(fā)現(xiàn)和修正。如果模型產(chǎn)生不準(zhǔn)確結(jié)果或者基于不當(dāng)數(shù)據(jù)進(jìn)行決策,但無法解釋為何會(huì)出現(xiàn)這種情況,就可能延誤患者治療或帶來不當(dāng)醫(yī)療建議。
一是不同領(lǐng)域數(shù)據(jù)具有不同特點(diǎn)和分布。醫(yī)療數(shù)據(jù)可能包含豐富的患者病歷、醫(yī)學(xué)圖像和實(shí)驗(yàn)數(shù)據(jù),不同醫(yī)療領(lǐng)域的數(shù)據(jù)特征和分布截然不同。例如將一個(gè)肺部疾病模型遷移到眼科領(lǐng)域可能會(huì)面臨數(shù)據(jù)不匹配問題。模型需要適應(yīng)新領(lǐng)域數(shù)據(jù),需要大量標(biāo)記數(shù)據(jù)和領(lǐng)域適應(yīng)技術(shù)。每個(gè)醫(yī)療細(xì)分領(lǐng)域都有其獨(dú)特的臨床實(shí)踐和標(biāo)準(zhǔn),跨領(lǐng)域遷移需要將領(lǐng)域?qū)I(yè)知識整合到模型中,以確保生成的結(jié)果與特定領(lǐng)域最佳實(shí)踐相符。二是醫(yī)療大模型跨領(lǐng)域遷移能力受到倫理和法律法規(guī)的影響。不同領(lǐng)域的醫(yī)療數(shù)據(jù)可能受到不同的倫理和法規(guī)約束。將模型遷移到新領(lǐng)域需要確保其符合新領(lǐng)域法規(guī)要求,尤其是涉及患者隱私和數(shù)據(jù)保護(hù)的問題。三是跨領(lǐng)域遷移面臨風(fēng)險(xiǎn)管理問題??珙I(lǐng)域遷移可能伴隨一定風(fēng)險(xiǎn),包括模型性能下降、不準(zhǔn)確的結(jié)果以及患者安全等問題。
短期內(nèi)發(fā)展醫(yī)療大語言模型的首要任務(wù)是建立統(tǒng)一評估體系。理想的評估體系應(yīng)具備以下6個(gè)特點(diǎn)。一是全面性,能夠全面涵蓋各個(gè)科室,并覆蓋診療全流程(導(dǎo)診、首診、復(fù)診、復(fù)健、預(yù)防)。二是可重復(fù)性,能夠重復(fù)實(shí)施,并對相同模型給出一致的評估結(jié)果。三是區(qū)分性,能夠?qū)Σ煌降哪P徒o出有區(qū)分度的評估結(jié)果。四是權(quán)威性,評估應(yīng)由權(quán)威機(jī)關(guān)主持,評測內(nèi)容應(yīng)高度保密,評估流程應(yīng)高度透明,評估結(jié)果應(yīng)具有一定法律效力。五是時(shí)間可擴(kuò)展性,生物醫(yī)學(xué)處于高速發(fā)展中,人類對疾病的認(rèn)知和診療方式亦不斷進(jìn)步,為了體現(xiàn)模型掌握最新醫(yī)學(xué)知識的能力,需要每隔一段時(shí)間對評測內(nèi)容進(jìn)行更新。六是多維度、多粒度,評估結(jié)果不單要體現(xiàn)模型綜合水平,還要具體反映模型在用戶友好性、事實(shí)性、內(nèi)容一致性等不同維度的能力,并能夠細(xì)化指出模型的具體事實(shí)性錯(cuò)誤或其他扣分項(xiàng)。目前可以從現(xiàn)有基礎(chǔ)任務(wù)數(shù)據(jù)集(如英文的I2B2、N2C2、PubMedQA[36]、MedMCQA[37]和USMLE[38]等,中文的CBLUE[39]、CNMLE、CMB[40]等)開始,逐漸組成多層次、多維度的評估體系和數(shù)據(jù)集矩陣。
雖然目前大語言模型已經(jīng)能夠在文本信息處理上取得不錯(cuò)效果,但文本只是醫(yī)學(xué)信息的一種模態(tài),醫(yī)學(xué)信息還包括視覺、聽覺、醫(yī)學(xué)影像、基因組學(xué)等其他重要模態(tài)。這些非文本模態(tài)信息一方面是醫(yī)患交互的重要接口,另一方面能夠?yàn)榇笳Z言模型提供豐富的真實(shí)世界語境,約束大語言模型的生成內(nèi)容。因此,探索醫(yī)療多模態(tài)大語言模型是必由之路。
醫(yī)療知識圖譜涵蓋細(xì)粒度、高質(zhì)量的人類醫(yī)學(xué)專家知識,恰好能與生成式大語言模型形成互補(bǔ)。因此將大語言模型與知識圖譜相結(jié)合有可能解決大語言模型的幻覺問題,提高生成內(nèi)容的可控性和可解釋性。然而目前知識圖譜在大語言模型領(lǐng)域的應(yīng)用主要還停留在信息檢索方面,如何將大語言模型輸入、輸出的文字和知識圖譜細(xì)粒度地對齊以實(shí)現(xiàn)文本生成過程與知識圖譜的深層次耦合是未來值得探索的方向。
隨著個(gè)性化醫(yī)療的發(fā)展,大語言模型在醫(yī)療領(lǐng)域的應(yīng)用也將更加個(gè)性化。未來,可以根據(jù)患者的個(gè)性化需求和特征,定制開發(fā)適用于不同場景和人群的大語言模型應(yīng)用,如個(gè)性化健康管理、個(gè)性化藥物研發(fā)等。為了實(shí)現(xiàn)這一目標(biāo),一方面可以嘗試將患者的既往病歷或體檢報(bào)告等醫(yī)療記錄作為大語言模型的上下文(這需要模型能有效支持非常規(guī)的上下文長度);另一方面,可以嘗試采用更細(xì)粒度的數(shù)據(jù)分析和挖掘技術(shù),顯式地挖掘患者的個(gè)性化特征和需求,為個(gè)性化醫(yī)療提供精準(zhǔn)支持。
生成式大語言模型在醫(yī)療領(lǐng)域的應(yīng)用前景廣闊,但仍存在亟待解決的關(guān)鍵問題,有待進(jìn)一步深入研究和持續(xù)改進(jìn)。未來,需要學(xué)術(shù)界和企業(yè)界繼續(xù)加強(qiáng)相關(guān)研究和探索,快速推動(dòng)生成式大語言模型在醫(yī)療領(lǐng)域的應(yīng)用和發(fā)展。