關(guān)鍵詞:意圖識(shí)別;標(biāo)簽拆分;大語(yǔ)言模型;自然語(yǔ)言理解
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A
0引言
(Introduction)自然語(yǔ)言理解[1]是人工智能領(lǐng)域的一個(gè)關(guān)鍵分支,其致力于讓計(jì)算機(jī)能夠理解和解釋人類自然語(yǔ)言的含義。其中,意圖識(shí)別是自然語(yǔ)言理解的關(guān)鍵技術(shù),它能幫助計(jì)算機(jī)理解人類的需求,可以提供個(gè)性化服務(wù)。目前,自然語(yǔ)言理解已廣泛應(yīng)用于虛擬助手、智能客服[2]和語(yǔ)音識(shí)別等領(lǐng)域,特別是在輔助問(wèn)診中,其可以協(xié)助提高醫(yī)患溝通質(zhì)量,幫助醫(yī)生獲取更多的病情信息,從而節(jié)省診療時(shí)間,提高工作效率。
本文對(duì)醫(yī)療領(lǐng)域的意圖識(shí)別方法進(jìn)行了相關(guān)研究,針對(duì)意圖標(biāo)簽數(shù)量過(guò)多帶來(lái)的識(shí)別挑戰(zhàn),提出了一種拆分策略,將復(fù)雜的分類任務(wù)拆分為兩個(gè)相對(duì)獨(dú)立的子任務(wù),并在解碼層采用雙頭解碼機(jī)制,實(shí)現(xiàn)同時(shí)對(duì)兩個(gè)子任務(wù)進(jìn)行解碼。該方法不僅充分考慮了標(biāo)簽之間的內(nèi)在聯(lián)系,還能有效學(xué)習(xí)多個(gè)任務(wù),提升了意圖識(shí)別的準(zhǔn)確性和效率。同時(shí),將本文提出的方法與大語(yǔ)言模型進(jìn)行對(duì)比,并深入分析不同模型的表現(xiàn)存在差異的原因,可為醫(yī)療領(lǐng)域意圖識(shí)別的后續(xù)研究提供參考依據(jù)。
1 相關(guān)研究(Related work)
隨著深度學(xué)習(xí)技術(shù)的日益成熟,其在意圖識(shí)別領(lǐng)域的應(yīng)用取得了顯著的進(jìn)步和一系列成就。楊志明等[3]提出將ICDCNN(雙通道卷積神經(jīng)網(wǎng)絡(luò))算法用于意圖分類,該方法利用Word2Vec和Embedding層提取問(wèn)句語(yǔ)義特征,采用雙通道卷積運(yùn)算結(jié)合字、詞級(jí)別詞向量的方式,捕捉深層次語(yǔ)義信息;RAVURI等[4]使用RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))和LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò))模型解決意圖分類問(wèn)題,結(jié)果顯示LSTM 模型的意圖識(shí)別錯(cuò)誤率低于RNN;HOU等[5]針對(duì)航空信息領(lǐng)域的意圖識(shí)別,提出了一種增加門控機(jī)制及條件隨機(jī)場(chǎng)約束條件的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)方法,實(shí)驗(yàn)證明,該方法提高了識(shí)別準(zhǔn)確率;魏鵬飛等[6]提出采用注意力循環(huán)神經(jīng)網(wǎng)絡(luò)解決意圖識(shí)別問(wèn)題,該方法在ATIS(Airline Travel Information System)數(shù)據(jù)集上的表現(xiàn)優(yōu)異;YAO等[7]提出的基于圖卷積神經(jīng)網(wǎng)絡(luò)的槽填充框架在多個(gè)分類任務(wù)基準(zhǔn)數(shù)據(jù)集上的表現(xiàn)較好;華冰濤等[8]提出了一種BLSTM-CNN-CRF(雙向長(zhǎng)短期記憶網(wǎng)絡(luò)-卷積神經(jīng)網(wǎng)絡(luò)-條件隨機(jī)場(chǎng))模型,用于構(gòu)建意圖識(shí)別和槽填充的聯(lián)合模型;GOO等[9]介紹了一種基于槽門控機(jī)制的雙向關(guān)聯(lián)模式,該模式能有效地結(jié)合兩項(xiàng)任務(wù)的信息進(jìn)一步探索意圖和語(yǔ)義槽之間的關(guān)系。隨著注意力機(jī)制被越來(lái)越多的研究者關(guān)注,YANG等[10]提出了一種創(chuàng)新的聯(lián)合模型,該模型的核心在于其位置感知的多頭注意機(jī)制;樊駿鋒等[11]針對(duì)現(xiàn)有研究中很少有意圖-槽相關(guān)性進(jìn)行明確建模的問(wèn)題,通過(guò)BiLSTM(雙向長(zhǎng)短期記憶網(wǎng)絡(luò))和注意力機(jī)制,提出了一種用于聯(lián)合意圖預(yù)測(cè)和槽填充的新框架;李實(shí)等[12]提出了一種基于BiLSTM 和圖注意力網(wǎng)絡(luò)的方法,旨在識(shí)別用戶話語(yǔ)中的多個(gè)意圖信息并優(yōu)化語(yǔ)義槽填充。
2 基于雙頭解碼機(jī)制的意圖識(shí)別方法(Intentrecognition method based on dual-head decodingmechanism)
一個(gè)優(yōu)秀的模型能夠充分利用數(shù)據(jù)集中的信息準(zhǔn)確捕捉用戶的意圖,從而提升意圖識(shí)別的準(zhǔn)確性和效率。因此,在進(jìn)行意圖識(shí)別任務(wù)時(shí),需要在實(shí)際應(yīng)用中根據(jù)具體任務(wù)需求和資源條件,選擇最適合的模型進(jìn)行意圖識(shí)別,確保任務(wù)的順利完成和取得良好的效果。
2.1IMCS(Intelligent Medical Consultation System)數(shù)據(jù)集中意圖標(biāo)簽的拆分
為了促進(jìn)自動(dòng)化醫(yī)療問(wèn)診的發(fā)展,復(fù)旦大學(xué)大數(shù)據(jù)學(xué)院在復(fù)旦大學(xué)醫(yī)學(xué)院專家的指導(dǎo)下,構(gòu)建了IMCS數(shù)據(jù)集,該數(shù)據(jù)集收集了真實(shí)的在線醫(yī)患對(duì)話,并進(jìn)行了多層次的人工標(biāo)注,標(biāo)注方式采用句子級(jí)標(biāo)注,包含命名實(shí)體、對(duì)話意圖、癥狀標(biāo)簽、醫(yī)療報(bào)告等。IMCS數(shù)據(jù)集中標(biāo)注了醫(yī)患對(duì)話行為,共定義了16類意圖,對(duì)話意圖的類別的定義如表1所示。
輸入的是多輪對(duì)話語(yǔ)句組成的整段醫(yī)患對(duì)話;輸出為每一條對(duì)話語(yǔ)句的句子級(jí)意圖標(biāo)簽。通過(guò)仔細(xì)觀察表1中的16種對(duì)話意圖可以發(fā)現(xiàn),除了“診斷”和“其他”兩個(gè)特殊標(biāo)簽,剩余的14種標(biāo)簽都是由“A-B”的形式構(gòu)成,并且是A和B的笛卡爾積的形式,因此將14種標(biāo)簽進(jìn)行拆分:A定義為意圖標(biāo)簽,有2個(gè)取值,分別是“提問(wèn)”和“告知”;B定義為行為標(biāo)簽,有7個(gè)取值,分別是“癥狀”“病因”“基本信息”“已有檢查和治療”“用藥建議”“就醫(yī)建議”“注意事項(xiàng)”。對(duì)于“診斷”和“其他”兩類特殊的標(biāo)簽,選擇將其視為“診斷-診斷”和“其他-其他”分別放入意圖標(biāo)簽和行為標(biāo)簽兩個(gè)集合中。對(duì)IMCS數(shù)據(jù)集意圖標(biāo)簽的拆分如圖1所示。由于模型在解碼過(guò)程中存在一定概率生成不存在的標(biāo)簽,如“其他-癥狀”,為了提升模型的識(shí)別準(zhǔn)確性和可靠性,將這不存在的標(biāo)簽進(jìn)行簡(jiǎn)單歸類,統(tǒng)一歸為特定的標(biāo)簽,例如將“其他-癥狀”歸類為“其他”“診斷-癥狀”歸類為“診斷”。
2.2 雙頭解碼模型框架設(shè)計(jì)
多層感知機(jī)(Multilayer Perceptron,MLP)是一種基于前饋神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型。MLP由多個(gè)神經(jīng)元層組成,其中每個(gè)神經(jīng)元層與前一層全連接。這種結(jié)構(gòu)使得MLP可以幫助模型學(xué)習(xí)非線性特征,提高模型的表征能力。MLP模型的基本結(jié)構(gòu)包括輸入層、隱藏層和輸出層(圖2)。
MLP的輸入層接收的輸入數(shù)據(jù)通常是一組特征向量。每個(gè)隱藏層包含若干個(gè)神經(jīng)元。這些神經(jīng)元通過(guò)激活函數(shù)將輸入數(shù)據(jù)進(jìn)行非線性轉(zhuǎn)換,以便捕捉更復(fù)雜的特征。常用的激活函數(shù)包括Sigmoid函數(shù)、ReLU函數(shù)等。根據(jù)任務(wù)需求,輸出層可以為一個(gè)或多個(gè)神經(jīng)元。在分類問(wèn)題中,通常使用Softmax函數(shù)將輸出轉(zhuǎn)換為概率分布。在此任務(wù)中進(jìn)行預(yù)測(cè)時(shí),輸入的是一整段對(duì)話,但Softmax函數(shù)是一種局部的解碼方法,可以獨(dú)立地對(duì)每個(gè)類別進(jìn)行預(yù)測(cè)。CRF是一種全局的解碼方法,對(duì)句子之間的意圖轉(zhuǎn)移進(jìn)行解碼,能夠考慮標(biāo)簽之間的依賴關(guān)系,通過(guò)全局學(xué)習(xí)標(biāo)簽序列的概率分布,進(jìn)一步提高標(biāo)簽預(yù)測(cè)的準(zhǔn)確性。所以,在解碼層采用MLP+CRF的結(jié)構(gòu)形式,其中MLP負(fù)責(zé)特征提取和轉(zhuǎn)換,將輸入數(shù)據(jù)映射到特征空間;CRF負(fù)責(zé)考慮標(biāo)簽之間的關(guān)系和約束,以及對(duì)整個(gè)序列進(jìn)行聯(lián)合標(biāo)簽分類。
整個(gè)意圖標(biāo)簽分類任務(wù)的模型結(jié)構(gòu)編碼層由BERT+BiLSTM框架構(gòu)成,通過(guò)BERT提取單條對(duì)話語(yǔ)句的句子級(jí)語(yǔ)義特征,使模型可以更好地理解上下文信息,BiLSTM 捕捉文本中的句子結(jié)構(gòu)和順序信息,對(duì)每條句子提取對(duì)話中的上下文語(yǔ)義特征。解碼層對(duì)拆分后的兩個(gè)標(biāo)簽集合通過(guò)雙頭MLP+CRF進(jìn)行解碼,雙頭解碼機(jī)制通常會(huì)有兩個(gè)頭部(或者稱為任務(wù)),每個(gè)頭部對(duì)應(yīng)一個(gè)不同的標(biāo)簽集合。通過(guò)學(xué)習(xí)狀態(tài)之間的轉(zhuǎn)移概率,模型可以預(yù)測(cè)每個(gè)時(shí)刻的最佳標(biāo)簽,同時(shí)考慮兩個(gè)標(biāo)簽集合之間的關(guān)系,以便更好地處理多標(biāo)簽分類問(wèn)題,并增強(qiáng)模型的泛化能力。BERT+BiLSTM+MLP+CRF模型框架如圖3所示,拆分后的兩個(gè)標(biāo)簽集合共享同一個(gè)特征編碼器,使用不同的解碼器進(jìn)行解碼。
2.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
2.3.1 實(shí)驗(yàn)設(shè)置與評(píng)價(jià)指標(biāo)
該實(shí)驗(yàn)?zāi)P陀蒔yTorch深度學(xué)習(xí)框架、Python 3.7版本的編程語(yǔ)言構(gòu)建。在實(shí)驗(yàn)過(guò)程中不斷對(duì)模型參數(shù)進(jìn)行調(diào)整,得到最適合模型的參數(shù)。模型參數(shù)設(shè)置如表2所示,選擇F1 值作為評(píng)價(jià)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估。
2.3.2 實(shí)驗(yàn)結(jié)果分析
為了驗(yàn)證該模型應(yīng)用在IMCS數(shù)據(jù)集意圖識(shí)別任務(wù)上的有效性,選取TextCNN(卷積神經(jīng)網(wǎng)絡(luò)文本分類模型)、BERT+TextCNN(基于Transformer的雙向編碼器表示+卷積神經(jīng)網(wǎng)絡(luò)文本分類模型)和BERT+BiLSTM+CRF模型作為對(duì)照實(shí)驗(yàn)組,最終實(shí)驗(yàn)結(jié)果如表3所示。
由表3可以看出,基于雙頭解碼機(jī)制的意圖識(shí)別方法在IMCS數(shù)據(jù)集上的F1 值達(dá)到了78%,相比于其他3種分類模型的F1 值,分別提高了9百分點(diǎn)、3百分點(diǎn)、2百分點(diǎn),也證明了該方法的有效性。將16類意圖標(biāo)簽拆分為兩大類標(biāo)簽,從而間接減少了類別數(shù)量,使得學(xué)習(xí)難度下降。通過(guò)編碼層提取話語(yǔ)級(jí)、對(duì)話級(jí)特征輸入解碼層,再由雙頭解碼機(jī)制處理多個(gè)標(biāo)簽集合。每個(gè)頭部對(duì)應(yīng)一個(gè)任務(wù)或標(biāo)簽集合,對(duì)拆分后的兩大類標(biāo)簽進(jìn)行單獨(dú)的解碼,得到醫(yī)患對(duì)話中每條語(yǔ)句對(duì)應(yīng)的對(duì)話意圖,這種細(xì)粒度的劃分更有利于緩解流水線式多任務(wù)學(xué)習(xí)之間的誤差傳遞。
3 基于大語(yǔ)言模型的意圖識(shí)別方法(Intentrecognition method based on large language model)
本文“第2章節(jié)”采用的意圖識(shí)別方法是基于深度學(xué)習(xí)的方法開展研究,而此類方法的訓(xùn)練通常需要大量數(shù)據(jù)進(jìn)行標(biāo)注。如今,大語(yǔ)言模型[13](Large Language Model,LLM)在對(duì)話式AI領(lǐng)域發(fā)揮了越來(lái)越重要的作用,它能生成豐富嚴(yán)謹(jǐn)?shù)奈谋?,但?shí)質(zhì)還是文本補(bǔ)全。LLM 因具備多項(xiàng)優(yōu)勢(shì)而受到學(xué)者對(duì)其摘要、分類和生成功能的廣泛探索。本文提出一種基于LLM的醫(yī)療領(lǐng)域意圖識(shí)別方法,并與前文所提出的BERT+BiLSTM+MLP+CRF模型進(jìn)行比較和分析。
3.1 大語(yǔ)言模型的實(shí)現(xiàn)方法
BERT模型的發(fā)布證明了預(yù)訓(xùn)練模型與Transformer架構(gòu)的優(yōu)越性,語(yǔ)言模型的參數(shù)量大幅度增加,自然語(yǔ)言處理隨之進(jìn)入大型語(yǔ)言模型時(shí)代。LLM 是以Transformer架構(gòu)為主,并利用多個(gè)Transformer編碼器的堆疊深入理解句子中各個(gè)位置的關(guān)聯(lián)性,從而更有效地捕捉上下文信息。同時(shí),模型融入了自我注意力機(jī)制,從而更出色地處理長(zhǎng)文本和序列間的依賴關(guān)系。通常情況下,LLM 的預(yù)訓(xùn)練過(guò)程是在通識(shí)知識(shí)的基礎(chǔ)上進(jìn)行的,因此當(dāng)面臨特定場(chǎng)景的任務(wù)時(shí),需要通過(guò)模型的微調(diào)或提示學(xué)習(xí)等方式,提升其在下游任務(wù)中的應(yīng)用能力。本節(jié)所提出的意圖識(shí)別方法基于ChatGPT(Chat Generative PretrainedTransformer)大語(yǔ)言模型,設(shè)計(jì)了一種特定的輸入格式,涵蓋識(shí)別意圖類型列表、具體需求指令及規(guī)定輸出格式的指令等關(guān)鍵要素。按照規(guī)定的“提示”指令,將問(wèn)題輸入ChatGPT中,可以對(duì)得到的輸出結(jié)果進(jìn)行分類和分析。
3.1.1 提示設(shè)計(jì)
隨著大語(yǔ)言模型的成熟和廣泛應(yīng)用,人們開始研究如何優(yōu)化大語(yǔ)言模型的輸出結(jié)果,以減少不相關(guān)或者錯(cuò)誤回復(fù)的概率。用于改善大語(yǔ)言模型輸出結(jié)果的方式有提示詞工程(Prompt Engineering)。提示詞(Prompt)是指對(duì)計(jì)算機(jī)程序或人工智能模型提供的輸入或指令,在用戶和ChatGPT對(duì)話時(shí)輸入的文字就是提示詞,它用于告知模型要執(zhí)行什么任務(wù)或回答什么問(wèn)題。提示學(xué)習(xí)(Prompt-Based Learning)是一種基于大語(yǔ)言模型的學(xué)習(xí)方法。通過(guò)在預(yù)訓(xùn)練模型中添加特定的提示,用于引導(dǎo)模型在特定任務(wù)上進(jìn)行學(xué)習(xí),使得模型能夠在小數(shù)據(jù)集上進(jìn)行快速微調(diào),以實(shí)現(xiàn)高效的遷移學(xué)習(xí)。提示學(xué)習(xí)具有簡(jiǎn)單易用、靈活性強(qiáng)、快速迭代等優(yōu)點(diǎn)。
提示詞工程是指使用大語(yǔ)言模型時(shí),通過(guò)精心設(shè)計(jì)和調(diào)整的輸入提示引導(dǎo)模型生成特定的輸出,可以將模型集中在某一特定領(lǐng)域,在短時(shí)間內(nèi)獲得符合自己要求的結(jié)果。設(shè)計(jì)一個(gè)完美的提示可以高效地完成給定的任務(wù),指導(dǎo)模型生成準(zhǔn)確輸出。在設(shè)計(jì)提示時(shí),遵循一定的原則與策略至關(guān)重要。首先,在向大模型提出問(wèn)題之前要提供任務(wù)的背景或者情景信息,在提問(wèn)時(shí)盡可能地把問(wèn)題的背景和需求全部描述出來(lái)。大模型可以很好地理解用戶給出的背景和情境,并給出相應(yīng)的回答。其次,將單個(gè)復(fù)雜的問(wèn)題拆分成多個(gè)小問(wèn)題進(jìn)行提問(wèn),從而提高大模型輸出的準(zhǔn)確度。最后,可以通過(guò)約束性的提示限制模型的輸出,例如規(guī)定輸出必須滿足某些語(yǔ)法結(jié)構(gòu)或者邏輯關(guān)系。在醫(yī)療領(lǐng)域的意圖識(shí)別任務(wù)中,將意圖和意圖樣例一起放入Prompt,采用OpenAI接口的方式直接調(diào)用GPT 模型(Generative Pre-trained Transformer)并解析結(jié)果。若不加入意圖對(duì)應(yīng)的樣例,大語(yǔ)言模型只能根據(jù)意圖的名字進(jìn)行判斷,則可能無(wú)法預(yù)測(cè)出正常的意圖。規(guī)定的提示模板如表4所示。
3.1.2 編碼和向量化
GPT處理的輸入對(duì)象是向量,同樣輸出的對(duì)象也是向量。每個(gè)字符都會(huì)使用相同長(zhǎng)度的向量表示。GPT將所有字符組合成詞匯庫(kù),為每個(gè)字符分配值,每個(gè)字符被轉(zhuǎn)換為一個(gè)點(diǎn)編碼向量。ChatGPT使用字節(jié)編碼(Byte Pair Encoding,BPE)進(jìn)行高效編碼,詞匯表中的“單詞”是頻繁出現(xiàn)的字符組合。GPT使用50 257維向量,主要由0組成,導(dǎo)致空間效率顯著降低。為了克服該限制,輸入嵌入層的下一步將使用一個(gè)嵌入矩陣以實(shí)現(xiàn)對(duì)由50 257維的二進(jìn)制輸入向量組成的數(shù)據(jù)進(jìn)行壓縮,將其轉(zhuǎn)化為長(zhǎng)度為n 的簡(jiǎn)潔數(shù)值向量。
3.2 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
3.2.1 實(shí)驗(yàn)設(shè)置
在IMCS數(shù)據(jù)集的基礎(chǔ)上增加本文“第2章節(jié)”提出的BERT+BiLSTM+MLP+CRF(雙頭解碼)模型與大語(yǔ)言模型的對(duì)比實(shí)驗(yàn)。使用ChatGPT大語(yǔ)言模型中的gpt-3.5-turbo 模型,它具有更高的性能和效率,以及更強(qiáng)的語(yǔ)言能力。對(duì)于衡量模型在識(shí)別意圖時(shí)表現(xiàn)的評(píng)價(jià)指標(biāo),本文采用準(zhǔn)確率,即模型正確預(yù)測(cè)的意圖數(shù)量與總樣本數(shù)量之比。
3.2.2 實(shí)驗(yàn)結(jié)果與分析
由于數(shù)據(jù)集和訪問(wèn)ChatGPT的成本較高,因此抽取IMCS數(shù)據(jù)集中各類數(shù)據(jù)200條。IMCS數(shù)據(jù)集作為一個(gè)中文多輪醫(yī)療問(wèn)答數(shù)據(jù)集,包含了許多諸如“您好”“再見”等噪聲語(yǔ)句。為應(yīng)對(duì)此問(wèn)題,在數(shù)據(jù)抽樣過(guò)程中采取分層處理的策略,確保每一層都能得到公正且隨機(jī)的抽樣。此外,為了提高數(shù)據(jù)集的質(zhì)量,在構(gòu)建測(cè)試集時(shí)進(jìn)行了長(zhǎng)度篩選,排除了文本長(zhǎng)度小于5個(gè)中文字符的樣本,以建立更加精確和高效的測(cè)試集。在測(cè)試集上的具體實(shí)驗(yàn)結(jié)果如表5所示。
從表5可以看出,ChatGPT在IMCS數(shù)據(jù)集上的表現(xiàn)相比本文“第2章節(jié)”提出的雙頭解碼機(jī)制下的深度學(xué)習(xí)方法更出色,主要原因如下。
(1)IMCS數(shù)據(jù)集是一個(gè)醫(yī)患多輪對(duì)話的數(shù)據(jù)集,參與對(duì)話的身份角色包含醫(yī)生和患者,對(duì)話意圖與說(shuō)話人的角色有關(guān)。例如,患者的對(duì)話出現(xiàn)診斷意圖的可能性不大,醫(yī)生告知患者已有檢查結(jié)果的可能性不大。因此,大多數(shù)對(duì)話的意圖可以由某一個(gè)角色主導(dǎo),對(duì)話意圖與對(duì)話角色存在關(guān)聯(lián)。由于輸入的對(duì)話文本包含說(shuō)話人的身份,所以在ChatGPT中存在角色引入標(biāo)記,能夠幫助其在進(jìn)行意圖識(shí)別時(shí)考慮到角色特征,進(jìn)而得到更準(zhǔn)確的意圖。
(2)每一條對(duì)話語(yǔ)句在整段對(duì)話中都有獨(dú)一無(wú)二的位置信息,位置信息很可能與對(duì)話意圖有關(guān),比如有關(guān)提問(wèn)的意圖早于告知的意圖、對(duì)話剛開始時(shí)醫(yī)生一般不會(huì)進(jìn)行診斷等。根據(jù)日常經(jīng)驗(yàn)可以描述出一個(gè)醫(yī)患在線問(wèn)診的普遍流程:首先,討論患者的主訴癥狀,其次,詢問(wèn)患者的基本信息和已有的檢查及治療結(jié)果,在此醫(yī)生進(jìn)行初步診斷并分析病因,提出用藥建議和注意事項(xiàng),最后提出進(jìn)一步的就醫(yī)建議。因此對(duì)話意圖與對(duì)話進(jìn)展存在關(guān)聯(lián),ChatGPT在對(duì)話生成過(guò)程中能夠考慮到對(duì)話歷史信息,包括前幾輪的對(duì)話內(nèi)容和對(duì)話的整體上下文,用于幫助理解當(dāng)前對(duì)話的意圖和位置信息,從而達(dá)到更準(zhǔn)確的識(shí)別效果。
雖然大語(yǔ)言模型在IMCS數(shù)據(jù)集上的意圖識(shí)別能力比基于雙頭解碼機(jī)制的意圖識(shí)別模型更出色,但是對(duì)于每一個(gè)話語(yǔ),每次都需要提供完整的意圖列表及其主題描述。然而,對(duì)弈垂直領(lǐng)域的研究,大語(yǔ)言模型的應(yīng)用面臨一項(xiàng)挑戰(zhàn):硬件資源的高需求難以滿足。每個(gè)API調(diào)用的成本可能只有0.000 1美元,但如果乘以數(shù)千個(gè)對(duì)話,就是一個(gè)非常大的數(shù)字。相比之下,雙頭解碼模型與大語(yǔ)言模型的識(shí)別效果相差不大,但在實(shí)際部署和使用時(shí)受到的限制較少,因此不失為一種優(yōu)秀的醫(yī)患對(duì)話文本意圖識(shí)別方法。此外,本文的實(shí)驗(yàn)進(jìn)一步證明了在處理包含角色、位置等信息的數(shù)據(jù)時(shí),大語(yǔ)言模型能夠更深入地學(xué)習(xí)并提取豐富的知識(shí)信息,從而實(shí)現(xiàn)更精確的意圖識(shí)別。
4 結(jié)論(Conclusion)
本文以醫(yī)療領(lǐng)域的意圖識(shí)別為研究任務(wù),首先針對(duì)多輪對(duì)話數(shù)據(jù)集中標(biāo)注的16類對(duì)話意圖提出了一種創(chuàng)新的解決方案,即將復(fù)雜的16類意圖分類任務(wù)拆分成兩個(gè)獨(dú)立的分類任務(wù),在解碼層引入雙頭解碼機(jī)制,使模型能夠同時(shí)對(duì)兩個(gè)分類任務(wù)進(jìn)行解碼。這種設(shè)計(jì)使模型能并行學(xué)習(xí)多個(gè)任務(wù),從而顯著提升性能,在處理多標(biāo)簽分類時(shí)尤為出色。通過(guò)并行解碼,模型能全面考慮標(biāo)簽之間的聯(lián)系,準(zhǔn)確預(yù)測(cè)多個(gè)標(biāo)簽,大幅提升預(yù)測(cè)精度。此外,本文還提出了一種面向醫(yī)療領(lǐng)域的大語(yǔ)言模型意圖識(shí)別方法,其在處理含角色、位置等多樣化信息數(shù)據(jù)時(shí),憑借其卓越的學(xué)習(xí)能力,可以深入挖掘豐富的知識(shí),實(shí)現(xiàn)精準(zhǔn)的意圖識(shí)別。對(duì)提出的深度學(xué)習(xí)模型方法在識(shí)別結(jié)果上進(jìn)行了詳細(xì)的比較與分析,為進(jìn)一步理解和改進(jìn)模型提供了重要的參考依據(jù)。
作者簡(jiǎn)介:
張卓群(1999-),女,碩士生。研究領(lǐng)域:自然語(yǔ)言處理,人工智能。
王榮波(1978-),男,博士,副教授。研究領(lǐng)域:自然語(yǔ)言處理,機(jī)器學(xué)習(xí)。
黃孝喜(1979-),男,博士,副教授。研究領(lǐng)域:自然語(yǔ)言理解,人工智能。