• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于機(jī)器閱讀理解模型的護(hù)士AI問(wèn)答系統(tǒng)

      2021-06-08 15:27:23李瑛瑋翟潔袁學(xué)范勇琪楊博涵龍海朱
      中國(guó)新通信 2021年3期
      關(guān)鍵詞:機(jī)器學(xué)習(xí)

      李瑛瑋 翟潔 袁學(xué) 范勇琪 楊博涵 龍海朱

      【摘要】? ? 針對(duì)護(hù)士資源少,醫(yī)療服務(wù)水平有待提高的現(xiàn)狀,為讓患者得到及時(shí),準(zhǔn)確的回復(fù),從而緩解護(hù)士壓力,本文研究了基于機(jī)器閱讀理解模型的護(hù)士AI問(wèn)答系統(tǒng)相關(guān)知識(shí)技術(shù),展示了該系統(tǒng)關(guān)鍵技術(shù)與核心算法,基于這些技術(shù)實(shí)現(xiàn)了回答較為準(zhǔn)確的醫(yī)療智能問(wèn)答系統(tǒng)。該系統(tǒng)可以根據(jù)患者的提問(wèn)返回較為準(zhǔn)確的回答,以便及時(shí),可靠地解決患者醫(yī)療方面問(wèn)題。

      【關(guān)鍵詞】? ? 機(jī)器學(xué)習(xí)? ? 智能問(wèn)答系統(tǒng)? ? BM25算法? ? 護(hù)士AI

      Abstract:Less for the nurse resources, the present situation of the medical service level needs to improve, to make patients get timely, accurate response, so as to alleviate the pressure of the nurses, this paper studies the nurse AI question answering system based on machine reading comprehension model knowledge technology, shows the system key technology and core algorithm, based on the answers of these technology to achieve the more accurate medical intelligent question answering system.The system can return more accurate answers according to patients questions, so as to timely and reliably solve patients medical problems.

      Keywords: Machine learning; Intelligent question answering system; BM25 algorithm; The nurse

      醫(yī)療領(lǐng)域是信息化發(fā)展的重要方向,而醫(yī)療信息化則是醫(yī)療衛(wèi)生事業(yè)能否在信息時(shí)代更好地服務(wù)于患者、服務(wù)于社會(huì)的重要支撐據(jù)統(tǒng)計(jì)我國(guó)每千人口護(hù)士數(shù)僅為2.36人。世界上大多數(shù)國(guó)家的護(hù)士占總?cè)丝诘谋戎丶s為5%,而我國(guó)只有1%左右。以此推算,我國(guó)目前尚缺數(shù)百萬(wàn)名護(hù)士,護(hù)理人力資源配置嚴(yán)重不足。從數(shù)據(jù)中看,護(hù)士的工作壓力是極大的,這當(dāng)中又有相當(dāng)一部分時(shí)間花在與患者交流上。

      基于以上原因,設(shè)計(jì)一個(gè)護(hù)士AI問(wèn)答系統(tǒng),從而幫助護(hù)士解答患者在醫(yī)療設(shè)備上的問(wèn)題,緩解護(hù)士的工作壓力,讓患者得到及時(shí)準(zhǔn)確的回復(fù),提高醫(yī)院的服務(wù)水平顯得尤為重要。

      一、設(shè)計(jì)思路

      1.1 模型設(shè)計(jì)

      研究的目的是實(shí)現(xiàn)一個(gè)智能AI問(wèn)答模型,該模型系統(tǒng)流程如下所述:

      1)用戶提問(wèn):患者通過(guò)微信小程序平臺(tái)向系統(tǒng)提出了一個(gè)關(guān)于設(shè)備使用的問(wèn)題。

      2)文章檢索器:?jiǎn)栴}作為query輸入文章檢索器中。文章檢索器先根據(jù)query從已完成分詞的數(shù)據(jù)集的文檔中,選出最相關(guān)的5篇。

      3)文檔理解器:將query和5篇文檔同時(shí)輸入文檔理解器,理解器會(huì)根據(jù)query通過(guò)訓(xùn)練好深度神經(jīng)網(wǎng)絡(luò)從文章中找到合適的答案,并給出對(duì)應(yīng)得分。

      4)問(wèn)答對(duì)檢索器:query輸入文章檢索器時(shí),也會(huì)同時(shí)輸入到問(wèn)答對(duì)檢索器中,問(wèn)答對(duì)檢索器會(huì)根據(jù)query,從我們提前設(shè)置好的問(wèn)答對(duì)中,找到最相關(guān)的5個(gè)答案,同時(shí)也計(jì)算出對(duì)應(yīng)得分。

      5)選擇器:將兩種檢索器的答案和得分一起輸入選擇器中,選擇器會(huì)根據(jù)每個(gè)的檢索器權(quán)重和答案得分,計(jì)算出最合適的答案,從微信上返回給用戶。

      二、技術(shù)實(shí)現(xiàn)

      2.1 問(wèn)答檢索器

      2.1.1 BM25算法

      問(wèn)答對(duì)檢索器根據(jù)輸入的query,從數(shù)據(jù)庫(kù)中尋找最相關(guān)的五個(gè)問(wèn)答對(duì)。從定義來(lái)說(shuō),這無(wú)非是一個(gè)信息檢索問(wèn)題。因此采用了BM25,編輯距離算法結(jié)合同義詞停用詞詞庫(kù)來(lái)計(jì)算相似度。

      BM25算法通常用來(lái)做搜索相關(guān)性評(píng)分的,通常用來(lái)計(jì)算query和文本集合∑ti=wi*R(qi,d)D中每篇文本之間的相關(guān)性。我們用Q表示query,在這里Q一般是一個(gè)句子。在這里我們要對(duì)Q進(jìn)行語(yǔ)素解析(一般是分詞),在這里以分詞為例,我們對(duì)Q進(jìn)行分詞,得到q1,q2,……,qn這樣一個(gè)詞序列。給定文本d∈,現(xiàn)在以計(jì)算Q和d之間的分?jǐn)?shù)(相關(guān)性),其表達(dá)式如下:

      上面式子wi中表示qi的權(quán)重,R(qi,d)為qi和d的相關(guān)性,Score(Q,d)就是每個(gè)語(yǔ)素qi和d的相關(guān)性的加權(quán)和。wi的計(jì)算方法有很多,一般是用IDF來(lái)表示的,但這里的IDF計(jì)算和上面的有所不同,具體的表達(dá)式如下:

      2.2 文章檢索器

      文章檢索器根據(jù)輸入的query,從數(shù)據(jù)庫(kù)中尋找最相關(guān)的五篇文章。從定義來(lái)說(shuō),這無(wú)非是一個(gè)全文檢索問(wèn)題。全文檢索就是把文本中的內(nèi)容拆分成若干個(gè)關(guān)鍵詞,然后根據(jù)關(guān)鍵詞創(chuàng)建索引。查詢時(shí),根據(jù)關(guān)鍵詞查詢索引,最終找到包含關(guān)鍵詞的文章。整個(gè)過(guò)程類似于查字典的過(guò)程。這里我們通過(guò)現(xiàn)有的百度中文通用領(lǐng)域搜索數(shù)據(jù)集,來(lái)訓(xùn)練一個(gè)通用百科知識(shí)模型,并用此模型從數(shù)據(jù)集中篩選與用戶所提出的問(wèn)題最為相關(guān)的五篇文章。這里采用DrQA模型的Retriever來(lái)進(jìn)行實(shí)現(xiàn)。

      2.2.1DrQA模型Retriever部分

      DrQA 是一個(gè)開(kāi)放的問(wèn)答系統(tǒng)。該系統(tǒng)需要輸入一段文本,一個(gè)問(wèn)題,如果該問(wèn)題的答案需要存在于這段文本中,那么DrQA系統(tǒng)就可以根據(jù)這段文本返回這個(gè)問(wèn)題的答案。這里主要利用DrQA模型的Retriever部分來(lái)從多篇文章中篩選出可能包含答案的文章作為候選。

      Document Retriever的具體做法如下:1)對(duì)樣本單詞進(jìn)行清洗,包括去停詞等各種過(guò)濾操作。2)統(tǒng)計(jì)所有的樣本,并進(jìn)一步對(duì)樣本做同樣規(guī)則的清洗得到最終的樣本,然后將這些單詞進(jìn)行哈希搜索得到每個(gè)單詞的唯一id。需要注意的是,如果哈系的特征數(shù)目設(shè)置過(guò)小,那么這過(guò)程可能會(huì)有兩個(gè)不同的單詞但是得到的id相同,所以該模型使用的特征數(shù)目為224,可以盡量避免這種哈希沖突。3)得到每個(gè)單詞唯一的id以后,就可以根據(jù)TF-IDF公式來(lái)計(jì)算每個(gè)樣本的IDF向量以及TF向量了。4)最后將IDF乘以TF即可得到TF-IDF向量。將問(wèn)題的TF-IDF向量與文章的TF-IDF向量相乘并取最大的前五個(gè)的文章的索引,即可得到與問(wèn)題最相關(guān)的5篇文章。

      2.3 文章理解器

      2.3.1基于BERT進(jìn)行閱讀理解

      機(jī)器閱讀理解是給定一段文本Paragraph和問(wèn)題Question,得到答案Answer。通常假定Answer就包含在原文中,因此機(jī)器閱讀理解任務(wù)的目標(biāo)就是得到一個(gè)span(start, end),start表示Answer的開(kāi)始字符在Paragraph中的位置,end表示Answer的結(jié)束字符在Paragraph中的位置。

      如上圖所示,展示了如何用BERT來(lái)做信息抽取任務(wù)的結(jié)構(gòu)圖。

      1、將Question和Paragraph分別作為BERT的text1和text2輸入。

      2、start/end span在Paragraph對(duì)應(yīng)的輸出位置表示。

      3、通常輸出會(huì)通過(guò)2個(gè)dense網(wǎng)絡(luò),接到start輸出和end輸出序列。

      將上述start輸出和end輸出序列接一個(gè)sigmod層,然后用binary_crossentropy函數(shù)即可進(jìn)行訓(xùn)練。

      2.4選擇器

      問(wèn)答對(duì)檢索器和文章理解器給出的答案都會(huì)有具體的分?jǐn)?shù),選擇器即根據(jù)二者所得分?jǐn)?shù)選擇出一個(gè)更為可靠的答案返回給患者。

      三、實(shí)驗(yàn)結(jié)果展示

      前期的問(wèn)答對(duì)檢索器和文章理解器從10萬(wàn)多條醫(yī)療問(wèn)答數(shù)據(jù)以及醫(yī)療文章中選擇出關(guān)鍵詞符合的,送入到問(wèn)答模型。最終返回的問(wèn)答對(duì)由問(wèn)答模型做選擇。經(jīng)過(guò)對(duì)該問(wèn)答模型的調(diào)優(yōu)和大量訓(xùn)練,得出了以下訓(xùn)練結(jié)果:

      可以看出,經(jīng)過(guò)多次數(shù)據(jù)投喂后,該系統(tǒng)的訓(xùn)練集損失不斷下降,驗(yàn)證集準(zhǔn)確率不斷上升,最終在驗(yàn)證集上達(dá)到了百分之九十以上的準(zhǔn)確率。

      為了方便患者隨時(shí)隨地使用,將其以微信小程序的形式呈現(xiàn)出來(lái),成果如圖5所示:

      可以看到,AI護(hù)士機(jī)器人對(duì)于患者的提問(wèn)給出了合理,科學(xué)的回答,而且根據(jù)不同的提問(wèn)方式,還會(huì)根據(jù)患者的提問(wèn)給出患者切實(shí)所需的答案。

      四、結(jié)束語(yǔ)

      本文研究了護(hù)士AI問(wèn)答系統(tǒng)的相關(guān)知識(shí)技術(shù),算法技術(shù)主要體現(xiàn)在文章檢索器,文章理解器,問(wèn)答對(duì)檢索器,選擇器四個(gè)部分,在各部分實(shí)現(xiàn)的基礎(chǔ)上,進(jìn)一步將其整合起來(lái),實(shí)現(xiàn)了高效,準(zhǔn)確的護(hù)士AI問(wèn)答系統(tǒng)。該系統(tǒng)為患者提供可靠,及時(shí)的醫(yī)療知識(shí)服務(wù),同時(shí)也為醫(yī)療服務(wù)行業(yè)與機(jī)器學(xué)習(xí)的發(fā)展結(jié)合提供了思路與參考。

      參? 考? 文? 獻(xiàn)

      [1]陳樂(lè)樂(lè),黃松,孫金磊,惠戰(zhàn)偉,吳開(kāi)舜.基于BM25算法的問(wèn)題報(bào)告質(zhì)量檢測(cè)方法[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,60(10):829-836.

      [2]田迎,單婭輝,王時(shí)繪.基于知識(shí)圖譜的抑郁癥自動(dòng)問(wèn)答系統(tǒng)研究[J].湖北大學(xué)學(xué)報(bào)(自然科學(xué)版). 2020(5):587-591+596.

      [3]吳炎,王儒敬.基于BERT的語(yǔ)義匹配算法在問(wèn)答系統(tǒng)中的應(yīng)用[J].儀表技術(shù). 2020(6):19-22+30.

      [4]劉奕洋,余正濤,高盛祥,等.基于機(jī)器閱讀理解的中文命名實(shí)體識(shí)別方法[J].模式識(shí)別與人工智能.2020(7):653-659.

      [5]顧迎捷,桂小林,李德福,等.基于神經(jīng)網(wǎng)絡(luò)的機(jī)器閱讀理解綜述[J].軟件學(xué)報(bào).2020(7):2095-2126.

      猜你喜歡
      機(jī)器學(xué)習(xí)
      基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
      基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
      前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
      下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
      活力(2016年8期)2016-11-12 17:30:08
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      基于Spark的大數(shù)據(jù)計(jì)算模型
      基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
      基于圖的半監(jiān)督學(xué)習(xí)方法綜述
      機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
      大石桥市| 勐海县| 竹溪县| 五寨县| 巴青县| 五台县| 蓬莱市| 徐水县| 墨竹工卡县| 明光市| 柳州市| 清流县| 井冈山市| 龙游县| 黄平县| 南京市| 崇州市| 罗甸县| 翁源县| 洪洞县| 本溪| 托克逊县| 三台县| 沭阳县| 万山特区| 吐鲁番市| 东宁县| 洞头县| 松滋市| 姜堰市| 牟定县| 阿鲁科尔沁旗| 博客| 尚志市| 抚顺县| 岳普湖县| 松溪县| 漠河县| 内江市| 镇远县| 邳州市|