• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      文本相似度計(jì)算方法提高診斷名稱數(shù)據(jù)標(biāo)準(zhǔn)化過程中人工判斷效率的影響

      2022-07-21 07:12:28鄭景文
      關(guān)鍵詞:字組單字余弦

      鄭景文

      廣東省農(nóng)墾中心醫(yī)院病案室,廣東湛江 524002

      國(guó)家衛(wèi)健委曾指出,各醫(yī)療單位應(yīng)設(shè)置統(tǒng)一的疾病與手術(shù)編碼, 其中疾病診斷名稱屬于主要的醫(yī)療數(shù)據(jù),保證疾病與手術(shù)編碼相對(duì)應(yīng),能夠?yàn)楹罄m(xù)科研工作提供更多準(zhǔn)確的信息[1-2]。以往,診斷名稱數(shù)據(jù)標(biāo)準(zhǔn)化期間,主要是對(duì)數(shù)據(jù)進(jìn)行糾正, 若未能按照標(biāo)準(zhǔn)化進(jìn)行書寫,將成為人工搜索的問題診斷名稱,從而難以在名稱庫內(nèi)尋找到對(duì)應(yīng)的名稱,進(jìn)一步增加消耗時(shí)長(zhǎng)[3-4]。 若能夠通過相關(guān)措施予以幫助,能明顯減少人工搜索的時(shí)長(zhǎng),達(dá)到提升工作效率的目的[5]。隨著研究持續(xù)深入,臨床發(fā)現(xiàn)文本相似度計(jì)算方法效果顯著,在增強(qiáng)診斷名稱數(shù)據(jù)標(biāo)準(zhǔn)化期間的人工判斷效率上效果突出。 但相關(guān)文獻(xiàn)較少,該研究選擇2020 年3 月—2021 年8 月使用的23 681條診斷名稱文本數(shù)據(jù),探討文本相似度計(jì)算方法在提高診斷名稱數(shù)據(jù)標(biāo)準(zhǔn)化過程中人工判斷效率的價(jià)值,現(xiàn)報(bào)道如下。

      1 資料與方法

      1.1 一般資料

      按照國(guó)家標(biāo)準(zhǔn)的疾病分類與代碼上存在編碼的診斷名稱,按疾病名稱進(jìn)行排序,并對(duì)其ID 進(jìn)行標(biāo)記,選擇使用的23 681 條診斷名稱文本數(shù)據(jù)。 將其中標(biāo)點(diǎn)符號(hào)及英文字母均定義成漢字等同的字符,但應(yīng)區(qū)分全半角及大小寫,獲得診斷名稱特點(diǎn),字符長(zhǎng)度均值(8.58±2.36)個(gè),統(tǒng)計(jì)與診斷名稱字符長(zhǎng)度相同的字符個(gè)數(shù),針對(duì)少于6 個(gè)字符長(zhǎng)度者計(jì)算其最大值。

      1.2 方法

      (1)余弦相似度:計(jì)算向量夾角的余弦值,可評(píng)價(jià)個(gè)體之間的差別,若余弦值越鄰近1,夾角度數(shù)越趨于0,提示向量相似。 在標(biāo)準(zhǔn)化工作上,通過編輯距離預(yù)測(cè)文本的相似程度,利用ICD 的三位及四位碼實(shí)施診斷類別的文本分類計(jì)算,應(yīng)采用余弦相似度計(jì)算,診斷類別分類計(jì)算時(shí)可繼續(xù)使用,從而降低編程工程量。

      (2)文本向量生成:①漢語短文本的文本向量以單字與單字組合、詞嵌入、分詞等,該次試驗(yàn)挑選單字與單字組合的方式;②逆文本頻率指數(shù)加權(quán):逆文本頻率指數(shù)在數(shù)據(jù)搜索期間,文本向量通過該方式表達(dá),計(jì)算名稱拆分后的單字與字組的逆文本頻率指數(shù),最后將逆文本頻率指數(shù)乘頻數(shù),成為第二類文本向量的計(jì)算值。

      1.3 觀察指標(biāo)

      觀察診斷名稱的字組長(zhǎng)度與數(shù)量,并分析文本相似度計(jì)算結(jié)果,最后計(jì)算字組組合模式的文本向量的相似度及字組組合模式下文本向量的相似度。

      2 結(jié)果

      2.1 診斷名稱的字組長(zhǎng)度與數(shù)量

      診斷名稱長(zhǎng)度為8.58 個(gè)字符,獲得9 字組長(zhǎng)度,經(jīng)觀察發(fā)現(xiàn)3 字組后,字組暫停增長(zhǎng),但5 字組逐漸減低,從而得知9 字組長(zhǎng)度未達(dá)50 萬維, 選擇計(jì)算機(jī)進(jìn)行處理,見表1。

      表1 診斷名稱的字組長(zhǎng)度與數(shù)量

      2.2 文本相似度計(jì)算結(jié)果分析

      通過余弦相似度的計(jì)算,選擇頻數(shù)向量成為非標(biāo)準(zhǔn)數(shù)據(jù), 而標(biāo)準(zhǔn)數(shù)據(jù)選擇頻數(shù)逆文本頻率指數(shù)加權(quán)的向量,最終將數(shù)據(jù)標(biāo)準(zhǔn)化。利用疾病診斷名稱相似的文本,發(fā)現(xiàn)文本向量存在較大差別, 其自身即為相似度最大值。通過字組組合的方式,測(cè)定不同文本向量,選擇高血壓進(jìn)行舉例,見表2。

      表2 文本相似度計(jì)算結(jié)果分析

      2.3 字組組合模式的文本向量的相似度

      字組組合模式的文本向量相似度最大值,見表3。

      表3 字組組合模式的文本向量的相似度

      2.4 字組組合模式下文本向量的相似度

      各類字組組合模式下存在356 條名稱,其中390 次相似度最大值并不是其本身。 對(duì)于不同的情況實(shí)施分析,字組組合模式Ⅰ不一致,Ⅱ~Ⅸ模式一致,記成0、1、1、1、1、1、1、1、1,見表4。

      表4 字組組合模式下文本向量的相似度

      3 討論

      針對(duì)規(guī)范診斷名稱而言,多采取文本相似度方式進(jìn)行計(jì)算,同時(shí)對(duì)比臨床診斷與數(shù)據(jù)庫中名稱,最后得到標(biāo)準(zhǔn)化的診斷名稱,有助于減少人工搜索時(shí)長(zhǎng),明顯改善工作效率[6-8]。 對(duì)此該文進(jìn)行分析,利用余弦相似度計(jì)算文本相似度,并通過單字與單字組合的窮舉分詞及頻數(shù)、逆文本頻率指數(shù)加權(quán)形成文本向量,模仿數(shù)據(jù)標(biāo)準(zhǔn)化過程, 選擇余弦相似度測(cè)定多個(gè)文本向量的計(jì)算結(jié)果,結(jié)果發(fā)現(xiàn)相似診斷名稱文本的向量相似度的一致率呈現(xiàn)升高趨勢(shì)。 其中2、3 字組的標(biāo)準(zhǔn)化工作需引起重視, 經(jīng)過標(biāo)準(zhǔn)庫與待校對(duì)數(shù)據(jù)將其轉(zhuǎn)換為羅馬數(shù)字;而4 字組的診斷名稱出現(xiàn)差異的次數(shù)較少,可能與診斷名稱上字符空格有關(guān),使得計(jì)算期間非標(biāo)準(zhǔn)診斷名稱無法與標(biāo)準(zhǔn)名稱相匹配, 針對(duì)此可在Excel 中采取TRIM 函數(shù)清除[9-11]。 最后選入5~9 長(zhǎng)度字組表征文本向量的效果與1~4 字組差別明顯。

      由于相似度計(jì)算作為常見的統(tǒng)計(jì)方式,其結(jié)果的準(zhǔn)確性存在一定上限, 修改規(guī)則的方式具有重要意義,特別是關(guān)于伴與不伴文字,其實(shí)際診斷名稱還存在前后左右上下等問題,因此,精準(zhǔn)表達(dá)可明顯提升效率[12-15]。 此前關(guān)于醫(yī)療數(shù)據(jù)的標(biāo)準(zhǔn)化對(duì)專業(yè)知識(shí)的要求極高,對(duì)此應(yīng)積極開展培訓(xùn),并鼓勵(lì)專業(yè)人員參與,另外高效率的數(shù)據(jù)計(jì)算需要文本計(jì)算的幫助,尤其是特殊場(chǎng)合中修改算法也應(yīng)得到醫(yī)護(hù)人員的積極配合。 由此可見,為醫(yī)護(hù)人員選擇操作簡(jiǎn)便的計(jì)算方式至關(guān)重要,此時(shí)選擇以字組拆分頻數(shù)逆文本頻率指數(shù)加權(quán)的計(jì)算方式[16-17]。 另外醫(yī)療數(shù)據(jù)的信息質(zhì)量對(duì)科研成果質(zhì)量可能存在一定干擾,但診斷名稱數(shù)據(jù)的標(biāo)準(zhǔn)化較為復(fù)雜,同時(shí)作為人機(jī)交互,并表現(xiàn)成螺旋上升的過程,因此,將醫(yī)療專業(yè)知識(shí)與計(jì)算機(jī)算法相融合,并不斷調(diào)整,才可保證科研質(zhì)量的準(zhǔn)確性[18-19]。

      綜上所述,文本相似度計(jì)算方法能夠提升診斷名稱數(shù)據(jù)標(biāo)準(zhǔn)化,并促進(jìn)人工判斷效率改善。

      猜你喜歡
      字組單字余弦
      找字組名言
      老友(2021年8期)2021-09-09 11:33:05
      “青”字組字歌
      河北大名話單元音韻母、單字調(diào)及雙音節(jié)非輕聲詞連調(diào)的實(shí)驗(yàn)語音學(xué)初探
      論東巴文對(duì)稱型字組的結(jié)構(gòu)特征及音義功能
      拜拜
      兩個(gè)含余弦函數(shù)的三角母不等式及其推論
      “對(duì)仗不宜分解到單字”毋庸置疑——答顧紳先生“四點(diǎn)質(zhì)疑”
      中華詩詞(2016年11期)2016-07-21 14:56:16
      鹽城方言單字調(diào)聲學(xué)實(shí)驗(yàn)研究
      分?jǐn)?shù)階余弦變換的卷積定理
      圖像壓縮感知在分?jǐn)?shù)階Fourier域、分?jǐn)?shù)階余弦域的性能比較
      巴林右旗| 芜湖县| 龙泉市| 宕昌县| 嵊州市| 兴安县| 睢宁县| 专栏| 宁都县| 晋州市| 中阳县| 辽阳市| 福鼎市| 光泽县| 大荔县| 奉化市| 天镇县| 开原市| 永和县| 治县。| 曲靖市| 枣强县| 南丰县| 楚雄市| 车致| 临泉县| 武宁县| 柯坪县| 佳木斯市| 凌云县| 武平县| 措勤县| 独山县| 石林| 留坝县| 汤原县| 钟祥市| 根河市| 登封市| 时尚| 宜春市|