熊文波
(北京郵電大學(xué)網(wǎng)絡(luò)與交換重點實驗室 北京 100876)
醫(yī)院病案首頁數(shù)據(jù)質(zhì)量的調(diào)研及提高
熊文波
(北京郵電大學(xué)網(wǎng)絡(luò)與交換重點實驗室 北京 100876)
隨著移動醫(yī)療的發(fā)展和醫(yī)療服務(wù)模式的不斷改革,隨訪成為許多醫(yī)院與患者溝通的方式,腫瘤隨訪是醫(yī)院針對腫瘤患者的窗口。病案首頁是病人疾病發(fā)生、發(fā)展及結(jié)局的原始記錄,記載著疾病的寶貴信息,病案隨訪是科研資料的來源和醫(yī)患溝通的平臺。然而,許多醫(yī)院的病案首頁數(shù)據(jù)存在著不同程度的數(shù)據(jù)質(zhì)量問題,通過從醫(yī)院管理和數(shù)據(jù)清洗來提高病案首頁數(shù)據(jù)質(zhì)量。
移動醫(yī)療;腫瘤隨訪;數(shù)據(jù)質(zhì)量;數(shù)據(jù)清洗
近幾年,互聯(lián)網(wǎng)產(chǎn)業(yè)蒸蒸日上,逐漸與人們的衣食住行緊密聯(lián)系起來。而隨著互聯(lián)網(wǎng)產(chǎn)業(yè)的迅速增長,移動互聯(lián)網(wǎng)的概念應(yīng)運而出,并與傳統(tǒng)行業(yè)如醫(yī)療行業(yè)結(jié)合起來,“移動醫(yī)療”漸漸浮現(xiàn)到人們面前。國際醫(yī)療衛(wèi)生組織定義移動醫(yī)療(m-Health)為通過使用移動通信技術(shù),提供醫(yī)療服務(wù)和信息。
腫瘤,一直是個令人“談之色變”的話題。隨著環(huán)境污染、不良生活方式與精神壓力過大,我國腫瘤患者逐年增加,癌癥患者逐漸年輕化和老齡化,每天大約有8550人成為癌癥患者,腫瘤已經(jīng)逐漸成為一種“流行病”。隨訪是醫(yī)院根據(jù)醫(yī)療、教學(xué)、科研的需要,與診治后的病人保持聯(lián)系,對病人的疾病療效、發(fā)展狀況繼續(xù)進行追蹤觀察所做的工作。腫瘤隨訪是腫瘤登記工作中的重要內(nèi)容之一。通過隨訪,可以了解腫瘤患者的愈后、轉(zhuǎn)移情況、遠期療效追蹤、生存狀態(tài)、死亡狀態(tài)等信息。并對患者進行康復(fù)指導(dǎo)和人文關(guān)懷,能在一定程度上提高癌癥患者生存質(zhì)量,并提高五年生存率指標。
隨訪系統(tǒng)是以醫(yī)院病案系統(tǒng)中患者信息為基礎(chǔ),幫助醫(yī)護隨訪人員科學(xué)的管理和隨訪患者的系統(tǒng)。通過隨訪系統(tǒng),醫(yī)護人員能通過電話、短信、微信的方式對患者進行腫瘤隨訪。醫(yī)院患者住院病案在臨床、教學(xué)、科研、醫(yī)療保障服務(wù)和法律糾紛處理中的作用越來越重要,而病案首頁是患者醫(yī)療信息的高度濃縮。病案首頁填寫質(zhì)量直接影響著醫(yī)療信息的真實可靠,也客觀地反應(yīng)醫(yī)院醫(yī)療質(zhì)量的高低。
病案首頁形成于各個數(shù)據(jù)信息發(fā)生地,既是病歷文書的重要組成部分,又是基本的醫(yī)療信息登記統(tǒng)計載體,包含住院患者基本情況、診斷、手術(shù)、搶救、診斷符合、轉(zhuǎn)歸、費用等信息,數(shù)據(jù)密集而且重要。
腫瘤隨訪是以病案首頁里信息為基準,病案首頁的質(zhì)量關(guān)系著患者的隨訪效率和患者生存狀態(tài)的準確率。然而,病案質(zhì)量問題一直是醫(yī)院信息系統(tǒng)里一個不可避免的問題。1999-2008年10年間在國內(nèi)醫(yī)學(xué)中文期刊上以病案首頁為專題發(fā)表的論文達260篇,其中核心期刊56篇,涉及首頁填寫問題、缺陷的89篇[1]。通過對二十余家腫瘤??漆t(yī)院病案首頁的觀察,發(fā)現(xiàn)各家醫(yī)院病案首頁數(shù)據(jù)都或多或少存在不同程度問題,其中還包括一些省腫瘤醫(yī)院。筆者從這二十余家腫瘤??漆t(yī)院中抽取629038份病案,統(tǒng)計腫瘤隨訪必需字段的缺失情況。主要統(tǒng)計病案首頁中78個字段,包括基本信息、住院信息、診斷情況和手術(shù)相關(guān)信息。
病案首頁基本信息主要包括病案號、患者姓名、籍貫、地址、聯(lián)系人等信息,字段的缺失情況見表1。
表1 基本信息字段缺失情況Tab.1 the missing situation field of basic information
病案首頁診斷信息主要包括患者住院次數(shù)、診斷編碼、診斷內(nèi)容等信息,由于每個患者可能存在多次診斷信息,這里的統(tǒng)計樣本為3108398份診斷記錄,字段的缺失情況見表2。
病案首頁住院信息主要包括患者住院次數(shù)、入出院信息、入出院診斷信息和醫(yī)生簽名信息等,由于每個患者可能存在多次住院信息,這里統(tǒng)計數(shù)據(jù)為1421930次住院記錄,字段的缺失情況見表3。
病案首頁手術(shù)信息包括手術(shù)時間、手術(shù)醫(yī)生、手術(shù)名稱等信息,手術(shù)統(tǒng)計樣本為197308份,字段的缺失情況見表4。
表2 診斷情況字段缺失情況Tab.2 the missing situation field of diagnosis
表3 住院信息字段缺失情況Tab.3 the missing situation field of absence of hospital
表4 手術(shù)信息字段缺失情況Tab.4 the missing situation field of operation information
數(shù)據(jù)質(zhì)量的好壞決定數(shù)據(jù)價值的高低,數(shù)據(jù)質(zhì)量體現(xiàn)在以下幾個方面:(1)準確性,數(shù)據(jù)能否正確描寫數(shù)據(jù)的屬性;(2)完整性,數(shù)據(jù)是否缺失部分或數(shù)據(jù)不存在;(3)及時性,關(guān)鍵數(shù)據(jù)能否及時得到獲??;(4)重復(fù)性,數(shù)據(jù)是否存在重復(fù)記錄或部分記錄字段與其他記錄重合;(5)一致性,是否描述同一對象的值有不同的表現(xiàn)或存在記錄沖突情況;(6)規(guī)范性,數(shù)據(jù)是否以非標準格式進行存儲,或相同屬性數(shù)據(jù)存在多種數(shù)據(jù)格式[2]。
從上表的數(shù)據(jù)可知,抽取的二十家醫(yī)院的病案首頁數(shù)據(jù)質(zhì)量存在不同程度的問題,而筆者統(tǒng)計的醫(yī)院大部分為三甲腫瘤??漆t(yī)院,由此推之,全國大部分的醫(yī)院信息系統(tǒng)都存在數(shù)據(jù)質(zhì)量問題。醫(yī)院數(shù)據(jù)質(zhì)量存在不同程度問題,主要為管理不規(guī)范、質(zhì)量監(jiān)控不強所造成的。表現(xiàn)為:(1)數(shù)據(jù)錄入問題,數(shù)據(jù)錄入不準確、不一致,出現(xiàn)數(shù)據(jù)字段的缺項、漏項,甚至數(shù)據(jù)錯誤;(2)標準把握不嚴,醫(yī)護人員對患者病案信息中的必需字段準確性不重視,存在敷衍的工作態(tài)度;(3)基礎(chǔ)字典維護不及時[3]。
數(shù)據(jù)質(zhì)量問題不僅影響醫(yī)院信息系統(tǒng)的應(yīng)用效果和可信度,而且影響信息資源的可利用程度,醫(yī)院目前面臨海量的醫(yī)療數(shù)據(jù),可用性卻十分有限,其原因就在于存在許多錄入不一致、操作不規(guī)范的問題數(shù)據(jù),束縛了信息資源的有效利用,造成信息資源的浪費。而醫(yī)院病案數(shù)據(jù)質(zhì)量問題直接影響著腫瘤隨訪的效率和準確性,如何提高醫(yī)院病案數(shù)據(jù)質(zhì)量成為腫瘤隨訪的一個關(guān)鍵點。
提高醫(yī)院病案首頁質(zhì)量可以從兩方面進行,一方面從醫(yī)院管理著手,體現(xiàn)在:(1)強化使用人員的操作能力和工作責(zé)任心;(2)加強數(shù)據(jù)錄入的標準化,減少統(tǒng)計工作的人工干預(yù);(3)建立、健全數(shù)據(jù)審核監(jiān)督機制[4]。另外一方面是對醫(yī)院病案首頁數(shù)據(jù)進行數(shù)據(jù)清洗,使其數(shù)據(jù)規(guī)范有效。
數(shù)據(jù)清洗,是通過分析“臟數(shù)據(jù)”的產(chǎn)生原因和存在形式,利用現(xiàn)有的技術(shù)手段和方法檢測“臟數(shù)據(jù)”,將“臟數(shù)據(jù)”轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量要求或應(yīng)用要求的數(shù)據(jù),從而提高數(shù)據(jù)集的質(zhì)量[5]。對病案首頁數(shù)據(jù)清洗是實例層數(shù)據(jù)清洗,主要消除數(shù)據(jù)集中的異常記錄和消除數(shù)據(jù)集中的近似重復(fù)記錄。對異常數(shù)據(jù)清洗的流程如圖1所示。
在對數(shù)據(jù)進行異常檢測過程中,主要是對數(shù)據(jù)進行非空校驗、邏輯校驗和存在性校驗。其中,非空校驗是根據(jù)該數(shù)據(jù)項肯定有值而內(nèi)容出現(xiàn)漏填缺項情況,例如患者信息表中性別屬性項是必然存在的;邏輯校驗是針對彼此有關(guān)聯(lián)數(shù)據(jù)項之間的數(shù)據(jù)合理性或數(shù)據(jù)復(fù)合一定規(guī)則而進行校驗的,例如患者信息表中年齡和婚姻狀態(tài)存在一定的關(guān)聯(lián);存在性校驗是檢測數(shù)據(jù)項中的內(nèi)容與其對應(yīng)的字典之間,是否存在一致性,例如患者信息表中關(guān)系屬性值與其對應(yīng)字典表關(guān)系表的一致性。
圖1 異常數(shù)據(jù)清洗流程Fig.1 Abnormal data cleaning process
在對異常數(shù)據(jù)進行清洗時,主要是對其進行非空清洗、邏輯清洗和存在性清洗。其中,非空清洗是將不存在的或缺失的字段置為NULL。邏輯清洗是對存在邏輯錯誤的數(shù)據(jù)進行修正,清洗策略包括:(1)統(tǒng)計分析的方法修正異常值或錯誤值,如根據(jù)統(tǒng)計腫瘤患者的年齡范圍,修正病案首頁中患者年齡超出范圍的異常值;(2)使用不同屬性間的約束條件修正錯誤值和異常值,如根據(jù)患者年齡和婚姻狀態(tài)之間的關(guān)系,若患者年齡為5歲,婚姻狀態(tài)為已婚,可將婚姻狀態(tài)修正為未婚;(3)使用業(yè)務(wù)特定規(guī)則修正錯誤值或異常值,如根據(jù)患者診斷信息中診斷信息雖然有多條,但不存在一條診斷信息對應(yīng)多個病種的情況。存在性清洗主要是使用外部數(shù)據(jù)修正錯誤值或異常值,如患者籍貫值為北京海甸,可根據(jù)外部字典表將其修改為北京海淀。
對醫(yī)院病案數(shù)據(jù)集的重復(fù)清洗策略采用的是基本近鄰排序算法[6],程序流程圖如圖2所示,算法核心步驟為:(1)創(chuàng)建排序關(guān)鍵字,對于從醫(yī)院信息系統(tǒng)中采集的數(shù)據(jù),任意選擇其中一張數(shù)據(jù)表,選取數(shù)據(jù)表屬性列中一個或多個屬性值為關(guān)鍵字,使得關(guān)鍵字能夠唯一的代表數(shù)據(jù)表中的每一條數(shù)據(jù)項,如果關(guān)鍵字的選擇不精確,會影響后期的排序效率;(2)對數(shù)據(jù)表數(shù)據(jù)項進行排序,根據(jù)步驟(1)選擇的關(guān)鍵字,對數(shù)據(jù)表中的記錄進行排序,這樣數(shù)據(jù)表中潛在的、可能重復(fù)的數(shù)據(jù)項都被盡可能的調(diào)整到相鄰的區(qū)域內(nèi),有利于后期的數(shù)據(jù)重復(fù)項合并;(3)合并重復(fù)數(shù)據(jù)項,在排序后的數(shù)據(jù)表記錄上固定一個窗口大小為w的滑動窗口,將滑動窗口中的第一條記錄與余下的w-1條記錄進行比較,如果檢測到重復(fù)記錄,則對其進行合并,否則將滑動窗口中的第一條記錄滑出窗口,窗口下移,最后一條數(shù)據(jù)記錄的下一條進入窗口,再進行下一輪重復(fù)比較,直到數(shù)據(jù)表的數(shù)據(jù)記錄全部移入窗口后停止比較。這里面進行數(shù)據(jù)合并時,保留數(shù)據(jù)表記錄中屬性值非空值較少和錯誤記錄較少的項,且保留最新的數(shù)據(jù)記錄。
圖2 數(shù)據(jù)重復(fù)處理流程Fig.2 Data Duplication process
隨訪系統(tǒng)是以病案首頁數(shù)據(jù)為基礎(chǔ)信息的,高質(zhì)量數(shù)據(jù)能幫助醫(yī)護人員更好的進行隨訪,能更加規(guī)范、有效的對患者進行隨訪,提高了醫(yī)院的隨訪效率,從而響應(yīng)國家政策,推動醫(yī)療改革。
[1] 王平根, 于華. 病案首頁質(zhì)量全方位邏輯分析與探討[J].中國衛(wèi)生統(tǒng)計, 2010, 27(4): 390-394.
[2] 林靖生, 郭茜. 醫(yī)療行業(yè)數(shù)據(jù)集成中的數(shù)據(jù)質(zhì)量問題的研究[J]. 中國數(shù)字醫(yī)學(xué), 2009, 4(1): 70-72.
[3] 王建英, 王瑋, 陳宗敏, 等. HIS系統(tǒng)數(shù)據(jù)質(zhì)量問題及對策[J]. 中國病案, 2013(2): 46-47.
[4] 徐汀. 數(shù)字化醫(yī)院數(shù)據(jù)質(zhì)量問題的分析及對策[J]. 科學(xué)管理, 2015, 30(4): 135-137.
[5] 包從劍. 數(shù)據(jù)清洗的若干關(guān)鍵技術(shù)研究[D]. 江蘇:江蘇大學(xué), 2007: 10-14
[6] MA Hernández, SJ Stolfo. Real-world Data is Dirty: Data cleansing and The Merge/Purge Problem[J]. Data Mining and Knowledge Discovery, 1998(2), 9-37.
The Investigation and Improvement of Data Quality of Medical Records
XIONG Wen-bo
(State Key Laboratory of Networking and Switching, Beijing University Of Posts and Telecommunications, Beijing 100876)
With the development of mobile medical and the continuous reform of medical service model, follow-up becomes the way of communication between many hospitals and patients, tumor follow-up is the window of hospital for cancer patients. The first page of the medical record is the original record of the occurrence, development and outcome of the disease. It records the invaluable information of the disease. The follow-up of the medical record is the platform of the research data and the communication between doctors and patients. However, many hospitals have different degrees of data quality problems in the medical record homepage data, which can improve the quality of medical data and improve the follow-up efficiency of medical staff by improving hospital data management and data cleaning.
M-health; Tumor follow-up; Data quality; Data cleaning
TP399
A
10.3969/j.issn.1003-6970.2016.12.045
熊文波(1990-),男,碩士研究生,主要研究領(lǐng)域為移動醫(yī)療。
本文著錄格式:熊文波. 醫(yī)院病案首頁數(shù)據(jù)質(zhì)量的調(diào)研及提高[J]. 軟件,2016,37(12):210-213