梁人月
摘 要 本文對人工智能醫(yī)療器械用數(shù)據(jù)集中的常見質(zhì)量問題進(jìn)行了分析,并對數(shù)據(jù)集的管理和評價原則進(jìn)行了討論,對數(shù)據(jù)管理體系的設(shè)計(jì)和建設(shè)進(jìn)行了研究和探索,提出了幾點(diǎn)對策和建議。
關(guān)鍵詞 人工智能;醫(yī)療器械;數(shù)據(jù)集
引言
當(dāng)前人工智能在醫(yī)療器械的開發(fā)研究中獲得了廣泛的應(yīng)用,其中數(shù)據(jù)集是人工智能進(jìn)行學(xué)習(xí)、訓(xùn)練的主要基礎(chǔ)。人工智能通過對數(shù)據(jù)集進(jìn)行分析提取特征并形成算法模型,然后通過對這一模型進(jìn)行持續(xù)的驗(yàn)證、更新、迭代、優(yōu)化,從而為最終產(chǎn)品的性能質(zhì)量提供有力保證。由此可見,建立高質(zhì)量的醫(yī)學(xué)對于人工智能醫(yī)療器械的開發(fā)與應(yīng)用有著重要的意義。
1人工智能醫(yī)療器械用數(shù)據(jù)集的常見質(zhì)量問題
在人工智能醫(yī)療器械用數(shù)據(jù)集中存在的質(zhì)量問題可以從數(shù)據(jù)意義以及數(shù)據(jù)管理兩個方面進(jìn)行分析和討論。
(1)數(shù)據(jù)意義質(zhì)量問題。當(dāng)前在人工智能醫(yī)療器械用數(shù)據(jù)集中出現(xiàn)的數(shù)據(jù)意義質(zhì)量問題主要有:①數(shù)據(jù)偏倚。具體可以分為選擇偏倚、覆蓋偏倚、參考標(biāo)準(zhǔn)偏倚、驗(yàn)證偏倚、閱讀順序偏倚、情境偏倚6種類型。數(shù)據(jù)偏倚的出現(xiàn)會導(dǎo)致數(shù)據(jù)集無法真實(shí)有效的反映患者特征,從而影響人工智能的學(xué)習(xí)效果。②樣本量不足。數(shù)據(jù)集中數(shù)據(jù)過少容易導(dǎo)致在抽取訓(xùn)練集、測試集時出現(xiàn)較大的誤差,導(dǎo)致在同一算法下結(jié)果出現(xiàn)較大差異而影響算法性能,現(xiàn)進(jìn)而影響人工智能的計(jì)算和學(xué)習(xí)。③數(shù)據(jù)陳舊。訓(xùn)練集與測試集的抽取間隔時間較長會導(dǎo)致數(shù)據(jù)之間的誤差增加,設(shè)備的性能仍然以過去的訓(xùn)練集計(jì)算結(jié)果為準(zhǔn),無法適應(yīng)數(shù)據(jù)發(fā)生較大變化后的測試集,從而導(dǎo)致對相關(guān)器械產(chǎn)品的性能評價出現(xiàn)較大誤差。造成上述問題出現(xiàn)的主要原因是數(shù)據(jù)集設(shè)計(jì)不合理,對于人工智能醫(yī)療器械所需數(shù)據(jù)的患者群體、場景、人數(shù)、病種、數(shù)據(jù)來源等方面沒有進(jìn)行綜合考慮和確定。
(2)數(shù)據(jù)管理質(zhì)量問題。人工智能醫(yī)療器械用數(shù)據(jù)集的采集管理方面出現(xiàn)的質(zhì)量問題主要表現(xiàn)在以下幾個方面:①數(shù)據(jù)誤差。在數(shù)據(jù)的采集、標(biāo)注中由于方法不當(dāng)、標(biāo)準(zhǔn)不統(tǒng)一導(dǎo)致獲取的數(shù)據(jù)與真實(shí)數(shù)據(jù)存在較大誤差,或者在歸檔、管理過程總由于操作失誤導(dǎo)致數(shù)據(jù)發(fā)生改變、誤刪除、無增加等而沒有及時糾正,出現(xiàn)數(shù)據(jù)謬誤。當(dāng)出現(xiàn)誤差的數(shù)據(jù)超過一定比例時就會對數(shù)據(jù)集質(zhì)量造成較大影響。②數(shù)據(jù)不完整或重復(fù)。在數(shù)據(jù)采集、歸檔過程中如某沒有進(jìn)行審核,可能會導(dǎo)致其中存在著一定的重復(fù)數(shù)據(jù)沒有被剔除,或者不完整的數(shù)據(jù)。這些數(shù)據(jù)會導(dǎo)致數(shù)據(jù)集規(guī)模發(fā)生變化,數(shù)據(jù)對應(yīng)出現(xiàn)問題,并造成各類型數(shù)據(jù)比例變化,從而導(dǎo)致數(shù)據(jù)集無法反映真實(shí)情況,影響醫(yī)療器械性能。③數(shù)據(jù)造假。部分人員為了獲取不當(dāng)利益可能會對數(shù)據(jù)集中的部分或全部數(shù)據(jù)進(jìn)行造假,使其滿足以一定條件從而改變醫(yī)療器械性能。④數(shù)據(jù)不可用。人工智能醫(yī)療器械所需數(shù)據(jù)的收集需要經(jīng)過倫理委員會批準(zhǔn)或根據(jù)國家相關(guān)法律法規(guī)對數(shù)據(jù)進(jìn)行脫敏處理。如果沒有進(jìn)行上述環(huán)節(jié)就會導(dǎo)致所獲取的數(shù)據(jù)無授權(quán)、來源追溯難等一系列問題,導(dǎo)致獲取的數(shù)據(jù)不可進(jìn)行實(shí)際應(yīng)用,如果貿(mào)然使用可能會影響器械設(shè)備性能或者遭受法律風(fēng)險[1]。
2人工智能醫(yī)療器械用數(shù)據(jù)集管理與評價的原則
(1)數(shù)據(jù)集設(shè)計(jì)合理。數(shù)據(jù)集的設(shè)計(jì)應(yīng)當(dāng)能夠準(zhǔn)確、全面反映人工智能醫(yī)療器械所針對的目標(biāo)疾病的流行病學(xué)特征,并合理選擇數(shù)據(jù)庫類型,有效控制數(shù)據(jù)偏倚問題;保證數(shù)據(jù)真實(shí)可信,并通過擴(kuò)大數(shù)據(jù)采集范圍、納入第三方數(shù)據(jù)庫等,保證數(shù)據(jù)集具有滿足人工智能訓(xùn)練需求的足夠數(shù)據(jù)量。
(2)數(shù)據(jù)可用。人工智能醫(yī)療器械數(shù)據(jù)集應(yīng)當(dāng)包含計(jì)算分析所需的完整信息,明確數(shù)據(jù)的有效期和更新周期,確保數(shù)據(jù)時效性;數(shù)據(jù)集應(yīng)當(dāng)按照統(tǒng)一的標(biāo)準(zhǔn)格式儲存,且符合相關(guān)醫(yī)學(xué)標(biāo)準(zhǔn)、共識;數(shù)據(jù)集要能夠體現(xiàn)設(shè)備的預(yù)期用途、使用場景、核心功能、目標(biāo)人群、使用限制等信息,具有一定的臨床代表性。
(3)研究資料詳細(xì)。數(shù)據(jù)集應(yīng)當(dāng)提供相關(guān)的研究資料,并對數(shù)據(jù)采集要求、入排標(biāo)準(zhǔn)、數(shù)據(jù)采集操作規(guī)范、數(shù)據(jù)質(zhì)疑、稽查等環(huán)節(jié)進(jìn)行詳細(xì)說明,保證數(shù)據(jù)集形成過程中采取了有效避免偏見的措施,保證數(shù)據(jù)的可追溯性。
(4)風(fēng)險控制有效。數(shù)據(jù)集應(yīng)當(dāng)對臨床中可能出現(xiàn)的假陽性、假陰性等使用風(fēng)險進(jìn)行體現(xiàn),在算法軟件中進(jìn)行設(shè)置了相應(yīng)的風(fēng)險評估和控制措施,并對器械的禁用、慎用場景進(jìn)行明確,將器械使用風(fēng)險降到最低。同時,數(shù)據(jù)的采集使用還應(yīng)當(dāng)符合相關(guān)法律法規(guī)要求,避免產(chǎn)生法律風(fēng)險。
(5)保障數(shù)據(jù)安全。數(shù)據(jù)集的采集應(yīng)當(dāng)按照相關(guān)法律法對數(shù)據(jù)進(jìn)行加密、脫敏處理,做好安全措施、備份措施等,明確數(shù)據(jù)安全要求,盡量不通過公共互聯(lián)網(wǎng)進(jìn)行敏感數(shù)據(jù)的傳輸,避免造成數(shù)據(jù)泄露[2]。
3數(shù)據(jù)管理體系設(shè)計(jì)
針對上述人工智能醫(yī)療器械用數(shù)據(jù)集存在的主要質(zhì)量問題以及數(shù)據(jù)集管理、評價原則,在相關(guān)管理體系的設(shè)計(jì)上主要可以從以下幾個方面進(jìn)行:①加強(qiáng)流程控制。針對醫(yī)療器械數(shù)據(jù)的采集、標(biāo)注、核查、歸檔、管理等環(huán)節(jié)加強(qiáng)控制,建立起明確的數(shù)據(jù)采集和標(biāo)注標(biāo)準(zhǔn),加強(qiáng)數(shù)據(jù)審核并做好相應(yīng)記錄,保證數(shù)據(jù)的有效性、真實(shí)性以及規(guī)范性;做好數(shù)據(jù)規(guī)范、管理、更改記錄,保證數(shù)據(jù)的可溯源;做好相關(guān)數(shù)據(jù)庫的網(wǎng)絡(luò)隔離、硬件安保、數(shù)據(jù)備份工作,保證數(shù)據(jù)安全性。②明確人員職責(zé)。在數(shù)據(jù)集形成管理過程中要對相關(guān)人員的職責(zé)、職能進(jìn)行明確劃分,包括領(lǐng)導(dǎo)數(shù)據(jù)集管理整體工作、對數(shù)據(jù)質(zhì)量管理進(jìn)行研究設(shè)計(jì)、對醫(yī)學(xué)參考標(biāo)注質(zhì)量進(jìn)行審核監(jiān)督、對數(shù)據(jù)進(jìn)行審查核對、對數(shù)據(jù)庫進(jìn)行日常維護(hù)等工作,保證各環(huán)節(jié)人員相互協(xié)作但職能、利益上無交叉。③建立質(zhì)量控制體系。結(jié)合數(shù)據(jù)集常見質(zhì)量問題以及管理評價原則建立相應(yīng)的質(zhì)量管理控制機(jī)制,對數(shù)據(jù)集進(jìn)行常態(tài)化的監(jiān)督檢查預(yù)防質(zhì)量問題發(fā)生,并在出現(xiàn)問題時及時落實(shí)責(zé)任到人,找出影響數(shù)據(jù)質(zhì)量的主要因素,采取措施進(jìn)行糾正、更改[3]。
4結(jié)束語
綜上所述,針對當(dāng)前人工智能醫(yī)療器械用數(shù)據(jù)集中存在的主要質(zhì)量問題,相關(guān)單位和部門要積極采取有效措施,結(jié)合數(shù)據(jù)集管理評價原則,加強(qiáng)流程控制、明確人員職責(zé)、建立質(zhì)量控制體系,從而切實(shí)提高數(shù)據(jù)集質(zhì)量,為人工智能醫(yī)療器械的發(fā)展和應(yīng)用提供更好支持。
參考文獻(xiàn)
[1] 何寶宏,徐貴寶. 人工智能前沿技術(shù)應(yīng)用趨勢與發(fā)展展望[J]. 中國工業(yè)和信息化,2019(4):24-28.
[2] 王浩,孟祥峰,李澍,等. 數(shù)據(jù)集在人工智能醫(yī)療器械質(zhì)控中的角色與要求[J]. 中國醫(yī)療器械雜志,2019,43(1):54-57.
[3] 王權(quán),王浩,孟祥峰,等. 人員管理對人工智能醫(yī)療器械用數(shù)據(jù)集質(zhì)量的影響分析[J]. 中國醫(yī)療設(shè)備,2018,33(12):15-18.