任芳言
各國布局醫(yī)療人工智能(AI)的腳步越來越快。除了批準世界首例AI醫(yī)療設備外,美國食品藥品監(jiān)督管理局還在2018年批準了首個使用電子健康記錄數據的AI算法產品,該產品集成了實時生命體征數據,可識別體征不穩(wěn)定的住院患者。
截至2018年11月,我國國家藥品監(jiān)督管理局收到創(chuàng)新醫(yī)療器械審批申請1054項,51項創(chuàng)新醫(yī)療器械已通過特別程序獲準上市。醫(yī)療AI器械審批通道也于同年12月開放。
基于新一代算法的醫(yī)療AI愈發(fā)強大,能做的事也越來越多。但業(yè)內人士也有了一個不得不面對的問題:對此類設備的監(jiān)管。而這既要從算法設計者角度入手,也應考慮臨床醫(yī)生的使用需求。
技術與用戶相互磨合
今年2月,美國賓夕法尼亞大學腫瘤學研究員Ravi B.Parikh與合作者在《科學》雜志上刊文,指出新一代AI醫(yī)療產品的監(jiān)管標準似乎略顯寬松。
Parikh在文章中提到,早先較為初級的算法大多基于固定的規(guī)則和模型,對變量數有限制。相應的醫(yī)療產品也僅限于肺栓塞識別等場景較為局限的臨床診斷。
但在過去幾年中,基于AI的現代算法可容納的變量數激增。跟一般的靜態(tài)設備或者藥品不同,算法可以隨著變量和數據而變化,預測結果也會隨著時間的推移而改變。相應的,這為設定監(jiān)管其安全性和穩(wěn)定性的標準增加了難度。
如果說AI需要大量的訓練,那么在臨床使用時,醫(yī)生或許是AI最好的訓練者。然而一名臨床經驗豐富的醫(yī)生,未見得能理解新一代AI算法詳細的運行過程,也無法用傳統(tǒng)臨床試驗的評估標準做檢驗。
如此一來,基于新一代算法的AI能否明顯改善患者護理效果,也需要更確鑿的證據。
北京大學醫(yī)學院教授王月丹表示,目前基于圖像識別的AI在國內外相對更常見,對CT圖像的診斷準確率甚至高于人工。但AI醫(yī)療設備的定位仍需明確。
“如果是輔助醫(yī)生做出診斷,那么臨床醫(yī)生對其基本原理及使用規(guī)則應有基本了解。在后續(xù)培養(yǎng)醫(yī)生的過程中,也要有相應的訓練?!蓖踉碌け硎尽?/p>
另外,王月丹指出,醫(yī)學研究不斷會有新的發(fā)現和認知,對迅速迭代的AI算法來說,也有可能遇到類似情況?!罢l有權力修正和評定這些標準,也是需要考慮的問題。”
高標準審批門檻
目前在國內,含有AI算法的醫(yī)療器械可分為兩類。使用傳統(tǒng)AI算法的如肺結節(jié)、乳腺癌等輔助識別軟件,僅提供輔助診斷功能,屬于第二類醫(yī)療器械,目前已有產品注冊上市。
而基于新一代AI技術的醫(yī)療器械產品,如病理圖像識別、利用眼底照片篩查糖尿病性視網膜病變等疾病,能給出較明確的診斷提示的,劃為第三類醫(yī)療器械。
2018年12月,國家藥監(jiān)局開放了AI醫(yī)療器械申報審批通道,依照軟件類型或用途劃分具體種類。目前還未有相關產品正式通過審批上市。
除了算法上的差異,二類和三類醫(yī)療器械的盈利模式也不相同。醫(yī)療AI產品作為醫(yī)用軟件單次出售,還是作為檢查設備按次收費、分成,對開發(fā)者來說,顯然獲得第三類醫(yī)療器械審批許可,商業(yè)前景更為廣闊。
比如眼底疾病篩查,國內糖尿病患者數量過億,糖尿病性視網膜病變篩查工作量大、需求多,需要利用技術手段為眼科醫(yī)生及三甲醫(yī)院分流。目前國內已有通過AI設備輔助醫(yī)生進行篩查的先例,且應用前景良好。
依未科技CEO柯鑫告訴筆者,針對醫(yī)療AI產品設立嚴格的審批流程是一件好事。“這拉高了行業(yè)準入標準,對行業(yè)發(fā)展也有好處。”
“AI產品的標準由人設定,其中既有醫(yī)生,也有相關的技術專家?!笨脉沃赋?,缺乏交叉性的專業(yè)人才,是當前醫(yī)療AI領域存在的問題之一。醫(yī)療AI產品若想擴大影響力,還須開發(fā)者本身有過硬的醫(yī)療知識儲備。
柯鑫還提到,目前的醫(yī)療AI產品大多起輔助作用而非完全替代醫(yī)生。而檢測產品可靠性的手段之一是“向醫(yī)生看齊”——將診斷結果與醫(yī)生的診斷標準相比較。
以該公司旗下的眼底篩查產品為例,在閱片平臺上,有問題的眼底圖像會傳送到醫(yī)生手中進行辨別。除了醫(yī)院外,面對體檢中心、社區(qū)等應用場景,業(yè)內專家的評價結果是推廣產品時重要的認證手段。
算法迭代
按目前國內對于醫(yī)療AI器械的審批流程,臨床試驗設計應考慮到產品預期用途、使用場景和核心功能。
而為鼓勵創(chuàng)新并降低臨床試驗成本,臨床試驗可使用回顧性數據。對于中風險等級軟件,可采用臨床預試驗或替代臨床試驗;高風險等級的軟件,可采取臨床預試驗或臨床試驗補充。
在軟件更新方面,審批內容包括重大軟件更新和輕微軟件更新。前者涵蓋算法和數據驅動型軟件更新,須進行許可事項變更,開展算法性能再評估和臨床再評價。
針對算法的評估,Parikh等人也提到,如果是基于臨床醫(yī)生主觀數據的預測算法,主觀數據對某一類患者產生的偏見也可能被納入運行標準。因此除了療效指標,對AI算法的評估還應考慮是否會對這些偏差進行有效干預。
此外,只有提供適當的數據訓練算法,才有可能更準確地掌握其性能。
比如一種可以識別敗血癥的AI算法反應速度比醫(yī)生還快,但醫(yī)生識別出相應癥狀后會作出讓患者服用抗生素的決定,要完成上述動作,就需要進一步迭代算法,相應的訓練數據也會發(fā)生變化。
因此,Parikh等人指出,訓練和評估算法不僅應根據臨床醫(yī)生的最佳判斷,還應在多種環(huán)境下進行測試。在評估標準中,除了臨床醫(yī)生和AI的單獨表現外,或許還應加設一類,即將二者結合起來。這也凸顯了醫(yī)療AI與臨床醫(yī)生之間相輔相成的關系。
此外,Parikh等人還提到,隨著申報審批的AI設備增多,監(jiān)管機構需要在透明度和知識產權間權衡。這就像新藥研發(fā)與新藥審批,通常會找到一個適當的平衡點。