涂嘉欣,葉惠清,張小強,林雪婷,楊善嵐,鄧莉芳,吳磊*
食管癌包括食管腺癌和食管鱗狀細胞癌,其是全球第七大常見癌癥(按發(fā)病率),第六大致死癌癥(按死亡率),新發(fā)病例死亡率高于50%[1]。近20年,食管癌在診斷、治療、預后等方面取得了重大進展,尤其新興的人工智能(artificial intelligence,AI)逐漸被應用于醫(yī)療衛(wèi)生中的疾病診斷、基因組數據分析等許多領域[2-3],這在一定程度上提高了食管癌診斷結果的準確率[4-5]。隨著AI在食管癌領域研究的劇增,研究人員快速了解該領域的最新發(fā)展和研究熱點十分重要。因此,本研究對2000—2022年AI應用于食管癌領域的全球研究進行了文獻計量分析,總結AI在食管癌領域的應用和發(fā)展歷程,闡明AI在其中的研究進展、熱點和新興趨勢,以幫助該領域研究者更好地把握未來的研究方向。
1.1 資料來源及檢索策略 檢索Web of Science Core Collection(WoSCC) 的 Science Citation Index Expanded(SCI-E)數據庫,檢索時間2000-01-01至2022-04-06。所有檢索工作于2022-04-06完成,以確保沒有數據更新。共檢索到文獻1 074篇,剔除非英語2篇、與主題不相關141篇、文獻類型不符(非研究類、綜述類文章)12篇、重復發(fā)表1篇,最終得到918篇有效文獻,具體檢索策略見表1。
表1 2000—2022年AI在食管癌領域研究文獻檢索策略Table 1 List of esophageal cancer studies using AI published from 2000 to 2022
1.2 數據處理 文獻數據由2名課題組成員分別下載(下載格式為純文本文件)和分析,以確保數據的準確性和研究的重復性,其導出內容包括全部信息(標題、作者、單位)以及所有引用文獻。Microsoft Excel 2019、CiteSpace(5.8R3-64bit)和 VOSviewer(1.6.18)被用于數據分析與可視化??梢暬浖r間片固定為1年,閾值設定g-index=25,最終繪制作者、機構、關鍵詞共現圖譜,同時結合詞頻、中心性等客觀數據,評估分析對象的研究熱度、重要程度。
2.1 文獻發(fā)表 2000—2022年共檢索到AI應用于食管癌領域的文獻918篇。自2000年起AI應用于食管癌領域的發(fā)文量穩(wěn)步增加,根據增長趨勢劃分為兩個階段:2000—2016年為遲緩期,發(fā)文量從6篇增至40篇;2017—2022年為快速增長期,發(fā)文量從62篇突增至216篇。近10年(2012—2022年)AI在食管癌領域的研究發(fā)文量占2000—2022年AI在食管癌領域的研究發(fā)文量的80%以上(761/918)。918篇文獻的H型指數(H-index)和平均引用次數分別為74和25.37次。引用文獻數量增長趨勢基本與發(fā)文量保持一致,截至2022-04-06共計引用文獻總量達23 490篇(圖1)。
圖1 2000—2022年全球AI應用于食管癌領域相關研究的年發(fā)文、引文數量Figure 1 Annual number of publications and citations of global esophageal cancer research using AI from 2000 to 2022
2.2 國家、機構、作者合作分析 60個國家、118家機構、5 979位作者參與了AI在食管癌領域應用的研究。
關于AI應用于食管癌領域,發(fā)文量排名前3位的國家分別是中國(306篇)、美國(238篇)、英國(113篇)。連線粗細(total link strength,TLS)反映各國之間合作關系密切程度,以美國為中心開展的研究眾多,美國-中國合作最為密切,其次是美國-新西蘭,見圖2。
圖2 2000—2022年全球AI應用于食管癌領域相關研究國家合作VOSviewer可視化圖(前10位)Figure 2 VOSviewer-generated collaboration map of top 10 research countries related to esophageal cancer studies using artificial intelligence from 2000 to 2022
機構合作強度排名前3位的分別是阿姆斯特丹大學(TLS=72)、凱瑟琳娜醫(yī)院(TLS=64)、埃因霍芬大學(TLS=53)。美國梅奧醫(yī)學中心是銜接美國、中國、荷蘭3國機構研究成果的中介機構,見圖3。
圖3 2000—2022年全球AI應用于食管癌領域相關研究機構合作VOSviewer可視化圖(發(fā)文量>15篇)Figure 3 VOSviewer-generated collaboration map of institutions published more than 15 esophageal cancer studies using artificial intelligence from 2000 to 2022
總發(fā)文量>10篇的作者中,發(fā)文量前3位是荷蘭作者Jacques J G H M Bergman(16篇)、日本作者Tomohiro Tada(12篇)、荷蘭作者Fons Van Der Sommen(12篇)。作者之間合作關系密切與發(fā)文量不呈正相關,如日本Tomohiro Tada發(fā)文量第二,但與其他作者合作強度值是9人中最低(TLS=7)。荷蘭作者內部合作比其他國家作者更為密切,見圖4。
圖4 2000—2022年全球AI應用于食管癌領域相關研究作者合作VOSviewer可視化圖(發(fā)文量>10篇)Figure 4 VOSviewer-generated collaboration map of authors published more than 10 esophageal cancer studies using artificial intelligence from 2000 to 2022
2.3 共被引分析 共被引作者39 962位,共被引文獻42 992篇(按引用次數計算)。根據CiteSpace采用剪枝選擇尋徑網絡法+裁剪單切片網絡+裁剪合并,最終得到最大相鄰節(jié)點數(link retaining factor,LRF)=3.0、調節(jié)連線在時間上的跨度不大于10年Look Back Years(LBY)=5、最低被引次數e=1.0、網絡節(jié)點數量N=158、連線數量E=222、網絡密度Density=0.004的共被引用文獻網絡。法國的作者Freddie Ian Bray、美國的作者Prateek Sharmal和日本的作者Yoshimasa Hories共被引頻次排名前3位,分別為89、87、56次??偙灰螖登?位作者依次為美國的Prateek Sharma、瑞典的Jesper Lagergren和美國的Thomas William Rice,見表2。
表2 2000—2022年全球AI應用于食管癌領域相關研究作者共被引次數(前10位)Table 2 Total co-citations of esophageal cancer studies using artificial intelligence from 2000 to 2022 by author (top 10)
表3列出了共被引文獻排名前10的基本信息,其中Gastrointestinal Endoscopy和Ca-A Cancer Journal for Clinicians雜志發(fā)表文章數量合計過半,總量上中國研究者發(fā)表文章占到4篇。聚類分析圖譜中模塊聚類值Q=0.946 9,模塊平均輪廓值S=0.844 8,表明其聚類效果佳(Q>0.3),網絡同質性好可信度高(S>0.7)。共被引文獻主要涉及研究領域在放射組學、內窺鏡、腫瘤分割、光學相干斷層掃描(圖5)。瑞典的作者Jesper Lagergren和美國的作者Thomas William Rice中介中心性均>0.1,表明在共被引文獻網絡中十分重要,其發(fā)表的文獻是銜接不同聚類模塊之間的核心。圖6時間演變用不同顏色表示,線條顏色代表聚類出現時間,“觀察者偏差”模塊在聚類最早出現(灰色);線條上的節(jié)點出現時間表示該聚類塊文獻首次引用時間,表明“數字生物學標志物”模塊聚類是這里面最晚出現(2016年)。
表3 2000—2022年全球AI應用于食管癌領域相關研究共被引文獻(前10位)Table 3 The analysis of co-cited esophageal cancer studies using artificial intelligence from 2000 to 2022(top 10)
圖5 2000—2022年全球AI應用于食管癌領域相關研究共被引文獻聚類分析圖譜(前14位聚類團)Figure 5 The cluster analysis map of co-cited esophageal cancer studies using artificial intelligence from 2000 to 2022(top 14 clusters)
圖6 2000—2022年全球AI應用于食管癌領域相關研究共被引文獻主要聚類團共被引文獻出現時間演變規(guī)律Figure 6 The co-citation cluster analysis of time evolution about co-cited documents in main clusters from 2000 to 2022
圓圈顏色表示文獻引用時間變化規(guī)律,可以發(fā)現“內窺鏡”“放射組學”“深度學習”近兩年熱度高(紅色);圓圈大小則表示引用次數多少,“人工智能”“深度學習”“內窺鏡”聚類圓圈大,表明這3個領域被引用頻次極高,處于研究熱點。
2.4 關鍵詞 共計3 861個關鍵詞被納入研究,癌癥、食管癌和腺癌關鍵詞出現頻率超100次,其次鱗狀細胞癌、診斷、生存、巴雷特食管、分類、深度學習、風險、預后、表達等關鍵詞頻率相對較高(超50次)(圖7)。根據年發(fā)文量增速變化趨勢,分為2000—2016年、2017—2022年2個階段對全球食管癌領域的AI應用的關鍵詞演變過程進行分析。
圖7 2000—2022年全球AI應用于食管癌領域相關研究關鍵詞共線圖譜VOSviewer可視化圖(出現頻率≥50次)Figure 7 VOSviewer network visualization of the collinear map of keywords (frequency ≥ 50) in esophageal cancer studies using artificial intelligence from 2000 to 2022
2.4.1 2000—2016年 CiteSpace最終得到LRF=3.0,L/N=10,LBY=5,e=1.0,N=421,E=901,Density=0.010 2的共被引用文獻網絡,此時期癌癥、食管癌、巴雷特食管等關鍵詞詞頻高但共線關系較差。風險成為除癌癥類別關鍵詞外出現的較高頻次(23次)的關鍵詞(圖8)。關鍵詞中心性>0.10及其詞頻結果統(tǒng)計見表4。結直腸癌、癌癥、上皮小細胞癌、小細胞癌、突變、上皮組織癌、巴雷特食管癌、食管癌、乳腺癌、p53等關鍵詞中心性較高。2000—2016年研究主要內容為癌癥診斷、鑒別、風險、表達,具體以結腸癌、胃腸道癌、小細胞癌、乳腺癌等癌癥為中心關鍵詞。
圖8 2000—2016年全球AI應用于食管癌領域相關研究關鍵詞CiteSpace可視化共現圖譜Figure 8 CiteSpace-generated visualized co-occurrence map of keywords in esophageal cancer studies using artificial intelligence from 2000 to 2016
2.4.2 2017—2022年 CiteSpace最終得到LRF=3.0,L/N=10,LBY=5,e=1.0,N=289,E=485,Density=0.011 7的關鍵詞共現網絡,該期間關鍵詞數量有所增加且共線關系更為緊密。除食管癌、人工智能檢索詞出現頻次高外,機器學習、深度學習、卷積神經網絡詞頻出現驟增,特別深度學習出現頻次達到65次,是除檢索詞以外較高詞頻關鍵詞,表明此時期對深度學習研究較多,AI在食管癌領域的應用以深度學習為主(圖9)。關鍵詞中心性>0.10及其詞頻結果統(tǒng)計見表5,反映出生物學標志物、基因、表達、發(fā)育不良、計算機輔助檢測、準確度、氟-18標記氟代脫氧葡萄糖(氟-18FDG)斷層掃描等關鍵詞的強中心性。同時對比表4、結合圖6可以看出,此時期主要研究內容從總體癌癥研究(含食管癌)轉為對食管癌主要標志物、鑒別、檢查、診斷、放化療研究,同時圍繞AI中的機器學習、深度學習、卷積神經網絡作為主要應用方法。
圖9 2017—2022年全球AI應用于食管癌領域相關研究關鍵詞CiteSpace可視化共現圖譜Figure 9 CiteSpace-generated visualized co-occurrence map of keywords in esophageal cancer studies using artificial intelligence from 2017 to 2022
表4 2000—2016年全球AI應用于食管癌領域相關研究中心性>0.10關鍵詞信息表Table 4 Keywords with centrality greater than 0.10 in esophageal cancer studies using artificial intelligence from 2000 to 2016
表5 2017—2022年全球AI應用于食管癌領域相關研究中心性>0.10關鍵詞信息表Table 5 Keywords with centrality over 0.10 in esophageal cancer studies using artificial intelligence from 2017 to 2022
2.4.3 關鍵詞突現 關鍵詞突現檢測參數設置最小持續(xù)時間為1,其余設置默認。最終檢測到近22年世界食管癌AI領域共有突現詞33個。前25位突現關鍵詞具體信息(按照首次出現研究前沿時間排序)見圖10。早期(2001—2008年)以p53、突變?yōu)橹鞯氖彻馨┗蛳嚓P研究為主;逐步出現了對食管癌風險因素的研究(2007—2013年);中期(2013—2018年)主要以食管癌分類、檢查新技術(斷層掃描)以及食管癌和不同癌癥之間區(qū)分、鑒別和比較為研究重心;期間穿插食管癌治療方法更新研究(放化療,2017—2018年);再到自2018年開始首次高頻出現的關鍵詞——數據庫,表明該領域首次有大量文章開始對食管癌相關數據庫信息進行探索,并且研究方法在不斷更新深入——如深度學習、卷積神經網絡、機器學習(2019—2022年),尤其是深度學習一詞突現強度排在33個突現關鍵詞首位(突現強度為13.89),說明在食管癌AI領域的深度學習是現階段研究熱點。同時綜合關鍵詞變化發(fā)現,計算機輔助食管癌檢查已經躍升為計算機輔助食管癌診斷,標志著食管癌AI研究領域已經邁入新階段(2020—2022年)。
圖10 2000—2022年全球AI應用于食管癌領域相關研究突現關鍵詞信息(前25位)Figure 10 Top 25 burst keywords in esophageal cancer studies using artificial intelligence from 2000 to 2022
隨著大數據分析時代的到來,研究人員需要充分了解其研究領域的發(fā)展,與系統(tǒng)綜述或薈萃分析不同,文獻計量分析使用VOSviewer和CiteSpace等可視化軟件對特定時間段所有文獻進行綜合分析,直觀了解研究發(fā)展趨勢,以預測未來研究熱點[6]。本研究首次通過文獻計量分析總結了AI在食管癌領域中的應用現狀,直觀地揭示了AI在食管癌的發(fā)展趨勢和未來研究熱點。
就發(fā)文量而言,在過去一段時間AI在各領域得到了迅速發(fā)展[7]。2016年起,AI在食管癌領域中的應用也呈指數爆發(fā)式增長[8]。特別是在過去的10年(2012—2022年),AI在食管癌領域的研究發(fā)文量占2000—2022年AI在食管癌領域的研究發(fā)文量的80%以上??梢灶A見,未來將有更多的國家和研究人員參與AI在食管癌領域的研究。中國發(fā)表的AI在食管癌領域的研究共306篇,同時在共被引文獻分析中,中國研究者發(fā)表了該領域重要文獻4篇,但與其他國家合作強度上卻較弱,美國、荷蘭之間則合作更為緊密,在機構、作者的合作圖譜分析中也得以印證。
引文量可以反映文章的傳播程度和期刊的影響力,從而表明研究質量和研究者的學術地位[9]。在共被引作者分析中,來自美國的多位作者在共被引次數和總引用次數中均位列前3,表明在該領域美國仍為主導地位。中國在本領域科研影響力還遠遠不夠,主要原因:(1)可能是中國食管癌的AI研究起步較晚,且合作較少未形成研究體系,在世界范圍學術影響力較低;(2)AI的核心算法缺乏創(chuàng)新,與國際先進研究人員合作較少;(3)與現階段國內普遍存在的科研質量不高有關。誠信則是科研質量和影響力最基礎的保障,2018年印發(fā)的《關于進一步加強科研誠信建設的若干意見》有助于規(guī)范、監(jiān)督國內科研誠信,逐步改變國際學科主導、中國高發(fā)文低引用現況[10]。在AI應用于食管癌領域共被引文獻研究中以Gastrointestinal Endoscopy(IF=9.43) 和 Ca-A Cancer Journal for Clinicians(IF=508.70)期刊最為重要,其中Gastrointestinal Endoscopy的總引文數量遠超其他期刊,表明該雜志在該領域有重要影響力??梢灶A見,未來將有更多關于AI在食管癌中應用的文章優(yōu)先發(fā)表在上述期刊上。共被引分析除了通常用于評估文章或作者的相關性,還可以作為評價作者個人學術影響力的指標[11-12],如中國研究者共被引次數最高的研究中GUO等[13],該研究主要以深度學習模型證明了內窺鏡圖像和視頻數據集的高靈敏度和特異度,同時論證了實時計算機輔助診斷系統(tǒng)可以幫助內窺鏡醫(yī)生診斷癌前病變和食管腺癌。
從共被引文獻聚類結果來看研究的前沿變化,最早的研究集中在“腫瘤分割”[14],目前的研究熱點是“深度學習”[15]和“內窺鏡”[16]、胃腸內窺鏡[17],表明早期食管癌的研究主要側重于食管腫瘤類別的劃分、分割,然后轉向使用深度學習等其他技術來實現診斷準確性、快速診斷和早期診斷。關鍵詞頻率可反映整體研究熱點變化,整體關鍵詞分為三大類,分別為癌癥、腺癌和食管癌,提示早期研究主要是作為癌癥分析的部分內容(食管癌種類的區(qū)分、識別),具體研究內容包括風險、診斷、預后。但該時期受限于所用的分析技術,數據分析仍處于小范圍、淺顯分析。
關鍵詞頻率分析的2個階段分析提示:(1)2000—2016年為AI在食管癌領域研究的發(fā)展早期(遲緩期),風險識別、p53等為當時的研究前沿,這與當時其他癌癥如前列腺癌領域AI研究大為不同,后者此時主要以癌篩查方法、手術治療方法為主要內容[18];(2)2017—2022年為AI在食管癌領域研究的快速增長期,計算機輔助診斷、計算機輔助治療成為AI主要應用方向,如在早期檢查、準確區(qū)分癌前病變和腫瘤病變,確定手術治療期間浸潤性腫瘤邊緣,監(jiān)測疾病進展和獲得性耐藥,以及預測腫瘤侵襲性、轉移模式和復發(fā)風險,醫(yī)學成像技術和生物標志物為食管癌診斷、治療和進展監(jiān)測提供了技術支持。這表明在這一階段更深技術層面的AI開始發(fā)揮作用。
整體而言,食管癌領域AI的應用表現出滯后性。在延遲了至少10年后,才開始與其他癌癥一樣開展全面AI應用于食管癌的探索,出現這一現象的原因可能與AI在癌癥領域應用轉化處于初級階段、推廣應用效果受限有關[19]。未來有關食管癌預后生存及風險因素的模型探究勢必將成為熱點。此外,在2018年首次突現了數據庫一詞,顯然隨著大數據的出現,對大量數據的處理和應用已經成為一種重要的研究方法。通過大數據,研究者可以應用AI對食管癌進行全面的分析和深入的研究。但同時數據獲取需要大量的人力和財力,使得數據收集非常困難,這可能也是大多數研究缺乏合作的原因之一。最后,本研究尚存在一定的局限性,此次僅納入英文文獻,這可能導致其他語言的優(yōu)秀文獻缺失(如我國2020年曾提倡將“論文寫在祖國大地上”[20]),存在一定的文獻選擇偏倚。在未來的研究中,可合并中國知網、萬方數據知識服務平臺、PubMed、Scopus和Google Scholar等數據庫所有文獻,并進行比較以獲得更全面的結果。
在疾病診斷和治療方面,AI目前已顯示出較好的性能、較高的精度。隨著AI的進一步發(fā)展,食管癌整體朝著精準檢查、診斷和治療的方向發(fā)展。未來AI應用于食管癌的挑戰(zhàn)可能主要存在于食管癌個體化數據收集(除指標以外信息,如基因信息)、數據質量(如數據差異之種族差異)、數據處理規(guī)范(電子健康記錄結構不一致)、AI代碼復現(尚不能做到共享代碼并重現、推廣已有結果)、輔助診斷可信度決策(結果經受實踐檢驗才能真正可信)。
作者貢獻:涂嘉欣、吳磊提出研究設想及總體研究方案的構建,負責論文的撰寫與修改,并對文章負責;葉惠清、林雪婷收集、清洗和保留研究數據(包括軟件代碼),以供研究使用和結果重現;張小強、吳磊為研究提供資金支持,對研究活動進行規(guī)劃,執(zhí)行的監(jiān)督和領導,學科專業(yè)問題指導;楊善嵐、鄧莉芳對圖片格式及文字修訂,整理參考文獻。
本文無利益沖突。