戴 星,尹戰(zhàn)海,馬 巍,韓學(xué)哲,張黨鋒,楊 紅,韓亞紅,姚 璐
(1西安交通大學(xué)第一附屬醫(yī)院骨科,西安 710061;2西安交通大學(xué)醫(yī)學(xué)部基礎(chǔ)醫(yī)學(xué)院生理學(xué)與病理生理學(xué)系;*通訊作者,E-mail:lyao1117@mail.xjtu.edu.cn)
骨肉瘤(osteosarcoma)是臨床最常見的原發(fā)性惡性骨腫瘤之一,具有惡性程度高、侵襲性生長的特點(diǎn)。傳統(tǒng)的治療方法有放化療、廣泛腫瘤切除或截肢術(shù)等,但患者的預(yù)后不佳,5年存活率不足20%[1]。近年來隨著新輔助化療和保肢手術(shù)的廣泛應(yīng)用,骨肉瘤的年生存率和患者的生活質(zhì)量已大大提高,但骨肉瘤總的預(yù)后并未得到與之相應(yīng)的顯著改善[2],給家庭和社會帶來極大的負(fù)擔(dān)。相當(dāng)比例的患者就診時,骨肉瘤已處于中晚期階段,此時手術(shù)及放化療治療效果均不佳,而試圖通過改進(jìn)手術(shù)方式或化學(xué)治療方案,在近期不太可能改變骨肉瘤相關(guān)的不良預(yù)后。準(zhǔn)確判斷患者的預(yù)后是實(shí)施精準(zhǔn)醫(yī)療和個性化治療的前提。對于預(yù)期生存期較短的患者應(yīng)以放、化療為主,而對于基礎(chǔ)情況好、預(yù)期生存期較長的患者,則可以在新輔助化療的基礎(chǔ)上行手術(shù)治療。
臨床實(shí)際工作中,常常面對大量的骨肉瘤患者的臨床原始數(shù)據(jù),如何從海量的數(shù)據(jù)中提取出有價值的內(nèi)容,并對各類數(shù)據(jù)加以總結(jié)分析,研判其對患者最終生存期的影響是急需解決的問題。本文所采用的決策樹模型是數(shù)據(jù)挖掘分類算法的一個重要方法[3]。該模型被認(rèn)為是目前常用的分類算法中最直觀的一種,它是運(yùn)用于分類的一種樹結(jié)構(gòu),通過分析處理各組帶有類別標(biāo)記的數(shù)據(jù),在每個結(jié)點(diǎn)選取最優(yōu)的因素進(jìn)行分裂依次遞歸的方式即可構(gòu)造完成一個決策樹。通過決策樹模型分析骨肉瘤患者的預(yù)后相關(guān)因素,納入臨床常見并易采集的各因素,分析其對患者生存期的影響,通過因素不同的信息增益率指導(dǎo)治療方式的選擇,延長患者的生存期,提高患者的生活質(zhì)量。
本次研究共納入2005-01~2017-12西安交通大學(xué)第一附屬醫(yī)院收治的85例骨肉瘤確診患者,其中男性51例,女性34例,年齡8-69歲,平均年齡24歲。所入選的骨肉瘤患者均為初發(fā)病例,并且病人在就診前從未行先期的放化療治療。所有骨肉瘤患者均經(jīng)病理診斷確診且病歷資料完整,并排除以下患者:①單純行穿刺活檢術(shù),而未接受后續(xù)規(guī)范治療的患者;②術(shù)后病理或其他檢查證實(shí)病灶系骨轉(zhuǎn)移瘤,非原發(fā)性骨肉瘤的患者;③住院期間轉(zhuǎn)出至其他科室治療或后續(xù)治療過程不詳?shù)幕颊?④出院后死于如車禍、災(zāi)難等其他意外因素的患者;⑤自動放棄治療的患者。所有參與本研究的患者均予以告知相關(guān)事項(xiàng)并簽訂知情同意書,本研究經(jīng)我院醫(yī)院倫理委員會批準(zhǔn)備案。將病人的真實(shí)資料隱去,以病例號代替,整理病人性別、年齡、發(fā)病部位、發(fā)病-就診時間、腫瘤體積等資料。
1.2.1 數(shù)據(jù)的預(yù)處理 由于從患者病歷資料中獲取到的部分?jǐn)?shù)據(jù)不具備可量化性,所以要對數(shù)據(jù)進(jìn)行預(yù)處理,將收集到的數(shù)據(jù)規(guī)格化、類別化,轉(zhuǎn)換為統(tǒng)一的格式,以便進(jìn)行數(shù)據(jù)挖掘。數(shù)據(jù)處理主要包括以下幾個方面:①性別因素:男性代碼為1;女性代碼為2。②年齡因素:患者的年齡按大小采用分級記分制。年齡區(qū)間在0歲
1.2.2 構(gòu)建決策樹 經(jīng)過數(shù)據(jù)預(yù)處理后的有效數(shù)據(jù)共有85例,用于決策樹的構(gòu)造。本研究采用了能夠直接處理連續(xù)值因素的C4.5算法作為分類算法[4]。根據(jù)C4.5算法的原理,采用以下步驟[5]創(chuàng)建決策樹,根據(jù)所納入的樣本集合,患者生存期有5個不同的值:1(0-12月)、2(12-24月)、3(24-36月),4(36-48月),5(>48月);取值1類的樣本有13個,取值2類的樣本有9個,取值3類的樣本有11個,取值4類的樣本有9個,取值5類的樣本有43個。根據(jù)公式可得樣本集的期望信息為:
進(jìn)一步計(jì)算每個分裂因素的期望信息。以“年齡”因素為例,年齡因素有4個不同取值,那么年齡區(qū)間取值1類(0歲
表1 骨肉瘤患者生存期相關(guān)的年齡因素分區(qū)
如果樣本根據(jù)年齡因素劃分,那么對樣本集進(jìn)行分類所需的期望信息為:
由此可以得到以“年齡”作為因素的信息增益為:
Gain年齡=Info(T)-Info年齡(T)=0.131 303
以“年齡”作為因素的分裂信息為:
根據(jù)以上的計(jì)算結(jié)果,最終得到關(guān)于以“年齡”作為因素的信息增益率(information gain rate, IGR)為:
=0.082 502
同理可以得出關(guān)于患者生存期的其他因素(性別、發(fā)病部位、發(fā)病-就診時間、腫瘤體積)的信息增益率(見表2)。
=0.029 553 1
=0.140 949 8
=0.246 132 6
表2 骨肉瘤患者生存期相關(guān)因素的信息增益率
根據(jù)各因素的信息增益率可以判斷:患者的年齡、性別對生存期影響較小,骨肉瘤的發(fā)病部位對生存期有較大影響,發(fā)病-就診時間、腫瘤體積與生存期關(guān)系密切。
骨肉瘤是原發(fā)髓內(nèi)的高度惡性腫瘤,以增殖腫瘤細(xì)胞直接產(chǎn)生骨或骨樣組織為特點(diǎn)。骨肉瘤是目前我國兒童及青少年最常見的原發(fā)惡性骨腫瘤,在各類惡性骨腫瘤中發(fā)病率最高,約占35%。目前的治療方式是以新輔助化療和手術(shù)為主,但不同層次的醫(yī)療機(jī)構(gòu)間骨肉瘤治療水平差距較大,在某些地區(qū)骨肉瘤的治療仍以截肢術(shù)為主,且術(shù)前未進(jìn)行規(guī)范的新輔助化療并評估化療效果,整個治療過程欠缺規(guī)范化的治療流程,治療理念陳舊。選擇治療方式的關(guān)鍵是準(zhǔn)確判斷患者的預(yù)后,以此為基礎(chǔ)方可進(jìn)一步尋求個性化和恰當(dāng)?shù)闹委煵呗浴?/p>
在腫瘤生存期的影響因素判斷中,需要考慮多個因素并進(jìn)行綜合判斷,但在具體實(shí)施中常會遇到困難。一方面,生存期影響因素繁多且不一定非常典型;另一方面,綜合判斷需要豐富的臨床經(jīng)驗(yàn),對于年輕醫(yī)生來說,這是一個長期的積累過程。以決策樹和神經(jīng)網(wǎng)絡(luò)為代表的數(shù)據(jù)挖掘技術(shù),在因素識別領(lǐng)域具有獨(dú)特的優(yōu)勢。相較于傳統(tǒng)的多元統(tǒng)計(jì)分析方法(如線性和Logistic回歸),決策樹技術(shù)通過計(jì)算各影響因素的信息增益率來預(yù)測生存期,其信息增益率越大,則該因素對生存期的影響越大,在具體干預(yù)中其作用也更重要。因此決策樹技術(shù)具有較強(qiáng)的靈活性、適應(yīng)性,在生存期多因素作用中更容易得到應(yīng)用。本研究通過納入臨床常見并易采集的各因素,并將不具備可量化性數(shù)據(jù)進(jìn)行預(yù)處理,將收集到的數(shù)據(jù)規(guī)格化、類別化,轉(zhuǎn)換為統(tǒng)一的格式,這樣既縮減了數(shù)據(jù)處理時間又不影響最終決策樹的建立,提高了數(shù)據(jù)挖掘的效率和質(zhì)量,有助于挖掘的結(jié)果更加精確。通過分析骨肉瘤患者的多個數(shù)據(jù)因素,分析其在患者生存期中的作用,為判斷患者的預(yù)后及治療方式的選擇提供初步的研究基礎(chǔ)。根據(jù)本文中計(jì)算各因素的信息增益率可以判斷:患者的年齡、性別對生存期影響較小,骨肉瘤的發(fā)病部位對生存期有較大影響,發(fā)病-就診時間、腫瘤體積與生存期關(guān)系密切。下面就每個因素的影響具體闡述。
關(guān)于年齡對骨肉瘤患者預(yù)后的影響研究較多,以意大利Rizzoli研究中心的結(jié)果為例[6],一項(xiàng)納入1 148例骨肉瘤患者的研究,將患者分為兩組(年齡<14歲組和年齡≥14歲組),經(jīng)過長達(dá)27年的隨訪,研究顯示兩組的生存率并無顯著性差異(P=0.45)。Smeland等[7]在2018年的一項(xiàng)研究中,共總結(jié)超過2 000例橫跨各年齡段患者,運(yùn)用單因素分析的方法統(tǒng)計(jì)分析,認(rèn)為年齡大于40歲患者相比其他年齡輕的患者,其預(yù)后較差;然而使用多因素分析綜合判斷,則證明年齡并不是一個顯著性預(yù)后因子,故認(rèn)為年齡不是影響生存期的獨(dú)立危險因素。盡管相關(guān)的文獻(xiàn)關(guān)于年齡對骨肉瘤患者生存期影響,得出了不盡相同的結(jié)論,但均提出骨肉瘤的發(fā)病年齡特點(diǎn)呈雙峰分布[8,9],即6歲以下兒童的發(fā)病率很低,進(jìn)入青春期后發(fā)病率迅速增加,形成骨肉瘤的第一個高峰期;而第二個高峰期多見于老年人(即大于65歲),這兩個發(fā)病高峰年齡從正常生理學(xué)角度也可以得到合理的解釋,11-20歲的青少年人處于生長發(fā)育的高峰期,長骨的干骺端細(xì)胞增殖活躍,細(xì)胞DNA復(fù)制過程中發(fā)生錯配致畸的概率大大增加;而老年患者免疫功能低下,導(dǎo)致“免疫監(jiān)視”功能不佳,對發(fā)生突變的細(xì)胞加以識別和清除的能力下降。從本研究得出的年齡分布趨勢,與現(xiàn)有文獻(xiàn)報道存在一定差異,骨肉瘤發(fā)病年齡的雙峰征并不明顯。一方面,可能與本研究納入的病例數(shù)有限,且為單中心數(shù)據(jù)有關(guān);另一方面中國的骨肉瘤患者仍以青少年為主,平均發(fā)病年齡在(20±3)歲。
大多數(shù)研究認(rèn)為20歲之前,男性骨肉瘤發(fā)病率高于女性,而對于年齡超過20歲的成年骨肉瘤患者,男女發(fā)病率并沒有明顯差別,且近年來的臨床研究報告均未發(fā)現(xiàn)男女骨肉瘤患者之間的預(yù)后差異。但也有少量文獻(xiàn)[10,11]報道男性的骨肉瘤發(fā)病率略高于女性,Chirlaque等[11]在2009年發(fā)表關(guān)于骨肉瘤的流行病調(diào)查發(fā)現(xiàn),男性骨肉瘤年發(fā)病率為5.4例/百萬,女性為4.0例/百萬,男女比例為1.35 ∶1。本研究納入的85例骨肉瘤患者中男性占60% ,女性占40% ,男女性別比為1.50 ∶1。經(jīng)過上述的增益率計(jì)算,在統(tǒng)計(jì)學(xué)上性別做為相關(guān)因素導(dǎo)致的生存期差異較小,甚至在單個因素的信息增益率絕對值上小于年齡相關(guān)因素,進(jìn)一步提示在臨床實(shí)際工作中,關(guān)于性別相關(guān)因素對患者生存期的影響,其重要性較低。
骨肉瘤好發(fā)于四肢長骨,尤以股骨遠(yuǎn)端、脛骨近端和肱骨近端最為多見,其中發(fā)病于長骨干骺端約占91% ,骨干部約占9% 。起病與骨盆、脊椎等中軸骨的患者數(shù)量較少,但近年來報道的數(shù)量呈上升趨勢,且隨著年齡的增長發(fā)病率逐步增加,并可呈多中心和跳躍病灶。Fidler等[12]在納入多中心、大樣本骨肉瘤患者的研究中,統(tǒng)計(jì)發(fā)現(xiàn)起病于四肢長骨的患者占93.7% ,在四肢長骨中又以下肢病灶多見,約占82.1% ,而來自于中軸骨的病灶僅為6.3% 。在本研究中,骨肉瘤患者主要以四肢長骨為主體,僅有少量的中軸骨骨肉瘤患者(3例),其中四肢長骨包括股骨52例,脛骨23例,肱骨7例。膝關(guān)節(jié)周圍發(fā)病占據(jù)了全部病例的75% ,與其他文獻(xiàn)[13]報道的國人發(fā)病部位所占比例基本相同。關(guān)于四肢骨骼及中軸骨骨肉瘤,是否存在不同的預(yù)后情況,大多數(shù)研究認(rèn)為中軸骨骨肉瘤患者的預(yù)后較差,這可能與中軸骨骨肉瘤位置深,多包裹或毗鄰重要血管、神經(jīng),難以完整切除,部分瘤體組織殘留,且術(shù)中功能重建困難,術(shù)后功能恢復(fù)差。以上這些符合發(fā)病部位做為生存期因素的信息增益率計(jì)算,并提示我們:①骨肉瘤的生長部位對患者生存期有較大影響;②骨肉瘤最高發(fā)的部位是股骨遠(yuǎn)端和脛骨近端,即膝關(guān)節(jié)周圍的干骺端;③四肢骨肉瘤患生存期優(yōu)于中軸骨骨肉瘤患者。
骨肉瘤的早期診斷至關(guān)重要,本研究納入的85例患者中,平均發(fā)病-就診時間為(4.15 ± 2.75)月,高于歐美發(fā)達(dá)國家患者就診的平均時間(平均69 d)[12]。這可能與中國患病人群就醫(yī)意識不高,未引起足夠重視,對于疼痛、肢體腫脹等預(yù)警癥狀多采用對癥治療,較晚前往??凭驮\有關(guān)。同時基于我國的基本國情,基層醫(yī)生對骨肉瘤的診療水平相對較低,難以在第一時間做出正確判斷和處理,從而延長了發(fā)病-就診時間。關(guān)于“發(fā)病-就診時間”做為骨肉瘤患者生存期影響因素的研究較少,環(huán)比諸多生存期相關(guān)影響因素,它是唯一一個游離于疾病本身病理過程之外的人為因素,通過生存期因素的信息增益率計(jì)算,它的重要性甚至高于骨肉瘤發(fā)病部位。在當(dāng)下試圖通過改進(jìn)手術(shù)方式或化學(xué)治療方案,在近期不太可能改變骨肉瘤相關(guān)不良預(yù)后的大背景下,重點(diǎn)關(guān)注“發(fā)病-就診時間”相關(guān)因素,可短時間內(nèi)較明顯地延長患者生存期,提高患者生活質(zhì)量,減少醫(yī)療資源的消耗并降低醫(yī)療成本。
相比前幾個生存期相關(guān)因素,腫瘤的體積與預(yù)后的相關(guān)性最為密切(IGR=0.246)。Ou等[14]的研究指出當(dāng)腫瘤的體積小于70 cm3時,5年的無轉(zhuǎn)移生存(metastasis free survival,MFS)是100% ;腫瘤的體積在70-150 cm3時,5年的MFS是87% ;體積大于150 cm3時,5年的MFS是58% ,其轉(zhuǎn)移和復(fù)發(fā)率較高,預(yù)后較差??梢娔[瘤體積是很好的預(yù)后指標(biāo),這與生存期因素的信息增益率計(jì)算相吻合,同時腫瘤體積因素也與發(fā)病-就診時間因素密切相關(guān),兩者疊加后對患者生存期的影響更大。因此,規(guī)范骨肉瘤的診斷和治療,提高早期診斷水平、減少漏診和誤診,建立骨肉瘤診治的標(biāo)準(zhǔn)化流程迫在眉睫。