Thor+Olavsrud
數(shù)據(jù)科學(xué)家正在使用機(jī)器學(xué)習(xí)來解決肺癌的檢測(cè)問題。從1月份開始,世界各地近1萬名數(shù)據(jù)科學(xué)家參加了數(shù)據(jù)科學(xué)碗競(jìng)賽,開發(fā)最有效的算法,以幫助醫(yī)療專業(yè)人員更早、更準(zhǔn)確地檢測(cè)肺癌。
2010年,美國(guó)國(guó)家肺癌篩查試驗(yàn)顯示,使用低劑量計(jì)算機(jī)斷層掃描(CT)進(jìn)行年度篩查能夠?qū)⒎伟┧劳雎蕼p少20%,這種掃描設(shè)備使用計(jì)算機(jī)處理來自不同角度的大量X射線圖像,對(duì)這些圖像進(jìn)行組合產(chǎn)生高對(duì)比度的3D圖像。雖然這一技術(shù)在早期檢測(cè)上實(shí)現(xiàn)了突破,但與更傳統(tǒng)的X射線相比,其誤報(bào)率也相對(duì)較高。
機(jī)器學(xué)習(xí)公司Kaggle與合作伙伴Booz Allen Hamilton出席了年度數(shù)據(jù)科學(xué)碗活動(dòng),Kaggle首席執(zhí)行官Anthony Goldbloom說:“這真的是一種非常強(qiáng)大的方法,可以將癌癥死亡率降低20%,但是誤報(bào)率非常高。有很多人被告知他們得了癌癥,但后來才發(fā)現(xiàn)實(shí)際沒有。這是人為的代價(jià)。會(huì)讓人非常緊張?!?/p>
所以對(duì)于今年的數(shù)據(jù)科學(xué)碗,Booz Allen和Kaggle決定對(duì)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)進(jìn)行適當(dāng)?shù)囊龑?dǎo),以解決誤報(bào)問題。在Laura和John Arnold基金會(huì)資助下,這兩名合作伙伴將為名列前十的參賽選手提供100萬美元獎(jiǎng)金。
數(shù)據(jù)科學(xué)為社會(huì)公益做出貢獻(xiàn)
Booz Allen高級(jí)副總裁兼首席數(shù)據(jù)科學(xué)家Josh Sullivan說,Booz Allen和Kaggle在2015年創(chuàng)建了數(shù)據(jù)科學(xué)碗,目的是讓數(shù)據(jù)科學(xué)為社會(huì)公益做出貢獻(xiàn)。
他說:“我們想做一些讓人們聚在一起為社會(huì)公益做出貢獻(xiàn)的事情,能超越自我的事情。我們?cè)鯓訛樯鐣?huì)公益切實(shí)做一些事情?我們希望所做的事情能夠?qū)е驴茖W(xué)發(fā)現(xiàn)。對(duì)公眾開放的事情;不是為了我們的利益或者客戶的利益,而是開放來源,為了世界各地的人們?!?/p>
Sullivan說,第三屆年度數(shù)據(jù)科學(xué)碗收到了300多個(gè)建議(前兩屆數(shù)據(jù)科學(xué)碗的主題是確定海洋健康和檢測(cè)心臟病的算法)。他說,最終,合作伙伴決定幫助美國(guó)國(guó)家癌癥研究所(NCI)及其《Beau Biden癌癥月刊》,努力加速癌癥研究,為更多的患者提供更多的治療方案,提高癌癥預(yù)防和早期檢測(cè)能力。
NCI為數(shù)據(jù)科學(xué)碗提供了2000張匿名的高分辨率CT掃描圖像,每張圖像包含千兆字節(jié)的數(shù)據(jù)。Sullivan說,1500張圖像是訓(xùn)練集,有最終的診斷。剩下的500張圖像是問題集。使用訓(xùn)練集后,參賽選手的機(jī)器學(xué)習(xí)算法必須學(xué)會(huì)怎樣正確地確定其余500張圖像中的肺部病變是否是癌變。根據(jù)正確診斷的百分比對(duì)算法進(jìn)行評(píng)分。
數(shù)據(jù)已在Kaggle平臺(tái)上打包。谷歌在3月份收購(gòu)的Kaggle是由Goldbloom于2010年創(chuàng)建的,專業(yè)舉辦預(yù)測(cè)模型和分析競(jìng)賽。公司和研究人員發(fā)布數(shù)據(jù),數(shù)據(jù)科學(xué)家在競(jìng)賽中使用這些數(shù)據(jù),產(chǎn)生最好的模型。該公司在近200個(gè)國(guó)家注冊(cè)了成百上千個(gè)“Kagglers”。
在這場(chǎng)競(jìng)賽中,Kagglers是卷積神經(jīng)網(wǎng)絡(luò)(CNN)方面的專家,這是一類由生物體內(nèi)視覺機(jī)制啟發(fā)產(chǎn)生的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。CNN能夠解決很多不同類型的問題,但尤其擅長(zhǎng)計(jì)算機(jī)視覺問題。在以前的Kaggle比賽中,Kaggler參賽人員競(jìng)爭(zhēng)創(chuàng)建基于CNN的算法,這一算法可以在社交媒體上區(qū)分狗和貓的圖片。
Goldbloom對(duì)NCI提供的CT圖像發(fā)表了看法:“這一數(shù)據(jù)源很新奇,它真的把卷積神經(jīng)網(wǎng)絡(luò)推向了從未涉足的方向。由于數(shù)據(jù)集的規(guī)模很大,醫(yī)學(xué)數(shù)據(jù)集始終是一個(gè)難題。互聯(lián)網(wǎng)上有多少貓和狗的圖片?可能是數(shù)百萬。但收集醫(yī)學(xué)圖像的成本非常高。人們會(huì)給自己的狗和貓照相,但很少去做CT掃描?!?/p>
Goldbloom解釋說,CNN非常容易出現(xiàn)名為“過度擬合”的效應(yīng),統(tǒng)計(jì)模型傾向于描述噪聲而不是基本關(guān)系,因?yàn)橄鄬?duì)于觀測(cè)次數(shù)而言參數(shù)太多了。
Goldbloom說:“很難構(gòu)建不過度擬合的卷積神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)集越小就越難。這真的需要技巧。必須能夠從數(shù)量相對(duì)較少的圖像中得出抽象的結(jié)果。”
近10,000名Kagglers選手參加了數(shù)據(jù)科學(xué)碗。他們總共花了1萬5千多小時(shí),提交了近18,000個(gè)算法。許多放射科醫(yī)師在Kaggle論壇上自愿為競(jìng)賽選手提供專業(yè)知識(shí),幫助他們完善工作。
數(shù)據(jù)科學(xué)碗獲勝者
最終,中國(guó)清華大學(xué)的兩位研究人員Liao Fangzhou和Zhe Li獲得了第一名。荷蘭的軟件和機(jī)器學(xué)習(xí)工程師Julian de Wit和Daniel Hammack獲得了第二名。為一家荷蘭公司工作的Aidence團(tuán)隊(duì)獲得了第三名,該公司把機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于醫(yī)療圖像解釋。
Sullivan說:“NIH(美國(guó)國(guó)家衛(wèi)生研究所)將最終與美國(guó)食品和藥物管理局合作,提供這些分析技術(shù),以便應(yīng)用于實(shí)際閱讀這些CT掃描圖像的軟件。這就是我們正在努力爭(zhēng)取的巨大利益?!?/p>
他說,他希望NIH和FDA能夠關(guān)注一些非常優(yōu)秀的算法。優(yōu)秀團(tuán)隊(duì)的得分相差不到百分之幾,有的可能會(huì)很快轉(zhuǎn)化為產(chǎn)品,也有的非常適合擴(kuò)展。