Clint+Boulton+沈建苗
首席數(shù)據(jù)官(CDO)Mark Ramsey在幫助這家制藥巨頭將數(shù)十年積累下來(lái)的數(shù)據(jù)轉(zhuǎn)化為藥物發(fā)現(xiàn)資產(chǎn)。
葛蘭素史克(GSK)在大數(shù)據(jù)方面懷有遠(yuǎn)大夢(mèng)想。通過(guò)利用數(shù)十年積累下來(lái)的臨床試驗(yàn)數(shù)據(jù),這家制藥巨頭旨在更迅速地將藥物投放市場(chǎng)。如果成功的話,它有望在這個(gè)因步伐緩慢而常常飽受詬病的行業(yè)占據(jù)優(yōu)勢(shì)。
這是葛蘭素史克首席數(shù)據(jù)官(CDO)Mark Ramsey的主要目標(biāo)和挑戰(zhàn);他承認(rèn),GSK在利用數(shù)據(jù)方面動(dòng)作遲緩的行業(yè)是個(gè)落后者。2015年GSK聘請(qǐng)Ramsey,便是希望扭轉(zhuǎn)這個(gè)頹勢(shì)。Ramsey說(shuō):“與金融服務(wù)、電信或零售等行業(yè)相比,制藥業(yè)在使用數(shù)據(jù)作為戰(zhàn)略資產(chǎn)方面沒(méi)有取得多大進(jìn)展。”他在加盟GSK之前,在三星移動(dòng)擔(dān)任過(guò)CDO,并在IBM效力18年期間擔(dān)任過(guò)幾個(gè)數(shù)據(jù)分析崗位?!拔覀兊氖滓繕?biāo)是如何更高效地開(kāi)展臨床試驗(yàn),以加快藥物發(fā)現(xiàn)?!?/p>
并非只有各大制藥公司任由可能很豐富的數(shù)據(jù)閑置在龐大的孤島中。Gartner的一項(xiàng)調(diào)查顯示,許多公司在物色領(lǐng)導(dǎo)人,幫助從這些數(shù)據(jù)寶藏中發(fā)掘優(yōu)勢(shì)和運(yùn)營(yíng)效率,預(yù)計(jì)到2019年底,90%的大公司會(huì)設(shè)有CDO。Gartner分析師Doug Laney認(rèn)為,到2020年,50%的領(lǐng)先企業(yè)會(huì)設(shè)有戰(zhàn)略影響力和權(quán)威性與首席信息官(CIO)不相上下的CDO。CDO可以將其個(gè)人的優(yōu)先事項(xiàng)與企業(yè)的優(yōu)先事項(xiàng)結(jié)合起來(lái),以此確立領(lǐng)導(dǎo)地位。這正是Ramsey所努力的方向。
以下是Ramsey如何致力于全面改變GSK的數(shù)據(jù)戰(zhàn)略。
奠定數(shù)據(jù)基礎(chǔ)
制藥公司(許多公司有數(shù)十年、甚至數(shù)百年的歷史)經(jīng)常從臨床試驗(yàn)收集和存儲(chǔ)海量數(shù)據(jù)。然而,大多數(shù)只是將這些數(shù)據(jù)用不同的數(shù)據(jù)庫(kù)存儲(chǔ)起來(lái),每次臨床試驗(yàn)后,積累的信息越來(lái)越多。Ramsey表示,GSK有300多年的歷史,它在2100多個(gè)孤島中存放著數(shù)PB級(jí)的此類數(shù)據(jù),這些孤島有待制藥公司挖掘,以獲得寶貴的洞察力。
Ramsey來(lái)到GSK后評(píng)估了該公司的數(shù)據(jù)概況,迅速了解到數(shù)據(jù)分析技術(shù)并沒(méi)有在整個(gè)公司得到全面使用。相反,這項(xiàng)技術(shù)只是用于旨在將新藥投向市場(chǎng)的一次性臨床試驗(yàn)。他從中看到了共享眾多試驗(yàn)的數(shù)據(jù)的大好機(jī)會(huì),但要是沒(méi)有一種全面的數(shù)據(jù)平臺(tái):GSK大數(shù)據(jù)信息平臺(tái),這就無(wú)從談起。
該平臺(tái)的基礎(chǔ)是一個(gè)Cloudera Hadoop數(shù)據(jù)湖,StreamSets公司的自動(dòng)化機(jī)器人技術(shù)從成千上萬(wàn)個(gè)作業(yè)系統(tǒng)中獲取數(shù)據(jù)后放入到該數(shù)據(jù)湖。隨后,GSK使用Trifacta軟件清理雜亂、復(fù)雜的數(shù)據(jù)集,并做成業(yè)務(wù)用戶有興趣分析的視圖。GSK還利用Tamr公司的機(jī)器學(xué)習(xí)軟件,將數(shù)據(jù)轉(zhuǎn)移到行業(yè)本體(Ontology),并利用AtScale軟件對(duì)數(shù)據(jù)進(jìn)行虛擬化處理。業(yè)務(wù)用戶通過(guò)Zoomdata可視化軟件查看數(shù)據(jù)。該平臺(tái)中的其他工具還包括谷歌的TensorFlow、Tibco Spotfire和Anaconda等。Ramsey表示,各種技術(shù)整合起來(lái),那樣它們可以共享數(shù)據(jù),而這使臨床試驗(yàn)更容易。
作為這個(gè)項(xiàng)目的一部分,該公司已在11個(gè)月內(nèi)將大約12TB的結(jié)構(gòu)化數(shù)據(jù)和近8PB的非結(jié)構(gòu)化信息轉(zhuǎn)移到該平臺(tái)――這個(gè)速度對(duì)任何一家企業(yè)來(lái)說(shuō)都很快,更不用說(shuō)是制藥公司了。 Ramsey解釋:“盡管GSK已有300多年的歷史,但我們正盡量像一家初創(chuàng)公司那樣來(lái)運(yùn)作。”
縮小數(shù)據(jù)發(fā)現(xiàn)窗口
GSK大數(shù)據(jù)信息平臺(tái)已經(jīng)獲得了成效,縮短了為臨床試驗(yàn)篩選數(shù)據(jù)的時(shí)間。過(guò)去研究人員要花一年的時(shí)間來(lái)分析臨床試驗(yàn),從而找出血液類型與呼吸藥物療效之間的關(guān)系,現(xiàn)在卻只需要短短30分鐘。Ramsey說(shuō):“這給研究人員的工作效率帶來(lái)了巨大的影響?!?/p>
Ramsey表示,GSK最近還與英國(guó)生物樣本庫(kù)(UK Biobank)簽署了一項(xiàng)合作協(xié)議,利用其平臺(tái)為500000名患者開(kāi)展外顯子組測(cè)序(Exome Sequencing),幫助研究人員分析與這些特點(diǎn)有關(guān)的DNA特性。Ramsey說(shuō):“這與研發(fā)過(guò)程有關(guān),所以帶來(lái)了巨大的價(jià)值?!盙SK希望用其平臺(tái)開(kāi)展的計(jì)算機(jī)模擬將幫助該公司將藥物發(fā)現(xiàn)周期從五年或七年縮短至兩年。
Ramsey為力求做好數(shù)據(jù)分析工作的公司提供建議。
進(jìn)行整體評(píng)估:你先要了解數(shù)據(jù)在哪里、是什么樣的數(shù)據(jù)、如何使用數(shù)據(jù)。Ramsey加入GSK后,發(fā)現(xiàn)IT部門對(duì)數(shù)據(jù)毫無(wú)頭緒。于是他讓IT團(tuán)隊(duì)構(gòu)建了一項(xiàng)數(shù)據(jù)搜索技術(shù),找到研發(fā)部門的每個(gè)數(shù)據(jù)源。一旦你對(duì)數(shù)據(jù)環(huán)境進(jìn)行了評(píng)估,就可以設(shè)立一個(gè)支持那些任務(wù)的數(shù)據(jù)分析團(tuán)隊(duì),并開(kāi)始考慮建立獲取、處理和分析數(shù)據(jù)的平臺(tái)。
先對(duì)數(shù)據(jù)運(yùn)用分析技術(shù):許多公司常常忽略仔細(xì)呈現(xiàn)用于分析的數(shù)據(jù),就是由于它們一門心思想解決業(yè)務(wù)問(wèn)題。Ramsey鼓勵(lì)同行專注于數(shù)據(jù)篩選,并利用市面上的機(jī)器學(xué)習(xí)工具了解你擁有的數(shù)據(jù)。他說(shuō):“確保將大數(shù)據(jù)工具運(yùn)用于數(shù)據(jù)本身,讓這成為現(xiàn)實(shí)。只有篩選數(shù)據(jù),并將篩選過(guò)的數(shù)據(jù)提供給業(yè)務(wù)用戶,才可以開(kāi)始創(chuàng)造價(jià)值。”
獲得業(yè)務(wù)部門的支持:Ramsey表示,獲得公司高層的認(rèn)可至關(guān)重要,他的直屬上司是GSK的研發(fā)部門總裁。他說(shuō):“擁有一種出色的平臺(tái)只完成了一半;你要有挑戰(zhàn)極限,而且想要改變決策方式,從而為公司提升價(jià)值的高層。”endprint