人們對(duì)飛速前進(jìn)的互聯(lián)網(wǎng)生活已經(jīng)習(xí)以為常,很難意識(shí)到這樣一個(gè)真相——僅僅一兩次惡意或無意的破壞發(fā)生后,你眨眼就可以回到蒙昧?xí)r代。
互聯(lián)網(wǎng)公司常常將資源集中于高速發(fā)展的業(yè)務(wù),而忽略了在安全方面的投入。對(duì)于從事互聯(lián)網(wǎng)金融的公司,這是個(gè)致命的缺陷。
南方周末記者 劉志毅 謝鵬
發(fā)自廣州、北京
從2015年5月27日下午開始,一直到5月29日上午,你很可能接連遭遇到這樣三件倒霉透頂?shù)氖拢褐Ц秾毥Y(jié)不了賬;攜程宕機(jī)了;眼看著大盤暴跌,股票軟件卻賣不了股票。
先是你去超市里購物,以為打開手機(jī)里的支付寶就能付款,當(dāng)你結(jié)賬的時(shí)候,收銀員卻說支付寶這會(huì)用不了,可是你又沒有帶錢包,最后只能空著手回家。
第二天早上你要出差,打開手機(jī)里的攜程客戶端,發(fā)現(xiàn)用不了,打開電腦登錄攜程官網(wǎng),還是登不上。這天下午,中國A股暴跌超過6%。
到了第三天,股市早盤一度暴跌4個(gè)點(diǎn),你打算把股票賣了,卻發(fā)現(xiàn)你的證券軟件無法交易。公開報(bào)道顯示,招商證券、國泰君安和國金證券等股票軟件一度出現(xiàn)無法交易現(xiàn)象。
人們對(duì)飛速前進(jìn)的互聯(lián)網(wǎng)生活已經(jīng)習(xí)以為常,很難意識(shí)到這樣一個(gè)真相——僅僅一兩次惡意或無意的破壞發(fā)生后,你眨眼就可以回到蒙昧?xí)r代。
“挖斷”支付寶
“如果是真的做到了異地多活,應(yīng)當(dāng)是分鐘級(jí)別的切換。兩個(gè)小時(shí)已經(jīng)足夠拷貝一個(gè)數(shù)據(jù)庫的備份,然后找一個(gè)新機(jī)房重新開啟業(yè)務(wù)了?!?/p>
2015年5月27日17時(shí)左右,擁有數(shù)億用戶的支付寶被部分用戶反映,服務(wù)突然無法正常使用。
5月27日22點(diǎn)37分,支付寶在其官方微博上發(fā)布聲明稱,本次事故由杭州一主要機(jī)房的光纜被市政施工挖斷所造成。南方周末記者獲得的一份蓋有“中國電信杭州分公司”公章的說明函顯示,此次市政施工未通知電信公司,頂管施工導(dǎo)致了“四條大對(duì)數(shù)光纜中斷”,造成了阿里巴巴公司的業(yè)務(wù)受到影響。
到19時(shí)左右,支付寶的服務(wù)恢復(fù)正常。事實(shí)上,在服務(wù)恢復(fù)正常的時(shí)候,被挖斷的線路還未修復(fù)完畢。上述說明函顯示,一直到28日凌晨3點(diǎn)57分,光纜才陸續(xù)搶通。南方周末記者就事故修復(fù)過程咨詢支付寶內(nèi)部的多位技術(shù)人員,對(duì)方表示,無法提供更多的技術(shù)細(xì)節(jié)。
一家國有銀行的信息部門人士對(duì)南方周末記者表示,對(duì)于支付寶事件一種可能的推測是,連接數(shù)據(jù)中心的雙線中的一條線被破壞后,原有的容量對(duì)僅剩的一條線產(chǎn)生極大壓力,于是“擠爆了”支付寶的有效傳輸通道。如果剩下的一條傳輸線路中突增的服務(wù)請(qǐng)求不能被合理分發(fā)到所有服務(wù)器中,部分壓力過大的服務(wù)器就有可能宕機(jī)、停擺。剩下的就是滾雪球效應(yīng)了:尚未宕機(jī)的服務(wù)器接到越來越多的未處理請(qǐng)求,壓力逐漸變大而接連發(fā)生宕機(jī)。
雙線架構(gòu)是一般金融機(jī)構(gòu)傳輸信息的基本架構(gòu),兩條通路的布置方向和位置還必須互相遠(yuǎn)離,例如一條線從南出,另一條線就得從北出,甚至這兩條通信線路還要來自兩個(gè)相互獨(dú)立的運(yùn)營商,以充分規(guī)避風(fēng)險(xiǎn)。
網(wǎng)絡(luò)上的段子手們再次第一時(shí)間發(fā)聲:“什么互聯(lián)網(wǎng)+、大數(shù)據(jù)、云計(jì)算,都頂不住傳統(tǒng)行業(yè)一鏟子?!?/p>
支付寶官方在回答公眾可能關(guān)心的問題時(shí),用到一個(gè)關(guān)鍵詞“異地多活”。這也被業(yè)內(nèi)人士稱為“分布式多活”,即在不同的地理空間分布著多個(gè)數(shù)據(jù)中心,一般情況下彼此地位均等,協(xié)同工作,并行提供服務(wù);而在某個(gè)中心發(fā)生故障的情況下,其他數(shù)據(jù)中心可以正常運(yùn)行并對(duì)關(guān)鍵業(yè)務(wù)或全部業(yè)務(wù)實(shí)現(xiàn)接管,互為備份,實(shí)現(xiàn)用戶的“故障無感知”。
但此次支付寶的部分用戶明顯對(duì)故障有感知,“異地多活”的救場似乎還未達(dá)到支付寶想要的最理想狀態(tài)。
其在官方聲明中也說,“作為一個(gè)金融系統(tǒng),對(duì)切換中的數(shù)據(jù)與資金安全性要求極高,因此切換速度上沒有做到更快,后面我們會(huì)不斷提升切換速度。但是,這并不代表我們對(duì)這次恢復(fù)時(shí)間是滿意的,我們希望未來這樣的切換能讓用戶無感知或者最小化感知?!?/p>
但對(duì)于在“異地多活”的環(huán)境下仍超過兩小時(shí)的恢復(fù)時(shí)間,來自一家國有大行和一家互聯(lián)網(wǎng)公司的兩位信息安全人士均持懷疑態(tài)度:“如果是真的做到了異地多活,應(yīng)當(dāng)是分鐘級(jí)別的切換。兩個(gè)小時(shí)已經(jīng)足夠拷貝一個(gè)數(shù)據(jù)庫的備份,然后找一個(gè)新機(jī)房重新開啟業(yè)務(wù)了。”
“當(dāng)然這種猜測是基于不清楚他們的負(fù)載均衡策略和架構(gòu)的,更多的符合事實(shí)的細(xì)節(jié)還是要他們自己來披露。”前述銀行人士說。
目前,國有大型銀行基本上采用“兩地三中心”的架構(gòu)模式來應(yīng)對(duì)緊急情況,即除了同城有一個(gè)災(zāi)備中心外,異地也有一個(gè)災(zāi)備中心。當(dāng)一個(gè)機(jī)房出問題時(shí),系統(tǒng)會(huì)切到同城或者異地的災(zāi)備中心。以廣發(fā)銀行為例,南海數(shù)據(jù)中心、廣州同城備份中心、深圳異地災(zāi)備中心就形成了典型的“兩地三中心”整體架構(gòu)。
傳統(tǒng)的災(zāi)備切換模式下,備用中心在接替主中心時(shí)需要較長的時(shí)間、關(guān)系復(fù)雜,會(huì)嚴(yán)重影響用戶的業(yè)務(wù)辦理,備用中心的投資回報(bào)也無法達(dá)到預(yù)期。真正在“兩地三中心”架構(gòu)上實(shí)現(xiàn)的“異地多活”模式則具有無中斷時(shí)間、無數(shù)據(jù)損失等對(duì)客戶透明的效果,在正常運(yùn)行時(shí),備份中心也不會(huì)閑置,而是可以提供成倍的服務(wù)能力。
“一鍵刪掉”攜程?
“大眾情緒是一件很奇怪的事情。支付寶癱了,平靜地過了;攜程癱了,也平靜地過了;證券公司癱了,沒有逃成頂沒有抄成底,也平靜地過了,如果是銀行呢?”
支付寶的光纜搶通后7個(gè)小時(shí),攜程又陷入了麻煩。5月28日上午11點(diǎn)左右,攜程的用戶反映,攜程的官網(wǎng)和App無法使用。
按照攜程官方的說法,5月28日11時(shí)09分,因部分服務(wù)器遭到不明攻擊,導(dǎo)致官方網(wǎng)站及App暫時(shí)無法正常使用。一位接近攜程的消息人士告訴南方周末記者,攜程在第一時(shí)間啟動(dòng)了技術(shù)排查,所有技術(shù)人員緊急值班。大家很快發(fā)現(xiàn)問題出在數(shù)據(jù)庫被刪除了,而且被刪除的情況“很嚴(yán)重”。在修復(fù)過程中還發(fā)現(xiàn),只要你在上面上傳代碼,數(shù)據(jù)會(huì)自動(dòng)被刪除。一直到下午一點(diǎn)半,數(shù)據(jù)還在“持續(xù)被刪”中。
“一開始大家的第一反應(yīng)是外面的黑客攻擊的,但很快意識(shí)到,應(yīng)該是內(nèi)部人所為,黑客不可能把數(shù)據(jù)庫刪除得這么干凈。”上述人士對(duì)南方周末記者透露。
當(dāng)天23點(diǎn)左右,攜程在宕機(jī)12個(gè)小時(shí)后恢復(fù)正常。按照攜程一季度財(cái)報(bào)公布的數(shù)據(jù)計(jì)算,攜程宕機(jī)的損失為平均每小時(shí)106.48萬美元。
5月29日1點(diǎn)30分,攜程發(fā)表聲明稱,經(jīng)攜程技術(shù)排查,確認(rèn)此次事件是由于員工錯(cuò)誤操作導(dǎo)致。
奇虎360網(wǎng)絡(luò)攻防實(shí)驗(yàn)室負(fù)責(zé)人林偉對(duì)南方周末記者表示,即便是大企業(yè),災(zāi)備方案也做得不夠完整。
“支付寶屬于金融支付,如果是銀行,就不會(huì)出現(xiàn)這樣的情況,銀行有同城和異地災(zāi)備等完善災(zāi)備體系。攜程被刪除的代碼經(jīng)過8小時(shí)還沒有恢復(fù),有可能是在重新上線的過程中遭遇攻擊者的阻礙,影響了服務(wù)恢復(fù)的進(jìn)度,否則在有備份的情況下,代碼和數(shù)據(jù)一般能在1小時(shí)內(nèi)恢復(fù)。這個(gè)修復(fù)時(shí)間太長了,刪除應(yīng)該是故意的,誤操作的可能性很低?!彼f。
攜程的聲明發(fā)布8個(gè)小時(shí)之后,中國A股開市,經(jīng)歷了5月28日的暴跌之后,A股在29日早盤一度下跌4個(gè)點(diǎn),很多人紛紛賣掉自己的股票,但有些股民發(fā)現(xiàn)自己的證券交易軟件又出了問題,預(yù)定的逃頂和抄底計(jì)劃不得不紛紛擱淺。
互聯(lián)網(wǎng)公司以指數(shù)級(jí)別的加速度構(gòu)筑起了我們的互聯(lián)網(wǎng)世界,另一方面,也將用戶置于瞬時(shí)崩潰的危險(xiǎn)之中。
但對(duì)大多數(shù)人來說,互聯(lián)網(wǎng)服務(wù)的中斷,遠(yuǎn)較對(duì)其錢袋子的威脅來得輕松。相比之下,傳統(tǒng)金融機(jī)構(gòu)開設(shè)的實(shí)體網(wǎng)點(diǎn)、背后的國家信用都讓用戶天然地抱有更多信任,當(dāng)然他們的要求也更高,遇到問題常常激起更廣泛關(guān)注。
一名銀行研究人士在一個(gè)非公開的場合總結(jié)了5月底這三天接連發(fā)生的互聯(lián)網(wǎng)安全事件:“大眾情緒是一件很奇怪的事情。支付寶癱了,平靜地過了;攜程癱了,也平靜地過了;證券公司癱了,沒有逃成頂沒有抄成底,也平靜地過了,如果是銀行呢?”
高額投入的“危險(xiǎn)按鈕”
“當(dāng)時(shí)主中心已經(jīng)宕機(jī),是可以選擇切換的,但是可能覺得切換的風(fēng)險(xiǎn)比修復(fù)的風(fēng)險(xiǎn)更大,所以沒有選擇切換,而是進(jìn)行了修復(fù)?!?/p>
“世界上沒有絕對(duì)的安全,只有通過一個(gè)平衡可以把客戶體驗(yàn)和安全做得最佳?!睍r(shí)任阿里小微金融服務(wù)集團(tuán)(現(xiàn)為“螞蟻金服”)首席風(fēng)險(xiǎn)官胡曉明在接受南方周末記者采訪時(shí)曾說,在數(shù)據(jù)存儲(chǔ)、安全體系上,如果要投入,就是一個(gè)非常大的數(shù)字。
廣發(fā)銀行負(fù)責(zé)安全應(yīng)急的部門在給南方周末記者的回復(fù)中稱,在網(wǎng)絡(luò)、信息系統(tǒng)服務(wù)器等采用高可用性架構(gòu)的基礎(chǔ)上,還要加上日常開展有效應(yīng)急演練及專項(xiàng)應(yīng)急演練,金融機(jī)構(gòu)才能比較有效應(yīng)對(duì)突發(fā)情況,減少中斷時(shí)間甚至是實(shí)現(xiàn)無縫切換。
“這也需要在網(wǎng)絡(luò)設(shè)計(jì)、系統(tǒng)架構(gòu)、數(shù)據(jù)同步、安全控制以及配套的運(yùn)維管理等方面均有非常高的要求和資金投入?!币晃汇y行相關(guān)人士表示。
但是注重投入產(chǎn)出比,是大多互聯(lián)網(wǎng)公司安全體系建設(shè)所面臨的現(xiàn)狀。
“互聯(lián)網(wǎng)公司發(fā)展得很快,一片欣欣向榮,在自己的架構(gòu)方面,可擴(kuò)展性、高并發(fā)能力總是考慮得多一點(diǎn)。安全性、容錯(cuò)性上就相對(duì)差一些?!必?fù)責(zé)過數(shù)家互聯(lián)網(wǎng)公司信息安全事務(wù)的林鵬對(duì)南方周末記者說,高速發(fā)展的業(yè)務(wù)通常是互聯(lián)網(wǎng)公司首要考慮的,在安全性上,互聯(lián)網(wǎng)公司遠(yuǎn)沒有傳統(tǒng)金融機(jī)構(gòu)的沉淀這么多。
互聯(lián)網(wǎng)安全社區(qū)“烏云”的多位人士都曾對(duì)南方周末記者提及,互聯(lián)網(wǎng)公司更看重業(yè)務(wù)的拓展,安全部門的地位經(jīng)常居次。
金融則是對(duì)安全極為敏感的行業(yè),當(dāng)互聯(lián)網(wǎng)公司也爭先恐后涉足金融領(lǐng)域時(shí),不得不像傳統(tǒng)金融機(jī)構(gòu)一樣如履薄冰。
“任何一筆投資、交易的丟失都是無法被用戶接受的?!绷柱i說,可資對(duì)比的是微信,作為騰訊的拳頭產(chǎn)品,微信也因光纜被挖斷而出現(xiàn)過故障,但是“發(fā)生意外時(shí)丟兩條聊天記錄,顯然在用戶的接受范圍內(nèi)”。
“發(fā)生支付寶這種事件時(shí),切是可以切的,但是誰來保證切過去之后信息的一致性?”林鵬說,通常的情況是,沒有人敢。這樣的切換即使在技術(shù)上能達(dá)到,目前對(duì)于各大銀行等金融機(jī)構(gòu)來講也是幾乎未在實(shí)際操作中嘗試過的昂貴操作:一則風(fēng)險(xiǎn)太大,要保證整個(gè)數(shù)據(jù)的完整性;二則可能切換不回來。
“據(jù)我所知從沒有哪個(gè)銀行真的切換了的,大多是在演習(xí)。有一些故障時(shí),一般是等到故障修復(fù)或者系統(tǒng)回退,而不是選擇切換。”前述銀行信息部門人士對(duì)南方周末記者說。
2013年6月23日上午10點(diǎn)38分至11點(diǎn)23分,工商銀行部分地區(qū)因計(jì)算機(jī)系統(tǒng)升級(jí)原因造成柜面和電子渠道業(yè)務(wù)辦理緩慢,ATM機(jī)暫停服務(wù),甚至連余額都無法查詢。“當(dāng)時(shí)主中心已經(jīng)宕機(jī),是可以選擇切換的,但是可能覺得切換的風(fēng)險(xiǎn)比修復(fù)的風(fēng)險(xiǎn)更大,所以沒有選擇切換,而是進(jìn)行了修復(fù)?!币晃唤咏ど蹄y行的人士對(duì)南方周末記者說。
金融機(jī)構(gòu)的信息系統(tǒng)出現(xiàn)問題,往往還會(huì)帶來意料之外的猜測甚至恐慌。
工商銀行短暫宕機(jī)事件適逢全國“錢荒”,在故障剛出現(xiàn)時(shí),就有輿論揣測,工行是因?yàn)橘Y金鏈緊張而無法辦理取款業(yè)務(wù)。最終,其官方微博在23日12點(diǎn)50分時(shí)表示,“系統(tǒng)已恢復(fù),各項(xiàng)業(yè)務(wù)正常辦理?!笔潞蟮膹?fù)盤也證明,確實(shí)是信息系統(tǒng)故障導(dǎo)致了前述事故。
IBM方面提供給南方周末記者的一篇報(bào)道顯示,2014年8月,中國工商銀行的同城雙活數(shù)據(jù)中心投產(chǎn)。“雙活”方案意味著,“當(dāng)任何一個(gè)站點(diǎn)的系統(tǒng)計(jì)劃內(nèi)或計(jì)劃外需要停止運(yùn)行時(shí),金融交易可以在分鐘級(jí)的時(shí)間內(nèi)全部轉(zhuǎn)移至另外一個(gè)中心,并對(duì)外提供服務(wù)”。
但這是任何一家金融機(jī)構(gòu)不到最后不愿按動(dòng)的“最危險(xiǎn)按鈕”。