王輝
近些年,“人工智能”“大數(shù)據”等詞語早已被人們所熟知??呻S著人工智能、大數(shù)據處理、高性能計算等應用對算力的需求不斷增長,數(shù)據中心的網絡帶寬已逐漸成為其算力增長的瓶頸。為了消除網絡瓶頸,科學家想了不少辦法。
第一種方法是通過堆疊交換機設備的方式來提升數(shù)據中心的網絡帶寬;第二種方法是采用更高容量和帶寬的交換芯片。但這兩種方法均會大幅增加網絡功耗,并且高端芯片還受到美國限購政策的制約。除此之外,還有第三種方法,就是設計光電混合數(shù)據中心,用高帶寬、低功耗的光交換機替換高功耗的電交換機,在不增加網絡功耗的前提下提升網絡性能?!扒懊娴膬煞N方法成本太高了,只有第三種方法的成本可以接受,但要做成也十分不容易?!鄙虾=煌ù髮W長聘教軌副教授、博士生導師趙世振解釋說,因為前人設計的光電混合網絡對光交換硬件的切換時延和網絡控制器的收斂速度要求極高,難以真正落地。
面對這樣的狀況,趙世振和他的團隊一直在為如何設計和控制光電混合數(shù)據中心而努力著,他一直以推動光電混合數(shù)據中心的落地應用為自己的研究目標。在國內,這還是一條獨特的、頗具挑戰(zhàn)的新道路。
路,道也
本科時期的趙世振其實和很多人一樣,并不知道自己應該做什么領域。2010年,趙世振從上海交通大學電子信息與電氣工程學院畢業(yè)。之后,他于2015年從美國普渡大學電子與計算機工程專業(yè)畢業(yè),獲博士學位。在這段充實而又漫長的求學日子里,趙世振做得更多的是關于理論分析的內容,他把這段經歷比喻為“內功修煉”,“我對數(shù)學是十分喜歡的,所以選擇了做網絡理論方面的研究。從我的導師那里我也學到了很多東西”。面對理論學習,趙世振絲毫不覺得枯燥,反而覺得收獲巨大?!叭绻麤]有扎實的‘內功修煉,后續(xù)遇到的現(xiàn)實問題我可能也解決不了?!?/p>
但在這段理論學習的過程中,趙世振也遇到了一些困惑?!拔乙庾R到理論想應用需要別人配合,但別人可能因為不懂你的理論而不會去配合。如果自己能在理論和應用兩方面都做好,就不存在這個問題了。”因為這個想法,趙世振在博士畢業(yè)后,選擇先去工業(yè)界——他進入美國谷歌網絡組工作。
對于剛剛走出象牙塔的學生來說,這是一條未知且全新的道路。在谷歌工作的幾年時間里,趙世振真正從理論中走出來,正式開始在數(shù)據中心這個方向上深耕細作。工作中一點點積累起來的寶貴經驗讓他意識到在實踐中發(fā)現(xiàn)問題的重要性,而趙世振此前打下的扎實基礎,也為他后來解決更多的問題提供了助力。他意識到理論分析和做系統(tǒng)之間是可以相互結合起來的。就這樣,一條新的道路開啟了。
在谷歌工作時,趙世振逐漸意識到光交換對數(shù)據中心的重要性——能有效降低運維難度,因此他提出利用光交換機加速數(shù)據中心的擴容。通過在胖樹架構數(shù)據中心的匯聚層與核心層之間引入光交換機,趙世振巧妙地將擴容過程中的人工拓撲重連轉化為光交換機的自動重配。此外,他還提出一個全新的變量合并技術,使拓撲重構的計算復雜度大幅降低。這一成果使數(shù)據中心的自動化擴容成為可能,不僅能大幅縮短擴容所需時間,還能降低出錯概率。這項成果于2019年發(fā)表在網絡系統(tǒng)的國際頂級會議——網絡系統(tǒng)設計與實現(xiàn)專題討論會(NSDI)中。
2019年,趙世振回國,加入了上海交通大學約翰·霍普克羅夫特計算機科學中心,開始從事光電混合數(shù)據中心網絡架構的研究。光電混合數(shù)據中心網絡架構的研究屬于網絡系統(tǒng),與“人工智能”等熱門方向相比,網絡系統(tǒng)的研究雖然在業(yè)界也有較強的需求,但由于研究周期長、出成果慢,愿意從事這個方向的人并不多?!癆I領域可以幾個月出一篇論文,而網絡領域的一篇論文要1~2年?!蹦侨绾巫尭鄡?yōu)秀的學生加入呢?趙世振采取了一種類似“姜太公釣魚”的方式,他在上課的時候會有針對性地做一些課程的設計,通過這些獨特的課程設計來吸引有想法的、優(yōu)秀的學生加入。
多年來,趙世振在求學與工作中積累了豐富的經驗,再加上精挑細選的團隊,所有的一切都為接下來的科學探索打下了良好的基礎。接下來,便是朝著理想中的目標,投身研究。
撼大摧堅,徐徐圖之
盡管光電混合數(shù)據中心在技術層面存在諸多難題,但趙世振依然充滿了信心?!霸谟布矫?,光交換器件切換時延高、靈活性差。而在軟件方面,光電混合數(shù)據中心的控制方案,包括拓撲、路由算法目前比較缺少,舊的電交換Clos數(shù)據中心網絡已經很成熟,而光電混合數(shù)據中心網絡還比較新。”面對這些難點,趙世振及其研究團隊專注于利用軟件來彌補硬件的缺陷,開展相關研究工作。
除了研究上遇到的困難以外,趙世振及其研究團隊在推動光電混合數(shù)據中心的落地應用方面也并不輕松。正如趙世振所說,想讓光電混合數(shù)據中心應用落地不僅需要漫長的時間和足夠的耐心,還要根據實際的需求不停找出解決辦法。不過,相較于一味地追求速度、與他人進行無效的競爭,趙世振和研究團隊選擇穩(wěn)扎穩(wěn)打,一步步實現(xiàn)自己的目標。
本著這樣的初心和努力,在2021—2022年,趙世振和研究團隊在光電混合數(shù)據中心網絡架構的設計與優(yōu)化研究方向取得了多項創(chuàng)新進展。針對光電混合數(shù)據中心的運行過程,他們首次提出“慢切換”的控制方式,大幅降低了光電混合數(shù)據中心的控制難度以及對快速光交換硬件的依賴。針對光電混合數(shù)據中心搭建初期的容量規(guī)劃,他們首次提出“競爭比”概念,能夠在不知道數(shù)據中心流量模式的前提下嚴格分析光電混合數(shù)據中心物理拓撲的性能。其中第二個成果論文被發(fā)表在美國計算機協(xié)會計算機系統(tǒng)測量和建模學會舉辦的年度會議(ACM?SIGMETRICS)中,這是上海交通大學作為第一作者單位在這一會議的首篇論文。對于趙世振和其研究團隊來說,這篇論文不僅是重要的成績,更是繼續(xù)前進的鼓勵。多年的研究,在趙世振和其團隊的一步步推動下,終有所成。
不啻微芒,造炬成陽
即便是微弱的光芒,若能積少成多,也會成為閃耀的太陽。時間來到了2022年8月,一個好消息為趙世振和研究團隊帶來了一份意料之外的喜悅。谷歌首次公布了他們的光電混合數(shù)據中心架構,里面的控制算法深度參考了趙世振提出“慢切換”控制方法的論文。自己的論文被借鑒和參考,這是對他多年研究的認可,更是一劑強心劑。相較于個人的喜悅心情,趙世振感觸更深的是,這會對研究光電混合數(shù)據中心這個領域起到促進作用,相信一定會有更多優(yōu)秀的學生愿意加入這項研究。
在這之后,趙世振和他的團隊并沒有停滯不前。光電混合網絡若想得到工業(yè)界更廣泛的認可,必須能夠支持數(shù)據中心不同業(yè)務的不同需求。例如分布式存儲、高性能計算、AI人工智能等場景,需要無損網絡的支持。而現(xiàn)有光電混合數(shù)據中心一旦開啟鏈路層的流量控制避免丟包,就可能觸發(fā)網絡死鎖,造成網絡癱瘓。針對這個問題,他們基于“圖映射”理論設計出全新的路由方案,使光電混合數(shù)據中心能夠完全避免死鎖。正是靠著堅持不懈的研究,克服困難的勇氣和一點點不斷累積起來的進步,這個原本前景不明朗的領域未來的發(fā)展也變得逐漸清晰起來。趙世振坦言:“在我之前,很多人認為這個方向只適合在實驗室里發(fā)論文,因為傳統(tǒng)設計?對光交換硬件切換速度和網絡控制器的收?斂速度要求極高,實際的軟硬件很難做到。”但他另辟蹊徑,探索出一套更易于落地的方案。
除了科學研究,趙世振還是一位特別年輕的老師。與很多老師不同的是,趙世振比較看重學生對整個計算機領域,以及領域中各個方向之間的關系的認識?!拔业难芯抗ぷ鞯囊粋€特點是:著重針對業(yè)界碰到的難題提供解決方案。這和‘從論文中找問題‘拿著錘子找釘子的研究模式很不一樣。我在培養(yǎng)學生的時候也是貫徹這個思路?!币虼?,比起讓學生一上來就去盲目地讀論文,他更愿意帶領學生感受業(yè)界的真實情況,找出其中尚待解決的問題,深入其中,最終提供方法解決問題。趙世振相信這樣的教學方式一定能幫助和鼓勵更多人,并在不久的將來吸引更多優(yōu)秀學生加入研究,推動整個領域更進一步。
眼下,趙世振及其團隊的研究還在繼續(xù),未來還會出現(xiàn)許多難題需要逐一攻克,但他堅信只要保持初心和熱愛,在研究中一步一個腳印,定能驅散迷霧,撥云見日。
(責編:蘇寒山)