李雅琪 溫曉君
不久前,世界計算機(jī)大會在湖南長沙召開,存算一體化是本次大會上的熱點(diǎn)議題之一。馮·諾依曼體系自20世紀(jì)30年代被提出后一直作為經(jīng)典計算機(jī)架構(gòu)沿用至今。然而近年來,隨著數(shù)據(jù)量的日益增長,CPU運(yùn)算能力不斷提升,內(nèi)存的訪問延遲卻幾乎沒有提升。傳統(tǒng)架構(gòu)下,存儲與運(yùn)算之間數(shù)據(jù)交換通路窄、能耗高的問題日益凸顯,存算一體則成為現(xiàn)階段實現(xiàn)高帶寬、低功耗、計算需求的一條有效途徑。因此,有必要梳理存算一體技術(shù)的發(fā)展現(xiàn)狀與挑戰(zhàn),以便對產(chǎn)業(yè)做出針對性的扶持與引導(dǎo)。
存內(nèi)計算的發(fā)展現(xiàn)狀
存算一體化成為緩解存算調(diào)用低效的有效方案。在馮·諾依曼架構(gòu)中,存儲器與處理器是兩個完全分離的單元,處理器根據(jù)指令從存儲器中讀取數(shù)據(jù)、完成運(yùn)算,并存回存儲器。兩者之間數(shù)據(jù)交換通路窄以及由此引發(fā)的高能耗兩大難題在存儲與運(yùn)算之間筑起一道“存儲墻”。存算一體化將計算機(jī)中的運(yùn)算從中央處理器轉(zhuǎn)入內(nèi)存中進(jìn)行,可大幅降低數(shù)據(jù)交換時間以及計算過程中的數(shù)據(jù)存取的能耗。其技術(shù)路線可分為片外存儲與片內(nèi)存儲兩大類。片外存儲即基于數(shù)字芯片和存儲器配合的存算一體技術(shù),通過在存儲器中植入計算芯片或者邏輯計算單元來提高讀寫速度。片內(nèi)存儲即數(shù)?;旌系拇嫠阋惑w技術(shù),通過在存儲器嵌入算法權(quán)重,使存儲器具備算法功能,實現(xiàn)真正意義上的將存儲和計算完全結(jié)合在一起。
人工智能熱潮為存算一體化的應(yīng)用帶來新空間。存算一體的雛形概述早在20世紀(jì)90年代就被提出,雖一直被認(rèn)為是有潛力的革命性技術(shù),但對其應(yīng)用的必要性始終缺乏論證,因此尚未在處理器與存儲行業(yè)得到產(chǎn)業(yè)化的應(yīng)用。隨著基于深度學(xué)習(xí)技術(shù)的人工智能應(yīng)用熱潮再次涌起,馮·諾依曼架構(gòu)的“存儲墻”問題也隨之日益凸顯。例如,深度學(xué)習(xí)模型的每一層神經(jīng)網(wǎng)絡(luò)運(yùn)算都面臨大量存儲調(diào)用,每一次讀取權(quán)重值都相當(dāng)于做了一次乘加累積運(yùn)算,90%以上的運(yùn)算資源都消耗在數(shù)據(jù)搬運(yùn)的過程中。存算一體化則尤其適用于此類數(shù)據(jù)訪問密集的應(yīng)用場景,它的引入為人工智能芯片的產(chǎn)業(yè)化發(fā)展提供了有效助力。
存算一體芯片市場廣闊,國內(nèi)外企業(yè)、科研院所紛紛布局。據(jù)Gartner預(yù)測,全球內(nèi)存計算市場將以每年22%的速度持續(xù)增長,截至2020年底有望達(dá)到130億美元。企業(yè)方面,英特爾、博世、美光、Lam Research、應(yīng)用材料、微軟、亞馬遜、軟銀都投資了NOR閃存存算一體芯片。其中,英特爾發(fā)布的傲騰固態(tài)盤采用片外存儲技術(shù),實現(xiàn)CPU與硬盤之間數(shù)據(jù)高速搬運(yùn),從而平衡高級分析和人工智能等大規(guī)模內(nèi)存工作負(fù)載的性價比。國內(nèi)知存科技、新憶科技等大量初創(chuàng)公司進(jìn)入存算一體市場,其中知存科技開發(fā)的超低功耗語音識別存算一體芯片,采用片外存儲技術(shù),預(yù)計今年實現(xiàn)量產(chǎn),與普通專用芯片相比,其算力可提高10至50倍??蒲性核矫?,加州大學(xué)圣芭芭拉分校謝源教授團(tuán)隊致力于在新型存儲器件ReRAM(阻變存儲)里面實現(xiàn)計算的功能研究,即PRIME架構(gòu)。清華大學(xué)劉勇攀教授團(tuán)隊和汪玉教授團(tuán)隊均參與了PRIME架構(gòu)的研發(fā),目前已實現(xiàn)在150nm工藝下流片,在阻變存儲陣列里實現(xiàn)了計算存儲一體化的神經(jīng)網(wǎng)絡(luò),功耗降低20倍,速度提高50倍。此外,清華大學(xué)與SK海力士聯(lián)合成立智能存儲計算芯片聯(lián)合研究中心,未來五年,中心將致力于研發(fā)存算一體與近存儲處理技術(shù)。
存算一體化面臨三大挑戰(zhàn)
一是計算精度有限?,F(xiàn)有浮柵存儲器件并不適合用于計算,且片內(nèi)存儲本質(zhì)上使用模擬計算,計算精度會受到模擬計算低信噪比的影響,通常精度上限在8 bit左右,而且只能做定點(diǎn)數(shù)計算,難以實現(xiàn)精準(zhǔn)的浮點(diǎn)數(shù)計算。因此并不適用于需要高計算精度的人工智能訓(xùn)練場景,僅適用于嵌入式人工智能等對于能效比有高要求而對于精確度有一定容忍的場景。
二是應(yīng)用落地場景邊界條件限制較多。存內(nèi)計算僅適合原本就對存儲需求較大的場景,而對于本身存儲需求并不高的場景,為了引入內(nèi)存計算而加上一塊大內(nèi)存反倒會增加成本適得其反。尤其是隨著內(nèi)存容量的增加,內(nèi)存成本往往呈指數(shù)級增長,且內(nèi)存容量上限有限,性價比不理想導(dǎo)致內(nèi)存計算無法惠及更多用戶、更多場景。目前來看,在人工智能本身仍在探尋應(yīng)用場景的前提下,存算一體化的落地問題,仍需要緊密結(jié)合具體應(yīng)用場景具體分析。
三是芯片開發(fā)生態(tài)亟待打造。存算一體芯片產(chǎn)業(yè)化尚處于起步階段,目前仍面臨產(chǎn)業(yè)鏈上游支撐不足,下游應(yīng)用不匹配等諸多困局。例如,在芯片設(shè)計階段,由于存算一體芯片區(qū)別于常規(guī)的芯片設(shè)計方案,所以目前市面上沒有成熟的專用EDA工具輔助設(shè)計和仿真驗證;芯片流片之后,也沒有成熟的工具協(xié)助測試;在芯片落地應(yīng)用階段,暫時沒有專用的軟件與之匹配。因此,亟須圍繞存算一體打造生態(tài)。
對策建議
把握技術(shù)路徑轉(zhuǎn)換機(jī)遇,加快存算一體技術(shù)研發(fā)。聚力發(fā)展高帶寬內(nèi)存、新型非易失性存儲器等存算一體技術(shù),著力突破存算一體模擬信號誤差、高效模擬/數(shù)字信號轉(zhuǎn)換等關(guān)鍵技術(shù)。引導(dǎo)高??蒲性核c企業(yè)成立聯(lián)合實驗室,加強(qiáng)存算一體芯片原型設(shè)計、驗證、流片加工等技術(shù)工藝儲備,加快存算一體芯片產(chǎn)業(yè)化進(jìn)程,推動其人工智能、物聯(lián)網(wǎng)等領(lǐng)域應(yīng)用,打造我國的長項優(yōu)勢。
制定全面且長期的存算一體發(fā)展戰(zhàn)略。在“十四五”及中長期集成電路研發(fā)與產(chǎn)業(yè)化布局中將存算一體作為重點(diǎn)發(fā)展方向,編制存算一體技術(shù)發(fā)展路線圖。加大存算一體研發(fā)支持力度,在01專項和集成電路、人工智能相關(guān)產(chǎn)業(yè)化專項中予以引導(dǎo)支持。拓展存儲設(shè)計類初創(chuàng)企業(yè)融資渠道,對標(biāo)志性成熟產(chǎn)品推動國家基金和社會資本跟投。強(qiáng)化高??蒲性核?、芯片設(shè)計企業(yè)、晶圓廠、生產(chǎn)制造企業(yè)、封裝測試企業(yè)、整機(jī)企業(yè)之間聯(lián)動效應(yīng),構(gòu)建存算一體產(chǎn)業(yè)新生態(tài)。