【摘要】:當(dāng)前的多核設(shè)計方法由于描述部署場景的工作負(fù)載的實(shí)際多樣性,在質(zhì)量方面面臨著越來越大的不可預(yù)測性。為此,這些系統(tǒng)公開了一組動態(tài)參數(shù),這些參數(shù)可以在運(yùn)行時進(jìn)行調(diào)整,以在性能方面實(shí)現(xiàn)指定的服務(wù)質(zhì)量(QoS)。運(yùn)行時管理器操作系統(tǒng)模塊負(fù)責(zé)通過控制每個應(yīng)用程序的總體任務(wù)級并行度以及每個系統(tǒng)核心的操作頻率,將指定的QoS與可用的平臺資源相匹配。
在本文中,我們介紹了一個設(shè)計空間探索框架,通過在工業(yè)多核平臺上重新配置軟件來實(shí)現(xiàn)和支持增強(qiáng)的資源管理。從一方面來說,框架在設(shè)計時運(yùn)行,以確定一組有希望的操作點(diǎn),這些操作點(diǎn)代表了目標(biāo)功耗和性能方面的最佳權(quán)衡。在部署系統(tǒng)后使用操作點(diǎn)來支持增強(qiáng)的資源管理策略。這是由一個輕量級的資源管理層完成的,該層過濾并選擇每個應(yīng)用程序的最佳并行性和每個核心的操作頻率,以實(shí)現(xiàn)外部世界和/或用戶施加的QoS約束。
一、引言
多處理器片上系統(tǒng)和芯片多處理器正在成為嵌入式體系結(jié)構(gòu)設(shè)計和生產(chǎn)的實(shí)際工業(yè)標(biāo)準(zhǔn)。這些架構(gòu)通常采用基于平臺的設(shè)計方法進(jìn)行設(shè)計,以滿足上市時間限制,同時確保一定程度的結(jié)果質(zhì)量。在此背景下,建立了一套參數(shù)化的片上系統(tǒng)仿真模型,并對其進(jìn)行了評估,以便在設(shè)計時對系統(tǒng)結(jié)構(gòu)進(jìn)行精確優(yōu)化,使其能夠滿足目標(biāo)應(yīng)用要求。
然而,由于與部署場景相關(guān)的不確定性,傳統(tǒng)的設(shè)計技術(shù)面臨著越來越大的困難。事實(shí)上,由于體系結(jié)構(gòu)的復(fù)雜性越來越高,幾乎不可能確定與可用體系結(jié)構(gòu)資源與動態(tài)需求(即性能和功耗)匹配的最佳靜態(tài)配置。因此,對于運(yùn)行時可以更改的所有參數(shù),例如與應(yīng)用程序相關(guān)聯(lián)的核心數(shù)量及其工作頻率,
運(yùn)行時管理器利用一組預(yù)先確定的運(yùn)行時配置(或操作點(diǎn)),這些配置是在設(shè)計時確定的(見圖1),通過一個架構(gòu)模擬器分析和探索架構(gòu)運(yùn)行時參數(shù)對QoS的影響。操作點(diǎn)包括有關(guān)功耗、吞吐量和資源使用的信息/知識,這些信息/知識與硬件/軟件基礎(chǔ)設(shè)施的每個運(yùn)行時參數(shù)配置相關(guān)。運(yùn)行時管理器的總體目標(biāo)是合理分配運(yùn)行時參數(shù),以在滿足吞吐量QoS的同時最小化功率。
在本文中,我們將核心數(shù)量和頻率作為應(yīng)用程序的運(yùn)行時可配置參數(shù)。因此,我們假設(shè):
·可以通過版本控制更改系統(tǒng)上運(yùn)行的每個應(yīng)用程序的任務(wù)級并行性。
·與每個磁芯相關(guān)的頻率可以動態(tài)更改(或縮放)。
然后,我們介紹了一個設(shè)計空間探索框架,用于實(shí)現(xiàn)和支持增強(qiáng)的資源管理。
論文的組織結(jié)構(gòu)如下。第二部分介紹了多處理器運(yùn)行時管理的現(xiàn)狀。第三節(jié)介紹了目標(biāo)架構(gòu)和提議的設(shè)計框架,而第四節(jié)描述了一個用例研究。最后,第五節(jié)總結(jié)了這項工作的相關(guān)貢獻(xiàn)。
人工智能背景
傳統(tǒng)的控制功耗和吞吐量的方法是基于減緩或關(guān)閉芯片平臺上系統(tǒng)的系統(tǒng)資源。事實(shí)上,動態(tài)電壓和頻率標(biāo)度(dvfs)已經(jīng)使用了十多年,通過使用開環(huán)和/或閉環(huán)控制策略(參見示例)來最小化動態(tài)功耗。通常,傳統(tǒng)的控制系統(tǒng)通過在一組離散功率模式中選擇電壓和頻率對來運(yùn)行,這屬于功率/性能目標(biāo)函數(shù)的帕累托邊界。
許多核心系統(tǒng)的運(yùn)行時資源管理試圖通過利用并行性的巨大可用性來擴(kuò)展前面的方法。事實(shí)上,許多核心系統(tǒng)提供了一個新的維度(即核心數(shù)量),除了頻率和電壓外,還可以利用它來增強(qiáng)功率和性能控制回路。特別是,單個應(yīng)用程序的不同并行版本可用于權(quán)衡處理器(或資源)的數(shù)量與性能和功耗。
在可控參數(shù)集合中加入并行性,極大地增加了操作模式的空間。需要創(chuàng)新和高效的運(yùn)行時資源管理技術(shù)來幫助或完全取代基于電源模式的傳統(tǒng)控制。該領(lǐng)域的最新研究通過將其建模為多維多選背包問題(MMKP)并通過專門的啟發(fā)式方法解決該問題。其他作者
已經(jīng)證明了綜合最佳多核架構(gòu)和協(xié)同運(yùn)行時資源適應(yīng)機(jī)制的可行性。
該方法的目標(biāo)是在部署時實(shí)現(xiàn)所需的QoS,同時最小化功耗和最大化多核的使用。它結(jié)合了一個設(shè)計時分析和優(yōu)化階段,以及一個運(yùn)行時管理器操作系統(tǒng)層,運(yùn)行在系統(tǒng)上可用的多個內(nèi)核之一上。在深入研究該方法的描述之前,我們先介紹了我們的目標(biāo)體系結(jié)構(gòu)、基準(zhǔn)和QoS定義。
ADRES核心是一個高效、靈活的架構(gòu)模板,它結(jié)合了一個非常長的指令字(VLIW)DSP和一個粗粒度陣列。VLIW DSP利用指令級并行性,有效地執(zhí)行控制流代碼。該陣列包含多個功能單元,利用高度的循環(huán)級并行性加速數(shù)據(jù)流循環(huán)。
在我們的研究中,與每個ADRES核心相關(guān)的頻率φ可以獨(dú)立于其他頻率而變化,而強(qiáng)臂運(yùn)行在206MHz。每個核心的實(shí)際頻率范圍是:Φ=20、60、100、140、180、220 MHz。ADRES互連總線由32位寬的全交叉條組成。
工具鏈和基準(zhǔn)。多核系統(tǒng)由編程工具鏈支持,該工具鏈能夠在指定數(shù)量的核上自動映射應(yīng)用程序的C級描述。在這里,我們將考慮作為一個目標(biāo)應(yīng)用程序一個針對4CIF分辨率的MPEG4編碼器。此外,我們假設(shè)一個或多個MPEG4編碼器應(yīng)用程序可以通過適當(dāng)?shù)膽?yīng)用程序二進(jìn)制版本占用一個或多個內(nèi)核(或系統(tǒng)資源)(見圖2)。
性能和功率模型。下一節(jié)介紹的實(shí)驗(yàn)評估已經(jīng)用高性能、高水平的多核ADRES模擬機(jī)(HLSIM)進(jìn)行了收集。HLSIM利用了有關(guān)執(zhí)行時間和功耗的反向注釋信息,這些信息來自于一個使用Coware平臺設(shè)計工具構(gòu)建的周期準(zhǔn)確的事務(wù)級模擬器。HLSIM報告了運(yùn)行MPEG4基準(zhǔn)測試的目標(biāo)體系結(jié)構(gòu)的執(zhí)行時間和功耗。利用臺積電90nm參考工藝技術(shù)計算了系統(tǒng)的功耗。
作者簡介:翟佃森(1995.11—),男,漢族,籍貫:山東濱州,齊魯工業(yè)大學(xué)藝術(shù)設(shè)計學(xué)院,18級在讀研究生,碩士學(xué)位,專業(yè):工業(yè)設(shè)計,研究方向:農(nóng)業(yè)機(jī)械設(shè)計。