支持資源管理的工業(yè)設(shè)計空間探索框架

2019-10-21 02:30:35翟佃森

新生代·上半月 2019年8期

【摘要】：當(dāng)前的多核設(shè)計方法由于描述部署場景的工作負(fù)載的實(shí)際多樣性，在質(zhì)量方面面臨著越來越大的不可預(yù)測性。為此，這些系統(tǒng)公開了一組動態(tài)參數(shù)，這些參數(shù)可以在運(yùn)行時進(jìn)行調(diào)整，以在性能方面實(shí)現(xiàn)指定的服務(wù)質(zhì)量（QoS）。運(yùn)行時管理器操作系統(tǒng)模塊負(fù)責(zé)通過控制每個應(yīng)用程序的總體任務(wù)級并行度以及每個系統(tǒng)核心的操作頻率，將指定的QoS與可用的平臺資源相匹配。

在本文中，我們介紹了一個設(shè)計空間探索框架，通過在工業(yè)多核平臺上重新配置軟件來實(shí)現(xiàn)和支持增強(qiáng)的資源管理。從一方面來說，框架在設(shè)計時運(yùn)行，以確定一組有希望的操作點(diǎn)，這些操作點(diǎn)代表了目標(biāo)功耗和性能方面的最佳權(quán)衡。在部署系統(tǒng)后使用操作點(diǎn)來支持增強(qiáng)的資源管理策略。這是由一個輕量級的資源管理層完成的，該層過濾并選擇每個應(yīng)用程序的最佳并行性和每個核心的操作頻率，以實(shí)現(xiàn)外部世界和/或用戶施加的QoS約束。

一、引言

多處理器片上系統(tǒng)和芯片多處理器正在成為嵌入式體系結(jié)構(gòu)設(shè)計和生產(chǎn)的實(shí)際工業(yè)標(biāo)準(zhǔn)。這些架構(gòu)通常采用基于平臺的設(shè)計方法進(jìn)行設(shè)計，以滿足上市時間限制，同時確保一定程度的結(jié)果質(zhì)量。在此背景下，建立了一套參數(shù)化的片上系統(tǒng)仿真模型，并對其進(jìn)行了評估，以便在設(shè)計時對系統(tǒng)結(jié)構(gòu)進(jìn)行精確優(yōu)化，使其能夠滿足目標(biāo)應(yīng)用要求。

然而，由于與部署場景相關(guān)的不確定性，傳統(tǒng)的設(shè)計技術(shù)面臨著越來越大的困難。事實(shí)上，由于體系結(jié)構(gòu)的復(fù)雜性越來越高，幾乎不可能確定與可用體系結(jié)構(gòu)資源與動態(tài)需求（即性能和功耗）匹配的最佳靜態(tài)配置。因此，對于運(yùn)行時可以更改的所有參數(shù)，例如與應(yīng)用程序相關(guān)聯(lián)的核心數(shù)量及其工作頻率，

運(yùn)行時管理器利用一組預(yù)先確定的運(yùn)行時配置（或操作點(diǎn)），這些配置是在設(shè)計時確定的（見圖1），通過一個架構(gòu)模擬器分析和探索架構(gòu)運(yùn)行時參數(shù)對QoS的影響。操作點(diǎn)包括有關(guān)功耗、吞吐量和資源使用的信息/知識，這些信息/知識與硬件/軟件基礎(chǔ)設(shè)施的每個運(yùn)行時參數(shù)配置相關(guān)。運(yùn)行時管理器的總體目標(biāo)是合理分配運(yùn)行時參數(shù)，以在滿足吞吐量QoS的同時最小化功率。

在本文中，我們將核心數(shù)量和頻率作為應(yīng)用程序的運(yùn)行時可配置參數(shù)。因此，我們假設(shè)：

·可以通過版本控制更改系統(tǒng)上運(yùn)行的每個應(yīng)用程序的任務(wù)級并行性。

·與每個磁芯相關(guān)的頻率可以動態(tài)更改（或縮放）。

然后，我們介紹了一個設(shè)計空間探索框架，用于實(shí)現(xiàn)和支持增強(qiáng)的資源管理。

論文的組織結(jié)構(gòu)如下。第二部分介紹了多處理器運(yùn)行時管理的現(xiàn)狀。第三節(jié)介紹了目標(biāo)架構(gòu)和提議的設(shè)計框架，而第四節(jié)描述了一個用例研究。最后，第五節(jié)總結(jié)了這項工作的相關(guān)貢獻(xiàn)。

人工智能背景

傳統(tǒng)的控制功耗和吞吐量的方法是基于減緩或關(guān)閉芯片平臺上系統(tǒng)的系統(tǒng)資源。事實(shí)上，動態(tài)電壓和頻率標(biāo)度（dvfs）已經(jīng)使用了十多年，通過使用開環(huán)和/或閉環(huán)控制策略（參見示例）來最小化動態(tài)功耗。通常，傳統(tǒng)的控制系統(tǒng)通過在一組離散功率模式中選擇電壓和頻率對來運(yùn)行，這屬于功率/性能目標(biāo)函數(shù)的帕累托邊界。

許多核心系統(tǒng)的運(yùn)行時資源管理試圖通過利用并行性的巨大可用性來擴(kuò)展前面的方法。事實(shí)上，許多核心系統(tǒng)提供了一個新的維度（即核心數(shù)量），除了頻率和電壓外，還可以利用它來增強(qiáng)功率和性能控制回路。特別是，單個應(yīng)用程序的不同并行版本可用于權(quán)衡處理器（或資源）的數(shù)量與性能和功耗。

在可控參數(shù)集合中加入并行性，極大地增加了操作模式的空間。需要創(chuàng)新和高效的運(yùn)行時資源管理技術(shù)來幫助或完全取代基于電源模式的傳統(tǒng)控制。該領(lǐng)域的最新研究通過將其建模為多維多選背包問題（MMKP）并通過專門的啟發(fā)式方法解決該問題。其他作者

已經(jīng)證明了綜合最佳多核架構(gòu)和協(xié)同運(yùn)行時資源適應(yīng)機(jī)制的可行性。

該方法的目標(biāo)是在部署時實(shí)現(xiàn)所需的QoS，同時最小化功耗和最大化多核的使用。它結(jié)合了一個設(shè)計時分析和優(yōu)化階段，以及一個運(yùn)行時管理器操作系統(tǒng)層，運(yùn)行在系統(tǒng)上可用的多個內(nèi)核之一上。在深入研究該方法的描述之前，我們先介紹了我們的目標(biāo)體系結(jié)構(gòu)、基準(zhǔn)和QoS定義。

ADRES核心是一個高效、靈活的架構(gòu)模板，它結(jié)合了一個非常長的指令字（VLIW）DSP和一個粗粒度陣列。VLIW DSP利用指令級并行性，有效地執(zhí)行控制流代碼。該陣列包含多個功能單元，利用高度的循環(huán)級并行性加速數(shù)據(jù)流循環(huán)。

在我們的研究中，與每個ADRES核心相關(guān)的頻率φ可以獨(dú)立于其他頻率而變化，而強(qiáng)臂運(yùn)行在206MHz。每個核心的實(shí)際頻率范圍是：Φ=20、60、100、140、180、220 MHz。ADRES互連總線由32位寬的全交叉條組成。

工具鏈和基準(zhǔn)。多核系統(tǒng)由編程工具鏈支持，該工具鏈能夠在指定數(shù)量的核上自動映射應(yīng)用程序的C級描述。在這里，我們將考慮作為一個目標(biāo)應(yīng)用程序一個針對4CIF分辨率的MPEG4編碼器。此外，我們假設(shè)一個或多個MPEG4編碼器應(yīng)用程序可以通過適當(dāng)?shù)膽?yīng)用程序二進(jìn)制版本占用一個或多個內(nèi)核（或系統(tǒng)資源）（見圖2）。

性能和功率模型。下一節(jié)介紹的實(shí)驗(yàn)評估已經(jīng)用高性能、高水平的多核ADRES模擬機(jī)（HLSIM）進(jìn)行了收集。HLSIM利用了有關(guān)執(zhí)行時間和功耗的反向注釋信息，這些信息來自于一個使用Coware平臺設(shè)計工具構(gòu)建的周期準(zhǔn)確的事務(wù)級模擬器。HLSIM報告了運(yùn)行MPEG4基準(zhǔn)測試的目標(biāo)體系結(jié)構(gòu)的執(zhí)行時間和功耗。利用臺積電90nm參考工藝技術(shù)計算了系統(tǒng)的功耗。

作者簡介：翟佃森（1995.11—），男，漢族，籍貫：山東濱州，齊魯工業(yè)大學(xué)藝術(shù)設(shè)計學(xué)院，18級在讀研究生，碩士學(xué)位，專業(yè)：工業(yè)設(shè)計，研究方向：農(nóng)業(yè)機(jī)械設(shè)計。