基于深度強化學習的智能燈個性化調(diào)節(jié)方法

2022-03-22 03:37:24張瀚鐸王昱林

計算機工程與應用 2022年6期

鄧心，那俊，張瀚鐸，王昱林，張斌

1.東北大學計算機科學與工程學院，沈陽 110819

2.東北大學軟件學院，沈陽 110819

隨著萬物互聯(lián)和智能計算的趨勢不斷加深，各類智能信息物理系統(tǒng)（cyber-physical systems，CPS）和物聯(lián)網(wǎng)（Internet of things，IoT）[1]應用不僅已經(jīng)實現(xiàn)了物理世界和信息世界的無縫連接，更讓物理設備具有了計算、通信、精確控制等能力，催生了機器人、無人機和自動駕駛汽車等自主設備。通過無處不在的環(huán)境感知、設備本身的計算能力以及網(wǎng)絡通信和遠程控制，這些自主設備將實現(xiàn)與周圍環(huán)境和人類更自然地交互，被Gartner列為2019年十大戰(zhàn)略技術趨勢之一，已經(jīng)成為研究界和產(chǎn)業(yè)界普遍關注的焦點。

智能家居是家庭信息化的一種重要實現(xiàn)方式。隨著物聯(lián)網(wǎng)技術的發(fā)展和成熟，智能家居已經(jīng)成為了社會信息化發(fā)展的重要組成部分。智能照明是智能家居的重要組成部分，良好的室內(nèi)光照可以提高人的視覺舒適程度和健康狀況[2]。隨著物聯(lián)網(wǎng)的蓬勃發(fā)展，新一代的LED照明系統(tǒng)應運而生，即基于LED的智能照明系統(tǒng)。通過集成傳感器和執(zhí)行器，各類LED智能燈能夠與其他智能設備一起使用，以改善人們的生活方式，提高便利性和可定制性，同時達到節(jié)能的目的[3]。例如，Philips Hue是一種無線照明產(chǎn)品，可以與一系列智能設備（例如Amazon Echo，Apple HomeKit，Google Home等）配合使用，以為居住者提供方便舒適的方式來控制和體驗照明。

照明控制策略是智能照明系統(tǒng)的核心，它描述了如何在給定目標下修改照明。例如，開關、調(diào)光器和場景設置器是通過手動控制滿足個人偏好并實現(xiàn)節(jié)省能源的基本策略[4]。為了提高用戶體驗的質(zhì)量，燈光控制策略需要更加靈活，以便能夠調(diào)節(jié)燈光以自動提供舒適的照明，同時自動將能源成本降至最低。特別是考慮到日光的自然變化和用戶需求的多樣性，自主學習用戶偏好并適應環(huán)境亮度變化已經(jīng)成為了智能照明系統(tǒng)的關鍵功能[5-6]。通過提供接近個人各自偏好的亮度在情緒、亮度滿意度和環(huán)境滿意度上具有重要提升作用。如果可以最大限度地利用自然光，智能地調(diào)節(jié)每個人所在位置的光照設備，讓綜合光照強度一直保持在一個讓人舒適的范圍內(nèi)，可以節(jié)約能源、降低光污染、增加辦公效率等[6]。

考慮到每個人對光照的舒適程度和自身習慣不同，要在滿足舒適度的同時，還要精確地控制光照設備，很難使用一個確定的策略來滿足所有人需求。文獻[5]提出一個基于ANN的方法滿足每個辦公室人員桌子上的亮度偏好，通過最小化具有分布式照明的照明系統(tǒng)總體能量消耗，構建表示每個桌子上的照明強度和實際亮度之間相互影響的模型。然而，作者并沒有考慮自然光的影響，且假設所有桌子期望亮度相同，并未考慮用戶的個性化亮度偏好。文獻[7-8]以使用者為中心，強調(diào)自適應亮度控制模型的重要性，主要關注開/關操作，而不是亮度調(diào)節(jié)。文獻[9]提出了辦公區(qū)域內(nèi)的個性化照明，提出了優(yōu)化照明的控制算法，并使用具有生成調(diào)光信號的亮度生成器模型。文獻[10]引入了一種改進的強化學習控制器，可獲得最佳的百葉窗和燈光控制策略來提供燈光控制的個性化服務。文獻[11]基于居民的行為模式采用人工神經(jīng)網(wǎng)絡進行在線學習和自適應，使用基于相似度閾值的數(shù)據(jù)替換算法對歷史數(shù)據(jù)進行替換，取得了很好的效果，但自然光的影響并沒有考慮。

針對現(xiàn)有方法存在的上述問題，本文提出一種基于深度強化學習的智能燈亮度個性化調(diào)節(jié)方法。一方面，通過考慮自然光強和用戶位置動態(tài)調(diào)整燈光亮度起到節(jié)能的作用，另一方面則通過采集用戶對燈光亮度的手動調(diào)節(jié)情況形成強化學習的正負反饋，逐漸學習并擬合用戶的使用偏好。由于強化學習是一種典型的在線學習算法，相較于傳統(tǒng)用戶行為模式挖掘、人工神經(jīng)網(wǎng)絡等方法具有更好的動態(tài)適應能力。

1 理論基礎

1.1 強化學習基本原理

強化學習是機器學習的一個重要分支，它避免了對復雜的環(huán)境和用戶行為進行建模，在很多需要實現(xiàn)個性化的問題中發(fā)揮了積極作用[11]。強化學習的本質(zhì)是通過學習模型與環(huán)境不斷地進行交互，通過獲取的反饋信息優(yōu)化其自身的決策行為，不斷地進行學習和決策，最終獲得最優(yōu)的決策方案。

強化學習可以使用馬爾可夫決策過程（Markov decision process，MDP）進行建模。馬爾科夫決策過程被定義為一個五元組S,A,P,R,γ，其中，S為狀態(tài)集，A為動作集，P為轉移的概率，R為回報函數(shù)，γ為折扣因子。

強化學習的目標是給定一個馬爾科夫決策過程，尋找最優(yōu)策略[12]。其中，策略是指狀態(tài)到動作的映射，如式（1）所示：

其中，π為策略，代表給定一個狀態(tài)s，在動作集上的一個分布。式（1）表示策略π在狀態(tài)s給出一個動作概率，如果給出的策略是確定的，那么策略π就會在狀態(tài)s上指定一個確定的動作。當策略π確定后，就可以計算累計回報，如式（2）所示：

Q-learning[13]是強化學習的基礎算法，屬于強化學習算法中基于價值（value-based）的算法。狀態(tài)-行為值函數(shù)Q(s,a)就是在某一時刻的狀態(tài)s(s∈S)下，采取動作a(a∈A)能夠獲得收益的期望。環(huán)境會根據(jù)算法的動作反饋相應的回報R。通過回報R可求得狀態(tài)行為值函數(shù)Q(s,a)的值，如式（3）所示：

其中，k為迭代步數(shù)s0為當前狀態(tài)，a0為在s0狀態(tài)下執(zhí)行的動作，π未執(zhí)行策略，Eπ(·)為求策略π的期望。

通過Q(s,a)可以看出，每個狀態(tài)的選擇策略都與它下一步獲取的回報有關，即隨著迭代次數(shù)的增加算法會在每一個狀態(tài)選擇能獲取到最大回報的策略，最終得到最優(yōu)方案。根據(jù)所獲得的狀態(tài)-行為值函數(shù)Q(s,a)，采用貪婪策略π*進行選擇每一步的動作，如式（4）所示：

其中，π*為策略，s為當前狀態(tài)a為要執(zhí)行的動作。在訓練過程前期，通常在策略π上增加一定的隨機策略來對狀態(tài)進行探索，常見的使用策略為ε-greedy。

通過貪婪策略π進行狀態(tài)轉移后得到獎勵r和新的狀態(tài)s′，可以采用時間差分法的方法對Q-learning進行更新，如式（5）所示：

其中，α為學習率，s′為下一個狀態(tài)，a′為下一個狀態(tài)要選擇的動作，r為Q(s,a)轉義過程中的獎勵值，γ為獎勵折扣率。

使用強化學習算法只需根據(jù)每次與環(huán)境交互而獲得的s,a,r,s′進行訓練，讓算法在每個初始狀態(tài)s0下能夠在短時間內(nèi)獲取最高的獎勵值，無需對復雜的場景進行建模，因此在解決智能燈的個性化適應問題上，能夠有很好的表現(xiàn)。

1.2 深度強化學習算法：DQN、DDQN和A3C

Q-learning所解決的問題的狀態(tài)空間和動作空間必須是離散的，并且問題的狀態(tài)空間和動作空間不能太大。當面對高維度的狀態(tài)空間、行為空間，以及連續(xù)的行為空間時，Q-learning的狀態(tài)-行為值函數(shù)往往無法進行表示。

谷歌DeepMind提出了將深度神經(jīng)網(wǎng)絡和Q-learning相結合，即deepQ-learning（DQN），來處理高維度狀態(tài)空間和行為空間的問題[14]。與Q-learning相比，DQN[15]使用了卷積神經(jīng)網(wǎng)絡來逼近狀態(tài)-行為值函數(shù)，允許更高維度、更多數(shù)量的狀態(tài)作為強化學習算法的輸入；DQN還提供一個經(jīng)驗回放（experience replay）[16]功能用來彌補訓練時數(shù)據(jù)不足的問題。

Double DQN（DDQN）[17]和DQN的不同之處在于策略選擇，使用貪婪策略雖然可以讓Q(s,a)值快速地向可能優(yōu)化的目標靠攏，但很容易出現(xiàn)過估計（over estimation）現(xiàn)象，最終得到的算法模型會有很大偏差。DDQN使用兩個神經(jīng)網(wǎng)絡，通過對目標Q(s,a)值動作的選擇和目標Q(s,a)值的計算來消除DQN的過估計問題。在一個網(wǎng)絡中選擇出最大Q(s,a)值的對應動作，如式（6）所示：

其中w為網(wǎng)絡參數(shù)。

在另一個網(wǎng)絡中利用選擇出的動作來計算目標Q(s,a)值，如式（7）所示：

其中w′為網(wǎng)絡參數(shù)。

Actor-Critic算法是策略（policy based）和價值（value based）相結合的方法，算法使用Actor網(wǎng)絡負責生成動作策略π與環(huán)境進行交互；使用Critic神經(jīng)網(wǎng)絡負責對Actor的表現(xiàn)進行評估并指導下一步Actor的動作，相當于Q-learning中的狀態(tài)-行為值函數(shù)，Actor和Critic網(wǎng)絡都有相同結構的目標網(wǎng)絡負責使兩個神經(jīng)網(wǎng)絡收斂。由于Actor-Critic算法缺少經(jīng)驗回放部分，這會在訓練的過程中消耗更多時間。asynchronous advantage actor-Critic（A3C）[18]算法采用異步訓練框架，利用多個線程和環(huán)境進行交互，避免了對經(jīng)驗庫的過度依賴的同時，還做到了異步并發(fā)學習能夠幫助模型更好更快的收斂。

2 基于深度強化學習的智能燈亮度個性化調(diào)節(jié)方法

2.1 方法框架

論文提出的基于深度強化學習的智能燈亮度個性化調(diào)節(jié)方法主要由三部分構成，即（1）數(shù)據(jù)采集；（2）數(shù)據(jù)存儲和強化學習算法的決策推理；（3）智能燈的控制。方法流程如圖1所示。

圖1 方法流程Fig.1 Process design

系統(tǒng)開啟后將實時采集環(huán)境信息，本文使用用戶位置、自然光強、照明光強和用戶位置處的實際光強。將采集到的上述環(huán)境信息作為環(huán)境狀態(tài)輸入深度強化學習模型，形成對智能燈亮度的調(diào)節(jié)動作，并基于智能燈接口對其實施亮度調(diào)節(jié)。

使用算法動態(tài)調(diào)節(jié)亮度后，系統(tǒng)將重新獲得當前的環(huán)境狀態(tài)，并采集是否發(fā)生用戶手動調(diào)節(jié)。如果在給定時間閾值范圍內(nèi)，發(fā)生人工手動調(diào)節(jié)，則視為算法輸出未滿足用戶偏好，形成負反饋；否則，則認為算法輸出滿足用戶偏好，形成正反饋。在每次收到反饋后，通過不斷更新模型逐步擬合在各種環(huán)境狀態(tài)下的用戶偏好亮度，提升智能燈亮度控制的精準度。

2.2 模型構建

使用強化學習解決問題首先要按照馬爾可夫決策過程建立強化學習模型[19]。將基于深度強化學習的智能燈個性化調(diào)節(jié)模型定義為一個五元組，M=S,A,P,R,γ，其中，S代表環(huán)境狀態(tài)空間，A代表動作空間，P代表狀態(tài)轉移概率，R代表獎勵值，γ代表獎勵折扣。構建基于深度強化學習的智能燈個性化調(diào)節(jié)模型，則需要按照上述定義對系統(tǒng)進行抽象建模。

（1）環(huán)境狀態(tài)S的選擇

對于環(huán)境狀態(tài)的選擇，需要選取能夠對決策起決定性作用的因素，本文中的環(huán)境狀態(tài)來自于照明系統(tǒng)周圍的信息，包括智能燈與采集點的距離distance、采集點的自然光強sunbright、系統(tǒng)光強lightbright和綜合光強combright，所構建的狀態(tài)如式（8）所示：

（2）動作空間A的選擇及轉移概率P

動作空間定義為對智能燈的調(diào)節(jié)動作。對智能燈進行調(diào)整主要分為兩種方法，第一種模型的輸出為連續(xù)動作，即模型直接輸出智能燈的光強，智能燈根據(jù)模型的輸出進行直接調(diào)整亮度；第二種模型的輸出為離散動作，即模型的輸出是基于當前的設備光強，對當前光強進行調(diào)高、調(diào)低或者不變?？紤]到實驗數(shù)據(jù)的離散性特征和強化學習算法本身的缺陷，本文采用第二種調(diào)整方法。動作空間A分為up,hold,down即up、hold、down代表對當前光強進行調(diào)高、不變或調(diào)低。

（3）環(huán)境反饋獎勵R及獎勵折扣γ

強化學習需要構造相應的獎勵函數(shù)來進行模型訓練。智能燈的優(yōu)化目標是讓當前用戶不再對其進行調(diào)整。設置的獎勵值如下，如果用戶在給定時間范圍內(nèi)未對智能燈進行調(diào)整，則可以認為用戶所在位置的綜合光強符合用戶偏好，環(huán)境應該返回一個正反饋1，同時若用戶一直都沒有對智能燈進行調(diào)整，則環(huán)境每次都要在當前的獎勵值上乘以一個衰減率γ來獲取新的獎勵值，直到用戶對智能燈進行調(diào)節(jié)才將獎勵值重新設為1。如果用戶調(diào)節(jié)系統(tǒng)，則可以認為用戶所在位置的綜合光強和用戶偏好不符，則返回一個負反饋-1。達到算法和環(huán)境進行交互的效果，進而對模型進行訓練。

其中，Icontrol為用戶調(diào)整智能燈的次數(shù)，α為每次迭代中人未調(diào)整智能燈的單次交互次數(shù)，γ為獎勵衰減率，i為每次迭代中人未調(diào)整智能燈的連續(xù)次數(shù)(γ=0.9,Rpositive=1,Rnegative=-1)。

3 實驗設置

3.1 數(shù)據(jù)采集

本文采用DIALux軟件模擬照明環(huán)境。DIALux是一個燈光照明設計軟件，可根據(jù)實際需要向場景內(nèi)部添加日光，能滿足目前所有照明設計及計算要求。

考慮到不同照明環(huán)境或復雜的光源映射到算法中均為環(huán)境光強，本文使用亮度傳感器對環(huán)境光進行采集則不需要考慮照明環(huán)境的光照復雜程度。

如圖2所示，將模擬環(huán)境設置為一個5.4 m×3.6 m的房間，房間內(nèi)設置一個窗戶。在房間中央的桌子上放置一個功率可變的智能燈設備。通過調(diào)整智能燈的功率，可控制智能燈的光照強度。智能燈距窗1.8 m，距地面0.85 m，取距離地面0.85 m高為人們?nèi)粘９ぷ髌矫?，可獲取不同功率下工作平面上每個點在當前環(huán)境光影響下的光照強度。收集該房間內(nèi)的光強數(shù)據(jù)縮略圖如圖3所示，圖中紅點為智能燈的位置，光強單位lx。

圖2 環(huán)境場景布置Fig.2 Environment scene design

從圖3可以看出智能燈附近的光照強度為300 lx左右，此刻窗邊的光照強度為1 367 lx左右，通過調(diào)節(jié)智能燈的功率和環(huán)境光可以獲得不同情況下房間內(nèi)的光照強度。本文取智能燈和窗戶之間的數(shù)據(jù)作為實驗數(shù)據(jù)，分別在具有環(huán)境光和沒有環(huán)境光兩種情況下，調(diào)整智能燈功率取這段距離內(nèi)的所有光照強度數(shù)據(jù)和此刻的日光數(shù)據(jù)。部分數(shù)據(jù)如表1所示。

圖3 房間內(nèi)光強信息Fig.3 Illumination information in room

表1 模擬環(huán)境光強數(shù)據(jù)Table 1 Simulation illumination data

智能燈功率設置范圍為250 W到450 W，步長為10 W，分析不同功率下獲得的光照數(shù)據(jù)與距離的關系可得不同功率下光強與距離的關系呈同分布且距離智能燈越遠，設備光強越弱，綜合光強也越來越弱，但與智能燈距離超過0.42 m后由于自然光逐漸變強，綜合光強也隨之變強，考慮設備光強和自然光強的平衡性，實驗?。?，0.42）m內(nèi)的數(shù)據(jù)作為實驗數(shù)據(jù)集。其中智能燈功率設置為250 W時，光強與距離的關系如圖4所示。圖4中，藍色數(shù)據(jù)代表有環(huán)境光影響下的綜合光照強度；紅色數(shù)據(jù)為去除環(huán)境光時，設備光照強度。

圖4 光照強度與距離的關系圖Fig.4 Relationship between illumination and distance

3.2 實驗輸入序列設置

使用上述所設置的智能燈功率和步長，以智能燈為原點對每個功率每隔0.056 m取一組綜合光強、智能燈光強和環(huán)境光強數(shù)據(jù)，每個功率下共取7組。使用所采集數(shù)據(jù)根據(jù)2.2節(jié)規(guī)定的環(huán)境狀態(tài)S對算法的輸入序列進行構建。

根據(jù)《建筑照明設計標準》規(guī)定，學習時光照強度標準值為300 lx，考慮智能燈的使用場景，模型需要調(diào)整智能燈功率將當前距離下的綜合光照強度保持在300 lx到320 lx之間，根據(jù)2.2節(jié)構建算法反饋獎勵。在不同距離下對模型進行訓練，實現(xiàn)用戶無論與智能燈距離多遠都能讓光照強度保持在舒適范圍內(nèi)。

3.3 算法參數(shù)設置

實驗中涉及到的三種算法輸入狀態(tài)、動作空間都相同，算法參數(shù)設置如表2所示。

表2 算法參數(shù)設置Table 2 Algorithm parameter setting

本文使用表2中的參數(shù)采用Python語言中的Tensor-Flow框架進行實現(xiàn)，計算機硬件參數(shù)為Corei7-7700HQ，2.80 GHz。

3.4 實驗結果

在模型訓練過程中因為每次迭代與環(huán)境交互600次，所以每次迭代獲得的獎勵值最多不超過600。在模型訓練過程中，每經(jīng)過3個訓練周期進行統(tǒng)計所獲獎勵的平均值，得出算法的獎勵曲線，如圖5～7所示。

從算法獎勵曲線可以看出，DDQN算法（圖6）在本實驗中訓練速度最快，同時泛化能力也很強，能夠在很短的迭代次數(shù)內(nèi)對沒有遇到過的環(huán)境狀態(tài)做出正確的決策，進而獲得很高的獎勵值。相比之下DQN算法（圖5）泛化能力較弱，在沒有遇到的環(huán)境狀態(tài)下需要做出一定次數(shù)的學習才能很好地適應當前狀態(tài)，但隨著迭代次數(shù)的增加模型的泛化能力逐漸增強，獎勵的總趨勢也逐漸上升。

圖5 DQN算法獎勵曲線Fig.5 DQN algorithm reward

圖6 DDQN算法獎勵曲線Fig.6 DDQN algorithm reward

A3C（圖7）模型訓練速度相對DQN和DDQN更慢，因為A3C需要訓練Actor網(wǎng)絡和Critic網(wǎng)絡，兩個網(wǎng)絡都收斂后才能獲得穩(wěn)定的模型決策，從A3C的獎勵曲線可以看出該算法泛化能力很強，能夠很快適應陌生的環(huán)境狀態(tài)，決策準確率要高于DQN和DDQN，而且獎勵曲線還在穩(wěn)步上升。從模擬實驗結果圖中也可以看出DQN和DDQN在未經(jīng)過預訓練的情況下能夠在很短的迭代周期內(nèi)獲取較高的獎勵值，能夠滿足用戶需求，而A3C算法則需要進行多次交互才能適應用戶習慣，根據(jù)實際場景的應用情況，可以在應用前先對模型進行預訓練，讓模型達到一個普適的范圍，然后在實際場景中對模型進行反饋調(diào)整，能夠在應用中獲取更好的用戶體驗。

圖7 A3C算法獎勵曲線Fig.7 A3C algorithm reward

由于強化學習算法自身的性質(zhì)，所有強化學習算法在與環(huán)境交互的過程中需要在執(zhí)行的動作中加入噪聲進行隨機探索，因此獎勵曲線存在一定的震蕩現(xiàn)象是合理的。基于以上分析，DDQN模型和A3C模型隨著迭代次數(shù)的增加平均獎勵波動越來越小，從泛化能力上來看這兩種算法都很適合應用在智能燈個性化亮度調(diào)節(jié)上?？紤]到智能燈不是專用的計算設備，還需要從內(nèi)存占用、訓練時間等方面對算法進行對比分析，找出合適搭載到智能燈設備上的算法。表3統(tǒng)計了三種算法訓練所需資源。

表3 算法訓練過程中所需資源Table 3 Resources required in algorithm training

從訓練時占用內(nèi)存來看，三種算法訓練所需內(nèi)存差距不大，但從迭代次數(shù)和訓練時間上來看DQN算法達到收斂所需的平均迭代次數(shù)和訓練時間都很高，A3C算法需要的迭代次數(shù)較多是因為多個線程同時與環(huán)境進行交互，本實驗設置4個Critic網(wǎng)絡進行探索環(huán)境，每個線程在訓練時間內(nèi)與環(huán)境交互約30次，無論是訓練時間還是收斂時所需迭代次數(shù)A3C算法和DDQN算法相差不大，但A3C算法需要使用多個線程與環(huán)境進行交互，當線程增多時訓練時占用內(nèi)存會高于DDQN算法。

綜合以上分析，本文所提出的基于深度強化學習的智能燈亮度個性化調(diào)節(jié)方法完成了以下目標。

（1）在面對環(huán)境因素復雜的辦公場所，不必對其進行建模，用戶只需與智能燈進行交互便能讓系統(tǒng)適應用戶偏好。

（2）使用三種強化學習算法進行了模擬實驗，對實驗結果進行分析，對比算法間的差異，選出適用于智能燈設備的算法。

4 原型系統(tǒng)開發(fā)

為驗證方案有效性，本文在實際環(huán)境中使用亮度傳感器、距離傳感器、nodemcu芯片、樹莓派和小米Yeelight對本實驗方案進行了驗證。

4.1 數(shù)據(jù)采集模塊部署

本文將亮度傳感器和距離傳感器通過GPIO引腳搭載到nodemcu芯片上，如圖8、圖9所示。

圖8 亮度傳感器連接nodemcuFig.8 Brightness sensor connect nodemcu

圖9 距離傳感器連接nodemcuFig.9 Distance sensor connect nodemcu

將芯片部署到智能燈周圍。芯片啟動后會和決策推理模塊所在的樹莓派建立socket連接，通過socket連接與樹莓派進行通信，同時芯片向傳感器所在的引腳發(fā)送信號，每隔一定的時間從傳感器讀取數(shù)據(jù)，將數(shù)據(jù)發(fā)送給樹莓派。智能燈也通過Wifi模塊與樹莓派相連，將用戶對智能燈的調(diào)節(jié)信息實時傳輸給樹莓派，作為智能燈實現(xiàn)個性化的依據(jù)。

4.2 決策推理模塊部署

樹莓派啟動后會對算法模型進行初始化，初始化方法與模擬實驗中的方法相同，初始化完成后利用數(shù)據(jù)庫中來自數(shù)據(jù)采集模塊所收集到綜合光強、環(huán)境光強、智能燈光強和用戶控制信息對所部署模型進行個性化訓練。

4.3 智能燈控制模塊部署

樹莓派根據(jù)算法模型推理結果，通過Wifi和智能燈建立socket通信，對智能燈進行亮度調(diào)節(jié)。再根據(jù)調(diào)節(jié)的結果獲取用戶反饋，對算法不斷修正，直到當前模型符合用戶偏好。實驗結果與模擬實驗大致相同，驗證了本文提出方法的有效性。

5 結束語

論文針對智能燈亮度個性化調(diào)節(jié)問題所面臨的挑戰(zhàn)，提出基于強化學習的智能燈亮度個性化調(diào)節(jié)方法。通過使用傳感器采集智能燈周圍自然光強、綜合光強等信息對當前環(huán)境和用戶行為使用數(shù)據(jù)進行描述，利用強化學習算法的特性，無需對復雜的環(huán)境進行建模，就能對用戶所在環(huán)境和用戶偏好進行自適應，讓用戶無論在什么時間，距離智能燈多遠的情況下都能獲得最舒適的光強，并有效減少不必要的照明消耗。下一步將引入對多用戶環(huán)境中不同用戶亮度偏好沖突的解決策略，并考慮多個可變光源共同存在的復雜場景，以便更好地應用到實際工作生活中。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看