何 瑋,周雨湉,俞 陽(yáng),康雨萌,朱 萌,錢旭盛
(1.國(guó)網(wǎng)江蘇營(yíng)銷服務(wù)中心,江蘇 南京 210000;2.倫敦大學(xué) 國(guó)王學(xué)院,倫敦 WC2R 2LS)
伴隨著互聯(lián)網(wǎng)時(shí)代的蓬勃發(fā)展,各行各業(yè)都與互聯(lián)網(wǎng)進(jìn)行了深度的捆綁。近年來(lái),隨著國(guó)家電網(wǎng)網(wǎng)格化服務(wù)的深入推進(jìn),各種不同形式的電力營(yíng)銷服務(wù)得到了長(zhǎng)足的發(fā)展。但當(dāng)前營(yíng)銷業(yè)務(wù)仍然面臨信息化支撐不足,無(wú)法實(shí)現(xiàn)全過(guò)程閉環(huán)管控,亟需通過(guò)技術(shù)和管理的手段予以規(guī)范,更好地推動(dòng)服務(wù)質(zhì)量和服務(wù)效率雙提升[1-2]。然而,當(dāng)前電力營(yíng)銷部門(mén)人機(jī)交互水平存在局限性,造成客戶的實(shí)際需求難以實(shí)時(shí)得到響應(yīng),因此有必要對(duì)人機(jī)交互技術(shù)開(kāi)展深入研究,保障電力客戶的用電需求[3-4]。
以虛擬機(jī)器人為代表的人機(jī)交互技術(shù)由于其對(duì)社會(huì)經(jīng)濟(jì)的重要推動(dòng)而頗受關(guān)注,其中主要的研究方向在于通過(guò)人工智能技術(shù)實(shí)現(xiàn)虛擬機(jī)器人的人機(jī)交互功能。文獻(xiàn)[5]研發(fā)可識(shí)別人體視覺(jué)手勢(shì)的人機(jī)交互平臺(tái),主要通過(guò)Leap Motion傳感器設(shè)備抓取客戶手勢(shì)信息并完成特征提取,然后將特征量輸入到長(zhǎng)短期記憶網(wǎng)絡(luò)中完成檢測(cè)識(shí)別。文獻(xiàn)[6]針對(duì)咽拭子機(jī)器人采集時(shí)可能出現(xiàn)的圖片瑕疵,提出一種高效自修復(fù)網(wǎng)絡(luò),基于多尺度注意力機(jī)制抓取客戶表情,進(jìn)而通過(guò)線性聚合的方法完成檢測(cè)。文獻(xiàn)[7]針對(duì)當(dāng)前機(jī)器人知識(shí)圖譜庫(kù)的局限性,以知識(shí)圖譜波紋網(wǎng)絡(luò)為核心,引入實(shí)體嵌入方法,同時(shí)考慮情感和內(nèi)容友好度,從而設(shè)計(jì)得到一種高效的人機(jī)情感交互模型。文獻(xiàn)[8]針對(duì)智能制造領(lǐng)域人與機(jī)器人的交互融合問(wèn)題,自主研發(fā)了一種基于增強(qiáng)現(xiàn)實(shí)技術(shù)的互認(rèn)知人機(jī)安全交互系統(tǒng),以可穿戴增強(qiáng)現(xiàn)實(shí)設(shè)備充當(dāng)基礎(chǔ)交互設(shè)備,完成機(jī)器人的虛實(shí)注冊(cè)與實(shí)際映射,全面采集三維信息,完成人機(jī)互認(rèn)知輔助,該系統(tǒng)設(shè)計(jì)了可視化、運(yùn)動(dòng)檢測(cè)以及基于深度強(qiáng)化學(xué)習(xí)的機(jī)器人避障功能,從而實(shí)現(xiàn)了人機(jī)的安全融合。文獻(xiàn)[9]針對(duì)人機(jī)語(yǔ)音識(shí)別問(wèn)題,利用改進(jìn)的譜減法完成噪聲語(yǔ)音的高度降噪,并通過(guò)混合高斯-通用背景模型結(jié)合梅爾頻率倒譜系數(shù)特征完成對(duì)象鑒定,然后采用深度神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)相應(yīng)的語(yǔ)音識(shí)別單元,有效實(shí)現(xiàn)服務(wù)機(jī)器人在人機(jī)交互過(guò)程中的快速響應(yīng)。但是以上方法主要針對(duì)交互信號(hào)進(jìn)行優(yōu)化處理,以實(shí)現(xiàn)人機(jī)交互功能的進(jìn)一步發(fā)展,忽略了機(jī)器人內(nèi)部運(yùn)轉(zhuǎn)性能的應(yīng)用優(yōu)化,在面對(duì)需要處理海量數(shù)據(jù)的電力營(yíng)銷業(yè)務(wù)領(lǐng)域時(shí),往往存在一定的局限性。
考慮到電網(wǎng)營(yíng)銷部門(mén)在對(duì)接客戶時(shí)需要面臨各種各樣的需求(即海量的數(shù)據(jù)),故而數(shù)據(jù)驅(qū)動(dòng)應(yīng)當(dāng)作為“互聯(lián)網(wǎng)+營(yíng)銷”相結(jié)合的核心要點(diǎn)。深度強(qiáng)化學(xué)習(xí)由于自身具有較好的自主學(xué)習(xí)能力,能夠高效完成數(shù)據(jù)的快速學(xué)習(xí),因此本文基于DBO算法改進(jìn)的DQN設(shè)計(jì)得到面向電力客戶的虛擬機(jī)器人應(yīng)用模型,根據(jù)客戶要求實(shí)時(shí)做出精準(zhǔn)響應(yīng)。
在研發(fā)電力營(yíng)銷虛擬機(jī)器人時(shí)需要重點(diǎn)考慮與電力用戶的銜接和內(nèi)部機(jī)器邏輯的自洽,因此首先要對(duì)其人機(jī)交互情況開(kāi)展分析,并針對(duì)性地開(kāi)展關(guān)系框架設(shè)計(jì)。
當(dāng)電力用戶連接互聯(lián)網(wǎng)與虛擬機(jī)器人產(chǎn)生交互時(shí),用戶開(kāi)始利用虛擬機(jī)器人應(yīng)用程序編程接口完成指令派發(fā),虛擬機(jī)器人在收到解碼后的指令后會(huì)對(duì)應(yīng)用軟件進(jìn)行操作或者調(diào)用,然后將軟件反饋的信息反饋至用戶,而之后用戶可以根據(jù)反饋結(jié)果選擇繼續(xù)向虛擬機(jī)器人派發(fā)指令或是改變指令。整個(gè)過(guò)程可以視為一種用戶-機(jī)器人-軟件的運(yùn)作模型,其運(yùn)作的流程如圖1所示。
圖 1 用戶-機(jī)器人-軟件運(yùn)轉(zhuǎn)流程Fig.1 User-robot-software operation process
虛擬機(jī)器人在實(shí)現(xiàn)與電力用戶的人機(jī)交互時(shí)其實(shí)現(xiàn)過(guò)程的整體關(guān)系框架自上而下依次是表征層、業(yè)務(wù)層、數(shù)據(jù)訪問(wèn)層以及數(shù)據(jù)層共計(jì)4層,如圖2所示。
圖 2 人機(jī)交互關(guān)系框架Fig.2 Human-computer interaction framework
圖2中,表征層主要是面向電網(wǎng)營(yíng)銷部門(mén)提供功能呈現(xiàn),當(dāng)虛擬機(jī)器人從該接口與電力用戶進(jìn)行對(duì)接后,其保留的記錄可以供電力營(yíng)銷部門(mén)進(jìn)行查閱;業(yè)務(wù)層主要包括虛擬機(jī)器人的訓(xùn)練、優(yōu)化和任務(wù)執(zhí)行,在虛擬機(jī)器人收到下達(dá)指令后,由該層對(duì)任務(wù)指令進(jìn)行解析并開(kāi)始執(zhí)行訓(xùn)練,最終完成整個(gè)任務(wù),主要作用是提供算法支撐;數(shù)據(jù)訪問(wèn)層的主要作用是實(shí)現(xiàn)數(shù)據(jù)的有效交換,在指令派發(fā)后,該層將指令所需的配置文件及代碼也一同派發(fā),并在之后對(duì)以上文件進(jìn)行解析,同時(shí)還負(fù)責(zé)任務(wù)的監(jiān)測(cè)和傳輸;數(shù)據(jù)層的主要作用是對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ),主要存儲(chǔ)對(duì)象包括json、txt和log等格式文件。
本文設(shè)計(jì)的虛擬機(jī)器人模型需要運(yùn)行在以上關(guān)系框架下,在電力用戶派發(fā)指令后可以快速完成執(zhí)行并實(shí)現(xiàn)整個(gè)流程的自主學(xué)習(xí),然后在執(zhí)行完任務(wù)后對(duì)用戶進(jìn)行反饋。
用優(yōu)化模型
由于虛擬機(jī)器人在應(yīng)用時(shí)往往需要在交互環(huán)境下實(shí)現(xiàn)智能計(jì)算,而智能計(jì)算往往需要強(qiáng)大的運(yùn)算模型用于支撐。為了提升虛擬機(jī)器人的應(yīng)用效果,需要引入更為智能的計(jì)算方法,實(shí)現(xiàn)虛擬機(jī)器人在人機(jī)交互過(guò)程中的響應(yīng)效率,增強(qiáng)虛擬機(jī)器人的性能??紤]到作為典型深度強(qiáng)化學(xué)習(xí)模型的DQN具有較好的計(jì)算性能,能夠兼顧運(yùn)算的效率與精度,因此本文選取DQN優(yōu)化虛擬機(jī)器人的應(yīng)用性能,并針對(duì)DQN的不足開(kāi)展改進(jìn),獲得DBO-DQN模型,用于虛擬機(jī)器人的智能計(jì)算,提升其運(yùn)算效率,從而獲得性能優(yōu)良的虛擬機(jī)器人應(yīng)用優(yōu)化模型。
DQN的本質(zhì)是將強(qiáng)化學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)糅合在一起的深度網(wǎng)絡(luò)[10]。在DQN中開(kāi)展自主學(xué)習(xí)的主要個(gè)體是代理方[11],本文選擇虛擬機(jī)器人作為代理方。虛擬機(jī)器人在交互環(huán)境下開(kāi)展操作,使得交互環(huán)境發(fā)生改變,然后將狀態(tài)與獎(jiǎng)勵(lì)信息反饋至虛擬機(jī)器人。
定義S表征虛擬機(jī)器人收到的信息,主要是訓(xùn)練環(huán)境狀態(tài);動(dòng)作A表征虛擬機(jī)器人在環(huán)境中的操作;虛擬機(jī)器人操作的獎(jiǎng)勵(lì)信息定義為R。以上三者的關(guān)系為:如果虛擬機(jī)器人的操作達(dá)標(biāo),則訓(xùn)練環(huán)境反饋獎(jiǎng)勵(lì)為10,如若未達(dá)標(biāo)則返回獎(jiǎng)勵(lì)為0,如果發(fā)生虛擬機(jī)器人操作錯(cuò)誤則施加懲罰信息為-10。
虛擬機(jī)器人在初始狀態(tài)S1下基于策略Ω獲取的獎(jiǎng)勵(lì)加權(quán)和即為該狀態(tài)的表征函數(shù)ξΩ(S),也即反饋的預(yù)期總報(bào)酬,其計(jì)算公式可表示為[12]
(1)
式中:ω=[ω1,ω2,…,ωn]表征的是獎(jiǎng)勵(lì)權(quán)重,主要用于調(diào)節(jié)當(dāng)前和以后獎(jiǎng)勵(lì)的重要性,總體加權(quán)期望為E[R|Ω,S]。
虛擬機(jī)器人處于St狀態(tài)時(shí)采取操作At與策略Ω獲取的期望總報(bào)酬可以定義為操作函數(shù)?(S,A),其計(jì)算公式可表示為[13]
(2)
DQN的實(shí)際運(yùn)行情況主要決定于貪心因子ε、學(xué)習(xí)率α和折扣因子γ。其中ε主要決定DQN學(xué)習(xí)效果,α決定虛擬機(jī)器人學(xué)習(xí)的數(shù)值更新速度,γ決定未來(lái)虛擬機(jī)器人獎(jiǎng)勵(lì)的折扣。
虛擬機(jī)器人在t時(shí)刻對(duì)學(xué)習(xí)環(huán)境進(jìn)行觀測(cè),進(jìn)而按照策略Ω執(zhí)行操作At,這時(shí)環(huán)境狀態(tài)由St變更為St+1,并反饋新的獎(jiǎng)勵(lì)Rt+1至虛擬機(jī)器人。虛擬機(jī)器人按照獎(jiǎng)勵(lì)Rt+1與狀態(tài)St+1執(zhí)行操作,由此按照這一循環(huán)機(jī)制,虛擬機(jī)器人應(yīng)用模型實(shí)現(xiàn)了自主學(xué)習(xí),其自主學(xué)習(xí)流程如圖3所示。
圖 3 虛擬機(jī)器人應(yīng)用模型自主學(xué)習(xí)流程Fig.3 Autonomous learning process of virtual robot application model
DQN中的Q函數(shù)可以求解任意狀態(tài)下執(zhí)行操作的值,故而虛擬機(jī)器人可以按照最大預(yù)測(cè)值執(zhí)行操作。而鑒于分開(kāi)計(jì)算Q值會(huì)造成計(jì)算資源的浪費(fèi),因此利用向量值函數(shù)求解特定狀態(tài)時(shí)操作的Q值并反饋其向量[14-15]。在DQN中的輸出層產(chǎn)生Q值的輸出變量,任意操作均有相應(yīng)Q值對(duì)應(yīng),考慮到虛擬機(jī)器人的回應(yīng)類型有4個(gè),因此設(shè)定輸出節(jié)點(diǎn)為4,其訓(xùn)練總體架構(gòu)如圖4所示。
圖 4 DQN訓(xùn)練整體架構(gòu)Fig.4 Overall architecture of DQN training
圖4的環(huán)境創(chuàng)建中,設(shè)定DQN的運(yùn)行環(huán)境,進(jìn)行數(shù)據(jù)預(yù)處理,完成數(shù)據(jù)樣本劃分和輸入;訓(xùn)練環(huán)境設(shè)定DQN的初始結(jié)構(gòu)及相應(yīng)參數(shù),同時(shí)設(shè)定DQN的初始訓(xùn)練參數(shù);訓(xùn)練過(guò)程中,數(shù)據(jù)從DQN輸入層進(jìn)入后,在隱藏層中迭代計(jì)算,最終根據(jù)目標(biāo)函數(shù)限制條件輸出預(yù)測(cè)值。
本文DQN采用ε-greedy策略[16]完成操作選定,并在虛擬機(jī)器人在構(gòu)建好的訓(xùn)練環(huán)境開(kāi)展DQN的訓(xùn)練后輸出相應(yīng)操作的預(yù)測(cè)Q值,由此整個(gè)應(yīng)用模型運(yùn)轉(zhuǎn)結(jié)束,整體流程如圖5所示。
圖 5 DQN模型訓(xùn)練流程Fig.5 Training process of DQN model
圖5中,初始化DQN模型參數(shù),設(shè)定訓(xùn)練各參數(shù)值;判斷訓(xùn)練是否到達(dá)上限,若是則直接結(jié)束,反之則繼續(xù)訓(xùn)練;模型前向傳播,采用ε-greedy策略隨機(jī)篩選并執(zhí)行操作A,然后觀察新?tīng)顟B(tài)St+1并據(jù)此獲得獎(jiǎng)勵(lì)Rt+1,然后使用St+1令DQN存儲(chǔ)最大Q值;判斷操作A結(jié)束后訓(xùn)練環(huán)境是否關(guān)閉,若是則終止訓(xùn)練,反之則繼續(xù)訓(xùn)練;判斷St+1的合法性,若合法則計(jì)算目標(biāo)值并輸入Q方程中進(jìn)行計(jì)算更新,繼續(xù)迭代,反之則將目標(biāo)值更改為Rt+1,訓(xùn)練結(jié)束。
由于DQN的實(shí)際運(yùn)行情況主要決定于超參數(shù):貪心因子ε、學(xué)習(xí)率α和折扣因子γ,因此這3個(gè)超參數(shù)的最終值將會(huì)對(duì)DQN的學(xué)習(xí)結(jié)果造成影響。為了確保DQN具有較好的搜索性能,避免陷入局部最優(yōu),需要引入優(yōu)化算法實(shí)現(xiàn)超參數(shù)的尋優(yōu)。
DBO算法主要由蜣螂生活習(xí)性引申而來(lái),其尋優(yōu)能力強(qiáng)、收斂效率高[17],因此本文采用DBO算法優(yōu)化DQN超參數(shù)。
蜣螂在滾動(dòng)時(shí)利用觸角導(dǎo)航來(lái)確保糞球在滾動(dòng)過(guò)程中保持直線前行,這一行為在模擬中需要讓蜣螂在搜索空間中按照設(shè)定的方向前進(jìn),且假設(shè)光強(qiáng)會(huì)影響蜣螂的前進(jìn)路徑選擇[18],則在前進(jìn)過(guò)程中蜣螂位置可以表示為
xi(t+1)=xi(t)+λkxi(t-1)+μΔx
(3)
Δx=|xi(t-1)-xworst|
(4)
式中:t表征目前的迭代次數(shù);xi(t)表征第i只蜣螂在第t次迭代的位置;k∈(0,0.2)表征撓度因子,通常設(shè)為定值;λ為-1或1的常數(shù);μ為(0,1)范圍內(nèi)的定值;xworst表征局部最差位置;Δx主要用于光強(qiáng)的調(diào)節(jié)。
當(dāng)蜣螂遇障難以繼續(xù)前進(jìn)時(shí),就需要重新滾動(dòng)重新定位以制定新的路線[19]。為了模擬滾動(dòng)定向行為,利用切線函數(shù)求解新方向:
xi(t+1)=xi(t)+tanθ|xi(t)-xi(t+1)|
(5)
式中:θ∈[0,π]表征的是撓度角度;xi(t)-xi(t+1)表征第i只蜣螂在不同迭代周期的前后位置差。
為了確保安全,雌蜣螂產(chǎn)卵位置極為重要,其邊界上下限應(yīng)為
(6)
確定雌蜣螂產(chǎn)卵區(qū)后規(guī)定一次僅產(chǎn)生一個(gè)卵,式(6)表明邊界會(huì)動(dòng)態(tài)變化,主要由ρ決定。而因此卵球位置也是動(dòng)態(tài)變換的:
(7)
式中:Bi(t)表征第t次迭代時(shí)第i個(gè)卵球的位置,其中β1和β2均為1×N的2個(gè)獨(dú)立向量,N為優(yōu)化問(wèn)題的維數(shù)。
種群中小蜣螂的位置為
(8)
此外,種群中會(huì)存在偷竊者。假設(shè)xbf為食物最優(yōu)搶奪點(diǎn),則種群中偷竊者位置為
Di(t+1)=xbf+ζ·υ·(|Di(t)-xbest|+
|Di(t)-xbf|)
(9)
式中:Di(t)表征種群中第t次迭代時(shí)第i只偷竊者的位置;υ為1×N維的隨機(jī)向量且服從正態(tài)分布;ζ為恒定值。
則DBO-DQN的整體優(yōu)化流程如下所示。
1) DQN網(wǎng)絡(luò)參數(shù)、DBO種群和算法參數(shù)初始化;
2) DQN中Q前向傳播,DBO根據(jù)目標(biāo)函數(shù)求解全部個(gè)體適應(yīng)度值;
3) 更新蜣螂位置并判斷是否越界;
4) 更新蜣螂最優(yōu)位置及適應(yīng)度值;
5) 重復(fù)以上步驟直到達(dá)到迭代上限,輸出全局最優(yōu)解及適應(yīng)度值至DQN中;
6) DQN采用ε-greedy策略執(zhí)行操作;
7) 操作執(zhí)行后檢測(cè)環(huán)境新?tīng)顟B(tài)并獲取獎(jiǎng)勵(lì)信息,基于新?tīng)顟B(tài)持續(xù)前向傳播并保存最大Q值;
8) 選取操作行為,如果操作后環(huán)境未關(guān)閉則將目標(biāo)值導(dǎo)入Q方程中持續(xù)運(yùn)算更新;如果操作后環(huán)境關(guān)閉則表明無(wú)有效新?tīng)顟B(tài),目標(biāo)改為Rt+1;
9)重復(fù)訓(xùn)練流程直至迭代上限,若未到達(dá)則跳轉(zhuǎn)至步驟2),反之則輸出運(yùn)算結(jié)果。
在獲得了相應(yīng)的虛擬機(jī)器人優(yōu)化模型以后,在特定的實(shí)驗(yàn)環(huán)境下,從功能性、非功能性和安全性3個(gè)角度綜合檢測(cè)模型的實(shí)際應(yīng)用情況,用以檢驗(yàn)?zāi)P托阅堋?/p>
本文所設(shè)計(jì)的虛擬機(jī)器人應(yīng)用模型的實(shí)驗(yàn)主要是對(duì)用戶端和服務(wù)端開(kāi)展實(shí)驗(yàn)分析,所有實(shí)驗(yàn)均在計(jì)算機(jī)上進(jìn)行,主要基于電力營(yíng)銷數(shù)據(jù)進(jìn)行分析,實(shí)驗(yàn)環(huán)境如表1所示。
表 1 實(shí)驗(yàn)環(huán)境配置
本文針對(duì)應(yīng)用模型的已經(jīng)實(shí)現(xiàn)的功能開(kāi)展測(cè)試,主要節(jié)選DBO-DQN算法關(guān)聯(lián)部分的關(guān)鍵功能測(cè)試,采用電力營(yíng)銷數(shù)據(jù)進(jìn)行測(cè)試,其結(jié)果如表2所示。
表 2 應(yīng)用模型關(guān)鍵功能測(cè)試結(jié)果
從表2可以看出,針對(duì)應(yīng)用模型開(kāi)展功能性測(cè)試,所選取的示例均實(shí)現(xiàn)了預(yù)先設(shè)計(jì)的功能,測(cè)試均通過(guò),表明模型功能良好,可以用于實(shí)際應(yīng)用。
模型的非功能性測(cè)試重點(diǎn)是檢測(cè)模型執(zhí)行功能時(shí)的內(nèi)存占用、運(yùn)行時(shí)間、讀寫(xiě)速度以及運(yùn)轉(zhuǎn)情況,以上指標(biāo)均可反映出用戶與模型開(kāi)展人機(jī)交互時(shí)的模型的性能。由于指令、配置文件和高級(jí)代碼派發(fā)以及獎(jiǎng)勵(lì)記錄占全部功能執(zhí)行時(shí)內(nèi)存占用的95%以上,因此重點(diǎn)針對(duì)以上4個(gè)功能進(jìn)行非功能性測(cè)試,結(jié)果如表3所示。
從表3可以看出,當(dāng)應(yīng)用模型在執(zhí)行功能時(shí),其內(nèi)存的占用相對(duì)較小,運(yùn)行時(shí)間較短,磁盤(pán)讀寫(xiě)速度較快,模型整體運(yùn)轉(zhuǎn)良好,模型的非功能性測(cè)試結(jié)果為合格。
表 3 系統(tǒng)非功能性測(cè)試
本文為了保證模型運(yùn)轉(zhuǎn)時(shí)其內(nèi)部數(shù)據(jù)對(duì)于不同使用群體具備可知性的同時(shí)兼顧數(shù)據(jù)安全,且不會(huì)對(duì)模型及其所嵌入的系統(tǒng)平臺(tái)造成破壞,所以需要測(cè)試模型的安全性,其結(jié)果如表4所示。
表 4 模型安全性測(cè)試結(jié)果
從表4可以看出,當(dāng)不同的使用群體對(duì)虛擬機(jī)器人應(yīng)用模型進(jìn)行人機(jī)交互時(shí),相互之間數(shù)據(jù)不可知,從而使得數(shù)據(jù)存在隔離,可以有力保障電力營(yíng)銷數(shù)據(jù)的安全和電力用戶的隱私,并且未在使用時(shí)造成模型及其所嵌入的系統(tǒng)平臺(tái)的破壞,應(yīng)用模型及其所嵌入的系統(tǒng)平臺(tái)運(yùn)行正常,安全性良好。
本文針對(duì)當(dāng)前電力營(yíng)銷智能化水平的不足,設(shè)計(jì)了一種基于蜣螂優(yōu)化算法的“互聯(lián)網(wǎng)+營(yíng)銷服務(wù)”虛擬機(jī)器人應(yīng)用模型。針對(duì)電網(wǎng)營(yíng)銷部門(mén)可能發(fā)生的用戶與機(jī)器人的人機(jī)交互情景開(kāi)展了交互分析,并對(duì)人際關(guān)系框架進(jìn)行了設(shè)計(jì)。考慮到人機(jī)交互海量數(shù)據(jù)處理難的問(wèn)題,基于DQN建立虛擬機(jī)器人自主學(xué)習(xí)模型,同時(shí)引入蜣螂優(yōu)化算法完成DQN超參數(shù)的高效尋優(yōu),并將電力營(yíng)銷數(shù)據(jù)輸入到模型中進(jìn)行實(shí)驗(yàn)測(cè)試。實(shí)驗(yàn)結(jié)果表明本文設(shè)計(jì)的虛擬機(jī)器人應(yīng)用模型通過(guò)了功能性、非功能性和安全性測(cè)試,能夠較好地實(shí)現(xiàn)人機(jī)交互功能,具有良好的實(shí)際應(yīng)用能力,有力提升了電力營(yíng)銷的服務(wù)質(zhì)效。