方志耕, 夏悅馨,*, 張靖如, 熊 儀, 陳靜邑
(1. 南京航空航天大學(xué)經(jīng)濟與管理學(xué)院, 江蘇 南京 211100;2. 南京航空航天大學(xué)灰色系統(tǒng)研究所, 江蘇 南京 211100)
圖示評審技術(shù)(graphic evaluation and review technique, GERT)[1]是由Elmaghraby和Pritsker提出的一種概率型隨機網(wǎng)絡(luò),近年來,GERT在項目進度規(guī)劃[2]、災(zāi)害應(yīng)急預(yù)警[3]、供應(yīng)鏈優(yōu)化流程[4]、衛(wèi)星網(wǎng)絡(luò)[5]等領(lǐng)域得到廣泛的應(yīng)用。GERT網(wǎng)絡(luò)可以通過概率分支決定下一節(jié)點的狀態(tài),網(wǎng)絡(luò)節(jié)點具有決策功能,能夠很好地研究具有決策過程的現(xiàn)實問題。陳東平等[6]將GERT網(wǎng)絡(luò)應(yīng)用于工程計劃管理中,通過模擬解模型過程的分析從而尋找GERT網(wǎng)絡(luò)解,決策出關(guān)鍵線路。楊保華等[7]基于GERT網(wǎng)絡(luò)構(gòu)建突發(fā)事件情景推演耦合模型,為“情景-應(yīng)對”決策研究提供了新思路。郭本海等[8-10]通過對GERT網(wǎng)絡(luò)模型節(jié)點決策概率的研究,分析了產(chǎn)業(yè)價值流動、資源優(yōu)化配置等問題。張海濤等[11]構(gòu)建了網(wǎng)絡(luò)信息價值流動的GERT網(wǎng)絡(luò)模型,通過分析網(wǎng)絡(luò)模型的傳遞參數(shù)描述信息生態(tài)鏈中各信息主體之間的價值流動過程。通過以上研究不難看出,GERT網(wǎng)絡(luò)在解決網(wǎng)絡(luò)流程分析、邏輯決策等方面發(fā)揮了重要的作用。但GERT網(wǎng)絡(luò)在應(yīng)用決策過程中通常都設(shè)定節(jié)點傳遞概率是靜態(tài)不變的,而在實際決策過程中,傳遞概率的大小很大程度上決定了鏈路的優(yōu)劣,在不確定環(huán)境以及不同系統(tǒng)目標(biāo)的影響下,網(wǎng)絡(luò)傳遞概率會發(fā)生動態(tài)變化,決策結(jié)果也會相應(yīng)改變。
另一方面,隨著人工智能技術(shù)的不斷發(fā)展,基于智能體(Agent)的學(xué)習(xí)決策[12-14]已成為決策問題研究的熱點之一。關(guān)于Agent的定義,Wooldrige等[15]認(rèn)為Agent不僅具有自適應(yīng)性、社會性、反應(yīng)性和能動性,還具備一些人類才有的信念、意圖等性質(zhì)?;贏gent的決策系統(tǒng)具有很好的學(xué)習(xí)能動性和環(huán)境自適應(yīng)性,因此將Agent應(yīng)用于GERT網(wǎng)絡(luò)中研究決策問題可以形成良好的互補關(guān)系。研究Agent的GERT網(wǎng)絡(luò)決策問題主要包含兩個方面:一是決策節(jié)點能夠無阻礙有效識別路徑,即減少回路的概率流動,最大程度地規(guī)劃有效路徑;二是根據(jù)不同的目標(biāo)要求,實現(xiàn)最優(yōu)路徑的概率最大化。目前雖然已有蔣子涵等[16]將GERT網(wǎng)絡(luò)和Agent技術(shù)結(jié)合起來,但主要關(guān)注的是Agent學(xué)習(xí)算法的一致性分析,較少從GERT網(wǎng)絡(luò)模型的角度研究路徑概率學(xué)習(xí)決策問題。
以上兩個決策問題本質(zhì)上即是決策節(jié)點的反饋學(xué)習(xí)問題,在研究Agent的學(xué)習(xí)問題中,迭代學(xué)習(xí)的概念[17]自Uchiyama首次提出后便引起了廣泛關(guān)注,由于迭代學(xué)習(xí)具有能夠從以前迭代的經(jīng)驗中進行學(xué)習(xí)的優(yōu)點,可以有效地實現(xiàn)對Agent系統(tǒng)的精確跟蹤。在早期的迭代學(xué)習(xí)研究[18-19]中,學(xué)習(xí)算法通過增加固定的效益來進行迭代,但削弱了不確定性所帶來的影響。之后,Chi等[20]和Lin等[21]引入了自適應(yīng)控制的思想,提出了一種自適應(yīng)迭代學(xué)習(xí)方法。Chen等[22-23]針對非線性系統(tǒng)提出了模糊自適應(yīng)迭代學(xué)習(xí)方法。但在自適應(yīng)迭代學(xué)習(xí)過程分析中仍需要一些先驗?zāi)P托畔?如線性參數(shù)和系統(tǒng)狀態(tài)等。而隨著系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜化,模型過強的非線性也導(dǎo)致學(xué)習(xí)分析十分困難。針對迭代學(xué)習(xí)存在的自適應(yīng)性以及非線性問題,約翰霍蘭教授提出的復(fù)雜適應(yīng)系統(tǒng)(complex adaptive system, CAS)[24]理論中最為核心的概念就是適應(yīng)性主體,簡稱主體。主體與外部環(huán)境之間能動的不斷學(xué)習(xí)的交互作用所體現(xiàn)的就是適應(yīng)性。刺激-反應(yīng)模型[25-27]作為CAS理論中的基本模型在自適應(yīng)學(xué)習(xí)以及決策領(lǐng)域得到了廣泛應(yīng)用,主體通過外界刺激反饋驅(qū)動系統(tǒng)做出反應(yīng),僅利用輸入輸出實現(xiàn)對復(fù)雜系統(tǒng)的迭代學(xué)習(xí),對于研究非線性系統(tǒng)有較強的適應(yīng)性。
綜上所述,就GERT網(wǎng)絡(luò)決策以及Agent學(xué)習(xí)研究而言,存在的局限性主要有以下3個方面:① 多數(shù)GERT網(wǎng)絡(luò)研究主要針對活動過程的描述分析,傳遞概率通常都是靜態(tài)不變的,未考慮網(wǎng)絡(luò)節(jié)點本身因環(huán)境影響所帶來的傳遞概率的變化,決策節(jié)點不具備學(xué)習(xí)能動性。② 在Agent技術(shù)與GERT網(wǎng)絡(luò)結(jié)合的研究中,大多針對學(xué)習(xí)算法本身的分析研究,很少從網(wǎng)絡(luò)決策節(jié)點的角度去探討概率的路徑優(yōu)化學(xué)習(xí)。③ 在Agent迭代學(xué)習(xí)方面,系統(tǒng)的環(huán)境自適應(yīng)性與模型過強的非線性問題導(dǎo)致迭代學(xué)習(xí)十分困難。
因此,本文針對以上局限性,首先將Agent技術(shù)與GERT網(wǎng)絡(luò)節(jié)點結(jié)合起來,形成智能決策節(jié)點;然后在A-GERT網(wǎng)絡(luò)的基礎(chǔ)上結(jié)合刺激-反應(yīng)模型,通過網(wǎng)絡(luò)節(jié)點的傳遞效用值進一步拓展刺激-反應(yīng)模型,建立迭代學(xué)習(xí)反饋機制,并運用動態(tài)規(guī)劃原理依次對網(wǎng)絡(luò)節(jié)點進行概率學(xué)習(xí);最后給出了基于Agent的A-GERT網(wǎng)絡(luò)“刺激-反應(yīng)”模型的設(shè)計步驟,并以創(chuàng)新技術(shù)開發(fā)活動資源配置決策問題為例,驗證本模型的有效性和合理性。
系統(tǒng)是由相互關(guān)聯(lián)的要素構(gòu)成的整體。而體系則是由系統(tǒng)所構(gòu)成的一個協(xié)同(聯(lián)盟)整體,因為體系中的系統(tǒng)可能具有較強的獨立性,甚至有時,某(幾個)系統(tǒng)可以部分(完全)地代表它的總體。因此,體系與系統(tǒng)的一個重要區(qū)別在于,體系一般都具有一定的可靠性結(jié)構(gòu)和量值韌性,而系統(tǒng)一般卻很難具有這樣的性質(zhì)。
定義 1體系過程Ψ(t):若某體系是一種由若干系統(tǒng)Si(i=1,2,…,n)組成,且協(xié)同完成某種(些)任務(wù)的隨機(網(wǎng)絡(luò))過程,則稱其為體系任務(wù)網(wǎng)絡(luò)隨機過程,簡稱隨機過程,用Ψ(t)表示。
定義 2自學(xué)習(xí)體系過程ΨAgent(t):在Ψ(t)過程中,若把某個(些)系統(tǒng)(組織)看作Agent,具有向過程或歷史學(xué)習(xí)的機制和能力,則稱該體系為具有Agent自學(xué)習(xí)機制的過程,其本質(zhì)是一種由若干智能代理人Agent構(gòu)成的協(xié)作過程,用ΨAgent(t)表示。
定義 3體系自學(xué)習(xí)網(wǎng)絡(luò)ΨAgent(N(t),S(t)):若將ΨAgent(t)過程用廣義活動網(wǎng)絡(luò)(generalized active network, GAN)[28]的邏輯機制進行表征,則稱所得到的網(wǎng)絡(luò)為具有Agent自學(xué)習(xí)機制的體系過程網(wǎng)絡(luò),用ΨAgent(N(t),S(t))表示,其中:N(t)和S(t)分別表示某系統(tǒng)具有自學(xué)習(xí)機制的網(wǎng)絡(luò)節(jié)點和邊。
根據(jù)隨機網(wǎng)絡(luò)原理,對于任一客觀體系過程,可以看作是基于任務(wù)目標(biāo)的各系統(tǒng)之間相互協(xié)作過程,一般情況下,這種任務(wù)的協(xié)作過程可以運用GAN進行表征,邏輯節(jié)點構(gòu)成見圖1。這里值得注意的是,N(t)和S(t)分別表示各系統(tǒng)(組織)經(jīng)過學(xué)習(xí),其狀態(tài)和過程可能都會逐步改善或得到完善,其(t)表示是一個時間的映射。為了便于區(qū)別,在其邏輯節(jié)點上加注點(見圖1、圖2)。
圖1 GAN網(wǎng)絡(luò)節(jié)點類型Fig.1 Type of GAN network node
圖2 ΨAgent(N(t),S(t))網(wǎng)絡(luò)的要素Fig.2 Elements of ΨAgent(N(t),S(t)) networks
定義 4ΨAgent(N(t),S(t))網(wǎng)絡(luò):在ΨAgent(N(t),S(t))網(wǎng)絡(luò)中,若依據(jù)邏輯轉(zhuǎn)換規(guī)則,將其所有節(jié)點都轉(zhuǎn)換成異或型,則稱該網(wǎng)絡(luò)為具有自學(xué)習(xí)機制的A-GERT,為簡便,該網(wǎng)絡(luò)用ΨA-GERT(N(t),S(t))表示。
例 1某體系中,節(jié)點i保持其在原狀態(tài)的概率為pii,到后續(xù)節(jié)點jk(k=1,2,…,K)的概率分別為pij1,pij2,…,pijK,試畫出該節(jié)點與其后續(xù)節(jié)點的ΨA-GERT(N(t),S(t))圖。
利用上述各定義中的A-GERT網(wǎng)絡(luò)邏輯畫出其ΨA-GERT(N(t),S(t))網(wǎng)絡(luò)圖,如圖3所示。
圖3 某體系節(jié)點i到j(luò)k(k=1,2,…,K)的ΨA-GERT(N(t),S(t)) 網(wǎng)絡(luò)示意圖Fig.3 Schematic diagram of the ΨA-GERT(N(t),S(t)) network of system nodes i to jk(k=1,2,…,K)
A-GERT網(wǎng)絡(luò)與常規(guī)的GERT網(wǎng)絡(luò)的區(qū)別主要體現(xiàn)在決策節(jié)點的學(xué)習(xí)能動性,節(jié)點在外界環(huán)境刺激下可以動態(tài)地調(diào)整傳遞概率,從而改善體系活動過程。
定義 5[28]ΨA-GERT(N(t),S(t))網(wǎng)絡(luò)的解析算法:假設(shè)隨機變量tijK為活動ijK的完成時間,要知道活動ijK的執(zhí)行情況,就要知道活動ijK被執(zhí)行的概率以及tijK的概率分布或概率密度函數(shù)。
令f(tijK)為活動ijK的條件概率密度函數(shù),P(tijK)為活動ijK的條件概率分布函數(shù),則隨機變量的矩母函數(shù)為
(1)
定義WijK(s)為活動ijK的傳遞函數(shù),則WijK(s)=pjk·Mijk(s)。如圖4所示,ΨA-GERT(N(t),S(t))網(wǎng)絡(luò)主要包含串聯(lián)結(jié)構(gòu)、并聯(lián)結(jié)構(gòu)以及自環(huán)結(jié)構(gòu)。
圖4 ΨA-GERT(N(t),S(t))網(wǎng)絡(luò)串聯(lián)、并聯(lián)、自環(huán)結(jié)構(gòu)圖Fig.4 ΨA-GERT(N(t),S(t)) network in series, parallel and self-loop structure diagram
(1) 對于串聯(lián)結(jié)構(gòu),節(jié)點i與k之間等效傳遞函數(shù)為
Wik=Wij+Wjk=Mij(s)pij+Mjk(s)pjk
(2)
(2) 對于并聯(lián)結(jié)構(gòu),節(jié)點i與j之間等效傳遞函數(shù)為
(3)
(3) 對于自環(huán)結(jié)構(gòu),節(jié)點i與j之間等效傳遞函數(shù)為
(4)
定理 1設(shè)WEijk(s)(k=1,2,…,K)為節(jié)點i到節(jié)點jk的直達路徑的等價傳遞函數(shù),節(jié)點i到節(jié)點jk的等價傳遞概率pEijk等于s=0時的WEijk(s)的值。節(jié)點i到節(jié)點jk的傳遞隨機變量tijk的期望時間TEijk等于矩母函數(shù)MEijk(s)的一階導(dǎo)數(shù)在s=0時的值。
證明兩節(jié)點的等價傳遞函數(shù)WEijk(s)=MEijk(s)·pEijk,由ΨA-GERT(N(t),S(t))網(wǎng)絡(luò)矩母函數(shù)的特性可知,在s=0時,
(5)
因此,等價傳遞概率pEijk等于s=0時的WEijk(s)的值。
根據(jù)矩母函數(shù)的基本性質(zhì),即矩母函數(shù)的一階導(dǎo)數(shù)在s=0處的數(shù)值,就是網(wǎng)絡(luò)傳遞的隨機變量的一階原點矩,因此有
(6)
證畢
如今隨著系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)的日益復(fù)雜化,體系過程學(xué)習(xí)模型的建立和分析也更加困難,系統(tǒng)的自適應(yīng)學(xué)習(xí)已成為研究的重點之一。而CAS理論中最為核心的概念就是適應(yīng)性主體,簡稱主體。刺激-反應(yīng)模型[25-27]是CAS理論中的基本模型,模型主體僅利用輸入輸出實現(xiàn)對復(fù)雜系統(tǒng)的迭代學(xué)習(xí),具有較強的適應(yīng)性。因此,本文通過對刺激-反應(yīng)模型的分析研究,并結(jié)合A-GERT網(wǎng)絡(luò)進一步拓展刺激-反應(yīng)模型。
定義 6刺激-反應(yīng)模型[25]:刺激-反應(yīng)模型主要由一個主體(探測器)、If/Then規(guī)則集合和一個主體行為(效應(yīng)器)組成,系統(tǒng)所處環(huán)境刺激主體,主體從刺激信號中抽取信息,信息通過規(guī)則集反復(fù)處理,尋找最優(yōu)匹配,根據(jù)If/Then規(guī)則集合判斷,傳達到效應(yīng)器,由效應(yīng)器做出反應(yīng),即主體行為,見圖5。
圖5 刺激-反應(yīng)模型Fig.5 Stimulus-response model
定義 7網(wǎng)絡(luò)節(jié)點i的傳遞效用函數(shù):在ΨA-GERT(N(t),S(t))網(wǎng)絡(luò)中,決策節(jié)點集合N(t)中某節(jié)點i在決策行動后,從節(jié)點i到j(luò)k的活動均經(jīng)歷相應(yīng)參數(shù),即某條道路(i,jk)選擇所導(dǎo)致成功或者失敗的節(jié)點jk效用值Vjk、路徑(i,jk)實現(xiàn)期望概率pEijk、路徑(i,jk)所消耗的期望時間TEijk,該節(jié)點i行動的傳遞效用值函數(shù)Fi可以定義為
(7)
其中,終節(jié)點效用值指標(biāo)Vjk可直接給出,例如活動經(jīng)濟效益、活動效能等。由式(7)可知,節(jié)點i行動的傳遞效用值函數(shù)Fi與TEijk成反比,與pEijk和Vjk成正比。此外,需注意的是在計算Fi時,節(jié)點jk不包含回路節(jié)點,因為回路節(jié)點jk的效用值Vjk可認(rèn)為是0。
定義 8ΨAF-GERT(N(t),S(t))智能反饋網(wǎng)絡(luò):在ΨA-GERT(N(t),S(t))網(wǎng)絡(luò)中,各決策節(jié)點i均能對其決策后果的效用值函數(shù)Fi值進行觀察、評價,并能利用這一結(jié)果效用值Fi來改善其下一步的決策,則稱該網(wǎng)絡(luò)為具有反饋機制的智能網(wǎng)絡(luò),記為ΨAF-GERT(N(t),S(t))。
例2試畫出某體系節(jié)點i到j(luò)k的ΨA-GERT(N(t),S(t))的智能反饋網(wǎng)絡(luò)ΨAF-GERT(N(t),S(t))圖。
依據(jù)定義7和定義8,設(shè)計節(jié)點的反饋節(jié)點與反饋回路(圖中虛線),如圖6所示。節(jié)點i到達節(jié)點jk(k=1,2,…,K)時,均會獲得不同程度的效果值Vjk。再通過Agent反饋的Fi值來判斷下一步路徑(i,jk)的概率值。
圖6 某體系節(jié)點i到j(luò)k的ΨAF-GERT(N(t),S(t))網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.6 Schematic diagram of ΨAF-GERT(N(t),S(t)) network structure from system node i to jk
(8)
(9)
證畢
(10)
故,式(10)得證。
證畢
(11)
(12)
式中:ξai和ξbi分別為“正”“負(fù)”政策激勵強度系數(shù)調(diào)節(jié)參數(shù)。
證畢
推論 2節(jié)點i中ξai和ξbi的取值:對于節(jié)點i,ξai和ξbi取值范圍滿足0≤ξbi<ξai≤1且0≤ξaiξbi≤1/4。
2014年8月20日,郭恒信又一次來到阿里甫·司馬義家中,將2000元的學(xué)費遞到兒子買買江·阿里甫手中,又一次圓了孩子上學(xué)的夢想。
證畢
通過對“刺激-反應(yīng)”模型反饋機制的分析,進一步將AF-GERT網(wǎng)絡(luò)逐個分解,建立動態(tài)的迭代秩序,實現(xiàn)決策節(jié)點路徑概率學(xué)習(xí)的最優(yōu)化。
定理 5“刺激-反應(yīng)”智能學(xué)習(xí)決策動態(tài)迭代秩序:在ΨAF-GERT(N(t),S(t))網(wǎng)絡(luò)中,進行“刺激-反應(yīng)”智能學(xué)習(xí)決策動態(tài)迭代時,保證全網(wǎng)絡(luò)最優(yōu)的秩序是,與網(wǎng)絡(luò)概率傳遞方向相反,由終節(jié)點N向始節(jié)點1進行迭代,其秩序為
N→(N-1)→…→i→(i-1)→…→2→1
(13)
由于ΨAF-GERT(N(t),S(t))網(wǎng)絡(luò)是一種有向動態(tài)網(wǎng)絡(luò),在該網(wǎng)絡(luò)中通過“刺激-反應(yīng)”的智能學(xué)習(xí)方式進行最優(yōu)路徑發(fā)現(xiàn)決策的本質(zhì)是一個多階段動態(tài)規(guī)劃問題。運用動態(tài)規(guī)劃的Bellman原理,可構(gòu)造出該問題的動態(tài)迭代秩序(見式13)。
步驟 1建立Agent反饋網(wǎng)絡(luò)ΨAF-GERT(N(t),S(t))。
依據(jù)定義8,把定義4的ΨA-GERT(N(t),S(t))轉(zhuǎn)換成具有效用反饋結(jié)構(gòu)的ΨAF-GERT(N(t),S(t))體系,如圖6所示。由于體系網(wǎng)絡(luò)往往由很多節(jié)點和邊構(gòu)成,按照從終節(jié)點N向始節(jié)點1依次進行迭代的規(guī)則,將原始的A-GERT網(wǎng)絡(luò)分解為多個單一AF-GERT結(jié)構(gòu),以便后續(xù)概率迭代計算。
步驟 2建立網(wǎng)絡(luò)體系ΨAF-GERT(N(t),S(t))的初始假設(shè)與迭代規(guī)則。
初始條件與假設(shè):根據(jù)已知條件,對網(wǎng)絡(luò)需要迭代的節(jié)點和邊進行賦值,主要包括節(jié)點活動間的傳遞概率與傳遞時間,以及終節(jié)點N效用價值的分析設(shè)定(例如體系要求評定的經(jīng)濟效益、效能、利潤等指標(biāo))。
迭代秩序設(shè)計:在智能反饋網(wǎng)絡(luò)體系中,運用推論1進行動態(tài)迭代秩序設(shè)計,迭代秩序見圖7。
圖7 迭代程序圖Fig.7 Iterative program diagram
步驟 3第i(i∈N(t))個節(jié)點的n+1步迭代。
在對第i個節(jié)點進行路徑概率迭代時,當(dāng)?shù)窂街挥袃蓷l時,可任選一條進行概率迭代;當(dāng)?shù)窂酱笥趦蓷l時,則任選兩條路徑進行概率學(xué)習(xí),且此時其他路徑概率保持原始值不變,直至達到節(jié)點路徑均衡解時,即停止迭代。
(14)
當(dāng)體系網(wǎng)絡(luò)概率學(xué)習(xí)同時考慮效用值及網(wǎng)絡(luò)傳遞時間時,節(jié)點i第n步和第n-1步的傳遞效用值為
(15)
根據(jù)式(6)可得:當(dāng)ijk為最優(yōu)路徑時,
(16)
當(dāng)ijk為非最優(yōu)路徑時,
(17)
步驟 4第i(i∈N(t))個節(jié)點的智能自學(xué)習(xí)概率配置迭代解。
步驟 5ΨAF-GERT(N(t),S(t))的路徑智能自學(xué)習(xí)選擇最滿意解決方案。
根據(jù)圖7的“刺激-反應(yīng)”學(xué)習(xí)動態(tài)迭代程序,在ΨAF-GERT(N(t),S(t))網(wǎng)絡(luò)體系中,按步驟3和步驟4進行各智能決策節(jié)點的逐個迭代,最終會得到該網(wǎng)絡(luò)路徑學(xué)習(xí)的最滿意解決方案。
證畢
在創(chuàng)新開發(fā)資源有限的情況下,根據(jù)不同目標(biāo)動態(tài)選擇最優(yōu)的技術(shù)開發(fā)路徑、明確資源流動方向是典型的體系活動決策問題。根據(jù)文獻[11]以及傳統(tǒng)的創(chuàng)新技術(shù)開發(fā)項目情況,依據(jù)定義4,構(gòu)成的技術(shù)開發(fā)A-GERT體系網(wǎng)絡(luò)如圖8所示,各節(jié)點之間信息流動的傳遞函數(shù)用Wij表示。節(jié)點1表示創(chuàng)新技術(shù)生成與評價、節(jié)點2表示市場調(diào)研與需求預(yù)測、節(jié)點3表示項目方案總體設(shè)計、節(jié)點4、5分別表示2種新技術(shù)A、B的研究,節(jié)點6、7分別表示對新技術(shù)A、B進行試驗,節(jié)點8表示技術(shù)開發(fā)試驗成功,節(jié)點9表示技術(shù)開發(fā)試驗失敗。
圖8 技術(shù)開發(fā)體系ΨA-GERT(N(t),S(t))網(wǎng)絡(luò)Fig.8 ΨA-GERT(N(t),S(t)) network of technology development system
步驟 1依據(jù)定義8,根據(jù)圖8構(gòu)建的技術(shù)開發(fā)體系過程智能反饋AF-GERT網(wǎng)絡(luò),如圖9所示。
圖9 技術(shù)開發(fā)體系ΨAF-GERT(N(t),S(t))網(wǎng)絡(luò)Fig.9 ΨAF-GERT(N(t),S(t)) network of technology development system
步驟 2網(wǎng)絡(luò)體系的初始假設(shè)。
各節(jié)點間的初始概率與時間如表1所示。已知到達節(jié)點8與到達節(jié)點9分別可獲得的經(jīng)濟效益為V8=200,V9=-100。每個決策節(jié)點均實施管控措施,各節(jié)點管控措施的正、負(fù)刺激因子分別為εa6=0.2,εb6=0.04;εa4=0.3,εb4=0.01;εa7=0.2,εb7=0.01;εa3=0.3,εb3=0.03;εa2=0.3,εb2=0.05。此外,設(shè)定網(wǎng)絡(luò)學(xué)習(xí)的初始概率增值Δp1為0.01。
表1 活動初始傳遞概率與傳遞時間
步驟 3根據(jù)圖9所示的AF-GERT網(wǎng)絡(luò)依次對節(jié)點進行迭代學(xué)習(xí)。
步驟 3.1針對節(jié)點6與節(jié)點8、9間鏈路概率進行自學(xué)習(xí)。
根據(jù)定義5,節(jié)點6到節(jié)點8、9之間的等效傳遞函數(shù)WE68、WE69為WE68=W68=p68e8s和WE69=W69=p69e8s。
由式(5)、式(6)可得相應(yīng)的等效傳遞概率與期望時間為pE68=p68,TE68=8和pE69=p69,TE69=8。
已知V8=200,V9=-100,當(dāng)企業(yè)只考慮經(jīng)濟效益影響時,由式(14)可得網(wǎng)絡(luò)傳遞效用值為F6=pE68×V8+pE69·V9=200p68-100p69。
當(dāng)企業(yè)不僅考慮經(jīng)濟效益,還考慮傳遞時間影響時,由式(15)可得網(wǎng)絡(luò)傳遞效用值為
根據(jù)式(16)、式(17)依次進行概率迭代學(xué)習(xí),對節(jié)點6而言,可任選路徑概率p68和p69進行迭代,當(dāng)?shù)窂礁怕蕄68時,p69=1-p68;當(dāng)?shù)窂礁怕蕿閜69時,p68=1-p69。迭代學(xué)習(xí)的結(jié)果如圖10所示,從中不難發(fā)現(xiàn),無論迭代p68還是p69,最終的概率均衡值都相同。
圖10 節(jié)點6迭代概率圖Fig.10 Iteration probability diagram of node 6
由此可得節(jié)點6最終的路徑學(xué)習(xí)概率為p68=0.833 3,p69=0.166 7,節(jié)點概率達到均衡狀態(tài)時,此時網(wǎng)絡(luò)傳遞效用值即為節(jié)點6最終的效用值。因此,當(dāng)企業(yè)只追求經(jīng)濟效益時,節(jié)點6最終的效用值為
V6=200×0.833 3-100×0.166 7=149.99
當(dāng)企業(yè)不僅考慮經(jīng)濟效益,還考慮傳遞時間影響時,網(wǎng)絡(luò)傳遞效用值為
步驟 3.2針對節(jié)點4與節(jié)點6間鏈路概率進行自學(xué)習(xí) 。
根據(jù)定義5,節(jié)點4到節(jié)點6之間的等效傳遞函數(shù)WE46為WE46=W46/(1-W44)=p46e6s/(1-p44e8s)
由式(5)、式(6)可得相應(yīng)的等效傳遞概率與期望時間為
當(dāng)企業(yè)只考慮經(jīng)濟效益影響時,此時由于pE46=1,該情況由p46代替pE46進行迭代計算。節(jié)點4的傳遞效用值為F4=p46·V6=149.99p46。
當(dāng)企業(yè)不僅考慮經(jīng)濟效益,還考慮傳遞時間影響時,由式(15)可得節(jié)點4的傳遞效用值為
同樣根據(jù)式(16)、式(17)依次進行迭代學(xué)習(xí),迭代學(xué)習(xí)的結(jié)果如圖11所示。
圖11 節(jié)點4迭代概率值Fig.11 Iteration probability diagram of node 4
節(jié)點4最終的路徑學(xué)習(xí)概率為p46=0.967 7,p44=0.032 3,當(dāng)企業(yè)只追求經(jīng)濟效益時,節(jié)點4最終的效用值V4=149.99×0.967 7=95.802 3;當(dāng)企業(yè)不僅考慮經(jīng)濟效益,還考慮傳遞時間影響時,節(jié)點4最終的效用值為
步驟 3.3針對節(jié)點7與節(jié)點8、9間鏈路概率進行自學(xué)習(xí)。
根據(jù)定義5,節(jié)點7到節(jié)點8、9之間的等效傳遞函數(shù)WE78、WE79為
由式(5)、式(6)可得相應(yīng)的等效傳遞概率與期望時間為
當(dāng)企業(yè)只追求經(jīng)濟效益時,由式(14)可得節(jié)點7的傳遞效用值為F7=200p78/(1-p75)-100p79/(1-p75);當(dāng)企業(yè)不僅考慮經(jīng)濟效益,還考慮傳遞時間影響時,由式(15)可得節(jié)點7的傳遞效用值為F7=200pE78/TE78-100pE79/TE79=(200p78-100p79)/(10+10p75)。
根據(jù)式(16)、式(17)依次進行迭代學(xué)習(xí),對節(jié)點7而言,可任選兩個路徑概率p75、p78和p79進行迭代,例如首先固定p78=0.6保持不變,當(dāng)?shù)窂礁怕蕿閜75時,p79=1-0.6-p75,然后繼續(xù)固定某路徑概率保持不變(例如p79),迭代路徑概率為p78時,p75=1-p79-p78,重復(fù)上述操作,直到路徑概率達到均衡值。迭代學(xué)習(xí)的結(jié)果如圖12所示。
圖12 節(jié)點7迭代概率值Fig.12 Iteration probability diagram of node 7
當(dāng)企業(yè)只考慮經(jīng)濟效益影響時,節(jié)點7最終的效用值
此時V5=V7p57=190.690 8。
當(dāng)企業(yè)不僅考慮經(jīng)濟效益,還考慮傳遞時間影響時,節(jié)點7最終的效用值為
此時V5=18.455 3/10=1.845 53。
步驟 3.4針對節(jié)點3與節(jié)點4、5間鏈路概率進行自學(xué)習(xí)。
根據(jù)定義5,節(jié)點3到節(jié)點4、5之間的等效傳遞函數(shù)WE34、WE35為WE34=W34=p34T34,WE35=W35=p35T35。
由式(5)、式(6)可得相應(yīng)的等效傳遞概率與期望時間為pE34=p34,pE35=p35和TE34=4,TE35=6。
當(dāng)企業(yè)只追求經(jīng)濟效益時,由式(14)可得節(jié)點3的效用值為
F3=p34V4+p35V5=95.802 3p34+190.690 8p35
當(dāng)企業(yè)不僅考慮經(jīng)濟效益,還考慮傳遞時間影響時,由式(15)可得節(jié)點3的效用值為
根據(jù)式(16)、式(17)依次進行迭代學(xué)習(xí),對節(jié)點3而言,可任選路徑概率p34和p35進行迭代,迭代學(xué)習(xí)的結(jié)果如圖13所示。
圖13 節(jié)點3迭代概率值Fig.13 Iteration probability diagram of node 3
由此可得當(dāng)企業(yè)只追求經(jīng)濟效益時,節(jié)點3最終的效用值
V3=95.802 3×0.090 9+190.690 8×0.909 1=182.065 4
當(dāng)企業(yè)不僅考慮經(jīng)濟效益,還考慮傳遞時間影響時,節(jié)點3最終的效用值為
步驟 3.5針對節(jié)點2與節(jié)點3間鏈路概率進行自學(xué)習(xí)。
根據(jù)定義5,節(jié)點2到節(jié)點3之間的等效傳遞函數(shù)為WE23=W23/(1-W12W21)=p23e2s/(1-p21e5s)。
由式(5)、式(6)相應(yīng)的等效傳遞概率與期望時間為pE23=p23/(1-p21),TE23=(1/pE23)·(?WE23/?s|s=0)=(2+3p21)/p23;當(dāng)企業(yè)只追求經(jīng)濟效益時,由式(14)可得節(jié)點2的傳遞效用值為F2=182.065 4p23。
當(dāng)企業(yè)不僅考慮經(jīng)濟效益,還考慮傳遞時間影響時,由式(15)可得節(jié)點2的傳遞效用值為F2=pE23V3/TE23=0.707 9p23/(2+3p21)。
根據(jù)式(16)、式(17)依次進行迭代學(xué)習(xí),對節(jié)點2而言,可任選路徑概率p23和p21進行迭代,迭代學(xué)習(xí)的結(jié)果如圖14所示。
圖14 節(jié)點2迭代概率值Fig.14 Iteration probability diagram of node 2
步驟 4各節(jié)點路徑概率配置均衡解。
節(jié)點6、4、7最優(yōu)的路徑學(xué)習(xí)概率為p68=0.833 3,p46=0.967 7,p78=0.952 4;節(jié)點3最優(yōu)的路徑學(xué)習(xí)概率有兩種情況,當(dāng)只考慮經(jīng)濟效益時,p35=0.909 1,當(dāng)考慮經(jīng)濟效益和時間時,p34=0.909 1;節(jié)點2最優(yōu)的路徑學(xué)習(xí)概率為p23=0.857 1。
步驟 5技術(shù)開發(fā)體系網(wǎng)絡(luò)最優(yōu)路徑方案決策。
綜上,當(dāng)傳遞效用值只考慮經(jīng)濟效益驅(qū)動影響時,網(wǎng)絡(luò)決策的最優(yōu)路徑為1-2-3-5-7-8;當(dāng)考慮經(jīng)濟效益和完成時間影響時,網(wǎng)絡(luò)決策的最優(yōu)路徑為1-2-3-4-6-8;并且智能節(jié)點經(jīng)過學(xué)習(xí),回路路徑的傳遞概率大大減少,資源配置效率也相應(yīng)提高。當(dāng)系統(tǒng)主體只追求經(jīng)濟效益時,創(chuàng)新開發(fā)資源將逐漸流向技術(shù)B的開發(fā),而當(dāng)系統(tǒng)主體既考慮經(jīng)濟效益,又考慮完工時間時,創(chuàng)新開發(fā)資源將逐漸流向技術(shù)A的開發(fā)。
文中涉及的參數(shù)主要包括初始概率增值Δp1以及刺激因子ξa、ξb,其中參數(shù)Δp1是啟動迭代方程的引子,并不影響節(jié)點最終的概率均衡值。以節(jié)點6為例,對Δp1進行敏感度分析以說明其影響。
由圖15可知,對于不同的初始概率增值Δp1=0.001,0.01,0.1,0.2,0.3,0.4,最終的概率均衡值不變,迭代步數(shù)也僅差1~2步。因此,Δp1的取值并不影響迭代過程。理論上,Δp1≤1-p0,但實際應(yīng)用過程中,Δp1值不宜過大,否則不符合現(xiàn)實初始概率增加的情況,建議取值范圍為0<Δp1≤0.1。
圖15 節(jié)點6不同Δp1的敏感性分析Fig.15 Sensitivity analysis of different Δp1 for node 6
由推論2可知,正、負(fù)刺激因子的取值范圍為0≤ξbi<ξai≤1且0≤ξaiξbi≤1/4。由定理4可知,均衡解為ξai/ξai+ξbi=ξai/ξbi/(1+ξai/ξbi),因此為了研究刺激因子的具體影響,針對不同的ξai/ξbi值,對節(jié)點刺激因子進行靈敏度分析,如圖16~圖18所示。
圖16 節(jié)點6不同ξa和ξb的敏感性分析Fig.16 Sensitivity analysis of different ξa and ξb for node 6
圖17 節(jié)點4和7不同ξa和ξb的敏感性分析Fig.17 Sensitivity analysis of different ξa and ξb for nodes 4 and 7
圖18 節(jié)點2和3不同ξa和ξb的敏感性分析Fig.18 Sensitivity analysis of different ξaand ξb for nodes 2 and 3
由圖16~圖18所示,對于相同的ξb,ξai/ξbi的值越大,最優(yōu)路徑最終迭代的概率均衡值越大。這說明正刺激相對于負(fù)刺激的效應(yīng)越大,最終的迭代效果也就越好。此外,對于相同的ξai/ξbi值,ξb越大,迭代曲線的波動會更大,這可能是因為負(fù)刺激因子的作用在破壞概率改進的過程。因此在實際應(yīng)用過程中,應(yīng)努力促進正刺激因子的改善,避免負(fù)刺激的產(chǎn)生。
本節(jié)通過3種方式(不學(xué)習(xí)、固定激勵系數(shù)學(xué)習(xí)、變激勵系數(shù)學(xué)習(xí))進行效果分析,其中固定激勵系數(shù)學(xué)習(xí)指的是學(xué)習(xí)迭代方程中不考慮效用值的驅(qū)動影響,但學(xué)習(xí)迭代方程中仍保留方向函數(shù)的存在,方向函數(shù)保證了迭代方向的正確,如若不考慮方向函數(shù),則在迭代錯誤路徑概率時,該路徑概率也會一直增加。由于迭代過程中涉及迭代步數(shù)以及迭代概率兩個關(guān)鍵值,因此分別從達到均衡概率值的迭代步數(shù)以及迭代步數(shù)相同時迭代路徑的概率兩個角度進行對比分析。其中a表示固定激勵系數(shù)學(xué)習(xí)(考慮經(jīng)濟效益);b表示固定激勵系數(shù)學(xué)習(xí)(考慮經(jīng)濟效益和時間);c表示變激勵系數(shù)學(xué)習(xí)(考慮經(jīng)濟效益);d表示變激勵系數(shù)學(xué)習(xí)(考慮經(jīng)濟效益和時間)。
(1) 迭代步數(shù)對比分析
如表2以及圖19所示,傳遞效用值無論是否考慮活動時間,變激勵系數(shù)學(xué)習(xí)都比固定激勵學(xué)習(xí)的迭代步數(shù)要少,說明考慮目標(biāo)效益驅(qū)動影響可以加快學(xué)習(xí)迭代的速度。
表2 達到均衡解時的迭代步數(shù)對比
圖19 迭代步數(shù)對比圖Fig.19 Comparison diagram of iteration steps
(2) 迭代概率對比分析
為便于節(jié)點迭代路徑概率的比較,不同學(xué)習(xí)方式取相同的迭代步數(shù)。例如,在變激勵學(xué)習(xí)中節(jié)點6到節(jié)點8、9之間的路徑概率迭代到第23步時,p68=0.833 3,p69=0.166 7,因此在固定激勵系數(shù)學(xué)習(xí)中,取第23步時的路徑迭代概率進行比較。不同學(xué)習(xí)方式的最優(yōu)路徑概率以及創(chuàng)新技術(shù)開發(fā)項目成功的期望概率、期望時間對比如表3所示。
表3 不同學(xué)習(xí)方式迭代概率對比
根據(jù)表3可以看出,一方面,與不學(xué)習(xí)相比,經(jīng)過學(xué)習(xí)后的最優(yōu)路徑概率均有不同程度的增加,成功的期望概率是不學(xué)習(xí)的1.3到1.47倍,完工時間也縮短了26.99%到42.66%。另一方面,當(dāng)系統(tǒng)目標(biāo)只考慮經(jīng)濟效益影響時,變激勵系數(shù)學(xué)習(xí)比固定激勵系數(shù)學(xué)習(xí)效果略有提高,成功的期望概率是固定激勵系數(shù)學(xué)習(xí)的1.003 5倍;當(dāng)系統(tǒng)目標(biāo)考慮經(jīng)濟效益與完工時間影響時,變激勵系數(shù)學(xué)習(xí)成功的期望概率是固定激勵系數(shù)學(xué)習(xí)的1.001倍,完工時間縮短了0.02%。因此,變激勵系數(shù)學(xué)習(xí)方式無論是在迭代步數(shù)還是迭代概率方面均有不同程度的改進。
(3) 與其他方法對比分析
文獻[11]給出了GERT網(wǎng)絡(luò)多目標(biāo)決策的資源優(yōu)化求解方法,與本文相比,文獻[11]雖然改善了網(wǎng)絡(luò)節(jié)點傳遞概率,指明了資源流動方向,但網(wǎng)絡(luò)不具備學(xué)習(xí)能動性。經(jīng)過案例數(shù)據(jù)計算,路徑概率對比如表4所示,利用本文方法,最終的期望概率可提高10.89%,期望時間縮短26%。
表4 與其他方法迭代概率對比
綜上所述,通過自身學(xué)習(xí)方式以及其他方法的對比分析,驗證了基于A-GERT網(wǎng)絡(luò)“刺激-反應(yīng)”學(xué)習(xí)模型的合理性和有效性。
本文主要研究基于GERT網(wǎng)絡(luò)的體系過程決策問題,例如在工程計劃管理、產(chǎn)業(yè)價值流動以及作戰(zhàn)編配體系等需要在不同階段做出最優(yōu)決策的體系活動中,GERT網(wǎng)絡(luò)雖然可以很好地描述活動過程,但網(wǎng)絡(luò)節(jié)點的決策模式較為靜態(tài)單一,無法體現(xiàn)活動過程中決策的能動性。因此,首先以GERT網(wǎng)絡(luò)為基礎(chǔ)架構(gòu),構(gòu)建Agent系過程A-GERT網(wǎng)絡(luò),結(jié)合改進的刺激-反應(yīng)模型研究體系網(wǎng)絡(luò)活動的概率學(xué)習(xí)機制。刺激-反應(yīng)模型可通過輸出反饋進行主動學(xué)習(xí),具有良好的自適應(yīng)性。此外,從目標(biāo)效益驅(qū)動的角度出發(fā),通過計算網(wǎng)絡(luò)傳遞效用值改進刺激-反應(yīng)學(xué)習(xí)迭代方程,構(gòu)建A-GERT網(wǎng)絡(luò)“刺激-反應(yīng)”模型的學(xué)習(xí)決策機制。最后,以技術(shù)開發(fā)方案決策問題進行分析研究,結(jié)果表明,在管控措施激勵以及不同的目標(biāo)效益驅(qū)動下,傳遞概率會產(chǎn)生相應(yīng)的動態(tài)變化,資源也會流向更優(yōu)的技術(shù)開發(fā)路徑。并且通過對比分析,該模型的效果更好。A-GERT網(wǎng)絡(luò)“刺激-反應(yīng)”模型的構(gòu)建為解決體系網(wǎng)絡(luò)過程學(xué)習(xí)決策問題提供了一種新思路。