系列決策任務(wù)中的策略轉(zhuǎn)換：來(lái)自愛(ài)荷華賭博任務(wù)的證據(jù)*

2023-11-11 05:55:02胡馨允戴俊毅

心理學(xué)報(bào) 2023年11期

胡馨允沈悅戴俊毅

胡馨允沈悅戴俊毅

(浙江大學(xué)心理與行為科學(xué)系, 杭州 310058)

已有大量研究使用系列決策任務(wù)探討了各類(lèi)決策的決策策略。通過(guò)假定個(gè)體采用單一策略完成所有任務(wù)試次, 并比較對(duì)應(yīng)的計(jì)算認(rèn)知模型擬合實(shí)證數(shù)據(jù)的能力, 這些研究發(fā)現(xiàn)各種決策任務(wù)都涉及多種可能的決策策略。但是, 此類(lèi)研究的一個(gè)共同缺陷在于忽視了個(gè)體在任務(wù)過(guò)程中轉(zhuǎn)換決策策略的可能性。通過(guò)開(kāi)發(fā)允許在強(qiáng)化學(xué)習(xí)策略和啟發(fā)式策略間轉(zhuǎn)換的針對(duì)愛(ài)荷華賭博任務(wù)的計(jì)算認(rèn)知模型, 并將此類(lèi)模型同單一策略模型進(jìn)行對(duì)比, 研究1提供了個(gè)體在該系列決策任務(wù)中會(huì)改變決策策略的明確證據(jù)。研究2則發(fā)現(xiàn), 隨著試次數(shù)的增加, 發(fā)生策略轉(zhuǎn)換的可能性也會(huì)上升。這些結(jié)果表明, 為了正確認(rèn)識(shí)各種決策任務(wù)的決策策略, 需要充分考慮在系列決策任務(wù)過(guò)程中發(fā)生策略轉(zhuǎn)換的可能性, 尤其是試次較多的系列任務(wù)。未來(lái)研究可以探討策略轉(zhuǎn)換的多種可能形式, 以及導(dǎo)致策略轉(zhuǎn)換的任務(wù)和個(gè)體因素, 以便進(jìn)一步深化對(duì)于系列決策任務(wù)的心理機(jī)制的認(rèn)識(shí)。

系列決策任務(wù), 愛(ài)荷華賭博任務(wù), 策略轉(zhuǎn)換, 計(jì)算認(rèn)知建模, 強(qiáng)化學(xué)習(xí)和啟發(fā)式策略

1 引言

古人云“明者因時(shí)而變, 知者隨事而制”, 當(dāng)重復(fù)面對(duì)任務(wù)結(jié)構(gòu)相同的決策(即完成系列決策任務(wù))時(shí), 人們所使用的決策策略不是一成不變的。1本文探討的系列決策任務(wù)有別于序列決策任務(wù), 后者一般是指后續(xù)決策的方案集合取決于之前的決策及其結(jié)果, 即時(shí)間上相鄰的決策存在明顯的動(dòng)態(tài)依存性的決策任務(wù)。大量研究表明, 各種決策任務(wù)都存在多種不同的決策策略。例如, 針對(duì)多屬性決策任務(wù), 存在一系列不同的補(bǔ)償式(選項(xiàng)在不同屬性上的優(yōu)勢(shì)和劣勢(shì)可以相互抵消)和非補(bǔ)償式策略(選項(xiàng)在不同屬性上的優(yōu)勢(shì)和劣勢(shì)不可相互抵消, 例如, Payne et al., 1988; Rieskamp & Otto, 2006; Walsh & Gluck, 2016), 而面對(duì)風(fēng)險(xiǎn)決策任務(wù)時(shí), 個(gè)體則可能采取基于期望效用或類(lèi)似評(píng)估的策略(例如, Kahneman & Tversky, 1979; Von Neumann & Morgenstern, 1944)或者更為簡(jiǎn)單的啟發(fā)式策略(例如, Brandst?tter et al., 2006)。此外, 研究者還對(duì)信息環(huán)境、任務(wù)要求以及個(gè)體差異等因素如何影響個(gè)體的策略選擇進(jìn)行了探索(例如, Bergert & Nosofsky, 2007; Pachur & Galesic, 2013), 并且發(fā)現(xiàn), 任務(wù)環(huán)境或者要求的變化可能會(huì)帶來(lái)相應(yīng)的決策策略的轉(zhuǎn)換(例如, Br?der & Schiffer, 2006; Lee et al., 2014)。

除了由任務(wù)環(huán)境和要求的變化所導(dǎo)致的策略轉(zhuǎn)換以外, 人們是否還可能在相對(duì)穩(wěn)定的任務(wù)環(huán)境和要求下, 由于自我調(diào)整、適應(yīng)或者內(nèi)在的探索動(dòng)機(jī)而發(fā)生策略轉(zhuǎn)換？在絕大多數(shù)有關(guān)決策策略的實(shí)證研究中, 被試都需要在相同的任務(wù)結(jié)構(gòu)下完成一系列決策試次, 以便研究者能夠依托足夠多的信息, 來(lái)推斷被試的決策策略。雖然過(guò)往研究已經(jīng)探討了面對(duì)特定決策任務(wù)時(shí)個(gè)體所使用的策略的多樣性, 以及影響策略選擇的可能因素, 卻鮮有研究考察, 在面對(duì)一個(gè)相對(duì)穩(wěn)定的系列決策任務(wù)時(shí), 個(gè)體的決策策略發(fā)生轉(zhuǎn)換的可能性。如果這種可能性的確存在, 那么以往有關(guān)決策策略的研究, 就會(huì)因?yàn)楹鲆曔@一可能性而導(dǎo)致錯(cuò)誤的結(jié)論。為了更好地探明個(gè)體在面對(duì)各種決策任務(wù)時(shí)的決策策略, 首先需要回答的問(wèn)題是, 在任務(wù)環(huán)境和要求相對(duì)穩(wěn)定的系列決策中, 是否的確會(huì)發(fā)生策略轉(zhuǎn)換。本文將以愛(ài)荷華賭博任務(wù)這一典型的系列決策任務(wù)為例, 探討這一重要的理論和實(shí)踐問(wèn)題。

愛(ài)荷華賭博任務(wù)(Iowa Gambling Task, IGT)是一項(xiàng)基于經(jīng)驗(yàn)的模擬決策任務(wù), 它最初是為了考察腹內(nèi)側(cè)前額葉損傷患者在應(yīng)對(duì)不確定的現(xiàn)實(shí)情境時(shí)的決策缺陷而提出的(Bechara et al., 1994)。該任務(wù)包含4個(gè)牌堆(分別標(biāo)記為A, B, C, D), 被試需要多次在這些牌堆間做出選擇。每次選擇某一牌堆之后, 都會(huì)抽取并翻轉(zhuǎn)其最上方的一張牌, 并根據(jù)牌面信息給予被試一定的獎(jiǎng)勵(lì)。但是, 有時(shí)選擇某一牌堆也會(huì)同時(shí)給被試帶來(lái)?yè)p失。在任務(wù)開(kāi)始之前, 被試并不知道每個(gè)牌堆的盈虧規(guī)律以及總試次數(shù), 而他們的目標(biāo)則是通過(guò)他們的選擇獲得盡可能高的總回報(bào)。因此, 被試需要通過(guò)不斷選擇各個(gè)牌堆來(lái)學(xué)習(xí)每個(gè)牌堆的盈虧規(guī)律, 并采取特定策略來(lái)完成這一任務(wù)。目前IGT已被廣泛用于識(shí)別各種臨床人群的決策缺陷, 包括腦損傷人群(Hochman et al., 2010)、藥物濫用人群(Ahn et al., 2014; Bechara & Damasio, 2002; Bechara et al., 2001)、神經(jīng)疾病人群(Stout et al., 2001)以及精神障礙人群(李蕾等, 2019; 徐四華, 2012)等。

除了被用于考察臨床人群的決策缺陷, IGT還被用來(lái)探究正常和臨床人群在面對(duì)不確定情境時(shí)的決策策略。為此, 研究者們提出了對(duì)應(yīng)不同策略的一系列計(jì)算認(rèn)知模型, 這些模型大致可分為強(qiáng)化學(xué)習(xí)模型和啟發(fā)式模型兩類(lèi)。強(qiáng)化學(xué)習(xí)模型假設(shè)IGT包含三個(gè)過(guò)程：涉及動(dòng)機(jī)的對(duì)每次選擇結(jié)果的評(píng)估過(guò)程, 涉及認(rèn)知的對(duì)牌堆期望效價(jià)的更新過(guò)程, 以及涉及反應(yīng)的概率化選擇過(guò)程。Busemeyer和Stout (2002)提出了第一個(gè)針對(duì)IGT的強(qiáng)化學(xué)習(xí)模型——期望效價(jià)學(xué)習(xí)(Expectancy-Valence Learning, EVL)模型。該模型假定個(gè)體使用期望效用(Expectancy Utility, EU)函數(shù)來(lái)評(píng)估每次選擇結(jié)果的效用(Ahn et al., 2008), 使用差異學(xué)習(xí)(Delta-Learning, DEL)規(guī)則來(lái)更新每個(gè)牌堆的期望效價(jià)(Rescorla & Wagner, 1972), 并使用依賴(lài)于試次的選擇(Trial-Dependent Choice, TDC)規(guī)則來(lái)指導(dǎo)下一試次的選擇(Luce, 1959)。在EVL模型的基礎(chǔ)上, Ahn等人(2008)進(jìn)一步探索了強(qiáng)化學(xué)習(xí)模型涉及的三個(gè)過(guò)程中每個(gè)過(guò)程的不同數(shù)學(xué)形式, 并提出了預(yù)期效價(jià)學(xué)習(xí)(Prospect- Valence Learning, PVL)模型。該模型假定個(gè)體會(huì)使用預(yù)期效用(Prospect Utility, PU)函數(shù)(Kahneman & Tversky, 1979)對(duì)選擇的凈收益(即獎(jiǎng)勵(lì)以及可能同時(shí)出現(xiàn)的損失之和)進(jìn)行評(píng)估, 使用Erev和Roth (1998)提出的衰減強(qiáng)化學(xué)習(xí)(Decay-Reinforcement Learning, DRL)規(guī)則更新預(yù)期效價(jià), 并且使用不隨試次變化的選擇(Trial-Independent Choice, TIC)規(guī)則(Yechiam & Ert, 2007)做出反應(yīng)。更為近期的采用系統(tǒng)化模型比較方法的研究表明(Dai et al., 2015), 個(gè)體在對(duì)結(jié)果進(jìn)行評(píng)估時(shí), 更有可能會(huì)對(duì)同時(shí)出現(xiàn)的獎(jiǎng)勵(lì)和損失首先分別按照預(yù)期效用函數(shù)進(jìn)行評(píng)估, 然后再將評(píng)估結(jié)果加以整合。對(duì)應(yīng)的模型被稱(chēng)為第2類(lèi)預(yù)期效價(jià)學(xué)習(xí)(Prospect-Valence Learning 2, PVL2)模型。

在有關(guān)IGT的啟發(fā)式模型中, 最有代表性且擬合實(shí)證數(shù)據(jù)表現(xiàn)最好的是贏留輸走(Win-Stay-Lose- Shift, WSLS)模型(Worthy et al., 2012)。該模型假設(shè), 人們的每次選擇僅取決于上一次選擇的牌堆以及所得的結(jié)果, 而與更早之前的選擇及其結(jié)果無(wú)關(guān)。因此, 相比于考慮之前所有試次的選擇及對(duì)應(yīng)結(jié)果的強(qiáng)化學(xué)習(xí)模型, WSLS模型假設(shè)的心理機(jī)制更為簡(jiǎn)單。具體而言, 該模型假定個(gè)體繼續(xù)選擇相同牌堆的概率, 受當(dāng)前選擇該牌堆的結(jié)果而定。如果當(dāng)前選擇的凈收益非負(fù)(即贏), 則有較大可能繼續(xù)選擇相同牌堆, 反之(即輸), 則有較大可能下一試次轉(zhuǎn)而選擇不同的牌堆。

盡管關(guān)于IGT的決策策略已經(jīng)有了豐富的研究成果, 但很少有研究考慮個(gè)體在完成IGT過(guò)程中發(fā)生策略轉(zhuǎn)換這一可能。Busemeyer和Stout (2002)曾提出過(guò)一個(gè)策略轉(zhuǎn)換啟發(fā)式選擇(Strategy-Switching Heuristic Choice)模型。但是, 該模型所謂的“策略轉(zhuǎn)換”, 并非是指決策策略的本質(zhì)變化, 而是指隨著個(gè)體由于選擇不利牌堆(即A或B牌堆)遭受越來(lái)越多的損失, 其選擇概率在不利牌堆和有利牌堆(即C或D牌堆)之間重新分配的過(guò)程。此外, 也有研究者提出了將強(qiáng)化學(xué)習(xí)和啟發(fā)式策略結(jié)合在一起的計(jì)算認(rèn)知模型。例如, Worthy等人(2013)提出了效價(jià)附加堅(jiān)持(Valence-Plus-Perseverance, VPP)模型。該模型認(rèn)為, 在IGT的每一個(gè)試次中, 人們都會(huì)綜合考慮各個(gè)牌堆的期望效價(jià)以及前一試次的選擇及其結(jié)果, 再?zèng)Q定當(dāng)前試次的選擇。雖然該模型同時(shí)包含強(qiáng)化學(xué)習(xí)和啟發(fā)式策略成分, 且相比于EVL、PVL以及WSLS模型, 該模型在擬合實(shí)證數(shù)據(jù)時(shí)有較好的表現(xiàn), 但它仍然假定個(gè)體會(huì)使用單一的, 雖然更為復(fù)雜的混合策略來(lái)完成IGT中每個(gè)試次的選擇。

綜上所述, 有關(guān)IGT的決策策略研究, 尚未考察在任務(wù)過(guò)程中發(fā)生策略轉(zhuǎn)換這一可能。如果個(gè)體的確會(huì)在任務(wù)過(guò)程中因?yàn)楦鞣N原因轉(zhuǎn)變決策策略, 那么以往僅僅比較單一策略模型的研究, 就可能得出關(guān)于個(gè)體策略選擇的錯(cuò)誤認(rèn)識(shí)。此外, 那些根據(jù)單一策略模型的參數(shù)估計(jì), 來(lái)推斷不同人群決策差異背后的心理機(jī)制的研究(例如, Ahn et al., 2014; Yechiam et al., 2005), 也可能會(huì)產(chǎn)生有偏的估計(jì), 進(jìn)而導(dǎo)致對(duì)人群差異的錯(cuò)誤解讀。本研究將通過(guò)開(kāi)發(fā)允許策略轉(zhuǎn)換的模型并將其與傳統(tǒng)的單一策略模型進(jìn)行比較, 來(lái)回答在IGT中是否存在策略轉(zhuǎn)換這一問(wèn)題, 以期為得出有關(guān)IGT中的決策策略以及不同人群差異的更為可信的結(jié)論提供依據(jù), 也為在更大范圍內(nèi)探討決策策略轉(zhuǎn)換這一重要的理論和實(shí)踐問(wèn)題提供借鑒。

2 研究1：IGT策略轉(zhuǎn)換模型的提出和檢驗(yàn)

2.1 方法

2.1.1 IGT簡(jiǎn)介

如上所述, IGT包含4個(gè)牌堆(分別標(biāo)記為A、B、C、D), 在每個(gè)試次中被試需要選擇一個(gè)牌堆, 并根據(jù)其最上方的牌呈現(xiàn)的信息獲得一定的獎(jiǎng)勵(lì), 并有可能同時(shí)遭受一些損失。被試的目標(biāo)是在總試次數(shù)未知的情況下, 使總回報(bào)最大化。例如, 在Bechara等人(1994)最早的IGT研究中包含了(被試未知的)100個(gè)試次, 并且采用了如表1所示的支付方案。具體而言, 被試每次選擇A或B牌堆, 都會(huì)獲得100美元的收益。但是, 每選擇10次A牌堆, 被試都會(huì)遭受5次損失, 金額從小到大分別為150美元、200美元、250美元、300美元和350美元, 且這5次損失在每10次選擇中出現(xiàn)的具體位置都會(huì)有所變化。類(lèi)似的, 被試每選擇10次B牌堆, 都會(huì)遭受1次金額為1250美元的損失, 且每10次選擇中出現(xiàn)損失的位置也各不相同。對(duì)于C或者D牌堆, 每次選擇都會(huì)帶來(lái)50美元的收益。然而, 每選擇10次C牌堆, 都會(huì)遭受5次總額為250美元的損失, 每選擇10次D牌堆, 則會(huì)遭受1次250美元的損失, 且每10次選擇C或D牌堆遭受損失試次的位置也會(huì)有所不同。后續(xù)研究使用了相同或者類(lèi)似的任務(wù)設(shè)置, 主要的調(diào)整發(fā)生在試次數(shù), 以及是否使用真實(shí)回報(bào)兩方面。當(dāng)使用真實(shí)回報(bào)(即按照被試最后的總回報(bào)支付酬金)時(shí), 出于控制實(shí)驗(yàn)經(jīng)費(fèi)的目的, 一般會(huì)將Bechara等人最初的支付方案中的各種結(jié)果金額都縮減100倍(例如, Dai et al., 2015)。無(wú)論采取何種支付方案, 所有類(lèi)型的IGT研究都滿(mǎn)足以下三點(diǎn)：1) A和B牌堆每次選擇都有較高的收益, 但總損失也較大, 因此長(zhǎng)期而言是不利的, 即總回報(bào)為負(fù); 2) C和D牌堆每次選擇的收益較低, 但總損失較小, 因此長(zhǎng)期而言是有利的, 即總回報(bào)為正; 3) A和C牌堆相比于B和D牌堆會(huì)出現(xiàn)更多次的損失。

表1 Bechara等人(1994)使用的IGT支付方案

2.1.2 單一策略模型

為了給探究IGT中的策略轉(zhuǎn)換提供合適的對(duì)照模型, 本研究考慮了已有文獻(xiàn)中的三大類(lèi)單一策略模型, 即強(qiáng)化學(xué)習(xí)模型, 啟發(fā)式模型以及混合模型, 并以PVL2模型, WSLS模型和VPP模型作為各類(lèi)模型的代表。這些模型在以往的研究中都有較好的表現(xiàn), 因此如果新的允許策略轉(zhuǎn)換的模型能夠比它們有更好的表現(xiàn), 則能為IGT中存在策略轉(zhuǎn)換提供支持。以下將介紹這三個(gè)計(jì)算認(rèn)知模型的具體數(shù)學(xué)形式。

針對(duì)IGT的強(qiáng)化學(xué)習(xí)模型假定人們通過(guò)結(jié)果評(píng)估、期望(或預(yù)期)效價(jià)更新和概率化選擇三個(gè)過(guò)程來(lái)完成該任務(wù)。根據(jù)PVL2模型(Dai et al., 2015), 人們?cè)谶x擇某一牌堆之后, 會(huì)針對(duì)當(dāng)前選擇獲得的收益和可能的損失, 使用預(yù)期理論的價(jià)值函數(shù)分別進(jìn)行評(píng)估, 然后再做匯總。其對(duì)應(yīng)的效用函數(shù)被稱(chēng)為第2類(lèi)預(yù)期效用(Prospect Utility 2, PU2)函數(shù), 效用評(píng)估的具體形式如下：

其中,()和()分別代表在試次獲得的收益及可能同時(shí)出現(xiàn)的損失金額,()代表試次的匯總效用評(píng)估。α是形狀參數(shù), 用于衡量被試感受到的效用對(duì)于客觀價(jià)值的敏感性, 取值范圍在0到1之間, γ則代表預(yù)期理論中的損失厭惡參數(shù), 取值范圍在0到5之間。

在完成了結(jié)果評(píng)估之后, 根據(jù)PVL2模型, 個(gè)體會(huì)使用衰減強(qiáng)化學(xué)習(xí)規(guī)則對(duì)各牌堆的預(yù)期效價(jià)進(jìn)行更新, 具體形式如下：

最后, PVL2模型假定, 個(gè)體會(huì)依據(jù)各牌堆的預(yù)期效價(jià), 使用以下函數(shù)確定下一次選擇各牌堆的概率并相應(yīng)地做出隨機(jī)選擇(Sutton & Barto, 1998)：

作為啟發(fā)式模型的代表, WSLS模型假定的決策策略比PVL2模型假定的策略明顯更為簡(jiǎn)單。根據(jù)該模型, 個(gè)體只會(huì)根據(jù)上一次選擇的牌堆及其凈收益(即收益和損失的總和), 來(lái)概率性地決定下一次的選擇。該模型有兩個(gè)參數(shù), 第一個(gè)參數(shù)代表上一次選擇的牌堆得到的凈收益大于等于0時(shí), 個(gè)體繼續(xù)選擇該牌堆的概率, 即

除了強(qiáng)化學(xué)習(xí)模型和啟發(fā)式模型, Worthy等人(2013)提出的混合策略VPP模型也有很好的表現(xiàn)。Worthy等人認(rèn)為, 使用衰減強(qiáng)化規(guī)則的強(qiáng)化學(xué)習(xí)模型混淆了堅(jiān)持選擇同一牌堆的傾向和選擇預(yù)期效價(jià)最高的牌堆的傾向。因此, 他們分離了這兩種傾向, 并提出了VPP模型。根據(jù)該模型, 個(gè)體一方面會(huì)使用PU函數(shù)來(lái)對(duì)某次選擇結(jié)果進(jìn)行效用評(píng)估, 并使用差異學(xué)習(xí)規(guī)則更新牌堆的預(yù)期效價(jià), 其具體形式如下：

其中,()表示當(dāng)前試次選擇結(jié)果的凈收益, 其他符號(hào)的含義同上文。

另一方面, 個(gè)體還會(huì)根據(jù)之前試次是否選擇了牌堆以及選擇牌堆所得凈收益是否非負(fù)來(lái)確定當(dāng)前試次堅(jiān)持選擇牌堆的傾向, 具體形式如下：

最后, 和PVL2模型類(lèi)似, VPP模型假設(shè)被試會(huì)根據(jù)牌堆的價(jià)值確定下一次選擇各牌堆的概率并相應(yīng)地做出隨機(jī)選擇, 具體規(guī)則如下：

2.1.3 策略轉(zhuǎn)換模型

由于IGT一般包含多達(dá)100個(gè)甚至更多的試次, 在整個(gè)任務(wù)過(guò)程中, 個(gè)體可能由于各種原因發(fā)生策略轉(zhuǎn)換。在本研究中, 我們假定可能存在兩種轉(zhuǎn)換, 一種是在任務(wù)開(kāi)始階段由于缺乏信息而使用對(duì)信息依賴(lài)度較低的啟發(fā)式策略, 并在對(duì)各牌堆有了更多了解之后, 轉(zhuǎn)而使用更為復(fù)雜更為精細(xì)的強(qiáng)化學(xué)習(xí)策略。另一種則是在初始階段就使用強(qiáng)化學(xué)習(xí)策略, 并隨著任務(wù)的進(jìn)行, 因?yàn)槠凇⒕氲』蛘呓档驼J(rèn)知負(fù)荷的需求, 轉(zhuǎn)而采用啟發(fā)式策略。從建模角度, 鑒于PVL2模型在強(qiáng)化學(xué)習(xí)模型, 以及WSLS模型在啟發(fā)式模型中的優(yōu)勢(shì)地位, 本研究將分別以這兩個(gè)模型來(lái)表達(dá)可能的強(qiáng)化學(xué)習(xí)策略和啟發(fā)式策略, 并由此探討個(gè)體在IGT中發(fā)生策略轉(zhuǎn)換的可能性。

具體而言, 我們開(kāi)發(fā)了一個(gè)允許發(fā)生一次策略轉(zhuǎn)換(Switching-Strategy-Once, SSO)的模型。該模型假設(shè)個(gè)體在完成IGT的過(guò)程中, 會(huì)在啟發(fā)式策略和強(qiáng)化學(xué)習(xí)策略之間進(jìn)行一次轉(zhuǎn)換, 且個(gè)體在使用啟發(fā)式或者強(qiáng)化學(xué)習(xí)策略完成IGT時(shí)所使用的具體計(jì)算認(rèn)知機(jī)制, 和對(duì)應(yīng)的WSLS或者PVL2模型所假定的機(jī)制相同。除了WSLS模型和PVL2模型涉及的參數(shù)以外, 該模型還包含兩個(gè)新的參數(shù), 分別代表發(fā)生策略轉(zhuǎn)換的節(jié)點(diǎn)試次, 記作(即Switching Point), 以及策略轉(zhuǎn)換的類(lèi)型, 記作(即Switching Type)。= 1代表個(gè)體在完成IGT的過(guò)程中先使用了強(qiáng)化學(xué)習(xí)策略, 之后轉(zhuǎn)而使用啟發(fā)式策略, 而= 2則代表相反的策略轉(zhuǎn)換過(guò)程。因此, 該模型共有8個(gè)參數(shù), 即涉及強(qiáng)化學(xué)習(xí)策略的α, γ,和, 涉及啟發(fā)式策略的Pr(|)和Pr(|), 轉(zhuǎn)換節(jié)點(diǎn)參數(shù), 以及轉(zhuǎn)換類(lèi)型參數(shù)。由于當(dāng)策略轉(zhuǎn)換節(jié)點(diǎn)位于整個(gè)任務(wù)的開(kāi)始或結(jié)尾階段時(shí), 相應(yīng)的策略轉(zhuǎn)換模型和對(duì)應(yīng)的單一策略模型可能過(guò)于類(lèi)似, 難以分辨。因此, 在本研究中, 我們將的范圍限定在第21個(gè)試次到倒數(shù)第21個(gè)試次之間。

2.1.4 數(shù)據(jù)

為了系統(tǒng)比較策略轉(zhuǎn)換模型和單一策略模型擬合實(shí)證數(shù)據(jù)的能力, 我們選取了以往采用IGT的研究中具有代表性的一系列數(shù)據(jù)集作為模型擬合對(duì)象(Steingroever et al., 2015)。具體而言, 這些數(shù)據(jù)出自10項(xiàng)研究, 涵蓋了不同年齡范圍的共617名健康被試, 且IGT的試次數(shù)包含95, 100和150三種情況。所有研究中的IGT都在計(jì)算機(jī)上完成, 且支付方案與表1所示的Bechara等人(1994)所用的方案相同或類(lèi)似。所涉及的各項(xiàng)研究的基本信息參見(jiàn)Steingroever等人的表1。

2.1.5 模型擬合和比較方法

本研究所考察的每個(gè)計(jì)算認(rèn)知模型(即WSLS, PVL2, VPP和SSO), 都可以根據(jù)被試之前的選擇以及所得結(jié)果, 預(yù)測(cè)下一試次每個(gè)牌堆被選擇的概率(即一步向前預(yù)測(cè), Ahn et al., 2008)。因此, 我們首先使用極大似然估計(jì)法(Maximum-Likelihood Estimation, MLE), 用每個(gè)模型去擬合個(gè)體被試的選擇數(shù)據(jù), 即找到每個(gè)模型下, 可以使得實(shí)際選擇數(shù)據(jù)出現(xiàn)可能性最大化的參數(shù)取值組合, 并以相應(yīng)的觀測(cè)數(shù)據(jù)的預(yù)測(cè)出現(xiàn)概率, 作為模型擬合表現(xiàn)的初步指標(biāo)。具體而言, 在特定模型參數(shù)取值下的似然值被定義為該取值下, 模型預(yù)測(cè)的個(gè)體被試的選擇序列的發(fā)生概率, 而對(duì)數(shù)似然值(Log-Likelihood, LL)則被定義為

一般而言, 更為復(fù)雜的模型會(huì)有更好的擬合表現(xiàn)。由于上述模型的參數(shù)個(gè)數(shù)不盡相同, 它們的復(fù)雜程度也不盡相同。因此, 我們使用包含二階偏差修正的赤池信息準(zhǔn)則(Akaike Information Criterion with second-order bias correction, AICC; Akaike, 1974; Sugiura, 1978)和貝葉斯信息準(zhǔn)則(Bayesian Information Criterion, BIC; Schwarz, 1978)這兩種常用的適用于極大似然估計(jì)的指標(biāo), 來(lái)綜合考量模型的擬合情況和復(fù)雜程度, 并以相應(yīng)的準(zhǔn)則分?jǐn)?shù)來(lái)評(píng)價(jià)每個(gè)模型的表現(xiàn)并進(jìn)行模型選擇, 具體計(jì)算方式如下：

其中,代表模型的自由參數(shù)個(gè)數(shù),為需要擬合的數(shù)據(jù)點(diǎn)個(gè)數(shù)(即總試次數(shù)? 1), 而LL則是指模型的極大對(duì)數(shù)似然值。AICC(或BIC)的值越小, 表示模型表現(xiàn)越好(Broomell et al., 2011)。2當(dāng)樣本量與模型參數(shù)個(gè)數(shù)的比值較小(即樣本量/參數(shù)個(gè)數(shù)< 40)時(shí), 使用包含二階偏差修正的赤池信息準(zhǔn)則(AICC)能夠彌補(bǔ)使用AIC可能導(dǎo)致的過(guò)擬合缺陷(Burnham & Anderson, 2004)。因此, 在本文中我們使用AICC而非AIC作為模型評(píng)估的一個(gè)指標(biāo)。

2.1.6 模型復(fù)原測(cè)試

在本研究中, 我們對(duì)數(shù)據(jù)集中的617名被試的觀測(cè)數(shù)據(jù)進(jìn)行了模型擬合, 從而得到了每個(gè)被試在每個(gè)模型下的最優(yōu)擬合參數(shù)取值。然后, 對(duì)于每個(gè)模型, 我們用對(duì)應(yīng)于每名被試的最優(yōu)擬合參數(shù)取值產(chǎn)生3組模擬數(shù)據(jù), 共產(chǎn)生1821 (= 617 × 3)組模擬的被試數(shù)據(jù)。之后, 我們分別使用WSLS模型、PVL2模型、VPP模型和SSO模型, 用擬合觀測(cè)數(shù)據(jù)一樣的方法擬合這些模擬數(shù)據(jù)。最后, 通過(guò)分析使用不同指標(biāo)(即AICC和BIC)時(shí)模型的區(qū)分度, 我們可以選取出更為合理的針對(duì)觀測(cè)數(shù)據(jù)的模型選擇指標(biāo)。

2.2 結(jié)果

2.2.1 模型擬合和比較

表2展示了各個(gè)模型擬合全部617名被試的觀測(cè)數(shù)據(jù)的結(jié)果。當(dāng)以AICC為模型選擇指標(biāo)時(shí), 無(wú)論是就群體均值還是個(gè)體結(jié)果而言, SSO模型都表現(xiàn)最佳, 而VPP、PVL2和WSLS模型的表現(xiàn)則依次變差。當(dāng)以BIC為模型選擇指標(biāo)時(shí), 就群體均值而言, PVL2模型的表現(xiàn)最佳, SSO模型次之。從個(gè)體結(jié)果上看, WSLS模型和PVL2模型表現(xiàn)較好, 分別在30.79%和33.87%的被試數(shù)據(jù)上有最好的表現(xiàn), 而VPP和SSO模型的表現(xiàn)則基本相當(dāng)。無(wú)論采用AICC還是BIC作為指標(biāo), SSO模型都在一部分被試的數(shù)據(jù)(AICC：43.27%, BIC：18.96%)上有最好的表現(xiàn)。

2.2.2 模型復(fù)原測(cè)試

由于AICC和BIC對(duì)于模型復(fù)雜度的懲罰程度存在差異, 相比于BIC, AICC傾向于選擇參數(shù)更多的模型。因此, 出現(xiàn)使用AICC指標(biāo)時(shí), 較為復(fù)雜的VPP和SSO模型有更好的表現(xiàn)并不奇怪。為了選擇更合適的模型選擇指標(biāo), 我們進(jìn)行了模型復(fù)原測(cè)試。表3和表4展示了模型復(fù)原測(cè)試的結(jié)果。當(dāng)以AICC為模型選擇指標(biāo)時(shí), 各模型有較好的區(qū)分度。對(duì)于每個(gè)模型產(chǎn)生的模擬被試數(shù)據(jù), 該模型本身都能在最大比例的個(gè)體模擬數(shù)據(jù)上有最好的表現(xiàn)。而當(dāng)以BIC為模型選擇指標(biāo)時(shí), 對(duì)于每個(gè)模型產(chǎn)生的模擬數(shù)據(jù), 最為簡(jiǎn)單的WSLS模型都能在最大比例的個(gè)體模擬數(shù)據(jù)上有最好的表現(xiàn), 即BIC不能很好地對(duì)WSLS和其他模型進(jìn)行區(qū)分。因此, 在本研究中, 相比于BIC, 將AICC作為模型選擇指標(biāo)更為合適。

注：表中的每一行代表不同模型在某個(gè)模型產(chǎn)生的模擬被試數(shù)據(jù)上的表現(xiàn)情況。例如, 第一行代表各個(gè)模型擬合WSLS模型產(chǎn)生的模擬被試數(shù)據(jù)時(shí)的表現(xiàn)。在由WSLS模型產(chǎn)生的模擬被試數(shù)據(jù)中, WSLS模型在88.60%的個(gè)體數(shù)據(jù)上表現(xiàn)最佳, 而PVL2模型、VPP模型和SSO模型則分別在3.67%、0.92%和6.81%的個(gè)體數(shù)據(jù)上表現(xiàn)最佳。

表4 研究1基于BIC的模型復(fù)原測(cè)試結(jié)果

注：表中內(nèi)容的含義同表3。

2.3 討論

本研究提出了有關(guān)IGT的一次策略轉(zhuǎn)換模型, 并針對(duì)以往617名健康被試的數(shù)據(jù), 比較了此模型和假定單一策略的具有代表性的PVL2模型(強(qiáng)化學(xué)習(xí)策略), WSLS模型(啟發(fā)式策略)以及VPP模型(混合策略)的數(shù)據(jù)擬合表現(xiàn)。當(dāng)分別以AICC和BIC作為模型選擇指標(biāo)時(shí), 模型表現(xiàn)的相對(duì)優(yōu)劣有所差異, 但策略轉(zhuǎn)換模型都能在一定比例的個(gè)體數(shù)據(jù)上有最好的表現(xiàn)。模型復(fù)原測(cè)試的結(jié)果表明, AICC比BIC更適合在當(dāng)前研究中被用于進(jìn)行模型選擇, 因?yàn)橄啾扔谑褂肂IC, 在使用AICC時(shí)更可能還原出正確的數(shù)據(jù)產(chǎn)生模型。當(dāng)以AICC作為模型選擇指標(biāo)時(shí), SSO模型無(wú)論從群體還是個(gè)體水平都要優(yōu)于另外三個(gè)模型, 而且策略轉(zhuǎn)換模型在近一半(43.27%)的被試觀測(cè)數(shù)據(jù)上表現(xiàn)最佳。這些結(jié)果表明, 個(gè)體在完成IGT的過(guò)程中, 的確有較大可能會(huì)發(fā)生決策策略的轉(zhuǎn)換。

如前所述, 經(jīng)驗(yàn)累積或者疲倦等因素可能是造成在像IGT這樣的系列決策任務(wù)中發(fā)生策略轉(zhuǎn)換的原因。當(dāng)任務(wù)的試次數(shù)變得越來(lái)越多時(shí), 我們可以合理地認(rèn)為, 經(jīng)驗(yàn)累積或者疲倦這樣的因素更有可能發(fā)生作用, 因而個(gè)體也就更有可能在任務(wù)過(guò)程中, 變換決策策略。因此, 作為本研究主體部分的補(bǔ)充, 我們還比較了包含不同試次數(shù)的IGT研究中的模型表現(xiàn), 以便進(jìn)一步考察策略轉(zhuǎn)換的可能性。在本研究考察的617名被試中, 有15人完成的是95試次的IGT, 504人完成的是100試次的IGT, 還有98人完成的是150試次的IGT。表5展示了包含不同試次數(shù)的IGT數(shù)據(jù)以AICC為模型選擇指標(biāo)的相應(yīng)結(jié)果?？梢钥闯? 隨著試次數(shù)的上升, 無(wú)論是從AICC均值, 還是從模型表現(xiàn)最好的被試比例來(lái)看, 策略轉(zhuǎn)換模型相比于其他模型的優(yōu)勢(shì)都在增強(qiáng), 這一點(diǎn)在模型表現(xiàn)最好的個(gè)體被試比例上表現(xiàn)得尤為明顯, 即從13.33%上升到了53.06%。

表5 研究1中根據(jù)試次數(shù)分組的模型擬合和比較結(jié)果

需要指出的是, 雖然上述分析支持IGT中可能存在策略轉(zhuǎn)換, 但這些分析所考察的數(shù)據(jù)出自不同的研究, 在任務(wù)設(shè)置的細(xì)節(jié)上不盡相同, 而且試次數(shù)的范圍和間距不盡合理, 完成不同試次數(shù)IGT的人數(shù)也很不均衡。因此, 以上分析結(jié)果只能被認(rèn)為是為支持IGT中的策略轉(zhuǎn)換提供了有限的證據(jù)。在以下報(bào)告的研究2中, 我們?cè)趯?duì)試次數(shù)進(jìn)行更為合理的操縱的前提下, 采用相同的任務(wù)設(shè)置在每種試次數(shù)下收集了人數(shù)幾乎相同的被試數(shù)據(jù), 以便更好地檢驗(yàn)試次數(shù)增加會(huì)提升策略轉(zhuǎn)換的可能性這一關(guān)鍵假設(shè)。

3 研究2：試次數(shù)對(duì)IGT中策略轉(zhuǎn)換可能性的影響

3.1 方法

3.1.1 被試

本研究采用實(shí)驗(yàn)范式操縱IGT的試次數(shù), 并設(shè)置了100試次和200試次兩個(gè)實(shí)驗(yàn)條件。共招募321名成年大學(xué)生被試(男性134人, 女性187人), 平均年齡20.54歲(= 2.41)。其中160人完成了100試次的IGT, 另161人則完成了200試次的IGT。招募被試時(shí)要求非心理學(xué)專(zhuān)業(yè)且未參加過(guò)IGT研究。所有被試均在實(shí)驗(yàn)前填寫(xiě)知情同意書(shū), 并自愿參與實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)束后, 被試會(huì)得到基礎(chǔ)報(bào)酬和額外獎(jiǎng)勵(lì), 額外獎(jiǎng)勵(lì)的數(shù)量和IGT的績(jī)效有關(guān), 績(jī)效越高, 額外獎(jiǎng)勵(lì)越多。

3.1.2 實(shí)驗(yàn)設(shè)計(jì)與流程

本實(shí)驗(yàn)采用單因素被試間設(shè)計(jì), 考察并比較不同試次數(shù)下個(gè)體在IGT中發(fā)生策略轉(zhuǎn)換的可能性。本實(shí)驗(yàn)共設(shè)置100試次和200試次兩種實(shí)驗(yàn)條件, 前者是大多數(shù)IGT研究的標(biāo)準(zhǔn)設(shè)置, 而后者則可以在控制實(shí)驗(yàn)總時(shí)長(zhǎng)的前提下, 有效地拉開(kāi)與前者的距離, 以實(shí)現(xiàn)一定程度的效應(yīng)量。

任務(wù)開(kāi)始前, 被試會(huì)閱讀有關(guān)IGT的標(biāo)準(zhǔn)化介紹, 并被告知擁有2000元研究貨幣(即初始總財(cái)富)。任務(wù)開(kāi)始后, 被試會(huì)看到分別位于屏幕上、下、左、右側(cè)的4個(gè)牌堆, 并可以通過(guò)鍵盤(pán)的“上”、“下”、“左”、“右”鍵, 選擇對(duì)應(yīng)的牌堆。被試在完成任務(wù)之前, 并不知曉所需完成的試次數(shù)。每次選擇完成后, 屏幕中央將呈現(xiàn)當(dāng)前試次的獎(jiǎng)勵(lì)和損失, 以及更新之后的總財(cái)富額(如圖1)。設(shè)置以上下左右方式呈現(xiàn)牌堆, 是為了減少傳統(tǒng)的從左到右的排布方式對(duì)牌堆選擇產(chǎn)生的非隨機(jī)的影響, 例如在開(kāi)始階段依次選擇A、B、C、D四個(gè)牌堆, 以及在后續(xù)試次中, 相繼選擇空間上明顯相鄰的牌堆。此外, 本研究采用和表1所示相同的支付方案, 且每10次選擇某一牌堆時(shí)損失出現(xiàn)的試次位置也是隨機(jī)的。實(shí)驗(yàn)程序使用Python3及PsychoPy軟件編寫(xiě), 被試需要在電腦的PsychoPy軟件上完成實(shí)驗(yàn)。

圖1 研究2實(shí)驗(yàn)界面截圖

3.1.3 數(shù)據(jù)分析

本研究采用和研究1相同的模型擬合和比較技術(shù), 分析和比較了3個(gè)單一策略模型和一次策略轉(zhuǎn)換模型在擬合個(gè)體IGT數(shù)據(jù)時(shí)的表現(xiàn), 并且進(jìn)行了模型復(fù)原測(cè)試。此外, 使用獨(dú)立樣本比例差異檢驗(yàn), 分析試次數(shù)對(duì)于IGT中發(fā)生策略轉(zhuǎn)換的可能性的影響。

表6 研究2模型比較結(jié)果

表7 研究2基于AICC的模型復(fù)原測(cè)試結(jié)果

注：每個(gè)單元格中的前一個(gè)數(shù)值代表100試次組的結(jié)果, 后一個(gè)數(shù)值代表200試次組的結(jié)果。

3.2 結(jié)果

3.2.1 模型擬合和比較

因模型復(fù)原測(cè)試表明, 在本研究中使用AICC仍然比使用BIC更有可能做出正確的模型選擇(見(jiàn)下文), 此處僅報(bào)告基于AICC的結(jié)果。表6呈現(xiàn)了以AICC為標(biāo)準(zhǔn), 100和200試次組各自的模型比較結(jié)果。無(wú)論是從群體均值, 還是從個(gè)體結(jié)果來(lái)看, SSO模型在兩種試次數(shù)條件下都表現(xiàn)最佳。而且, 無(wú)論是針對(duì)100試次IGT還是200試次IGT, SSO模型都在至少一半被試的個(gè)體數(shù)據(jù)上有最好的表現(xiàn)。此外, 和研究1一樣, VPP、PVL2和WSLS模型的表現(xiàn)依次變差。獨(dú)立樣本比例差異Z檢驗(yàn)的結(jié)果表明, 200試次下發(fā)生策略轉(zhuǎn)換的可能性(即SSO模型在擬合個(gè)體觀測(cè)數(shù)據(jù)時(shí)表現(xiàn)最佳的比例, 65.22%), 高于100試次下發(fā)生策略轉(zhuǎn)換的可能性(50.00%,= 2.76, 單側(cè)= 0.003, 比例差異的95% CI = [0.045, 0.259], Cohen’s= 0.31, 對(duì)應(yīng)較小的效應(yīng)量)。

和在研究1中一樣, 我們還分析了兩種試次數(shù)條件下, SSO模型擬合最優(yōu)的那些被試的參數(shù)的估計(jì)結(jié)果。當(dāng)IGT包含100試次時(shí),估計(jì)值的均值為47.03, 標(biāo)準(zhǔn)差為20.39; 當(dāng)IGT包含200試次時(shí),估計(jì)值的均值為95.38, 標(biāo)準(zhǔn)差為54.21。4在本研究以及研究1中, SSO模型擬合最優(yōu)的被試的sp平均估計(jì)值都接近于允許范圍的中間值。造成這一結(jié)果的可能原因是, 發(fā)生策略轉(zhuǎn)換的個(gè)體的策略轉(zhuǎn)換節(jié)點(diǎn)位于模型允許范圍內(nèi)的各個(gè)位置的可能性大致相當(dāng), 且整體分布呈單峰形態(tài)。單側(cè)Mann-Whitney檢驗(yàn)結(jié)果表明, 無(wú)論在哪種轉(zhuǎn)換類(lèi)型下, 200試次下的平均轉(zhuǎn)換節(jié)點(diǎn)均顯著晚于100試次下的平均轉(zhuǎn)換節(jié)點(diǎn)(值均小于0.001)。

3.2.2 模型復(fù)原測(cè)試

本研究使用每個(gè)模型模擬了3×321 = 963組個(gè)體被試數(shù)據(jù), 并使用4個(gè)模型對(duì)每組模擬數(shù)據(jù)進(jìn)行了擬合。表7展示了100試次組和200試次組基于AICC的模型復(fù)原測(cè)試結(jié)果。不論是在100試次還是200試次下, 所考察的每個(gè)模型都能在最大比例的各自模型產(chǎn)生的模擬數(shù)據(jù)上有最好的表現(xiàn)?？傮w而言, 試次數(shù)為200時(shí)數(shù)據(jù)生成模型被正確復(fù)原的比例(71.74%), 要高于試次數(shù)為100時(shí)的比例(64.69%,= 4.70, 單側(cè)< 0.001, 比例差異的95% CI = [0.041, 0.100], Cohen’s= 0.15, 對(duì)應(yīng)小的效應(yīng)量)。

表8展示了基于BIC的模型復(fù)原測(cè)試結(jié)果?？梢钥闯? 和研究1一樣, 當(dāng)使用BIC進(jìn)行模型選擇時(shí), 幾乎在所有情況下, 無(wú)論針對(duì)哪個(gè)模型產(chǎn)生的個(gè)體模擬數(shù)據(jù), WSLS模型都能有最好的表現(xiàn), 即BIC不能很好地對(duì)WSLS和其他模型進(jìn)行區(qū)分。只有當(dāng)試次數(shù)為200時(shí), PVL2模型和SSO模型才能在各自產(chǎn)生的模擬數(shù)據(jù)上有最好的表現(xiàn)?？傮w而言, 試次數(shù)為200時(shí)數(shù)據(jù)生成模型被正確復(fù)原的比例(59.06%), 要高于試次數(shù)為100時(shí)的比例(49.17%,= 6.16, 單側(cè)< 0.001, 比例差異的95% CI = [0.068, 0.130], Cohen’s= 0.20, 對(duì)應(yīng)小的效應(yīng)量)。

3.3 討論

本研究的目的在于考察試次數(shù)的增加是否會(huì)導(dǎo)致被試在IGT中更有可能發(fā)生策略轉(zhuǎn)換。結(jié)果表明, 無(wú)論IGT包含標(biāo)準(zhǔn)的100個(gè)試次還是更多的200個(gè)試次, 和研究1類(lèi)似, 策略轉(zhuǎn)換模型都在至少一半被試的個(gè)體數(shù)據(jù)上有最好的表現(xiàn)。更為重要的是, 同包含100個(gè)試次的IGT相比, 當(dāng)IGT包含200個(gè)試次時(shí), 策略轉(zhuǎn)換模型在更高比例的個(gè)體數(shù)據(jù)上表現(xiàn)最佳。這意味著, 當(dāng)試次數(shù)為200時(shí), 人們更有可能在IGT中發(fā)生策略轉(zhuǎn)換。這一結(jié)果排除了策略轉(zhuǎn)換模型能夠在部分被試的數(shù)據(jù)上有最好的表現(xiàn), 僅僅是由模型比較結(jié)果的隨機(jī)性所致這一解釋, 從而為個(gè)體在像IGT這樣的系列決策任務(wù)中可能發(fā)生策略轉(zhuǎn)換提供了進(jìn)一步的支持。此外, 模型復(fù)原測(cè)試的結(jié)果表明, 與BIC相比, AICC仍然是更有可能做出正確的模型選擇的指標(biāo)。因此, 本研究繼續(xù)使用AICC作為模型選擇和策略推斷的依據(jù)。最后, 無(wú)論是采用AICC還是BIC作為模型選擇指標(biāo), 200試次下的模型復(fù)原表現(xiàn), 都要優(yōu)于100試次下的表現(xiàn)。這與更大的數(shù)據(jù)量將有助于更好地區(qū)分不同模型的傳統(tǒng)看法是一致的。

表8 研究2基于BIC的模型復(fù)原測(cè)試結(jié)果

注：表中內(nèi)容的含義同表7。

4 總討論

系列決策任務(wù)既廣泛存在于我們的日常生活中, 也大量出現(xiàn)在有關(guān)決策策略和影響因素的實(shí)證研究之中。例如, 為了招聘各種崗位的職員, 人力資源部門(mén)的員工需要頻繁地在求職者間做出選擇, 而像IGT這樣的需要被試在相同的任務(wù)結(jié)構(gòu)下重復(fù)完成多次決策的實(shí)驗(yàn)室任務(wù)也比比皆是。以往有關(guān)系列決策任務(wù)下的決策策略的研究, 一般假設(shè)個(gè)體在所有試次中都使用相同的策略。之所以要求進(jìn)行多次重復(fù)決策, 僅僅是為了給推斷決策策略提供更多的信息。但是, 在這樣的決策任務(wù)中, 人們不僅會(huì)了解和學(xué)習(xí)任務(wù)刺激的具體特征, 而且可能在更高的水平上, 學(xué)習(xí)和相應(yīng)地調(diào)整他們的決策策略。對(duì)于后一種學(xué)習(xí)的充分了解, 將有助于我們得出有關(guān)策略選擇的更為準(zhǔn)確的推斷, 并且考察影響策略選擇及其轉(zhuǎn)換的因素, 從而更好地為改善決策服務(wù)。

本研究以IGT為對(duì)象, 較為系統(tǒng)地探討了人們?cè)谙盗袥Q策任務(wù)中發(fā)生策略轉(zhuǎn)換的可能性。結(jié)果表明, 人們不僅會(huì)在IGT中發(fā)生策略轉(zhuǎn)換, 而且這一轉(zhuǎn)換的可能性, 還會(huì)隨著任務(wù)試次數(shù)的上升而有所提升。這表明, 在通過(guò)各種系列決策任務(wù)探討個(gè)體的決策策略時(shí), 需要充分考慮策略轉(zhuǎn)換的可能性, 尤其是在任務(wù)試次數(shù)較多的情況下。具體而言, 可以參照本文所報(bào)告的方式, 開(kāi)發(fā)允許策略轉(zhuǎn)換的計(jì)算認(rèn)知模型, 并將它們和假定單一策略的模型進(jìn)行比較, 從而推斷個(gè)體是否發(fā)生了策略轉(zhuǎn)換, 以及在何時(shí)發(fā)生了策略轉(zhuǎn)換。由此, 研究者有望對(duì)個(gè)體在任務(wù)不同階段的策略使用情況有更加準(zhǔn)確的認(rèn)識(shí), 后續(xù)基于不同階段的模型參數(shù)估計(jì)的分析, 也更有可能產(chǎn)生相對(duì)準(zhǔn)確的推斷。

在確認(rèn)了系列決策任務(wù)存在策略轉(zhuǎn)換的可能性后, 一個(gè)需要進(jìn)一步探討的關(guān)鍵問(wèn)題是, 產(chǎn)生策略轉(zhuǎn)換的條件是什么, 或者說(shuō)怎樣的任務(wù)因素、個(gè)體因素或者兩者的交互可能引發(fā)策略轉(zhuǎn)換。例如, 當(dāng)任務(wù)難度或者自身的抱負(fù)水平較高時(shí), 個(gè)體可能因?yàn)楝F(xiàn)有策略無(wú)法實(shí)現(xiàn)目標(biāo), 而選擇嘗試不同的策略。由此可以推斷, 通過(guò)增大任務(wù)難度(比如要求在IGT中必須使得財(cái)富水平有所增長(zhǎng))或者提升個(gè)體的抱負(fù)水平的方式, 也許能夠引發(fā)更多的策略轉(zhuǎn)換。此外, 是否存在優(yōu)勢(shì)策略也是影響策略轉(zhuǎn)換的一個(gè)可能因素。當(dāng)個(gè)體在嘗試了不同策略并且發(fā)現(xiàn)了優(yōu)勢(shì)策略之后, 其策略轉(zhuǎn)換的傾向可能會(huì)有所減弱。反之, 如果多種策略下的任務(wù)表現(xiàn)大致相當(dāng), 那么發(fā)生策略轉(zhuǎn)換的可能性則將取決于個(gè)體希望盡可能有更好的表現(xiàn)的意愿, 以及探索不同策略的動(dòng)機(jī)程度。對(duì)于策略轉(zhuǎn)換誘發(fā)因素的考察, 將進(jìn)一步提升我們對(duì)于決策策略及其轉(zhuǎn)換的認(rèn)識(shí)。

Ahn, W. Y., Busemeyer, J. R., Wagenmakers, E. J., & Stout, J. C. (2008). Comparison of decision learning models using the generalization criterion method.(8), 1376?1402. https://doi.org/10.1080/03640210802352992

Ahn, W. Y., Vasilev, G., Lee, S. H., Busemeyer, J. R., Kruschke, J. K., Bechara, A., & Vassileva, J. (2014). Decision-making in stimulant and opiate addicts in protracted abstinence: Evidence from computational modeling with pure users.849. https://doi.org/10.3389/ fpsyg.2014.00849

Akaike, H. (1974). A new look at the statistical model identification.(6), 716?723.

Bechara, A., Damasio, A. R., Damasio, H., & Anderson, S. W. (1994). Insensitivity to future consequences following damage to human prefrontal cortex.(1?3), 7?15. https://doi.org/10.1016/0010-0277(94)90018-3

Bechara, A., & Damasio, H. (2002). Decision-making and addiction (part I): Impaired activation of somatic states in substance dependent individuals when pondering decisions with negative future consequences.(10),1675?1689. https://doi.org/10.1016/s0028-3932(02)00015-5

Bechara, A., Dolan, S., Denburg, N., Hindes, A., Anderson, S. W., & Nathan, P. E. (2001). Decision-making deficits, linked to a dysfunctional ventromedial prefrontal cortex, revealed in alcohol and stimulant abusers.(4), 376?389. https://doi.org/10.1016/s0028-3932(00)00136-6

Bergert, F. B., & Nosofsky, R. M. (2007). A response-time approach to comparing generalized rational and take-the- best models of decision making.107?129.

Brandst?tter, E., Gigerenzer, G., & Hertwig, R. (2006). The priority heuristic: Making choices without trade-offs.409?432.

Br?der, A., & Schiffer, S. (2006). Adaptive flexibility and maladaptive routines in selecting fast and frugal decision strategies.904?918. https://doi.org/10.1037/ 0278-7393.32.4.904

Broomell, S. B., Budescu, D. V., & Por, H. H. (2011). Pair-wise comparisons of multiple models.(8), 821?831.

Burnham, K. P., & Anderson, D. R. (2004). Multimodel inference: Understanding AIC and BIC in model selection.(2), 261?304. https://doi.org/10.1177/0049124104268644

Busemeyer, J. R., & Stout, J. C. (2002). A contribution of cognitive decision models to clinical assessment: Decomposing performance on the Bechara gambling task.(3), 253. https://doi.org/10.1037/1040-3590. 14.3.253

Clerc, M. (2010).(Vol. 93). John Wiley & Sons.

Dai, J., Kerestes, R., Upton, D. J., Busemeyer, J. R., & Stout, J. C. (2015). An improved cognitive model of the Iowa and Soochow Gambling Tasks with regard to model fitting performance and tests of parameter consistency.299. https://doi.org/10.3389/fpsyg.2015.00229

Erev, I., & Roth, A. E. (1998). Predicting how people play games: Reinforcement learning in experimental games with unique, mixed strategy equilibria.(4), 848?881. https://jstor.org/stable/117009

Fang, J., Schooler, L., & Shenghua, L. (2023). Machine learning strategy identification: A paradigm to uncover decision strategies with high fidelity.(1), 263?284.

Hochman, G., Yechiam, E., & Bechara, A. (2010). Recency gets larger as lesions move from anterior to posterior locations within the ventromedial prefrontal cortex.(1), 27?34. https:// doi.org/10.1016/j.bbr.2010.04.023

Kahneman, D., & Tversky, A. (1979). Prospect theory: An analysis of decision under risk.(2), 263?292. https://jstor.org/stable/1914185

Lee, M. D., & Gluck, K. A. (2021). Modeling strategy switches in multi-attribute decision making.148?163. https://doi.org/10.1007/ s42113-020-00092-w

Lee, M. D., Gluck, K. A., & Walsh, M. M. (2019). Understanding the complexity of simple decisions: Modeling multiple behaviors and switching strategies.(4), 335?368. https://doi.org/10.1037/dec0000105

Lee, M. D., Newell, B. R., & Vandekerckhove, J. (2014). Modeling the adaptation of search termination in human decision making.(4), 223?251. https://doi.org/ 10.1037/dec0000019

Li, L., Zhang, J. Q., Hou, J. W., Li, Y. L., Lu, Y. J., & Guo, Z. J. (2019). Decision-making characteristics assessed by the IOWA Gambling Task in schizophrenia: A meta-analysis.(6),688?691, 695.

[李蕾, 張俊青, 侯繼文, 李亞鈴, 魯玉潔, 郭宗君. (2019). 愛(ài)荷華賭博任務(wù)評(píng)估精神分裂癥決策特點(diǎn)Meta分析.(6), 688?691, 695.]

Luce, R. D. (1959).New York: Wiley.

Pachur, T., & Galesic, M. (2013). Strategy selection in risky choice: The impact of numeracy, affect, and cross-cultural differences.260?271.

Payne, J. W., Bettman, J. R., & Johnson. E. J. (1988). Adaptive strategy selection in decision making.534?552.

Rescorla, R. A., & Wagner, A. R. (1972). A theory of Pavlovian conditioning: Variations in the effectiveness of reinforcement and nonreinforcement. In A. H. Black, & W. F. Prokasy (Eds.),(pp. 64?99). Appleton-Century-Crofts.

Rieskamp, J., & Otto, P. E. (2006). SSL: A theory of how people learn to select strategies.(2), 207?236. https://doi.org/ 10.1037/0096-3445.135.2.207

Schwarz, G. (1978). Estimating the dimension of a model.,(2), 461?464.

Steingroever, H., Fridberg, D. J., Horstmann, A., Kjome, K. L., Kumari, V., Lane, S. D., … Wagenmakers, E. J. (2015). Data from 617 healthy participants performing the Iowa Gambling Task: A “Many Labs” Collaboration.(1), e5. http://doi.org/10.5334/ jopd.ak

Stout, J. C., Rodawalt, W. C., & Siemers, E. R. (2001). Risky decision making in Huntington's disease.(1), 92?101. https://doi.org/10.1017/s1355617701711095

Sugiura, N. (1978). Further analysis of the data by Akaike’s information criterion and the finite corrections.13?26. http://doi.org/10.1080/03610927808827599

Sutton, R. S., & Barto, A. G. (1998). Reinforcement learning: An introduction.(5), 1054?1054. https://doi.org/10.1109/tnn.1998.712192

Von Neumann, J., & Morgenstern, O. (1944).Princeton University Press.

Wagenmakers, E. J., Ratcliff, R., Gomez, P., & Iverson, G. J. (2004). Assessing model mimicry using the parametric bootstrap.28?50. https://doi.org/10.1016/j.jmp.2003.11.004

Walsh, M. M., & Gluck, K. A. (2016). Verbalization of decision strategies in multiple-cue probabilistic inference.(1), 78?91. https://doi.org/10.1002/bdm.1878

Worthy, D. A., Hawthorne, M. J., & Otto, A. R. (2012). Heterogeneity of strategy use in the Iowa gambling task: A comparison of win-stay/lose-shift and reinforcement learning models.(2), 364?371. https://doi.org/10.3758/s13423-012-0324-9

Worthy, D. A., Pang, B., & Byrne, K. A. (2013). Decomposing the roles of perseveration and expected value representation in models of the Iowa gambling task.640. https://doi.org/10.3389/fpsyg.2013.00640

Xu, S. H. (2012). Internet addicts’ behavior impulsivity: Evidence from the Iowa Gambling Task.(11), 1523?1534.

[徐四華. (2012). 網(wǎng)絡(luò)成癮者的行為沖動(dòng)性——來(lái)自愛(ài)荷華賭博任務(wù)的證據(jù).(11), 1523?1534.]

Yechiam, E., Busemeyer, J. R., Stout, J. C., & Bechara, A. (2005). Using cognitive models to map relations between neuropsychological disorders and human decision-making deficits.973?978.

Yechiam, E., & Ert, E. (2007). Evaluating the reliance on past choices in adaptive learning models.(2), 75?84. https://doi.org/10.1016/j.jmp. 2006.11.002

Strategy switching in a sequence of decisions: Evidence from the Iowa Gambling Task

HU Xinyun, SHEN Yue, DAI Junyi

(Department of Psychology and Behavioral Sciences, Zhejiang University, Hangzhou 310058, China)

Much research has been devoted to studying decision strategies in various tasks. Such research usually involved a sequence of decision trials under the same task structure to provide sufficient information for inferring the underlying decision strategies. By assuming each individual adopted a single decision strategy across all decision trials and comparing corresponding computational cognitive models in terms of their performances in fitting empirical data, such studies have revealed multiple possible decision strategies for many major decision tasks. One common drawback of such research, however, was overlooking the possibility that individuals switched their strategies along the sequence of decisions. This might lead to inappropriate conclusions regarding the decision strategies underlying specific decision tasks or misleading inferences of potential cognitive and affective differences between normal and different clinical populations based on parameter estimates from models assuming single strategies.

To address this critical issue, two studies were conducted to examine the possibility of strategy switching in the Iowa Gambling Task (IGT), an experience-based decision task with a sequence of trials aimed at mimicking real-world decisions under uncertainty. By developing a computational cognitive model that allowed for switches between reinforcement learning strategies and heuristic strategies and comparing its performance with those of single-strategy models, Study 1 showed that data from about half of the 617 healthy participants in 10 previous studies were better fitted by the strategy-switching model than three single-strategy models that performed well in previous research, that is, the WSLS, PVL2, and VPP models as exemplar models assuming heuristic, reinforcement learning, and mixed strategies, respectively. This result provided clear support for the possibility of strategy switching in the IGT.

Since strategy switching might occur with accumulating experience or fatigue and an increasing number of trials is likely to facilitate such changes, 321 participants were recruited in Study 2 to further examine whether a larger number of trials would contribute to more strategy switching in the IGT. Specifically, 160 participants performed a 100-trial IGT, whereas the other 161 participants performed a 200-trial IGT under otherwise the same task structure. It was found that data from a larger proportion of individual participants were best fitted by the strategy-switching model when the IGT involved 200 trials rather than standard 100 trials. This result provided further evidence for strategy switching in the task.

Overall, the current results suggest that strategy switching is likely to occur in a sequence of decisions under the same task structure. Consequently, in order to obtain proper understanding of the decision strategies for various decision tasks, it is necessary to consider seriously the possibility of strategy switching, especially for a long sequence of decisions. For a more refined understanding of psychological mechanisms underlying sequences of decisions, future research might further investigate various forms of strategy switching such as gradual instead of abrupt switches and task and individual factors that trigger such switches.

decision task with a sequence of trials, The Iowa Gambling Task, strategy switching, computational cognitive modeling, reinforcement learning and heuristic strategies

2023-02-02

* 中央高?；究蒲袠I(yè)務(wù)費(fèi)專(zhuān)項(xiàng)資金(2018QNA3014)資助。

戴俊毅, E-mail: junyidai@zju.edu.cn

B842.1

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

系列決策任務(wù)中的策略轉(zhuǎn)換：來(lái)自愛(ài)荷華賭博任務(wù)的證據(jù)*

1 引言

2 研究1：IGT策略轉(zhuǎn)換模型的提出和檢驗(yàn)

2.1 方法

2.2 結(jié)果

2.3 討論

3 研究2：試次數(shù)對(duì)IGT中策略轉(zhuǎn)換可能性的影響

3.1 方法

3.2 結(jié)果

3.3 討論

4 總討論