康廷虎 張 豐
(西北師范大學(xué)心理學(xué)院,蘭州 730070)
情景知覺中的信息界定:從主觀預(yù)期到 “驚奇”算法*
康廷虎 張 豐
(西北師范大學(xué)心理學(xué)院,蘭州 730070)
情景信息加工是情景知覺研究領(lǐng)域內(nèi)的核心問題。然而,不同的研究者對 “情景信息”的界定并不相同。在過去80多年的時間里對情景信息的界定先后經(jīng)歷了研究者主觀確定、觀察者評估、基于情景物理特征的計算模擬等方法。Itti和Baldi等人通過比較先驗概率和后驗概率之間的差異,提出了 “驚奇”理論。文章介紹了真實情景知覺研究中 “驚奇”理論的應(yīng)用及進展,并指出 “驚奇”算法的拓展及界定、情景知覺過程中的注意轉(zhuǎn)換與 “驚奇”的關(guān)系,以及社會情景知覺中的 “驚奇”應(yīng)用可能是未來相關(guān)領(lǐng)域需要進一步探索的問題。
情景知覺,信息,主觀預(yù)期,驚奇。
在瀏覽情景或情景識別過程中,人們獲得了什么信息,以及如何加工信息是情景知覺領(lǐng)域內(nèi)研究的核心問題之一 (Fei-Fei,Iyer,Koch,&Perona,2007)。研究者曾應(yīng)用各種不同的方法探索人們在情景知覺過程中的信息獲得與加工機制。比如,Rensink,O′Regan和Clark(1997)等人引用刺激物覺察范式試圖確定不同刺激物對情景識別的影響,而眼動技術(shù)也成為研究者探索情景知覺過程中信息搜索、獲得的重要技術(shù)手段和研究范式 (Henderson,Brockmole,Castelhano,&Mack,2007;康廷虎,白學(xué)軍,2013)。但是,確定人們在情景知覺過程中注視什么、忽視什么,或者人們的注意被什么所引導(dǎo)并不能完全解釋情景知覺的心理機制,研究者還需要了解諸如變換覺察、注視、回視、眼跳等眼動特征的原因。
對于情景知覺過程中眼動特征的解釋,在Buswell(1935)的經(jīng)典研究中就已引入了 “信息”的概念,并且認為人們對情景的瀏覽,與情景所包含的信息有關(guān)。然而,何為 “信息”?Rashed,Bagum,Khan和Hasan(2011)認為,信息就是交流或接受有關(guān)特定事實或事件的知識;而基于概率論和統(tǒng)計學(xué)的信息論認為,信息可以消除隨機不確定性,即信息是確定性的增加。在情景知覺領(lǐng)域,不同的研究者曾采用不同的方式界定情景信息。Buswell(1935)從研究者的角度界定了情景信息,Mackworth和Morandi(1967)則從被試的角度定義情景信息。之后有研究試圖分離情景中的知覺信息和語義信息,并應(yīng)用 “主觀預(yù)期”來確定信息及信息量的大小 (Brockmole&Henderson,2008;Matsukura,Brockmole,&Henderson,2009;V?&Henderson,2011)。Itti和Baldi(2009)在分析情景知覺過程中的注意現(xiàn)象時,引入了貝葉斯驚奇(Bayesian surprise),并且發(fā)現(xiàn) “驚奇”對注意具有引導(dǎo)作用,而且 “驚奇”這一指標(biāo)要優(yōu)于圖像色塊的局部亮度方差、邊緣密度,以及顯著性等指標(biāo)。
實際上,早在上個世紀中葉,統(tǒng)計學(xué)領(lǐng)域就已經(jīng)開始了有關(guān) “驚奇”和 “驚奇事件” (Weaver, 1948)的研究,并在之后將其應(yīng)用于決策研究領(lǐng)域(Fisk,2002;劉立秋,陸勇,2007)。在情景知覺的研究中,Itti和Baldi(2005)基于對先驗概率和后驗概率的考察,以貝葉斯定理、香農(nóng)熵,以及KL散度 (kullback-leibler divergence,KLD)為基礎(chǔ),發(fā)展并提出了 “驚奇”的理論模型。這一理論模型及其算法為準確量化情景信息提供了理論與技術(shù)支持,其應(yīng)用不僅有助于解釋 “信息是什么”,而且可以深入分析 “信息量有多大”,以及 “信息量大小對注意的影響”。
2.1 情景知覺與信息加工
當(dāng)給我們呈現(xiàn)一張圖片時,我們的眼睛會往哪里看呢?同樣的問題在上個世紀30年代中期曾引起了Buswell(1935)的研究興趣。他在分析Miss W和Miss D瀏覽圖片過程中的眼動特征時,產(chǎn)生了“當(dāng)一個人看圖片時,他會怎么看”的困惑,并由此衍生了一系列的疑問,比如 “圖片的顏色起了什么作用”、 “人們在看圖片時的興趣中心是什么”、“兒童和成年人看圖片的方式是不是相同”等。之后Buswell以55張有關(guān)建筑、雕刻、繪畫的圖片為實驗材料,選擇12名小學(xué)生、44名高中生和144名成年人做被試,記錄了他們在瀏覽圖片時的注視點、眼動軌跡等數(shù)據(jù)。研究結(jié)果發(fā)現(xiàn)被試注視的位置很有規(guī)律,而且與圖片提供的信息密切相關(guān),比如說,觀察者傾向于關(guān)注人而不是背景區(qū)域。
在另外一項經(jīng)典研究中,Yarbus(1967)要求觀察者檢測情景圖片以及其他藝術(shù)作品的顏色。他發(fā)現(xiàn)觀察者在檢測俄國寫實主義大師Repin的作品——《意外歸來》 (An Unexpected Visitor)的過程中,傾向于注視情景中的人物,特別是這些人物的面部;但是當(dāng)要求觀察者去估計情景中這個家庭的物質(zhì)環(huán)境時,他們的眼睛則會在一個更大的范圍內(nèi)移動。Yarbus觀察到在對包括人的面部和其他刺激物的情景的注視過程中也存在相似性,這表明觀察者更傾向于注視他們認為包含 “有用的或者實質(zhì)性信息”的區(qū)域 (Bulthoff et al.,2005)。
之后的研究者也發(fā)現(xiàn),與非信息區(qū)域相比,情景中的信息區(qū)域更容易引起人們的注視 (Mackworth&Morandi,1967;Antes,1974);而且,為了進一步揭示情景信息對情景知覺的影響,研究者區(qū)分了情景信息的語義屬性和知覺屬性,并考察了情景知覺過程中的注視控制、視覺搜索以及視覺記憶等問題。有研究發(fā)現(xiàn),情景的知覺屬性,比如顏色、亮度、邊緣密度等影響著情景瀏覽過程中的眼動特征 (Mannan,1995,1997);但是也有研究認為,情景語義信息對視覺搜索存在著影響 (De Graef Christiaens&d′Ydewalle,1990;Henderson, 1999)。目前,關(guān)于情景知覺的信息加工仍然存在爭論 (康廷虎,白學(xué)軍,2008;王福興,田宏杰,申繼亮,2009),雙通道加工模型 (Dual-Path Model of Scene Processing)、背景引導(dǎo)模型 (Contextual Guidance Model)等理論模型試圖從自上而下和自下而上的雙通道加工路徑為情景知覺提供解釋(Torralba et al.2006;田宏杰,王福興,徐菲菲,申繼亮,2010)。
2.2 情景知覺研究中的信息界定
縱覽過去80多年情景知覺的研究,無論是Buswell(1935)和 Yarbus(1967)的經(jīng)典研究,還是近年來的理論探索與研究新進展,圍繞的核心問題始終是 “情景信息”的加工。然而,對于情景和情景知覺加工而言,什么是信息,如何界定情景信息?不同的研究者對其的界定存在差別,先后經(jīng)歷了研究者主觀確定、被試評估、基于刺激物在某情景中出現(xiàn)可能性的判斷,以及基于情景物理特征的計算模擬等方法。
在Buswell(1935)和Yarbus(1967)的研究中,圖片的信息實際上是研究者對被試所注視區(qū)域進行事后分析的過程中確定的;而之后的研究則致力于對情景圖片所包含信息的操作和界定。Mackworth和Morandi(1967)在研究中應(yīng)用了兩張圖片,其中一張為 “眼睛”圖片,畫面為黃色和橘色背景,畫面中只露出了一雙眼睛,其他被深紅色掩飾所掩蓋;另一張為 “地圖”圖片,畫面描述的是以宇航員的視角所看到的深藍色海洋背景下的加利福尼亞半島。為了確定兩張圖片所包含的信息,每一張情景圖片被分成8×8的方塊區(qū)域,然后讓一組被試在0-9的10點量表上對每一塊區(qū)域包含的信息量進行評價。各區(qū)域包含信息量的界定是以可辨認性為依據(jù)的,即在其它條件下某一方塊區(qū)域可識別的難易程度。之后Antes(1974)對圖片所包含信息的界定也是依據(jù)被試的評價。他認為,圖片中的各個部分對于整個圖片的信息表達有不同的貢獻,因此,他要求被試在0-8的9點量表上對圖片每一部分在整個圖片所表達信息中的貢獻予以評價。信息量即圖片每一部分對于整個圖片所表達信息的貢獻大小。
不難發(fā)現(xiàn),在 Buswell(1935)和 Yarbus(1967)的經(jīng)典研究中,對信息的確定是基于研究者的主觀判斷,之后Mackworth和Morandi(1967)、Antes(1974)等人的界定則是基于被試的主觀判斷。那么,這種主觀判斷依據(jù)的是情景所包含的語義信息,還是顏色、大小、形狀等知覺信息呢?Loftus和Mackworth(1978)在研究中控制了視覺屬性的影響,以目標(biāo)刺激在情景中出現(xiàn)的可預(yù)期程度為依據(jù)界定了情景的語義信息,認為不可預(yù)期的刺激物帶有更多的信息量。這種界定在之后關(guān)于語義一致性、語義信息注意優(yōu)先性等的研究中得到了廣泛應(yīng)用 (Brockmole&Henderson,2008;Mat-sukura,Brockmole & Henderson,2009;V?& Henderson,2011)。為了能夠更好地約束人們對情景中刺激物出現(xiàn)可能性的主觀預(yù)期,康廷虎和白學(xué)軍 (2013)在其研究中引入了日常生活中的生產(chǎn)、生活安全規(guī)則,并依據(jù)是否符合安全規(guī)則來確定情景的語義屬性,即在安全情景中,刺激物信息的出現(xiàn)是符合安全規(guī)則的,而在危險情景中,刺激物信息則是不符合安全規(guī)則的。把情景信息約束在特定領(lǐng)域的知識范圍內(nèi),增加了信息界定的操作性和客觀性,但是,在這些研究中并沒有能夠?qū)π畔⒘康拇笮〗o予有效測量。
與情景語義信息的界定不同,Mannan等(1995,1996)的研究則更加關(guān)注情景注視區(qū)域的最大亮度、最小亮度、圖像對比等物理特征,并且發(fā)現(xiàn)最大亮度、最小亮度、邊緣密度以及高空間頻次等特征對情景首次注視位置具有控制作用。Itti,Koch和Niebur(1998)則根據(jù)圖像的對比度、方向、顏色等屬性,計算情景的視覺顯著性地圖 (visual saliency map),用以模擬和預(yù)測情景瀏覽過程中的注視位置。但是,有研究者卻對此產(chǎn)生了質(zhì)疑,認為在活動任務(wù)中瀏覽意義情景時,固定位置與視覺顯著性的相關(guān)性則少得多 (Land&Hayhoe, 2001);而且知識結(jié)構(gòu)的應(yīng)用會修改自下而上的顯著性地圖,比如你已經(jīng)知道了時鐘是什么樣子 (一個帶著黑色外邊的白色表盤),那么很可能在情景瀏覽過程中就會過濾掉那些可以產(chǎn)生視覺顯著性地圖的信息 (Rao,Zelinsky,Hayhoe,&Ballard,2002)。之后Henderson(2007)的研究也指出單獨的情景表征預(yù)測注視位置要比單獨的顯著性表征要好。
3.1 “驚奇”的數(shù)學(xué)解釋
1948年,Weaver提出了驚奇指數(shù) (surprise index)的概念。他假設(shè),如果一個概率實驗有n種實現(xiàn)的方法 (Wn),與之相對應(yīng),n種可能結(jié)果的先驗概率就分別是p1,p2……pn;那么,驚奇指數(shù)就可以定義為:
SI測量的是pi與期望的平均概率E(p)之間的比值。如果pi的值比較小,而E(p)相對較大,那么,結(jié)果Qi就是一個 “驚奇”事件 (康廷虎,張豐,2013)。
之后,Shackle(1969)在決策領(lǐng)域的研究中,應(yīng)用 “潛在驚奇” (potential surprise)反映個體的信念水平,即 “個體對某一假設(shè)的信心水平,相當(dāng)于這一假設(shè)的潛在驚奇水平?!盕isk(2002)認為,如果可以確定某一事件的概率,那么就可以確定該事件的驚奇值 (surprise values),即:事件B的概率為P(B),那么,事件B的驚奇值為yB;而事件的潛在驚奇是指事件發(fā)生時我們所體驗到的驚奇程度。對于條件事件,其概率為P(A|B),潛在驚奇為y0A,其可以定義為與事件A相聯(lián)系的驚奇。y0A的變化分為兩種情況: (1)如果事件A和事件B是兩個無關(guān)或獨立事件,那么,我們對A事件發(fā)生的驚奇就不會受到事件B發(fā)生與否的影響,y0A=yA; (2)如果事件A與事件B有關(guān)聯(lián),那么事件B的發(fā)生,會降低我們對事件A發(fā)生時的驚奇,y0A<yA。
針對Weaver(1948)提出的驚奇指數(shù)及其算法,有研究者質(zhì)疑認為低概率結(jié)果往往是意料之外的,但是,并不是所有的低概率結(jié)果都會讓人覺得驚奇。因此, “驚奇”的產(chǎn)生不僅與事件的先驗概率有關(guān),而且與后驗概率分布也有關(guān) (Teigen& Keren,2003)。Evans(1997)的研究認為,對于一個模型族θ,每一個模型出現(xiàn)的可能性ti就構(gòu)成了函數(shù)T(θ);那么,與ti+1相比,如果ti更優(yōu)先,那么,從先驗到后驗,對ti信念的增加也將比ti+1大很多。反過來,這種優(yōu)先順序又可以影響決策和推斷,并可以應(yīng)用于估計、假設(shè)檢驗、模型檢測等程序當(dāng)中。在貝葉斯理論的框架下,Itti和Baldi(2005)依據(jù)香農(nóng)信息熵和KL散度,考察了事件先驗概率和后驗概率之間的相對熵,并在此基礎(chǔ)上,提出了 “驚奇”的模型。
3.2 “驚奇”模型
Itti和Baldi(2005,2009)等人試圖通過比較人們信念的先驗概率和后驗概率之間的差異,對“驚奇”進行數(shù)理學(xué)的界定。他們認為,界定 “驚奇”的原則包含兩個重要元素: (1)驚奇源于不確定性。驚奇僅存在于不確定性條件下,而不確定性主要源于隨機性、信息缺失,或者計算資源的限制。如果客觀世界是確定的,或可預(yù)期的,那么,對于觀察者而言就不存在驚奇。 (2)對驚奇的界定是相對的、主觀的,并且是與觀察者的期望相聯(lián)系的。對于不同的觀察者而言,即使是相同的數(shù)據(jù),其所具有的驚奇程度也可能不同;更有甚者,對于同一個觀察者,在不同的時間里,相同數(shù)據(jù)所引起的驚奇也可能不同。
在概率和決策理論中,關(guān)于不確定性的模型組成方式以及推理是依據(jù)貝葉斯理論的概率論的(Jaynes,2003)。此外,在貝葉斯框架下,概率對應(yīng)于被試的主觀信念程度,而這些信念是根據(jù)數(shù)據(jù)的需求而變化的。貝葉斯理論作為基礎(chǔ)性工具,可以實現(xiàn)先驗信念分布和后驗信念分布之間的轉(zhuǎn)換。因此,在最理想的理論框架里,對驚奇的界定必須包括: (1)用以解釋不確定性的概率概念; (2)用以捕捉主觀期望的先驗和后驗分布 (Itti&Baldi,2009)。
對觀察者背景信息的獲取可以通過他們關(guān)于假設(shè)或模型空間 ()里模型M的先驗概率分布。如果是抽象的高級水平,集合可能是由一系列的認知假設(shè)或關(guān)于世界的模型組成,比如說:= {明天我要去爬山;今天天氣晴朗;我的工資快發(fā)了;大家最近工作都到很晚……}。對于抽象的低級層次和單純的觀察者來說,該模型空間或許與定量的假設(shè)直接聯(lián)系,從而變得相對簡單,比如對某種色彩的建構(gòu),={大紅色較多;粉紅色較少;紫紅色最少……}。在主觀主義框架下,信念或自信的程度都是與假設(shè)或模型相聯(lián)系的,而觀察者的每一個假設(shè)或者模型M又是與似然函數(shù)P(M|D)相聯(lián)系的。具體而言,如果觀察者對數(shù)據(jù)的模型為M,其先驗概率為P(M),那么,在獲得數(shù)據(jù)集D之后會導(dǎo)致信念的重新評估。根據(jù)貝葉斯定理,先驗概率分布P(M)就轉(zhuǎn)變成一個后驗概率分布P(M|D),即:
從這個等式里可以看出,D的效應(yīng)反映的是由P(M)變成了P(M|D)的過程中信念的變化。因此,對D所攜帶信息的測量,可以用先驗分布和后驗分布之間的距離來反映。為了便于與香農(nóng)的通信信息區(qū)別,Baldi(2002)稱這一信息觀念為“驚奇”,計算如下:
公式 (2)中的d是對一個距離或相似性的測量。
實際上,對于概率分布之間距離的測量有很多不同的方法,Baldi(2002)在計算中應(yīng)用了相對熵或KL散度, “驚奇”的界定即為:
單一模型的 “驚奇”可以用log-odd表示:
“驚奇”的單位是wow,值得注意的是除非使用絕對值,否則這一比率是正還是負,取決于該觀察者的信念模型 M增加或減少 (Itti&Baldi, 2009;Baldi&Itti,2010)。
4.1 “驚奇”與情景知覺中的注意捕捉
Itti和Baldi(2009)應(yīng)用眼動技術(shù)記錄了8名被試 (女性被試3名,男性被試5名,年齡在23-32歲之間)在自然情景瀏覽過程中的眼動特征,以驗證 “驚奇”對注意的引導(dǎo)作用。在研究中,研究者為了確定被試選擇注視的圖像區(qū)域,通過輸出的反應(yīng)動態(tài)地形圖作為計算指標(biāo),實時記錄被試的反應(yīng)。這些計算指標(biāo)主要包括16×16圖像色塊的局部亮度方差、Gabor濾波測定的局部朝向邊緣密度、16×16局部圖像色塊的香農(nóng)熵、局部運動、基于孤立點的顯著性 (outlier-based saliency)及“驚奇”。其中前3項指標(biāo)主要是用來量化靜態(tài)圖片屬性,而后3項指標(biāo)主要是測量動態(tài)事件。研究結(jié)果發(fā)現(xiàn),高分數(shù)的指標(biāo)反應(yīng)區(qū)域?qū)Ρ辉嚲哂泻軓姷奈?。然而,靜態(tài)指標(biāo)在很多視覺區(qū)域均有反應(yīng),這表明這些指標(biāo)并不能明確解釋注意的選擇,并且產(chǎn)生了相對低的KL分數(shù);相比之下,用以測量動態(tài)事件的指標(biāo)更加敏感,產(chǎn)生了稀疏地圖(sparser maps)和較高的KL分數(shù)。
在研究中,研究者最為關(guān)心的驚奇指標(biāo)主要是指對圖像色塊低水平 “驚奇”的量化,其并不包括高水平的 “驚奇”或者觀察者的認知信念。確切地說,它假定圖像色塊是一個簡單模型族,每個加工都依賴于對顏色、方向、運動等較為敏感的早期特征覺察器;而且,對 “驚奇”的計算是通過關(guān)于哪個模型能更好地描述色塊信念分布的轉(zhuǎn)移來實現(xiàn)的。研究結(jié)果發(fā)現(xiàn), “驚奇”指標(biāo)明顯優(yōu)于其他的計算指標(biāo),得分比顯著性指標(biāo)高近20%,比靜態(tài)指標(biāo) (熵)要高60%。由此可見, “驚奇”對瀏覽者的注意具有引導(dǎo)性作用;而且,與香農(nóng)熵、局部運動、顯著性等指標(biāo)相比較, “驚奇”能最大程度地解釋瀏覽者的注視行為。在Mundhenk,Einhauser和Itti(2009)的研究中,他們應(yīng)用快速系列呈現(xiàn) (rapid serial visual presentation,RSVP)實驗范式,考察人們對快速呈現(xiàn)的視覺情景的覺察能力,結(jié)果也發(fā)現(xiàn)驚奇對注意具有引導(dǎo)作用,這與Itti和Baldi(2009)的研究結(jié)論一致。
4.2 “驚奇”與注意門模型
在Reeves和Sperling(1986)的研究中,在注視點的左右兩側(cè)分別系列呈現(xiàn)字母和數(shù)字,要求被試在覺察到字母序列中的靶刺激之后,盡可能快地將注意轉(zhuǎn)移到數(shù)字序列,并報告靶刺激呈現(xiàn)之后最先出現(xiàn)的4個數(shù)字刺激。研究結(jié)果發(fā)現(xiàn),被試傾向于報告靶刺激呈現(xiàn)后400ms的數(shù)字刺激,而且被試所報告的數(shù)字信息具有集群性、無序性和重疊性等特征。在此基礎(chǔ)上,研究者提出了注意門模型(attentional gating model,AG)。該模型假設(shè),在靶刺激覺察之后,注意門就會立即打開,從而使數(shù)字刺激信息進入視覺短時記憶 (visual short-term memory),之后的信息加工則取決于信息的強度和順序特征 (Reeves&Sperling,1986)。
有研究發(fā)現(xiàn),如果以圖片流的形式呈現(xiàn)圖像刺激,其中一些是靶刺激,而另外一些是干擾刺激,那么,就可能會出現(xiàn)限制快速加工 (limit rapid processing)的注意現(xiàn)象,即重復(fù)盲視 (repetition blindness)或注意瞬脫 (attentional blink)現(xiàn)象。前者是指兩個屬性相同的項目連續(xù)呈現(xiàn)時,只能覺察其中之一 (Kanswisher,1987);而后者則是當(dāng)其中第二張圖片間隔呈現(xiàn)之后,對其的注意加工會受到損傷 (Raymond,Shapiro&Arnell,1992)。因此,根據(jù)注意門模型的基本觀點,人們對序列呈現(xiàn)情景中靶刺激的覺察與識別,可能同樣受到注意門的約束,而且,對情景信息的整合也可能與情景的顯著性和呈現(xiàn)順序有關(guān)。Einhauser等人 (2007)在研究中應(yīng)用了RSVP范式。他們假設(shè),注意門的限制會影響RSVP中靶刺激的覺察,從而導(dǎo)致靶刺激識別的錯誤。在RSVP序列中,刺激驅(qū)動的高顯著性會損傷之后呈現(xiàn)的靶刺激的覺察,即高顯著性刺激項目會激活注意門,從而導(dǎo)致對之后呈現(xiàn)項目的注意損傷,可能會出現(xiàn)注視瞬脫或重復(fù)盲視現(xiàn)象。
在研究中,為了考察注意機制對覺察績效的影響,研究者應(yīng)用了兩個實驗,并根據(jù)Itti和Baldi(2009)有關(guān) “驚奇”的界定,計算了刺激序列中每一個圖片的 “驚奇”地圖,在實驗二中對每個序列中幀的順序進行了重新排列,提高了靶刺激之前、之后以及前后幀的驚奇。實驗結(jié)果顯示,對于所有被試而言,驚奇會損害他們對靶刺激的覺察,這可能是因為驚奇事件 “寄生式”地捕捉了注意以及其它用以覺察靶刺激信息或者整合視覺短時記憶的資源。這與注意瞬脫的機制基本相似,而且,與注意瞬脫相比,驚奇事件對后續(xù)項目的覺察也有損害。
Einhauser等人 (2007)的研究結(jié)果與注意門模型的基本觀點是一致的。由此看來,在靶刺激之前驚奇事件激活了注意通道,并且與靶刺激進入相同的加工階段;而在靶刺激之后的驚奇事件,則是隨著靶刺激激活注意門之后,隨之進入相同的加工階段的;在前后驚奇均提高的條件下,驚奇分心物與靶刺激存在著競爭,如果驚奇分心物足夠強大,就能夠超越靶刺激信息而進入視覺短時記憶,并損傷對靶刺激的報告。
人類的視覺系統(tǒng)能夠在很短的時間之內(nèi)獲取大量的信息,而且能夠?qū)κ挛锘蚯榫暗膶傩宰龀雠袛啵ò讓W(xué)軍等,2008)。然而,在從情景瀏覽到識別的這一過程中,瀏覽者究竟觀察到了什么,又是為何去觀察的?是基于自上而下的知識經(jīng)驗,還是自下而上的刺激物屬性呢 (Henderson,2003;Castelhano&Heaven,2011;Konkle&Oliva,2012)?這是情景知覺研究的基本理論問題?;谙闰灨怕屎秃篁灨怕手g差異,在充分考慮不確定性和主觀預(yù)期性的前提下,Itti和Baldi(2005,2009)等人提出的 “驚奇”模型,為確定情景信息及信息量的大小提供了理論解釋。已有研究結(jié)果也表明,情景“驚奇”更能吸引人們的注意 (Mundhenk,Einhauser,&Itti,2009),而且,其對情景覺察的影響也為注意門模型提供了支持。因此,在情景知覺的研究中引入和發(fā)展 “驚奇”理論及算法,可以為情景信息的注意加工探索提供新的途徑,也有助于促進情景知覺的相關(guān)理論研究。
目前,盡管一些學(xué)者已從不同方面做了初步探索,但是對于 “驚奇”的理論和應(yīng)用仍然有很多問題需要做進一步的研究?;诂F(xiàn)有有關(guān)情景知覺中“驚奇”的探索,在未來的研究中可以從以下幾個方面作進一步的探討:
第一,根據(jù)Baldi(2002)的觀點,surprise的計算還可以進一步拓展,比如非共軛以及其他類型的先驗分布,或者是更為復(fù)雜的多元分布、更為一般的分布族等。從這個意義上來看, “驚奇”的計算可以應(yīng)用用以解決復(fù)雜及多維問題的 Monte Carlometho方法,近似地估計空間模型的積分。因此,進一步探索 “驚奇”的數(shù)學(xué)算法,既有助于促進 “驚奇”理論研究的發(fā)展;同時,也會促進相關(guān)領(lǐng)域,比如真實情景知覺、人工智能、計算機模擬、神經(jīng)網(wǎng)絡(luò)模型等的研究進展。
第二,注意門模型為注意瞬脫和重復(fù)盲視現(xiàn)象提供了解釋,而其最主要的依據(jù)是人們對以信息流形式呈現(xiàn)的刺激進行視覺短時記憶加工時,會存在注意限制這一觀點。與之相反,在情景知覺的研究中,研究者已經(jīng)發(fā)現(xiàn),即使是在快速系列呈現(xiàn)的條件下,人們也會準確覺察或識別靶刺激,或者獲得情景梗概 (Fei-Fei,VanRullen,Koch,&Perona, 2002),這似乎表明,情景的快速識別并不需要特定的空間注意。盡管Einhauser(2007)等人的研究結(jié)果支持了注意門模型,但是對于情景快速識別過程中的注意加工及其機制仍需做進一步的探索,因此,基于 “驚奇”的情景識別研究尚待推進。另外,在注意加工的認知模型中,注意門模型同樣也受到了挑戰(zhàn),有研究者認為注意轉(zhuǎn)換更有利于解釋在時間上注意資源的分配,而并不是注意門的激活與否 (Lejeune,1998;Zakay,2000)。值得注意的是, “驚奇”同樣具有時間特征,其隨著時間的變化也會發(fā)生變化,因此,能否從注意轉(zhuǎn)換的視角探索情景知覺,并引入 “驚奇”將可能是情景快速識別研究的新的突破口。
第三,已有關(guān)于情景知覺中 “驚奇”的研究,都應(yīng)用自然情景作為實驗材料,以考察注意的空間特征和即時性特征,那么, “驚奇”能否應(yīng)用于社會文化情景的探索呢?目前,很多研究者已將情景知覺引入社會文化領(lǐng)域 (Birminghama&Kingstone,2009;Riby&Hancock,2008),比如在社會注意的研究中,Birminghama和Kingstone(2009)認為,在呈現(xiàn)復(fù)雜的真實社會情景條件下,通過記錄人們的眼動特征,可以揭示社會因素對眼睛注視的調(diào)節(jié)作用;并且,他們將真實社會情景的引入作為社會注意研究的重要方法。因此,如何將 “驚奇”的研究拓展至復(fù)雜社會情景知覺領(lǐng)域的探索中,對于理解社會認知、文化認同等可能具有重要的理論意義。
第四,貝葉斯定理是 “驚奇”理論模型及計算的重要前提,但是,基于貝葉斯算法的視覺優(yōu)勢區(qū)對注意引導(dǎo)的作用已經(jīng)受到了研究者的批判,而目前的質(zhì)疑也主要來自于社會情景知覺 (Henderson, Brockmole,Castelhano,&Mack,2007;Birmingham, Bischof,&Kingstone,2009)。比如,Birmingham等人就曾在研究中直接指出,視覺優(yōu)勢區(qū)并不能解釋復(fù)雜社會情景知覺過程中人們對注視對象的選擇偏見。盡管驚奇的算法主要依賴于先驗分布和后驗分布之間的距離及變化,但是,基于某種數(shù)學(xué)算法的理論模型是否能夠完全模擬情景的信息并確定信息量的大小,是否可以有效預(yù)測人們在情景知覺靶刺激覺察過程中判斷信念的主觀性變化;另外,這種算法對于解釋社會情景知覺中的自上而下的語義加工,比如社會認知偏見、刻板印象等是否有效,這些問題仍然需要做進一步的探討。
白學(xué)軍,康廷虎,閆國利.(2008).真實情景中刺激物識別的理論模型與研究回顧.心理科學(xué)進展,16(5),679-686.
康廷虎,白學(xué)軍.(2013).靶刺激變換與情景信息屬性對真實情景再認的影響.心理科學(xué),36(3),558-565.
康廷虎,白學(xué)軍.(2008).真實情景知覺中注視控制的研究進展.西北師范大學(xué)學(xué)報 (社會科學(xué)版),45(4),107-111.
康廷虎,張豐.(2013-5-27).用 “驚奇值”計算場景所含信息.中國社會科學(xué)報,B07.
劉立秋,陸勇.(2007).Linda問題: “齊當(dāng)別”抉擇模型的解釋.心理科學(xué)進展,15(5),735-747.
田宏杰,王福興,徐菲菲,申繼亮.(2010).場景知覺中物體加工的背景效應(yīng).心理科學(xué)進展,18(6),878-886.
王福興,田宏杰,申繼亮.(2009).場景知覺及其研究范式.心理科學(xué)進展,17(2),268–277.
Antes,J.R.(1974).The time course of picture viewing.Journal of Experimental Psychology,103,62-70.
Baldi,P.(2002).A computational theory of surprise.In M.Blaum,P. G.Farrell and H.C.A.van Tilborg(eds.),Information,Coding, and Mathematics(pp.1-25).Boston,MA:Kluwer Academic.
Baldi,P.,&Itti,L.(2010).Of bits and wows:A Bayesian theory of surprise with applications to attention.Neural Networks,23, 649-666.
Birmingham,E.,Bischof,W.F.,&Kingstone,A.(2009).Saliency does not account for fixations to eyes within social scenes.Vision Research,49,2992-3000.
Birmingham,E.,&Kingstone,A.(2009).Human social attention. Annals of the New York Academy of Sciences.1156(1), 118-140.
Brockmole,J.R.,&Henderson,J.M.(2008).Prioritizing new objects for eye fixation in real-world scenes:Effects of objectscene consistency.Visual Cognition,16(2),375-390.
Bulthoff,H.H.,Gillner,S.,&Mallot,H.A.,et al.(2005).Pro-ceeding of 9th Tubingen Perception Conference.Knirsch-Verlag,Kirchentellinsfurt,Germany.
Buswell,G.T.(1935).How People Look at Pictures.Chicago:U-niversity Chicago Press.
Castelhano,M.S.,&Heaven,C.(2011).Scene context influences without scene gist:Eye movements guided by spatial associations in visual search.Psychonomic Bulletin & Review,18 (5),890-896.
De Graef,P.,Christiaens,D.,&d'Ydewalle,G.(1990).Perceptual effects of scene context on object identification.Psychological Research,52,317-329.
Einhaeuser,W.,Mundhenk,T.N.,Baldi,P.F.,Koch,C.,&Itti,L. (2007).A bottom-up model of spatial attention predicts human error patterns in rapid scene recognition.Journal of Vision,7(10),1-13.
Evans,M.(1997).Bayesian inference procedures derived via the concept of relative surprise.Communications in Statistics,26 (5),1125-1143.
Fei-Fei,L.,Iyer,A.,Koch,C.,&Perona,P.(2007).What do we perceive in a glance of a real-world scene?.Journal of Vision, 7(1),10,1-29.
Fei-Fei,L.,VanRullen,R.,Koch,C.,&Perona,P.(2002).Rapid natural scene categorization in the near absence of attention. Proceedings of the National Academy of Sciences.99(14), 8378-8383.
Fisk,J.E.(2002).Judgments under uncertainty:Representativeness or potential surprise?.British Journal of Psychology,93,431-449.
Henderson,J.M.,&Hollingworth,A.(1999).High-level scene perception.Annual Review of Psychology,50,243-271.
Henderson,J.M.(2007).Regarding scenes.Current Directions in Psychological Science,16,219-222.
Henderson,J.M.(2003).Human gaze control during real-world scene perception.Trends in Cognitive Sciences,7(11),485-498.
Henderson,J.M.,Brockmole,J.R.,Castelhano,M.S.,&Mack,M. (2007).Visual saliency does not account for eye movements during visual search in real-world scenes.In R.Van Gompel, M.Fischer,W.Murray,&R.Hill(Eds.),Eye movements:A window on mind and brain(pp.537-562).Oxford:Elsevier.
Itti,L.&Baldi,P.(2005).Bayesian surprise attracts human attention.Advances in Neural Information Processing Systems,19, 547-554.
Itti,L.,&Baldi,P.(2009).Bayesian surprise attracts human attention.Vision Research,49(10),1295-1306.
Itti,L.,Koch,C.,&Niebur,E.(1998).A model of saliency-based visual attention for rapid scene analysis,IEEE Transactions on Pattern Analysis and Machine Intelligence,20(11),1254-1259.
Jaynes,E.T.(2003).Probability theory:The logic of science. Cambridge,MA:Cambridge University Press.
Kanwisher,N.G.(1987).Repetition blindness:Type recognition without token individuation.Cognition,27,117-143.
Konkle,T.&Oliva,A.(2012).A real-world size organization of object responses in occipitotemporal cortex.Neuron,74(6), 1114-1124.
Land,M.F.,&Hayhoe,M.(2001).In what ways do eye movements contribute to everyday activities?.Vision Research,41, 3559-3565.
Lejeune,H.(1998).Switching or gating?The attentional challenge in cognitive models of psychological time.Behavioural Processes,44,127-145.
Loftus,G.R.&Mackworth,N.H.(1978).Cognitive determinants of fixation location during picture viewing.Journal of Experimental Psychology:Human Perception&Performance,4,565-572.
Mackworth,N.H.,&Morandi,A.J.(1967).The gaze selects informative details within pictures.Perception&Psychophysics,2 (11),547-552.
Mannan,S.K.,Ruddock,K.H.,&Wooding,D.S.(1995).Automatic control of saccadic eye movements made in visual inspection of briefly presented 2-D images.Spatial Vision,9 (3),363-386.
Mannan,S.K.,Ruddock,K.H,&Wooding,D.S.(1996).The relationship between the locations of spatial features and those of fixations made during visual examination of briefly presented images.Spatial Vision,10(3),165-188
Matsukura,M.,Brockmole,J.R.,&Henderson,J.M.(2009).Overt attentional prioritization of new objects and feature changes during real-world scene viewing.Visual Cognition,17,835-855.
Mundhenk,T.N.,Einhauser,W.,&Itti,L.(2009).Automatic computation of an image′s statistical surprise predicts performance of human observers on a natural image detection task. Vision Research,49,1620-1637.
Rashed,C.A.A.,Bagum,N.,Khan,S.,&Hasan,M.(2011).A model on factory information system(FIS).Review of General Management,14(2),139-150.
Raymond,J.E.,Shapiro,K.L.,&Arnell,K.M.(1992).Temporary suppression of visual processing in an RSVP task:An attentional blink?.Journal of Experimental Psychology:Human Perception and Performance,18(3),849-860.
Reeves,A.,&Sperling,G.(1986).Attention gating in short-termvisual memory.Psychological Review,93(2),180-206.
Rensink,R.A.,O′Regan,J.K.,&Clark,J,J.(1997) To see or not to see:The need for attention to perceive changes in scenes.Psychological Science,8,368-373
Riby,D.M.,&Hancock,P.J.B.(2008).Viewing it differently: Socialscene perception in Williamssyndrome and Autism. Neuropsychologia,46,2855-2860.
Rao,R.P.N.,Zelinsky,G.J.,Hayhoe,M.M.,&Ballard,D.H. (2002).Eye movements in iconic visual search.Vision Research,42,1447-1463.
Shackle,G.L.S.(1969).Decision,order and time in human affairs.Cambridge:Cambridge University Press.
Teigen,K.H.,&Keren,G.(2003).Surprises:Low probabilities or high contrasts?.Cognition,87(2),55-71.
Torralba,A.,Oliva,A.,&Castelhano,M.S.,et al.(2006).Contextual guidance of eye movements and attention in real-world scenes:The role of global features in object search.Psychological Review,113(4),766-786.
V?,M.L.,&Henderson J.M.(2011).Object-scene inconsistencies do not capture gaze:Evidence from the flash-preview moving-window paradigm. Attention, Perception & Psychophysics,73(6),1742-1753.
Weaver,W.(1948).Probability,rarity,interest and surprise.Scientific Monthly,67(6),390-392.
Zakay,D.(2000).Gating or switching?Gating is a better model of prospective timing(a response to‘switching or gating?’ by Lejeune).Behavioural Processes,52,63-69.
The Definition of Information in the Scene Perception:From Subjective Expectancy to Surprise Arithmetic
Kang Tinghu,Zhang Feng
(School of Psychology,Northwest Normal University,Lanzhou 730070)
It is a key issue on how to process scene information in the high-level scene perception fields.However, the information definition varies from different researchers.During the past eight decades,the development of scene information definition experienced several approaches as researches′subjective affirmation,viewers′evaluation and computing simulations based on scene physics characteristic.Itti and Baldi(2005,2009)compared the different distribution between the prior probability and posterior probability,and developed a model of surprise. This paper introduced the application of″surprise″to the scene perception field,and analyzed the development of the relevant research progress.Finally,it noted that the extension of surprise computation,the definition of surprise,attention switching during scene perception and application of surprise in complex social scenes that need to be further explored.
scene perception,information,subjective expectancy,surprise.
B842.2
2014-08-18
國家社會科學(xué)基金項目 (13CSH074)。
康廷虎,E-mail:kangyan313@126.com。