• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      自然場(chǎng)景的識(shí)別及其理論模型*

      2019-09-03 09:00:30
      應(yīng)用心理學(xué) 2019年3期
      關(guān)鍵詞:加工過(guò)程信息

      (浙江大學(xué)心理與行為科學(xué)系,杭州 310028)

      1 前 言

      自然場(chǎng)景(nature scene)是指由空間分布合理的背景和離散的客體構(gòu)成的真實(shí)環(huán)境的連貫圖像(Henderson & Hollingworth,1999)。以往研究發(fā)現(xiàn),人類對(duì)場(chǎng)景圖片的信息提取和處理能力非常出色。我們既能夠?qū)焖俪尸F(xiàn)的自然場(chǎng)景圖片中的客體信息進(jìn)行辨認(rèn)和命名(Potter,1976;Thorpe,Fize,& Marlot,1996;LoBue & Deloache,2008),也能夠?qū)焖俪尸F(xiàn)的不同類別的自然場(chǎng)景圖片進(jìn)行分類(Torralbo et al.,2013),還能夠快速探測(cè)自然場(chǎng)景中的深度信息、場(chǎng)景功能等社會(huì)信息(Gajewski,Philbeck,Pothier,& Chichka,2010;Greene & Oliva,2009)。人類視覺(jué)系統(tǒng)如此高效快速的自然場(chǎng)景識(shí)別能力引起了相關(guān)領(lǐng)域研究學(xué)者們的廣泛興趣。

      本文首先總結(jié)并詳細(xì)地闡述了人類視覺(jué)系統(tǒng)在處理自然場(chǎng)景時(shí)的主要特征,然后結(jié)合新近的認(rèn)知神經(jīng)科學(xué)研究,系統(tǒng)地介紹關(guān)于自然場(chǎng)景識(shí)別的特異性腦區(qū)及其簡(jiǎn)要關(guān)系。在此基礎(chǔ)上,文章進(jìn)一步整理了以往研究者針對(duì)自然場(chǎng)景識(shí)別所提出的認(rèn)知模型和計(jì)算模型,論述各個(gè)模型對(duì)自然場(chǎng)景識(shí)別領(lǐng)域的貢獻(xiàn)和不足,以助于未來(lái)自然場(chǎng)景識(shí)別領(lǐng)域的相關(guān)研究。

      2 自然場(chǎng)景識(shí)別的主要特征

      2.1 自然場(chǎng)景識(shí)別的快速性

      人們能夠從復(fù)雜的自然場(chǎng)景中準(zhǔn)確快速地提取場(chǎng)景的主題(gist)信息。

      一方面,人類可以迅速準(zhǔn)確地從眾多干擾刺激中識(shí)別目標(biāo)刺激。早期研究發(fā)現(xiàn),當(dāng)場(chǎng)景圖像以每秒8張的速度進(jìn)行快速序列呈現(xiàn)(rapid serial visual presentation,RSVP)時(shí),即使在序列開(kāi)始呈現(xiàn)之前只給被試有關(guān)目標(biāo)場(chǎng)景主題的簡(jiǎn)單文字描述,他們也能準(zhǔn)確地識(shí)別出目標(biāo)刺激(Potter,1975)。Potter等人(2014)將RSVP的實(shí)驗(yàn)條件設(shè)置為每張場(chǎng)景圖像呈現(xiàn)13~80ms,連續(xù)呈現(xiàn)6或12張,然后要求被試判斷描述的目標(biāo)場(chǎng)景是否出現(xiàn)在呈現(xiàn)序列中。結(jié)果發(fā)現(xiàn),即使在呈現(xiàn)時(shí)間最短的13ms條件下,無(wú)論關(guān)于目標(biāo)場(chǎng)景的描述是出現(xiàn)在序列呈現(xiàn)之前還是全部呈現(xiàn)完成之后給出,被試對(duì)目標(biāo)檢測(cè)的準(zhǔn)確率都顯著高于隨機(jī)水平,說(shuō)明即使刺激只呈現(xiàn)13ms,被試也能夠?qū)π蛄兄械乃写碳みM(jìn)行快速加工。

      另一方面,人類能夠快速地提取自然場(chǎng)景中的有效信息,并做出正確選擇。Thorpe等人(1996)采用經(jīng)典的go/no-go動(dòng)物分類范式,在場(chǎng)景圖像快速閃現(xiàn)20ms的條件下,讓被試判斷所呈現(xiàn)場(chǎng)景中是否包含動(dòng)物,同時(shí)記錄被試的腦電活動(dòng)。對(duì)有動(dòng)物出現(xiàn)的場(chǎng)景,觀察者可能只需對(duì)動(dòng)物出現(xiàn)的區(qū)域或動(dòng)物的一些顯著特征進(jìn)行檢測(cè),但對(duì)沒(méi)有動(dòng)物出現(xiàn)的試次,觀察者必須加工整個(gè)場(chǎng)景之后才能做出正確的判斷。因此,相較于沒(méi)有動(dòng)物出現(xiàn)的情況,沒(méi)有動(dòng)物的目標(biāo)場(chǎng)景在150ms左右仍有劇烈的腦電活動(dòng),主要表現(xiàn)為額葉區(qū)域的負(fù)差異波(frontal negativity)。而Kirchner和Thorp(2006)則采用眼動(dòng)追蹤的方法探究這一問(wèn)題。他們要求被試完成掃視迫選任務(wù)(forced-choice saccade task),判斷并列呈現(xiàn)的兩個(gè)場(chǎng)景圖像中哪一個(gè)有動(dòng)物出現(xiàn),眼動(dòng)數(shù)據(jù)的結(jié)果顯示被試可以在刺激呈現(xiàn)后120ms內(nèi)做出正確的選擇。

      除了人類,狒狒、恒河猴甚至是絨猴等靈長(zhǎng)類也可以快速完成自然場(chǎng)景的分類任務(wù)(Roberts & Mazmanian,1988;Fabre-Thorpe,Richard,& and Thorpe,1998;Martin-Malivel & Fagot,2001;Minamimoto,Saunders,& and Richmond,2010)。在go/no-go動(dòng)物分類任務(wù)條件下,猴子被試的準(zhǔn)確率雖然稍微低于人類被試,但反應(yīng)速度比人類更快。從生物進(jìn)化的角度來(lái)看,人類快速場(chǎng)景識(shí)別的能力可能是由于長(zhǎng)期處理復(fù)雜多變的自然場(chǎng)景而慢慢演化來(lái)的。

      2.2 自然場(chǎng)景識(shí)別的低耗能性

      人類的注意資源是有限的(Chun,Golomb,& Turk-Browne,2011)。日常生活經(jīng)驗(yàn)顯示,當(dāng)將注意資源集中在其它位置時(shí),即使是場(chǎng)景中非常明顯的信息或變化,個(gè)體也會(huì)對(duì)其“視而不見(jiàn)”,而只有那些已經(jīng)達(dá)到自動(dòng)化加工水平的信息才能在注意資源匱乏的條件下被注意到。Greene和Fei-Fei(2014)采用Stroop范式的變式,將文字呈現(xiàn)在場(chǎng)景圖片或物體圖片之上,文字所描述的含義可能與圖片內(nèi)容相同或相反,要求被試忽略背景圖片的內(nèi)容,判斷文字的含義所描述的是場(chǎng)景還是物體。結(jié)果發(fā)現(xiàn),當(dāng)圖片內(nèi)容與文字的含義類別不一致時(shí),文字含義的分類任務(wù)受到干擾,從而推斷場(chǎng)景識(shí)別是自動(dòng)化加工完成的。這也印證了之前的一些研究結(jié)果(Grill-Spector & Kanwisher,2005;Thorpe et al.,1996)。此外,F(xiàn)ei-Fei、VanRullen、Koch和Perona(2002)采用雙任務(wù)研究范式,要求被試在完成中央視覺(jué)的字符分類任務(wù)的同時(shí),完成呈現(xiàn)在外周視覺(jué)的自然場(chǎng)景分類任務(wù)。實(shí)驗(yàn)結(jié)果表明,自然場(chǎng)景圖像的快速視覺(jué)分類在雙任務(wù)條件下與單任務(wù)條件下相比并沒(méi)有顯著差異。因此,研究者推斷,完成場(chǎng)景識(shí)別的過(guò)程只需要很少甚至不需要中央視覺(jué)注意。然而,對(duì)于這一結(jié)果,Cohen、Alvarez和Nakayama(2011)認(rèn)為,在前述研究中,干擾任務(wù)(字符分類任務(wù))過(guò)于簡(jiǎn)單,因此仍然有足夠的注意資源分配到場(chǎng)景識(shí)別任務(wù),因此后者的績(jī)效與單獨(dú)任務(wù)條件相似。他們結(jié)合多物體追蹤任務(wù)(multiple-object tracking,MOT)與RSVP范式,發(fā)現(xiàn)雙任務(wù)條件顯著影響了場(chǎng)景識(shí)別任務(wù)的績(jī)效,從而推斷快速場(chǎng)景識(shí)別過(guò)程仍然依賴于注意參與。為了進(jìn)一步探討這一問(wèn)題,Sun等人(2017)也采用了雙任務(wù)范式,要求被試首先判斷左右呈現(xiàn)的一組詞匯是否為同一類別(詞匯判斷),然后判斷隨后出現(xiàn)在同一位置的一組圖片中哪張圖片中包含動(dòng)物(快速場(chǎng)景識(shí)別)。結(jié)果發(fā)現(xiàn),相較于僅需要快速場(chǎng)景識(shí)別的情況(單任務(wù)),雙任務(wù)情況下被試對(duì)場(chǎng)景圖片的辨別力(d’)顯著降低,說(shuō)明干擾任務(wù)對(duì)注意資源的占用還是會(huì)一定程度上影響場(chǎng)景識(shí)別。

      總的來(lái)說(shuō),當(dāng)場(chǎng)景圖片刺激作為干擾刺激時(shí),場(chǎng)景識(shí)別能夠自動(dòng)化發(fā)生,從而影響實(shí)驗(yàn)任務(wù)的績(jī)效。研究者通過(guò)雙任務(wù)范式進(jìn)一步發(fā)現(xiàn),當(dāng)高難度的干擾任務(wù)占用大量注意資源后,場(chǎng)景識(shí)別任務(wù)的績(jī)效也會(huì)受到影響,說(shuō)明場(chǎng)景識(shí)別還是需要一定的注意資源的參與。

      3 場(chǎng)景識(shí)別的特異性腦區(qū)及其神經(jīng)機(jī)制

      為了進(jìn)一步理清人類的大腦是如何如此快速且低能耗地完成自然場(chǎng)景識(shí)別,相關(guān)領(lǐng)域的學(xué)者們展開(kāi)了一系列認(rèn)知神經(jīng)科學(xué)研究,以此來(lái)了解場(chǎng)景識(shí)別的神經(jīng)基礎(chǔ)。研究發(fā)現(xiàn),人類大腦中與自然場(chǎng)景識(shí)別有關(guān)的特定腦區(qū)主要包括旁海馬位置區(qū)(parahippocampal place area,PPA)、枕葉位置區(qū)(occipital place area)和扣帶回的壓后皮層(retrosplenial complex,RSC)。fMRI研究顯示,位于旁海馬皮層(parahippocampal cortex,PHC)中的旁海馬位置區(qū)(PPA)是大腦皮層中對(duì)視覺(jué)場(chǎng)景信息反應(yīng)最強(qiáng)烈的區(qū)域(Epstein & Ward,2010),在場(chǎng)景識(shí)別過(guò)程中有著不可缺少的作用。這一區(qū)域的腦區(qū)受損,將會(huì)干擾病人對(duì)簡(jiǎn)單場(chǎng)景的辨認(rèn)(Mendez & Cherrier,2003)。Dilks等人(2013)也發(fā)現(xiàn)枕葉位置區(qū)(occipital place area,OPA)也與場(chǎng)景識(shí)別有關(guān)(Dilks,Julian,Paunov,& Kanwisher,2013)。他們采用TMS技術(shù)分別干擾了被試右側(cè)OPA(rOPA)和負(fù)責(zé)面孔知覺(jué)的右側(cè)枕葉區(qū)(right occipital face area,rOFA),然后要求被試完成場(chǎng)景和面孔圖像的分類任務(wù)。結(jié)果發(fā)現(xiàn),對(duì)rOPA進(jìn)行干擾只會(huì)影響場(chǎng)景辨別任務(wù)而不會(huì)影響面孔識(shí)別任務(wù),說(shuō)明rOPA僅與場(chǎng)景識(shí)別過(guò)程有關(guān)。

      在場(chǎng)景識(shí)別過(guò)程中,特別是針對(duì)場(chǎng)景中主要客體的識(shí)別,對(duì)于兩張同時(shí)出現(xiàn)的物體圖片(如茶壺),我們能夠快速準(zhǔn)確地判斷它們是否為同一物體。即使兩張圖片是同一物體的鏡像圖像,我們也能輕松地判斷它們兩張圖片呈現(xiàn)的是同一物體。研究發(fā)現(xiàn),RSC和OPA兩個(gè)區(qū)域?qū)?chǎng)景圖片的鏡像關(guān)系非常敏感,而PPA則對(duì)這樣的場(chǎng)景結(jié)構(gòu)信息并不敏感(Dilks,Julian,Kubilius,Spelke,& Kanwisher,2011)。而且,OPA對(duì)于場(chǎng)景信息中的客體信息加工還有更加獨(dú)特的作用。OPA主要負(fù)責(zé)某一客體是否存在,以及有多少客體出現(xiàn)在當(dāng)前場(chǎng)景中,而RSC和OPA則對(duì)場(chǎng)景圖片中的這些客體信息并不敏感,它們對(duì)整個(gè)場(chǎng)景的整體布局的敏感性更高(Kamps,Julian,Kubilius,Kanwisher,& Dilks,2016)

      我們?cè)诂F(xiàn)實(shí)生活中一直會(huì)利用周邊的環(huán)境信息提取有效的導(dǎo)航線索,從而指導(dǎo)自己的行動(dòng)。研究表明,PPA、OPA以及RSC一起承擔(dān)了場(chǎng)景中導(dǎo)航信息的提取和加工(Epstein,2008;Marchette,Vass,Ryan,& Epstein,2014)。為了進(jìn)一步理清三個(gè)區(qū)域在導(dǎo)航信息加工過(guò)程中的相互關(guān)系,Persichetti和Dilks(2016)發(fā)現(xiàn)RSC和OPA能夠很好地幫助我們處理以自我為中心的距離信息(egocentric distance information)的處理,使得我們對(duì)其他物體之間的距離有一個(gè)較好的心理預(yù)估,而PPA則并不負(fù)責(zé)這方面的信息加工。PPA更多地與導(dǎo)航信息的動(dòng)態(tài)處理有關(guān)系(Kamps,Lall,& Dilks,2016)。研究發(fā)現(xiàn),相較于一組隨機(jī)排列的場(chǎng)景信息圖片,一組按事件發(fā)生順序呈現(xiàn)的圖片會(huì)使得被試的PPA區(qū)域的活動(dòng)更加強(qiáng)烈,說(shuō)明PPA區(qū)域?qū)?chǎng)景信息的實(shí)時(shí)加工有著重要作用。

      4 自然場(chǎng)景識(shí)別的理論模型

      為了更好地理解自然場(chǎng)景識(shí)別的機(jī)制,加深對(duì)自然場(chǎng)景識(shí)別的理解,本節(jié)分別從認(rèn)知模型與計(jì)算模型兩個(gè)層面總結(jié)了當(dāng)前場(chǎng)景識(shí)別的一些理論和模型。

      4.1 自然場(chǎng)景識(shí)別的認(rèn)知模型:前饋模型與反饋模型

      由于完成場(chǎng)景識(shí)別加工過(guò)程中所需的時(shí)間非常短,因此很多研究者認(rèn)為在對(duì)自然場(chǎng)景的快速加工時(shí),人類的視覺(jué)系統(tǒng)依賴由刺激驅(qū)動(dòng)的前饋加工(feed-forward processing)。為了進(jìn)一步理清自然場(chǎng)景識(shí)別過(guò)程中各階段的加工差異,國(guó)內(nèi)外學(xué)者針對(duì)自然場(chǎng)景識(shí)別的不同階段進(jìn)行了一系列研究(Wyatte,Jilk,& O’Reilly,2014)。

      視覺(jué)場(chǎng)景信息需要經(jīng)過(guò)多層次神經(jīng)元的加工,每一階段都需要一定的時(shí)間(Serre,Oliva,& Poggio,2007)。生理學(xué)研究顯示,在場(chǎng)景識(shí)別的早期階段,視覺(jué)信號(hào)從刺激呈現(xiàn)并投射到視網(wǎng)膜開(kāi)始,經(jīng)過(guò)40~60ms的時(shí)間到達(dá)初級(jí)視覺(jué)區(qū)域(V1區(qū))(DiCarlo,Zoccolan,& Rust,2012;Tapia & Beck,2014),再經(jīng)由腹側(cè)通路分別通過(guò)V2、V4區(qū),在刺激呈現(xiàn)后100ms左右的時(shí)間到達(dá)下顳葉皮層(inferior temporal cortex,IT)區(qū)域(如圖1中a~c所示)。研究表明,下顳葉皮質(zhì)能夠完成初步的特征整合(Serre,Oliva,& Poggio,2007)。上文提到的眼動(dòng)研究顯示,在刺激呈現(xiàn)后120ms內(nèi),觀察者已經(jīng)可以完成對(duì)快速場(chǎng)景的分類(Kirchner & Thorpe,2006)。腦電研究結(jié)果也顯示,快速的場(chǎng)景識(shí)別與判斷最早可在刺激呈現(xiàn)后150ms內(nèi)完成(Thorpe,Fize,& Marlot,1996)。因此,很多研究者認(rèn)為,在這么短的時(shí)間內(nèi),自上而下的反饋信息應(yīng)該還未形成,即刺激呈現(xiàn)之后的最早一波進(jìn)入視覺(jué)系統(tǒng)的前饋(feedforward sweep)信息已經(jīng)足以完成對(duì)場(chǎng)景的快速識(shí)別(Fabre-Thorpe,2011;Romeo & Supèr,2014)。Serre、Oliva和Poggio(2007)據(jù)此提出前饋模型(feedforward architecture)來(lái)解釋快速場(chǎng)景識(shí)別,該模型認(rèn)為視覺(jué)信號(hào)通過(guò)腹側(cè)通路中自下而上的前饋過(guò)程已足以完成對(duì)場(chǎng)景的快速識(shí)別。

      支持早期場(chǎng)景識(shí)別前饋模型的研究者認(rèn)為,在快速視覺(jué)分類任務(wù)中存在一個(gè)最小反應(yīng)時(shí)(minimal reaction time,MinRT),即個(gè)體剛好能做出正確反應(yīng)所需要的最短時(shí)間(Fabre-Thorpe,2011)。如果早期場(chǎng)景識(shí)別受到自上而下的經(jīng)驗(yàn)和預(yù)期等因素的影響,那么通過(guò)學(xué)習(xí)和訓(xùn)練等操作來(lái)增加觀察者對(duì)場(chǎng)景刺激的熟悉度,應(yīng)該能夠縮短MinRT。而實(shí)驗(yàn)結(jié)果顯示,MinRT在不同的刺激類型和不同任務(wù)條件下表現(xiàn)非常穩(wěn)定,即使被試經(jīng)過(guò)反復(fù)訓(xùn)練,對(duì)刺激材料非常熟悉的情況下,MinRT也沒(méi)顯著減小(Fabre-Thorpe,Delorme,Marlot,& Thorpe,2001)。因此,這一結(jié)果支持早期場(chǎng)景識(shí)別的前饋模型。

      圖1 前饋與反饋過(guò)程中視覺(jué)信息傳遞的時(shí)間進(jìn)程(Wyatte,Jilk,& O’Reilly,2014)

      場(chǎng)景識(shí)別的前饋模型也得到了來(lái)自神經(jīng)生理學(xué)、計(jì)算視覺(jué)與行為認(rèn)知實(shí)驗(yàn)等許多研究的支持。相關(guān)研究認(rèn)為,注意和策略等反饋(feedback)信息是從較高級(jí)的前額葉(prefrontal cortex,PFC)區(qū)域自上而下地影響較低級(jí)視覺(jué)區(qū)域的加工過(guò)程的。但是,這一自上而下的信號(hào)最早需要在刺激呈現(xiàn)后150~170ms才能傳回早期視覺(jué)區(qū)域(如圖1中的f所示)。一些研究甚至認(rèn)為這一時(shí)間需要200~300ms(Wyatte,Jilk,& O’Reilly,2014)。因此,這些研究均表明,自上而下的反饋信息在傳遞回較低視覺(jué)區(qū)域之前,被試可能已經(jīng)完成了早期的場(chǎng)景識(shí)別過(guò)程,如場(chǎng)景的特征整合。

      然而,除了從高級(jí)區(qū)域發(fā)起的反饋傳遞之外,Dehaene、Changeux、Naccache、Sackur和Sergent(2006)以及Lamme(2006)的研究均發(fā)現(xiàn),在腹側(cè)通路中存在一些局部范圍內(nèi)、距離較短的往復(fù)循環(huán)加工過(guò)程(local recurrent processing,如圖1中的d~e所示),這些局部反饋加工過(guò)程無(wú)論是在出現(xiàn)的時(shí)間還是在功能上,都與后期反饋信號(hào)不同(Wyatte et al.,2014)。雖然有許多研究認(rèn)為快速場(chǎng)景識(shí)別可能僅通過(guò)刺激驅(qū)動(dòng)的前饋過(guò)程就足以完成,但是并不能完全排除局部反饋過(guò)程在早期場(chǎng)景識(shí)別中的作用。Camprodon、Zohary、Brodbeck和Pascual-Leone(2010)采用TMS技術(shù)在不同的時(shí)間點(diǎn)干擾枕葉部位(V1)的活動(dòng),同時(shí)要求被試完成視覺(jué)分類任務(wù),結(jié)果分別在100ms和220ms兩個(gè)時(shí)間點(diǎn)上對(duì)被試產(chǎn)生了顯著的影響,研究者當(dāng)時(shí)認(rèn)為100ms時(shí)干擾的是前饋加工過(guò)程,而220ms時(shí)干擾的是局部反饋過(guò)程。隨著對(duì)局部反饋過(guò)程研究的深入,以及結(jié)合以往研究者的成果(Corthout,Uttl,Walsh,Hallett,& Cowey,1999;Corthout,Uttl,Ziemann,Cowey,& Hallett,1999),Wyatte等人(2013)認(rèn)為,100ms左右剛好是IT加工完成的時(shí)間點(diǎn),這時(shí)干擾的可能是自然場(chǎng)景分類的局部反饋過(guò)程,而220ms時(shí)的反饋干擾則來(lái)自于高級(jí)皮層。Koivisto、Railo、Revonsuo、Vanni和Salminen-Vaparanta(2011)采用fMRI與TMS相結(jié)合的方法,發(fā)現(xiàn)在較高層視覺(jué)區(qū)域被激活之后,V1/V2等較低級(jí)視覺(jué)區(qū)域的活動(dòng)仍然會(huì)對(duì)場(chǎng)景分類產(chǎn)生影響,因此V1/V2在完成視覺(jué)信號(hào)的前饋傳遞之后,可能還承擔(dān)了接收反饋信號(hào)的功能。另外,在功能上,視覺(jué)初級(jí)皮層只能完成朝向、顏色等簡(jiǎn)單特征的處理,而下顳葉皮質(zhì)能夠完成初步的特征整合(Serre,Oliva,& Poggio,2007)。

      至于與后期反饋密切相關(guān)的前額葉皮質(zhì),則還會(huì)牽涉到更高級(jí)的記憶、經(jīng)驗(yàn)、期望等自上而下的因素。人類的視覺(jué)預(yù)期分為兩類:結(jié)構(gòu)性預(yù)期(structural expectation)和上下文預(yù)期(contextual expectation)(Seriès & Seitz,2013)。結(jié)構(gòu)性預(yù)期主要反映個(gè)體長(zhǎng)期處在真實(shí)自然場(chǎng)景中所積累下來(lái)的知識(shí)經(jīng)驗(yàn),或者是天生具備的某些傾向性的特質(zhì)。例如,當(dāng)觀察一幅場(chǎng)景圖片時(shí),個(gè)體會(huì)默認(rèn)圖片中的光線是來(lái)自位于上方的光源(Kerrigan & Adams,2013)。上下文預(yù)期則反映空間或時(shí)間上相鄰近的環(huán)境信息使個(gè)體對(duì)其他刺激產(chǎn)生預(yù)期。經(jīng)驗(yàn)與預(yù)期對(duì)知覺(jué)過(guò)程主要會(huì)影響影響知覺(jué)加工的績(jī)效和視覺(jué)刺激的主觀感知。在非最佳觀察條件下,如目標(biāo)刺激被遮擋(Wyatte,Curran,& O’Reilly,2012),或目標(biāo)與觀察者之間的距離太遠(yuǎn)(Serre et al.,2007),此時(shí)對(duì)目標(biāo)場(chǎng)景的快速知覺(jué)則需要借助于反饋信息。研究發(fā)現(xiàn),由詞匯傳遞的類別信息能夠提升個(gè)體對(duì)快速呈現(xiàn)的原始自然場(chǎng)景圖片的辨別(Stein & Peelen,2015,2017)。進(jìn)一步的研究發(fā)現(xiàn),即使目標(biāo)場(chǎng)景圖片的低空間頻率信息或者高空間頻率信息被刪除,這一啟動(dòng)效應(yīng)依然存在(Sun,Zhang,& Wu,2017)。Greene、Botros、Beck和Fei-Fei(2015)讓被試主觀描述的方法,比較了對(duì)“不可能”場(chǎng)景(如一場(chǎng)水底的記者發(fā)布會(huì))與正常場(chǎng)景之間主觀描述的差異。結(jié)果發(fā)現(xiàn),兩組圖片盡管從低水平的視覺(jué)特征上無(wú)法被區(qū)分,但“不可能”場(chǎng)景圖片更難被描述出來(lái),也更難將其分類,同時(shí)在有噪音存在的條件下更難被覺(jué)察到。這些結(jié)果說(shuō)明,人類快速知覺(jué)場(chǎng)景的能力存在一定的限制,早期知覺(jué)過(guò)程會(huì)受先前視覺(jué)經(jīng)驗(yàn)的影響。除此之外,研究還發(fā)現(xiàn),自上而下的反饋信息會(huì)導(dǎo)致個(gè)體在場(chǎng)景識(shí)別過(guò)程中由于任務(wù)不同產(chǎn)生不同的知覺(jué)加工方式(Wu,Wick,& Pomplun,2014),而那些與任務(wù)無(wú)關(guān)的區(qū)域,即使擁有更多突顯的特征,也很少受到關(guān)注(Borji & Itti,2013)。

      4.2 自然場(chǎng)景識(shí)別的計(jì)算模型

      除了從認(rèn)知和生理學(xué)的角度探究場(chǎng)景識(shí)別的機(jī)制外,以往研究者也提出了許多計(jì)算模型(computational model),試圖解釋場(chǎng)景識(shí)別這一信息加工過(guò)程背后的算法(DiCarlo et al.,2012)。

      場(chǎng)景識(shí)別的計(jì)算模型從應(yīng)用的角度大致可以分為兩類:一類用于輔助場(chǎng)景識(shí)別的認(rèn)知與生理學(xué)研究,擬合和驗(yàn)證認(rèn)知模型或者生理學(xué)研究的結(jié)果,從而模擬人類大腦對(duì)場(chǎng)景識(shí)別的加工方式和過(guò)程;另一類主要是從計(jì)算視覺(jué)(computational vision)以及實(shí)際應(yīng)用的角度出發(fā),試圖用計(jì)算的方法理解自然場(chǎng)景,并最終讓場(chǎng)景識(shí)別的計(jì)算模型通過(guò)圖靈測(cè)試(Turing test for scene understanding)。場(chǎng)景識(shí)別的圖靈測(cè)試是指:針對(duì)一張描繪自然場(chǎng)景的圖片,人類測(cè)試者提出關(guān)于這一場(chǎng)景的若干問(wèn)題,由機(jī)器(場(chǎng)景識(shí)別的計(jì)算模型)作出回答,如果測(cè)試者無(wú)法根據(jù)回答的內(nèi)容區(qū)分出回答者是機(jī)器還是人類,則認(rèn)為該機(jī)器通過(guò)圖靈測(cè)試(Xiao et al.,2013)。雖然研究者提出各種計(jì)算模型的出發(fā)點(diǎn)不同,但最終的目的都是為了更好地理解場(chǎng)景識(shí)別的原理及機(jī)制,而本文則主要闡述自然場(chǎng)景識(shí)別的計(jì)算模型是如何處理認(rèn)知模型中所涉及的自上而下和自下而上的信息加工過(guò)程。

      與自然場(chǎng)景識(shí)別的早期認(rèn)知研究領(lǐng)域類似,研究者最初常根據(jù)底層的物理屬性和特征來(lái)描述視覺(jué)過(guò)程,并據(jù)此建立對(duì)視覺(jué)場(chǎng)景的表征,然后將其運(yùn)用到復(fù)雜的決策判斷(Marr,1982)。因此,一直以來(lái)很多研究者提出的計(jì)算模型,其本質(zhì)都是從場(chǎng)景圖像中提取有用的特征或?qū)傩?描述符,descriptors),然后據(jù)此構(gòu)建場(chǎng)景識(shí)別的計(jì)算模型(表征),后者經(jīng)過(guò)機(jī)器學(xué)習(xí)(machine learning)等訓(xùn)練,最終達(dá)到對(duì)陌生場(chǎng)景圖像識(shí)別和分類的目的。

      Oliva與Torralba(2001)提出了空間包絡(luò)模型(spatial envelope),認(rèn)為場(chǎng)景圖像由五種感知屬性構(gòu)成:自然度(naturalness)、開(kāi)放度(openness)、粗糙度(roughness)、擴(kuò)展度(expansion)與平整度(ruggedness)。他們通過(guò)對(duì)這些全局結(jié)構(gòu)屬性(global configuration)的提取與應(yīng)用,可在不識(shí)別場(chǎng)景局部特征及所包含物體的含義的條件下,直接完成對(duì)場(chǎng)景的識(shí)別。Fei-Fei和Perona(2005)借鑒了自然語(yǔ)言處理(natural language processing,NLP)中用于提取文檔主題的詞袋模型(bag-of-words model,BoW),提出了另外一種特征描述符。這種詞袋模型將自然場(chǎng)景圖像看作是“文檔(document)”,而將組成圖像的局部色塊(local patches)看作是文檔中的“詞匯(words)”。在進(jìn)行場(chǎng)景識(shí)別時(shí),通過(guò)提取場(chǎng)景的“特征詞匯(feature words)”,就可以得出場(chǎng)景所描述的內(nèi)容或主題信息。Walther和Shen(2014)也試圖考察人類為何能高效地完成對(duì)自然場(chǎng)景的知覺(jué)加工,即究竟依賴于場(chǎng)景中的哪些特征信息?他們采用行為實(shí)驗(yàn)與計(jì)算模型相結(jié)合的方法進(jìn)行研究,提出對(duì)自然場(chǎng)景的識(shí)別依賴于邊緣曲度(curvature)和非偶然結(jié)點(diǎn)(nonaccidental junction)等特征屬性。通過(guò)將計(jì)算模型與行為實(shí)驗(yàn)的結(jié)果相對(duì)比,他們發(fā)現(xiàn),當(dāng)場(chǎng)景圖像中的這些屬性受到干擾時(shí),人類被試的行為與計(jì)算模型表現(xiàn)出相似的錯(cuò)誤模式(error pattern)。

      然而這些模型主要反映場(chǎng)景信息的物理特征,并沒(méi)有對(duì)自然場(chǎng)景識(shí)別過(guò)程中一些自上而下的反饋信息進(jìn)行研究。因此,另一些研究者還從場(chǎng)景的語(yǔ)義(semantic)角度進(jìn)行考察,認(rèn)為場(chǎng)景的主題或類別信息是由組成場(chǎng)景的物體所決定的。例如,當(dāng)場(chǎng)景中同時(shí)出現(xiàn)桌子、椅子和黑板時(shí),則該場(chǎng)景屬于教室場(chǎng)景的概率就很高。

      場(chǎng)景識(shí)別的概率推斷模型其理論基礎(chǔ)可追溯到赫爾姆霍茲所提出視知覺(jué)的“無(wú)意識(shí)推斷(unconscious inference)”理論。后者認(rèn)為,視知覺(jué)過(guò)程是個(gè)體根據(jù)過(guò)往經(jīng)驗(yàn)對(duì)視網(wǎng)膜傳來(lái)的信息進(jìn)行補(bǔ)充,從而做出無(wú)意識(shí)推斷的過(guò)程(Westheimer,2008)。許多數(shù)學(xué)心理學(xué)家和計(jì)算機(jī)科學(xué)家都支持這一觀點(diǎn),認(rèn)為對(duì)復(fù)雜自然場(chǎng)景圖像的理解就是一個(gè)基于貝葉斯概率模型進(jìn)行概率推斷的過(guò)程(Purves,Monson,Sundararajan,& Wojtach,2014)。

      根據(jù)貝葉斯理論,后驗(yàn)概率(posterior probability,P(H|D))是在當(dāng)前視覺(jué)輸入數(shù)據(jù)為D的情況下對(duì)場(chǎng)景做出假設(shè)H的概率。后驗(yàn)概率的大小是個(gè)體對(duì)場(chǎng)景做出決策的依據(jù)。

      根據(jù)貝葉斯公式,后驗(yàn)概率為:

      其中,P(D)是當(dāng)前場(chǎng)景圖像(視覺(jué)輸入數(shù)據(jù))出現(xiàn)的概率,通常為標(biāo)準(zhǔn)化常量;P(H)稱為先驗(yàn)概率(prior probability),代表個(gè)體根據(jù)以往的知識(shí)經(jīng)驗(yàn)對(duì)假設(shè)H出現(xiàn)可能性做出的估計(jì);P(D|H)稱為相似度(likelihood),指假設(shè)H成立的條件下出現(xiàn)場(chǎng)景圖像D的概率。貝葉斯模型指出,個(gè)體對(duì)當(dāng)前場(chǎng)景的認(rèn)知是由以往知識(shí)經(jīng)驗(yàn)和當(dāng)前場(chǎng)景信息共同決定的。

      以往行為研究顯示,個(gè)體在自然場(chǎng)景中搜索物體時(shí)會(huì)盡量使用上下文信息,同時(shí)場(chǎng)景的語(yǔ)義內(nèi)容、場(chǎng)景中物體同時(shí)出現(xiàn)的統(tǒng)計(jì)規(guī)律以及任務(wù)限制等都會(huì)影響個(gè)體對(duì)自然場(chǎng)景識(shí)別和加工的方式。Torralba、Oliva、Castelhano和Henderson(2006)將場(chǎng)景整體特征(global features)與局部特征(local features)納入到同一個(gè)貝葉斯框架,并由此提出了背景引導(dǎo)模型(contextual guidance model),具體見(jiàn)圖2。

      圖2 背景引導(dǎo)模型示意圖

      該模型認(rèn)為,場(chǎng)景信息的加工存在兩條信息加工通道,分別加工局部特征和整體特征。其中,局部特征加工通道主要處理顏色和運(yùn)動(dòng)方向等容易凸顯的視覺(jué)優(yōu)勢(shì)信息;整體特征加工通路主要提取場(chǎng)景的整體特征以激活已有的知識(shí)經(jīng)驗(yàn),并由此調(diào)節(jié)注意與視覺(jué)搜索的方向。該模型假設(shè),個(gè)體在搜索場(chǎng)景中的目標(biāo)時(shí),會(huì)根據(jù)概率P(O,X│I)推斷目標(biāo)是否出現(xiàn)。其中,O=1表示有目標(biāo)出現(xiàn),O=0表示目標(biāo)刺激沒(méi)有出現(xiàn);X表示目標(biāo)刺激出現(xiàn)的位置;I代表場(chǎng)景特征,它由局部特征(L)和整體特征(G)所組成的。因此,目標(biāo)檢測(cè)的概率可通過(guò)P(O,X|L,G)進(jìn)行推導(dǎo)。

      根據(jù)貝葉斯定律,可以將目標(biāo)檢測(cè)概率分解為:

      Stansbury、Naselaris和Gallant(2013)認(rèn)為,在場(chǎng)景識(shí)別過(guò)程中,大腦所加工的是自然場(chǎng)景中所出現(xiàn)物體的統(tǒng)計(jì)概率,個(gè)體通過(guò)場(chǎng)景中同時(shí)出現(xiàn)物體的知識(shí)對(duì)自然場(chǎng)景進(jìn)行分類。例如,當(dāng)同時(shí)看到水、沙子和曬日光浴的游客時(shí),個(gè)體會(huì)將其分類為“沙灘”,而這一類別標(biāo)簽又會(huì)激活對(duì)遮陽(yáng)傘和沙灘城堡等物體的預(yù)期。Stansbury等人首先對(duì)場(chǎng)景材料中所有出現(xiàn)的物體進(jìn)行標(biāo)注和統(tǒng)計(jì),把這些統(tǒng)計(jì)數(shù)據(jù)應(yīng)用到一個(gè)三層貝葉斯概率模型中(Blei,Ng,& Jordan,2003),并將所得到的不同類別的概率分布與fMRI所記錄的前部視覺(jué)區(qū)域(anterior visual cortex)的活動(dòng)水平進(jìn)行擬合;然后,將這一過(guò)程反過(guò)來(lái),根據(jù)fMRI記錄的活動(dòng)水平推斷場(chǎng)景類別。結(jié)果發(fā)現(xiàn),大腦確實(shí)可以通過(guò)捕捉自然場(chǎng)景中物體同時(shí)出現(xiàn)的概率信息來(lái)對(duì)場(chǎng)景進(jìn)行表征。

      5 總 結(jié)

      本文基于以往的行為研究和認(rèn)知神經(jīng)科學(xué)研究,詳細(xì)闡述了自然場(chǎng)景識(shí)別的主要特征、神經(jīng)基礎(chǔ)及其認(rèn)知模型和計(jì)算模型。其中,認(rèn)知理論模型方面,本文詳細(xì)闡述了自下而上的前饋加工和自上而下的反饋加工兩種認(rèn)知加工方式在自然場(chǎng)景識(shí)別過(guò)程中的作用及其關(guān)系,而在計(jì)算模型方面,本文則著重闡述了計(jì)算模型如何處理人類自上而下和自下而上的信息加工過(guò)程,從而更好地與認(rèn)知模型相比較。然而,雖然目前自然場(chǎng)景識(shí)別領(lǐng)域的學(xué)者們達(dá)成了不少共識(shí),但仍舊存在著很多不足和爭(zhēng)議的地方。

      首先,由于自然場(chǎng)景所涵蓋的范圍非常廣,研究者所采用的范式也各不相同(王福興,田宏杰,申繼亮,2009),導(dǎo)致不同研究得到了不同甚至相反的結(jié)果。例如,F(xiàn)ei-Fei等人(2002)和Sun等人(2017)都是使用雙任務(wù)范式,但是在自然場(chǎng)景的快速視覺(jué)分類是否需注意參與的問(wèn)題中出現(xiàn)了分歧。雖然兩者都是要求被試對(duì)出現(xiàn)在外周視野的自然場(chǎng)景圖片做出判斷(是否有動(dòng)物),但是兩者的另一個(gè)任務(wù)(控制任務(wù))不同。一方面,控制任務(wù)的呈現(xiàn)方式不一樣,前者的任務(wù)刺激呈現(xiàn)在中央,而后者控制任務(wù)的刺激則出現(xiàn)在與場(chǎng)景圖片一樣的位置。另一方面,前者要求被試判斷中央呈現(xiàn)的五個(gè)字母是否相同,而后者則要求被試判斷出現(xiàn)在注視點(diǎn)左右的兩個(gè)詞匯是否為同一類別,兩者涉及的認(rèn)知加工程度、難度均不一樣。因此,在未來(lái)的研究中,我們要理清在當(dāng)前實(shí)驗(yàn)條件下是否需要消耗注意資源,避免忽視由于不同實(shí)驗(yàn)設(shè)計(jì)帶來(lái)的差異。

      其次,未來(lái)的研究仍需要進(jìn)一步探究自然場(chǎng)景識(shí)別過(guò)程中自下而上的前饋信息加工方式與各種自上而下的反饋信息加工之間的關(guān)系。在場(chǎng)景識(shí)別早期,研究者嘗試用自上而下和自下而上兩種加工方式去解釋整個(gè)場(chǎng)景識(shí)別過(guò)程。但隨著研究的不斷深入,越來(lái)越多研究者意識(shí)到,場(chǎng)景識(shí)別過(guò)程包含了多個(gè)加工階段,而多個(gè)加工階段中還會(huì)包含多種加工方式。因此很難用單一的理論模型解釋場(chǎng)景識(shí)別的整個(gè)過(guò)程,而更應(yīng)該探究在不同加工階段中哪種加工方式占有主導(dǎo)地位(王福興,田宏杰,申繼亮,2009)。后續(xù)的研究應(yīng)對(duì)不同加工階段中主導(dǎo)的加工方式與視覺(jué)系統(tǒng)整體的加工過(guò)程加以兼顧,從而更好地理解場(chǎng)景識(shí)別過(guò)程中不同加工方式的交互關(guān)系。另一方面,如圖1中所展示的,按照視覺(jué)加工或神經(jīng)傳導(dǎo)的時(shí)間進(jìn)程,可將場(chǎng)景知覺(jué)分為早期場(chǎng)景識(shí)別和后期的調(diào)控(Wyatte et al.,2014),后者屬于由注意、經(jīng)驗(yàn)以及策略等參與的自上而下加工。另一方面,從發(fā)展的角度來(lái)看,個(gè)體在日常生活中對(duì)自然場(chǎng)景進(jìn)行加工識(shí)別的過(guò)程同時(shí)也是一個(gè)不斷學(xué)習(xí)、不斷積累經(jīng)驗(yàn)的過(guò)程。根據(jù)Seriès和Seitz(2013)對(duì)預(yù)期的分類,教育文化經(jīng)驗(yàn)及個(gè)體長(zhǎng)期積累起來(lái)對(duì)周圍世界的規(guī)則性經(jīng)驗(yàn),更多屬于與長(zhǎng)時(shí)記憶有關(guān)的結(jié)構(gòu)性預(yù)期;即使早期的前饋加工過(guò)程也會(huì)在長(zhǎng)期適應(yīng)和學(xué)習(xí)種不斷發(fā)展。在知覺(jué)與學(xué)習(xí)同時(shí)進(jìn)行的過(guò)程中,哪些經(jīng)驗(yàn)知識(shí)會(huì)保留下來(lái)變成個(gè)體的結(jié)構(gòu)性預(yù)期,而哪些又被當(dāng)作無(wú)關(guān)信息遺忘掉;這種外顯或內(nèi)隱的知覺(jué)學(xué)習(xí)過(guò)程,是與自下而上反饋加工有關(guān),還是與前饋、反饋之間的交互作用有關(guān);這種調(diào)節(jié)作用是否影響知覺(jué)學(xué)習(xí)的進(jìn)程,等等。這些問(wèn)題仍然需要進(jìn)一步深入探究。

      最后,在本文的計(jì)算模型介紹中,雖然心理學(xué)家與計(jì)算機(jī)科學(xué)家提出了許多關(guān)于場(chǎng)景識(shí)別的計(jì)算模型,某些模型與算法在特定的任務(wù)場(chǎng)景中甚至可能達(dá)到比人類被試更高的準(zhǔn)確率(Walther & Shen,2014),但仍然沒(méi)有哪種計(jì)算模型能夠真正“理解”場(chǎng)景的含義。一方面,有些模型更多關(guān)注將場(chǎng)景描述符應(yīng)用到分類器中能否得到更高的分類準(zhǔn)確率,將其作為判斷模型或描述符好壞的重要指標(biāo)。但是,這類模型的問(wèn)題往往在于,不夠重視或忽略場(chǎng)景識(shí)別中自上而下和自下而上兩種加工過(guò)程的生理機(jī)制,同時(shí)過(guò)度追求分類器的準(zhǔn)確率又容易產(chǎn)生過(guò)度擬合(over fit)的現(xiàn)象,導(dǎo)致生態(tài)效度太低,無(wú)法推廣到更大的圖片庫(kù)或復(fù)雜的現(xiàn)實(shí)環(huán)境中。另一方面,雖然貝葉斯概率推斷模型除了在自然場(chǎng)景識(shí)別領(lǐng)域之外,在聽(tīng)覺(jué)(Elhilali,2013)、規(guī)則學(xué)習(xí)(Endress,2013)、語(yǔ)法學(xué)習(xí)(Perfors,Tenenbaum,& Regier,2011)、概念學(xué)習(xí)與分類(Goodman,Tenenbaum,Feldman,& Griffiths,2008)等許多領(lǐng)域都取得了顯著的成果,但是它仍然受到多方面的質(zhì)疑。例如,概率推斷模型認(rèn)為,個(gè)體最終做出的認(rèn)知決策反映了其對(duì)最大概率的理性(rational)或最優(yōu)(optimal)選擇,而對(duì)此目前仍然存在較多的質(zhì)疑(Marcus & Davis,2013)。另外,也有研究者提出,貝葉斯概率模型本身太過(guò)靈活,似乎可以解釋所有可能出現(xiàn)的不同實(shí)驗(yàn)結(jié)果(Bowers & Davis,2012)。除此之外,人類除了能夠快速識(shí)別場(chǎng)景的主題內(nèi)容和類別信息之外,還可以快速理解場(chǎng)景中的人物關(guān)系與情緒狀態(tài),推斷場(chǎng)景中正在發(fā)生的事件,判斷場(chǎng)景中物體位置排列的合理性甚至做出審美判斷,甚至還能由場(chǎng)景觸發(fā)情緒和記憶等。對(duì)這些復(fù)雜的相互關(guān)聯(lián)信息的處理,對(duì)于當(dāng)前的計(jì)算模型來(lái)說(shuō),都還是遙不可及的。當(dāng)然,這些復(fù)雜功能的認(rèn)知及生理機(jī)制大多也都還沒(méi)有明確的定論,因此未來(lái)場(chǎng)景識(shí)別研究中無(wú)論是認(rèn)知與生理學(xué)研究還是計(jì)算視覺(jué)模型的發(fā)展,都應(yīng)該更多綜合考慮這些方面的因素,而不應(yīng)該僅僅關(guān)注自然場(chǎng)景視覺(jué)分類這一簡(jiǎn)單的結(jié)果。

      猜你喜歡
      加工過(guò)程信息
      認(rèn)識(shí)“超加工食品”
      中老年保健(2022年5期)2022-08-24 02:36:10
      后期加工
      描寫具體 再現(xiàn)過(guò)程
      臨終是個(gè)怎樣的過(guò)程
      訂閱信息
      中華手工(2017年2期)2017-06-06 23:00:31
      菱的簡(jiǎn)易加工幾法
      在這個(gè)學(xué)習(xí)的過(guò)程中收獲最大的是哪些,為什么?
      Coco薇(2015年12期)2015-12-10 03:54:58
      看,塑料制品是這么加工來(lái)的
      圓滿的過(guò)程
      展會(huì)信息
      城固县| 江山市| 卓尼县| 永昌县| 汨罗市| 汤原县| 芦溪县| 西峡县| 临夏市| 武清区| 万州区| 石泉县| 三都| 沙河市| 中超| 云南省| 新兴县| 仲巴县| 饶平县| 延川县| 玉溪市| 都兰县| 双柏县| 兴山县| 崇阳县| 韶山市| 井研县| 武陟县| 灵川县| 田阳县| 翁源县| 东乡县| 防城港市| 宁南县| 克东县| 元谋县| 科技| 嵊泗县| 伊宁市| 五华县| 宜兴市|