• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      有關心理統(tǒng)計的三個疑問

      2010-07-02 01:27:18辛自強
      關鍵詞:心理學顯著性變量

      辛自強

      (北京師范大學發(fā)展心理研究所,北京100875)

      有關心理統(tǒng)計的三個疑問

      辛自強

      (北京師范大學發(fā)展心理研究所,北京100875)

      統(tǒng)計學在心理學研究中的作用似乎是確定無疑,然而,本文提出了三個疑問:心理量能統(tǒng)計嗎?統(tǒng)計結果“顯著”就足夠了嗎?統(tǒng)計模型與理論模型相距有多遠?在對三個問題的分析中,試圖說明:統(tǒng)計學作為心理學的工具,當然很重要,但更重要的是對心理進行有效測量,提高變量的測量水平和測量的有效性是心理學的根本任務。在數據分析過程中,應該加強對統(tǒng)計方法和結果的理論思考,糾正一些錯誤的統(tǒng)計規(guī)范和做法,彌補“零假設顯著性檢驗”的不足。

      心理統(tǒng)計學;測量學;零假設顯著性檢驗;理論模型

      技術的發(fā)展通常是以解放人的責任為目的的。比如,傻瓜相機是一種技術進步,其目的是讓不懂照相原理的人也可以照出不錯的照片來(景深、光圈、焦距、曝光時間等術語多繁瑣?。?,由此使照相機很快普及了。統(tǒng)計軟件的發(fā)展也有類似目的和功效。今天學習心理學的人幾乎都要學習統(tǒng)計原理和統(tǒng)計軟件(如SPSS,LISREL,AMOS等),無論本科生還是研究生都非常重視統(tǒng)計方法的學習,而且尤其熱衷學習復雜的統(tǒng)計方法。目前,心理學乃至其他學科中的統(tǒng)計教育和統(tǒng)計應用,形勢一片大好,然而也伴隨著很多值得思考的問題。作者本人并不是專業(yè)學習并研究統(tǒng)計學的,而是和很多同行一樣只是用用統(tǒng)計而已,在自己的專業(yè)實踐中(如統(tǒng)計分析、論文寫作和評審)遇到了很多令人苦惱的問題,結合以往文獻,本文就目前的統(tǒng)計實踐提出三點疑問,并闡述一些粗淺的看法,以就教于各位專家。本文或許有“潑冷水”的嫌疑,但其初衷是自我反思和自我批評。

      一、心理量可以統(tǒng)計嗎?

      (一)統(tǒng)計方法與測量水平的不匹配

      隨著統(tǒng)計軟件的普及,做統(tǒng)計分析變得容易,似乎只要有數據就可以計算,就可以統(tǒng)計,以致于有的研究不再關心數據的測量學品質,而沉醉于擺弄統(tǒng)計的花樣。目前整個學界應用的統(tǒng)計方法“進展”很快,且日趨“高級”,而所統(tǒng)計的數據本身的測量水平和質量卻很未必盡如人意。

      每種統(tǒng)計方法對數據的性質都有明確的要求,實際上,我們卻經常在測量水平達不到的情況下應用統(tǒng)計公式。幾乎在每本教育統(tǒng)計學或心理統(tǒng)計學這類應用統(tǒng)計學教科書的開頭都要講清楚變量類型的劃分。比如,根據Stevens在1946年對測量水平的劃分[1],嚴格區(qū)分稱名變量、順序變量、等距變量與等比變量。這些變量的性質不同,對數學運算的要求也不同:稱名變量的數據只是事物代碼,不能做數學四則運算,在統(tǒng)計上可以計算頻次,做卡方檢驗;順序變量表示的是等級和次序,也不能做四則運算,在統(tǒng)計上可以求中數、百分位數;等距變量,則可以做加減運算,本身不能被乘除,在統(tǒng)計上可以計算平均數、標準差、相關系數,能做回歸分析、方差分析;等比變量,可以做加減乘除及其他數學運算,可以用于像等距變量那樣的統(tǒng)計分析以及其他處理。這四類變量實際上是四種測量尺度的結果,稱名變量測量水平最低,從前到后測量水平依次增高,最高的是等比變量。

      根據Stevens的觀點[1],心理學中沒有等比變量,等距變量都不多見,頂多是順序變量比較常見。比如,能力測驗分數、考試分數(百分制)嚴格講屬于順序變量,還達不到等距變量水平,因為80分只表示比60分多(分數大小能表示順序),但從60分到80分的距離和從80分到100分的距離并不相等(分數沒有相等單位,即無等距)。心理學用到的一些等比變量通常只是物理學變量,如反應時以及心理物理學實驗中表示外界刺激強度的某些物理量(長度、體積),但所有心理量都不是等比變量??傊?,每本教科書關于變量測量水平的劃分都言之鑿鑿。

      然而,頗有諷刺意味的是,幾乎所有的心理統(tǒng)計學教科書和統(tǒng)計方法的應用在變量測量水平問題上都沒有“自我同一”:我們一方面堅信心理學中幾乎沒有等距和等比量尺意義上的數據,也就是說沒有可以進行算術運算的數據,然而另一方面我們卻在使用各種以算術運算為基礎的統(tǒng)計方法,并不斷追求使用更復雜的統(tǒng)計方法。說白了,所有的心理統(tǒng)計都是建立在錯誤的假定基礎上的:我們收集的數據可以運算,然而,實則不可。

      是不是心理學研究就不該做統(tǒng)計呢?至少不能對心理量計算平均數、標準差以及做以此為基礎的各種推論統(tǒng)計呢?除了很多人嚴肅地支持Stevens的觀點外,也有少數學者嚴肅地認為可以做統(tǒng)計,并試圖提出主觀感覺量可累加的證據。然而,絕大多數做心理統(tǒng)計的人,對此問題并不會做嚴肅的考慮,其結果就是:一方面Stevens關于數據測量水平劃分的觀點被廣泛接受,另一方面,實際做起統(tǒng)計時大家都不再理會或忘掉了這個觀點。關于“心理量能不能做統(tǒng)計”這樣一個極為復雜的問題,我無法提供簡單肯定或否定的答案。之所以重提這樣的疑問是想指出,心理學的根本困難不是統(tǒng)計而是測量,我們的任務是克服測量或量化的困難。

      (二)心理學的根本任務不是統(tǒng)計而是測量

      統(tǒng)計的前提是獲得數據,沒有數據,統(tǒng)計學就派不上用場。數據哪里來?測量。測量的本質是以數值度量并表達心理現(xiàn)象。如上所述,理論上講,我們可以在不同的水平上測量心理,從而獲得稱名的、順序的、等距的、等比的數據。對測量數據進行運算的前提是尋找單位,即至少保證數據是等距的,當然最好是等比的(不僅有單位,還存在絕對0點)。只有數據獲得了單位時,我們才能說真正對心理作了“度量”,得到了皮亞杰所謂的“度量量”[2],包括等距和等比變量。所以皮亞杰講,“度量和數的應用都必須以建立‘單位’為前提,也就是要有為求同而可能忽視異質的那種對要素的考慮”。[2]37心理學面臨的最大困難是缺乏計量單位,而只能在順序或等級意義上測量,有時只是用數字來作為代碼而已(即稱名變量,這時數字只是一個代號,而非數值)。

      雖然目前心理學廣泛使用測量方法,但絕大多數心理學的數據還算不上度量量,雖然我們假設成(或錯誤地假設成)度量量來統(tǒng)計處理。正如,皮亞杰指出的,“測驗法和多種多樣的‘心理物理法’能夠提供無數的所謂測量數據,因為這些數據只側重于行為的當前可測量的方面,也就是說,側重于反應的結果,或者如果人們愿意這樣說的話,側重于‘性能’。但是,就這些結果而言,還談不上是計量單位?!保?]39就如前文我們舉例說明的,能力測驗分數沒有共同單位。皮亞杰接著指出:“尤其重要的是,對結果的測量還不能告訴我們所觀察的反應的內部機制,而要測量的正是這種內部機制?!傊睦韺W的測量方法提供了一些數據,這些數據對細節(jié)的比較并從各種智力運算的結果這個觀點來說都是有用的,但它們達不到智力運算本身,因為缺乏能夠由果溯因的任何單位制?!保?]39皮亞杰看到了心理學問題的本質:我們的很多研究只是測量外在結果,而無法測量內部過程和機制本身,只好基于對前者的測量推測后者,而后者卻是我們最為關心的。這就是心理學面臨的基本困難——我們無法直接測量心理過程本身,無法為心理找到“單位”,由此,心理學里沒有度量量,我們只好強行對不能運算的數據進行統(tǒng)計。

      換個角度來說,所有的對心理的量化,量化的都不是心理過程本身,我們對心理過程的研究都是間接的、推測式的。如果能找到測量單位,以此直接度量心理本身,那么心理學才會出現(xiàn)真正的“革命”。能夠帶來根本意義上的心理學研究范式革命的不是統(tǒng)計學,而只可能是測量學。如果能將心理測量提高到更高的水平(等距水平、等比水平),心理學將會獲得和嚴格自然科學一樣的地位。然而,這種可能性,目前幾乎看不到。所以,基于數據統(tǒng)計來做研究的心理學家,都只好接受這個“掩耳盜鈴”的假定:假定測得的數據是有單位的(等距或等比變量),然后“大肆”進行統(tǒng)計分析。

      這里之所以指出統(tǒng)計和測量之間的這個根本矛盾,并不是說我能克服它,目前還沒有解決這個問題的有效方法。我只是想提請人們特別是年輕的研究者注意,我們應該努力解決測量問題,而不是把主要精力放在統(tǒng)計方法上。數據本身還是個問題呢,統(tǒng)計又有何用?雖然根本上提高數據測量尺度的水平是很困難的,但卻可以想方設法提高數據本身的質量,即保證數據能代表我們理論上假定的變量,保證測量的效度。有了高質量的數據,統(tǒng)計并不是困難的事情,數學系總有人會做,但數學家不能幫助我們解決心理的測量問題。

      二、統(tǒng)計結果“顯著”是否足夠?

      (一)零假設的顯著性檢驗

      與上文的“心理量能否統(tǒng)計”這樣的根本問題相比,這里關注的“統(tǒng)計結果‘顯著’是否足夠”的問題,主要是個技術層面的問題。在心理學研究過程中,我們最擔心的通常是能否找到夢寐以求的統(tǒng)計“顯著性”,最關心的是找到幾顆星號。通常,如果p小于0.05、0.01、0.001這些臨界值時,我們會分別在統(tǒng)計量上標上一顆、二顆、三顆星號。所以,心理統(tǒng)計有點找星號游戲的味道,星號對于我們,就像制服上的星星對于軍官一樣重要。

      在心理統(tǒng)計中,核心的邏輯是“零假設顯著性檢驗”(Null Hypothesis Significance Testing,NHST),即p值方法[3],根據p值大小決定是接受,還是拒絕零假設。p值是一種概率,是指在零假設成立的前提下,獲得現(xiàn)有檢驗統(tǒng)計量值(如t,z,F(xiàn)等)以及比該值更為極端情況下的概率。判定p值大小的標準,就是人為確定的顯著性水平,比如0.05、0.01、0.001這些常用的臨界值。如果統(tǒng)計得到的p值比臨界值小,比如小于0.05,就在0.05的顯著性水平上拒絕零假設,而接受備擇假設;反之,不能拒絕零假設,只好接受它。我們只能表述某種結果“在統(tǒng)計上是否顯著”,如果顯著,則意味著隨機因素不能解釋這個結果,而只好歸結為某種“必然性”(仍是統(tǒng)計上的必然性)。

      然而,零假設顯著性檢驗自身存在的缺陷一直被很多學者所詬病。一方面,證明零假設“不對”,或者拒絕零假設的做法,本身沒有實際意義。在統(tǒng)計檢驗時,我們通常期望通過拒絕零假設來獲得對備擇假設(這是我們期望證實的)的確證。比如,零假設是“隨機分配到A、B兩個實驗條件下的樣本來自的總體平均數是相等的”,然而,世界上有多少事物是完全相等的呢?Tukey指出,“去問‘A和B的效應有不同嗎’這是愚蠢的,它們總是不同的——在小數點后某個數位上?!保?]100哪怕兩個樣本的平均數之間只有細小的差異(比如0.2、0.02、0.0002),只要樣本量足夠大,我們就能證明差異是“顯著的”,總是能拒絕零假設。實際上,如同Cohen認為的,“零假設總是錯的”[5,6]。既然零假設總是錯的,我們?yōu)槭裁催€要費力拒絕它呢?從心理學角度來看,拒絕零假設通常難以給我們增加多少有價值的專業(yè)知識。零假設通常假定兩個變量的相關系數為0,實驗組和對照組平均數相同。然而,證明相關不等于0又能說明什么?世界上相關的事物太多了。在個體內匹配數據,發(fā)現(xiàn)二者不相關倒是很奇怪的事情,共同方法效應(如答題風格、作答方式的影響)帶來的誤差都足以讓一個人回答的兩份問卷結果存在顯著相關。在心理學實驗中,難道我們就滿足于實驗組的平均數和對照組不一樣嗎?如果是干預實驗,我們費了那么多人力物力去干預,如果只表明實驗組和對照組得分不一樣,而不是差異足夠大,實驗還有何“效益”可談?

      另一方面,如Cohen指出的,現(xiàn)行的假設檢驗本身存在邏輯上的漏洞[6]。很多教科書或教師都會這么表述“拒絕零假設”的邏輯:如果零假設是正確的,那么這樣的統(tǒng)計結果(比如p小于0.05)就不會出現(xiàn);然而,這樣的統(tǒng)計結果已經出現(xiàn)了,因此零假設是錯誤的。如果“拒絕零假設”的邏輯果真是這樣的,那么其通過“否定結果來否定前提”邏輯在形式上是沒問題的。不過,這個慣常的表述實際上是不準確的,它忽視了假設檢驗的概率性質。而準確的表述應該是:如果零假設是正確的,那么這樣的統(tǒng)計結果(比如p小于0.05)就是很不可能的(不是完全不可能);然而,這樣的統(tǒng)計結果已經出現(xiàn)了,因此零假設是很不可能的。關鍵的問題是,在這種概率性的表述中,否定結果并不必然否定前提,可見現(xiàn)行“拒絕零假設”的邏輯存在漏洞[6]。

      除了上述邏輯問題外,還應指出,p值的大小,并不能說明研究結果的重要性或變量關系的“顯著性”。它只表示p值越小,拒絕零假設時可能犯錯誤的機會或概率越小。然而Wright指出,在對統(tǒng)計結果的表述和理解上存在很多誤解[3]。

      誤解之一是,將統(tǒng)計檢驗的“顯著性”錯誤地看作變量關系的強度。如將“無顯著意義”誤認為“兩組均數基本相同”,或者“兩個變量沒關系”;將“差異顯著”誤認為“兩均數差別很大”或“兩個變量關系很強”(有時哪怕“統(tǒng)計結果極其顯著”,也不能這么說)。零假設的顯著性檢驗很容易受到樣本大小的影響。以平均數的差異檢驗為例,在統(tǒng)計量(如t)的計算中,樣本大小部分決定了結果。當平均數的差異固定時,樣本越大,獲得的p值越小,樣本越小,獲得的p值越大。也就是說,樣本大小將影響結果的顯著性與否??梢?,統(tǒng)計結果的顯著性與否并不能推論到兩個平均數差異的大小。當樣本很大時,兩個平均數之間細微的差異,都可能是“統(tǒng)計上顯著的”,然而,這種差異可能沒有實際意義??傊?,統(tǒng)計上的“顯著性”與變量關系強度并非一碼事。然而,當我們得到統(tǒng)計上顯著的結果(尤其是“非常顯著”或“極其顯著”),我們特別容易不自覺地相信變量關系是很強的,并做出類似表述或理解。

      誤解之二是,將顯著性水平0.05、0.01、0.001這些取值神圣化。實際上這些取值只是習慣的沿襲,沒有多少數學上的必然性,更沒有考慮到研究內容和領域的要求。在一定的條件下(如一個標準大氣壓下),水的沸點是100攝氏度,這個溫度上的100是水從液態(tài)轉為氣態(tài)的臨界值,具有實際的物理學意義。然而,統(tǒng)計檢驗的顯著性水平只是人為地、武斷地劃定的標準。如果顯著性水平定為0.05,那么算出的p值為0.055就意味著不能拒絕零假設,這種根據顯著性水平所做的二值判斷(接受或拒絕)有時顯得過于粗暴和無理,沒有看到概率的連續(xù)意義[5]。所以,Rosnow和Rosenthal這樣寫道:“肯定的,上帝幾乎和喜愛0.05一樣喜愛0.06。上帝將支持和反對零假設的證據的力量視作p值大小的一個非常連續(xù)的函數,這難道還有什么疑問嗎?”[7]1277

      順便說一下,在心理統(tǒng)計學中,存在許多類似的臨界值或“標準”的神話。比如,因素分析中特征根大于1的標準,信度中alpha大于0.7的標準,結構方程模型擬和指標的標準(各種指標都有具體標準,比如GFI要大于0.9)。統(tǒng)計的結果在標準的這邊還是那邊,似乎就決定了研究結果是否令人滿意,決定了論文能否發(fā)表,決定了研究者的人生悲喜。在各種標準神話面前,研究者很容易放棄自己的理論思考,而把研究的責任交給計算機和這些機械的判定標準。以探索性因素分析為例,很多研究者根本不去對項目內容和維度的結構做理論分析,而只是讓計算機抽取所有特征根大于1的因素,然后給每個因素想當然地取個名字,由此堅信自己找到了量表的結構,用該量表測試另一個樣本時就再次采用“事后諸葛亮”的方法確定另一些因素及其結構。然而,研究者卻不能回答這些項目構成一個因素的道理何在,因為很多隸屬于一個因素的項目從內容上本來就“風馬牛不相及”,只是數據計算時碰巧有關聯(lián)而已。我并非是說,完全不要考慮這些標準,但一定在應用統(tǒng)計方法的同時加強理論的思考和說明。

      (二)如何報告統(tǒng)計結果

      由于零假設顯著性檢驗本身的邏輯缺陷和諸多誤解,Cohen甚至宣稱,零假設顯著性檢驗不僅沒能推動心理學的進步,而且嚴重阻礙了它[6]。在心理學以及其他學科中,假設檢驗的使用都被過分強調了,這使我們的注意力偏離了核心的專業(yè)問題[5]。

      然而,目前零假設顯著性檢驗依然被廣泛使用,而且沒有能替代它的“備擇方案”,所以如何更好地分析并報告統(tǒng)計結果,就是個很重要的問題。在這方面,很多學者如Cohen[5]和Wright[3]提出了一些共識性的建議。首要的事情,是加強對數據的描述統(tǒng)計。比如提供關于一個變量分布的基本描述統(tǒng)計(頻次、百分數、平均數、標準差、峰度、偏態(tài)程度),關于兩個變量關系的散點圖。Cohen引用的John Tukey(1977)的觀點說:現(xiàn)代統(tǒng)計學對推論統(tǒng)計的強調,在一定程度上導致了數據分析靈活性的降低。我們容易不假思索地借助計算機進行推論統(tǒng)計,而很少認真地對數據進行描述統(tǒng)計,很少細致深入地理解數據的性質以及數據是否適合我們選定的推論統(tǒng)計方法[5]。因此,我們應該努力避免這些問題。其次,要在論文的結果部分報告效果量的信息。如前面所述,零假設檢驗存在一些根本的問題,而且容易被誤解,也缺乏對變量關系的直接考察,所以,只報告檢驗所得的p值是不充分的,還要提供一些關于效果量的信息。

      對于效果量,有很多文獻[3,8]作了介紹。效果量(effect size)表明了我們專業(yè)上所關心的效果和效應的大小,比如實驗處理效果如何,這是p值所不能傳遞的信息。因此,現(xiàn)在重要的學術刊物都要求既報告統(tǒng)計檢驗結果是否顯著,又報告效果量指標[9],報告效果量的目的是便于不同研究所得效果量的比較。效果量指標很多,但應該采用容易被理解的、可比的、有意義的指標。要保證有意義,就要報告測量效果量的單位。效果量的單位可以采用原始變量的單位,也可以采用標準化的單位[3]。例如,在某個測驗上,10歲組比8歲組多做對4道題,或者,每周增加1小時的作業(yè)練習在這個測驗上就多答對2道題,這都是有意義的信息。然而,由于不同研究的原始變量單位的差異,為了保證可比性,大多數情況下需要報告有標準單位的效果量。比如,實驗組比對照組得分高1個標準差,或者每周作業(yè)時間能解釋答題正確率30%的變異。

      常用的標準化的效果量指標大致可以分為兩類,一類是反映各組平均數差異的,另一種是反映變量關聯(lián)強度或變異解釋率的。在實驗研究中,我們通常關心的是實驗組與控制組(對照組)平均數差異問題,除了對差異做“顯著性檢驗”外,我們關心的研究中實驗處理效果的大小,即研究的效果量,其常用統(tǒng)計指標為d。這個指標的計算方法由Cohen提出,并為Glass等[10,11]所完善。d主要說明實驗研究中處理的效果量。用實驗組平均數(M e)減去控制組平均數(M c)再除以兩組共同標準差(S),所得結果即為效果量d,因此它也可以理解為實驗組與控制組平均數差異的標準分。能反映變量關聯(lián)強度的指標就是r2,即決定系數,它表明了兩個變量之間共享的變異的比例。實際上,d、r2以及其他各種統(tǒng)計量(如F,t,卡方)都是相互關聯(lián)的,具體的轉換公式和報告方法可以參考有關文獻[8-11]。

      關于如何改進研究結果的報告,如何彌補或消除零假設顯著性檢驗的不足和可能帶來的誤解,研究者還提出了其他一些措施,比如報告置信區(qū)間,計算統(tǒng)計檢驗力等,這里不一一闡述。

      三、統(tǒng)計模型與理論模型相距有多遠?

      (一)統(tǒng)計方法作為“科學環(huán)”的一部分

      雖然統(tǒng)計方法本身可能存在問題,對統(tǒng)計方法的誤解和誤用更是普遍,但無論如何,統(tǒng)計方法的使用總是有些明確的規(guī)范,每個開始學習心理學的人都會接受這方面的專門的教導。相比之下,關于如何在統(tǒng)計模型和理論模型之間進行合理推理的問題,非常缺乏“規(guī)范的”指導,甚至缺乏“指導性”的規(guī)范。然而,這個問題才是心理學真正的專業(yè)問題(畢竟統(tǒng)計的問題可以得到統(tǒng)計學家的幫助),它涉及到如何將心理學的理論建立在堅實的經驗資料基礎上,關乎心理學的理論建設。

      為什么強調理論模型和統(tǒng)計模型的對接問題呢?因為在二者之間建立關聯(lián)是科學研究最重要的環(huán)節(jié)之一,但是關于二者對接的邏輯卻非常復雜,很容易出現(xiàn)思路錯誤。圖1是社會學家華萊士(W.Wallace)1971年提出的一個研究的流程模型——“科學環(huán)”(轉引自袁方、王漢生[12]93),它描述科學研究循環(huán)的邏輯。

      圖1 華萊士的“科學環(huán)”

      在這個科學環(huán)中,用方框表示五種狀態(tài)的知識:(1)理論;(2)假設;(3)經驗觀察;(4)經驗概括;(5)被檢驗的假設。一項科學研究工作可能從任意一種狀態(tài)的知識開始,從而加入到這種科學循環(huán)中,在往復循環(huán)的過程中,研究日益深入,對規(guī)律的認識從感性認識上升到理性認識,再上升到具體的理性認識。在科學環(huán)中,這五種狀態(tài)的知識是由六套研究方法(以橢圓表示)連接起來的。它們是:(1)邏輯演繹的方法;(2)操作方法;(3)量度、測定與分析方法;(4)檢驗假設的方法;(5)邏輯推論方法;(6)建立概念、命題和理論的方法。各種狀態(tài)的知識通過這些方法得以轉換。垂直中軸線的右側是從理論到經驗的演繹過程,左側是從經驗到理論的歸納和概括過程。在水平中軸線的上側是理論研究的過程,下側則屬于經驗研究的過程。一個完整的科學循環(huán)或者科學研究過程應當包括所有的這些過程,只有這樣才能建立起能夠解釋經驗且經得起經驗檢驗的理論。而事實上,一個具體的研究過程可能會簡單一些,只重點進行某個環(huán)節(jié)上的工作。

      這個“科學環(huán)”模型刻畫了研究的大致過程,說明了知識類型和方法類型及其關系。這里引用這個模型是想說明兩點。第一點是統(tǒng)計方法的地位。統(tǒng)計方法的應用是這個科學環(huán)中的一部分,它非常重要,然而并非無它不可。在這個科學環(huán)模型的“外圈”的各種知識和方法已經構成完整的科學環(huán)。統(tǒng)計對于科學研究而言,是重要的,而非必要的,更非充分的。在心理學中,非常鼓勵統(tǒng)計方法的學習和應用,目前這方面做得比較好;然而,其他環(huán)節(jié)的方法訓練卻非常薄弱,這應該引起人們的重視。特別要加強理論方法的訓練,也就是科學環(huán)上半部分提到的邏輯演繹的方法,邏輯推論方法,以及建立概念、命題和理論的方法等。我想說明的第二點是,應該深入理解統(tǒng)計工作與其前后相鄰的環(huán)節(jié)之間的關聯(lián)和差異。如前所述,測量學很重要,它主要提供了科學環(huán)中提及的操作方法,以及量度、測定與分析方法,這些都是經驗研究的方法。如果不能通過測量獲得高質量的數據,也就無所謂統(tǒng)計的意義。如果不能從統(tǒng)計結果有效推論到心理學的理論命題,就忘掉了統(tǒng)計的目的。統(tǒng)計僅僅是科學研究過程的一環(huán),我們需要明白常用的假設檢驗的方法究竟有何用途,在科學環(huán)中處于什么地位。只有正確理解各種知識狀態(tài)的差異和層次,并利用合理的方法解決知識狀態(tài)的轉化問題,科學才能發(fā)展。

      (二)統(tǒng)計與理論的距離

      心理學的大部分研究報告都是建立在數據統(tǒng)計基礎上的。然而,在統(tǒng)計工作的前前后后還有很多環(huán)節(jié),目前在統(tǒng)計與理論關系的認識上誤區(qū)最多,通常人們會忽視統(tǒng)計模型與理論模型的距離。下面舉例說明二者之間的復雜關系。

      第一,統(tǒng)計能證明理論嗎?我們經常可以在研究報告中看到“統(tǒng)計證明理論”的提法和做法。比如,在問題提出中,綜述兩種相互矛盾的理論,來看自己的統(tǒng)計結果支持哪種理論;在討論中,聲稱自己的統(tǒng)計結果證明哪個理論是對的,哪個是錯的。不過,這些提法值得商榷。心理學中有無數的理論,能夠直接被數據證明的理論卻寥寥無幾。因為大部分理論都非常復雜,是由許多命題組成的龐大的理論體系,如皮亞杰理論、信息加工理論,這些理論難以直接由經驗來證明,統(tǒng)計對這類理論幾乎毫無用武之地。即便很小的理論,如韋伯定律,也只有限制好條件,對變量操作測量后,才能以數據統(tǒng)計來證明。而且理論命題并不都是關于經驗問題的陳述,很多命題只是表述了邏輯問題,并不需要經驗研究去解決邏輯問題。數據代表經驗,數據統(tǒng)計所能證明的只是由理論推導出來的研究假設(這里的“假設”和理論假定是不同的),研究假設必須具體地表述變量關系。從理論到研究假設,從理論概念到操作概念再到可測定的變量之間都有很大的距離。所以,我們不能輕易地聲明數據統(tǒng)計能證明理論,除非在一些極端特定的情況下。這里我在最隨便的意義上使用了“證明”一詞,實際上,這個詞以及一些類似的詞語都要有區(qū)別地使用,比如“證實”、“證偽”、“確證”、“確認”等,基于不同的科學哲學思想和研究的實際情況,我們要選擇合適的詞匯表述經驗和理論之間的關系。這個問題如此復雜,尚需專文展開論述。

      第二,研究結果的表述要多具體?與理論和經驗之間的距離有關,我們究竟應該在多么具體或抽象的程度上表述研究結果呢?舉例來說,我們關心的是學生的智商和學業(yè)成就的關系。智商、學業(yè)成就都是理論概念,關于智商的操作定義和測量方法有很多,學業(yè)成就也是如此。一項研究所獲得的直接統(tǒng)計結果通常是限定于特定的測量工具背景下的,或許在研究報告的討論部分我們應該在一定的理論“高度”上抽象表達二者的關系。但無論如何,我們都不能忘記數據統(tǒng)計結果的限制條件,超出了這個條件的理論概括是存在風險的。當操作定義和測量方法改變后,統(tǒng)計結果或許是另外一回事,其理論含義也許不同。在另一方面,過于具體的研究結果表述有時也可能是不妥的。比如,結果表明“大學生對高頻詞和低頻詞的反應時有差異”,這就是個非常具體的統(tǒng)計結果,然而,很多時候我們不能停留在如此技術化的層面,而是要根據反應時模型推論心理加工過程模型。否則,這類詞頻影響反應時的結果,只是一種表淺的廢話。我們不能以統(tǒng)計結論代替心理學結論??傊?,從統(tǒng)計結果到心理學結論,到心理學理論之間還有很多層次,我們究竟如何概括推論,如何表述結果,都是要慎重思考的,目前這方面還很難提出統(tǒng)一的規(guī)范,只能具體問題具體分析。

      第三,統(tǒng)計模型與理論模型在術語上的差異。很多不同的概念因為字面的相似性經常會被混為一談,出現(xiàn)統(tǒng)計術語和理論術語的混淆。舉例說明,目前心理學中常用一個英文詞“interaction”,這個詞在不同背景下的含義有巨大差別。在統(tǒng)計學中,一般翻譯為“交互作用”。以方差分析為例,若考察自變量A、B與因變量C的關系,通常要考察A、B各自單獨對C的影響,即主效應,也要考察A、B二者如何對C交互作用。這里的交互作用,并非指兩個自變量彼此作用,而是指其中一個自變量對因變量的影響要以另一個自變量為條件,這時作為條件的自變量也稱為“調節(jié)變量”,它調節(jié)著另一個自變量對因變量的影響程度和(或)方向[13]。統(tǒng)計學所說的“交互作用”中,自變量A、B之間不存在因果關系,只是體現(xiàn)了A、B的乘積項能解釋因變量變異的程度(比如,在線性回歸中經常如此處理)。在討論變量關系時,“interaction”還可指“相互作用”,如果我們說A、B之間存在相互作用,應該指二者互為因果,A可以影響B(tài),B也可以影響A。比如,有攻擊性的人選擇觀看暴力電視,而看暴力電視加強了攻擊性。這就是一種“相互作用”,即兩個變量互為因果(但如果僅發(fā)現(xiàn)A、B兩個變量有相關,并不能說是“相互作用”,因為尚不知道作用的方向)。若是涉及到時間維度的相互作用,則兩個變量構成一個動態(tài)系統(tǒng),如攻擊性和觀看暴力電視的相互加強過程。此外,在心理學中“interaction”還可以指人際“互動”、社會“交往”等等含義,在物理學等其他學科“interaction”另有更多的其他含義?;蛟S因為這方面英文詞匯的貧乏,一個“interaction”表達了如此多的含義,但我們應該準確地使用中文指代不同的含義。然而,我們經常把貌似相同而實則不同的概念混用,比如,以統(tǒng)計上的“交互作用”推論兩個變量的“相互作用”,卻忘掉了無論是方差分析還是回歸分析中,都要假定自變量之間彼此獨立,不能存在相互作用,更錯誤地將自變量之間的條件關系(對應于統(tǒng)計上的“調節(jié)模型”)等同于自變量之間的因果關系。若自變量之間還存在因果關系,就要考察“因果鏈”問題,這時可以借用統(tǒng)計上的中介模型來考察[13]。但要指出的是,中介模型可能但不必然意味著“因果性”。如果我們不能清晰區(qū)分各種貌似而實異的統(tǒng)計術語,不能理解統(tǒng)計模型和理論模型的關系,其結果便是我們寫出的文章,在很多術語使用上“言不由衷”,因為我們根本沒有深入考慮這些術語究竟是什么意思,是否能代表我們要表達的含義。所以,李其維教授建議仔細區(qū)分這些概念,并明確指出行為遺傳學中,往往以統(tǒng)計上的“交互作用”錯誤地推論遺傳與環(huán)境“相互作用”這類理論命題[14]。

      最后,在從統(tǒng)計結果推論到理論的過程中還容易出現(xiàn)諸多這樣那樣的問題,這里再簡單列舉一些。比如,有的研究者在分類變量基礎上做統(tǒng)計,卻按照連續(xù)變量表述結論。如以焦慮分數分布的前后27%,確定高焦慮組和低焦慮組,然后統(tǒng)計考察兩組在某種認知作業(yè)上表現(xiàn)有無差異,就下結論說“焦慮得分越高,認知表現(xiàn)就如何”,這種結論實則不妥。又如,發(fā)現(xiàn)兩個年齡組某種得分差異顯著,就推論說發(fā)展出現(xiàn)“質變”或者出現(xiàn)“階段”,而實則不明白究竟什么是“階段”,以及能否由“量上的差異”(哪怕差異極其顯著)推論出“質變”。只有真正理解這些理論概念,理解所得統(tǒng)計結果的本質,才不致于草率地做推論。

      四、結束語

      綜上所述,我認為,對于心理學而言,真正的難點和突破口不是統(tǒng)計學,而是找到有價值的變量和數據,這是測量學問題;有了數據,統(tǒng)計并不難,難的是如何在統(tǒng)計模型和心理學理論模型之間建立有效的聯(lián)系,讓數據統(tǒng)計服務于心理學理論建設的需要。

      目前,心理學中對統(tǒng)計方法特別是所謂“高級”統(tǒng)計方法的熱衷,部分上掩蔽了心理學的核心目的,助長了“數字游戲”的傾向。方法本來無所謂高下,能解決問題就行?,F(xiàn)在我們借助統(tǒng)計軟件可以很容易地分析變量關系,但是統(tǒng)計本身不能解決變量是什么的問題,也不能解決如何有效測量心理的問題。心理統(tǒng)計學幾乎和任何一門應用統(tǒng)計學都沒有多少根本差異,統(tǒng)計工作可以交給數學家做,但心理測量問題卻只能由心理學家來完成。所以我們的基本責任是搞清心理是什么以及如何測量和量化,而統(tǒng)計只是其次的工作。如果能在心理變量的測量水平上和測量的有效性上有所改進的話,將會大大推動心理學的發(fā)展。

      我始終認為,心理學的根本問題不是發(fā)現(xiàn)某個變量和其他變量的關系,而是告訴人們心理究竟是什么,如何刻畫它,如何測量它,如何說明它的內在結構。但關于“是什么”的問題,缺乏現(xiàn)成的思維模型,而統(tǒng)計方法對此基本幫不上忙。然而,在這個統(tǒng)計方法統(tǒng)治心理學的時代,很多人能夠思考變量關系,但未必擅長思考變量究竟是什么。看起來當前研究的思維方式在走向復雜化(如處理多變量關系),但實際上思維在簡化,在惰化。

      研究者思維的惰化,很大程度上與統(tǒng)計軟件的應用有關。各種現(xiàn)成的統(tǒng)計軟件的存在雖然推動了統(tǒng)計方法的應用和普及,但它們在帶來方便的同時,也很容易培養(yǎng)人們的依賴性和思考的惰性。比如,我們花幾個月、甚至幾年時間設計研究并做研究,得到數據后,只用幾分鐘、幾小時就做完了統(tǒng)計。在研究者的頭腦中很少再思考統(tǒng)計方法教科書上的那些基本要求,比如變量的類型、分布形態(tài)、變量關系的線性程度,好像我們只要有數據,只要點幾下按鈕,一切就交給計算機處理好了。由此,統(tǒng)計分析這類復雜的認知活動,就退化成了點擊鼠標的身體動作,一切都輕松搞定,然而,便捷的同時增加了犯錯誤的風險。

      如今做統(tǒng)計,被有人譏諷為一種“統(tǒng)計儀式”。以零假設的顯著性檢驗為例,其存在的問題已經被討論了幾十年,然而人們在撰寫研究報告時依然未能充分考慮那些補救措施,因為已經形成的統(tǒng)計儀式、統(tǒng)計規(guī)范依然有強大的慣性,在左右著人們的觀念和行為。雖然有了統(tǒng)計軟件的幫助,但真正用好統(tǒng)計也實屬不易,我們應該加強對統(tǒng)計方法和結果的理論思考,糾正一些流傳已久的錯誤觀念和做法。統(tǒng)計軟件的應用帶來了方便,但不能因此讓我們喪失了對數據的深入思考,研究者有責任正確使用統(tǒng)計方法并合理報告統(tǒng)計結果及其意義。統(tǒng)計不是心理學,只是心理學的工具。就像Cohen提醒我們的那樣,別忘了歷史上那些真正出色的心理學家都是不做統(tǒng)計推論的,比如馮特、苛勒、皮亞杰、勒溫、巴特萊特、弗洛伊德……[5]。所以我們應該反思:如果不做統(tǒng)計,我們還會研究心理學嗎?

      [1] STEVENSSS.On the Theory of Scales ofMeasurement.Science,1946,103(2684),677-680.

      [2] 皮亞杰.人文科學認識論.鄭文彬,譯.北京:中央編譯出版社,1999.

      [3] WRIGHT D B.Making Friends with Your Data:Improving How Statistics Are Conducted and Reported.British Journal of Educational Psychology,2003,73,123-136.

      [4] TUKEY JW.The Philosophy of Multiple Comparisons.Statistical Science,1991,6,100-116.

      [5] COHEN J.Things IHave Learned(so far).American Psychologist,1990,45,1304-1312.

      [6] COHEN J.The Earth Is Round(p<.05).American Psychologist,1994,49,997-1003.

      [7] ROSNOW R L,ROSENTHAL R.Statistical Procedures and the Justification of Knowledge in Psychological Science.American Psychologist,1989,44,1276-1284.

      [8] ROSNOW R L,ROSENTHALR.Effect Sizes for Experimenting Psychologists.Canadian Journal of Experimental Psychology,2003,57(3),221-237.

      [9] WILKINSON L,The Task Force on Statistical Inference,APA Board of Scientific Affairs.Statistical Methods in Psychology Journals:Guidelines and Explanations.A-merican Psychologist,1999,54,594-604.

      [10] GLASSG V.Primary,Secondary and Meta-Analysis of Research.Educational Researcher,1976,10(5),3-8.

      [11] GLASSG V,MCGAW B,SMITH M L.Meta-Analysis in Social Research.Beverly Hills,CA:Sage,1981.

      [12] 袁方,王漢生.社會研究方法教程.北京:北京大學出版社,1997.

      [13] XIN Ziqiang,CHILiping,YU Guoliang.The Relationship between Interparental Conflict and Adolescents'AffectiveWell-Being:Mediation of Cognitive Appraisals and Moderation of Peer Status.International Journal of Behavioral Development,2009,33(5),421-429.

      [14] 李其維.“認知革命”與“第二代認知科學”芻議.心理學報,2008,40(12),1306-1327.

      【責任編輯:王建平】

      B841

      A

      1000-5455(2010)01-0039-08

      2009-08-25

      辛自強(1975—),男,山東費縣人,心理學博士,北京師范大學發(fā)展心理研究所副教授、博士生導師。

      猜你喜歡
      心理學顯著性變量
      抓住不變量解題
      也談分離變量
      爆笑心理學
      爆笑心理學
      基于顯著性權重融合的圖像拼接算法
      電子制作(2019年24期)2019-02-23 13:22:26
      基于視覺顯著性的視頻差錯掩蓋算法
      爆笑心理學
      爆笑心理學
      一種基于顯著性邊緣的運動模糊圖像復原方法
      論商標固有顯著性的認定
      知識產權(2016年8期)2016-12-01 07:01:32
      鄂伦春自治旗| 象山县| 丽江市| 永寿县| 兴海县| 扶余县| 乌恰县| 和平区| 钟山县| 珲春市| 龙井市| 射阳县| 通榆县| 神池县| 札达县| 鄯善县| 扎鲁特旗| 县级市| 马边| 漳浦县| 武威市| 河北省| 体育| 台南市| 崇明县| 望都县| 千阳县| 汕头市| 无锡市| 二手房| 长岭县| 治县。| 福建省| 玉溪市| 吕梁市| 高唐县| 金川县| 徐州市| 南投县| 昂仁县| 大城县|