楊語蒙 李興東 王善培
(蘭州交通大學數(shù)理學院 甘肅 蘭州 730070)
傳統(tǒng)意義下的相關(guān)關(guān)系就是線性相依關(guān)系,但隨機數(shù)據(jù)或隨機變量間往往存在更為復雜的非線性相依關(guān)系,因此對隨機數(shù)據(jù)或隨機變量進行相依性分析具有更重要的應(yīng)用價值.目前為止,相依性分析廣泛應(yīng)用于股票市場的隨機波動、銀行貸款、醫(yī)療診斷分析等領(lǐng)域.在早期的研究中,陳睿君首次提出了相依違約的違約風險度量[1];張金清,李徐等人運用連接函數(shù)研究流動性風險與市場風險[2].后期也有很多學者對變量間的相依性分析進行研究,主要借助Sklar定理進行探討[3][4],如張堯庭借助Copula函數(shù)刻畫股市間的相依性[5];韓思遠基于熵對相依程度度量[6];張亞文基于相對距離研究變量間的相依性[7].筆者認為,條件概率是相依性分析的概率基礎(chǔ)與重要工具,克服了前面度量指標的局限性.目前相關(guān)研究較少,該文基于條件概率、條件分布、條件期望等不同角度探討事件、隨機變量間的相依性,并闡述相依性分析的應(yīng)用實例,以拋磚引玉.
(一)借助條件概率刻畫事件之間的相依性關(guān)系
由條件概率公式,進一步得到:事件A與事件B正相依,當且僅當P(AB)>P(A)P(B);事件A與事件B負相依,當且僅當P(AB)
(二)借助貝葉斯公式刻畫事件之間的相依性關(guān)系
(三)借助似然度刻畫任意隨機事件之間的相依性關(guān)系
定義2.設(shè)A,B是任意兩事件,則稱λ(A,B)為A與B的似然度.特別的,若P(A)與P(B)中至少有一個為0,則規(guī)定λ(A,B)=1.
可見,任意兩事件A與B的似然度λ,實質(zhì)是集合A與B的二元集函數(shù),且函數(shù)值是非負實數(shù).無論似然度λ取任何非負值,A與B彼此間的作用是相互的、同向的,且作用程度是等量的,任何一個后驗概率都等于對應(yīng)先驗概率的λ倍,這就是任意兩事件間的相依原理.
至此,分別從條件概率、乘法公式與似然度的角度,可得到兩隨機事件之間負相依、不相依、正相依的等價條件.
(四)隨機事件之間相依性的等價條件
性質(zhì)1.設(shè)A,B是隨機試驗E的任意兩事件,則有以下結(jié)論.
4.任意兩隨機事件之間或負相依、或不相依、或正相依,三者必具其一且只具其一.
事件可看作靜態(tài)的隨機變量,研究動態(tài)隨機變量之間的相依性更具有廣泛的意義.正如條件概率是研究事件之間相依關(guān)系的工具,條件分布是研究隨機變量之間相依關(guān)系的有力工具.
類似地,設(shè)連續(xù)型隨機向量(X,Y)的聯(lián)合分布函數(shù)H(x,y)=P(X≤x,Y≤y),
則邊緣分布函數(shù)分別是:F(x)=P(X≤x)=H(x,+∞),G(y)=P(Y≤y)=H(+∞,y)
(一)由分布函數(shù)刻畫變量之間的相依性關(guān)系
(X,Y)獨立當且僅當H(x,y)-F(x)G(y)=0;
(X,Y)正象限相依當且僅當H(x,y)-F(x)G(y)≥0;
(X,Y)負象限相依當且僅當H(x,y)-F(x)G(y)≤0.
(二)由密度函數(shù)刻畫變量之間的相依性關(guān)系
(X,Y)獨立當且僅當h(x,y)-f(x)g(y)=0;
(X,Y)正象限相依當且僅當h(x,y)-f(x)g(y)≥0;
(X,Y)負象限相依當且僅當h(x,y)-f(x)g(y)≤0.
(三)由條件分布函數(shù)刻畫變量之間的相依性關(guān)系
(X,Y)獨立當且僅當F(x|y)-F(x)=0;
(X,Y)正象限相依當且僅當F(x|y)-F(x)≥0;
(X,Y)負象限相依當且僅當F(x|y)-F(x)≤0.
(四)由條件密度函數(shù)刻畫變量之間的相依性關(guān)系
(X,Y)獨立當且僅當f(x|y)-f(x)=0;
(X,Y)正象限相依當且僅當f(x|y)-f(x)≥0;
(X,Y)負象限相依當且僅當f(x|y)-f(x)≤0.
(五)由條件期望刻畫變量之間的相依性關(guān)系
(X,Y)獨立當且僅當E(Y|X=x)=E(Y);
(X,Y)正象限相依當且僅當E(Y|X=x)≥E(Y);
(X,Y)負象限相依當且僅當E(Y|X=x)≤E(Y).
可知,一般地,條件期望E(Y|X=x)=α(x)是x的函數(shù).若(X,Y)獨立,則α(x)是一個常數(shù)E(Y);若(X,Y)正象限相依,則函數(shù)α(x)在直線x=E(Y)的上方;若(X,Y)負象限相依,則函數(shù)α(x)在直線x=E(Y)的下方.進一步,將條件期望E(Y|X)看成隨機變量X的函數(shù),記為E(Y|X)=α(X),稱為隨機變量Y對X的回歸函數(shù)[11],或稱為Y對X的均值回歸函數(shù),從平均的意義上刻畫了變量X與Y之間的統(tǒng)計相依關(guān)系.
定理1.設(shè)任意二維隨機向量(X,Y),q(X)是任意的可測函數(shù),則E(Y-E(Y|X))2≤E(Y-q(X))2.
證E[Y-q(X)]2=E[(Y-E(Y|X)+(E(Y|X)-q(X))]2=E[Y-E(Y|X)]2+E[E(Y|X)-q(X)]2
+2E[(Y-E(Y|X))E(Y|X)-q(X)]
而E[(Y-E(Y|X))E(Y|X)-q(X)]=E{E[(Y-E(Y|X))(E(Y|X)-q(X))]|X}=0
故E[Y-q(X)]2=E[Y-E(Y|X)]2+E[E(Y|X)-q(X)]2≥E[Y-E(Y|X)]2
(一)貝葉斯公式中的相依性分析
分析(1)由貝葉斯公式,小孩第一次說謊后村民對小孩的信任度為
(2)因經(jīng)過小孩第一次說謊后,村民對小孩的信任度由起初的先驗概率P(B)=0.85修正下降為后驗概率P(B|A1)=0.5313,故用P(B|A1)代替P(B),由貝葉斯公式,小孩第二次說謊后村民對小孩的信任度又降為
(二)二維正態(tài)分布中隨機變量間僅存在線性相依關(guān)系
對于多維隨機變量,條件分布是研究變量之間相依關(guān)系的工具,邊緣分布與條件分布、邊緣期望與條件期望之間的關(guān)系等都刻畫了變量間的相依關(guān)系.
關(guān)于二維正態(tài)分布的邊緣分布、條件分布及其變量之間的相依關(guān)系,有以下重要結(jié)論:
(3)X與Y的相依性關(guān)系僅是線性關(guān)系;
(4)X與Y獨立當且僅當ρ=0.
證明(1)因X與Y的聯(lián)合密度函數(shù)為
故關(guān)于X的邊緣密度函數(shù)為
其中:
(2)因為X|Y的條件密度函數(shù)為
同理,Y|X的條件密度函數(shù)為
反之,當ρ=0時,因
故X與Y獨立.進一步表明對于二維正態(tài)分布,若變量間線性不相關(guān)時,則沒有任何相依關(guān)系,即獨立.
該定理表明,邊緣分布和條件分布都依賴于聯(lián)合分布;反之,僅僅由邊緣分布不一定得到聯(lián)合分布,因為變量間的相依結(jié)構(gòu)是未知的,但是對于正態(tài)分布來講,若變量間的相關(guān)系數(shù)已知,則聯(lián)合分布是確定的,變量間也是確定的線性相依結(jié)構(gòu).
在實際問題中,變量的分布往往是未知的,需要通過回歸分析方法來確定變量間的相依性關(guān)系.
(三)回歸分析中的相依性
例2.為了研究某一化學反應(yīng)過程中溫度X對產(chǎn)品得率Y的影響,測得數(shù)據(jù)如下:
Xi100110120130140150160170180190Yi45515461667074788589
討論隨機變量X與Y的相依性關(guān)系.
分析 一般地,E(Y|X)=α(X)是隨機變量Y的最佳估計,是X的函數(shù)但未必是線性函數(shù).在回歸分析中,E(Y|X)=α(X)就是變量Y對X的回歸函數(shù).實踐中,往往通過觀察隨機變量X與Y的樣本散點圖來判斷回歸函數(shù)是線性還是非線性.在本例中,由所給X與Y的樣本散點圖發(fā)現(xiàn)這些點大致在一條直線上,因此考慮選用線性回歸來討論X與Y之間的相依性關(guān)系.
根據(jù)表中數(shù)據(jù)得,
從而,
故得出產(chǎn)品得率Y與溫度X的回歸函數(shù)為:
可知,當溫度X達到165°時,產(chǎn)品得率Y的最佳預測值為:
在一元線性回歸方程中,由于斜率項k=0.483>0,故溫度X每增大一個單位,產(chǎn)品得率平均增大0.483個單位,說明變量X與Y之間存在正的線性相依關(guān)系。
在統(tǒng)計建模過程中,探究數(shù)據(jù)間的相依性關(guān)系顯得尤為重要.本文主要通過由條件概率、貝葉斯公式以及似然度等方式刻畫事件間的相依性關(guān)系;通過分布函數(shù)、密度函數(shù)、條件分布函數(shù)、條件密度函數(shù)以及條件期望等方式刻畫隨機變量間的相依性關(guān)系.討論相依性分析的應(yīng)用將事件與變量間的相依性淋漓盡致的展現(xiàn)出來.意義之處在于:這些指標能夠較準確地刻畫事件或隨機變量間的相依程度,它們基本上可以克服其他度量指標的不足之處,也可以適應(yīng)于各種相依類型,較準確地對復雜的相依性給出宏觀或整體的度量.在概率統(tǒng)計的理論與應(yīng)用中,往往要考察事件、隨機變量間的相互依賴關(guān)系及其依賴程度,將這種相互依賴關(guān)系稱為相依關(guān)系[12].直觀來說,事件或變量間存在著三種不確定性相依關(guān)系:一是彼此促進關(guān)系,稱為正相依關(guān)系;二是彼此抑制關(guān)系,稱為負相依關(guān)系;三是彼此互不影響、互不干擾關(guān)系,稱為獨立關(guān)系.變量間的不確定性相依關(guān)系,按是否為線性相依,可分為線性相依關(guān)系與非線性相依關(guān)系.