宋榮榮,范亞茹
(西南民族大學數(shù)學學院,四川 成都 610041)
在眾多應用中,因變量與自變量的關系是非常復雜的.研究多個自變量與因變量之間的關系,就不得不考慮自變量之間的交互作用,因為交互作用會嚴重影響自變量與因變量的關系[1-5].不排除交互作用的干擾,會出現(xiàn)什么問題呢? 交互作用會造成因變量和自變量之間相關關系的偏倚,導致因變量與自變量之間的任何一種相關程度增大或減少[6-8].特別是當因變量和自變量不相關時,由于交互作用還會導致它們之間存在假的相關性[9].如何排除交互作用研究多自變量與因變量間的關系,是當前大學生在學習過程中亟待解決的問題. 在參加數(shù)學建模競賽時,大多數(shù)學生并不清楚如何排除交互作用,再研究多個自變量對因變量的影響[10-11].因此,教會學生如何排除交互作用的干擾,研究多個自變量對因變量的影響是至關重要的[12].
目前,排除交互作用的主要方法是多因素調整分析法[13].當問題中交互作用較多,且交互作用復雜時,可采用多因素調整分析法[14]. 在該方法中,根據(jù)因變量的類型,可選擇三種回歸模型:多重線性回歸、logistic 回歸及Cox 回歸.其中多重線性回歸的因變量是連續(xù)變量,logistic 回歸的因變量是分類變量,而Cox 回歸的因變量是時間變量.本文以2022 年全國大學生數(shù)學建模競賽C 題為例,研究玻璃文物風化與紋飾、顏色及類型之間的關系.因為風化是分類因變量,所以選用logistic 回歸排除交互作用的干擾,并研究多自變量與因變量的關系.
本文將基于SPSS 軟件建立logistic 回歸模型,為學生提供一種層層遞進的探究方法,讓學生掌握如何排除交互作用的干擾研究多個自變量與因變量之間的關系,如何利用軟件探究自變量之間的交互作用,如何深入地分析交互作用對變量間相關關系的影響.
以2022 年高教社杯全國大學生數(shù)學建模競賽C題為例,探究古代玻璃制品的成分分析與鑒別. 由于古代玻璃很容易因為埋藏環(huán)境的影響而導致風化,而且在風化過程中,外部環(huán)境元素與玻璃內部元素進行化學反應而大量地交換,導致玻璃的成分比例發(fā)生改變,繼而影響對玻璃類別的正確判斷. 現(xiàn)有一批我國古代玻璃制品的相關數(shù)據(jù),需要分析玻璃文物表面風化和顏色、玻璃類型以及紋飾的關系.
這個題目包括54 件古代玻璃文物,每件玻璃文物都有具體的分類信息,原始數(shù)據(jù)如表1 所示.
表1 54 件玻璃文物的分類信息Table 1 Classification information of 54 glass cultural relics
為更好的進行相關性分析,本文分別對表1 中“顏色”和“表面風化”兩個變量進行數(shù)據(jù)化處理,處理結果如表2 所示. 我們用1 到9 分別表示淺藍、藍綠、深綠、紫、淺綠、黑、深藍、綠色.用1 表示玻璃文物被風化,0 表示未風化.
表2 變量數(shù)據(jù)表Table 2 The table of variable data
為了研究文物樣品表面風化與顏色、玻璃類型以及紋飾間的關系. 首先,我們對所有變量進行相關性分析;其次,運用統(tǒng)計軟件SPSS27.0,建立了7 種logistic 模型,得到顯著性結果并進行分析;最后,根據(jù)顯著性的結果,排除交互作用的影響,給出風化與顏色、玻璃類型以及紋飾間的變量關系.
假設1:文物相互獨立;
假設2:文物的風化情況服從二項分布;
2.3 子宮內膜組織實時熒光定量PCR檢測兩組患者ER、PR 的表達水平比較 與對照組比較,宮腔粘連組患者ER 、PR蛋白表達水平均較高,兩組比較差異有統(tǒng)計學意義(P<0.05)。見表4。
假設3:π(xi)與xi有關,表示第i個文物發(fā)生風化的概率,簡記為πi.
定義為:
logistic 回歸不假設自變量與因變量之間存在直接的線性關系,而是通過鏈接函數(shù)建立線性關系,如
假設4:假設文物形狀對結果沒有顯著性影響;
假設5:假設只有顏色、紋飾和類別對風化有影響,不考慮其他因素對風化有重要影響.
設風化的情況記為Y(Y =1 表示文物已風化,Y=0 表示文物未風化),每件文物由若干指標表示其特征,記為X,如X1是類型,X2是顏色,X3是紋飾.xi表示第i個文物的特征觀測值,xi1表示第i個文物的類型值,xi2表示第i個文物的顏色值,xi3表示第i個文物的紋飾值,yi表示第i個文物的風化結果(i =1,2,…,54) ,β0是常數(shù)項,β1,β2,β3是logistic 模型回歸系數(shù),π(xi)的取值范圍是[0,1] .
我們層層遞進,深入分析了三個自變量類型、顏色、紋飾對因變量風化的關系.首先,不排除三個自變量的交互作用,探究每個自變量對因變量的影響;其次,排除任意兩個自變量之間的交互作用,探究每個自變量對因變量的影響;最后,排除三個自變量之間的交互作用,探究三個自變量對因變量的影響. 本文總共建立了7 個logistic 模型[15],如下所示.
1)不排除交互作用,建立每個自變量對因變量的影響模型.
模型一:不排除紋飾和顏色的交互作用,建立類型對風化的影響模型.
設風化情況為Y,每件文物的特征為X =X1,則在第i個文物X =xi =xi1的條件下,風化(yi =1 )的條件概率為:
模型二:不排除類型和紋飾的交互作用,建立顏色對風化的影響模型.
設風化情況為Y,每件文物的特征為X =X2,則在第i個文物X =xi =xi2的條件下,風化(yi =1 )的條件概率為:
模型三:不排除類型和顏色的交互作用,建立紋飾對風化的影響模型.
設風化情況為Y,每件文物的特征為X =X3,則在第i個文物X =xi =xi3的條件下,風化(yi =1 )的條件概率為:
2)排除任意兩個自變量之間的交互作用,探究剩余自變量對因變量的影響.
模型四:排除顏色和類型的交互作用,建立類型對風化的影響模型.
設風化情況為Y,每件文物的特征為X =(X1,X2) ,則在第i個文物X =xi =(xi1,xi2)的條件下,風化(yi =1 )的條件概率為:
模型五:排除紋飾和類型的交互作用,建立類型對風化的影響模型.
設風化情況為Y,每件文物的特征為X =(X1,X3) ,則在第i個文物X =xi =(xi1,xi3)的條件下,風化(yi =1 )的條件概率為:
模型六:排除紋飾和顏色的交互作用,建立顏色對風化的影響模型和紋飾對風化的影響模型.
設風化情況為Y,每件文物的特征為X =(X2,X3) ,則在第i個文物X =xi =(xi2,xi3)的條件下,風化(yi =1 )的條件概率為:
3)排除三個自變量之間的交互作用,建立三個自變量對風化的影響模型.
模型七:排除紋飾和顏色的交互作用,建立類型對風化、紋飾對風化和顏色對風化的影響模型.
設風化情況為Y,每件文物的特征為X =(X1,X2,X3) ,則在第i個文物X =xi =(xi1,xi2,xi3)的條件下,風化(yi =1 )的條件概率為:
其中,logistic 回歸模型主要采用極大似然法估計4 個未知參數(shù)β0,β1,β2,β3.
利用表2 的數(shù)據(jù),運用SPSS27.0 軟件,得到logistic 模型中的參數(shù)的最大似然估計值,模型一的結果如表3 所示.
表3 不排除紋飾和顏色的交互作用下類型對風化的模型結果(模型一)Table 3 Model results of the type on the weathering with the interaction of texture and color (Model I)
由表3 知,類型的顯著性值為0.024,小于置信水平0.05,所以在紋飾和顏色的交互作用下,類型對風化在統(tǒng)計學意義上有顯著性影響;Odds Ration (OR)值為0.250,表明高鉀發(fā)生風化的可能性與鉛鋇發(fā)生風化可能性之比是0.25,鉛鋇更容易發(fā)生風化.在紋飾和顏色的交互作用下,類型對風化的影響模型為:
lnπ(xi)=β0+β1xi1=0.693-1.386xi1.
從模型二到模型七的顯著性結果如表4 到表9所示.當顯著性值大于置信水平0.05 時,表明該變量對因變量的影響不顯著;反之,顯著性值小于置信水平0.05 時,表明該變量對因變量的影響顯著,且顯著性值越小表明影響越顯著.
表4 不排除類型和紋飾的交互作用下顏色對風化的模型結果(模型二)Table 4 Model results of the color on the weathering with the interaction of type and decoration (Model II)
由表4 到表9 知,模型二到模型七的顯著性結果都大于置信水平0.05,說明從模型二到模型七,模型的自變量對因變量在統(tǒng)計學意義上沒有顯著性影響.
另外,由表9 中每個自變量的參數(shù)估計值的絕對值大小知,對風化影響最重要的前三種特征是:黑色(62.034),藍綠色(59.352)和高鉀( -56.391),其中黑色和藍綠色對風化是正相關影響,高鉀對風化是負相關影響.由表3 中的顯著性結果(0.024)知,考慮其他自變量交互作用時,類型對風化有顯著性影響;由表6 ~表9 中的顯著性結果知,不考慮其他自變量交互作用時,類型對風化沒有顯著性影響.由表4、表5、表8 和表9 中的顯著性結果知,考慮和不考慮其他自變量交互作用時,顏色和紋飾對風化都沒有顯著性影響.
表5 不排除類型和顏色的交互作用下紋飾對風化的模型結果(模型三)Table 5 Model results of the decoration on the weathering with the interaction of type and color (Model III)
表6 排除顏色和類型的交互作用下類型對風化的模型結果(模型四)Table 6 Model results of the type on the weathering without the interaction of color and type (Model IV)
表7 排除紋飾和類型的交互作用下類型對風化的模型結果(模型五)Table 7 Model results of the type on the weathering without the interaction of decoration and type (Model V)
表8 排除任意兩個自變量的交互作用下自變量對風化的模型結果(模型六)Table 8 Model results of the independent variables on the weathering without the interaction of any two independent variables (Model VI)
表9 排除三個自變量的交互作用下自變量對風化的模型結果(模型七)Table 9 Model results of the independent variables on the weathering without the interaction of three independent variables (Model VII)
綜上所述,通過討論自變量間的交互作用,本文探究了多個自變量對因變量的影響,獲得了7 個自變量和因變量的關系模型. 從7 個關系模型中,發(fā)現(xiàn)模型一是最能表示3 個自變量和因變量之間的關系.
本文以數(shù)學建模題目為例,詳細闡述了如何分析多個自變量與因變量間的關系.通過深入考慮多個自變量之間的交互作用,建立多個Logistic 回歸模型,層層遞進地研究了多個自變量對因變量的影響,得出最能表示自變量與因變量之間的關系模型.
因變量是定性變量的回歸分析,作為一種有效的數(shù)據(jù)處理方法,已被廣泛應用于醫(yī)學、考古學、社會調查、生物信息處理等領域. 教會大學生如何分析多個自變量與因變量的關系,建立準確的關系模型,不論在競賽中還是在學習過程中都非常重要.