• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      L1正則化方法及其在經(jīng)濟(jì)增長中的應(yīng)用

      2020-07-01 08:14:08管勇攀
      統(tǒng)計(jì)學(xué)報 2020年3期
      關(guān)鍵詞:正則殘差梯度

      管勇攀

      (河北工業(yè)大學(xué)經(jīng)濟(jì)管理學(xué)院,天津300401)

      一、引言

      隨著現(xiàn)代經(jīng)濟(jì)發(fā)展與科技進(jìn)步,我們正逐漸走進(jìn)新的科學(xué)紀(jì)元——人工智能時代。人工智能時代是一個全新的時代,是一個科技爆炸的時代。機(jī)器學(xué)習(xí)作為人工智能中一個重要的科學(xué)領(lǐng)域,其重要性不言而喻。機(jī)器學(xué)習(xí)是一個由各學(xué)科交叉形成的大學(xué)科,涉及優(yōu)化問題、概率問題、統(tǒng)計(jì)學(xué)應(yīng)用等多個方面,其中,L1正則化是機(jī)器學(xué)習(xí)中對于成本函數(shù)取最優(yōu)的過程。

      L1正則化作為機(jī)器學(xué)習(xí)中常用手段之一,其本質(zhì)是通過對擬合函數(shù)的損失函數(shù)添加一個L1正則化項(xiàng),而避免擬合函數(shù)出現(xiàn)過擬合的情況。所謂過擬合,就是在機(jī)器學(xué)習(xí)的過程中,目標(biāo)函數(shù)過于依賴樣本值,而使得樣本中的每一個數(shù)據(jù)都擬合進(jìn)了函數(shù)中,當(dāng)然這也包括了一些噪聲,從而導(dǎo)致擬合出來的函數(shù)只適用于這個樣本集,只在這個樣本集的判斷或者預(yù)測效果上表現(xiàn)得十分優(yōu)異,如果切換到其他樣本集,則得到的目標(biāo)函數(shù)無法正確預(yù)測所需要的結(jié)果。L1正則化的優(yōu)點(diǎn)是,可以把擬合函數(shù)某些與結(jié)果不相關(guān)的自變量系數(shù)壓縮為0,這樣得到的模型就具有很好的可解釋性,也可通過模型更好地來分析、預(yù)測問題。L2正則化項(xiàng)是與L1正則化項(xiàng)相當(dāng)?shù)恼齽t化項(xiàng),其本質(zhì)是在求取損失函數(shù)的同時,將L2正則化項(xiàng)納入函數(shù)體系內(nèi),但是L2正則化項(xiàng)并不能把擬合函數(shù)的某些系數(shù)壓縮為0,它只能使某些系數(shù)無限接近于0,但不會等于0,因而在模型的解釋方面,L1正則化相對于L2正則化而言,具有一定的優(yōu)越性。

      二、文獻(xiàn)綜述

      機(jī)器學(xué)習(xí)的正則化問題,歸根到底就是一個優(yōu)化問題,即:

      其中,(f·)表示目標(biāo)函數(shù),S表示獨(dú)立同分布樣本集,S={(X1,y1),(X2,y2),…,(Xn,yn)}?Rn×Ψ(回歸問題時 Ψ=R,二分類問題時 Ψ={1,-1}),Xi、yi表示二位向量對應(yīng)的元素值。W=[W1,W2,…,Wn]T是模型的參數(shù),|·|||σp表示LP范數(shù)的 σ 次方,W?Rn。(lW;X,y)稱為損失函數(shù),它控制模型的訓(xùn)練精度。稱為正則化項(xiàng),用以避免模型的過擬合。通過對λ進(jìn)行調(diào)整,可以使模型具有訓(xùn)練精度和泛化能力的雙重特征。當(dāng)p=1時,就是L1正則化問題。優(yōu)化問題必然要涉及到優(yōu)化,從優(yōu)化的角度來看這個等式,通過L1正則優(yōu)化可得到一個凸優(yōu)化問題,這樣就使得優(yōu)化問題的求解變得容易(羅涓涓,2004;李若男,2018)[1,2]。此外,問題的解有時會帶有一定的稀疏性,這樣我們所擬合的函數(shù)將會變得難以解釋,通過對L1正則化進(jìn)行適當(dāng)改進(jìn),就可以在一定程度上解決特征稀疏問題(朱紅,2012;張立柱、寧偉等,2001;段玉紅、高玉林,2008)[3-5]。

      L1正則化問題的研究已經(jīng)初具成效,目前來看,國內(nèi)外有許多針對L1優(yōu)化問題的求解與改進(jìn)方法,這些方法各有優(yōu)劣之處,下面簡單介紹四種L1正則化問題的求解方法。

      (一)基于次梯度的多步驟方法

      公式(1)的多步驟解法大多是次梯度算法及其改進(jìn)版本,可以通過下式來定義f(W)在連續(xù)不可導(dǎo)點(diǎn)W0處的次梯度:

      解決無約束凸二次優(yōu)化問題的一般方法是隨機(jī)梯度法(SGD),其表達(dá)式為 Wk+1=Wk-αkg(Xi,Wk)(Zhong Tong,2004)[6]。隨機(jī)梯度法作為多步驟算法的一種,優(yōu)點(diǎn)是單步計(jì)算開銷?。ㄍ鯐詵|,2014)[7],缺點(diǎn)是收斂速度慢。就目前研究來看,隨機(jī)梯度算法仍沒有很好的停止準(zhǔn)則(苗碩,2015)[8]。通過對正則化問題的優(yōu)化形式進(jìn)行適當(dāng)變形,可得到公式(1)如下的等價形式:

      部分學(xué)者給出了L1投影算子的求解方法,對式(3)采用投影方法加以解決,其具體形式為Wk+1=PL1(Wk-αkg(Xi,Wk)),其中PL1(·)表示L1投影算子,投影過程如下:

      其中,θ是投影算子根據(jù)ρ和W計(jì)算出來的閾值,通過使用L1投影算子的求解方法來保證解的稀疏性,同時通過求解L1投影算子還能夠顯著提高算法的收斂速度(肖宿、鄭穎,2015;韓東、蓋衫,2018;劉福來、彭滬,2013)[9-11]。但是,這種求解方法的缺陷在于,在保證解的稀疏性的同時,若要提高收斂速度,需要付出 O(O=k×logn)①的計(jì)算代價(k 為解向量非零元的個數(shù))。由于有這種計(jì)算代價的存在,導(dǎo)致這種方法的實(shí)現(xiàn)十分困難(Duchi J and Shalev-Shwartz S,2008)[12]。

      Langford J(2009)認(rèn)為,隨機(jī)梯度下降方法(正則化問題中的一種方法)在實(shí)際使用過程中不具有稀疏性[13]。為了同時解決L1投影算子計(jì)算復(fù)雜性與算法解的稀疏性問題,Langford J(2009)等人提出了階段梯度這一求解方法。階段梯度的求解方法通過強(qiáng)制在梯度上進(jìn)行截斷而達(dá)到解具有稀疏性的目的,因而這種方法不具有明確的機(jī)器學(xué)習(xí)含義[13]。算法優(yōu)化的目標(biāo)函數(shù)普遍差異性較大,并且可能需要求解非凸優(yōu)化問題,在增加求解難度的同時,也會導(dǎo)致算法的收斂速度不可估計(jì)。

      前向后向分裂算法(也被稱為FOBOS算法)是基于次梯度算法的一種改進(jìn)算法,可以通過下式來描述:

      其中,argWmin{}表示使括號內(nèi)數(shù)據(jù)取最小值時的W值,Ψ(W)可取L1、L2以及L∞正則化項(xiàng)。這種FOBOS算法由兩步組成,第一步是非常標(biāo)準(zhǔn)的隨機(jī)梯度下降方法,第二步是在盡可能靠近第一步解向量的同時,使正則化項(xiàng)最小化。該方法通過確定算法的收斂性和regret界,②使算法的理論基礎(chǔ)得到充分保障。當(dāng)取L1正則化項(xiàng)時,算法的第二步就具有了解析解,則算法具有了稀疏性。

      (二)基于坐標(biāo)優(yōu)化的多階段方法

      坐標(biāo)優(yōu)化方法也稱為坐標(biāo)下降方法,此算法包含內(nèi)外兩個循環(huán)。在外循環(huán)中,通過優(yōu)化解向量的各個維的坐標(biāo),以實(shí)現(xiàn)一次外循環(huán)。在內(nèi)循環(huán)中,在優(yōu)化某一坐標(biāo)時,固定W的其余d-1維坐標(biāo),使其不發(fā)生改變,那么對該維坐標(biāo)(設(shè)為第j維)求解就類似于求解下面的單變量子問題:

      由于在正則化問題優(yōu)化形式的目標(biāo)函數(shù)中有絕對值函數(shù)的存在,因而是不可微的,所以上式?jīng)]有解析解,那么就不可能直接應(yīng)用坐標(biāo)下降法。除了坐標(biāo)下降法以外,還可以應(yīng)用其他方法,例如,針對式(5)的上界Aj(Z)≥Dj(Z)進(jìn)行優(yōu)化,以達(dá)到優(yōu)化整體問題的目的。部分學(xué)者將其延伸并提出了BBR算法(董瀚澤、郭志川,2019)[14],將式(6)用類似泰勒展開的方法進(jìn)行變形,在函數(shù)的信賴區(qū)域內(nèi),得到問題的最優(yōu)解。但是目前來看,這種方法的收斂性仍然得不到一個準(zhǔn)確的結(jié)論。Langford J(2009)通過對式(6)的損失函數(shù)進(jìn)行二階近似,得到解析解后再進(jìn)行線搜操作,這樣目標(biāo)函數(shù)的單調(diào)下降性就可以被保證,此時算法也就具有了超線性的收斂速度[13]。

      (三)軟L1正則化方法

      求解式(1)的另一種方法就是正則化共軛平均法(RDA)。正則化共軛平均算法的單步計(jì)算代價和多步驟算法的單步代價相當(dāng),同時又具有多階段算法的優(yōu)勢(Duchi Jand Singer Y,2009)[15]。首先需要明確的是,數(shù)學(xué)優(yōu)化方法和機(jī)器學(xué)習(xí)問題不是等同的,在某種程度上,數(shù)學(xué)的優(yōu)化方法是機(jī)器學(xué)習(xí)研究的核心內(nèi)容。通過隨機(jī)梯度下降法知道,正則化項(xiàng)可以看作是普通的凸函數(shù),應(yīng)用次梯度方向迭代向量并不能發(fā)揮出正則化項(xiàng)的作用。這就等于說,這種方法沒有真正了解機(jī)器學(xué)習(xí)問題的特點(diǎn),而一些基于隨機(jī)梯度下降法的改進(jìn)算法,解的稀疏性也不夠理想。上述提到的一些方法可以稱為“硬”L1正則化,而RDA算法可看作是一種“軟”L1正則化,因?yàn)樵赗DA算法中,正則化項(xiàng)中加了一個強(qiáng)凸輔助項(xiàng)h(W)=0.5,其在線算法的迭代過程可用下式來表述:

      這里的{βt}是非負(fù)不減的名稱的來源,用以表示所有次梯度(解向量共軛空間中的點(diǎn)的均值)。

      添加輔助項(xiàng)h(W)后,解決問題的便利度獲得了極大提升,其原因不僅是輔助項(xiàng)的添加使得RDA算法獲得了最優(yōu)的收斂速率和regret界,而且還可使式(7)通過迭代得到解析解,這也是RDA算法和一般隨機(jī)梯度下降法的主要區(qū)別所在。

      (四)雙正則化分位回歸方法

      隨著數(shù)據(jù)復(fù)雜性的日益提高,傳統(tǒng)的L1正則化方法顯現(xiàn)出了處理能力差的劣勢,于是Koenker(2004)提出了條件分位回歸模型(含隨機(jī)截距)[16],其模型表達(dá)式為:

      其中,αi表示隨機(jī)效應(yīng),并在此基礎(chǔ)上提出針對個體波動問題,可以通過施加L1正則化壓縮的分位回歸方法來解決,具體形式為:

      但是,Koenker(2004)提出的方法僅僅考慮了含隨機(jī)截距的混合效應(yīng)模型[16],事實(shí)上,部分個體效應(yīng)既可影響模型截距,還可影響模型斜率。在此基礎(chǔ)上,羅幼喜等(2017)將條件分位回歸模型推廣至含多重隨機(jī)效應(yīng)的情況[17]。在給定個體隨機(jī)效應(yīng)αi的條件下,響應(yīng)變量的τ分位回歸函數(shù)表達(dá)式為:

      進(jìn)而,針對個體效應(yīng)αi,運(yùn)用L1正則化分位回歸估計(jì)方法,函數(shù)形式為:

      其中,λ為懲罰參數(shù)。然而,式(4)只能對條件分位回歸函數(shù)的未知參數(shù)進(jìn)行估計(jì),不能同時對模型中重要自變量進(jìn)行區(qū)分。因而,羅幼喜(2017)等進(jìn)一步提出了雙L1正則化分位回歸方法[17],函數(shù)表達(dá)式為:

      顯然,該方法既可通過懲罰個體效應(yīng)來防止模型“過擬合”,還可以針對固定效應(yīng)系數(shù)進(jìn)行懲罰來挑選變量,增強(qiáng)模型的精度與可信度。由于本文研究的僅僅是天津的經(jīng)濟(jì)高質(zhì)量發(fā)展?fàn)顩r,選用的數(shù)據(jù)不涉及高維混合數(shù)據(jù),故而采用簡單L1正則化方法即可實(shí)現(xiàn)。

      (五)經(jīng)濟(jì)理論綜述

      目前學(xué)術(shù)界認(rèn)為經(jīng)濟(jì)高質(zhì)量增長主要體現(xiàn)在數(shù)量和質(zhì)量兩個方面:一方面,經(jīng)濟(jì)增長保持在中高速水平;另一方面,經(jīng)濟(jì)增長的同時能耗降低、人民生活水平提升、勞動生產(chǎn)率提高(任保平、李禹墨,2018)[18]。同時,低能耗、高共享的經(jīng)濟(jì)發(fā)展方式也能促進(jìn)經(jīng)濟(jì)高質(zhì)量增長。因而,本文參考周小亮、吳武林(2018)的研究,用人均GDP、二三產(chǎn)業(yè)人均產(chǎn)值、城鎮(zhèn)居民人均可支配收入、農(nóng)村居民人均純收入作為經(jīng)濟(jì)高質(zhì)量增長的衡量指標(biāo),從經(jīng)濟(jì)發(fā)展可持續(xù)性、機(jī)會的公平性以及人民生活三個維度構(gòu)建了衡量經(jīng)濟(jì)高質(zhì)量增長的指標(biāo)體系。經(jīng)濟(jì)發(fā)展可持續(xù)性包含了科研、產(chǎn)業(yè)結(jié)構(gòu)與就業(yè)結(jié)構(gòu)協(xié)調(diào)性、經(jīng)濟(jì)環(huán)境、綠色生產(chǎn)四個維度,采用R&D經(jīng)費(fèi)在GDP中占比、第二三產(chǎn)業(yè)就業(yè)率、通貨膨脹率以及單位產(chǎn)出能耗比四個指標(biāo)進(jìn)行度量。社會機(jī)會的公平性包含了教育、就業(yè)、醫(yī)療和社會保障四個維度,采用人均受教育年限、失業(yè)率、每千人醫(yī)療機(jī)構(gòu)床位數(shù)以及人均社保支出四個指標(biāo)進(jìn)行衡量。人民生活主要從減貧效果來考量,用改水覆蓋率、人口死亡率和15歲及以上文盲率分別作為生活水平、健康水平損失程度和知識水平損失程度三個維度的衡量指標(biāo)[19]。考慮樣本容量和數(shù)據(jù)可獲取性,本文選取的數(shù)據(jù)均來自2003—2017年《天津市統(tǒng)計(jì)年鑒》。樣本數(shù)據(jù)集中反映了天津目前經(jīng)濟(jì)高質(zhì)量增長狀況,從而保證了模型的真實(shí)性與有效性。

      三、最小角算法應(yīng)用與Lasso回歸

      Lasso回歸是一種較為常用的L1正則化方法,自1996年被提出以來,在機(jī)器學(xué)習(xí)中一直被廣泛應(yīng)用。Lasso回歸算法的原理是,首先構(gòu)造一個懲罰函數(shù),然后由此得到一個比較簡單的模型(陶春海、王玉曉,2018)[20]。這里所說的比較簡單的模型是通過壓縮一些不重要的變量系數(shù),讓其正好為0,也就是說,某些變量是對結(jié)果幾乎是沒有影響的,而Lasso回歸可以篩選出這些變量,讓這些變量被模型完全忽略。通過這種自動選擇,讓某些系數(shù)等于0,這樣就使得一些原來變量比較多的模型更容易被解釋。

      (一)Lasso回歸算法的原理

      相較于其他算法,Lasso算法是一種實(shí)用性較強(qiáng)的回歸算法,它的基本思想是使殘差平方和最小化,并且滿足所有回歸系數(shù)絕對值的和小于一個常數(shù)的條件。通過這種方法,在模型的擬合過程中,就可以使一些回歸系數(shù)嚴(yán)格等于0,這樣得到的模型具有良好的可解釋性,其數(shù)學(xué)表達(dá)式如下:

      其中,B為模型系數(shù),Xi和Yi分別表示樣本中二維向量的具體值。模型(13)中的參數(shù)λ用來控制Lasso回歸的復(fù)雜程度。參數(shù)λ越大,在擬合過程中擁有較多變量的線性模型受到的懲罰力度就會越大,通過這種方法,能使擬合出的模型擁有較少的變量。模型中的另一個參數(shù)α,可以控制當(dāng)擬合模型是高相關(guān)性數(shù)據(jù)時模型的性狀。Lasso回歸中α=1,這就和懲罰函數(shù)的形式和目的相對應(yīng)??梢試L試不同的值,得到不同值下所對應(yīng)的λ,來選擇當(dāng)λ取最優(yōu)時所對應(yīng)的參數(shù)。與式(1)類似,式(13)也可等價轉(zhuǎn)化為如下形式:

      其中,t>0,是算法的調(diào)整參數(shù),可以通過控制調(diào)整參數(shù)t來壓縮總體回歸系數(shù)。Efron(2004)和Tibshirani(1996)提出的交叉驗(yàn)證法就可以很好地用于t值的確定[21,22]。Lasso算法可以對變量進(jìn)行壓縮,同時還可以保證參數(shù)估計(jì)較大的變量得到較小的壓縮,而把那些參數(shù)估計(jì)較小的變量壓縮為0。在參數(shù)估計(jì)方面,Lasso分析還可以使參數(shù)估計(jì)擁有連續(xù)性,這樣對于高維數(shù)據(jù)的擬合模型,就具有了很強(qiáng)的適用性。

      Lasso回歸的優(yōu)點(diǎn)在于選擇變量,它是通過參數(shù)估計(jì)來實(shí)現(xiàn)的。如果變量的參數(shù)估計(jì)較大,那么變量只會得到較小的壓縮;如果變量的參數(shù)估計(jì)很小,那么變量就會被壓縮為0。由于Lasso回歸具有這個特點(diǎn),所以得到的參數(shù)估計(jì)就具有了連續(xù)性。Lasso回歸還有一個特點(diǎn)就是,當(dāng)需要建立一個廣義的線性模型時,不需要考慮因變量是連續(xù)的還是離散的。Lasso回歸對離散或者連續(xù)的因變量都可以處理,這就表明,若數(shù)據(jù)較為復(fù)雜,一般最小二乘對數(shù)據(jù)的處理能力較低,則此時可以應(yīng)用Lasso回歸。這是因?yàn)?,Lasso回歸對于數(shù)據(jù)的要求比較低,應(yīng)用范圍也更加廣泛。此外,Lasso回歸還可以進(jìn)行變量的篩選以及模型復(fù)雜度的調(diào)整。變量篩選的意思是,在擬合模型時,不需要把所有的變量都放進(jìn)模型中,只需要把適合的變量放入模型,就可以得到一個完美的性能參數(shù)。復(fù)雜度調(diào)整是在保證模型反映數(shù)據(jù)關(guān)系的前提下,通過適當(dāng)調(diào)整一些參數(shù),從而使模型的復(fù)雜程度得到控制,避免出現(xiàn)過擬合之類的問題。一般來說,線性模型的復(fù)雜度和變量數(shù)量有明顯的關(guān)系,模型的復(fù)雜度越高,變量數(shù)就越多。不同的變量在擬合過程中可以得到一個看起來更好的模型,但是也有可能成為模型過擬合的直接原因。

      (二)最小角回歸算法的原理

      在介紹最小角回歸算法之前,需要先介紹前項(xiàng)選擇算法和前向梯度算法兩個預(yù)備算法。

      1.前向選擇(Forward Selection)算法。前向選擇算法用于求解線性關(guān)系Y=Xθ的系數(shù)向量,其中Y為m×1的向量,X為m×n的矩陣,θ為n×1的向量。m為樣本數(shù)量,n為特征維度??梢园丫仃嘪簡單地看成n個m×1的向量Xi(i=1,2,…,n),在Y的X變量Xi(i=1,2,…,m)中,可以選擇一個和目標(biāo)Y最為接近也就是二者余弦距離最大的變量Xk,然后用Xk來近似逼近Y,得到下式:

      圖1 前項(xiàng)選擇法二維范例

      當(dāng)X只有2維時,可使用圖1作為例子來表示,此時和Y最接近的是X1。首先在X1上面投影,圖1中的長虛線就是殘差。此時X1θ1模擬了Y,θ1模擬了θ(僅僅模擬了一個維度)。接著可以看出此時最接近的是X2,使用殘差繼續(xù)在X2投影,圖1中短虛線就是現(xiàn)在的殘差。至此,自變量全部被使用,X1θ1+X2θ2模擬的就是Y,對應(yīng)模擬了兩個維度的θ即為最終結(jié)果。θ計(jì)算較多運(yùn)用了矩陣運(yùn)算,此處不再贅述。

      由于該算法只是對每個變量進(jìn)行了一次操作,所以效率是極高的,算法運(yùn)行的速度也得到了保障。但是,該算法同樣存在一些不足,就是在自變量不具有正交關(guān)系的情況下,由于算法每一步都是在做投影運(yùn)算,因此只能給出一個局部近似解。總體來看,這個簡單的算法較為粗糙,還不能直接用于Lasso回歸分析中。

      2.前向梯度(Forward Stagewise)算法。前向梯度算法用到的原理中,帶著前向選擇算法的影子,二者原理有相通的地方,同樣都是在Y的X變量Xi(i=1,2,…,n)中,選擇和目標(biāo)Y最為接近也就是二者余弦距離最大的一個變量Xk,用Xk來逼近Y。但是,前向梯度算法不使用投影這種粗暴的方法,而是每次在最為接近的自變量Xt的方向移動一小步,然后再看殘差Yyes和哪一個Xi(i=1,2,…,n)最為接近。此時仍不能去除Xt,因?yàn)橹皇乔斑M(jìn)了一小步,仍然存在下面最接近的自變量還是Xt的可能性。如此進(jìn)行下去,直到殘差Xt減小到足夠小,算法停止。

      圖2 前向梯度法二維范例

      如圖2,當(dāng)Y只有2維時,和Y最接近的是X1。首先在X1上移動一小段距離,此處ε為一個較小的常量,可以發(fā)現(xiàn),此時殘差還是和X1接近。接著沿X1移動,當(dāng)殘差和X1的距離并不是最小,而是和X2的距離最小時,殘差如圖2中長虛線所示。繼續(xù)沿著X2逐步移動一個常量,通過計(jì)算得到殘差又重新和X1最為接近,那么繼續(xù)沿著X1走,走完一步后發(fā)現(xiàn)殘差為0,算法停止。此時,Y由剛才所有步相加模擬得到,對應(yīng)算出的系數(shù)θ為最終結(jié)果。此處θ計(jì)算涉及較多矩陣運(yùn)算,不再贅述。這種算法在ε很小時,得到的最優(yōu)解是十分精確的,與此同時,算法計(jì)算的迭代次數(shù)也有較大增加。與前向選擇算法相比,前向梯度算法更加精確,但是計(jì)算起來更加復(fù)雜。

      3.最小角回歸算法。最小角回歸算法綜合了前面所述的兩種算法,對兩種算法的迭代判別方法進(jìn)行了折中處理,使得前向梯度算法的精確性得到了保留,同時前向梯度算法的迭代過程也得到了簡化。下面對最小角回歸算法的原理進(jìn)行介紹。

      首先,找到與因變量Y最接近或者相關(guān)度最高的自變量Xk,這時可以使用類似于前向梯度算法中的殘差計(jì)算方法,得到新的目標(biāo)Yyes。與前向梯度算法不同的是,不是每次前進(jìn)一個較小的常數(shù),而是繼續(xù)直接向前移動,直到出現(xiàn)一個Xt,使得Xt和Yyes的相關(guān)度與Xk和Yyes的相關(guān)度是一樣的,此時殘差Yyes就在Xt和Xk的角平分線方向上,這個時候前進(jìn)的方向就是殘差角平分線,直到出現(xiàn)第三個特征Xp,當(dāng)它和Yyes的相關(guān)度足夠大時,即Xp和當(dāng)前殘差Yyes的相關(guān)度與Xt、Xk和Yyes的相關(guān)度一樣,將其也加入到Y(jié)的逼近特征集合中,并用Y的逼近特征集合的共同角分線,作為新的逼近方向。以此循環(huán),當(dāng)Yyes足夠小時,或者說所有的變量都已經(jīng)取完了,算法停止,此時對應(yīng)的系數(shù)θ即為最終結(jié)果。

      圖3 最小角回歸法二維范例

      如圖3,只有2維時,和Y最接近的是X1,首先在X1上面走一段距離,當(dāng)殘差在X1和X2的角平分線上時,就沿著角平分線走,當(dāng)殘差滿足要求時停止算法,此時對應(yīng)的系數(shù)θ即為最終結(jié)果。

      四、實(shí)證分析

      L1正則化方法可以使模型參數(shù)擬合值變小,對過擬合狀況有較好的調(diào)節(jié)作用,本文選取Lasso回歸中的最小角回歸法對少數(shù)指標(biāo)進(jìn)行線性驗(yàn)證,對過擬合現(xiàn)象進(jìn)行有效抑制。用循環(huán)坐標(biāo)下降法針對多個指標(biāo)進(jìn)行l(wèi)ogistic回歸,對影響經(jīng)濟(jì)高質(zhì)量增長的指標(biāo)進(jìn)行篩選,并對兩個模型進(jìn)行對比,同時以此驗(yàn)證模型的有效性。

      (一)嶺回歸算法的實(shí)現(xiàn)

      部分學(xué)者認(rèn)為,經(jīng)濟(jì)高質(zhì)量增長指數(shù)與通貨膨脹率(CPI)、R&D經(jīng)費(fèi)在 GDP中的占比、單位產(chǎn)出能耗比、二三產(chǎn)業(yè)就業(yè)率(分別為 X1、X2、X3、X4)相關(guān),本文運(yùn)用L1正則化中的Lasso回歸來從中選出主要變量,建立線性回歸模型加以驗(yàn)證,應(yīng)用最小二乘回歸得到的結(jié)果如表1所示。

      表1 最小二乘回歸模型

      從表1看,截距和自變量的相關(guān)系數(shù)除X4外均不顯著。觀察數(shù)據(jù)特點(diǎn),考慮 X1、X2、X3、X4間可能存在復(fù)共線性,因此利用R軟件中car包的VIF函數(shù)查看各自變量間的共線情況,結(jié)果見表2。

      表2 方差膨脹因子

      從表2來看,除X3外各自變量的方差膨脹因子都超過10,認(rèn)為存在復(fù)共線性,因此采用嶺回歸來擬合分析。嶺回歸方法是在最小二乘法殘差平方和最小化的基礎(chǔ)上,添加一個收縮懲罰項(xiàng),也就是常說的L2范數(shù)。但是,嶺回歸收縮變量時,預(yù)測變量的待估系數(shù)只是接近0,并不等于0,因此,我們在應(yīng)用嶺回歸時對于模型的結(jié)束不能很好地判斷。所以說,即使嶺回歸可以使模型的復(fù)雜度得到降低,但還是需要通過Lasso回歸來選擇變量。嶺回歸L2范數(shù)中α系數(shù)的選擇與模型的準(zhǔn)確性密切相關(guān),α系數(shù)過大會導(dǎo)致模型的精度較低,α系數(shù)過小又會導(dǎo)致模型過度擬合,從而失去了模型的現(xiàn)實(shí)性意義。

      圖4 嶺跡圖

      從圖4可以看到,當(dāng)α=0.1時,方差膨脹系數(shù)已經(jīng)接近于0,故這里采取α=0.1時的嶺回歸結(jié)果,結(jié)果如表3所示。

      表3 嶺回歸結(jié)果

      在各變量系數(shù)的顯著性明顯提高后,利用Lasso回歸中的最小角回歸法進(jìn)行變量篩選,以解決共線性問題。

      (二)Lasso算法的實(shí)現(xiàn)

      經(jīng)過分析,本文得到的LAR序列結(jié)果如表4所示。

      表4 變量選擇序列

      由此可見,Lasso 的變量選擇依次是 X4、X1、X2、X3,且擬合R2=0.98,說明擬合優(yōu)度良好。

      表5 Lasso回歸變量選擇

      由于Lasso回歸所使用的L1范數(shù)是絕對值之和,Lasso回歸的損失函數(shù)是不連續(xù)可導(dǎo)的,因此求解L1范數(shù)的損失函數(shù)的最小值就變得較為困難,還需要應(yīng)用坐標(biāo)下降法進(jìn)行分析。

      五、L1正則化在logistic回歸中的應(yīng)用

      (一)logistic回歸模型

      logistic回歸模型是回歸分析模型的一種,它是廣義的線性模型,用于處理因變量為分類變量的回歸問題。二分類法是logistic回歸最常見的形式,也就是說,因變量滿足二項(xiàng)分布。logistic回歸在多分類的因變量問題中應(yīng)用得非常廣泛(曹芳、朱永忠,2012)[23],它實(shí)際上是一種分類方法,但是其原理也包含了回歸模型的分析方法。

      二分類的logistic回歸所對應(yīng)的問題都是二分類問題,二分類問題的結(jié)果發(fā)生概率和自變量之間是S型曲線,該曲線函數(shù)可以定義為:

      該函數(shù)的定義域?yàn)槿w實(shí)數(shù),值則為[0,1]。當(dāng)x的取值足夠大時,該問題可被看作0、1問題,即二分類問題。大于0.5時可以看成是1類問題,小于0.5時則是0類問題,等于0.5時則可以看成0類問題也可以看成1類問題。當(dāng)因變量是0-1型變量時,y=1的概率分布可以定義為:

      如果采用線性模型來對數(shù)據(jù)進(jìn)行分析,則可以將公式定義為:

      但是在現(xiàn)實(shí)應(yīng)用中,事情發(fā)生概率和因變量并不總是線性的,大部分時候是非線性的。當(dāng)數(shù)據(jù)之間的關(guān)系是非線性時,可以運(yùn)用logit變換,使logit(p)和自變量之間形成線性關(guān)系。logistic回歸模型表示為:

      這也可以表明,概率p和因變量之間存在非線性關(guān)系。當(dāng)p大于0.5時,可以判斷y更偏向于1,否則 y為 0。

      logistic回歸主要用來預(yù)測事情是否發(fā)生以及發(fā)生的概率,在已經(jīng)建立回歸模型的情況下,通過模型可以預(yù)測在不同的自變量下事件是否發(fā)生或者發(fā)生的概率有多大。logistic回歸還可以用于分析影響結(jié)果的主要因素,對變量進(jìn)行篩選,找出對因變量有顯著影響的自變量。

      (二)坐標(biāo)下降法

      坐標(biāo)下降法是一種非梯度優(yōu)化的機(jī)器學(xué)習(xí)方法,其原理是在每一步迭代過程中,在一個坐標(biāo)的方向上進(jìn)行線性搜索,然后通過循環(huán)使用不同的坐標(biāo)方法,找到目標(biāo)函數(shù)的局部極小值。

      假設(shè)一個坐標(biāo)下降法的目標(biāo)函數(shù),是求解f(x)的極小值,其中 x=(x1,x2,…,xn)是一個 n 維的向量。首先從初始的點(diǎn)x0開始,然后對k進(jìn)行循環(huán),開始計(jì)算:

      每次迭代過程只是更新了X的維度,也就是當(dāng)進(jìn)行X一個維度的計(jì)算時,把其他維度看作是常量,然后通過求解目標(biāo)函數(shù)取得最小值時所對應(yīng)的新的值,得到在這個維度下的最小值。坐標(biāo)下降法求解問題的思路就是通過迭代的構(gòu)造x0、x1、x2…來使問題得到解決(熊岑、張若秋、李輝,2018)[24]。

      相對于機(jī)器學(xué)習(xí)的另一種優(yōu)化方法(梯度下降法)而言,坐標(biāo)下降法的優(yōu)點(diǎn)是不需要計(jì)算目標(biāo)函數(shù)的梯度,它是在每一步的迭代過程中,求解一個一維搜索問題,因而可以應(yīng)用于某些復(fù)雜問題的計(jì)算。但是,在目標(biāo)函數(shù)不是光滑的情況下,應(yīng)用坐標(biāo)下降法可能會陷入非駐點(diǎn)。

      (三)坐標(biāo)下降法的應(yīng)用(logistic回歸)

      logistic回歸也會面臨過擬合問題,因而要考慮正則化,相比普通的logistic回歸損失函數(shù),logistic回歸的L1正則化損失函數(shù)增加了L1的范數(shù)作為懲罰,超參數(shù)α作為懲罰系數(shù)來調(diào)節(jié)懲罰項(xiàng)的大小。二元logistic回歸的L1正則化損失函數(shù)的具體表達(dá)式為:

      其中,||θ||1為 θ的 L1范數(shù)。R 軟件中 glmnet程序包解決L1正則化下logistic回歸的方法為循環(huán)坐標(biāo)下降法,其原理與Lasso回歸的坐標(biāo)下降法基本相同,此處不再贅述。

      在上文中,通過嶺回歸和Lasso回歸中的最小角回歸法我們分析得出,在通貨膨脹率(CPI)、R&D經(jīng)費(fèi)在GDP中的占比、單位產(chǎn)出能耗比、二三產(chǎn)業(yè)就業(yè)率中,對經(jīng)濟(jì)高質(zhì)量增長有重大影響的因素為二三就業(yè)率和單位產(chǎn)出能耗比。在此基礎(chǔ)上擴(kuò)展指標(biāo)維度,就經(jīng)濟(jì)發(fā)展可持續(xù)性、社會機(jī)會公平性、人民生活三個維度共11個指標(biāo)展開分析,指標(biāo)信息如表6所示。

      通過在R軟件中對各指標(biāo)進(jìn)行分析,在可行范圍內(nèi),當(dāng)λ最小時實(shí)現(xiàn)最精確的logistic回歸,進(jìn)而判斷各指標(biāo)對經(jīng)濟(jì)高質(zhì)量增長水平的影響度,結(jié)果見圖5。

      觀察圖5并查看R軟件輸出結(jié)果λmin=0.015 7,可以發(fā)現(xiàn),當(dāng)λmin=0.015 7時,擬合優(yōu)度最高,但又不會出現(xiàn)過度擬合的情況。根據(jù)擬合結(jié)果對11個指標(biāo)進(jìn)行篩選,結(jié)果如圖6所示。

      表6 經(jīng)濟(jì)高質(zhì)量增長影響指標(biāo)

      圖5 λ的選擇

      圖6 結(jié)果篩選圖

      圖7 指標(biāo)系數(shù)圖

      從篩選圖中可看到,除了指標(biāo)4與指標(biāo)8,其余指標(biāo)對經(jīng)濟(jì)高質(zhì)量增長的影響均被認(rèn)為是0,也就是說,這些指標(biāo)均被logistic回歸剔除了。從系數(shù)圖中可看到,索引不為零的兩個指標(biāo),其系數(shù)一個接近10,一個小于-10,具體系數(shù)如表7所示。

      表7 具體指標(biāo)系數(shù)值

      從具體指標(biāo)系數(shù)值可以看到,指標(biāo)X4(二三產(chǎn)業(yè)就業(yè)率)的系數(shù)為8.312 2,X8(15歲以上人口文盲、半文盲比例)的系數(shù)為-13.157 1,說明指標(biāo)X4(二三產(chǎn)業(yè)就業(yè)率)對經(jīng)濟(jì)高質(zhì)量增長有正向促進(jìn)作用,這也與嶺回歸和Lasso回歸結(jié)果相吻合。指標(biāo)X8對經(jīng)濟(jì)高質(zhì)量增長有負(fù)向作用,說明勞動人口的受教育程度對于本地經(jīng)濟(jì)高質(zhì)量增長有著重要影響。

      六、結(jié)論與建議

      在線性回歸中,L1正則化方法可以對變量進(jìn)行篩選,從而避免了在模型擬合過程中出現(xiàn)過擬合現(xiàn)象,增加了模型的可解釋性,提高了模型的可信度。在非線性回歸中,L1正則化方法的應(yīng)用同樣能夠?qū)ψ兞窟M(jìn)行篩選,找出對因變量影響較大的自變量,從而根據(jù)自變量來判斷事件是否發(fā)生(二分類模型)或者其他需要預(yù)測的結(jié)果(多分類模型)?;趯?shí)證分析結(jié)果,在Lasso回歸過程中,對經(jīng)濟(jì)高質(zhì)量發(fā)展影響由大到小的因素依次為通貨膨脹率(CPI)、R&D經(jīng)費(fèi)在GDP中的占比、單位產(chǎn)出能耗比、二三產(chǎn)業(yè)就業(yè)率。在logistic回歸模型中,對經(jīng)濟(jì)高質(zhì)量增長具有影響的是二三產(chǎn)業(yè)就業(yè)率和勞動人口受教育程度。因此,驅(qū)動產(chǎn)業(yè)結(jié)構(gòu)轉(zhuǎn)型升級是提高經(jīng)濟(jì)高質(zhì)量發(fā)展的有效途徑,而產(chǎn)業(yè)轉(zhuǎn)型升級的核心步驟是技術(shù)升級,技術(shù)升級的根本在于人才。政府應(yīng)關(guān)注教育資源的公平獲取與配置、社會保障體系的完善以及社會保障資源的有效供給,緩解社會矛盾。

      一是注重人才培養(yǎng),促進(jìn)科技進(jìn)步。技術(shù)進(jìn)步是推動產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化升級的直接動力,人才培養(yǎng)是技術(shù)進(jìn)步的根本動力。產(chǎn)業(yè)結(jié)構(gòu)不合理的重要原因是缺少核心技術(shù)、缺少創(chuàng)新性人才、缺少知名品牌,集中起來就是自主創(chuàng)新能力不強(qiáng),因而增強(qiáng)自主創(chuàng)新能力是經(jīng)濟(jì)社會發(fā)展的關(guān)鍵所在。我國要加大對教育行業(yè)的支持力度,培養(yǎng)更多的科技人才以實(shí)現(xiàn)自主創(chuàng)新。自主創(chuàng)新不是放棄技術(shù)引進(jìn),而是要強(qiáng)化消化吸收與再創(chuàng)新。自主創(chuàng)新不是單純的技術(shù)創(chuàng)新,還包括產(chǎn)業(yè)創(chuàng)新、產(chǎn)品創(chuàng)新和品牌創(chuàng)新。自主創(chuàng)新要堅(jiān)持有所為有所不為,突出重點(diǎn)。

      二是充分發(fā)揮政府產(chǎn)業(yè)政策的導(dǎo)向作用。各省有關(guān)部門需要按照中央政府調(diào)整產(chǎn)業(yè)結(jié)構(gòu)的總體任務(wù)和要求,結(jié)合本地實(shí)際情況,制定具體措施,運(yùn)用經(jīng)濟(jì)和法律手段加強(qiáng)對全社會投資的宏觀調(diào)控,同時完善進(jìn)出口、土地、財稅等相關(guān)政策,引導(dǎo)合理投資。

      三是積極合理地引導(dǎo)外資的流向。在積極引進(jìn)外資的同時,還可以通過有關(guān)政策導(dǎo)向,改變外商投資結(jié)構(gòu),使之與我國產(chǎn)業(yè)結(jié)構(gòu)調(diào)整的要求基本上趨于一致。從重外資引進(jìn)規(guī)模向重外資引進(jìn)質(zhì)量轉(zhuǎn)變,有選擇地引進(jìn)外資項(xiàng)目,減少一般性產(chǎn)業(yè)項(xiàng)目的引進(jìn),限制高能耗、高耗材、高污染項(xiàng)目的引進(jìn),鼓勵設(shè)立研發(fā)中心,實(shí)現(xiàn)真正的產(chǎn)學(xué)研有機(jī)結(jié)合。

      注釋:

      ①O=k×log n表示時間與空間的復(fù)雜程度,在k元樣本中,若樣本容量是n,那么尋找一個元素需要進(jìn)行k×log n次查找。

      ②regret界表示正則化項(xiàng)之間的解的誤差。

      猜你喜歡
      正則殘差梯度
      基于雙向GRU與殘差擬合的車輛跟馳建模
      一個改進(jìn)的WYL型三項(xiàng)共軛梯度法
      基于殘差學(xué)習(xí)的自適應(yīng)無人機(jī)目標(biāo)跟蹤算法
      一種自適應(yīng)Dai-Liao共軛梯度法
      基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
      剩余有限Minimax可解群的4階正則自同構(gòu)
      一類扭積形式的梯度近Ricci孤立子
      類似于VNL環(huán)的環(huán)
      平穩(wěn)自相關(guān)過程的殘差累積和控制圖
      河南科技(2015年8期)2015-03-11 16:23:52
      有限秩的可解群的正則自同構(gòu)
      临清市| 北川| 历史| 通城县| 莒南县| 云安县| 晋中市| 阿拉善左旗| 奉化市| 宁明县| 克拉玛依市| 惠水县| 自治县| 苍南县| 张掖市| 阳朔县| 区。| 黎城县| 上林县| 迁西县| 周口市| 光山县| 西城区| 若尔盖县| 阿尔山市| 铜梁县| 潞西市| 泽普县| 泽库县| 大新县| 都兰县| 青州市| 桃江县| 灵武市| 泰安市| 迭部县| 彭州市| 长葛市| 建平县| 乌兰察布市| 崇义县|