• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種基于半監(jiān)督學(xué)習(xí)的地理加權(quán)回歸方法

      2017-02-16 08:24:56趙陽(yáng)陽(yáng)劉紀(jì)平徐勝華張福浩
      測(cè)繪學(xué)報(bào) 2017年1期
      關(guān)鍵詞:樣本監(jiān)督性能

      趙陽(yáng)陽(yáng),劉紀(jì)平,徐勝華,張福浩,楊 毅

      1. 遼寧工程技術(shù)大學(xué)測(cè)繪與地理科學(xué)學(xué)院,遼寧 阜新 123000; 2. 中國(guó)測(cè)繪科學(xué)研究院政府地理信息系統(tǒng)研究中心,北京 100830

      一種基于半監(jiān)督學(xué)習(xí)的地理加權(quán)回歸方法

      趙陽(yáng)陽(yáng)1,2,劉紀(jì)平1,2,徐勝華2,張福浩2,楊 毅2

      1. 遼寧工程技術(shù)大學(xué)測(cè)繪與地理科學(xué)學(xué)院,遼寧 阜新 123000; 2. 中國(guó)測(cè)繪科學(xué)研究院政府地理信息系統(tǒng)研究中心,北京 100830

      地理加權(quán)回歸方法在小樣本數(shù)據(jù)下回歸分析精度往往不高。半監(jiān)督學(xué)習(xí)是一種利用未標(biāo)記樣本參與訓(xùn)練的機(jī)器學(xué)習(xí)方法,可以有效地提升少量有標(biāo)記樣本的學(xué)習(xí)性能?;诖吮疚奶岢隽艘环N基于半監(jiān)督學(xué)習(xí)的地理加權(quán)回歸方法,其核心思想是利用有標(biāo)記樣本建立回歸模型來訓(xùn)練未標(biāo)記樣本,再選擇置信度高的結(jié)果擴(kuò)充有標(biāo)記樣本,不斷訓(xùn)練,以提高回歸性能。本文采用模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)進(jìn)行試驗(yàn),以均方誤差提升百分比作為性能評(píng)價(jià)指標(biāo),將SSLGWR與GWR、COREG對(duì)比分析。模擬數(shù)據(jù)試驗(yàn)中,SSLGWR在3種不同配置下性能分別提升了39.66%、11.92%和0.94%。真實(shí)數(shù)據(jù)試驗(yàn)中,SSLGWR在3種不同配置下性能分別提升了8.94%、3.36%和5.87%。SSLGWR結(jié)果均顯著優(yōu)于GWR和COGWR。試驗(yàn)證明,半監(jiān)督學(xué)習(xí)方法能利用未標(biāo)記數(shù)據(jù)提升地理加權(quán)回歸模型的性能,特別是在有標(biāo)記樣本數(shù)量較少時(shí)作用顯著。

      地理加權(quán)回歸;半監(jiān)督學(xué)習(xí);SSLGWR;人口分布

      空間分析能很好地反映地理要素的局部空間特征,準(zhǔn)確地探索自然地理要素和社會(huì)人文要素空間特征的變化情況[1-3]。地理加權(quán)回歸(geographically weighted regression,GWR)是一種有效探測(cè)空間非平穩(wěn)特征的分析方法。它的思路是:將空間位置屬性嵌入到回歸系數(shù)中[4-5],建立因變量和自變量之間的函數(shù)關(guān)系,利用有標(biāo)記(labeled)樣本代入函數(shù)關(guān)系,算出回歸系數(shù),從而建立回歸模型,進(jìn)行分析或預(yù)測(cè)。這里有標(biāo)記樣本是指含有自變量和因變量的樣本數(shù)據(jù)[6]。對(duì)應(yīng)的,只含自變量、不含因變量的樣本數(shù)據(jù)稱為未標(biāo)記(unlabeled)樣本[6]。在GWR建模過程中,有標(biāo)記樣本的數(shù)量關(guān)系到模型的精度,當(dāng)有標(biāo)記樣本較少時(shí),往往難以建立可靠的模型[7]。而實(shí)際應(yīng)用中,有時(shí)難以獲得大量的有標(biāo)記樣本,如PM2.5濃度觀測(cè)數(shù)據(jù),受空氣質(zhì)量監(jiān)測(cè)站數(shù)量的限制,一個(gè)城市同一個(gè)時(shí)間內(nèi),只能獲取十幾條甚至幾條觀測(cè)數(shù)據(jù)。但多數(shù)情況下,可以方便地收集大量的未標(biāo)記樣本。因此,如何在少量有標(biāo)記樣本情況下,充分利用未標(biāo)記樣本提升GWR模型精度是一個(gè)值得研究的問題。

      半監(jiān)督協(xié)同訓(xùn)練可以利用未標(biāo)記樣本輔助訓(xùn)練,提升少量有標(biāo)記樣本的學(xué)習(xí)性能[8-11]。本質(zhì)上,半監(jiān)督協(xié)同訓(xùn)練是一種半監(jiān)督學(xué)習(xí)方法,它是在大量未標(biāo)記樣本和少量有標(biāo)記樣本的基礎(chǔ)上,采用迭代的方式,讓不同的學(xué)習(xí)器訓(xùn)練未標(biāo)記樣本,通過吸收訓(xùn)練結(jié)果提升學(xué)習(xí)性能[12]。文獻(xiàn)[13]將半監(jiān)督學(xué)習(xí)方法和k近鄰回歸方法相結(jié)合,提出了協(xié)同回歸法(co-training regression,COREG)。文獻(xiàn)[14]用支持向量機(jī)建立回歸器,實(shí)現(xiàn)了基于支持向量機(jī)的半監(jiān)督回歸訓(xùn)練方法(Semi-SVM)。上述研究表明,基于半監(jiān)督學(xué)習(xí)的回歸方法可以充分利用大量未標(biāo)記樣本,提升少量有標(biāo)記樣本的回歸精度。然而,受回歸器的限制,這些方法還不能有效地分析空間非平穩(wěn)特性,因此,在空間分析中存在一定的局限性。

      綜上所述,有兩個(gè)問題需要解決:①少量有標(biāo)記樣本下,GWR回歸精度不高;②當(dāng)前基于半監(jiān)督學(xué)習(xí)的回歸方法無法分析空間非平穩(wěn)特征。為解決上述問題,本文提出一種基于半監(jiān)督學(xué)習(xí)的地理加權(quán)回歸方法(semi-supervised-learning geographically weighted regression,SSLGWR)。該方法充分利用半監(jiān)督學(xué)習(xí)的優(yōu)勢(shì),通過未標(biāo)記樣本輔助,提升小樣本數(shù)據(jù)下GWR的回歸精度。同時(shí),SSLGWR以GWR為回歸器,可以研究空間非平穩(wěn)特征,更適用于空間領(lǐng)域分析應(yīng)用。

      1 基于半監(jiān)督學(xué)習(xí)的地理加權(quán)回歸方法

      1.1 方法原理

      SSLGWR的原理是:采用有標(biāo)記樣本建立兩個(gè)差異化的回歸器,利用兩個(gè)回歸器訓(xùn)練未標(biāo)記樣本,在每個(gè)回歸器上選擇訓(xùn)練結(jié)果最好的未標(biāo)記樣本,加入另一個(gè)回歸器的有標(biāo)記樣本中,重新建立回歸器,不斷重復(fù)訓(xùn)練過程,直到滿足特定條件為止。它實(shí)質(zhì)上是利用兩個(gè)回歸器的“分歧”訓(xùn)練未標(biāo)記樣本,以提升回歸模型的泛化能力。研究發(fā)現(xiàn),當(dāng)兩個(gè)回歸器存在顯著的差異時(shí),可以提升學(xué)習(xí)性能[15]。事實(shí)上,SSLGWR的差異性不僅體現(xiàn)在回歸器上,還包括未標(biāo)記樣本,而未標(biāo)記樣本訓(xùn)練結(jié)果的質(zhì)量也關(guān)系到回歸器的性能。因此,本節(jié)重點(diǎn)闡述地理加權(quán)回歸器、未標(biāo)記樣本和置信度方法3個(gè)關(guān)鍵內(nèi)容。

      1.1.1 地理加權(quán)回歸器原理

      地理加權(quán)回歸的回歸系數(shù)與樣本空間位置有關(guān),即自變量對(duì)因變量的影響隨空間位置的變化而變化[16-17]。影響的程度可以用一個(gè)距離函數(shù)表示,該距離稱為帶寬,影響程度稱為空間權(quán)重,距離函數(shù)稱為空間核函數(shù),簡(jiǎn)稱核函數(shù)[4]。常用的核函數(shù)有距離閾值法、距離反比法、高斯(Gauss)核函數(shù)和近高斯(Bi-square)核函數(shù)等[4,13]。當(dāng)確定核函數(shù)后,存在一個(gè)帶寬,使回歸模型的誤差最小,此時(shí)的帶寬稱為最優(yōu)帶寬[18]。地理加權(quán)回歸模型的關(guān)鍵是選擇核函數(shù),確定最優(yōu)帶寬。研究發(fā)現(xiàn),不同核函數(shù)的帶寬敏感度不同,而帶寬的變化會(huì)對(duì)結(jié)果產(chǎn)生大幅度影響。因此,核函數(shù)和帶寬可以用來區(qū)分回歸器。設(shè)回歸器為

      h=GWR(fun,L,band)

      (1)

      式中,fun表示核函數(shù);L表示有標(biāo)記樣本,記作L={(xi,ui,vi,yi)|i=1,2,…,n};band表示最優(yōu)帶寬。

      帶寬過大回歸參數(shù)的估計(jì)偏大,帶寬過小回歸參數(shù)的估計(jì)方差會(huì)偏大[18]。為了減小帶寬造成的誤差,當(dāng)重建回歸器時(shí),需要重新計(jì)算帶寬。本文最優(yōu)帶寬采用Cleveland提出的CV交叉驗(yàn)證法來計(jì)算[19]

      (2)

      式中,CVj表示帶寬為bandj時(shí)的CV值,j=1,2,…,m表示m個(gè)備選帶寬;yi為因變量y在(xi,ui,vi)處的觀測(cè)值;L-i表示去掉(xi,ui,vi,yi)后的有標(biāo)記樣本。選擇bandk使CV值最小

      CV(bandk)=min(CV(bandj))

      (3)

      式中,bandk即為最優(yōu)帶寬。

      1.1.2 未標(biāo)記樣本

      為了提升泛化能力,除了保持回歸器的差異性外,訓(xùn)練的未標(biāo)記樣本也應(yīng)保持顯著差異。因此,未標(biāo)記樣本的選擇應(yīng)遵循下述命題。

      設(shè)U為未標(biāo)記樣本,記作U={(xi,ui,vi)|i=1,2,…,m},設(shè)U1、U2分別為回歸器1和2在某次訓(xùn)練時(shí)選擇的未標(biāo)記數(shù)據(jù),記作U1={(xi,ui,vi)|i=1,2,…,l},U2={(xi,ui,vi)|i=1,2,…,l},U1?U,U2?U。那么,對(duì)任意(xi,ui,vi)∈U1,則(xi,ui,vi)?U2,且對(duì)任意(xi,ui,vi)∈U2,則(xi,ui,vi) ?U1。

      U1、U2數(shù)據(jù)量(即l值)的設(shè)置要考慮未標(biāo)記樣本U總量、訓(xùn)練次數(shù)和訓(xùn)練時(shí)間等因素。如果l值太大,不僅會(huì)增加每次的訓(xùn)練時(shí)間,而且在U一定的情況下,訓(xùn)練次數(shù)會(huì)減少,可能會(huì)因訓(xùn)練不夠充分,導(dǎo)致學(xué)習(xí)效果不明顯。如果l值太小,備選的訓(xùn)練數(shù)據(jù)就很少,可能無法挑出滿足條件的訓(xùn)練結(jié)果,造成回歸性能無法優(yōu)化。

      1.1.3 置信度方法

      (4)

      那么,當(dāng)存在ξXx∈u>0時(shí),令

      N(x,u,v)=argmax(ξXx∈u)

      (5)

      式中,N(x,u,v)即為置信度最高的未標(biāo)記樣本。這里,置信度大于零說明存在未標(biāo)記樣本使回歸器性能提升,置信度最大說明性能提升幅度最大,即選中的數(shù)據(jù)是參與訓(xùn)練的未標(biāo)記樣本中置信度最高的數(shù)據(jù)。

      1.2 算法流程

      SSLGWR的過程可概括為:首先利用不同核函數(shù)和有標(biāo)記樣本建立兩個(gè)回歸器。然后從未標(biāo)記樣本池中選擇兩份未標(biāo)記數(shù)據(jù),分別在兩個(gè)回歸器上進(jìn)行回歸訓(xùn)練。再利用置信度方法選擇最優(yōu)的未標(biāo)記數(shù)據(jù),加入到另一個(gè)回歸器的有標(biāo)記樣本中,重新建立回歸器模型。重復(fù)訓(xùn)練過程直到循環(huán)結(jié)束為止,最終模型的預(yù)測(cè)結(jié)果為兩個(gè)回歸器預(yù)測(cè)結(jié)果的平均數(shù)。

      SSLGWR流程如圖1所示,對(duì)應(yīng)步驟描述如下。

      圖1 SSLGWR流程Fig.1 Flow chart of SSLGWR

      (1) 獲取有標(biāo)記樣本、未標(biāo)記樣本;計(jì)算不同核函數(shù)下有標(biāo)記樣本的最優(yōu)帶寬,建立兩個(gè)回歸器;初始化參數(shù),設(shè)置訓(xùn)練最大迭代次數(shù)、未標(biāo)記訓(xùn)練樣本的數(shù)量。

      (2) 對(duì)每一個(gè)回歸器,從未標(biāo)記樣本中選擇未標(biāo)記訓(xùn)練數(shù)據(jù),并計(jì)算其在對(duì)應(yīng)回歸器上的預(yù)測(cè)值。

      (3) 對(duì)每個(gè)回歸器上的未標(biāo)記訓(xùn)練數(shù)據(jù)進(jìn)行置信度判斷,當(dāng)至少有一個(gè)回歸器存在置信度高的數(shù)據(jù)時(shí)執(zhí)行步驟(4),否則執(zhí)行步驟(6)。

      (4) 將選中的未標(biāo)記樣本和預(yù)測(cè)值作為有標(biāo)記樣本,加入另一個(gè)回歸器中,同時(shí),從未標(biāo)記樣本中刪除該數(shù)據(jù)。

      (5) 當(dāng)有標(biāo)記樣本發(fā)生變化時(shí),計(jì)算帶寬,重新建立回歸器模型。

      (6) 迭代次數(shù)增加1。

      (7) 判斷當(dāng)前迭代次數(shù)是否小于最大迭代次數(shù),是則執(zhí)行步驟(2),否則執(zhí)行步驟(8)。

      (8) 循環(huán)結(jié)束,獲取兩個(gè)回歸器有標(biāo)記樣本和回歸器模型。輸出結(jié)果為兩個(gè)回歸器預(yù)測(cè)值的平均數(shù)。

      2 試 驗(yàn)

      本文基于Matlab實(shí)現(xiàn)了SSLGWR方法。設(shè)置最大迭代次數(shù)為50次,每次訓(xùn)練的未標(biāo)記數(shù)據(jù)量為100。程序?qū)⒂袠?biāo)記樣本之間的距離分為11等份,取中間10個(gè)節(jié)點(diǎn)作為備選帶寬。試驗(yàn)以MSE作為性能評(píng)價(jià)指標(biāo),性能提升比率是訓(xùn)練前后的MSE之差與訓(xùn)練前MSE的比值[7,13]。此外,結(jié)果用成對(duì)T檢驗(yàn)來評(píng)價(jià)顯著性水平。本文分別用模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)進(jìn)行測(cè)試,并采用GWR、COREG方法進(jìn)行對(duì)比。

      2.1 模擬數(shù)據(jù)試驗(yàn)

      2.1.1 試驗(yàn)數(shù)據(jù)

      模擬數(shù)據(jù)共8套,公式如表1所示。其中,x表示自變量,u、v表示位置變量,y表示因變量,U表示服從均勻分布,為了模擬真實(shí)性,數(shù)據(jù)中增加高斯白噪聲。模擬數(shù)據(jù)的數(shù)據(jù)量在1000到3000之間。模擬數(shù)據(jù)1—6來自文獻(xiàn)[18]研究地理加權(quán)回歸方法的試驗(yàn)數(shù)據(jù),模擬數(shù)據(jù)7、8是文獻(xiàn)[7,13]測(cè)試COREG方法性能的試驗(yàn)數(shù)據(jù)。參考文獻(xiàn)[7,13]COREG的試驗(yàn)配置,每套數(shù)據(jù)按照70%和30%的比例分為試驗(yàn)數(shù)據(jù)和測(cè)試數(shù)據(jù),試驗(yàn)數(shù)據(jù)按不同比例分為有標(biāo)記樣本和未標(biāo)記樣本,每個(gè)試驗(yàn)都采用10%∶90%、30%∶70%、50%∶50% 3種比例配置,每組試驗(yàn)重復(fù)30次。

      表1 試驗(yàn)數(shù)據(jù)情況說明

      2.1.2 結(jié)果分析

      表2記錄了某一次試驗(yàn)的結(jié)果。首先,對(duì)比SSLGWR與GWR在相同配置下的MSE,除了模擬數(shù)據(jù)1在50%標(biāo)記數(shù)據(jù)下GWR略優(yōu)于SSLGWR外,其余配置參數(shù)下SSLGWR的MSE均小于GWR,說明半監(jiān)督訓(xùn)練,可以有效地利用未標(biāo)記樣本,提升回歸模型的整體性能。其次,對(duì)比SSLGWR與COREG,在10%有標(biāo)記樣本下,COREG方法性能最優(yōu),在30%和50%的有標(biāo)記樣本下,COREG性能最差。說明當(dāng)有標(biāo)記樣本增加時(shí),空間非平穩(wěn)特征成為影響回歸性能的主要因素,由于COREG無法探測(cè)空間非平穩(wěn)特征,回歸精度最差。最后,對(duì)比SSLGWR在不同配置參數(shù)下的MSE,發(fā)現(xiàn)10%標(biāo)記樣本的MSE最大,50%標(biāo)記樣本下的MSE最小,30%標(biāo)記樣本下的MSE與50%的相差不大,說明有標(biāo)記樣本數(shù)據(jù)量對(duì)回歸模型性能影響很大,當(dāng)訓(xùn)練數(shù)據(jù)達(dá)到一定數(shù)量時(shí),回歸模型的性能趨于穩(wěn)定。

      表3記錄了SSLGWR方法30次試驗(yàn)性能提升比率的平均值。除了模擬數(shù)據(jù)1在50%下的性能沒有提升,其他性能均有提升,大部分?jǐn)?shù)據(jù)提升效果顯著。說明SSLGWR在半監(jiān)督學(xué)習(xí)輔助下,顯著地提升了少量有標(biāo)記樣本的回歸性能,且在少量有標(biāo)記樣本下作用最顯著。此外,10%、30%、50%標(biāo)記樣本下SSLGWR性能分別平均提升39.66%、11.92%、0.94%,說明SSLGWR性能提升比率隨著有標(biāo)記樣本量的增加,呈減小趨勢(shì)。這是因?yàn)殡S著有標(biāo)記樣本量的增加,回歸模型逐漸趨于穩(wěn)定,性能提升的空間變小。

      表2 各方法在不同配置參數(shù)下的MSE

      注:*表示0.1的顯著度;**表示0.05的顯著度;***表示0.01的顯著度。

      表3 SSLGWR各組試驗(yàn)性能提升比率

      2.2 真實(shí)數(shù)據(jù)試驗(yàn)

      2.2.1 數(shù)據(jù)準(zhǔn)備與預(yù)處理

      本文以京津冀地區(qū)人口分布與影響因素作為真實(shí)數(shù)據(jù)進(jìn)行試驗(yàn)。人口分布與社會(huì)經(jīng)濟(jì)發(fā)展、自然條件、交通等因素密切相關(guān)[20-21]。本文以京津冀2897個(gè)鄉(xiāng)鎮(zhèn)為統(tǒng)計(jì)單元,以鄉(xiāng)鎮(zhèn)人口總數(shù)為因變量,以鄉(xiāng)鎮(zhèn)質(zhì)心的平面投影坐標(biāo)為空間位置變量,選擇GDP、道路網(wǎng)密度、氣溫、降雨、DEM、土地利用、地形地貌等17個(gè)指標(biāo)作為備選自變量,其中人口數(shù)據(jù)來源第6次人口普查,GDP、氣溫、降雨、DEM、地形地貌數(shù)據(jù)來源于中國(guó)科學(xué)院資源環(huán)境科學(xué)數(shù)據(jù)中心,道路網(wǎng)數(shù)據(jù)和土地利用數(shù)據(jù)來源于中國(guó)地圖出版社。經(jīng)過多重共線性分析和逐步回歸分析[22],選擇地均GDP、道路網(wǎng)密度、DEM、居民地面積和林地面積5個(gè)因素建模。真實(shí)數(shù)據(jù)采用全部數(shù)據(jù)作為試驗(yàn)數(shù)據(jù),采用10折交叉驗(yàn)證法進(jìn)行驗(yàn)證。試驗(yàn)按10%∶90%、30%∶70%、50%∶50% 3種比例配置有標(biāo)記樣本和未標(biāo)記樣本,每組試驗(yàn)重復(fù)30次。

      2.2.2 結(jié)果分析

      圖2繪制了真實(shí)值和不同配置下SSLGWR模型預(yù)測(cè)值的空間分布情況。從宏觀角度觀察,4幅圖中人口分布空間趨勢(shì)基本保持一致,都集中在“北京—天津—邯鄲—石家莊”形成的區(qū)域內(nèi),說明3個(gè)回歸模型在全局趨勢(shì)預(yù)測(cè)上接近真實(shí)情況。從微觀角度觀察,4幅圖中人口都集中分布在北京、天津,但圖(b)的范圍比圖(a)的范圍大,而圖(c)、圖(d)的情況優(yōu)于圖(b),這是由于預(yù)測(cè)結(jié)果偏大造成的。另外圖(d)探測(cè)出承德市人口較多的區(qū)域符合真實(shí)情況,結(jié)果優(yōu)于圖(b)、圖(c),說明50%配置試驗(yàn)結(jié)果在局部分析上要優(yōu)于其他配置結(jié)果。

      表4 真實(shí)數(shù)據(jù)試驗(yàn)結(jié)果

      圖2 京津冀人口與預(yù)測(cè)分布Fig.2 The distribution of population in Beijing, Tianjin and Hebei

      3 結(jié) 論

      本文提出了一種基于半監(jiān)督學(xué)習(xí)的地理加權(quán)回歸方法,它能充分利用未標(biāo)記樣本,在有標(biāo)記樣本數(shù)據(jù)量小的情況下,顯著地提升回歸性能。同時(shí),利用地理加權(quán)回歸方法作為回歸器,能有效地分析回歸模型中的非平穩(wěn)因素,從而讓半監(jiān)督回歸方法適用于空間分析。本文通過模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)對(duì)SSLGWR進(jìn)行測(cè)試,模擬數(shù)據(jù)性能提升比率明顯,真實(shí)數(shù)據(jù)性能有所提升。試驗(yàn)結(jié)果說明,在少量有標(biāo)記樣本回歸分析中,SSLGWR能有效地利用未標(biāo)記樣本提升回歸模型的泛化能力。希望SSLGWR能在房?jī)r(jià)預(yù)測(cè)、PM2.5預(yù)測(cè)等方面得到推廣應(yīng)用。但是,SSLGWR方法也存在一定的不足。在訓(xùn)練過程中,由于訓(xùn)練未標(biāo)記樣本和檢驗(yàn)未標(biāo)記樣本都是利用有標(biāo)記樣本進(jìn)行,盡管本文采用了置信度方法篩選未標(biāo)記樣本,盡量控制過擬合問題,但仍然不可避免,未來可進(jìn)一步解決。

      [1] 楊康, 李滿春, 劉永學(xué), 等. 基于累積相似度表面的空間權(quán)重矩陣構(gòu)建方法[J]. 測(cè)繪學(xué)報(bào), 2012, 41(2): 259-265, 272. YANG Kang, LI Manchun, LIU Yongxue, et al. Accumulated Similarity Surface for Spatial Weights Matrix Construction[J]. Acta Geodaetica et Cartographica Sinica, 2012, 41(2): 259-265, 272.

      [2] 朱長(zhǎng)明, 張新, 路明, 等. 湖盆數(shù)據(jù)未知的湖泊動(dòng)態(tài)庫(kù)容遙感監(jiān)測(cè)方法[J]. 測(cè)繪學(xué)報(bào), 2015, 44(3): 309-315. DOI: 10.11947/j.AGCS.2015.20130438. ZHU Changming, ZHANG Xin, LU Ming, et al. Lake Storage Change Automatic Detection by Multi-source Remote Sensing without Underwater Terrain Data[J]. Acta Geodaetica et Cartographica Sinica, 2015, 44(3): 309-315. DOI: 10.11947/j.AGCS.2015.20130438.

      [3] 禹文豪, 艾廷華, 劉鵬程, 等. 設(shè)施POI分布熱點(diǎn)分析的網(wǎng)絡(luò)核密度估計(jì)方法[J]. 測(cè)繪學(xué)報(bào), 2015, 44(12): 1378-1383, 1400. DOI: 10.11947/j.AGCS.2015.20140538. YU Wenhao, AI Tinghua, LIU Pengcheng, et al. Network Kernel Density Estimation for the Analysis of Facility POI Hotspots[J]. Acta Geodaetica et Cartographica Sinica, 2015, 44(12): 1378-1383, 1400. DOI: 10.11947/j.AGCS.2015.20140538.

      [4] FOTHERINGHAM A S, CHARLTON M, BRUNSDON C. Measuring Spatial Variations in Relationships with Geographically Weighted Regression[M]∥FISCHER M M, GETIS A. Recent Developments in Spatial Analysis. Berlin Heidelberg: Springer, 1997: 60-82.

      [5] HUANG Bo, WU B, BARRY M. Geographically and Temporally Weighted Regression for Modeling Spatio-temporal Variation in House Prices[J]. International Journal of Geographical Information Science, 2010, 24(3): 383-401.

      [6] 張晨光, 張燕. 半監(jiān)督學(xué)習(xí)[M]. 北京: 中國(guó)農(nóng)業(yè)科學(xué)技術(shù)出版社, 2013: 26-29. ZHANG Chenguang, ZHANG Yan. Semi-supervised Learning[M]. Beijing: China Agricultural Sciences and Technology Press, 2013: 26-29.

      [7] 黎銘. 單視圖協(xié)同訓(xùn)練方法的研究[D]. 南京: 南京大學(xué), 2008. LI Ming. Research on Single-view Co-training Approaches[D]. Nanjing: Nanjing University, 2008.

      [8] ZHOU Zhihua, LI Ming. Semi-supervised Learning by Dis-agreement[J]. Knowledge and Information Systems, 2010, 24(3): 415-439.

      [9] 周志華, 王玨. 機(jī)器學(xué)習(xí)及其應(yīng)用2007[M]. 北京: 清華大學(xué)出版社, 2007: 259-275. ZHOU Zhihua, WANG Jue. Machine Learning and Applications 2007[M]. Beijing: Tsinghua University Press, 2007: 259-275.

      [10] WANG Wei, ZHOU Zhihua. A New Analysis of Co-training[C]∥Proceedings of the 27th International Conference on Machine Learning. Haifa, Israel: [s.n.], 2010.

      [11] YANG Yi, LIU Jiping, XU Shenghua, et al. An Extended Semi-supervised Regression Approach with Co-training and Geographical Weighted Regression: A Case Study of Housing Prices in Beijing[J]. ISPRS International Journal of Geo-Information, 2016, 5(1): 4.

      [12] GOLDMAN S A, ZHOU Yan. Enhancing Supervised Learning with Unlabeled Data[C]∥Proceedings of the Seventeenth International Conference on Machine Learning. San Francisco, CA: ACM, 2000: 327-334.

      [13] ZHOU Zhihua, LI Ming. Semisupervised Regression with Cotraining-style Algorithms[J]. IEEE Transactions on Knowledge and Data Engineering, 2007, 19(11): 1479-1493.

      [14] 馬蕾, 汪西莉. 基于支持向量機(jī)協(xié)同訓(xùn)練的半監(jiān)督回歸[J]. 計(jì)算機(jī)工程與應(yīng)用, 2011, 47(3): 177-180. MA Lei, WANG Xili. Semi-supervised Regression Based on Support Vector Machine Co-training[J]. Computer Engineering and Applacation, 2011, 47(3): 177-180.

      [15] 周志華. 基于分歧的半監(jiān)督學(xué)習(xí)[J]. 自動(dòng)化學(xué)報(bào), 2013, 39(11): 1871-1878. ZHOU Zhihua. Disagreement-based Semi-supervised Learning[J]. Acta Automatica Sinica, 2013, 39(11): 1871-1878.

      [16] WU Bo, LI Rongrong, HUANG Bo. A Geographically and Temporally Weighted Autoregressive Model with Application to Housing Prices[J]. International Journal of Geographical Information Science, 2014, 28(5): 1186-1204.

      [17] ROBINSON D P, LLOYD C D, MCKINLEY J M. Increasing the Accuracy of Nitrogen Dioxide (NO2) Pollution Mapping Using Geographically Weighted Regression (GWR) and Geostatistics[J]. International Journal of Applied Earth Observation and Geoinformation, 2013, 21: 374-383. [18] 覃文忠. 地理加權(quán)回歸基本理論與應(yīng)用研究[D]. 上海: 同濟(jì)大學(xué), 2007. QIN Wenzhong. The Basic Theoretics and Application Research on Geographically Weighted Regression[D]. Shanghai: Tongji University, 2007.

      [19] CLEVELAND W S. Robust Locally Weighted Regression and Smoothing Scatterplots[J]. Journal of the American Statistical Association, 1979, 74(368): 829-836.

      [20] 柏中強(qiáng), 王卷樂, 楊雅萍, 等. 基于鄉(xiāng)鎮(zhèn)尺度的中國(guó)25省區(qū)人口分布特征及影響因素[J]. 地理學(xué)報(bào), 2015, 70(8): 1229-1242. BAI Zhongqiang, WANG Juanle, YANG Yaping, et al. Characterizing Spatial Patterns of Population Distribution at Township Level across the 25 Provinces in China[J]. Acta Geographica Scinica, 2015, 70(8): 1229-1242.

      [21] 戚偉, 李穎, 劉盛和, 等. 城市晝夜人口空間分布的估算及其特征——以北京市海淀區(qū)為例[J]. 地理學(xué)報(bào), 2013, 68(10): 1344-1356. QI Wei, LI Ying, LIU Shenghe, et al. Estimation of Urban Population at Daytime and Nighttime and Analyses of Their Spatial Pattern: A case Study of Haidian District, Beijing[J]. Acta Geographica Scinica, 2013, 68(10): 1344-1356.

      [22] GOLDSTEIN R. Conditioning Diagnostics: Collinearity and Weak Data in Regression[J]. Technometrics, 1993, 35(1): 85-86.

      (責(zé)任編輯:宋啟凡)

      A Geographic Weighted Regression Method Based on Semi-supervised Learning

      ZHAO Yangyang1, 2, LIU Jiping1, 2, XU Shenghua2, ZHANG Fuhao2, YANG Yi2

      1. School of Mapping and Geographical Science,Liaoning Technical University,F(xiàn)uxin 123000, China; 2. Chinese Academy of Surveying and Mapping, Beijing 100830, China

      Geographically weighted regression (GWR) approach will be affected by the quantity of label data. However, it is difficult to get labeled data but easy to get the unlabeled data in applications. Therefore it is indispensable to find an useful way that can use the unlabeled data to improve the regression results. As we know semi-supervised learning is a class of supervised learning tasks and techniques that also make use of unlabeled data for training typically a small amount of labeled data with a large amount of unlabeled data. So this article develops a semi-supervised-learning geographically weighted regression (SSLGWR). Firstly it builds the GWR model by labeled data. Then the unlabeled data can be calculated the value by the GWR model and they will be signed as new labeled data. Thirdly, use both labeled data and new labeled data to rebuild the GWR model to improve the model’s precision. The experiments use both simulated data and real data to compare GWR COGWR and SSLGWR. Mean square error is closed as the framework to estimate the models. Experiments using simulated data have shown that the proposed model improves the performance by 39.66%, 11.92% and 0.94% relative to 10%,30% and 50% label data. And experiments using real data have shown that the proposed model improves the performance by 8.94%, 3.36% and 5.87%. The results demonstrate that there are substantial benefits of SSLGWR in the improvement of GWR.Key words: geographically weighted regression; semi-supervised learning; SSLGWR; population distributionFoundation support: The Special Scientific Research Fund of Public Welfare Profession of China (No.201512032);The National Key Research and Development Program of China(No.2016YFC0803101)

      ZHAO Yangyang(1987— ), female, PhD candidate, majors in the government geographic information service and space analysis.

      LIU Jiping

      趙陽(yáng)陽(yáng),劉紀(jì)平,徐勝華,等.一種基于半監(jiān)督學(xué)習(xí)的地理加權(quán)回歸方法[J].測(cè)繪學(xué)報(bào),2017,46(1):123-129.

      10.11947/j.AGCS.2017.20150470. ZHAO Yangyang, LIU Jiping, XU Shenghua, et al.A Geographic Weighted Regression Method Based on Semi-supervised Learning[J]. Acta Geodaetica et Cartographica Sinica,2017,46(1):123-129. DOI:10.11947/j.AGCS.2017.20150470.

      P208

      A

      1001-1595(2017)01-0123-07

      測(cè)繪地理信息公益性行業(yè)科研專項(xiàng)(201512032);國(guó)家重點(diǎn)研發(fā)計(jì)劃(2016YFC0803101)

      2015-09-14

      趙陽(yáng)陽(yáng)(1987—),女,博士生,從事政府地理信息服務(wù)、空間分析方向研究。

      E-mail: 402862381@qq.com

      劉紀(jì)平

      E-mail: liujp@casm.ac.cn

      修回日期: 2016-07-11

      猜你喜歡
      樣本監(jiān)督性能
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      突出“四個(gè)注重” 預(yù)算監(jiān)督顯實(shí)效
      提供將近80 Gbps的帶寬性能 DisplayPort 2.0正式發(fā)布
      推動(dòng)醫(yī)改的“直銷樣本”
      監(jiān)督見成效 舊貌換新顏
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      夯實(shí)監(jiān)督之基
      村企共贏的樣本
      Al-Se雙元置換的基于LGPS的thio-LISICON的制備與性能表征
      強(qiáng)韌化PBT/PC共混物的制備與性能
      偃师市| 五家渠市| 酒泉市| 阿城市| 宝坻区| 云霄县| 古交市| 清水县| 榆社县| 南和县| 阿鲁科尔沁旗| 崇仁县| 北辰区| 沽源县| 社旗县| 彰化县| 大荔县| 康定县| 方城县| 高雄市| 南阳市| 苍溪县| 读书| 颍上县| 金塔县| 长汀县| 渭源县| 乐安县| 肥乡县| 金平| 佳木斯市| 上栗县| 余庆县| 依安县| 高淳县| 八宿县| 台南县| 嵊泗县| 马鞍山市| 富裕县| 潜山县|