王圣音,劉 瑜,陳澤東,施 力,張 晶
1. 首都師范大學資源環(huán)境與旅游學院,北京 100048; 2. 北京大學遙感與地理信息系統(tǒng)研究所,北京 100871
虛擬地理環(huán)境作為發(fā)展地理信息表達與處理的新一代平臺,探索如何將人類對于地理環(huán)境概念的認知模型和語義模型轉化為數(shù)學或邏輯模型,如何將人類對于時間空間過程推理融合在虛擬地理環(huán)境中[1-3]。在虛擬地理環(huán)境中,場所是地理空間知識表達的核心要素,也是表達人類活動與地理環(huán)境耦合關系的重要紐帶,與虛擬地理環(huán)境一同繼承地理學溝通自然科學與人文社會科學的“橋梁”的特征,從而為深入理解和表達人類主觀認知中的地理環(huán)境,以及基于虛擬地理環(huán)境的分析模擬提供支持[4-7]?!皥鏊?place)是被賦予了個體經(jīng)驗、活動與情感意義的空間位置或區(qū)域[8],是理解地理環(huán)境的重要途徑之一[9-10]。
文獻[11]指出場所研究需在對概念場所的位置及范圍(footprint)進行形式化的基礎上開展,以深入探究場所界域內所承載的活動、交互、情感等社會經(jīng)濟屬性及特征。場所范圍的表達作為場所建模的基礎與核心,其本質是模糊區(qū)域建模問題。由于場所的范圍具有模糊性,其認知往往因人而異,且根據(jù)特定的描述情境而變化,因而相比于具有明確邊界的行政區(qū)、建筑物、普查小區(qū)等區(qū)域,有關場所的地理信息難以表達于地理信息系統(tǒng)中[12]。為此,許多研究者針對不同類型的模糊區(qū)域范圍進行提取試驗。傳統(tǒng)認知試驗是劃定模糊區(qū)域邊界的有效方法,其原理是集合大眾的認知劃定普遍共識中的區(qū)域范圍及邊界[13-14]。然而,認知實驗雖能直接反映大眾的空間認知,卻由于實驗成本高,難以滿足對多個場所建模的需求。
隨著基于位置的服務的廣泛應用,研究者可借助各類海量時空數(shù)據(jù)探究人們對地理環(huán)境的認知,為場所的感知提供了豐富的屬性內容[15],也涌現(xiàn)許多模糊區(qū)域(場所)范圍的感知方法[16-25]。其中,文獻[17]提取網(wǎng)頁文本中的共現(xiàn)地名及其地理位置,采用核密度估計方法(kernel density estimation,KDE)對模糊地名的近似空間范圍進行建模;文獻[21]提出了適用于Flickr照片的城市場所提取流程,采用DBSCAN方法進行點集聚類,并通過Chi-Shape算法得到多邊形以表征場所;文獻[22]從多源社交媒體數(shù)據(jù)中提取“南加州”“北加州”相關的點數(shù)據(jù),采用DBSCAN探尋其邊界,結果顯示與Montello的傳統(tǒng)認知實驗方法下的結果較為一致,繼而總結了基于眾源數(shù)據(jù)的場所建模方法具有樣本量大、可重復、尺度適應等優(yōu)勢[23]。
總結現(xiàn)有的模糊區(qū)域建模方法,包括認知試驗與模糊集方法[13-14,22]、基于幾何體的方法(如Voronoi圖[17]、凸包[18])、基于插值的方法(如核密度估計[19-20])、基于空間聚類或分類的方法(如DBSCAN[21,23],支持向量機[24-25])等。其中,幾何體方法最為簡便,空間聚類和分類方法也體現(xiàn)出較高精度,但這兩種方法對邊界的劃定過于武斷而忽略場所模糊特性。并且值得指出的是,現(xiàn)有的研究僅對單個或少數(shù)幾個模糊區(qū)域進行表達,不能夠很好地回答以下幾個問題:城市中存在哪些場所?能否從眾源數(shù)據(jù)中提取更多場所,從而反映人們對城市的基本認知和空間結構?如何在同時構建多場所時,有效處理場所尺度、樣本量及點集分布的差異性所帶來的閾值選取問題?
因此,本文針對眾源數(shù)據(jù),提出基于自適應核密度估計的模糊集方法,以構建城市內多場所(multi-places)的模糊表達。由于傳統(tǒng)模糊集方法被認為在函數(shù)選取上較為主觀,本文通過點集局部密度表征人們對場所位置的認同程度,從而保留場所模糊特性。最終,以北京市五環(huán)區(qū)域內的場所為研究對象,從大眾點評網(wǎng)采集帶有場所名稱的興趣點(POI),實現(xiàn)針對城市多場所的多尺度空間范圍自動構建與可視化。本文所表達的場所均為城市居民普遍熟知和頻繁使用的地理區(qū)域名稱,旨在提供可反映城市空間認知的場所分析單元,為進一步感知場所的活動和情感語義提供支持。
由于基于眾源數(shù)據(jù)的點密度可反映公眾對該場所的認同度,本文運用點集生成多邊形的思路確定該場所范圍[13,16],即針對每一個場所的點集分別進行離群點去除與核密度估計,并以核密度值為模糊隸屬度函數(shù)(fuzzy membership function)的自變量,從而定義與概率密度值相對應的模糊隸屬度,使之以[0,1]范圍內的數(shù)值表示某一區(qū)域范圍內不同位置對該場所的隸屬程度,進而通過等值線截取模糊集,構建多場所范圍的多尺度表達,流程如圖1所示。
核密度估計法是采用平滑的峰值函數(shù)對空間中離散點xi(i=1,2,…,n)進行平滑擴展,將各個點擬合為連續(xù)光滑的概率密度曲面。假設每個點xi為一個事件,則以xi為中心,h為半徑(或稱帶寬)的區(qū)域內各位置發(fā)生該事件的概率隨距離衰減,使得與要素距離近的位置將被賦予更高概率,并在邊緣處概率衰減為0,通過疊加空間中所有點要素所對應的概率密度函數(shù),呈現(xiàn)出點要素聚集區(qū)域密度高,離散區(qū)域密度低,從而展現(xiàn)某一空間范圍內密度的連續(xù)變化特征,其公式為
(1)
式中,距離衰減的幅度由核函數(shù)K決定,本文采用Silverman提出的二次核函數(shù)[26]
核密度帶寬h代表每一個點的平滑范圍,其取值對核密度計算結果影響較大,若帶寬選取過小,將得到離散的面域單元,過分突出點集的局部聚集區(qū)域;若帶寬選取過大,所得到的場所將被過度概化,其結果趨近于圓形。在多場所生成過程中,若采用固定帶寬,則無法適應各場所的尺度和疏密程度差異。如圖2(b)所示,統(tǒng)一采用600 m帶寬時,可適應右側兩個尺度較小且密集的點集,卻無法適應左側兩個尺度大且稀疏的點集,因而得到離散面域;采用1500 m帶寬時,將使得圖2(c)中右側點集被過度概化為圓形面域。
由此可知,帶寬h的選擇應與每一場所的點集離散程度呈正相關,對于稀疏型的點集應采用較大的帶寬,而對于密集型點集應采用較小的帶寬[26],因而本文通過各點集的外包矩形面積S與點集總數(shù)N評估每一場所點集的疏密程度,并乘以系數(shù)k以計算自適應的帶寬h,具體公式如下
由此得到適應于不同點集的帶寬,可基本適應尺度不同的點集(如圖2(d)所示),所得到面域范圍能夠較好地體現(xiàn)點集的可能性范圍。此后,為使各場所的計算結果處于同一量綱下,需對原始數(shù)據(jù)進行線性變換,將其映射到[0,1]之間。公式如下
文獻[27]根據(jù)邊界將地理實體分為兩個類型,一類是具有真實邊界的對象(bona fide object),如湖泊、土地利用類型、建筑等;另一類是需要制定或劃分的對象(fiat object),通常是基于認知或法令規(guī)定的。由于大部分場所屬于fiat對象,具有邊界不確定、可認知、漸變的特點,通??刹捎媚:椒ū磉_模糊地物的邊界[28],即通過建立相應的隸屬度函數(shù)(membership function)[29],為空間中每一個位置賦予[0,1]之間的數(shù)值以表征其隸屬于某一場所的程度,這一方法在模糊地物邊界表達方面得到廣泛的應用。
根據(jù)文獻[30]的觀點,概率理論與模糊理論在表達不確定性時具有不同的解釋能力,概率是從事件發(fā)生的頻率來評估其發(fā)生的可能性,而模糊集是描述事件屬于“發(fā)生”這一范疇的程度。本文1.1中采用核密度估計方法計算空間中每一個位置屬于某一場所的密度概率,根據(jù)“點集密度越高,表示公眾對該位置隸屬于該場所的認同度越高”的假設,核密度值與隸屬度本應呈正比,然而密度的差異一方面來自公眾的認同度,另一方面則來源于商鋪分布的不均勻性,即少數(shù)區(qū)域的核密度值由于商鋪點的過度聚集而極其顯著,而核密度較高值與低值相比,由于其差異不顯著,在取截集時易被忽視。為進一步定義核密度值所對應的隸屬程度,本文對核密度值進行模糊函數(shù)變換,以歸一化后的核密度值作為自變量x,定義高于概率密度m的區(qū)域為隸屬于場所的區(qū)域(μ(x)>0.5),從而平滑核密度較高值與極端高值區(qū)域在隸屬程度上的差異,所采用的模糊函數(shù)如圖3所示,公式為
式中,s是散度,散度越大,曲線越陡峭;m是中點,即隸屬度為0.5時自變量的取值。圖3為m取值0.2時的模糊隸屬度函數(shù)。
由于模糊區(qū)域缺少相應的真實邊界,對建模方法的驗證通常采用準確率(precision)、召回率(recall)、F1等指標對具有真實邊界的區(qū)域(如行政區(qū)域)進行提取與計算[24-25]。行政區(qū)域與模糊區(qū)域雖在本質上不同,但仍可在一定程度上驗證方法的可行性與提取精度。假設R為行政區(qū)的真實范圍,R′為試驗所得的范圍,則準確率為提取結果中的正確范圍占真實范圍的比例,召回率為提取結果中的正確范圍占所提取結果的比例,F(xiàn)1為準確率與召回率的調和分數(shù)。3個指標的計算方法如下
本文采用大眾點評網(wǎng)中商戶自行標定的商鋪POI坐標及其行政區(qū)屬性,在10個行政區(qū)以不同的核密度系數(shù)k進行面域構建試驗,并對比傳統(tǒng)凸包算法,所得結果如表 1 所示。由于準確率(precision)高度依賴于點集覆蓋程度,而本試驗所采集的點集在除東城區(qū)和西城區(qū)以外的8個行政區(qū)內未能全面覆蓋,使得傳統(tǒng)的凸包方法因其易使范圍估值過大的特點,在準確率和F1值高于本文的方法。召回率是評價結果的正確率的指標,因此在評價方法時,應重點考察召回率。表 1 中,本文方法的召回率平均值達到0.9以上,而凸包算法遠低于本文的方法,且當點集全面覆蓋全行政區(qū)時,觀察到東城區(qū)和西城區(qū)的準確率與F1值整體略高于凸包算法。因此,本文的方法對模糊認知區(qū)域的提取具有一定優(yōu)勢。
表1 本文方法與凸包方法試驗結果對比
本文選取北京市五環(huán)區(qū)域作為研究區(qū),通過大眾點評網(wǎng)API接口獲取79 863條商鋪點數(shù)據(jù),共涉及120個“商圈”名稱標簽。所獲取的POI屬性信息均為商戶自行填寫,包含名稱、地址、坐標、所屬商圈、類別等信息,其中,“所屬商圈”是由商戶從大眾點評網(wǎng)所提供的商圈名稱列表中自行選擇。該數(shù)據(jù)具有以下幾個特點:①具有認知性。數(shù)據(jù)產生于商戶,因而代表了商戶對商鋪所屬場所的認知,點集的疏密程度能夠體現(xiàn)商戶對商鋪所屬場所的認同程度。其中,部分商圈標簽由兩個名稱組成,例如“西直門-動物園”,也反映出這一名稱具有其特定含義并被廣泛接受,因此在本文中算為一個場所。②層級一致性。商圈名稱列表中的場所名稱在尺度、層級等具有一致性,不存在一名多地、一地多名的情況,以及兩個地名之間的包含、被包含關系。③數(shù)據(jù)偏向性。由于單一數(shù)據(jù)源僅代表特定人群和特定語義情境下的觀點,相比于更側重體現(xiàn)游客在旅游行為下的場所認知的Flickr數(shù)據(jù)[21],大眾點評數(shù)據(jù)集則能夠更好地揭示商戶在餐飲消費行為下的場所認知。
由于數(shù)據(jù)中存在少量人工標定誤差和認知誤差造成的離群點,為避免每一個點集之內的少量離群點對自適應核密度帶寬的計算造成影響,本文采用了kNN(k-nearest neighbor)算法,設定一定的距離閾值去除離群點。首先,計算點集的全局平均距離L,以及點集之中的每個點i到距其最近的k個點之間的平均距離Li,若Li>nL(n為任意常數(shù)),則判定點i為噪聲點。本文設定k=5,n=5,圖4為去除離群點前后的“安定門”點集分布。
為比較各參數(shù)下場所范圍劃定情況,本節(jié)以安定門點集為例,展示了模糊隸屬度參數(shù)m=0.2,s=3,自適應核密度帶寬系數(shù)分別取值為1、3、5、10時,“安定門”場所范圍劃定結果。繪制不同隸屬度的等值曲線可多尺度表達場所范圍,等值線所圍成的區(qū)域稱為模糊截集σ,其中σ>0.9可被認為是公眾認同度較高的場所核心區(qū)域,σ=0.5可認為是場所外圍區(qū)域,而σ<0.5的區(qū)域則可被認為是非場所區(qū)域。根據(jù)“雞蛋/蛋黃(Egg/Yolk)”模型[31],σ=0.9和σ=0.5以內的區(qū)域可被分別認為是“蛋黃”與“雞蛋”。
由圖5可知,隨著核密度帶寬系數(shù)k取值的增大,空間范圍劃定結果由離散面域逐漸形成連續(xù)面域。當k取值過小,使得密度分析結果過分突出局部聚集區(qū)域,卻忽略了場所的全局特征;當k取值過大時,過度平滑將使場所面域范圍過度概化為一個圓形面域,造成范圍估值過大。
為簡化計算,本文根據(jù)3.1中的安定門點集所呈現(xiàn)的范圍劃定結果,統(tǒng)一選取核密度帶寬系數(shù)k=5,模糊函數(shù)參數(shù)s=3,m=0.2,對大眾點評數(shù)據(jù)下120個場所范圍進行提取試驗,圖6(a)以三維圖形展示了各場所的模糊認知,紅色峰值代表模糊隸屬度高值區(qū)域,藍色代表未被本文所提取的場所覆蓋的隸屬度低值區(qū)域;圖6(b)分別截取了0.9與0.5截集,以矢量形式對場所范圍進行多尺度表達,分別定義其為“核心區(qū)”與“外圍區(qū)”,以滿足對模糊場所進行精確化構建的需求。
以下將從結果中隨機選取14個場所,將大眾點評數(shù)據(jù)的提取結果與百度地圖所提供的場所范圍截圖進行對比,并做簡要分析與討論。
圖7中紫色區(qū)域為大眾點評數(shù)據(jù)所表達的該場所核心區(qū)(σ>0.9),黃色區(qū)域為該場所外圍區(qū)(σ>0.5),由圖可知,三里屯、西單、崇文門、什剎海、紫竹橋、前門等場所范圍提取結果與百度地圖顯示范圍分歧較少,而對于其余場所則有較大差異。總體而言,語義相似性或差異性主導了模糊范圍劃定結果的差異:
圖1 方法流程Fig.1 Workflow of multi-places generation
圖2 不同帶寬下對不同場所范圍表達結果Fig.2 Representation place footprints with different scales under different bandwidths
圖3 模糊隸屬度函數(shù)曲線Fig.3 The function curve of fuzzy membership
圖4 離群點識別與清除Fig.4 Identification and clearance of outliers
圖5 大眾點評“安定門”點集場所邊界表達結果Fig.5 The point set boundaries of Andingmen
圖6 五環(huán)內場所范圍提取結果Fig.6 The distribution of place footprints inside the 5th ring road of Beijing
圖7 部分場所范圍提取結果Fig.7 The footprints of sample places
(1) 語義(名稱或語義情境)的相似性導致某一場所名稱所對應的覆蓋范圍向外擴展延伸,大于行政定義的場所范圍(如紫竹橋、學院橋、牛街等路段被擴展為新的場所區(qū)域;位于北四環(huán)的學院橋由于包含“學院”二字,且隱含高等教育語義,其認知范圍被擴展至北五環(huán)以南的學院路及其周邊的多所大學;位于西三環(huán)北路的紫竹橋路段,其模糊范圍包括了紫竹院公園和紫竹院街道所管轄的區(qū)域;牛街由于隱含回族聚居區(qū)語義,其范圍向北延伸至長椿街,向南延伸至右安門內大街的北段,涵蓋了回族居民的生活范圍)。
(2) 同一場所名稱下,語義內涵的差異導致某一場所范圍在某一數(shù)據(jù)下未能包含不同語義情境下的范圍,如大眾數(shù)據(jù)的核心區(qū)范圍注重對商圈語義下的前門、天壇、動物園、望京、雙榆樹、中關村、人民大學等場所的表達,使旅游語義下的前門城門樓、天壇公園園區(qū)、動物園園區(qū),職住語義下的望京和雙榆樹,以及高科技與高等教育語義下的中關村區(qū)域、人民大學校園等被弱化表達,由此可知,大眾點評作為面向消費者的信息服務應用,其數(shù)據(jù)中潛在的商圈語義較強,因而著重表現(xiàn)了該場所名稱下的商圈范圍。同時也反映出單一數(shù)據(jù)源對于場所范圍的界定缺乏完整性。
本文提出了基于自適應核密度的模糊集方法,構建了場所范圍自動化提取流程,并利用大眾點評興趣點(POI)數(shù)據(jù)對北京市五環(huán)內的熱門場所及其范圍進行提取與可視化表達。試驗結果表明,該方法能夠:①有效處理多場所(multi-places)點集,對不同分布情況的點集具有良好自適應性,解決了多場所構建過程中的閾值選取問題;②同時支持模糊集(柵格)和矢量兩種形式的表達,即矢量形式的多尺度、多層次表達結果可為今后的城市場所研究提供可用的場所單元;模糊集表達結果彌補了傳統(tǒng)的凸包、Voronoi多邊形等矢量表達形式對場所漸變邊界的過度簡化,且能夠表達一個位置隸屬于多個場所的情況。該方法所提取的結果能夠為理解城市空間提供新的分析單元,以進一步探究場所中人的活動與移動、情感與交互等特征,并能夠與重視人文過程、公眾參與、地理知識獲取與表達、人機交融與虛擬地理試驗的虛擬地理環(huán)境研究產生新的結合點,為地理信息科學對于人文地理現(xiàn)象與過程的研究提供新的思路、技術與手段,從而促進人地關系理論的發(fā)展[5-7]。
場所的認知范圍與人們的認知背景(個體的經(jīng)驗與情感)和上下文語境(如教育、居住、商業(yè)等特定活動)緊密聯(lián)系,基于不同語義所提取的場所將有所差異。例如,“人民大學”可以指代大學校園,也可以指代周邊的居民生活區(qū);“前門”既可以指代古城門樓,也可以指代前門大街的商圈。通過觀察本文的場所提取結果,發(fā)現(xiàn)大眾點評數(shù)據(jù)集所提取場所范圍更側重于體現(xiàn)商圈語義下的場所認知。為使所獲取的各場所范圍更具普遍性和全面性,可在今后的工作中考慮多源數(shù)據(jù)融合,以在一定程度上消除單一數(shù)據(jù)源(或主體)對特定語義情境的偏向性。另外,由于本文數(shù)據(jù)中所提供的商圈名稱極少涉及包含、重疊等層級關系,可反映出大部分場所名稱都屬于空間認知的同一層級,因此本文未涉及對場所層級性特征的探討,未來可進一步提取不同層級的場所名稱及其范圍,以研究場所層級關系的表達方法。