畢崇武 葉光輝 彭澤 李明倩
摘?要:[目的]目前社會(huì)認(rèn)知在城市管理決策中的支撐權(quán)重還未充分體現(xiàn),本文試圖建立基于社會(huì)認(rèn)知驅(qū)動(dòng)的城市社群發(fā)現(xiàn)模式。[方法]首先利用LDA主題模型提取不同城市的城市特征屬性,并利用情感強(qiáng)度計(jì)算方法對(duì)城市特征屬性賦值;然后基于城市特征之間的共現(xiàn)關(guān)系構(gòu)建城市網(wǎng)絡(luò),以此刻畫(huà)城市之間的關(guān)聯(lián)關(guān)系;最后依據(jù)網(wǎng)絡(luò)拓?fù)潢P(guān)系和節(jié)點(diǎn)語(yǔ)義信息,計(jì)算城市之間的親疏程度,挖掘具有重疊特性的城市社群。[結(jié)果]抓取知乎平臺(tái)中描述我國(guó)省會(huì)城市主要特征的用戶問(wèn)答內(nèi)容,按照上述方法依次抽取城市特征,構(gòu)建城市網(wǎng)絡(luò),測(cè)算城市親疏,最終挖掘出9個(gè)具有較強(qiáng)獨(dú)立性的城市社群。[局限]未能引入分面組織與分析方法將城市特征多粒度化,進(jìn)而探索不同特征粒度下城市之間的關(guān)系類型及強(qiáng)度。[結(jié)論]該方法能夠依據(jù)社會(huì)認(rèn)知發(fā)掘城市之間的潛在關(guān)聯(lián)及其社群結(jié)構(gòu),有利于輔助現(xiàn)有城市社群劃分方法并強(qiáng)化城市社群內(nèi)涵。
關(guān)鍵詞:標(biāo)簽語(yǔ)義關(guān)聯(lián);城市社群;城市網(wǎng)絡(luò);用戶標(biāo)簽;城市畫(huà)像;LDA主題模型;省會(huì)城市;用戶問(wèn)答;知乎;數(shù)據(jù)挖掘
DOI:10.3969/j.issn.1008-0821.2020.03.002
〔中圖分類號(hào)〕G254.91?〔文獻(xiàn)標(biāo)識(shí)碼〕A?〔文章編號(hào)〕1008-0821(2020)03-0014-10
Abstract:[Objective]This paper aimed to establish a public perception-driven division methods of city circles.[Methods]Firstly,LDA was used to extract the city identities of different cities,and sentiment analysis was used to value city identities.Then,the city network was constructed to depict the correlation between cities,based on the coupling relationship between city identities.Finally,the relationship between cities was measured by network structures and analyzed by content semantics to discover city circles.[Results]Firstly,we collected users question-and-answer contents describing city identities of provincial capitals in China on Zhihu,an online Q&A platform.Then,we extracted city identities,constructed city network,and calculated relationship between cities.Finally,we discovered 9 city circles with strong independence in sample data.[Limitations]The method of faceted organization and analysis with different granularities was not introduced to explore the relationship between cities by multi-granularity of city identities.[Conclusions]This method could discover the potential relationship between cities and their circle structures according to public impression,redefine the criteria for the division of city circle,and strengthen the connotation of city circle.
Key words:semantic association of social tags;city circle;city network;social tags;city profile;LDA;provincial capitals;users question-and-answer;Zhihu;data mining
現(xiàn)代交通和通信技術(shù)的發(fā)展使得地域鄰近已經(jīng)難以作為劃分城市社群的充分必要條件。依據(jù)地域鄰近性劃分出來(lái)的城市社群在面對(duì)城市發(fā)展過(guò)程中的具體問(wèn)題時(shí)效力有限。諸多學(xué)者早已利用時(shí)空數(shù)據(jù)揭示出20世紀(jì)后半葉以來(lái)地域臨近的西方國(guó)家城市之間的關(guān)聯(lián)強(qiáng)度逐漸減弱[1]。如何重新定義城市社群的劃分標(biāo)準(zhǔn)并強(qiáng)化城市社群的內(nèi)涵,已經(jīng)成為當(dāng)前城市關(guān)系研究的重要出發(fā)點(diǎn)。目前世界各地興起的城市社群規(guī)劃項(xiàng)目仍是基于自上而下的行政構(gòu)架,將城市社群默認(rèn)為地域臨近下的天然產(chǎn)物,缺乏對(duì)城市之間潛在關(guān)系的深度挖掘。隨著大量研究推進(jìn),學(xué)者們逐漸發(fā)現(xiàn)城市之間的界限并非像主觀判定的那樣清晰。城市社群開(kāi)始被視為資源與空間互動(dòng)下的社會(huì)產(chǎn)物,其核心觀念趨向于社會(huì)因素和地域空間之間的資源整合,并強(qiáng)調(diào)城市之間的潛在關(guān)系和資源流動(dòng)[2-3]。
反思當(dāng)前城市社群劃分方法,現(xiàn)有研究大多依據(jù)政策文件中的屬性數(shù)據(jù)和觀念數(shù)據(jù),而反映社會(huì)認(rèn)知的網(wǎng)絡(luò)數(shù)據(jù)還未得到充分利用。事實(shí)上,面向社交網(wǎng)絡(luò)的社群發(fā)現(xiàn)早已是網(wǎng)絡(luò)科學(xué)中的研究熱點(diǎn),由此衍生的算法、模型不一而足。社交網(wǎng)絡(luò)中描述城市特征的社會(huì)化標(biāo)簽蘊(yùn)含了城市的內(nèi)在屬性,具有標(biāo)簽關(guān)聯(lián)的城市之間往往在其城市特色、發(fā)展歷程等方面具有很強(qiáng)的相似性或互補(bǔ)性。通過(guò)相似或相異分析方法計(jì)算由城市特征共現(xiàn)關(guān)系構(gòu)建的城市網(wǎng)絡(luò),便可挖掘出城市之間的潛在關(guān)系。鑒于此,本文首先對(duì)描述城市特征的社會(huì)化標(biāo)簽進(jìn)行主題聚類和情感計(jì)算,以此獲取不同城市多個(gè)維度的城市特征;然后依據(jù)城市特征的共現(xiàn)關(guān)系構(gòu)建城市網(wǎng)絡(luò),刻畫(huà)社會(huì)認(rèn)知視角下的城市關(guān)聯(lián)關(guān)系;最后對(duì)城市網(wǎng)絡(luò)進(jìn)行節(jié)點(diǎn)語(yǔ)義分析和網(wǎng)絡(luò)結(jié)構(gòu)測(cè)度,計(jì)算不同城市之間的親疏程度,挖掘具有較強(qiáng)內(nèi)聚性和獨(dú)立性的城市社群。
1?相關(guān)工作概述
1.1?標(biāo)簽語(yǔ)義挖掘研究概述
社會(huì)化標(biāo)簽是大眾分類法的產(chǎn)物,不同于專業(yè)人員標(biāo)注的規(guī)范化詞表。社會(huì)化標(biāo)簽往往因其標(biāo)注的隨意性、受控程度較低、層級(jí)結(jié)構(gòu)模糊等原因,出現(xiàn)異詞同義、同詞異義、上下文語(yǔ)境缺失等自然語(yǔ)言處理問(wèn)題。這些問(wèn)題對(duì)社會(huì)化標(biāo)簽的語(yǔ)義挖掘、網(wǎng)絡(luò)分析和應(yīng)用效果均產(chǎn)生較大影響。為解決社會(huì)化標(biāo)簽存在的這些問(wèn)題,計(jì)算機(jī)領(lǐng)域?qū)W者類比半結(jié)構(gòu)化文本的處理方式,對(duì)社會(huì)化標(biāo)簽開(kāi)展了清洗去重[4]、可信度評(píng)估[5]、層級(jí)關(guān)系構(gòu)建[6]、情感分析[7]、聚類及分類[8]等一系列研究工作。典型研究如,Tesconi為消除標(biāo)簽語(yǔ)義的模糊性,利用Wordnet和YAGO本體將標(biāo)簽關(guān)聯(lián)起來(lái)計(jì)算標(biāo)簽語(yǔ)義等級(jí),然后依據(jù)標(biāo)簽語(yǔ)義等級(jí)判別并篩選具有準(zhǔn)確語(yǔ)義信息的社會(huì)化標(biāo)簽[9]。劉蘇祺等為挖掘標(biāo)簽之間的潛在語(yǔ)義關(guān)系,提出一種標(biāo)簽層級(jí)分類體系,其核心思想是將用戶標(biāo)簽作為初始輸入量,經(jīng)由標(biāo)簽分塊算法、上下位關(guān)系檢測(cè)、標(biāo)簽層次構(gòu)建3個(gè)步驟獲取具有較高正確率的標(biāo)簽類別及其上下位關(guān)系[6]。宋靈超等在圖片情感語(yǔ)義標(biāo)注研究中選擇包含用戶標(biāo)簽的Flickr圖片網(wǎng)站作為數(shù)據(jù)來(lái)源,構(gòu)建適用于圖片情感計(jì)算的情感詞表,通過(guò)依次處理描述圖片特征的標(biāo)簽集合,最終實(shí)現(xiàn)對(duì)圖片包含的情感信息進(jìn)行揭示[10]。
1.2?標(biāo)簽網(wǎng)絡(luò)分析研究概述
網(wǎng)絡(luò)科學(xué)改變了基于數(shù)據(jù)庫(kù)、關(guān)聯(lián)規(guī)則的標(biāo)簽分析策略,試圖通過(guò)社會(huì)網(wǎng)絡(luò)和復(fù)雜網(wǎng)絡(luò)分析方法發(fā)現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)中的關(guān)鍵節(jié)點(diǎn)和節(jié)點(diǎn)集合,以此挖掘標(biāo)注資源的本質(zhì)屬性和資源之間的內(nèi)在關(guān)聯(lián)。事實(shí)上,標(biāo)簽網(wǎng)絡(luò)可理解為以多維語(yǔ)義元素為節(jié)點(diǎn),不同語(yǔ)義元素相互關(guān)聯(lián)而成的元網(wǎng)絡(luò)。例如,葉光輝等指出標(biāo)簽網(wǎng)絡(luò)同時(shí)具有結(jié)構(gòu)特征和語(yǔ)義特征,通過(guò)分析節(jié)點(diǎn)之間的多維語(yǔ)義關(guān)系可以構(gòu)建社會(huì)網(wǎng)絡(luò)模型[11]。鑒于標(biāo)簽、資源、用戶三者的多重關(guān)系,學(xué)者們通過(guò)主題發(fā)掘[12]、社團(tuán)發(fā)現(xiàn)[13]、鏈路預(yù)測(cè)[14]、協(xié)同過(guò)濾[15]等方法揭示標(biāo)簽網(wǎng)絡(luò)的整體或局部特征,進(jìn)而為用戶興趣建模、內(nèi)容推薦、知識(shí)發(fā)現(xiàn)等應(yīng)用場(chǎng)景提供參考路徑。典型研究如易明等首先利用社會(huì)網(wǎng)絡(luò)分析指標(biāo)對(duì)標(biāo)簽網(wǎng)絡(luò)進(jìn)行結(jié)構(gòu)分析,通過(guò)揭示標(biāo)簽之間的內(nèi)在關(guān)聯(lián)實(shí)現(xiàn)標(biāo)簽序化,為用戶興趣建模提供高質(zhì)量的數(shù)據(jù)保障[16];然后通過(guò)劃分標(biāo)簽網(wǎng)絡(luò)反映用戶興趣領(lǐng)域,依據(jù)用戶在不同領(lǐng)域的局部興趣視圖實(shí)現(xiàn)個(gè)性化內(nèi)容推薦[17];最后依托標(biāo)簽網(wǎng)絡(luò)實(shí)現(xiàn)網(wǎng)絡(luò)資源的知識(shí)發(fā)現(xiàn),構(gòu)建了知識(shí)推送的網(wǎng)絡(luò)演化總體模型,分析了知識(shí)推送的網(wǎng)絡(luò)演化動(dòng)力,以此捕捉社會(huì)化標(biāo)注系統(tǒng)中知識(shí)推送的生成機(jī)制與演化規(guī)律[18]。
1.3?網(wǎng)絡(luò)社群劃分研究概述
網(wǎng)絡(luò)社群劃分方法共經(jīng)歷了非重疊社群劃分、重疊社群劃分和語(yǔ)義社群劃分3個(gè)階段。早期學(xué)者們依據(jù)節(jié)點(diǎn)間的關(guān)系屬性,將整體網(wǎng)拆分為若干個(gè)不相交的非重疊社群,其代表算法是GN[19]和FN[20]。后來(lái)學(xué)者們結(jié)合實(shí)際情況,認(rèn)識(shí)到某個(gè)節(jié)點(diǎn)可以隸屬于多個(gè)網(wǎng)絡(luò)社群,提出了具有重疊特性的網(wǎng)絡(luò)社群結(jié)構(gòu),并設(shè)計(jì)了諸多網(wǎng)絡(luò)重疊社群發(fā)現(xiàn)算法,例如CPM[21]、EAGLE[22]、COP-RA[23]等。然而以上社群劃分方法未考慮節(jié)點(diǎn)擁有的語(yǔ)義信息,無(wú)法將具有相似語(yǔ)義信息的節(jié)點(diǎn)劃分到相同網(wǎng)絡(luò)社群。因此,更能體現(xiàn)社群凝聚性的語(yǔ)義社群劃分方法受到業(yè)界廣泛關(guān)注。目前多數(shù)研究基于LDA或拓展LDA劃分語(yǔ)義社群。例如,Henderson K等提出LDA-G模型將節(jié)點(diǎn)發(fā)布內(nèi)容作為語(yǔ)義信息,將節(jié)點(diǎn)間連接關(guān)系作為訓(xùn)練結(jié)果,實(shí)現(xiàn)語(yǔ)義社群發(fā)現(xiàn)和社群鏈接預(yù)測(cè)[24]。Yin Z和Sachan M等在LDA基礎(chǔ)上分別提出TURCM[25]和LCTA[26],從“主題—社群”分布和“社群—主題”分布兩方面探究社群與主題之間的潛在語(yǔ)義關(guān)聯(lián),以此提升語(yǔ)義社群內(nèi)部鏈接的緊密程度,并增加語(yǔ)義社群劃分結(jié)果的合理性。Cha Y等為解決網(wǎng)絡(luò)論壇中的用戶分類問(wèn)題,在考慮用戶發(fā)布內(nèi)容和用戶好友關(guān)系的基礎(chǔ)上提出了HLDA模型,最終劃分出具有較高內(nèi)部語(yǔ)義相似性的重疊語(yǔ)義社群[27]。
2?基于標(biāo)簽語(yǔ)義關(guān)聯(lián)的城市社群發(fā)現(xiàn)方法
本文首先利用LDA從社會(huì)化標(biāo)簽中提取不同城市的城市特征屬性,并利用情感強(qiáng)度計(jì)算方法對(duì)城市特征屬性賦值;然后基于城市特征之間的共現(xiàn)關(guān)系構(gòu)建城市網(wǎng)絡(luò),以此刻畫(huà)城市之間的關(guān)聯(lián)關(guān)系;最后依據(jù)網(wǎng)絡(luò)拓?fù)潢P(guān)系和節(jié)點(diǎn)語(yǔ)義信息,計(jì)算城市之間的親疏程度,挖掘具有重疊特性的城市社群,詳見(jiàn)圖1。
圖1?基于標(biāo)簽語(yǔ)義關(guān)聯(lián)的城市社群發(fā)現(xiàn)過(guò)程
2.1?融合主題聚類與情感強(qiáng)度的城市特征識(shí)別
LDA是基于“文檔—主題—單詞”的三層貝葉斯模型。利用LDA獲取城市特征屬性時(shí),文檔對(duì)應(yīng)為標(biāo)簽集合,主題對(duì)應(yīng)為城市特征屬性,單詞對(duì)應(yīng)為標(biāo)簽分詞后生成的詞組。情感強(qiáng)度計(jì)算通過(guò)對(duì)標(biāo)簽集合進(jìn)行文本傾向性分析,以此獲得城市特征屬性的社會(huì)公眾情感態(tài)度。
在城市特征屬性賦值時(shí),本文將詞語(yǔ)極性分為褒義、貶義和中性3類,初始極性強(qiáng)度分別設(shè)置為{-2,-1}、{0}和{1,2},并選取標(biāo)簽集合中描述城市特征屬性的情感詞、程度副詞和否定詞綜合計(jì)算社會(huì)公眾的情感強(qiáng)度。本文為明確否定詞的修飾作用,在已有否定詞表的基礎(chǔ)上加入標(biāo)簽集合中特有的否定詞語(yǔ)料,并考慮了否定詞產(chǎn)生的情感遷移現(xiàn)象。當(dāng)偶數(shù)個(gè)否定詞出現(xiàn)時(shí),情感詞的類別和強(qiáng)度不做調(diào)整;當(dāng)奇數(shù)個(gè)否定詞出現(xiàn)時(shí),情感詞的類別和強(qiáng)度進(jìn)行相反操作。與此同時(shí),本文為衡量不同程度副詞對(duì)情感強(qiáng)度計(jì)算結(jié)果產(chǎn)生的影響,借鑒現(xiàn)有詞表獲取不同程度副詞的修飾強(qiáng)度,以此計(jì)算經(jīng)過(guò)程度副詞修飾后的綜合情感強(qiáng)度?;诖?,本文提取描述不同城市各個(gè)城市特征屬性的標(biāo)簽集合,依據(jù)以上方法計(jì)算社會(huì)公眾的情感強(qiáng)度,最終實(shí)現(xiàn)對(duì)不同城市的城市特征屬性進(jìn)行賦值。
2.2?基于城市特征共現(xiàn)關(guān)系的城市網(wǎng)絡(luò)構(gòu)建
2.3?基于網(wǎng)絡(luò)局部聚類的城市社群發(fā)現(xiàn)
城市網(wǎng)絡(luò)中城市社群是具有重疊特性的網(wǎng)絡(luò)結(jié)構(gòu),單個(gè)城市節(jié)點(diǎn)可以隸屬于不同的城市社群。本文在設(shè)計(jì)城市社群發(fā)現(xiàn)算法時(shí)兼顧兩個(gè)方面:其一,城市社群內(nèi)部節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系較為緊密,確保社群成員具有相似情感強(qiáng)度的城市特征;其二,城市社群內(nèi)部節(jié)點(diǎn)之間的語(yǔ)義信息較為一致,保證社群成員具有相似社會(huì)認(rèn)知的城市描述。本文為避免預(yù)先設(shè)定城市社群數(shù)量,實(shí)現(xiàn)城市社群發(fā)現(xiàn)算法的無(wú)監(jiān)督化,在2.2小節(jié)構(gòu)建的城市網(wǎng)絡(luò)的基礎(chǔ)上,從網(wǎng)絡(luò)拓?fù)潢P(guān)系和節(jié)點(diǎn)語(yǔ)義信息兩個(gè)方面度量化城市之間的親疏程度,并利用網(wǎng)絡(luò)局部聚類方法在城市網(wǎng)絡(luò)中挖掘具有較強(qiáng)獨(dú)立性的城市社群。
3?實(shí)證研究
3.1?數(shù)據(jù)獲取與處理
本文的實(shí)驗(yàn)數(shù)據(jù)來(lái)源于“知乎”平臺(tái)?!爸酢逼脚_(tái)包含大量社會(huì)公眾描述城市特征的話題。它們涉及社會(huì)公眾對(duì)各座城市在政治、經(jīng)濟(jì)、文化、環(huán)境等多方面的特征描述,能夠反映社會(huì)公眾對(duì)各座城市的整體認(rèn)知,滿足實(shí)驗(yàn)數(shù)據(jù)全面性的要求;其次,與其他平臺(tái)相比,“知乎”平臺(tái)中的用戶評(píng)論多是網(wǎng)絡(luò)用戶對(duì)某座城市的客觀評(píng)價(jià),更符合實(shí)驗(yàn)數(shù)據(jù)客觀性上的要求。
本文首先抓取“知乎”平臺(tái)中關(guān)于我國(guó)32座省會(huì)城市主要特征的用戶問(wèn)答內(nèi)容。然后借助分詞詞庫(kù)(搜狗細(xì)胞詞庫(kù))和自建停用詞表從用戶問(wèn)答內(nèi)容中抽取社會(huì)化標(biāo)簽,并利用文本空間向量存儲(chǔ)社會(huì)化標(biāo)簽。最后為滿足城市社群發(fā)現(xiàn)過(guò)程中的數(shù)據(jù)處理要求,本文依據(jù)數(shù)據(jù)預(yù)處理規(guī)則對(duì)原始標(biāo)簽進(jìn)行數(shù)據(jù)清洗,通過(guò)詞匯標(biāo)準(zhǔn)化處理和標(biāo)簽過(guò)濾獲取描述各座城市主要特征的社會(huì)化標(biāo)簽集合。
3.2?實(shí)驗(yàn)過(guò)程與結(jié)果
本文按照上述研究方法設(shè)計(jì)實(shí)驗(yàn)流程,依次對(duì)實(shí)驗(yàn)數(shù)據(jù)開(kāi)展城市特征屬性提取、城市特征情感計(jì)算、城市關(guān)聯(lián)網(wǎng)絡(luò)構(gòu)建、城市親疏程度測(cè)度、城市重疊社群劃分5個(gè)實(shí)驗(yàn)步驟。
1)城市特征屬性提取
本文利用Python語(yǔ)言提供的Gensim工具包實(shí)現(xiàn)基于LDA主題模型的城市特征屬性提取,利用Topic Coherence函數(shù)獲取最優(yōu)主題數(shù),進(jìn)而構(gòu)建揭示不同城市對(duì)應(yīng)城市特征屬性的矩陣M(i,j)。本文在對(duì)LDA主題模型反復(fù)訓(xùn)練2 000次后,Topic Coherence函數(shù)計(jì)算結(jié)果表明當(dāng)K=15時(shí)主題聚類效果最佳。表1展示了描述某座城市的標(biāo)簽集合經(jīng)過(guò)LDA主題聚類后獲得的部分主題。每個(gè)主題包含了詞和詞在該主題下的分布概率。這些主題在不同程度上揭示了該座城市是否擁有某些城市特征屬性。由此,本文最終將城市特征屬性劃分為城市環(huán)境、人文印象、經(jīng)濟(jì)政治、城市旅游、高等教育、特色美食、城市交通7個(gè)方面。
2)城市特征情感計(jì)算
本文基于情感詞典獲取各座城市關(guān)于上述7類城市特征屬性的社會(huì)公眾情感傾向,并依據(jù)否定詞和程度副詞綜合計(jì)算不同城市對(duì)應(yīng)城市特征屬性的社會(huì)公眾情感強(qiáng)度。表2展示了部分城市擁有的城市特征屬性及其情感強(qiáng)度。以北京市為例,社會(huì)公眾對(duì)北京市關(guān)于城市環(huán)境、人文印象、城市旅游、特色美食、城市交通5個(gè)方面的城市特征有明顯的情感傾向,但對(duì)北京市關(guān)于經(jīng)濟(jì)政治和高等教育兩個(gè)方面的城市特征沒(méi)有明顯的情感傾向。具體而言,社會(huì)公眾對(duì)北京市的城市旅游和特色美食具有較高的正面評(píng)價(jià);對(duì)北京市的城市環(huán)境和人文印象具有輕微的正面評(píng)價(jià);對(duì)北京市的城市交通具有一定程度的負(fù)向評(píng)價(jià)。
3)城市關(guān)系網(wǎng)絡(luò)構(gòu)建
4)城市親疏程度計(jì)算
本文首先利用LDA主題模型從標(biāo)簽集合中提取各城市節(jié)點(diǎn)的語(yǔ)義信息;然后利用相對(duì)熵計(jì)算節(jié)點(diǎn)間的語(yǔ)義信息相似度;最后依據(jù)式(2)計(jì)算不同城市節(jié)點(diǎn)間的親疏程度,詳見(jiàn)表4。通過(guò)對(duì)比表3和表4可以發(fā)現(xiàn),城市網(wǎng)絡(luò)中城市節(jié)點(diǎn)間的關(guān)聯(lián)權(quán)重Pij與其親疏程度Θij存在較大差異。這得益于本文基于城市節(jié)點(diǎn)間的關(guān)聯(lián)權(quán)重Pij和語(yǔ)義信息相似度hij測(cè)算城市節(jié)點(diǎn)間的親疏程度。城市節(jié)點(diǎn)間的關(guān)聯(lián)權(quán)重引入了社會(huì)公眾對(duì)城市狀況的綜合評(píng)價(jià),只有情感強(qiáng)度近似的城市之間才會(huì)在網(wǎng)絡(luò)結(jié)構(gòu)上建立連接關(guān)系;而城市之間的親疏程度既考慮了網(wǎng)絡(luò)的整體結(jié)構(gòu),又考慮了節(jié)點(diǎn)的語(yǔ)義信息。
5)城市重疊社群劃分
本文經(jīng)過(guò)多次實(shí)證檢驗(yàn),將規(guī)??刂茀?shù)ω的取值設(shè)定為2.9≤ω≤3.1。當(dāng)ω>3.1時(shí),城市網(wǎng)絡(luò)中已無(wú)明顯的城市社群結(jié)構(gòu);當(dāng)ω<2.9時(shí),城市網(wǎng)絡(luò)中的城市社群過(guò)于密集,無(wú)法發(fā)現(xiàn)各個(gè)城市社群的主要特性。本文依據(jù)上述方法,最終在我國(guó)32座省會(huì)城市之中挖掘出9個(gè)具有較強(qiáng)獨(dú)立性的城市社群,并發(fā)現(xiàn)7座不屬于任何城市社群的游離城市節(jié)點(diǎn)。與此同時(shí),本文依據(jù)式(4)和(5)計(jì)算出不同城市對(duì)各城市社群的聚合度,詳見(jiàn)表5。
3.3?結(jié)果分析與討論
本文通過(guò)深入分析上述城市社群,發(fā)現(xiàn)它們具有較為顯著的內(nèi)部特征:1)城市社群1中城市在城市環(huán)境、人文印象方面低于平均水平,但在經(jīng)濟(jì)政治、城市交通方面評(píng)價(jià)較高。2)城市社群2以銀川、西寧為核心,在特色美食方面特征突出,在城市環(huán)境、人文印象方面表現(xiàn)優(yōu)異。3)城市社群3僅由成都構(gòu)成,在人文印象、城市旅游、特色美食方面評(píng)價(jià)頗高,沒(méi)有城市能夠與之媲美。4)城市社群4以西安、長(zhǎng)沙、??跒榇恚诮?jīng)濟(jì)政治、城市旅游方面具有較高評(píng)價(jià)。雖然重慶在經(jīng)濟(jì)政治、城市旅游方面也具有較高評(píng)價(jià),但它與城市社群4中城市的語(yǔ)義相似度較低,由此表明其城市特征的評(píng)價(jià)內(nèi)容不同。5)城市社群5以鄭州、太原、合肥為代表,在經(jīng)濟(jì)政治、城市交通方面評(píng)價(jià)較高,但在城市旅游方面無(wú)明顯情感傾向。6)城市社群6均由西部地區(qū)城市組成,在城市環(huán)境、經(jīng)濟(jì)政治方面均有正面評(píng)價(jià),并且成員之間的語(yǔ)義信息相似度較高。7)城市社群7中城市在經(jīng)濟(jì)政治方面的社會(huì)評(píng)價(jià)高于平均水平,并在人文印象方面也具有較高評(píng)價(jià)。8)城市社群8以南寧、鄭州、合肥、武漢為核心,在高等教育、城市交通方面評(píng)價(jià)較高。9)城市社群9中城市在城市環(huán)境方面評(píng)價(jià)較低,但在經(jīng)濟(jì)政治和特色美食方面評(píng)價(jià)較高。
與此同時(shí),筆者發(fā)現(xiàn)游離城市與其他城市之間的語(yǔ)義相似度較低,由此表明它們?cè)诟鞣矫婢哂絮r明特征。例如,杭州在城市環(huán)境、人文印象和城市交通方面評(píng)價(jià)很高,但其社會(huì)公眾評(píng)價(jià)內(nèi)容與其他城市之間存在較大差異。此外,本文提出的城市社群劃分方法從線上社會(huì)認(rèn)知視角出發(fā),得到的城市社群劃分結(jié)果與地理區(qū)域和行政架構(gòu)有一定差異。為了支撐線下基于行政構(gòu)架的城市社群劃分方法,筆者依據(jù)本文的城市社群劃分方法還發(fā)現(xiàn)以下3點(diǎn)隱含特征:
1)并非所有地域鄰近城市在其城市特征上均具有較高相似性。例如,昆明與拉薩、成都、貴陽(yáng)之間均未形成城市社群,但鄭州與太原、合肥、武漢之間均有很強(qiáng)關(guān)聯(lián)。這表明雖然地域鄰近能夠促進(jìn)更頻繁的城市交流和人口流動(dòng),但這并不是導(dǎo)致城市之間特征相似的充要條件。本文方法擺脫了地域限制,能夠發(fā)現(xiàn)社會(huì)認(rèn)知視角下具有相似城市特征的城市關(guān)聯(lián)。例如,石家莊和海口同屬于城市社群1、4、9,均在城市環(huán)境、人文印象方面具有負(fù)向評(píng)價(jià),在經(jīng)濟(jì)政治、城市交通方面具有正面評(píng)價(jià)。
2)社會(huì)認(rèn)知的城市社群呈現(xiàn)一定區(qū)域性。例如,城市社群2和6均由西部地區(qū)城市組成,城市社群5和8也由中部地區(qū)城市主導(dǎo)。究其原因可知,西部地區(qū)城市在城市環(huán)境、人文印象、特色美食方面通常擁有正面評(píng)價(jià),但在高等教育和城市交通方面通常少有正面評(píng)價(jià);然而中部地區(qū)城市在城市交通、經(jīng)濟(jì)政治方面通常獲得高度正面評(píng)價(jià)。由此表明,在國(guó)家行政架構(gòu)的約束和區(qū)域發(fā)展政策的推動(dòng)作用下,我國(guó)西部地區(qū)和中部地區(qū)形成了區(qū)域之間各異、區(qū)域內(nèi)部相對(duì)統(tǒng)一的城市特征,但東部地區(qū)和東北地區(qū)并非如此。
3)城市特色的辨識(shí)度與城市定位的明確性存在地域差異。西部地區(qū)城市的城市特色辨識(shí)度普遍較低。例如,拉薩被同時(shí)劃分到6個(gè)城市社群,且均處于社群邊緣地位。這表明拉薩尚未形成較為明確的城市定位。同樣,烏魯木齊和呼和浩特被同時(shí)劃分到5個(gè)城市社群,并且僅在城市社群6中占據(jù)核心地位。這表明這兩座城市盡管具有相對(duì)明確的城市定位,但它們城市特色的辨識(shí)度不高。與此相反,游離城市絕大多數(shù)位于東部沿海地區(qū)。從這些城市的城市政策和政府文件中可以發(fā)現(xiàn),它們均擁有明確的城市定位和突出的城市特色。
4?結(jié)?語(yǔ)
目前城市社群規(guī)劃項(xiàng)目仍由管理部門來(lái)主導(dǎo),社會(huì)認(rèn)知在城市管理中的支撐權(quán)重還未得到充分體現(xiàn)。本文依據(jù)反映社會(huì)認(rèn)知的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行城市關(guān)系發(fā)掘和城市社群發(fā)現(xiàn),以此為實(shí)現(xiàn)公眾參與社會(huì)治理提供一條可替代的路徑。要保證該條路徑的可達(dá)性既需要對(duì)城市之間的線下?tīng)顩r進(jìn)行系統(tǒng)分析,又需要對(duì)城市之間的線上聯(lián)系進(jìn)行深度挖掘。本文力求從線上社會(huì)認(rèn)知視角完善線下基于行政構(gòu)架的城市社群劃分方法,對(duì)驅(qū)動(dòng)新型社會(huì)治理模式具有重要作用。雖然本文所述方法在實(shí)證研究中得到進(jìn)一步驗(yàn)證,但本文在技術(shù)層面未能引入分面組織與分析方法將城市特征多粒度化。如果能夠?qū)Ω髯鞘械某鞘刑卣鬟M(jìn)行多粒度表征,也許本文能夠發(fā)現(xiàn)更多、更深層次的城市潛在關(guān)系及城市社群結(jié)構(gòu),得出更具歸納性的研究結(jié)論。這一局限也將是本文后續(xù)研究的重點(diǎn)內(nèi)容。
參考文獻(xiàn)
[1]Putnam R.Bowling Alone[M].New York:Simon & Schuster,2000.
[2]Lindenberg S.Grounding Groups in Theory:Functional,Cognitive,and Structural Interdependencies[J].Advances in Group Processes,1997,(14):281-331.
[3]Piselli F.Communities,Places,and Social Networks[J].American Behavioral Scientist,2007,50(7):867-878.
[4]張恒婷.社交網(wǎng)絡(luò)圖像垃圾標(biāo)簽去除研究[D].北京:華北電力大學(xué),2012.
[5]王賢兵.社會(huì)標(biāo)注可信度評(píng)價(jià)方法研究[D].武漢:華中科技大學(xué),2012.
[6]劉蘇祺,白光偉,沈航.基于用戶自描述標(biāo)簽的層次分類體系構(gòu)建方法[J].計(jì)算機(jī)科學(xué),2016,43(7):224-229,239.
[7]李綱,劉廣興,毛進(jìn),等.一種基于句法分析的情感標(biāo)簽抽取方法[J].圖書(shū)情報(bào)工作,2014,58(14):12-20.
[8]于海鵬,翟紅生.一種子空間聚類算法在多標(biāo)簽文本分類中應(yīng)用[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(8):288-291,303.
[9]鄧敏.基于主題圖的標(biāo)簽語(yǔ)義挖掘研究[D].武漢:華中師范大學(xué),2014.
[10]宋靈超,黃崑.基于社會(huì)標(biāo)簽的圖像情感分類標(biāo)注研究[J].圖書(shū)情報(bào)工作,2016,60(21):103-112.
[11]葉光輝,李綱.社會(huì)語(yǔ)義網(wǎng)絡(luò)結(jié)構(gòu)分析—以MetaFilter為例[J].情報(bào)理論與實(shí)踐,2015,38(12):57-63.
[12]Chen J,F(xiàn)eng S,Liu J.Topic Sense Induction from Social Tags Based on Non-negative Matrix Factorization[J].Information Sciences,2014,280:16-25.
[13]Pan W,Chen S,F(xiàn)eng Z.Automatic Clustering of Social Tag Using Community Detection[J].Applied Mathematics & Information Sciences,2013,7(2):675-681.
[14]Chelmis C,Prasanna V K.Social Link Prediction in Online Social Tagging Systems[J].ACM Transactions on Information Systems,2013,31(4):1-27.
[15]Naseri S,Bahrehmand A,Ding C,et al.Enhancing Tag-based Collaborative Filtering Via Integrated Social Networking Information[C]//IEEE/ACM.International Conference on Advances in Social Networks Analysis and Mining.Niagara,Canada:IEEE/ACM,2013:760-764.
[16]易明,毛進(jìn),鄧衛(wèi)華.基于社會(huì)化標(biāo)簽網(wǎng)絡(luò)的細(xì)粒度用戶興趣建模[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2011,27(4):35-41.
[17]易明,王學(xué)東,鄧衛(wèi)華.基于社會(huì)網(wǎng)絡(luò)分析的社會(huì)化標(biāo)簽網(wǎng)絡(luò)分析與個(gè)性化信息服務(wù)研究[J].中國(guó)圖書(shū)館學(xué)報(bào),2010,36(2):107-114.
[18]易明,毛進(jìn),鄧衛(wèi)華,等.社會(huì)化標(biāo)簽系統(tǒng)中基于社會(huì)網(wǎng)絡(luò)的知識(shí)推送網(wǎng)絡(luò)演化研究[J].中國(guó)圖書(shū)館學(xué)報(bào),2014,40(2):50-66.
[19]Girvan M,Newman M E J.Community Structure in Social and Biological Networks[J].Proceedings of National Academy of Science of the United States of America,2002,99(12):7921-7826.
[20]Newman M E J.Fast Algorithm for Detecting Community Structure in Networks[J].Physical Review E,2004,69(6):066133.
[21]Palla G,Derenyi I,F(xiàn)arkas I,et al.Uncovering the Over Lapping Community Structures of Complex Networks in Nature and Society[J].Nature,2005,435(7043):814-818.
[22]Shen H W,Cheng X Q,Cai K,et al.Detect Overlapping and Hierarchical Community Structure in Networks[J].Physica A,2009,388(8):1706-1712.
[23]Gregory S.Finding Overlapping Communities in Networks By Label Propagation[J].New Journal of Physics,2010,12(10):103018.
[24]Henderson K,Eliassi R T.Applying Latent Dirichlet Allocation to Group Discovery in Large Graphs[C]//ACM.Proceedings of the 2009 ACM Symposium on Applied Computing.Hawaii,USA:ACM,2009:1456-1461.
[25]Sachan M,Contractor D,F(xiàn)aruquie T,et al.Using Content and Interactions for Discovering Communities in Social Networks[C]//ACM.Proceedings of the 21st International Conference on World Wide Web.Lyon,F(xiàn)rance:ACM,2012:331-340.
[26]Yin Z.A Latent Community Topic Analysis:Integration of Community Discovery with Topic Modeling[J].Acm Transactions on Intelligent Systems & Technology,2012,3(4):1-21.
[27]Cha Y,Cho J.Social-network Analysis Using Topic Models[C]//ACM.Proceedings of the 35th International ACM SIGIR Conference on Research and Development in Information Retrieval.Portland,USA:ACM,2012:565-574.
[28]Lancichinetti A,F(xiàn)ortunato S,Kertesz,Janos.Detecting the Overlapping and Hierarchical Community Structure in Complex Networks[J].New Journal of Physics,2009,11(3):033015.
(責(zé)任編輯:孫國(guó)雷)