• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于BERT模型的“互聯(lián)網(wǎng)+政務(wù)”群眾留言文本熱點追蹤研究*

      2022-09-24 13:32:58徐緒堪印家偉王曉嬌
      情報雜志 2022年9期
      關(guān)鍵詞:分析

      徐緒堪 印家偉 王曉嬌

      (1.河海大學(xué)商學(xué)院 南京 211100;2.常州市工業(yè)大數(shù)據(jù)與知識管理重點實驗室 常州 213022)

      0 引 言

      2015年以來,在“互聯(lián)網(wǎng)+政務(wù)”服務(wù)建設(shè)的號召下,網(wǎng)絡(luò)問政平臺以其快捷、不受時間和空間限制的優(yōu)勢逐漸受到政府部門的關(guān)注和使用。隨著新一輪信息技術(shù)的發(fā)展,“互聯(lián)網(wǎng)+政務(wù)”持續(xù)推動了地方政務(wù)治理的深入改革[1]。為了提高網(wǎng)上政務(wù)治理的效能,需要實時動態(tài)監(jiān)測企業(yè)、社會公眾等各方組織對政策的反饋并及時進(jìn)行調(diào)整[2]。然而,網(wǎng)絡(luò)問政平臺的留言不斷增加,傳統(tǒng)人工信息分類和整理的方式無法保證準(zhǔn)確和高效,導(dǎo)致政府機關(guān)對問政平臺的信息利用不夠充分。基于此,本文引入多種分類模型,構(gòu)建了基于BERT模型和Affinity Propagation算法的熱點追蹤框架,從海量政務(wù)文本數(shù)據(jù)中追蹤用戶關(guān)心的熱點問題并分析出目前“服務(wù)型政府”轉(zhuǎn)型過程中存在的痛點問題,為“服務(wù)型”政府效率提升、精準(zhǔn)服務(wù)提供科學(xué)參考,幫助各級政府部門更好地了解民情、聽取民聲、體察民意、匯聚民智,實現(xiàn)群眾留言信息的深度挖掘與精準(zhǔn)化管理。

      1 國內(nèi)外相關(guān)研究述評

      1.1 “互聯(lián)網(wǎng)+政務(wù)”相關(guān)研究

      國內(nèi)外學(xué)者對“互聯(lián)網(wǎng)+政務(wù)”相關(guān)研究主要集中在治理模式的探索和影響因素的分析。宋鍇業(yè)通過對政務(wù)平臺的案例分析,認(rèn)為頻繁的政務(wù)質(zhì)量反饋更容易促進(jìn)各社會主體主動了解公共事務(wù),表達(dá)自身需求,形成新型的政府治理形態(tài)[3]。易蘭麗等基于政策注意力的視角,以省級“互聯(lián)網(wǎng)+政務(wù)”服務(wù)平臺的建設(shè)歷程數(shù)據(jù)為研究對象,研究了省級政策注意力在響應(yīng)中央政策信號時的中介傳導(dǎo)效應(yīng)[4]。鄭躍平等以全國79個城市的政務(wù)熱線部門作為研究對象,梳理了地方政府?dāng)?shù)字化改革中存在的問題,認(rèn)為目前智能化技術(shù)的應(yīng)用還無法有效支撐數(shù)據(jù)的精細(xì)化治理與政務(wù)服務(wù)的創(chuàng)新發(fā)展[5]。周文泓和向宇等認(rèn)為“互聯(lián)網(wǎng)+”背景下政務(wù)平臺建設(shè)中存在制度系統(tǒng)性較差、用戶信息管理割裂、缺少用戶主體視角等問題,政府部門需進(jìn)一步優(yōu)化完善[6]。陳世香等以深圳市南山區(qū)政務(wù)微信電子平臺為研究案例,以需求導(dǎo)向,分析了政務(wù)微信平臺提升公共文化服務(wù)效能的運行模式[7]。張勇進(jìn)以信息搜索方式和微信社交平臺為例,反復(fù)觀察政策運行的效果,認(rèn)為政府要把握互聯(lián)網(wǎng)時代的新特點,從群眾需求出發(fā),啟動“互聯(lián)網(wǎng)+政務(wù)”服務(wù),提高決策水平[8]。Anthopoulos L G在“互聯(lián)網(wǎng)+政務(wù)”研究中,對其他地區(qū)的政府服務(wù)模式進(jìn)行了研究和分析,包括服務(wù)對象、服務(wù)環(huán)境和各個發(fā)展階段的形態(tài)特征,提出了“互聯(lián)網(wǎng)+政務(wù)”建設(shè)中的新模式[9]。Tooran Alizadeh等學(xué)者通過社會化媒體和網(wǎng)絡(luò)傳播,研究澳大利亞政務(wù)對公共輿論的理解,以促進(jìn)公民參加地方政府事務(wù),實現(xiàn)智能化處理[10]。徐緒堪等構(gòu)建了政務(wù)APP評價指標(biāo)體系,并引入直覺模糊層次分析法,對“浙里辦”等5個有代表性的政務(wù)APP的服務(wù)效能進(jìn)行了評估[11]。Qian L針對“互聯(lián)網(wǎng)+政府”服務(wù)用戶使用率低、公眾參與意識不強等問題,分析區(qū)塊鏈產(chǎn)業(yè)背景下“互聯(lián)網(wǎng)+政務(wù)”公眾采納的影響因素[12]。湯志偉等針對我國31個省級政府的在線服務(wù)現(xiàn)狀,設(shè)計了省級政府政務(wù)服務(wù)在線辦理能力差異的整合性分析框架,探究了省級政府政務(wù)服務(wù)在線辦理能力差異的影響因素[13]。葉鑫和董路安人通過分析電子政務(wù)現(xiàn)階段存在系統(tǒng)運維成本高、政府知識獲取能力較弱、跨部門政府合作水平有待提升等問題,基于云計算技術(shù),設(shè)計“互聯(lián)網(wǎng)+政務(wù)服務(wù)”云平臺體系架構(gòu)[14]。

      1.2 文本分類相關(guān)研究

      文本分類是按照特定的標(biāo)準(zhǔn)利用計算機對文本集進(jìn)行自動分類標(biāo)記的過程,眾多學(xué)者利用深度學(xué)習(xí)方法對文本進(jìn)行分類,現(xiàn)有研究集中于基于詞向量的文本分類模型、多領(lǐng)域深度學(xué)習(xí)模型相互融合優(yōu)化等方面,Mikolov等創(chuàng)新提出了Word2vec模型,該模型采用三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可以訓(xùn)練出更高質(zhì)量、更高精確度的詞向量[14]。Pennington等人提出GloVe模型,該模型通過共現(xiàn)矩陣分解計算單詞向量[15]。但以上的模型仍有不足,Word2vec、GloVe等模型對于一詞多義這一難題,沒有很好的解決,GoogleAI團(tuán)隊提出使用了雙向Transformer結(jié)構(gòu)的BERT模型[16],該模型采用兩種新的詞向量計算方法,獲得了NLP領(lǐng)域創(chuàng)紀(jì)錄的成績。楊陽和劉恩博等針對短文本中詞與詞語義聯(lián)系微弱、難以獲取主題詞的問題,提出了基于標(biāo)簽圖和注意力機制的單詞共生短文本分類模型(WGA-BERT)[17]。在多領(lǐng)域深度學(xué)習(xí)模型相互融合方面,楊先鳳和趙家和等構(gòu)建一種融合字注釋的文本分類模型,顯著提高文本分類模型性能和精確度[18]。范昊和何灝將基于BERT、BILSTM和TEXTCNN三種算法的分類模型進(jìn)行融合,以提高新聞標(biāo)題的分類精度[19]。張玉潔和白如江等以圖書情報領(lǐng)域的SAO短文本為研究對象,將BERT的SAO分類方式和語義聯(lián)想相結(jié)合,用以解決文本分類時面對的領(lǐng)域知識不足和語義特征缺失等問題,極大提高了文本的分類效果[20]。胡吉明和付文麟等從政策文本的語義和內(nèi)容特征出發(fā),利用LDA主題模型和改進(jìn)的TextRank 模型來構(gòu)建政策文本分類和表示的一體化框架,以期提高文本的分類效果[21]。楊春霞和馬文文等提出融合CNN-SAM與GAT的多標(biāo)簽文本分類模型,全面提取文本內(nèi)容特征并挖掘全局標(biāo)簽之間的關(guān)聯(lián)性[22]。

      綜上所述, “互聯(lián)網(wǎng)+政務(wù)”具體實施過程中存在技術(shù)、管理工作方式、系統(tǒng)配置、政府支持度不夠等問題,實時監(jiān)測各方主體對政策的態(tài)度與需求,有效推動了“互聯(lián)網(wǎng)+政務(wù)”的高質(zhì)量建設(shè)。文本分類技術(shù)在多個領(lǐng)域已經(jīng)得到廣泛應(yīng)用,但在“互聯(lián)網(wǎng)+政務(wù)”群眾留言文本領(lǐng)域的應(yīng)用還處于初期的探究階段,對群眾留言管理利用不夠充分?;诖?,本文通過預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)語言模型,深度挖掘“互聯(lián)網(wǎng)+政務(wù)”網(wǎng)絡(luò)問政平臺的留言內(nèi)容,結(jié)合聚類算法和BERT模型,追蹤群眾的留言熱點,動態(tài)識別政策實施階段群眾的需求,將深度學(xué)習(xí)技術(shù)賦能于政務(wù)治理中。

      2 “互聯(lián)網(wǎng)+政務(wù)”群眾留言文本挖掘模型構(gòu)建

      “互聯(lián)網(wǎng)+政務(wù)”群眾留言主要為城市規(guī)劃及政策制定提供參考,其表達(dá)了群眾對于該市政府工作的要求與期待,描述人民基本生存和生活狀態(tài)。上海市人民政府網(wǎng)站在“互聯(lián)網(wǎng)+政務(wù)”建設(shè)方面的工作較為全面,將市委領(lǐng)導(dǎo)信箱、市政府領(lǐng)導(dǎo)信箱、各區(qū)、街道 (鄉(xiāng)鎮(zhèn))網(wǎng)上領(lǐng)導(dǎo)信箱等人民群眾向政府留言的渠道進(jìn)行融合,將群眾留言展示在“辦理公開”模塊下,并顯示出所有部門的留言處理統(tǒng)計數(shù)據(jù)和對應(yīng)排名。群眾留言的內(nèi)容包含了來信標(biāo)題、來信時間、來信內(nèi)容、回復(fù)部門、回復(fù)時間及回復(fù)內(nèi)容,該平臺收到群眾留言超11萬條,其中平臺選登的已由相關(guān)單位進(jìn)行回復(fù)的群眾留言高達(dá)兩萬多條,選登留言的發(fā)布日期最早為2016年8月26日。平臺數(shù)據(jù)展示較為全面簡潔,易于數(shù)據(jù)采集和文本挖掘。

      2.1 方法選擇 為推動服務(wù)型政府建設(shè),實現(xiàn)對“互聯(lián)網(wǎng)+政務(wù)”群眾留言的充分利用,利用文本挖掘中的文本分類、文本聚類技術(shù)對群眾留言進(jìn)行分析,實現(xiàn)熱點追蹤。通過對比分析BERT模型、LSTM模型、fastText模型在群眾留言文本分類上的效果,利用Affinity Propagation聚類算法對每個分類下的問題進(jìn)行聚類,最后基于聚類形成的問題進(jìn)行熱度計算得出熱點問題進(jìn)行分析。

      2.1.1BERT深度語言模型

      近年來,NLP界以預(yù)訓(xùn)練深度語言模型(Pre-trained Language Model)為發(fā)展方向,在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,進(jìn)一步改善了文本語義表示的效果。預(yù)訓(xùn)練深度模型使用基于特征的(feature based)策略和微調(diào)(Fine-tuning)策略以完成下游任務(wù),BERT模型是具有微調(diào)策略的預(yù)訓(xùn)練模型的代表。BERT深度語言模型以Transformer為主要架構(gòu),其結(jié)構(gòu)如圖1所示。

      圖1中的E1,E2...EN表示在模型的起始處添加[CLS],模型的結(jié)尾處添加[SEP]標(biāo)記的中文字符。它們依次經(jīng)過12或24層雙向的Transformer(Trm)編碼器,通過計算就可以得到文本字符語境化的向量表示(Contextual Embedding)。Transformer是一個基于自注意力(self-attention)機制的編碼-解碼器,底層編碼器的輸入是字符向量、字符向量和句子段向量之和。模型中的每一層由兩部分組成:多頭自我注意和前饋神經(jīng)網(wǎng)絡(luò)。前者使編碼器在給出每個字符時注意到其他字符的信息。后者用于增強模型的擬合能力。在模型的每一層進(jìn)行加和范數(shù)運算后,生成一個新的特征向量作為下一層編碼器的輸入。頂層編碼器輸出的[CLS]標(biāo)記的向量T1可以看作是整個句子的語義表示,而頂層編碼器輸出的向量T2和T3分別是字符E2和E3的上下文向量表示。它們?yōu)槲谋痉诸?、指名實體承認(rèn)等任務(wù)提供了重要支持。此外,為了提高語義表征能力,BERT提出了兩個預(yù)訓(xùn)練任務(wù):掩蔽語言模型(Masked LM,MLM)和下一句預(yù)測(Next Sentence Prediction, NSP)。在當(dāng)前語言智能領(lǐng)域,以BERT為模型,采用微調(diào)遷移學(xué)習(xí)策略可以在文本分類、文本聚類、命名實體識別(Named Entity Recognition, NER)等具體任務(wù)中發(fā)揮作用。

      圖1 BERT深度語言模型基本架構(gòu)

      2.1.2AffinityPropagation聚類方法

      進(jìn)行標(biāo)注的數(shù)據(jù)集可以采用文本分類的方式進(jìn)行分析,在特定分類下,會存在語義缺失問題,給人工標(biāo)注帶來巨大難度[23],為解決此類問題,本文選擇聚類算法對留言文本進(jìn)行后續(xù)處理。

      聚類是一種無監(jiān)督的學(xué)習(xí)方法,它將一類數(shù)據(jù)按一定規(guī)則劃分為若干個子數(shù)據(jù),一個子數(shù)據(jù)稱為聚類。2007由Frey等人提出的AP聚類(Affinity Propagation Clustering,AP)不需要預(yù)先設(shè)定聚類數(shù)目[24],更適用于高維和多維數(shù)據(jù)。與傳統(tǒng)的基于劃分的聚類算法相比,該算法大大提高了聚類性能和效率。AP聚類根據(jù)N個數(shù)據(jù)點之間的相似度進(jìn)行聚類,不用在聚類任務(wù)開始前設(shè)置具體的聚類數(shù)目,因為其將全部數(shù)據(jù)都視作潛在的聚類中心。AP聚類引入了N*N的相似度矩陣,該矩陣由N個數(shù)據(jù)點之間的相似度組成,并以對角線上的值S(i,i)作為第i個數(shù)據(jù)點能否成為聚類中心k的評判依據(jù)。AP算法中傳遞兩種類型的信息:一是吸引度(responsibility)r(i,k),代表從點i傳送至k的信息,用以判斷k點是否適合作為i點的聚類中心。二是歸屬度(availability)a(i,k),代表從k點發(fā)送到i的信息,用以判斷i點是否適合選擇k點作為聚類中心。吸引度和歸屬度的數(shù)值越高,k點作為i點聚類中心的可能性就越大。

      2.2 “互聯(lián)網(wǎng)+政務(wù)”群眾留言文本挖掘框架設(shè)計

      “互聯(lián)網(wǎng)+政務(wù)”群眾留言文本挖掘利用分類技術(shù)對文本初分類,以LSTM模型和FastText模型為基線模型,對比分析BERT模型、LSTM模型、FastText模型在文本分類上的效果(各類的F1值與整體的F-score)。政務(wù)文本初分類后,基于語義相似度與BERT命名實體識別的留言熱點問題挖掘,首先基于BERT模型,將每條留言的語義向量與命名實體(Named Entity)作為特征表示;第二,利用基于圖的Affinity Propagation聚類算法,實現(xiàn)留言的無監(jiān)督自動聚類,第三,結(jié)合同一聚類簇下諸項留言進(jìn)行熱度計算,獲取熱點問題,最后對于熱點問題進(jìn)行分析并提出相應(yīng)建議,具體流程步驟如下圖2所示。

      圖2 基于BERT進(jìn)行群眾留言文本熱點追蹤流程圖

      3 上海市群眾留言文本熱點追蹤實例應(yīng)用

      3.1 數(shù)據(jù)采集與預(yù)處理

      本文主要以上海市群眾留言為例進(jìn)行文本分類及熱點追蹤,數(shù)據(jù)主要來源于上海市政府信箱、上海市委信箱、上海信訪的“互聯(lián)網(wǎng)+政務(wù)”網(wǎng)絡(luò)平臺,由于本文數(shù)據(jù)源為靜態(tài)網(wǎng)頁,因此數(shù)據(jù)采集方案使用了Scrapy框架進(jìn)行數(shù)據(jù)的抓取,采集字段包括:標(biāo)題、時間、文本內(nèi)容。共采集近三年“互聯(lián)網(wǎng)+政務(wù)”群眾留言29 074條。對采集的數(shù)據(jù)進(jìn)行預(yù)處理,結(jié)合標(biāo)題和發(fā)表時間,刪除重復(fù)數(shù)據(jù),經(jīng)處理后保留11 122條群眾留言數(shù)據(jù)。

      在輸入的文本方面,考慮到BERT模型允許單一文本的最長長度為512個字符,Sun[25]等人的相關(guān)實驗表明,長文本截取前512個字符,可以在BERT模型中取得理想的分類效果,本文拼接了每一條留言的標(biāo)題文本與詳情文本,截取前512個字符作為模型的輸入,以提高分類效果表現(xiàn)。

      3.2 算法評價依據(jù)

      混淆矩陣(confusion matrix)是評價算法效率的標(biāo)準(zhǔn)格式,用n行n列的矩陣形式來表示。本文以二分類為標(biāo)準(zhǔn),其中TP(True Positive)表示將正類預(yù)測為正類數(shù),真實為0,預(yù)測也為0;FN(False Negative)表示將正類預(yù)測為負(fù)類數(shù),真實為0,預(yù)測為1;FP(False Positive)表示將負(fù)類預(yù)測為正類數(shù),真實為1,預(yù)測為0;TN(True Negative)表示將負(fù)類預(yù)測為負(fù)類數(shù),真實為1,預(yù)測為1 。本文采用的算法評價指標(biāo)計算方式如下:

      精準(zhǔn)率(Precision, PPV, Positive Predictive Value)又叫查準(zhǔn)率,表示在所有被預(yù)測為正的樣本中實際為正的樣本的概率。

      (1)

      召回率(Recall,Sensitivity,TPR,True Positive Rate)又叫查全率,表示在真實值是 Positive的所有結(jié)果中,模型預(yù)測對的比重。

      (2)

      F1-值(F1-score)綜合了Precision與Recall的產(chǎn)出的結(jié)果。F1-Score的取值范圍從0到1的,1和0分別代表模型的輸出最好和最差。

      (3)

      準(zhǔn)確率(accuracy)是指于給定的測試數(shù)據(jù)集,分類器正確分類的樣本數(shù)與總樣本數(shù)之比,即損失函數(shù)是0-1損失時測試數(shù)據(jù)集上的準(zhǔn)確率。

      3.3 “互聯(lián)網(wǎng)+政務(wù)”群眾留言文本分類

      清洗后的數(shù)據(jù)集中包含11 122條群眾留言,分為住房規(guī)劃、消費權(quán)益、部門不作為、醫(yī)療衛(wèi)生、教育培訓(xùn)、環(huán)境保護(hù)、交通出行7個類別。每條留言均包含留言主題、留言詳情字段。將數(shù)據(jù)集打亂順序后,按照8∶1∶1的比例,分別劃分為訓(xùn)練集、驗證集和測試集[25]。包括BERT在內(nèi)的所有模型,均在相同的訓(xùn)練集、驗證集上進(jìn)行訓(xùn)練、調(diào)整超參數(shù),并在相同的測試集上進(jìn)行測試。

      在超參數(shù)設(shè)置方面,參考Sun[26]等人在BERT上的文本分類經(jīng)驗設(shè)置超參數(shù):學(xué)習(xí)率lr=2e-5,衰變因子ξ=0.95。此外,訓(xùn)練遵循早停(early stopping)原則,當(dāng)模型的損失在驗證集上不再下降,就視為模型在驗證集上已經(jīng)收斂,可以停止訓(xùn)練,避免過擬合(Overfitting)問題。

      在文本分類任務(wù)中,BERT模型提取頂層的[CLS]的768維的特征向量v為整個文本的特征表示,然后連接一個768*n的全連接層W(n為文本類別數(shù)),最后通過softmax函數(shù)進(jìn)行歸一化,輸出一個文本分別屬于各個類別c的概率:

      P(c∣v)=softmax (W·v)

      (4)

      其中softmax函數(shù):

      (5)

      模型會在訓(xùn)練過程中調(diào)整全連接層W以及BERT12層模型的參數(shù),使得每個文本的正確類別所對應(yīng)的概率最大化。

      圖3 BERT模型在驗證集上的損失變化圖

      如圖3所示,當(dāng)BERT模型在訓(xùn)練第3輪(epoch)時,在驗證集上的損失開始上升。

      圖5 BERT模型在驗證集上的accuracy隨訓(xùn)練輪數(shù)的變化情況

      圖4關(guān)于BERT模型在驗證集上的正確率變化情況也表明,在第2輪訓(xùn)練時,分類的正確率較前一次明顯提升約0.76%;但第3輪訓(xùn)練的accuracy提升已不明顯。因此,綜合模型在驗證集上的損失與正確率,根據(jù)早停原則,第2輪訓(xùn)練結(jié)束后的BERT分類模型已經(jīng)收斂,可以作為最終模型。

      3.3.1BERT模型分類效果及與其他模型的對比分析

      最終收斂的BERT模型在測試集上測試的結(jié)果如表1所示。

      為證明BERT模型在留言分類任務(wù)上的良好能力,將基于字向量的LSTM(Long Short-Term Memory)和基于fastText的2個文本分類模型作為基線模型,比較BERT與基線模型的效果。

      表1 BERT模型在測試集上的各類分類效果

      本文使用的LSTM模型為加入了dropout機制的通用改良版本。LSTM和FastText模型超參數(shù)設(shè)置情況如表2所示。

      表2 LSTM與FastText模型的超參數(shù)設(shè)置情況

      圖5 三個模型在測試集各類上的 F1值對比圖

      三個模型在測試集上的F1值,如圖5所示,在7類留言文本中,BERT在6類上的分類F1值均取得了最佳效果。僅在住房規(guī)劃這一類上,F(xiàn)astText的分類效果略優(yōu)于BERT。

      衡量各模型綜合分類能力的F-score分?jǐn)?shù)如表3所示:

      表3 各分類模型的 F-score

      可以看出,基于BERT的留言文本分類算法取得了最佳效果,其F-score高出 LSTM模型約12.7%,也高出廣泛應(yīng)用的文本分類模型FastText約2.48%。BERT深度語言模型高達(dá)91.62%的F-score證明了它在群眾留言文本分類任務(wù)上的優(yōu)越性與實用性。

      3.3.2文本分類結(jié)果

      采集到的“互聯(lián)網(wǎng)+政務(wù)”群眾留言文本數(shù)據(jù)在預(yù)處理后,對比分析 BERT、LSTM、fastText算法的分類效果,最終使用了BERT模型的輸出結(jié)果作為本文的分類結(jié)果,分類結(jié)果如圖6所示。

      圖6 分類結(jié)果統(tǒng)計圖

      由圖可知,群眾在政府平臺反饋最多的是住房規(guī)劃類問題,約占所有問題的28.7%,其次是醫(yī)療衛(wèi)生領(lǐng)域問題,約占所有問題的17.6%,排名第三的為交通出行問題,約占所有問題的12.5%。

      3.4 “互聯(lián)網(wǎng)+政務(wù)”群眾留言熱點問題追蹤

      本文對11 122條群眾留言按類別分組進(jìn)行無監(jiān)督聚類,采用一種無須預(yù)設(shè)聚類數(shù)目的Affinity Propagation聚類算法,留言熱點問題自動追蹤的總體流程如圖 7 所示,首先BERT模型增量訓(xùn)練,使之學(xué)習(xí)到留言的句法語義信息;第二步獲取留言的語義向量,利用AP聚類算法初步聚類;最后基于BERT模型,識別留言中的命名實體。設(shè)置條件集合R,過濾異常值,在篩除了異常值后,對各個問題聚類簇進(jìn)行統(tǒng)計,針對清洗后數(shù)據(jù)中的每一個類別,分別計算其熱度指標(biāo)。

      圖7 留言熱點話題挖掘的總體流程

      3.5 結(jié)果分析

      由群眾留言分類結(jié)果可知,住房規(guī)劃、醫(yī)療衛(wèi)生和交通出行類別的留言較多,這三類與人們生活密切相關(guān)。通過熱度評價計算得出這三類熱度前5位的熱點問題如表4所示。

      表4 熱點問題表

      住房規(guī)劃類別中主要可以歸納出三類熱點關(guān)注問題,分別為居民安全、房屋租賃和房屋質(zhì)量。房屋租賃問題長期存在,主要牽涉長租公寓服務(wù)供應(yīng)商的“爆雷”問題。該類問題主要由市級房屋管理局及下屬行政區(qū)住房保障和房屋管理局、規(guī)劃和土地管理局負(fù)責(zé)處理答復(fù),以上部門應(yīng)該保障群眾利益不受損害的基礎(chǔ)上進(jìn)行城市基礎(chǔ)設(shè)施的建設(shè),事中認(rèn)真落實規(guī)劃,確保實際施工過程中協(xié)調(diào)好各方利益,根據(jù)群眾反應(yīng)問題,及時對房屋的工程規(guī)劃做出合理調(diào)整。房屋租賃方面,考慮建設(shè)保障性住房,向外來務(wù)工人員給予一定的政策性幫助,同時協(xié)調(diào)多方做好房屋租賃市場監(jiān)管工作,以人為本,合理引導(dǎo)企業(yè)參與建設(shè)。房屋質(zhì)量方面,房屋管理局及下屬行政區(qū)住房保障、房屋規(guī)劃、土地管理局等應(yīng)當(dāng)嚴(yán)格要求商品房開發(fā)前的資格審查與報批,嚴(yán)格打擊商品房開發(fā)過程中的不合規(guī)問題,對于交付后的商品房存在的嚴(yán)重質(zhì)量問題加大懲處力度,提高企業(yè)違法成本,以杜絕類似情況再次發(fā)生。

      醫(yī)療衛(wèi)生類別中防控政策、疫情期間就醫(yī)、基層醫(yī)療管理和醫(yī)美行業(yè)醫(yī)患糾紛為群眾最為關(guān)心的四類熱點問題。新冠疫情的出現(xiàn)嚴(yán)重影響了居民的正常出行和就醫(yī),這也側(cè)面反映出政府應(yīng)對重大意外事件的能力有待加強,在疫情防控常態(tài)化形勢下,如果繼續(xù)保持疫情期間出行管理政策不明晰、就醫(yī)渠道不通暢,將會影響人民群眾的生活質(zhì)量。除此之外,有大量群眾留言集中反饋個人在某醫(yī)療美容醫(yī)院的就醫(yī)失敗經(jīng)歷以及經(jīng)濟(jì)糾紛。該類問題涉及方面較廣,除了市級的醫(yī)療保障局、藥品監(jiān)督管理局以及各級衛(wèi)生健康委員會負(fù)責(zé)處理答復(fù)外,醫(yī)院同樣負(fù)責(zé)。明晰疫情防控常態(tài)化下的群眾出行政策以及疫情期間外鄉(xiāng)人、本地人就醫(yī)管理辦法。在醫(yī)美行業(yè)的醫(yī)患糾紛方面,走訪調(diào)研造成糾紛的真實原因,加大力調(diào)查各大美容機構(gòu)資質(zhì),出臺相應(yīng)政策保障患者權(quán)力。在基層醫(yī)療管理問題上,應(yīng)當(dāng)深入到每一個群眾的生活中,對基層醫(yī)療從業(yè)人員加強管理,出臺更為嚴(yán)苛的政策。

      交通出行類別中噪音擾民、線路規(guī)劃和網(wǎng)約車與出租車糾紛為群眾關(guān)心的熱點問題,這些問題的存在嚴(yán)重影響居民生活質(zhì)量,增加了居民出行成本;不利于出租車、網(wǎng)約車行業(yè)的良好發(fā)展,造成惡性競爭事件頻發(fā)。該類問題主要由市級交通運輸管理管理處、下屬區(qū)級交通管理委員會以及當(dāng)?shù)氐牡罔F營運管理公司負(fù)責(zé)問題答復(fù)。在噪音擾民方面應(yīng)當(dāng)將著力點放置在夜間施工及隔音設(shè)施的安裝中,事前在規(guī)劃建設(shè)的研究中考慮施工過程中以及投入使用后對于群眾造成的影響,建設(shè)事中過程應(yīng)當(dāng)嚴(yán)格執(zhí)行施工規(guī)定,確保在群眾休息的時間停止施工,事后過程做好群眾走訪工作,解民生、聽民意,及時加設(shè)隔音設(shè)施或向群眾發(fā)放隔音耳罩。在線路規(guī)劃問題中,應(yīng)當(dāng)做好前期調(diào)研工作,協(xié)調(diào)多方利益,為市民乘坐公共交通設(shè)施出行提供方便,了解群眾心聲,將群眾的需求融入建設(shè)的研究中。在網(wǎng)約車與出租車的糾紛問題上繼續(xù)加大力度監(jiān)管,抬升出租車等營運車輛的拒載成本,在網(wǎng)約車資格申請方面做到更加透明簡潔,減少群眾疑惑。

      4 總 結(jié)

      “互聯(lián)網(wǎng)+政務(wù)”中群眾的留言反饋對于政府的城市建設(shè)、政策規(guī)劃具有重要作用,準(zhǔn)確快速的捕捉到群眾反饋的關(guān)鍵問題并高效解決,不僅可以提高政府的管理水平,而且可以更好地為群眾服務(wù)。本文通過BERT模型,對網(wǎng)絡(luò)問政平臺留言進(jìn)行分類,將其分為住房規(guī)劃、消費權(quán)益、部門不作為、醫(yī)療衛(wèi)生、教育培訓(xùn)、環(huán)境保護(hù)、交通出行共7個類別。在熱點追蹤任務(wù)上,基于Affinity Propagation的算法對留言進(jìn)行聚類,結(jié)合話題時長、留言數(shù)兩類因素,計算出各個問題(話題)的熱度值,最后對熱點問題進(jìn)行深入分析并,向政府相關(guān)部門提出一定建議,實現(xiàn)問題與部門的精準(zhǔn)匹配,輔助政府部門進(jìn)行高效決策。然而本文仍存在一些不足之處,數(shù)據(jù)收集方面僅局限于上海地區(qū),數(shù)據(jù)預(yù)處理過程中為了達(dá)到最佳的分類效果,對海量消息文本進(jìn)行了一定程度的裁切和合并,在后續(xù)研究中采集帶有不同地域標(biāo)簽的群眾數(shù)據(jù)進(jìn)行關(guān)鍵詞分析,減少對原始數(shù)據(jù)的調(diào)整。

      猜你喜歡
      分析
      禽大腸桿菌病的分析、診斷和防治
      隱蔽失效適航要求符合性驗證分析
      電力系統(tǒng)不平衡分析
      電子制作(2018年18期)2018-11-14 01:48:24
      電力系統(tǒng)及其自動化發(fā)展趨勢分析
      經(jīng)濟(jì)危機下的均衡與非均衡分析
      對計劃生育必要性以及其貫徹實施的分析
      GB/T 7714-2015 與GB/T 7714-2005對比分析
      出版與印刷(2016年3期)2016-02-02 01:20:11
      網(wǎng)購中不良現(xiàn)象分析與應(yīng)對
      中西醫(yī)結(jié)合治療抑郁癥100例分析
      偽造有價證券罪立法比較分析
      昭通市| 天全县| 墨竹工卡县| 济源市| 长阳| 民权县| 广饶县| 淳安县| 巴中市| 星座| 洛隆县| 曲麻莱县| 兴安县| 永新县| 东阳市| 阜宁县| 前郭尔| 宜都市| 南雄市| 新竹县| 壶关县| 泸定县| 大城县| 浏阳市| 怀远县| 临高县| 亚东县| 来凤县| 莲花县| 石首市| 历史| 陵水| 加查县| 涪陵区| 仁布县| 进贤县| 连江县| 耒阳市| 乐昌市| 阿鲁科尔沁旗| 安塞县|