• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      區(qū)塊鏈與企業(yè)網(wǎng)絡(luò)國家政策數(shù)據(jù)的可視化分析

      2024-06-15 10:13:56孫國強(qiáng)趙歡王芝芝
      經(jīng)濟(jì)師 2024年5期
      關(guān)鍵詞:詞頻分詞云圖

      孫國強(qiáng) 趙歡 王芝芝

      摘 要:文章采用Python網(wǎng)絡(luò)爬蟲技術(shù)在中國政府網(wǎng)采集區(qū)塊鏈與企業(yè)網(wǎng)絡(luò)相關(guān)數(shù)據(jù),使用Jieba庫實(shí)現(xiàn)分詞、去停用詞及高頻詞統(tǒng)計(jì),并繪制高頻詞條形圖,基于TfidfVectorizer庫獲取分詞權(quán)重,實(shí)現(xiàn)可視化。通過文本挖掘方式獲取基于區(qū)塊鏈與企業(yè)網(wǎng)絡(luò)相關(guān)國家政策新聞的關(guān)鍵詞,從而整體把握政策核心內(nèi)容與潛在聯(lián)系,為相關(guān)人員進(jìn)一步研究奠定基礎(chǔ)。

      關(guān)鍵詞:爬蟲 中國政府網(wǎng) 區(qū)塊鏈 企業(yè)網(wǎng)絡(luò) 文本挖掘

      中圖分類號:F062.4? 文獻(xiàn)標(biāo)識碼:A

      文章編號:1004-4914(2024)05-011-03

      一、引言

      隨著科學(xué)技術(shù)和網(wǎng)絡(luò)空間的發(fā)展,作為比特幣的底層技術(shù),區(qū)塊鏈已被廣泛應(yīng)用到各個(gè)領(lǐng)域中,成為當(dāng)前研究的熱點(diǎn)。區(qū)塊鏈被我國的“十三五”規(guī)劃作為三項(xiàng)重大任務(wù)和重點(diǎn)工程之一,而且在國內(nèi),阿里巴巴、騰訊、華為等大型企業(yè)紛紛著手區(qū)塊鏈技術(shù)的應(yīng)用研究使之落地。盡管區(qū)塊鏈技術(shù)應(yīng)用領(lǐng)域頗為廣泛,但區(qū)塊鏈和企業(yè)合作網(wǎng)絡(luò)結(jié)合起來的研究卻鮮有學(xué)者提及并探究其相關(guān)影響。企業(yè)發(fā)展一直以來受到融資難、融資貴、融資慢等問題的阻礙和制約,尤其是中小企業(yè)深受影響。正是由于具備過程可信和去中心化的特點(diǎn),區(qū)塊鏈才能在多利益主體參與的場景下以低成本的方式構(gòu)建信任基礎(chǔ),目標(biāo)是重塑社會信用體系。區(qū)塊鏈具有“不可篡改、分布式記賬、智能合約、透明可溯”等技術(shù)屬性,可從根本上解決企業(yè)網(wǎng)絡(luò)信息轉(zhuǎn)移和價(jià)值交換過程中的搭便車行為,從而降低交易的成本和風(fēng)險(xiǎn),是解決企業(yè)合作問題的有效手段。本文基于Python語言,在中國政府網(wǎng)爬取基于區(qū)塊鏈和企業(yè)合作網(wǎng)絡(luò)這一主題的政策新聞并繪制詞云圖。詞云圖是通過字體的大小凸顯文本中出現(xiàn)頻率較高的關(guān)鍵詞,可在頻數(shù)統(tǒng)計(jì)的基礎(chǔ)上更加美觀地展示數(shù)據(jù)。通過對國家政策關(guān)鍵詞進(jìn)行數(shù)據(jù)可視化,可以動(dòng)態(tài)把握趨勢,為學(xué)者進(jìn)一步研究指明方向。

      二、國家政策數(shù)據(jù)爬取

      (一)相關(guān)技術(shù)

      re模塊,匹配字符串的模塊,唯python獨(dú)有。正則表達(dá)式是對字符串進(jìn)行模糊匹配,提取所需的字符串部分。該模塊基于正則表達(dá)式可以實(shí)現(xiàn)很多功能,對所有語言通用。

      wordcloud庫,是第三方庫,用于展示詞云圖。以詞語為基本單位,詞語的詞頻越高,在詞云圖中顯示越大。

      jieba庫,是一款優(yōu)秀的Python第三方中文分詞庫,它的庫語料以人民日報(bào)為基礎(chǔ),冗余度比較低,用于實(shí)現(xiàn)分詞,返回中文文本分詞后的列表變量,支持三種分詞模式:精確模式、全模式、搜索引擎模式。精確模式是盡可能把一個(gè)句子按照最為可能的分詞結(jié)果最為準(zhǔn)確地分割開來,這樣獲得的分詞結(jié)果通常更接近句子原意。本文使用精確分詞模式來對國家政策做文本分析。

      (二)網(wǎng)頁源碼抓取

      本文通過中國政府網(wǎng)網(wǎng)址進(jìn)行目標(biāo)數(shù)據(jù)的爬取。從中國政府網(wǎng)的政策點(diǎn)擊進(jìn)去,再點(diǎn)高級搜索,然后在搜索欄輸入搜索詞“區(qū)塊鏈與企業(yè)網(wǎng)絡(luò)”,就可以發(fā)現(xiàn)有16份中央有關(guān)文件和35份國務(wù)院文件。將搜索詞“區(qū)塊鏈”替換成與其意思相近的詞語如“智能合約”和“共識機(jī)制”。同理,將“企業(yè)網(wǎng)絡(luò)”替換成“企業(yè)合作網(wǎng)絡(luò)”“經(jīng)濟(jì)合作”“產(chǎn)業(yè)聯(lián)盟”“集群”“創(chuàng)新網(wǎng)絡(luò)”“供應(yīng)鏈”“模塊化網(wǎng)絡(luò)”與“企業(yè)間合作”。之后將兩類詞語兩兩組合后進(jìn)行搜索,整理后統(tǒng)計(jì)共有444份政策文件。具體情況見表1。

      本文目標(biāo)網(wǎng)址http://sousuo.gov.cn/a.htm?t=zhengce。通過該網(wǎng)址進(jìn)入政策的高級搜索頁面,輸入搜索詞“區(qū)塊鏈與企業(yè)網(wǎng)絡(luò)”。通過分析URL發(fā)現(xiàn)q=后面即為搜索的詞語。相應(yīng)的網(wǎng)址頁面可借助Python找到,然后就可以抓取網(wǎng)頁源碼,再提取關(guān)鍵信息。通過網(wǎng)頁右擊點(diǎn)檢查,就可以看到源代碼,繼而進(jìn)行相關(guān)的一系列操作。

      (三)BeautifulSoup解析網(wǎng)頁數(shù)據(jù)

      BeautifulSoup模塊用于解析html和xml文檔中的內(nèi)容,相比正則表達(dá)式,其更好的利用了html這種結(jié)構(gòu)性文檔的樹狀結(jié)構(gòu),解析起來更加方便。解析的第一步是構(gòu)建一個(gè)BeautifulSoup對象,通過點(diǎn)號操作符,可以直接訪問文檔中的特定標(biāo)簽。本文通過解析代碼,獲取所有p標(biāo)簽里面的內(nèi)容即可獲取新聞文本。

      (四)數(shù)據(jù)處理

      Python中迄今為止最好的中文分詞組件是Jieba分詞器,可很好地協(xié)助使用者完成潛在主題發(fā)現(xiàn)和主題詞獲取等任務(wù),特別適用于中文文本分類。故而,本文采用Jieba分詞器進(jìn)行政策新聞文本數(shù)據(jù)的一系列處理。

      首先,通過Pandas庫的read_excel()方法導(dǎo)入爬取下來的鏈接即444個(gè)URL;其次,循環(huán)遍歷URL訪問對應(yīng)內(nèi)容,通過BeautifulSoup中soup.find_all('p')獲取網(wǎng)頁源代碼所有p標(biāo)簽的內(nèi)容,即所有段落對應(yīng)的內(nèi)容,同時(shí)采用正則表達(dá)式進(jìn)行數(shù)據(jù)清洗,如用re.sub('<.*?>','',paragraphs[i])清洗掉所有‘<>里面的內(nèi)容;再次,將處理后的每篇政策新聞放到一個(gè)字符串里面,444篇新聞就是444個(gè)字符串,把這些字符串放到一個(gè)列表con_list444里面;而后,通過Jieba庫的jieba.cut()方法實(shí)現(xiàn)對新聞文本的分詞操作,獲取長度大于等于3且小于等于4的分詞結(jié)果;之后,采用sklearn中的TfidfVectorizer方法獲取分詞權(quán)重;再之后,采用for循環(huán),通過jieba.del_word(word)手動(dòng)刪除意義不大的詞,如平方公里、符合條件等;最后,通過collections模塊的 Counter()方法獲取top100的關(guān)鍵詞及權(quán)重。

      三、高頻詞統(tǒng)計(jì)與數(shù)據(jù)可視化

      完成數(shù)據(jù)采集和數(shù)據(jù)處理后,調(diào)出并應(yīng)用WordCloud庫和 Jieba庫來實(shí)現(xiàn)高頻詞統(tǒng)計(jì)和數(shù)據(jù)可視化。同時(shí)借助collections模塊中的Counter()方法來實(shí)現(xiàn)詞頻統(tǒng)計(jì),分別統(tǒng)計(jì)兩個(gè)字、三個(gè)字和四個(gè)字分詞的top20,詞頻統(tǒng)計(jì)結(jié)果如表2。

      (一)分詞TF—IDF權(quán)重統(tǒng)計(jì)

      TF—IDF是一種統(tǒng)計(jì)方法,用以評估一字詞對于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會隨著它在語料庫中出現(xiàn)的頻率成反比下降。本文對444篇基于區(qū)塊鏈與企業(yè)合作網(wǎng)絡(luò)相關(guān)主題的政策新聞進(jìn)行Jieba分詞,然后通過Python采用TF—IDF算法進(jìn)行分詞的權(quán)重統(tǒng)計(jì),之后將分詞權(quán)重降序排列,剔除停用詞后其結(jié)果如表3。

      (二)高頻詞條形圖制作

      基于詞頻統(tǒng)計(jì)結(jié)果來制作水平條形圖,可以獲得更加明了清晰的詞頻統(tǒng)計(jì)效果,讓人耳目一新。接著,調(diào)用matplotlib 模塊的子模塊pyplot的barh()方法來繪制水平條形圖。對三個(gè)字和四個(gè)字分詞分別繪制詞頻條形圖結(jié)果如圖1和圖2。

      (三)WordCloud詞云圖繪制

      詞云圖是一種數(shù)據(jù)可視化圖表,視覺沖擊性很強(qiáng)。通過對文本中大量無實(shí)際意義的低頻詞匯進(jìn)行過濾、并對出現(xiàn)頻率較高的“關(guān)鍵詞”予以不同顏色和大小進(jìn)行視覺效果上的突出。本文使用wordcloud庫和imageio融合圖形圖片繪制詞云圖展示444份基于區(qū)塊鏈與企業(yè)合作網(wǎng)絡(luò)相關(guān)搜索詞的政策新聞文本的關(guān)鍵詞。三字以上排名前130的分詞對應(yīng)的詞云圖繪制結(jié)果如圖3。

      四、結(jié)論

      基于區(qū)塊鏈與企業(yè)合作網(wǎng)絡(luò)相關(guān)政策的詞云結(jié)果顯示:綜合來看,相關(guān)實(shí)踐重在“試驗(yàn)區(qū)”和“示范區(qū)”;“人工智能”“互聯(lián)網(wǎng)”和“信息化”排列靠前,與當(dāng)今時(shí)代發(fā)展保持一致;“創(chuàng)新”“改革”“制度”“資源”“管理”和“政策”是重要著力方點(diǎn);“現(xiàn)代化”“服務(wù)化”“數(shù)字化”“智能化”“標(biāo)準(zhǔn)化”和“市場化”是重要向;“基礎(chǔ)設(shè)施”“公共服務(wù)”“生態(tài)環(huán)境”“知識產(chǎn)權(quán)”“自由貿(mào)易”“交通運(yùn)輸”“網(wǎng)絡(luò)安全”“服務(wù)平臺”“科技成果”“管理制度”“外商投資”和“科研院所”是硬實(shí)力;“技術(shù)”“關(guān)鍵技術(shù)”“技術(shù)創(chuàng)新”“核心技術(shù)”和“創(chuàng)新能力”成分說明創(chuàng)新技術(shù)的重要性;“高質(zhì)量”與新時(shí)代我國社會的主要矛盾相吻合。

      本文通過爬取中國政府網(wǎng)的政策新聞文本,進(jìn)一步證明了網(wǎng)絡(luò)規(guī)則的規(guī)范性。爬蟲可以方便地獲取數(shù)據(jù),擁有廣闊的應(yīng)用前景。相較于傳統(tǒng)數(shù)據(jù),中國政府網(wǎng)的政策新聞具有更清晰的指向性以及更強(qiáng)的前瞻性,本文通過對政策新聞的文本挖掘來探索隱藏在大量數(shù)據(jù)背后的關(guān)鍵詞信息。本實(shí)驗(yàn)結(jié)果顯示,通過爬蟲、正則化數(shù)據(jù)清洗和數(shù)據(jù)可視化等步驟后,獲得的高頻詞條形圖和政策新聞詞云圖結(jié)果較好地呈現(xiàn)了新聞的指向與發(fā)展焦點(diǎn),這對于把握未來發(fā)展走向具有一定的現(xiàn)實(shí)意義。

      [基金項(xiàng)目:國家自然科學(xué)基金項(xiàng)目“企業(yè)網(wǎng)絡(luò)權(quán)力的形成機(jī)理、配置效率及其對合作行為的影響研究”(71872014);山西省基礎(chǔ)研究(自由探索)項(xiàng)目“區(qū)塊鏈與戰(zhàn)略性新興產(chǎn)業(yè)集群深度融合研究”(202303021211141)。]

      參考文獻(xiàn):

      [1] 王君宇,吳清烈,曹卉宇.國內(nèi)區(qū)塊鏈典型應(yīng)用研究綜述[J].科技與經(jīng)濟(jì),2019,32(05):1-6.

      [2] 王莉,段婷,董珺.區(qū)塊鏈與企業(yè)網(wǎng)絡(luò)融合:機(jī)遇、挑戰(zhàn)與對策[J].經(jīng)濟(jì)問題,2021(04):23-30.

      [3] 宋華,楊雨東,陶錚.區(qū)塊鏈在企業(yè)融資中的應(yīng)用:文獻(xiàn)綜述與知識框架[J].南開管理評論,2022,25(02):34-46.

      [4] 曾詩欽,霍如,黃韜,等.區(qū)塊鏈技術(shù)研究綜述:原理、進(jìn)展與應(yīng)用[J].通信學(xué)報(bào),2020,41(01):134-151.

      [5] 李曉娣,原媛,黃魯成.政策工具視角下我國養(yǎng)老產(chǎn)業(yè)政策量化研究[J].情報(bào)雜志,2021,40(04):147-154.

      [6] 黎曦.基于網(wǎng)絡(luò)爬蟲的論壇數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].華中科技大學(xué),2019.

      [7] 汪言.基于Python的詞云生成及優(yōu)化研究——以“十四五”規(guī)劃為例[J].電腦知識與技術(shù),2021,17(19):23-28.

      (作者單位:孫國強(qiáng),趙歡,山西財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院 山西太原 030006;王芝芝,山西省科技成果轉(zhuǎn)移轉(zhuǎn)化促進(jìn)與數(shù)據(jù)監(jiān)測中心 山西太原 030001)

      [作者簡介:孫國強(qiáng),博士,山西財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院教授,研究方向?yàn)榻M織創(chuàng)新與網(wǎng)絡(luò)治理;趙歡,碩士,研究方向?yàn)榻M織創(chuàng)新與網(wǎng)絡(luò)治理;王芝芝,山西省科技成果轉(zhuǎn)移轉(zhuǎn)化促進(jìn)與數(shù)據(jù)監(jiān)測中心副研究員,研究方向?yàn)檎畔⒒?。]

      (責(zé)編:賈偉)

      猜你喜歡
      詞頻分詞云圖
      基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      成都云圖控股股份有限公司
      結(jié)巴分詞在詞云中的應(yīng)用
      黃強(qiáng)先生作品《雨后松云圖》
      名家名作(2017年3期)2017-09-15 11:13:37
      值得重視的分詞的特殊用法
      基于TV-L1分解的紅外云圖超分辨率算法
      詞頻,一部隱秘的歷史
      云圖青石板
      云存儲中支持詞頻和用戶喜好的密文模糊檢索
      以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報(bào)》學(xué)術(shù)研究特色
      圖書館論壇(2014年8期)2014-03-11 18:47:59
      仁寿县| 吴忠市| 日照市| 黄龙县| 额敏县| 泾阳县| 冷水江市| 阿巴嘎旗| 甘洛县| 云梦县| 虎林市| 呼伦贝尔市| 大宁县| 丰都县| 舞钢市| 论坛| 南岸区| 沛县| 水富县| 平舆县| 万荣县| 浦县| 女性| 商丘市| 岳阳县| 秦安县| 赤峰市| 读书| 连山| 开江县| 宜丰县| 乌苏市| 南雄市| 云南省| 永寿县| 闽清县| 孝义市| 永川市| 阜南县| 石泉县| 延庆县|