區(qū)塊鏈與企業(yè)網(wǎng)絡(luò)國家政策數(shù)據(jù)的可視化分析

2024-06-15 10:13:56孫國強(qiáng)趙歡王芝芝

經(jīng)濟(jì)師 2024年5期

孫國強(qiáng) 趙歡王芝芝

摘要：文章采用Python網(wǎng)絡(luò)爬蟲技術(shù)在中國政府網(wǎng)采集區(qū)塊鏈與企業(yè)網(wǎng)絡(luò)相關(guān)數(shù)據(jù)，使用Jieba庫實(shí)現(xiàn)分詞、去停用詞及高頻詞統(tǒng)計(jì)，并繪制高頻詞條形圖，基于TfidfVectorizer庫獲取分詞權(quán)重，實(shí)現(xiàn)可視化。通過文本挖掘方式獲取基于區(qū)塊鏈與企業(yè)網(wǎng)絡(luò)相關(guān)國家政策新聞的關(guān)鍵詞，從而整體把握政策核心內(nèi)容與潛在聯(lián)系，為相關(guān)人員進(jìn)一步研究奠定基礎(chǔ)。

關(guān)鍵詞：爬蟲中國政府網(wǎng) 區(qū)塊鏈企業(yè)網(wǎng)絡(luò) 文本挖掘

中圖分類號：F062.4? 文獻(xiàn)標(biāo)識碼：A

文章編號：1004-4914（2024）05-011-03

一、引言

隨著科學(xué)技術(shù)和網(wǎng)絡(luò)空間的發(fā)展，作為比特幣的底層技術(shù)，區(qū)塊鏈已被廣泛應(yīng)用到各個(gè)領(lǐng)域中，成為當(dāng)前研究的熱點(diǎn)。區(qū)塊鏈被我國的“十三五”規(guī)劃作為三項(xiàng)重大任務(wù)和重點(diǎn)工程之一，而且在國內(nèi)，阿里巴巴、騰訊、華為等大型企業(yè)紛紛著手區(qū)塊鏈技術(shù)的應(yīng)用研究使之落地。盡管區(qū)塊鏈技術(shù)應(yīng)用領(lǐng)域頗為廣泛，但區(qū)塊鏈和企業(yè)合作網(wǎng)絡(luò)結(jié)合起來的研究卻鮮有學(xué)者提及并探究其相關(guān)影響。企業(yè)發(fā)展一直以來受到融資難、融資貴、融資慢等問題的阻礙和制約，尤其是中小企業(yè)深受影響。正是由于具備過程可信和去中心化的特點(diǎn)，區(qū)塊鏈才能在多利益主體參與的場景下以低成本的方式構(gòu)建信任基礎(chǔ)，目標(biāo)是重塑社會信用體系。區(qū)塊鏈具有“不可篡改、分布式記賬、智能合約、透明可溯”等技術(shù)屬性，可從根本上解決企業(yè)網(wǎng)絡(luò)信息轉(zhuǎn)移和價(jià)值交換過程中的搭便車行為，從而降低交易的成本和風(fēng)險(xiǎn)，是解決企業(yè)合作問題的有效手段。本文基于Python語言，在中國政府網(wǎng)爬取基于區(qū)塊鏈和企業(yè)合作網(wǎng)絡(luò)這一主題的政策新聞并繪制詞云圖。詞云圖是通過字體的大小凸顯文本中出現(xiàn)頻率較高的關(guān)鍵詞，可在頻數(shù)統(tǒng)計(jì)的基礎(chǔ)上更加美觀地展示數(shù)據(jù)。通過對國家政策關(guān)鍵詞進(jìn)行數(shù)據(jù)可視化，可以動(dòng)態(tài)把握趨勢，為學(xué)者進(jìn)一步研究指明方向。

二、國家政策數(shù)據(jù)爬取

（一）相關(guān)技術(shù)

re模塊，匹配字符串的模塊，唯python獨(dú)有。正則表達(dá)式是對字符串進(jìn)行模糊匹配，提取所需的字符串部分。該模塊基于正則表達(dá)式可以實(shí)現(xiàn)很多功能，對所有語言通用。

wordcloud庫，是第三方庫，用于展示詞云圖。以詞語為基本單位，詞語的詞頻越高，在詞云圖中顯示越大。

jieba庫，是一款優(yōu)秀的Python第三方中文分詞庫，它的庫語料以人民日報(bào)為基礎(chǔ)，冗余度比較低，用于實(shí)現(xiàn)分詞，返回中文文本分詞后的列表變量，支持三種分詞模式：精確模式、全模式、搜索引擎模式。精確模式是盡可能把一個(gè)句子按照最為可能的分詞結(jié)果最為準(zhǔn)確地分割開來，這樣獲得的分詞結(jié)果通常更接近句子原意。本文使用精確分詞模式來對國家政策做文本分析。

（二）網(wǎng)頁源碼抓取

本文通過中國政府網(wǎng)網(wǎng)址進(jìn)行目標(biāo)數(shù)據(jù)的爬取。從中國政府網(wǎng)的政策點(diǎn)擊進(jìn)去，再點(diǎn)高級搜索，然后在搜索欄輸入搜索詞“區(qū)塊鏈與企業(yè)網(wǎng)絡(luò)”，就可以發(fā)現(xiàn)有16份中央有關(guān)文件和35份國務(wù)院文件。將搜索詞“區(qū)塊鏈”替換成與其意思相近的詞語如“智能合約”和“共識機(jī)制”。同理，將“企業(yè)網(wǎng)絡(luò)”替換成“企業(yè)合作網(wǎng)絡(luò)”“經(jīng)濟(jì)合作”“產(chǎn)業(yè)聯(lián)盟”“集群”“創(chuàng)新網(wǎng)絡(luò)”“供應(yīng)鏈”“模塊化網(wǎng)絡(luò)”與“企業(yè)間合作”。之后將兩類詞語兩兩組合后進(jìn)行搜索，整理后統(tǒng)計(jì)共有444份政策文件。具體情況見表1。

本文目標(biāo)網(wǎng)址http：//sousuo.gov.cn/a.htm？t=zhengce。通過該網(wǎng)址進(jìn)入政策的高級搜索頁面，輸入搜索詞“區(qū)塊鏈與企業(yè)網(wǎng)絡(luò)”。通過分析URL發(fā)現(xiàn)q=后面即為搜索的詞語。相應(yīng)的網(wǎng)址頁面可借助Python找到，然后就可以抓取網(wǎng)頁源碼，再提取關(guān)鍵信息。通過網(wǎng)頁右擊點(diǎn)檢查，就可以看到源代碼，繼而進(jìn)行相關(guān)的一系列操作。

（三）BeautifulSoup解析網(wǎng)頁數(shù)據(jù)

BeautifulSoup模塊用于解析html和xml文檔中的內(nèi)容，相比正則表達(dá)式，其更好的利用了html這種結(jié)構(gòu)性文檔的樹狀結(jié)構(gòu)，解析起來更加方便。解析的第一步是構(gòu)建一個(gè)BeautifulSoup對象，通過點(diǎn)號操作符，可以直接訪問文檔中的特定標(biāo)簽。本文通過解析代碼，獲取所有p標(biāo)簽里面的內(nèi)容即可獲取新聞文本。

（四）數(shù)據(jù)處理

Python中迄今為止最好的中文分詞組件是Jieba分詞器，可很好地協(xié)助使用者完成潛在主題發(fā)現(xiàn)和主題詞獲取等任務(wù)，特別適用于中文文本分類。故而，本文采用Jieba分詞器進(jìn)行政策新聞文本數(shù)據(jù)的一系列處理。

首先，通過Pandas庫的read_excel（）方法導(dǎo)入爬取下來的鏈接即444個(gè)URL;其次，循環(huán)遍歷URL訪問對應(yīng)內(nèi)容，通過BeautifulSoup中soup.find_all（'p'）獲取網(wǎng)頁源代碼所有p標(biāo)簽的內(nèi)容，即所有段落對應(yīng)的內(nèi)容，同時(shí)采用正則表達(dá)式進(jìn)行數(shù)據(jù)清洗，如用re.sub（'<.*？>'，''，paragraphs[i]）清洗掉所有‘<>里面的內(nèi)容;再次，將處理后的每篇政策新聞放到一個(gè)字符串里面，444篇新聞就是444個(gè)字符串，把這些字符串放到一個(gè)列表con_list444里面;而后，通過Jieba庫的jieba.cut（）方法實(shí)現(xiàn)對新聞文本的分詞操作，獲取長度大于等于3且小于等于4的分詞結(jié)果;之后，采用sklearn中的TfidfVectorizer方法獲取分詞權(quán)重;再之后，采用for循環(huán)，通過jieba.del_word（word）手動(dòng)刪除意義不大的詞，如平方公里、符合條件等;最后，通過collections模塊的 Counter（）方法獲取top100的關(guān)鍵詞及權(quán)重。

三、高頻詞統(tǒng)計(jì)與數(shù)據(jù)可視化

完成數(shù)據(jù)采集和數(shù)據(jù)處理后，調(diào)出并應(yīng)用WordCloud庫和 Jieba庫來實(shí)現(xiàn)高頻詞統(tǒng)計(jì)和數(shù)據(jù)可視化。同時(shí)借助collections模塊中的Counter（）方法來實(shí)現(xiàn)詞頻統(tǒng)計(jì)，分別統(tǒng)計(jì)兩個(gè)字、三個(gè)字和四個(gè)字分詞的top20，詞頻統(tǒng)計(jì)結(jié)果如表2。

（一）分詞TF—IDF權(quán)重統(tǒng)計(jì)

TF—IDF是一種統(tǒng)計(jì)方法，用以評估一字詞對于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加，但同時(shí)會隨著它在語料庫中出現(xiàn)的頻率成反比下降。本文對444篇基于區(qū)塊鏈與企業(yè)合作網(wǎng)絡(luò)相關(guān)主題的政策新聞進(jìn)行Jieba分詞，然后通過Python采用TF—IDF算法進(jìn)行分詞的權(quán)重統(tǒng)計(jì)，之后將分詞權(quán)重降序排列，剔除停用詞后其結(jié)果如表3。

（二）高頻詞條形圖制作

基于詞頻統(tǒng)計(jì)結(jié)果來制作水平條形圖，可以獲得更加明了清晰的詞頻統(tǒng)計(jì)效果，讓人耳目一新。接著，調(diào)用matplotlib 模塊的子模塊pyplot的barh（）方法來繪制水平條形圖。對三個(gè)字和四個(gè)字分詞分別繪制詞頻條形圖結(jié)果如圖1和圖2。

（三）WordCloud詞云圖繪制

詞云圖是一種數(shù)據(jù)可視化圖表，視覺沖擊性很強(qiáng)。通過對文本中大量無實(shí)際意義的低頻詞匯進(jìn)行過濾、并對出現(xiàn)頻率較高的“關(guān)鍵詞”予以不同顏色和大小進(jìn)行視覺效果上的突出。本文使用wordcloud庫和imageio融合圖形圖片繪制詞云圖展示444份基于區(qū)塊鏈與企業(yè)合作網(wǎng)絡(luò)相關(guān)搜索詞的政策新聞文本的關(guān)鍵詞。三字以上排名前130的分詞對應(yīng)的詞云圖繪制結(jié)果如圖3。

四、結(jié)論

基于區(qū)塊鏈與企業(yè)合作網(wǎng)絡(luò)相關(guān)政策的詞云結(jié)果顯示：綜合來看，相關(guān)實(shí)踐重在“試驗(yàn)區(qū)”和“示范區(qū)”;“人工智能”“互聯(lián)網(wǎng)”和“信息化”排列靠前，與當(dāng)今時(shí)代發(fā)展保持一致;“創(chuàng)新”“改革”“制度”“資源”“管理”和“政策”是重要著力方點(diǎn);“現(xiàn)代化”“服務(wù)化”“數(shù)字化”“智能化”“標(biāo)準(zhǔn)化”和“市場化”是重要向;“基礎(chǔ)設(shè)施”“公共服務(wù)”“生態(tài)環(huán)境”“知識產(chǎn)權(quán)”“自由貿(mào)易”“交通運(yùn)輸”“網(wǎng)絡(luò)安全”“服務(wù)平臺”“科技成果”“管理制度”“外商投資”和“科研院所”是硬實(shí)力;“技術(shù)”“關(guān)鍵技術(shù)”“技術(shù)創(chuàng)新”“核心技術(shù)”和“創(chuàng)新能力”成分說明創(chuàng)新技術(shù)的重要性;“高質(zhì)量”與新時(shí)代我國社會的主要矛盾相吻合。

本文通過爬取中國政府網(wǎng)的政策新聞文本，進(jìn)一步證明了網(wǎng)絡(luò)規(guī)則的規(guī)范性。爬蟲可以方便地獲取數(shù)據(jù)，擁有廣闊的應(yīng)用前景。相較于傳統(tǒng)數(shù)據(jù)，中國政府網(wǎng)的政策新聞具有更清晰的指向性以及更強(qiáng)的前瞻性，本文通過對政策新聞的文本挖掘來探索隱藏在大量數(shù)據(jù)背后的關(guān)鍵詞信息。本實(shí)驗(yàn)結(jié)果顯示，通過爬蟲、正則化數(shù)據(jù)清洗和數(shù)據(jù)可視化等步驟后，獲得的高頻詞條形圖和政策新聞詞云圖結(jié)果較好地呈現(xiàn)了新聞的指向與發(fā)展焦點(diǎn)，這對于把握未來發(fā)展走向具有一定的現(xiàn)實(shí)意義。

[基金項(xiàng)目：國家自然科學(xué)基金項(xiàng)目“企業(yè)網(wǎng)絡(luò)權(quán)力的形成機(jī)理、配置效率及其對合作行為的影響研究”（71872014）;山西省基礎(chǔ)研究（自由探索）項(xiàng)目“區(qū)塊鏈與戰(zhàn)略性新興產(chǎn)業(yè)集群深度融合研究”（202303021211141）。]

參考文獻(xiàn)：

[1] 王君宇，吳清烈，曹卉宇.國內(nèi)區(qū)塊鏈典型應(yīng)用研究綜述[J].科技與經(jīng)濟(jì)，2019，32（05）：1-6.

[2] 王莉，段婷，董珺.區(qū)塊鏈與企業(yè)網(wǎng)絡(luò)融合：機(jī)遇、挑戰(zhàn)與對策[J].經(jīng)濟(jì)問題，2021（04）：23-30.

[3] 宋華，楊雨東，陶錚.區(qū)塊鏈在企業(yè)融資中的應(yīng)用：文獻(xiàn)綜述與知識框架[J].南開管理評論，2022，25（02）：34-46.

[4] 曾詩欽，霍如，黃韜，等.區(qū)塊鏈技術(shù)研究綜述：原理、進(jìn)展與應(yīng)用[J].通信學(xué)報(bào)，2020，41（01）：134-151.

[5] 李曉娣，原媛，黃魯成.政策工具視角下我國養(yǎng)老產(chǎn)業(yè)政策量化研究[J].情報(bào)雜志，2021，40（04）：147-154.

[6] 黎曦.基于網(wǎng)絡(luò)爬蟲的論壇數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].華中科技大學(xué)，2019.

[7] 汪言.基于Python的詞云生成及優(yōu)化研究——以“十四五”規(guī)劃為例[J].電腦知識與技術(shù)，2021，17（19）：23-28.

（作者單位：孫國強(qiáng)，趙歡，山西財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院山西太原 030006;王芝芝，山西省科技成果轉(zhuǎn)移轉(zhuǎn)化促進(jìn)與數(shù)據(jù)監(jiān)測中心山西太原 030001）

[作者簡介：孫國強(qiáng)，博士，山西財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院教授，研究方向?yàn)榻M織創(chuàng)新與網(wǎng)絡(luò)治理;趙歡，碩士，研究方向?yàn)榻M織創(chuàng)新與網(wǎng)絡(luò)治理;王芝芝，山西省科技成果轉(zhuǎn)移轉(zhuǎn)化促進(jìn)與數(shù)據(jù)監(jiān)測中心副研究員，研究方向?yàn)檎畔⒒?。]

（責(zé)編：賈偉）

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

區(qū)塊鏈與企業(yè)網(wǎng)絡(luò)國家政策數(shù)據(jù)的可視化分析