孫國強(qiáng) 趙歡 王芝芝
摘 要:文章采用Python網(wǎng)絡(luò)爬蟲技術(shù)在中國政府網(wǎng)采集區(qū)塊鏈與企業(yè)網(wǎng)絡(luò)相關(guān)數(shù)據(jù),使用Jieba庫實(shí)現(xiàn)分詞、去停用詞及高頻詞統(tǒng)計(jì),并繪制高頻詞條形圖,基于TfidfVectorizer庫獲取分詞權(quán)重,實(shí)現(xiàn)可視化。通過文本挖掘方式獲取基于區(qū)塊鏈與企業(yè)網(wǎng)絡(luò)相關(guān)國家政策新聞的關(guān)鍵詞,從而整體把握政策核心內(nèi)容與潛在聯(lián)系,為相關(guān)人員進(jìn)一步研究奠定基礎(chǔ)。
關(guān)鍵詞:爬蟲 中國政府網(wǎng) 區(qū)塊鏈 企業(yè)網(wǎng)絡(luò) 文本挖掘
中圖分類號:F062.4? 文獻(xiàn)標(biāo)識碼:A
文章編號:1004-4914(2024)05-011-03
一、引言
隨著科學(xué)技術(shù)和網(wǎng)絡(luò)空間的發(fā)展,作為比特幣的底層技術(shù),區(qū)塊鏈已被廣泛應(yīng)用到各個(gè)領(lǐng)域中,成為當(dāng)前研究的熱點(diǎn)。區(qū)塊鏈被我國的“十三五”規(guī)劃作為三項(xiàng)重大任務(wù)和重點(diǎn)工程之一,而且在國內(nèi),阿里巴巴、騰訊、華為等大型企業(yè)紛紛著手區(qū)塊鏈技術(shù)的應(yīng)用研究使之落地。盡管區(qū)塊鏈技術(shù)應(yīng)用領(lǐng)域頗為廣泛,但區(qū)塊鏈和企業(yè)合作網(wǎng)絡(luò)結(jié)合起來的研究卻鮮有學(xué)者提及并探究其相關(guān)影響。企業(yè)發(fā)展一直以來受到融資難、融資貴、融資慢等問題的阻礙和制約,尤其是中小企業(yè)深受影響。正是由于具備過程可信和去中心化的特點(diǎn),區(qū)塊鏈才能在多利益主體參與的場景下以低成本的方式構(gòu)建信任基礎(chǔ),目標(biāo)是重塑社會信用體系。區(qū)塊鏈具有“不可篡改、分布式記賬、智能合約、透明可溯”等技術(shù)屬性,可從根本上解決企業(yè)網(wǎng)絡(luò)信息轉(zhuǎn)移和價(jià)值交換過程中的搭便車行為,從而降低交易的成本和風(fēng)險(xiǎn),是解決企業(yè)合作問題的有效手段。本文基于Python語言,在中國政府網(wǎng)爬取基于區(qū)塊鏈和企業(yè)合作網(wǎng)絡(luò)這一主題的政策新聞并繪制詞云圖。詞云圖是通過字體的大小凸顯文本中出現(xiàn)頻率較高的關(guān)鍵詞,可在頻數(shù)統(tǒng)計(jì)的基礎(chǔ)上更加美觀地展示數(shù)據(jù)。通過對國家政策關(guān)鍵詞進(jìn)行數(shù)據(jù)可視化,可以動(dòng)態(tài)把握趨勢,為學(xué)者進(jìn)一步研究指明方向。
二、國家政策數(shù)據(jù)爬取
(一)相關(guān)技術(shù)
re模塊,匹配字符串的模塊,唯python獨(dú)有。正則表達(dá)式是對字符串進(jìn)行模糊匹配,提取所需的字符串部分。該模塊基于正則表達(dá)式可以實(shí)現(xiàn)很多功能,對所有語言通用。
wordcloud庫,是第三方庫,用于展示詞云圖。以詞語為基本單位,詞語的詞頻越高,在詞云圖中顯示越大。
jieba庫,是一款優(yōu)秀的Python第三方中文分詞庫,它的庫語料以人民日報(bào)為基礎(chǔ),冗余度比較低,用于實(shí)現(xiàn)分詞,返回中文文本分詞后的列表變量,支持三種分詞模式:精確模式、全模式、搜索引擎模式。精確模式是盡可能把一個(gè)句子按照最為可能的分詞結(jié)果最為準(zhǔn)確地分割開來,這樣獲得的分詞結(jié)果通常更接近句子原意。本文使用精確分詞模式來對國家政策做文本分析。
(二)網(wǎng)頁源碼抓取
本文通過中國政府網(wǎng)網(wǎng)址進(jìn)行目標(biāo)數(shù)據(jù)的爬取。從中國政府網(wǎng)的政策點(diǎn)擊進(jìn)去,再點(diǎn)高級搜索,然后在搜索欄輸入搜索詞“區(qū)塊鏈與企業(yè)網(wǎng)絡(luò)”,就可以發(fā)現(xiàn)有16份中央有關(guān)文件和35份國務(wù)院文件。將搜索詞“區(qū)塊鏈”替換成與其意思相近的詞語如“智能合約”和“共識機(jī)制”。同理,將“企業(yè)網(wǎng)絡(luò)”替換成“企業(yè)合作網(wǎng)絡(luò)”“經(jīng)濟(jì)合作”“產(chǎn)業(yè)聯(lián)盟”“集群”“創(chuàng)新網(wǎng)絡(luò)”“供應(yīng)鏈”“模塊化網(wǎng)絡(luò)”與“企業(yè)間合作”。之后將兩類詞語兩兩組合后進(jìn)行搜索,整理后統(tǒng)計(jì)共有444份政策文件。具體情況見表1。
本文目標(biāo)網(wǎng)址http://sousuo.gov.cn/a.htm?t=zhengce。通過該網(wǎng)址進(jìn)入政策的高級搜索頁面,輸入搜索詞“區(qū)塊鏈與企業(yè)網(wǎng)絡(luò)”。通過分析URL發(fā)現(xiàn)q=后面即為搜索的詞語。相應(yīng)的網(wǎng)址頁面可借助Python找到,然后就可以抓取網(wǎng)頁源碼,再提取關(guān)鍵信息。通過網(wǎng)頁右擊點(diǎn)檢查,就可以看到源代碼,繼而進(jìn)行相關(guān)的一系列操作。
(三)BeautifulSoup解析網(wǎng)頁數(shù)據(jù)
BeautifulSoup模塊用于解析html和xml文檔中的內(nèi)容,相比正則表達(dá)式,其更好的利用了html這種結(jié)構(gòu)性文檔的樹狀結(jié)構(gòu),解析起來更加方便。解析的第一步是構(gòu)建一個(gè)BeautifulSoup對象,通過點(diǎn)號操作符,可以直接訪問文檔中的特定標(biāo)簽。本文通過解析代碼,獲取所有p標(biāo)簽里面的內(nèi)容即可獲取新聞文本。
(四)數(shù)據(jù)處理
Python中迄今為止最好的中文分詞組件是Jieba分詞器,可很好地協(xié)助使用者完成潛在主題發(fā)現(xiàn)和主題詞獲取等任務(wù),特別適用于中文文本分類。故而,本文采用Jieba分詞器進(jìn)行政策新聞文本數(shù)據(jù)的一系列處理。
首先,通過Pandas庫的read_excel()方法導(dǎo)入爬取下來的鏈接即444個(gè)URL;其次,循環(huán)遍歷URL訪問對應(yīng)內(nèi)容,通過BeautifulSoup中soup.find_all('p')獲取網(wǎng)頁源代碼所有p標(biāo)簽的內(nèi)容,即所有段落對應(yīng)的內(nèi)容,同時(shí)采用正則表達(dá)式進(jìn)行數(shù)據(jù)清洗,如用re.sub('<.*?>','',paragraphs[i])清洗掉所有‘<>里面的內(nèi)容;再次,將處理后的每篇政策新聞放到一個(gè)字符串里面,444篇新聞就是444個(gè)字符串,把這些字符串放到一個(gè)列表con_list444里面;而后,通過Jieba庫的jieba.cut()方法實(shí)現(xiàn)對新聞文本的分詞操作,獲取長度大于等于3且小于等于4的分詞結(jié)果;之后,采用sklearn中的TfidfVectorizer方法獲取分詞權(quán)重;再之后,采用for循環(huán),通過jieba.del_word(word)手動(dòng)刪除意義不大的詞,如平方公里、符合條件等;最后,通過collections模塊的 Counter()方法獲取top100的關(guān)鍵詞及權(quán)重。
三、高頻詞統(tǒng)計(jì)與數(shù)據(jù)可視化
完成數(shù)據(jù)采集和數(shù)據(jù)處理后,調(diào)出并應(yīng)用WordCloud庫和 Jieba庫來實(shí)現(xiàn)高頻詞統(tǒng)計(jì)和數(shù)據(jù)可視化。同時(shí)借助collections模塊中的Counter()方法來實(shí)現(xiàn)詞頻統(tǒng)計(jì),分別統(tǒng)計(jì)兩個(gè)字、三個(gè)字和四個(gè)字分詞的top20,詞頻統(tǒng)計(jì)結(jié)果如表2。
(一)分詞TF—IDF權(quán)重統(tǒng)計(jì)
TF—IDF是一種統(tǒng)計(jì)方法,用以評估一字詞對于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會隨著它在語料庫中出現(xiàn)的頻率成反比下降。本文對444篇基于區(qū)塊鏈與企業(yè)合作網(wǎng)絡(luò)相關(guān)主題的政策新聞進(jìn)行Jieba分詞,然后通過Python采用TF—IDF算法進(jìn)行分詞的權(quán)重統(tǒng)計(jì),之后將分詞權(quán)重降序排列,剔除停用詞后其結(jié)果如表3。
(二)高頻詞條形圖制作
基于詞頻統(tǒng)計(jì)結(jié)果來制作水平條形圖,可以獲得更加明了清晰的詞頻統(tǒng)計(jì)效果,讓人耳目一新。接著,調(diào)用matplotlib 模塊的子模塊pyplot的barh()方法來繪制水平條形圖。對三個(gè)字和四個(gè)字分詞分別繪制詞頻條形圖結(jié)果如圖1和圖2。
(三)WordCloud詞云圖繪制
詞云圖是一種數(shù)據(jù)可視化圖表,視覺沖擊性很強(qiáng)。通過對文本中大量無實(shí)際意義的低頻詞匯進(jìn)行過濾、并對出現(xiàn)頻率較高的“關(guān)鍵詞”予以不同顏色和大小進(jìn)行視覺效果上的突出。本文使用wordcloud庫和imageio融合圖形圖片繪制詞云圖展示444份基于區(qū)塊鏈與企業(yè)合作網(wǎng)絡(luò)相關(guān)搜索詞的政策新聞文本的關(guān)鍵詞。三字以上排名前130的分詞對應(yīng)的詞云圖繪制結(jié)果如圖3。
四、結(jié)論
基于區(qū)塊鏈與企業(yè)合作網(wǎng)絡(luò)相關(guān)政策的詞云結(jié)果顯示:綜合來看,相關(guān)實(shí)踐重在“試驗(yàn)區(qū)”和“示范區(qū)”;“人工智能”“互聯(lián)網(wǎng)”和“信息化”排列靠前,與當(dāng)今時(shí)代發(fā)展保持一致;“創(chuàng)新”“改革”“制度”“資源”“管理”和“政策”是重要著力方點(diǎn);“現(xiàn)代化”“服務(wù)化”“數(shù)字化”“智能化”“標(biāo)準(zhǔn)化”和“市場化”是重要向;“基礎(chǔ)設(shè)施”“公共服務(wù)”“生態(tài)環(huán)境”“知識產(chǎn)權(quán)”“自由貿(mào)易”“交通運(yùn)輸”“網(wǎng)絡(luò)安全”“服務(wù)平臺”“科技成果”“管理制度”“外商投資”和“科研院所”是硬實(shí)力;“技術(shù)”“關(guān)鍵技術(shù)”“技術(shù)創(chuàng)新”“核心技術(shù)”和“創(chuàng)新能力”成分說明創(chuàng)新技術(shù)的重要性;“高質(zhì)量”與新時(shí)代我國社會的主要矛盾相吻合。
本文通過爬取中國政府網(wǎng)的政策新聞文本,進(jìn)一步證明了網(wǎng)絡(luò)規(guī)則的規(guī)范性。爬蟲可以方便地獲取數(shù)據(jù),擁有廣闊的應(yīng)用前景。相較于傳統(tǒng)數(shù)據(jù),中國政府網(wǎng)的政策新聞具有更清晰的指向性以及更強(qiáng)的前瞻性,本文通過對政策新聞的文本挖掘來探索隱藏在大量數(shù)據(jù)背后的關(guān)鍵詞信息。本實(shí)驗(yàn)結(jié)果顯示,通過爬蟲、正則化數(shù)據(jù)清洗和數(shù)據(jù)可視化等步驟后,獲得的高頻詞條形圖和政策新聞詞云圖結(jié)果較好地呈現(xiàn)了新聞的指向與發(fā)展焦點(diǎn),這對于把握未來發(fā)展走向具有一定的現(xiàn)實(shí)意義。
[基金項(xiàng)目:國家自然科學(xué)基金項(xiàng)目“企業(yè)網(wǎng)絡(luò)權(quán)力的形成機(jī)理、配置效率及其對合作行為的影響研究”(71872014);山西省基礎(chǔ)研究(自由探索)項(xiàng)目“區(qū)塊鏈與戰(zhàn)略性新興產(chǎn)業(yè)集群深度融合研究”(202303021211141)。]
參考文獻(xiàn):
[1] 王君宇,吳清烈,曹卉宇.國內(nèi)區(qū)塊鏈典型應(yīng)用研究綜述[J].科技與經(jīng)濟(jì),2019,32(05):1-6.
[2] 王莉,段婷,董珺.區(qū)塊鏈與企業(yè)網(wǎng)絡(luò)融合:機(jī)遇、挑戰(zhàn)與對策[J].經(jīng)濟(jì)問題,2021(04):23-30.
[3] 宋華,楊雨東,陶錚.區(qū)塊鏈在企業(yè)融資中的應(yīng)用:文獻(xiàn)綜述與知識框架[J].南開管理評論,2022,25(02):34-46.
[4] 曾詩欽,霍如,黃韜,等.區(qū)塊鏈技術(shù)研究綜述:原理、進(jìn)展與應(yīng)用[J].通信學(xué)報(bào),2020,41(01):134-151.
[5] 李曉娣,原媛,黃魯成.政策工具視角下我國養(yǎng)老產(chǎn)業(yè)政策量化研究[J].情報(bào)雜志,2021,40(04):147-154.
[6] 黎曦.基于網(wǎng)絡(luò)爬蟲的論壇數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].華中科技大學(xué),2019.
[7] 汪言.基于Python的詞云生成及優(yōu)化研究——以“十四五”規(guī)劃為例[J].電腦知識與技術(shù),2021,17(19):23-28.
(作者單位:孫國強(qiáng),趙歡,山西財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院 山西太原 030006;王芝芝,山西省科技成果轉(zhuǎn)移轉(zhuǎn)化促進(jìn)與數(shù)據(jù)監(jiān)測中心 山西太原 030001)
[作者簡介:孫國強(qiáng),博士,山西財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院教授,研究方向?yàn)榻M織創(chuàng)新與網(wǎng)絡(luò)治理;趙歡,碩士,研究方向?yàn)榻M織創(chuàng)新與網(wǎng)絡(luò)治理;王芝芝,山西省科技成果轉(zhuǎn)移轉(zhuǎn)化促進(jìn)與數(shù)據(jù)監(jiān)測中心副研究員,研究方向?yàn)檎畔⒒?。]
(責(zé)編:賈偉)