99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

<sup id="ii0i4"><delect id="ii0i4"></delect></sup><tr id="ii0i4"><menu id="ii0i4"></menu></tr>

<small id="ii0i4"><menu id="ii0i4"></menu></small>

?

“新基建”背景下的工程英語的詞頻數(shù)據(jù)分析

2022-12-20 03:46:14周世俊李波

經(jīng)濟技術(shù)協(xié)作信息 2022年1期

關(guān)鍵詞：新基建詞頻分詞

◎周世俊李波

一、研究目的

為響應(yīng)國家“新基建”號召：加快推進國家規(guī)劃已明確的重大工程和基礎(chǔ)設(shè)施建設(shè)，加快5G網(wǎng)絡(luò)、數(shù)據(jù)中心等新型基礎(chǔ)設(shè)施建設(shè)進度，作為重要的基礎(chǔ)產(chǎn)業(yè)和新興產(chǎn)業(yè)，“新基建”一頭連著巨大的投資與需求，一頭牽著不斷升級的強大消費市場，是中國經(jīng)濟增長的新引擎。當(dāng)前，大數(shù)據(jù)產(chǎn)業(yè)已經(jīng)成為我國數(shù)字經(jīng)濟發(fā)展的重要引擎。隨著國家加大力度支持新基建發(fā)展，人工智能、5G、物聯(lián)網(wǎng)、數(shù)據(jù)中心等產(chǎn)業(yè)有望駛上“高速路”，這對國內(nèi)大數(shù)據(jù)產(chǎn)業(yè)來說也是一大關(guān)鍵利好。由之前際高速鐵路和城市軌道交通、新能源汽車充電樁、大數(shù)據(jù)中心、人工智能、工業(yè)互聯(lián)網(wǎng)這幾大領(lǐng)域，又新增5G、超高壓，對數(shù)字化、智能化的重要的程度越來越高，從而加大對外業(yè)務(wù)工程的需求，對外業(yè)務(wù)工程對英語的需要也越來越高，而工程英語多為生僻詞匯且詞匯量龐大，翻譯起來困難是造成對外業(yè)務(wù)發(fā)展極大的不利因素，大大降低工作效率，所以對工程英語有極高的需求，進行英語詞頻數(shù)據(jù)分析有助于建立工程英語詞庫，來更好的找到所需的單詞來進步對業(yè)務(wù)的交涉大大增加對外業(yè)務(wù)工程的效率，從而間接增加經(jīng)濟效益。

二、數(shù)據(jù)來源及處理方法

（一）數(shù)據(jù)來源

本文章所涉及的數(shù)據(jù)來自于長春工程學(xué)院的“新基建”+”一帶一路”涉外工程英語應(yīng)用研究的創(chuàng)新團隊，本文所包含的據(jù)都是一些國內(nèi)外所達成的工程合同，這里在本文中不支持展示。

（二）處理方法

在目前國內(nèi)的對外的工程合同大部分都是用pdf的形式來進行保存，首先我們得將pdf形式轉(zhuǎn)成word形式或者txt文檔的形式，通過python的一些庫或者自定義函數(shù)的用法來統(tǒng)計詞頻，通過python的wordcloud庫來進行詞云圖的制作，詞云圖可以幫助我們更好分辨不同元素的重要性，對文本出現(xiàn)頻率較高的文本信息進行展示。

（三）操作步驟

1.將文本轉(zhuǎn)換成中文進行處理。

（1）讀取文件。

①可以將PDF文件用相關(guān)軟件轉(zhuǎn)換成word或者txt文件來進行讀取，不過因為在相關(guān)軟件下轉(zhuǎn)換時會發(fā)生亂碼的存在就不能很好的達到想要的那種效果。

②在讀取PDF文檔的時候可以在python中選擇安裝pdfminer或者PyPDF2這個庫來進行讀取，不過對于PyPDF2這個庫來說的話，只支持英文，對中文支持不太好，相對于PyPDF2來說，pdfminer支持多種語言、圖表、圖片等，功能較為強大。對于pdfminer是一個從pdf文檔提取信息并且完全專注于獲取和分析文本數(shù)據(jù)的工具，所以說對于要對工程合同進行數(shù)據(jù)處理的話，可以考慮這個工具包，里面有專門的模塊來進行存儲，獲得數(shù)據(jù)、解析page內(nèi)容，最為關(guān)鍵的是可以不去讀取圖片，防止工程合同中存在一些圖片導(dǎo)致程序報錯。像一般python2和python3不兼容這點也著重注意需要對應(yīng)的pdfminer版本。

③對word文檔進行讀取的可以使用python-docx庫進行讀取，python-docx庫可以讀取表格里的內(nèi)容，像word進行保存時可能是docx或者是doc形式，不同的存儲格式需要不同的python庫。

（2）翻譯且進行保存。

可以將文檔中的進行讀取后，要做一個爬蟲來進行翻譯，像百度翻譯、谷歌翻譯、有道翻譯等這個翻譯網(wǎng)站來爬取或者是直接進行翻譯，這里用爬取百度翻譯為例：

①首先百度翻譯，是使用ajax的局部的刷新技術(shù)，進入百度翻譯的頁面，在翻譯面板中隨便輸入或者刪除一些字比如把“吃早飯”變成“吃飯”就會出現(xiàn)“sug”，獲得url。

②進行UA偽裝，在python對網(wǎng)頁進行請求時，會直接以一個爬蟲的形式去請求網(wǎng)站，這樣的話就會被大部分網(wǎng)站給禁止，所以在這進行UA偽裝能幫助我們找到百度翻譯的接口。

③獲得數(shù)據(jù)，然后將數(shù)據(jù)存儲在word、pdf、txt文件。

（3）進行詞頻分析并制作詞云。

①下載jieba、wordcloud庫。

第一種方法，可以去官網(wǎng)中尋找jieba、wordcloud庫一定要找好對應(yīng)自己python版本的庫，不然會報錯或者找不到該程序，將下載whl文件復(fù)制到自己python的Script文件下，然后在命令指示符那輸入pip install+Script路徑+所下載的jieba和wordcloud的文件全部名第二種方法，在python的開發(fā)工具pycharm中setting中進行下載或者直接在在命令指示符中輸入pip install+庫名，也可以用清華的鏡像的方法來進行下載

②進行分詞和數(shù)據(jù)處理。

像英文的話有空格區(qū)隔就相當(dāng)于分詞了，但是中文不行，中文有詞語，成語這些的，這時候就需要運用到分詞庫了，jieba、pynlpir庫都是中文分詞庫，本文章使用的是jieba庫，它可以進行分詞，命令行分詞，還支持關(guān)鍵詞提取等，同時還有jieba庫分詞有三種模式：第一種精確模式、第二種全模式、第三種搜索引擎模式，所以說jieba庫是十分好用的。首先先import jieba再定義一個函數(shù)readfile（）讀取文本文檔內(nèi)容（像這里的讀取方法。上文已經(jīng)論述過了）在讀取過程中要注意文本保存內(nèi)容的編碼，不然讀取的內(nèi)容會是亂碼，然后給讀取的文檔內(nèi)容返回回來，其次可以進行一個簡單的預(yù)處理定義一個函數(shù)clean（），使用一個for循環(huán)對于文本中存在的標點符號去除，最后進行分詞處理，在這定義一個wordcount（）方法像這里本文章使用jieba。lcut（）方法進行分詞，這里在定義一個空的字典然后可以進行一些無用字的處理，像一些“啊，嗯”等這些無價值的詞，像可以在百度上尋找停用詞表，很容易就能找，像這里本文使用的是哈工大的停用詞表，將停用詞表進行一個分詞然后以列表的形式進行存儲，然后用if-else語句進行一個遍歷將合同里的無價值的詞給優(yōu)先刪除，然后在將刪除完停用詞的內(nèi)容存入sdict字典然后將字典類型強制類型轉(zhuǎn)換成列表，以詞頻從多到少的寫入列表中，函數(shù)最后將列表返回。最后定義writeFile（）函數(shù)將處理完的數(shù)據(jù)存入txt的文件。

部分代碼展示以部分可見內(nèi)容展示

（4）進行詞云圖制作。

wordcloud可以對文本中出現(xiàn)頻率較高的詞語給予視覺化展示的圖形，這個庫的wordcloud。WordCloud（）方法可以進行對畫板大小的構(gòu)建，背景的顏色，字體等等一系列的自定義，或者是可以自定義詞云圖的形狀，可以選擇一個圖片形狀來自定義詞云圖的形狀。本文展示簡單的制作云圖的代碼，如下圖：

2.將英文文本進行處理。

讀取文件文件在上文都已經(jīng)進行過仔細的講解可以去上文繼續(xù)了解了解，英文文檔可以直接進行處理，像前文的clean（）、fenci（）、wordcount（）、readfile（）方法幾乎都是一樣，就是比較注意的一點是英文分詞是不需要進行分詞，就是不需要像中文那樣jieba庫來特地的進行分詞，像英文就是一個單詞一個空格，所以可以用python自帶的split（）函數(shù)（split（）函數(shù)是對指定的分隔符對字符串進行切片，并且以列表的形式返回已經(jīng)分隔完成的字符串列表）進行分隔，最終進行打印存儲到txt文件里面，最后進行詞云圖的制作，來展示合同中高頻出現(xiàn)的關(guān)鍵詞。

四、結(jié)束語

本項目從“新基建”下的工程合同出發(fā)進行數(shù)據(jù)分析以及詞云圖的制作，我們采取現(xiàn)在新興的python語言來進行數(shù)據(jù)的清洗、提取等一些操作，同時本文章在讀取工程合同時采取不同python庫來進行讀取，展示python語言的簡單以及方便性，在處理數(shù)據(jù)方面也沒使用過難的技術(shù)都是采取了函數(shù)的方法來進行處理，最后做出詞云圖。這同時也為我國涉外工程對工程合同處理提供了一個思路，也為我國涉外工程解決了一些實際的需求。

猜你喜歡

新基建詞頻分詞

基于詞頻分析法的社區(qū)公園歸屬感營建要素研究

園林科技(2021年3期)2022-01-19 03:17:48

結(jié)巴分詞在詞云中的應(yīng)用

智富時代(2019年6期)2019-07-24 10:33:16

關(guān)于“新基建”下信息通信高校學(xué)科發(fā)展的探討

經(jīng)濟研究導(dǎo)刊(2019年16期)2019-07-08 03:27:23

遠東智慧能源掘金“新基建”風(fēng)口

英才(2019年2期)2019-03-26 02:29:52

2019，“新基建”競爭吹響號角

環(huán)球時報(2019-01-24)2019-01-24 04:30:34

外媒拿中國在西沙“新基建”說事

環(huán)球時報(2017-03-16)2017-03-16 06:42:28

值得重視的分詞的特殊用法

高中生·天天向上(2016年9期)2016-11-22 09:10:34

詞頻，一部隱秘的歷史

讀者·校園版(2015年7期)2015-05-14 13:11:40

云存儲中支持詞頻和用戶喜好的密文模糊檢索

深圳大學(xué)學(xué)報(理工版)(2015年5期)2015-02-28 16:22:05

以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報》學(xué)術(shù)研究特色

圖書館論壇(2014年8期)2014-03-11 18:47:59

經(jīng)濟技術(shù)協(xié)作信息2022年1期

經(jīng)濟技術(shù)協(xié)作信息的其它文章: 特殊巖土的巖土工程勘察技術(shù)研究; 印尼北蘇三火電項目煙囪滑模技術(shù)與施工應(yīng)用; 城區(qū)市政公路建設(shè)項目的水土保持措施; 企業(yè)集團財務(wù)共享服務(wù)中心建設(shè)問題; 行政事業(yè)單位基建投資問題及審計研究; 范仲淹的財政審計思想

蓝田县| 宜丰县| 清远市| 连城县| 抚远县| 南平市| 咸宁市| 岑巩县| 子长县| 顺昌县| 庆城县| 房产| 舒兰市| 苍南县| 蒲城县| 定结县| 通许县| 喜德县| 鄂托克旗| 双鸭山市| 松阳县| 福建省| 竹溪县| 伊川县| 芦溪县| 花垣县| 佛教| 温州市| 五原县| 合阳县| 定日县| 噶尔县| 奉节县| 前郭尔| 延寿县| 潮安县| 五河县| 锡林浩特市| 秀山| 家居| 封开县|

<noscript id="i88ii"></noscript>

<nav id="i88ii"></nav>

<nav id="i88ii"></nav>

<noscript id="i88ii"><dd id="i88ii"></dd></noscript>

<sup id="i88ii"></sup>

<tfoot id="i88ii"></tfoot>

<small id="i88ii"></small>