• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      “新基建”背景下的工程英語的詞頻數(shù)據(jù)分析

      2022-12-20 03:46:14周世俊李波
      關(guān)鍵詞:新基建詞頻分詞

      ◎周世俊 李波

      一、研究目的

      為響應(yīng)國家“新基建”號召:加快推進國家規(guī)劃已明確的重大工程和基礎(chǔ)設(shè)施建設(shè),加快5G網(wǎng)絡(luò)、數(shù)據(jù)中心等新型基礎(chǔ)設(shè)施建設(shè)進度,作為重要的基礎(chǔ)產(chǎn)業(yè)和新興產(chǎn)業(yè),“新基建”一頭連著巨大的投資與需求,一頭牽著不斷升級的強大消費市場,是中國經(jīng)濟增長的新引擎。當(dāng)前,大數(shù)據(jù)產(chǎn)業(yè)已經(jīng)成為我國數(shù)字經(jīng)濟發(fā)展的重要引擎。隨著國家加大力度支持新基建發(fā)展,人工智能、5G、物聯(lián)網(wǎng)、數(shù)據(jù)中心等產(chǎn)業(yè)有望駛上“高速路”,這對國內(nèi)大數(shù)據(jù)產(chǎn)業(yè)來說也是一大關(guān)鍵利好。由之前際高速鐵路和城市軌道交通、新能源汽車充電樁、大數(shù)據(jù)中心、人工智能、工業(yè)互聯(lián)網(wǎng)這幾大領(lǐng)域,又新增5G、超高壓,對數(shù)字化、智能化的重要的程度越來越高,從而加大對外業(yè)務(wù)工程的需求,對外業(yè)務(wù)工程對英語的需要也越來越高,而工程英語多為生僻詞匯且詞匯量龐大,翻譯起來困難是造成對外業(yè)務(wù)發(fā)展極大的不利因素,大大降低工作效率,所以對工程英語有極高的需求,進行英語詞頻數(shù)據(jù)分析有助于建立工程英語詞庫,來更好的找到所需的單詞來進步對業(yè)務(wù)的交涉大大增加對外業(yè)務(wù)工程的效率,從而間接增加經(jīng)濟效益。

      二、數(shù)據(jù)來源及處理方法

      (一)數(shù)據(jù)來源

      本文章所涉及的數(shù)據(jù)來自于長春工程學(xué)院的“新基建”+”一帶一路”涉外工程英語應(yīng)用研究的創(chuàng)新團隊,本文所包含的據(jù)都是一些國內(nèi)外所達成的工程合同,這里在本文中不支持展示。

      (二)處理方法

      在目前國內(nèi)的對外的工程合同大部分都是用pdf的形式來進行保存,首先我們得將pdf形式轉(zhuǎn)成word形式或者txt文檔的形式,通過python的一些庫或者自定義函數(shù)的用法來統(tǒng)計詞頻,通過python的wordcloud庫來進行詞云圖的制作,詞云圖可以幫助我們更好分辨不同元素的重要性,對文本出現(xiàn)頻率較高的文本信息進行展示。

      (三)操作步驟

      1.將文本轉(zhuǎn)換成中文進行處理。

      (1)讀取文件。

      ①可以將PDF文件用相關(guān)軟件轉(zhuǎn)換成word或者txt文件來進行讀取,不過因為在相關(guān)軟件下轉(zhuǎn)換時會發(fā)生亂碼的存在就不能很好的達到想要的那種效果。

      ②在讀取PDF文檔的時候可以在python中選擇安裝pdfminer或者PyPDF2這個庫來進行讀取,不過對于PyPDF2這個庫來說的話,只支持英文,對中文支持不太好,相對于PyPDF2來說,pdfminer支持多種語言、圖表、圖片等,功能較為強大。對于pdfminer是一個從pdf文檔提取信息并且完全專注于獲取和分析文本數(shù)據(jù)的工具,所以說對于要對工程合同進行數(shù)據(jù)處理的話,可以考慮這個工具包,里面有專門的模塊來進行存儲,獲得數(shù)據(jù)、解析page內(nèi)容,最為關(guān)鍵的是可以不去讀取圖片,防止工程合同中存在一些圖片導(dǎo)致程序報錯。像一般python2和python3不兼容這點也著重注意需要對應(yīng)的pdfminer版本。

      ③對word文檔進行讀取的可以使用python-docx庫進行讀取,python-docx庫可以讀取表格里的內(nèi)容,像word進行保存時可能是docx或者是doc形式,不同的存儲格式需要不同的python庫。

      (2)翻譯且進行保存。

      可以將文檔中的進行讀取后,要做一個爬蟲來進行翻譯,像百度翻譯、谷歌翻譯、有道翻譯等這個翻譯網(wǎng)站來爬取或者是直接進行翻譯,這里用爬取百度翻譯為例:

      ①首先百度翻譯,是使用ajax的局部的刷新技術(shù),進入百度翻譯的頁面,在翻譯面板中隨便輸入或者刪除一些字比如把“吃早飯”變成“吃飯”就會出現(xiàn)“sug”,獲得url。

      ②進行UA偽裝,在python對網(wǎng)頁進行請求時,會直接以一個爬蟲的形式去請求網(wǎng)站,這樣的話就會被大部分網(wǎng)站給禁止,所以在這進行UA偽裝能幫助我們找到百度翻譯的接口。

      ③獲得數(shù)據(jù),然后將數(shù)據(jù)存儲在word、pdf、txt文件。

      (3)進行詞頻分析并制作詞云。

      ①下載jieba、wordcloud庫。

      第一種方法,可以去官網(wǎng)中尋找jieba、wordcloud庫一定要找好對應(yīng)自己python版本的庫,不然會報錯或者找不到該程序,將下載whl文件復(fù)制到自己python的Script文件下,然后在命令指示符那輸入pip install+Script路徑+所下載的jieba和wordcloud的文件全部名第二種方法,在python的開發(fā)工具pycharm中setting中進行下載或者直接在在命令指示符中輸入pip install+庫名,也可以用清華的鏡像的方法來進行下載

      ②進行分詞和數(shù)據(jù)處理。

      像英文的話有空格區(qū)隔就相當(dāng)于分詞了,但是中文不行,中文有詞語,成語這些的,這時候就需要運用到分詞庫了,jieba、pynlpir庫都是中文分詞庫,本文章使用的是jieba庫,它可以進行分詞,命令行分詞,還支持關(guān)鍵詞提取等,同時還有jieba庫分詞有三種模式:第一種精確模式、第二種全模式、第三種搜索引擎模式,所以說jieba庫是十分好用的。首先先import jieba再定義一個函數(shù)readfile()讀取文本文檔內(nèi)容(像這里的讀取方法。上文已經(jīng)論述過了)在讀取過程中要注意文本保存內(nèi)容的編碼,不然讀取的內(nèi)容會是亂碼,然后給讀取的文檔內(nèi)容返回回來,其次可以進行一個簡單的預(yù)處理定義一個函數(shù)clean(),使用一個for循環(huán)對于文本中存在的標點符號去除,最后進行分詞處理,在這定義一個wordcount()方法像這里本文章使用jieba。lcut()方法進行分詞,這里在定義一個空的字典然后可以進行一些無用字的處理,像一些“啊,嗯”等這些無價值的詞,像可以在百度上尋找停用詞表,很容易就能找,像這里本文使用的是哈工大的停用詞表,將停用詞表進行一個分詞然后以列表的形式進行存儲,然后用if-else語句進行一個遍歷將合同里的無價值的詞給優(yōu)先刪除,然后在將刪除完停用詞的內(nèi)容存入sdict字典然后將字典類型強制類型轉(zhuǎn)換成列表,以詞頻從多到少的寫入列表中,函數(shù)最后將列表返回。最后定義writeFile()函數(shù)將處理完的數(shù)據(jù)存入txt的文件。

      部分代碼展示以部分可見內(nèi)容展示

      (4)進行詞云圖制作。

      wordcloud可以對文本中出現(xiàn)頻率較高的詞語給予視覺化展示的圖形,這個庫的wordcloud。WordCloud()方法可以進行對畫板大小的構(gòu)建,背景的顏色,字體等等一系列的自定義,或者是可以自定義詞云圖的形狀,可以選擇一個圖片形狀來自定義詞云圖的形狀。本文展示簡單的制作云圖的代碼,如下圖:

      2.將英文文本進行處理。

      讀取文件文件在上文都已經(jīng)進行過仔細的講解可以去上文繼續(xù)了解了解,英文文檔可以直接進行處理,像前文的clean()、fenci()、wordcount()、readfile()方法幾乎都是一樣,就是比較注意的一點是英文分詞是不需要進行分詞,就是不需要像中文那樣jieba庫來特地的進行分詞,像英文就是一個單詞一個空格,所以可以用python自帶的split()函數(shù)(split()函數(shù)是對指定的分隔符對字符串進行切片,并且以列表的形式返回已經(jīng)分隔完成的字符串列表)進行分隔,最終進行打印存儲到txt文件里面,最后進行詞云圖的制作,來展示合同中高頻出現(xiàn)的關(guān)鍵詞。

      四、結(jié)束語

      本項目從“新基建”下的工程合同出發(fā)進行數(shù)據(jù)分析以及詞云圖的制作,我們采取現(xiàn)在新興的python語言來進行數(shù)據(jù)的清洗、提取等一些操作,同時本文章在讀取工程合同時采取不同python庫來進行讀取,展示python語言的簡單以及方便性,在處理數(shù)據(jù)方面也沒使用過難的技術(shù)都是采取了函數(shù)的方法來進行處理,最后做出詞云圖。這同時也為我國涉外工程對工程合同處理提供了一個思路,也為我國涉外工程解決了一些實際的需求。

      猜你喜歡
      新基建詞頻分詞
      基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      關(guān)于“新基建”下信息通信高校學(xué)科發(fā)展的探討
      遠東智慧能源 掘金“新基建”風(fēng)口
      英才(2019年2期)2019-03-26 02:29:52
      2019,“新基建”競爭吹響號角
      外媒拿中國在西沙“新基建”說事
      值得重視的分詞的特殊用法
      詞頻,一部隱秘的歷史
      云存儲中支持詞頻和用戶喜好的密文模糊檢索
      以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報》學(xué)術(shù)研究特色
      圖書館論壇(2014年8期)2014-03-11 18:47:59
      蓝田县| 宜丰县| 清远市| 连城县| 抚远县| 南平市| 咸宁市| 岑巩县| 子长县| 顺昌县| 庆城县| 房产| 舒兰市| 苍南县| 蒲城县| 定结县| 通许县| 喜德县| 鄂托克旗| 双鸭山市| 松阳县| 福建省| 竹溪县| 伊川县| 芦溪县| 花垣县| 佛教| 温州市| 五原县| 合阳县| 定日县| 噶尔县| 奉节县| 前郭尔| 延寿县| 潮安县| 五河县| 锡林浩特市| 秀山| 家居| 封开县|