一種利用網(wǎng)絡(luò)爬蟲技術(shù)提高多語種術(shù)語庫校審效率的方法

2023-05-24 04:51:46劉雯

科技資訊 2023年8期

劉雯

摘要：為保障多語種智能翻譯系統(tǒng)充分發(fā)揮其標(biāo)準(zhǔn)化、快速翻譯的作用，必須構(gòu)建高質(zhì)量的多語種術(shù)語庫，不斷充實(shí)翻譯系統(tǒng)的后臺詞匯。在多語種術(shù)語庫的構(gòu)建過程中校審是保證術(shù)語庫質(zhì)量的關(guān)鍵環(huán)節(jié)。然而，與運(yùn)用數(shù)萬詞條量、甚至體量更為龐大的待校審術(shù)語庫對比，單純使用傳統(tǒng)的人力校審方式，已經(jīng)不能滿足為智能翻譯系統(tǒng)及時擴(kuò)充術(shù)語庫的需求。針對上述問題，文章提出了一種網(wǎng)絡(luò)爬蟲技術(shù)在多語種術(shù)語庫校審中的應(yīng)用方法，并介紹了網(wǎng)絡(luò)爬蟲技術(shù)的概念、原理、分類、特點(diǎn)，詳細(xì)闡述了該技術(shù)在多語種術(shù)語庫校審中的應(yīng)用實(shí)踐，最后對網(wǎng)絡(luò)爬蟲技術(shù)在翻譯和情報專業(yè)領(lǐng)域的應(yīng)用進(jìn)行了展望。

關(guān)鍵詞：網(wǎng)絡(luò)爬蟲??多語種術(shù)語庫??校審??多語種智能翻譯系統(tǒng)

中圖分類號：TP393.09????文獻(xiàn)標(biāo)識碼：A

A?method?for?Improving?the?Efficiency?of?Proofreading?Multilingual

Terminology?Databases?by?Using?Web?Crawler?Technology

LIU?Wen

（Beijing?Institute?of?Aerospace?Information，?Beijing，?100854?China）

Abstract：?In?order?to?guarantee?the?multilingual?intelligent?translation?system?to?give?full?play?to?its?standardized?and?fast?translation?function，?it?is?necessary?to?build?a?high-quality?multilingual?terminology?database?and?continuously?enrich?the?background?vocabulary?of?the?translation?system.?In?the?process?of?building?the?multilingual?terminology?database，?proofreading?is?the?key?link?to?ensure?the?quality?of?the?terminology?database.?However，?compared?with?the?use?of?tens?of?thousands?of?terms?or?even?a?larger?volume?of?the?terminology?database?to?be?proofread，?the?simple?use?of?the?traditional?manual?proofreading?method?can?no?longer?meet?the?demand?for?expanding?the?terminology?database?in?time?for?the?intelligent?translation?system.?In?response?to?the?above?problems，?this?paper?proposes?an?application?method?of?web?crawler?technology?in?proofreading?multilingual?terminology?databases，?introduces?the?concept，?principle，?classification?and?characteristics?of?web?crawler?technology，?elaborates?the?application?practice?of?this?technology?in?proofreading?multilingual?terminology?databases，?and?finally?looks?forward?to?the?application?of?web?crawler?technology?in?translation?and?intelligence?professional?fields.

Key?Words：?Web?crawler;?Multilingual?terminology?database;?Proofreading;?Multilingual?intelligent?translation?system

在大數(shù)據(jù)時代，信息采集是一項(xiàng)非常重要的工作，如果單純靠人力采集信息，不僅效率低，采集成本也很高。為了從海量的網(wǎng)絡(luò)信息中快速、準(zhǔn)確地獲取需要的信息，網(wǎng)絡(luò)爬蟲應(yīng)運(yùn)而生，其不僅可以抓取網(wǎng)頁、提取信息并保存，而且還具有極高的可擴(kuò)展性[1]。目前，網(wǎng)絡(luò)爬蟲技術(shù)已經(jīng)廣泛地應(yīng)用到眾多領(lǐng)域，如金融、醫(yī)療、旅游、教育等行業(yè)[2]。

1?網(wǎng)絡(luò)爬蟲概述

1.1?網(wǎng)絡(luò)爬蟲的概念

網(wǎng)絡(luò)爬蟲技術(shù)是指一種按照一定的規(guī)則，自動地抓取互聯(lián)網(wǎng)信息的程序或是腳本[3]。它作為搜索引擎的信息采集器，是搜索引擎技術(shù)的最基礎(chǔ)部分，能幫助人們在互聯(lián)網(wǎng)的海量數(shù)據(jù)中自動、高效地獲取感興趣的信息[4]。

1.2?網(wǎng)絡(luò)爬蟲的工作原理

網(wǎng)絡(luò)爬蟲通過請求站點(diǎn)上的HTML文檔訪問某一站點(diǎn)。它爬行Web空間，不斷從一個站點(diǎn)移動到另一個站點(diǎn)，自動建立索引，并加入到網(wǎng)頁數(shù)據(jù)庫中。當(dāng)網(wǎng)絡(luò)爬蟲進(jìn)入某個超級文本時，利用HTML語言的標(biāo)記結(jié)構(gòu)來搜索信息并獲取指向其他超級文本的URL地址，無需用戶干預(yù)就能實(shí)現(xiàn)網(wǎng)絡(luò)上的自動“爬行”和搜索。

1.3?網(wǎng)絡(luò)爬蟲的分類

網(wǎng)絡(luò)爬蟲按照技術(shù)和結(jié)構(gòu)可分為通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲和深層網(wǎng)絡(luò)爬蟲等類型[5]。

1.3.1?通用網(wǎng)絡(luò)爬蟲

通用網(wǎng)絡(luò)爬蟲又稱為全網(wǎng)爬蟲，其爬取的目標(biāo)資源在全互聯(lián)網(wǎng)中，主要由初始URL集合、URL隊(duì)列、頁面爬行模塊、頁面分析模塊、頁面數(shù)據(jù)庫、鏈接過濾模塊等構(gòu)成。其在爬行時采取深度優(yōu)先、廣度優(yōu)先的策略，適用于某一主題的廣泛搜索，一般應(yīng)用于搜索引擎和大型Web服務(wù)商[6]。

1.3.2?聚焦網(wǎng)絡(luò)爬蟲

聚焦網(wǎng)絡(luò)爬蟲根據(jù)內(nèi)容評價、鏈接結(jié)構(gòu)評價，按照預(yù)設(shè)的主題，有選擇性地爬行[6]，可將爬取目標(biāo)網(wǎng)頁定位在與主題相關(guān)的頁面中，可以節(jié)約帶寬資源和服務(wù)器資源。聚焦網(wǎng)絡(luò)爬蟲主要由初始URL集合、URL隊(duì)列、頁面爬行模塊、頁面分析模塊、頁面數(shù)據(jù)庫、鏈接過濾模塊、內(nèi)容評價模塊、鏈接評價模塊等構(gòu)成。內(nèi)容評價模塊和鏈接評價模塊能夠分別分辨內(nèi)容和鏈接的重要性，以確定優(yōu)先訪問哪些頁面。聚焦網(wǎng)絡(luò)爬蟲采取的主要策略包括基于內(nèi)容評價的爬行策略、基于鏈接評價的爬行策略，基于增強(qiáng)學(xué)習(xí)的爬行策略和基于語境圖的爬行策略。

1.3.3?增量式網(wǎng)絡(luò)爬蟲

增量式網(wǎng)絡(luò)爬蟲在爬行過程中，網(wǎng)頁會發(fā)生增量式的更新[6]。增量式更新是指在更新的時候只更新改變的地方，未改變的地方不更新。所以，增量式網(wǎng)絡(luò)爬蟲在爬取網(wǎng)頁的時候只爬取內(nèi)容發(fā)生變化的網(wǎng)頁或新產(chǎn)生的網(wǎng)頁，它在一定程度上能夠保證所爬取的頁面盡可能是新頁面。

1.3.4?深層網(wǎng)絡(luò)爬蟲

互聯(lián)網(wǎng)的網(wǎng)頁按照存在方式可以分為表層頁面和深層頁面。表層頁面指的是不需要提交表單、使用靜態(tài)的鏈接就能夠到達(dá)的靜態(tài)頁面；深層頁面則隱藏在表單后，不能通過靜態(tài)鏈接直接獲取，需要提交一定的關(guān)鍵詞才能獲取得到的頁面。在互聯(lián)網(wǎng)中，深層頁面的數(shù)量更多，所以我們要想辦法爬取深層頁面。深層網(wǎng)絡(luò)爬蟲主要由URL列表、LVS列表（填充表單的數(shù)據(jù)源）、爬行控制器、解析器、LVS控制器、表單分析器、表單處理器、響應(yīng)分析器等部分構(gòu)成。深層網(wǎng)絡(luò)爬蟲表單的填寫類型分為兩種。一種是基于領(lǐng)域知識的表單填寫：進(jìn)行語義分析，獲取關(guān)鍵詞，提交關(guān)鍵詞后，獲取Web頁面。另一種是基于網(wǎng)絡(luò)結(jié)構(gòu)分析的表單填寫：利用DOM樹形式，表示HTML網(wǎng)頁。

1.4?網(wǎng)絡(luò)爬蟲的特點(diǎn)

網(wǎng)絡(luò)爬蟲具有高性能、可擴(kuò)展性、健壯性等特點(diǎn)[7]，具體如下。

1.4.1?網(wǎng)絡(luò)爬蟲具有高性能

網(wǎng)絡(luò)爬蟲的高性能是指爬蟲的信息抓取速度高。在互聯(lián)網(wǎng)的海量信息中，爬蟲的高性能是保證高效率信息采集的關(guān)鍵因素，通常以爬蟲每秒能夠下載的網(wǎng)頁數(shù)量作為性能指標(biāo)，單位時間能夠下載的網(wǎng)頁數(shù)量越多，爬蟲的性能越高。

1.4.2?網(wǎng)絡(luò)爬蟲具有可擴(kuò)展性

網(wǎng)絡(luò)爬蟲的可擴(kuò)展性指通過增加抓取服務(wù)器和爬蟲數(shù)量來盡可能縮短抓取周期。單個爬蟲的性能雖然很高，但是要將全部網(wǎng)頁都下載到本地，仍需要相當(dāng)長的時間周期，所以網(wǎng)絡(luò)爬蟲的擴(kuò)展性有利于提高爬蟲系統(tǒng)的整體性能。

1.4.3?網(wǎng)絡(luò)爬蟲具有健壯性

爬蟲訪問的網(wǎng)站服務(wù)器類型繁多，所以有時可能會遇到HTML編碼不規(guī)范、被抓取服務(wù)器突然死機(jī)等異常情況，為了避免爬蟲程序在抓取過程中死掉，或者其所在的服務(wù)器宕機(jī)，爬蟲應(yīng)該具有一定的健壯性，再次啟動爬蟲時，能夠恢復(fù)之前抓取的內(nèi)容和數(shù)據(jù)結(jié)構(gòu)，而不是每次都需要把所有工作完全從頭做起。

2?多語種術(shù)語庫的校審問題

多語種智能翻譯系統(tǒng)以術(shù)語庫和語料庫為基礎(chǔ)，借助機(jī)翻引擎，能夠?qū)崿F(xiàn)快速機(jī)器翻譯、人機(jī)協(xié)同翻譯等功能，為翻譯人員賦能，大幅提高翻譯效率。多語種術(shù)語庫是多語種智能翻譯系統(tǒng)的重要組成部分，其為智能翻譯系統(tǒng)提供了大規(guī)模、強(qiáng)有力的詞匯后臺支持，是多語種智能翻譯系統(tǒng)充分發(fā)揮其標(biāo)準(zhǔn)化、快速翻譯作用的重要基礎(chǔ)。多語種術(shù)語庫的構(gòu)建工作包括搜集專業(yè)詞匯、翻譯、校審、入庫等環(huán)節(jié)。為保證多語種術(shù)語庫的正確性、權(quán)威性，術(shù)語在入庫前必須經(jīng)過嚴(yán)格的校審程序，這是保證術(shù)語庫質(zhì)量的關(guān)鍵環(huán)節(jié)。術(shù)語校審流程如圖1。

校審人員在校審術(shù)語庫時需要在互聯(lián)網(wǎng)中搜索術(shù)語，查找包含術(shù)語的文獻(xiàn)例句，以驗(yàn)證術(shù)語是否正確、地道，并將例句和來源網(wǎng)址粘貼留存，以保證術(shù)語驗(yàn)證可溯源。為縮短多語種術(shù)語庫校審周期，提升多語種術(shù)語庫建設(shè)水平，進(jìn)一步釋放多語種智能翻譯系統(tǒng)的效能，必須尋求具有可操作性的實(shí)用手段來提高多語種術(shù)語詞條的校審效率。而網(wǎng)絡(luò)爬蟲就是一個快速得到有效信息的重要手段，我們可以編寫輔助術(shù)語庫校審的網(wǎng)絡(luò)爬蟲程序，實(shí)現(xiàn)多語種術(shù)語例句和來源網(wǎng)址的自動抓取和匯總。

3?網(wǎng)絡(luò)爬蟲技術(shù)在多語種術(shù)語庫校審中的應(yīng)用

網(wǎng)絡(luò)爬蟲技術(shù)的常規(guī)應(yīng)用場景通常以收集資料為重點(diǎn)，側(cè)重于數(shù)量，如搜索引擎場景，可通過深度遍歷HTML超鏈接收集盡可能多的頁面。多語種術(shù)語庫校審場景對術(shù)語相關(guān)例句的數(shù)量要求較低，通常只需要3～5條，但是對術(shù)語在例句中的語義準(zhǔn)確性和表達(dá)地道性要求較高。針對多語種術(shù)語庫校審工作的特點(diǎn)，下文論述了一種專門的聚焦式爬蟲程序——校審輔助爬蟲程序。

3.1?校審輔助爬蟲程序的應(yīng)用對象

文章將俄語專業(yè)技術(shù)術(shù)語庫作為校審輔助爬蟲程序的應(yīng)用對象。俄語專業(yè)技術(shù)術(shù)語庫的全部俄文術(shù)語詞條已經(jīng)翻譯完畢，進(jìn)入正式入庫前的校審環(huán)節(jié)，剩余待校審詞條量為61?385條。

3.2?校審輔助爬蟲程序的數(shù)據(jù)來源

俄文搜索引擎yandex中的網(wǎng)頁信息。

3.3?校審輔助爬蟲程序的工作流程

校審輔助爬蟲程序使用開發(fā)語言go1.17.5，它能夠解析校審人員提供的包含待校審術(shù)語的Excel文件，從約定的位置提取需要校審的術(shù)語詞條，然后模擬校審人員的操作習(xí)慣，自動打開本地運(yùn)行的瀏覽器，使用搜索引擎查詢目標(biāo)術(shù)語，將搜索引擎送回的前三條非廣告搜索結(jié)果采集并錄入到校審人員使用的Excel文件中，最終生成包含術(shù)語例句和例句來源網(wǎng)址的匯總Excel文件。爬蟲程序可以對復(fù)制詞條、搜索詞條、抓取例句、粘貼例句和來源網(wǎng)址等機(jī)械性重復(fù)勞動進(jìn)行自動化批量操作，校審人員只需在生成的文件中篩選例句，從而簡化校審環(huán)節(jié)，提高了校審的效率。以俄語專業(yè)技術(shù)術(shù)語庫為例的校審輔助爬蟲程序的工作流程如圖2。

在使用校審輔助爬蟲程序時，校審人員需要將待查驗(yàn)的術(shù)語詞條粘貼進(jìn)input文件里的相應(yīng)位置（見圖4），一次可以粘貼至少200條術(shù)語。

校審輔助爬蟲程序的運(yùn)行流程和關(guān)鍵代碼邏輯如下。

第一，雙擊啟動校審輔助爬蟲程序（見圖5），程序開始解析包含俄語專業(yè)技術(shù)術(shù)語的Excel文件。

//?準(zhǔn)備輸入文件解析引擎

parseEngine，?err?：=?parser.NewExcelParseEngine（ctx）

if?err?！=?nil?{

utils.FatalReport（fmt.Errorf（"init?ExcelParseEngine?fail?fail：?err=%v"，?err））?os.Exit（-1）

}

俄語專業(yè)技術(shù)術(shù)語詞條的解析引擎的接口設(shè)計：

type?TargetWord?struct?{

OriginalChinese string //中文原文

CandidatesRussian string //候選的初譯俄文：分隔符號支持三種（/;，）?QcSelectedRussian string //QC選中的俄語譯問：初譯俄文的第一個詞?QcReferRussianTexts []string?//QC獲取的參考文獻(xiàn)：yandex?搜索結(jié)果的摘要?QcReferRussianLinks []string?//QC獲取的文獻(xiàn)鏈接：yandex?搜索結(jié)果的鏈接?QcReferYandexSearchLink?string //QC使用的Yandex搜索地址

}

type?ParseEngine?interface?{

ParseTargetWords（inputFile，?sheet?string）?（[]*TargetWord，?error）

}

func?NewExcelParseEngine（ctx?context.Context）?（*ExcelParseEngine，?error）???{

return?&ExcelParseEngine{ctx：?ctx}，?nil

}

第二，初始化網(wǎng)站。

//?準(zhǔn)備術(shù)語詞條搜索引擎

searchEngine，?err?：=?search.NewYandexSearchEngine（ctx）

if?err?！=?nil?{

utils.FatalReport（fmt.Errorf（"NewYandexSearchEngine?fail：?err=%v"，?err））?os.Exit（-1）

}

俄語搜索引擎yandex的接口設(shè)計：

type?SearchEngine?interface?{

Prepare（resetPageStat?func（），?isInteractiveTime?func（）?bool）?chromedp.Tasks?????SearchWord（targetWord?*parser.TargetWord，?abstracts?*[]string，?absLinksAttr?*[]map[string]string，

resetPageStat?func（），?waitPageFinished?func（duration?time.Duration））?chromedp.Tasks

}

func?NewDefaultSearchEngine（ctx?context.Context）?（SearchEngine，?error）?{?return?NewYandexSearchEngine（ctx）

}

func?NewYandexSearchEngine（ctx?context.Context）?（*YandexSearchEngine，?error）{

return?&YandexSearchEngine{ctx：?ctx}，?nil

}

第三，爬蟲程序執(zhí)行搜索動作，搜索包含術(shù)語的例句（見圖6），提取搜索結(jié)果，生成包含術(shù)語例句和例句來源網(wǎng)址的Excel文件（見圖7）。

//?執(zhí)行?QC?校對任務(wù)

go?Execute（InputExcelFile，?InputExcelSheet，?parseEngine，?searchEngine，?outputFileHandler，?signalChan）

//?QC校對任務(wù)執(zhí)行

func?Execute（fileName，?sheetName?string，?parseEngine?parser.ParseEngine，?searchEngine?search.SearchEngine，

outputFileHandler?*excelize.File，?signalChan?chan?os.Signal）?{

var?err?error

var?input?string

//?設(shè)置QC任務(wù)執(zhí)行標(biāo)記

if?err?=?utils.MarkExecuteStat（outputFileHandler）;?err?！=?nil?{

utils.FatalReport（fmt.Errorf（"MarkExecuteStat?fail：?err=%v"，?err））

os.Exit（-1）

}

//?程序退出時取消QC任務(wù)標(biāo)記

defer?func（）?{

if?err?=?utils.UnMarkExecuteStat（outputFileHandler）;?err?！=?nil?{

utils.FatalReport（fmt.Errorf（"UnMarkExecuteStat?fail：?err=%v"，?err））

os.Exit（-1）

}

}（）

//?解析輸入文件中的目標(biāo)詞匯

targetWords，?err?：=?parseEngine.ParseTargetWords（fileName，?sheetName）

if?err?！=?nil?{

utils.FatalReport（fmt.Errorf（"ParseTargetWords?fail：?err=%v"，?err））

os.Exit（-1）

}

//?初始化瀏覽器

taskCtx，?taskCancel?：=?utils.InitChromeCtx（）

defer?taskCancel（）

fmt.Printf（"確認(rèn)已安裝?chrome?瀏覽器?[按回車鍵確認(rèn)]："）

_，?_?=?fmt.Scanf（"%s"，?&input）

fmt.Printf（"確認(rèn)需要校對的目標(biāo)數(shù)量（%d個）?[按回車鍵確認(rèn)]："，?len（targetWords））

_，?_?=?fmt.Scanf（"%s"，?&input）

chromedp.ListenTarget（taskCtx，?utils.TargetEvent）

glog.Infof（"Yandex準(zhǔn)備中..."）

……（過程代碼省略）

//獲取搜索結(jié)果頁地址

chromedp.Location（&targetWord.QcReferYandexSearchLink），

//獲取首頁結(jié)果地址

chromedp.AttributesAll（resultLinkSel，?absLinksAttr，?chromedp.ByQueryAll，?chromedp.AtLeast（0）），

//獲取首頁結(jié)果摘要?chromedp.Evaluate（resultTextSelFunc，?abstracts），

}}

3.4?校審輔助爬蟲程序的效果和特點(diǎn)

文章選取了200個術(shù)語詞條，分別計算了純?nèi)斯ば徦璧臅r間和使用爬蟲程序輔助校審所需的時間。結(jié)果顯示，在校審環(huán)節(jié)完成一次“從校審表里復(fù)制詞條→在互聯(lián)網(wǎng)中搜索詞條→復(fù)制詞條例句→在校審表中粘貼例句和來源網(wǎng)址”的操作，純?nèi)斯て骄脮r為30?s，應(yīng)用校審輔助爬蟲程序后，批量抓取200條詞條需要約15?min，完成一次上述操作僅需要約5?s，搜索術(shù)語、摘取例句并粘貼例句和來源網(wǎng)址的時間大幅縮減。而且，爬蟲抓取例句的精準(zhǔn)度較好，校審人員從抓取結(jié)果中基本上能篩選出合適的例句，但在術(shù)語翻譯錯誤的情況下可能出現(xiàn)人工重新搜索的情況?？梢?，校審輔助爬蟲程序可以大幅降低校審的操作時間，其例句抓取精準(zhǔn)度受術(shù)語詞條翻譯質(zhì)量的影響，對于翻譯正確的術(shù)語可以實(shí)現(xiàn)準(zhǔn)確的例句抓取。此外，校審輔助爬蟲程序還有以下特點(diǎn)。

3.4.1?支持多語種術(shù)語校審

校審輔助爬蟲程序支持英語、法語和俄語術(shù)語例句的搜索和抓取，根據(jù)不同語種，校審輔助爬蟲程序?qū)釉撜Z種的主流搜索引擎進(jìn)行搜索。例如：搜索俄語術(shù)語時啟動俄語的主流搜索引擎yandex（https：//ya.ru/），搜索英語術(shù)語時啟動英語的主流搜索引擎Google（https：//www.google.cn/），搜索法語時啟動法語的主流搜索引擎Yahoo（http：//search.yahoo.com）。此外，校審輔助爬蟲程序具有擴(kuò)展性，可按需要增加其他語種術(shù)語的搜索功能。

3.4.2?適應(yīng)反爬蟲機(jī)制

針對目前互聯(lián)網(wǎng)的反爬蟲機(jī)制，校審輔助爬蟲程序設(shè)置了隨機(jī)等待時間，這使爬蟲的運(yùn)行更像人的操作，在一定程度上降低了人工驗(yàn)證非機(jī)器人行為的頻率，保證了程序運(yùn)行的流暢性。

3.4.3?自動跳過敏感詞

在校審輔助爬蟲程序的實(shí)踐應(yīng)用過程中，由于正值俄烏沖突局勢緊張時期，俄語專業(yè)技術(shù)術(shù)語庫中的某些詞條成為了敏感詞，在俄文搜索引擎中的查詢結(jié)果為空白頁，此種情況出現(xiàn)時，程序運(yùn)行中斷。鑒于該情況，爬蟲程序中增加了自動跳過敏感詞的搜索功能，防止出現(xiàn)卡頓現(xiàn)象。

3.4.4?具有一鍵搜索功能

在生成的例句和網(wǎng)址匯總文件中，設(shè)置了搜索直達(dá)鏈接功能。如果校審人員在自動搜索給出的3個例句中沒有找到合適的例句，可以點(diǎn)擊該鏈接，自動打開對應(yīng)的搜索引擎，實(shí)現(xiàn)一鍵搜索術(shù)語，節(jié)約搜索時間。

4?結(jié)語

文章從多語種術(shù)語庫的校審問題入手，以俄語專業(yè)技術(shù)術(shù)語庫為例，詳細(xì)介紹、分析了網(wǎng)絡(luò)爬蟲技術(shù)在多語種術(shù)語庫校審中的應(yīng)用方法，展示了網(wǎng)絡(luò)爬蟲技術(shù)從海量信息里獲取有效信息的能力和優(yōu)勢。作為一種強(qiáng)大的信息搜集工具，爬蟲技術(shù)在翻譯專業(yè)和情報專業(yè)領(lǐng)域有很大的應(yīng)用潛力。在翻譯專業(yè)方面，爬蟲技術(shù)的應(yīng)用可以替代人工語料搜集，從廣度和精確度上提升語料庫的建設(shè)水平。在情報專業(yè)方面，可以將爬蟲技術(shù)和AI技術(shù)結(jié)合，爬取關(guān)鍵情報信息，自動分析并生成情報信息簡訊，高效地為情報研究工作提供可參考的信息資料。

參考文獻(xiàn)

[1] 鄭苗.基于網(wǎng)絡(luò)爬蟲的北京市房價研究[D].荊州：長江大學(xué)，2018.

[2] 鄭鑫臻，吳韶波.基于網(wǎng)絡(luò)爬蟲技術(shù)的時令旅游信息獲取[J].物聯(lián)網(wǎng)技術(shù)，2018（5）：83-87.

[3] 顧勤.網(wǎng)絡(luò)爬蟲技術(shù)原理及其應(yīng)用研究[J].信息與電腦（理論版），2021（4）：174-176.

[4] 繆治.網(wǎng)絡(luò)爬蟲技術(shù)的研究與實(shí)現(xiàn)[J].中國新通信，2019（6）：70.

[5] 傅一平.詳解4種類型的爬蟲技術(shù)[J].計算機(jī)與網(wǎng)絡(luò)，2021（6）：37-38.

[6] 李文華.解析網(wǎng)絡(luò)爬蟲技術(shù)原理[J].福建電腦，2021（1）：95-96.

[7]?Kevin.網(wǎng)絡(luò)爬蟲技術(shù)原理[J].計算機(jī)與網(wǎng)絡(luò)，2018（10）：38-39.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

一種利用網(wǎng)絡(luò)爬蟲技術(shù)提高多語種術(shù)語庫校審效率的方法