• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種利用網(wǎng)絡(luò)爬蟲技術(shù)提高多語種術(shù)語庫校審效率的方法

      2023-05-24 04:51:46劉雯
      科技資訊 2023年8期
      關(guān)鍵詞:網(wǎng)絡(luò)爬蟲

      劉雯

      摘要:為保障多語種智能翻譯系統(tǒng)充分發(fā)揮其標(biāo)準(zhǔn)化、快速翻譯的作用,必須構(gòu)建高質(zhì)量的多語種術(shù)語庫,不斷充實(shí)翻譯系統(tǒng)的后臺詞匯。在多語種術(shù)語庫的構(gòu)建過程中校審是保證術(shù)語庫質(zhì)量的關(guān)鍵環(huán)節(jié)。然而,與運(yùn)用數(shù)萬詞條量、甚至體量更為龐大的待校審術(shù)語庫對比,單純使用傳統(tǒng)的人力校審方式,已經(jīng)不能滿足為智能翻譯系統(tǒng)及時擴(kuò)充術(shù)語庫的需求。針對上述問題,文章提出了一種網(wǎng)絡(luò)爬蟲技術(shù)在多語種術(shù)語庫校審中的應(yīng)用方法,并介紹了網(wǎng)絡(luò)爬蟲技術(shù)的概念、原理、分類、特點(diǎn),詳細(xì)闡述了該技術(shù)在多語種術(shù)語庫校審中的應(yīng)用實(shí)踐,最后對網(wǎng)絡(luò)爬蟲技術(shù)在翻譯和情報專業(yè)領(lǐng)域的應(yīng)用進(jìn)行了展望。

      關(guān)鍵詞:網(wǎng)絡(luò)爬蟲??多語種術(shù)語庫??校審??多語種智能翻譯系統(tǒng)

      中圖分類號:TP393.09????文獻(xiàn)標(biāo)識碼:A

      A?method?for?Improving?the?Efficiency?of?Proofreading?Multilingual

      Terminology?Databases?by?Using?Web?Crawler?Technology

      LIU?Wen

      (Beijing?Institute?of?Aerospace?Information,?Beijing,?100854?China)

      Abstract:?In?order?to?guarantee?the?multilingual?intelligent?translation?system?to?give?full?play?to?its?standardized?and?fast?translation?function,?it?is?necessary?to?build?a?high-quality?multilingual?terminology?database?and?continuously?enrich?the?background?vocabulary?of?the?translation?system.?In?the?process?of?building?the?multilingual?terminology?database,?proofreading?is?the?key?link?to?ensure?the?quality?of?the?terminology?database.?However,?compared?with?the?use?of?tens?of?thousands?of?terms?or?even?a?larger?volume?of?the?terminology?database?to?be?proofread,?the?simple?use?of?the?traditional?manual?proofreading?method?can?no?longer?meet?the?demand?for?expanding?the?terminology?database?in?time?for?the?intelligent?translation?system.?In?response?to?the?above?problems,?this?paper?proposes?an?application?method?of?web?crawler?technology?in?proofreading?multilingual?terminology?databases,?introduces?the?concept,?principle,?classification?and?characteristics?of?web?crawler?technology,?elaborates?the?application?practice?of?this?technology?in?proofreading?multilingual?terminology?databases,?and?finally?looks?forward?to?the?application?of?web?crawler?technology?in?translation?and?intelligence?professional?fields.

      Key?Words:?Web?crawler;?Multilingual?terminology?database;?Proofreading;?Multilingual?intelligent?translation?system

      在大數(shù)據(jù)時代,信息采集是一項(xiàng)非常重要的工作,如果單純靠人力采集信息,不僅效率低,采集成本也很高。為了從海量的網(wǎng)絡(luò)信息中快速、準(zhǔn)確地獲取需要的信息,網(wǎng)絡(luò)爬蟲應(yīng)運(yùn)而生,其不僅可以抓取網(wǎng)頁、提取信息并保存,而且還具有極高的可擴(kuò)展性[1]。目前,網(wǎng)絡(luò)爬蟲技術(shù)已經(jīng)廣泛地應(yīng)用到眾多領(lǐng)域,如金融、醫(yī)療、旅游、教育等行業(yè)[2]。

      1?網(wǎng)絡(luò)爬蟲概述

      1.1?網(wǎng)絡(luò)爬蟲的概念

      網(wǎng)絡(luò)爬蟲技術(shù)是指一種按照一定的規(guī)則,自動地抓取互聯(lián)網(wǎng)信息的程序或是腳本[3]。它作為搜索引擎的信息采集器,是搜索引擎技術(shù)的最基礎(chǔ)部分,能幫助人們在互聯(lián)網(wǎng)的海量數(shù)據(jù)中自動、高效地獲取感興趣的信息[4]。

      1.2?網(wǎng)絡(luò)爬蟲的工作原理

      網(wǎng)絡(luò)爬蟲通過請求站點(diǎn)上的HTML文檔訪問某一站點(diǎn)。它爬行Web空間,不斷從一個站點(diǎn)移動到另一個站點(diǎn),自動建立索引,并加入到網(wǎng)頁數(shù)據(jù)庫中。當(dāng)網(wǎng)絡(luò)爬蟲進(jìn)入某個超級文本時,利用HTML語言的標(biāo)記結(jié)構(gòu)來搜索信息并獲取指向其他超級文本的URL地址,無需用戶干預(yù)就能實(shí)現(xiàn)網(wǎng)絡(luò)上的自動“爬行”和搜索。

      1.3?網(wǎng)絡(luò)爬蟲的分類

      網(wǎng)絡(luò)爬蟲按照技術(shù)和結(jié)構(gòu)可分為通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲和深層網(wǎng)絡(luò)爬蟲等類型[5]。

      1.3.1?通用網(wǎng)絡(luò)爬蟲

      通用網(wǎng)絡(luò)爬蟲又稱為全網(wǎng)爬蟲,其爬取的目標(biāo)資源在全互聯(lián)網(wǎng)中,主要由初始URL集合、URL隊(duì)列、頁面爬行模塊、頁面分析模塊、頁面數(shù)據(jù)庫、鏈接過濾模塊等構(gòu)成。其在爬行時采取深度優(yōu)先、廣度優(yōu)先的策略,適用于某一主題的廣泛搜索,一般應(yīng)用于搜索引擎和大型Web服務(wù)商[6]。

      1.3.2?聚焦網(wǎng)絡(luò)爬蟲

      聚焦網(wǎng)絡(luò)爬蟲根據(jù)內(nèi)容評價、鏈接結(jié)構(gòu)評價,按照預(yù)設(shè)的主題,有選擇性地爬行[6],可將爬取目標(biāo)網(wǎng)頁定位在與主題相關(guān)的頁面中,可以節(jié)約帶寬資源和服務(wù)器資源。聚焦網(wǎng)絡(luò)爬蟲主要由初始URL集合、URL隊(duì)列、頁面爬行模塊、頁面分析模塊、頁面數(shù)據(jù)庫、鏈接過濾模塊、內(nèi)容評價模塊、鏈接評價模塊等構(gòu)成。內(nèi)容評價模塊和鏈接評價模塊能夠分別分辨內(nèi)容和鏈接的重要性,以確定優(yōu)先訪問哪些頁面。聚焦網(wǎng)絡(luò)爬蟲采取的主要策略包括基于內(nèi)容評價的爬行策略、基于鏈接評價的爬行策略,基于增強(qiáng)學(xué)習(xí)的爬行策略和基于語境圖的爬行策略。

      1.3.3?增量式網(wǎng)絡(luò)爬蟲

      增量式網(wǎng)絡(luò)爬蟲在爬行過程中,網(wǎng)頁會發(fā)生增量式的更新[6]。增量式更新是指在更新的時候只更新改變的地方,未改變的地方不更新。所以,增量式網(wǎng)絡(luò)爬蟲在爬取網(wǎng)頁的時候只爬取內(nèi)容發(fā)生變化的網(wǎng)頁或新產(chǎn)生的網(wǎng)頁,它在一定程度上能夠保證所爬取的頁面盡可能是新頁面。

      1.3.4?深層網(wǎng)絡(luò)爬蟲

      互聯(lián)網(wǎng)的網(wǎng)頁按照存在方式可以分為表層頁面和深層頁面。表層頁面指的是不需要提交表單、使用靜態(tài)的鏈接就能夠到達(dá)的靜態(tài)頁面;深層頁面則隱藏在表單后,不能通過靜態(tài)鏈接直接獲取,需要提交一定的關(guān)鍵詞才能獲取得到的頁面。在互聯(lián)網(wǎng)中,深層頁面的數(shù)量更多,所以我們要想辦法爬取深層頁面。深層網(wǎng)絡(luò)爬蟲主要由URL列表、LVS列表(填充表單的數(shù)據(jù)源)、爬行控制器、解析器、LVS控制器、表單分析器、表單處理器、響應(yīng)分析器等部分構(gòu)成。深層網(wǎng)絡(luò)爬蟲表單的填寫類型分為兩種。一種是基于領(lǐng)域知識的表單填寫:進(jìn)行語義分析,獲取關(guān)鍵詞,提交關(guān)鍵詞后,獲取Web頁面。另一種是基于網(wǎng)絡(luò)結(jié)構(gòu)分析的表單填寫:利用DOM樹形式,表示HTML網(wǎng)頁。

      1.4?網(wǎng)絡(luò)爬蟲的特點(diǎn)

      網(wǎng)絡(luò)爬蟲具有高性能、可擴(kuò)展性、健壯性等特點(diǎn)[7],具體如下。

      1.4.1?網(wǎng)絡(luò)爬蟲具有高性能

      網(wǎng)絡(luò)爬蟲的高性能是指爬蟲的信息抓取速度高。在互聯(lián)網(wǎng)的海量信息中,爬蟲的高性能是保證高效率信息采集的關(guān)鍵因素,通常以爬蟲每秒能夠下載的網(wǎng)頁數(shù)量作為性能指標(biāo),單位時間能夠下載的網(wǎng)頁數(shù)量越多,爬蟲的性能越高。

      1.4.2?網(wǎng)絡(luò)爬蟲具有可擴(kuò)展性

      網(wǎng)絡(luò)爬蟲的可擴(kuò)展性指通過增加抓取服務(wù)器和爬蟲數(shù)量來盡可能縮短抓取周期。單個爬蟲的性能雖然很高,但是要將全部網(wǎng)頁都下載到本地,仍需要相當(dāng)長的時間周期,所以網(wǎng)絡(luò)爬蟲的擴(kuò)展性有利于提高爬蟲系統(tǒng)的整體性能。

      1.4.3?網(wǎng)絡(luò)爬蟲具有健壯性

      爬蟲訪問的網(wǎng)站服務(wù)器類型繁多,所以有時可能會遇到HTML編碼不規(guī)范、被抓取服務(wù)器突然死機(jī)等異常情況,為了避免爬蟲程序在抓取過程中死掉,或者其所在的服務(wù)器宕機(jī),爬蟲應(yīng)該具有一定的健壯性,再次啟動爬蟲時,能夠恢復(fù)之前抓取的內(nèi)容和數(shù)據(jù)結(jié)構(gòu),而不是每次都需要把所有工作完全從頭做起。

      2?多語種術(shù)語庫的校審問題

      多語種智能翻譯系統(tǒng)以術(shù)語庫和語料庫為基礎(chǔ),借助機(jī)翻引擎,能夠?qū)崿F(xiàn)快速機(jī)器翻譯、人機(jī)協(xié)同翻譯等功能,為翻譯人員賦能,大幅提高翻譯效率。多語種術(shù)語庫是多語種智能翻譯系統(tǒng)的重要組成部分,其為智能翻譯系統(tǒng)提供了大規(guī)模、強(qiáng)有力的詞匯后臺支持,是多語種智能翻譯系統(tǒng)充分發(fā)揮其標(biāo)準(zhǔn)化、快速翻譯作用的重要基礎(chǔ)。多語種術(shù)語庫的構(gòu)建工作包括搜集專業(yè)詞匯、翻譯、校審、入庫等環(huán)節(jié)。為保證多語種術(shù)語庫的正確性、權(quán)威性,術(shù)語在入庫前必須經(jīng)過嚴(yán)格的校審程序,這是保證術(shù)語庫質(zhì)量的關(guān)鍵環(huán)節(jié)。術(shù)語校審流程如圖1。

      校審人員在校審術(shù)語庫時需要在互聯(lián)網(wǎng)中搜索術(shù)語,查找包含術(shù)語的文獻(xiàn)例句,以驗(yàn)證術(shù)語是否正確、地道,并將例句和來源網(wǎng)址粘貼留存,以保證術(shù)語驗(yàn)證可溯源。為縮短多語種術(shù)語庫校審周期,提升多語種術(shù)語庫建設(shè)水平,進(jìn)一步釋放多語種智能翻譯系統(tǒng)的效能,必須尋求具有可操作性的實(shí)用手段來提高多語種術(shù)語詞條的校審效率。而網(wǎng)絡(luò)爬蟲就是一個快速得到有效信息的重要手段,我們可以編寫輔助術(shù)語庫校審的網(wǎng)絡(luò)爬蟲程序,實(shí)現(xiàn)多語種術(shù)語例句和來源網(wǎng)址的自動抓取和匯總。

      3?網(wǎng)絡(luò)爬蟲技術(shù)在多語種術(shù)語庫校審中的應(yīng)用

      網(wǎng)絡(luò)爬蟲技術(shù)的常規(guī)應(yīng)用場景通常以收集資料為重點(diǎn),側(cè)重于數(shù)量,如搜索引擎場景,可通過深度遍歷HTML超鏈接收集盡可能多的頁面。多語種術(shù)語庫校審場景對術(shù)語相關(guān)例句的數(shù)量要求較低,通常只需要3~5條,但是對術(shù)語在例句中的語義準(zhǔn)確性和表達(dá)地道性要求較高。針對多語種術(shù)語庫校審工作的特點(diǎn),下文論述了一種專門的聚焦式爬蟲程序——校審輔助爬蟲程序。

      3.1?校審輔助爬蟲程序的應(yīng)用對象

      文章將俄語專業(yè)技術(shù)術(shù)語庫作為校審輔助爬蟲程序的應(yīng)用對象。俄語專業(yè)技術(shù)術(shù)語庫的全部俄文術(shù)語詞條已經(jīng)翻譯完畢,進(jìn)入正式入庫前的校審環(huán)節(jié),剩余待校審詞條量為61?385條。

      3.2?校審輔助爬蟲程序的數(shù)據(jù)來源

      俄文搜索引擎yandex中的網(wǎng)頁信息。

      3.3?校審輔助爬蟲程序的工作流程

      校審輔助爬蟲程序使用開發(fā)語言go1.17.5,它能夠解析校審人員提供的包含待校審術(shù)語的Excel文件,從約定的位置提取需要校審的術(shù)語詞條,然后模擬校審人員的操作習(xí)慣,自動打開本地運(yùn)行的瀏覽器,使用搜索引擎查詢目標(biāo)術(shù)語,將搜索引擎送回的前三條非廣告搜索結(jié)果采集并錄入到校審人員使用的Excel文件中,最終生成包含術(shù)語例句和例句來源網(wǎng)址的匯總Excel文件。爬蟲程序可以對復(fù)制詞條、搜索詞條、抓取例句、粘貼例句和來源網(wǎng)址等機(jī)械性重復(fù)勞動進(jìn)行自動化批量操作,校審人員只需在生成的文件中篩選例句,從而簡化校審環(huán)節(jié),提高了校審的效率。以俄語專業(yè)技術(shù)術(shù)語庫為例的校審輔助爬蟲程序的工作流程如圖2。

      在使用校審輔助爬蟲程序時,校審人員需要將待查驗(yàn)的術(shù)語詞條粘貼進(jìn)input文件里的相應(yīng)位置(見圖4),一次可以粘貼至少200條術(shù)語。

      校審輔助爬蟲程序的運(yùn)行流程和關(guān)鍵代碼邏輯如下。

      第一,雙擊啟動校審輔助爬蟲程序(見圖5),程序開始解析包含俄語專業(yè)技術(shù)術(shù)語的Excel文件。

      //?準(zhǔn)備輸入文件解析引擎

      parseEngine,?err?:=?parser.NewExcelParseEngine(ctx)

      if?err?!=?nil?{

      utils.FatalReport(fmt.Errorf("init?ExcelParseEngine?fail?fail:?err=%v",?err))?os.Exit(-1)

      }

      俄語專業(yè)技術(shù)術(shù)語詞條的解析引擎的接口設(shè)計:

      type?TargetWord?struct?{

      OriginalChinese string //中文原文

      CandidatesRussian string //候選的初譯俄文:分隔符號支持三種(/;,)?QcSelectedRussian string //QC選中的俄語譯問:初譯俄文的第一個詞?QcReferRussianTexts []string?//QC獲取的參考文獻(xiàn):yandex?搜索結(jié)果的摘要?QcReferRussianLinks []string?//QC獲取的文獻(xiàn)鏈接:yandex?搜索結(jié)果的鏈接?QcReferYandexSearchLink?string //QC使用的Yandex搜索地址

      }

      type?ParseEngine?interface?{

      ParseTargetWords(inputFile,?sheet?string)?([]*TargetWord,?error)

      }

      func?NewExcelParseEngine(ctx?context.Context)?(*ExcelParseEngine,?error)???{

      return?&ExcelParseEngine{ctx:?ctx},?nil

      }

      第二,初始化網(wǎng)站。

      //?準(zhǔn)備術(shù)語詞條搜索引擎

      searchEngine,?err?:=?search.NewYandexSearchEngine(ctx)

      if?err?!=?nil?{

      utils.FatalReport(fmt.Errorf("NewYandexSearchEngine?fail:?err=%v",?err))?os.Exit(-1)

      }

      俄語搜索引擎yandex的接口設(shè)計:

      type?SearchEngine?interface?{

      Prepare(resetPageStat?func(),?isInteractiveTime?func()?bool)?chromedp.Tasks?????SearchWord(targetWord?*parser.TargetWord,?abstracts?*[]string,?absLinksAttr?*[]map[string]string,

      resetPageStat?func(),?waitPageFinished?func(duration?time.Duration))?chromedp.Tasks

      }

      func?NewDefaultSearchEngine(ctx?context.Context)?(SearchEngine,?error)?{?return?NewYandexSearchEngine(ctx)

      }

      func?NewYandexSearchEngine(ctx?context.Context)?(*YandexSearchEngine,?error){

      return?&YandexSearchEngine{ctx:?ctx},?nil

      }

      第三,爬蟲程序執(zhí)行搜索動作,搜索包含術(shù)語的例句(見圖6),提取搜索結(jié)果,生成包含術(shù)語例句和例句來源網(wǎng)址的Excel文件(見圖7)。

      //?執(zhí)行?QC?校對任務(wù)

      go?Execute(InputExcelFile,?InputExcelSheet,?parseEngine,?searchEngine,?outputFileHandler,?signalChan)

      //?QC校對任務(wù)執(zhí)行

      func?Execute(fileName,?sheetName?string,?parseEngine?parser.ParseEngine,?searchEngine?search.SearchEngine,

      outputFileHandler?*excelize.File,?signalChan?chan?os.Signal)?{

      var?err?error

      var?input?string

      //?設(shè)置QC任務(wù)執(zhí)行標(biāo)記

      if?err?=?utils.MarkExecuteStat(outputFileHandler);?err?!=?nil?{

      utils.FatalReport(fmt.Errorf("MarkExecuteStat?fail:?err=%v",?err))

      os.Exit(-1)

      }

      //?程序退出時取消QC任務(wù)標(biāo)記

      defer?func()?{

      if?err?=?utils.UnMarkExecuteStat(outputFileHandler);?err?!=?nil?{

      utils.FatalReport(fmt.Errorf("UnMarkExecuteStat?fail:?err=%v",?err))

      os.Exit(-1)

      }

      }()

      //?解析輸入文件中的目標(biāo)詞匯

      targetWords,?err?:=?parseEngine.ParseTargetWords(fileName,?sheetName)

      if?err?!=?nil?{

      utils.FatalReport(fmt.Errorf("ParseTargetWords?fail:?err=%v",?err))

      os.Exit(-1)

      }

      //?初始化瀏覽器

      taskCtx,?taskCancel?:=?utils.InitChromeCtx()

      defer?taskCancel()

      fmt.Printf("確認(rèn)已安裝?chrome?瀏覽器?[按回車鍵確認(rèn)]:")

      _,?_?=?fmt.Scanf("%s",?&input)

      fmt.Printf("確認(rèn)需要校對的目標(biāo)數(shù)量(%d個)?[按回車鍵確認(rèn)]:",?len(targetWords))

      _,?_?=?fmt.Scanf("%s",?&input)

      chromedp.ListenTarget(taskCtx,?utils.TargetEvent)

      glog.Infof("Yandex準(zhǔn)備中...")

      ……(過程代碼省略)

      //獲取搜索結(jié)果頁地址

      chromedp.Location(&targetWord.QcReferYandexSearchLink),

      //獲取首頁結(jié)果地址

      chromedp.AttributesAll(resultLinkSel,?absLinksAttr,?chromedp.ByQueryAll,?chromedp.AtLeast(0)),

      //獲取首頁結(jié)果摘要?chromedp.Evaluate(resultTextSelFunc,?abstracts),

      }}

      3.4?校審輔助爬蟲程序的效果和特點(diǎn)

      文章選取了200個術(shù)語詞條,分別計算了純?nèi)斯ば徦璧臅r間和使用爬蟲程序輔助校審所需的時間。結(jié)果顯示,在校審環(huán)節(jié)完成一次“從校審表里復(fù)制詞條→在互聯(lián)網(wǎng)中搜索詞條→復(fù)制詞條例句→在校審表中粘貼例句和來源網(wǎng)址”的操作,純?nèi)斯て骄脮r為30?s,應(yīng)用校審輔助爬蟲程序后,批量抓取200條詞條需要約15?min,完成一次上述操作僅需要約5?s,搜索術(shù)語、摘取例句并粘貼例句和來源網(wǎng)址的時間大幅縮減。而且,爬蟲抓取例句的精準(zhǔn)度較好,校審人員從抓取結(jié)果中基本上能篩選出合適的例句,但在術(shù)語翻譯錯誤的情況下可能出現(xiàn)人工重新搜索的情況??梢?,校審輔助爬蟲程序可以大幅降低校審的操作時間,其例句抓取精準(zhǔn)度受術(shù)語詞條翻譯質(zhì)量的影響,對于翻譯正確的術(shù)語可以實(shí)現(xiàn)準(zhǔn)確的例句抓取。此外,校審輔助爬蟲程序還有以下特點(diǎn)。

      3.4.1?支持多語種術(shù)語校審

      校審輔助爬蟲程序支持英語、法語和俄語術(shù)語例句的搜索和抓取,根據(jù)不同語種,校審輔助爬蟲程序?qū)釉撜Z種的主流搜索引擎進(jìn)行搜索。例如:搜索俄語術(shù)語時啟動俄語的主流搜索引擎yandex(https://ya.ru/),搜索英語術(shù)語時啟動英語的主流搜索引擎Google(https://www.google.cn/),搜索法語時啟動法語的主流搜索引擎Yahoo(http://search.yahoo.com)。此外,校審輔助爬蟲程序具有擴(kuò)展性,可按需要增加其他語種術(shù)語的搜索功能。

      3.4.2?適應(yīng)反爬蟲機(jī)制

      針對目前互聯(lián)網(wǎng)的反爬蟲機(jī)制,校審輔助爬蟲程序設(shè)置了隨機(jī)等待時間,這使爬蟲的運(yùn)行更像人的操作,在一定程度上降低了人工驗(yàn)證非機(jī)器人行為的頻率,保證了程序運(yùn)行的流暢性。

      3.4.3?自動跳過敏感詞

      在校審輔助爬蟲程序的實(shí)踐應(yīng)用過程中,由于正值俄烏沖突局勢緊張時期,俄語專業(yè)技術(shù)術(shù)語庫中的某些詞條成為了敏感詞,在俄文搜索引擎中的查詢結(jié)果為空白頁,此種情況出現(xiàn)時,程序運(yùn)行中斷。鑒于該情況,爬蟲程序中增加了自動跳過敏感詞的搜索功能,防止出現(xiàn)卡頓現(xiàn)象。

      3.4.4?具有一鍵搜索功能

      在生成的例句和網(wǎng)址匯總文件中,設(shè)置了搜索直達(dá)鏈接功能。如果校審人員在自動搜索給出的3個例句中沒有找到合適的例句,可以點(diǎn)擊該鏈接,自動打開對應(yīng)的搜索引擎,實(shí)現(xiàn)一鍵搜索術(shù)語,節(jié)約搜索時間。

      4?結(jié)語

      文章從多語種術(shù)語庫的校審問題入手,以俄語專業(yè)技術(shù)術(shù)語庫為例,詳細(xì)介紹、分析了網(wǎng)絡(luò)爬蟲技術(shù)在多語種術(shù)語庫校審中的應(yīng)用方法,展示了網(wǎng)絡(luò)爬蟲技術(shù)從海量信息里獲取有效信息的能力和優(yōu)勢。作為一種強(qiáng)大的信息搜集工具,爬蟲技術(shù)在翻譯專業(yè)和情報專業(yè)領(lǐng)域有很大的應(yīng)用潛力。在翻譯專業(yè)方面,爬蟲技術(shù)的應(yīng)用可以替代人工語料搜集,從廣度和精確度上提升語料庫的建設(shè)水平。在情報專業(yè)方面,可以將爬蟲技術(shù)和AI技術(shù)結(jié)合,爬取關(guān)鍵情報信息,自動分析并生成情報信息簡訊,高效地為情報研究工作提供可參考的信息資料。

      參考文獻(xiàn)

      [1] 鄭苗.基于網(wǎng)絡(luò)爬蟲的北京市房價研究[D].荊州:長江大學(xué),2018.

      [2] 鄭鑫臻,吳韶波.基于網(wǎng)絡(luò)爬蟲技術(shù)的時令旅游信息獲取[J].物聯(lián)網(wǎng)技術(shù),2018(5):83-87.

      [3] 顧勤.網(wǎng)絡(luò)爬蟲技術(shù)原理及其應(yīng)用研究[J].信息與電腦(理論版),2021(4):174-176.

      [4] 繆治.網(wǎng)絡(luò)爬蟲技術(shù)的研究與實(shí)現(xiàn)[J].中國新通信,2019(6):70.

      [5] 傅一平.詳解4種類型的爬蟲技術(shù)[J].計算機(jī)與網(wǎng)絡(luò),2021(6):37-38.

      [6] 李文華.解析網(wǎng)絡(luò)爬蟲技術(shù)原理[J].福建電腦,2021(1):95-96.

      [7]?Kevin.網(wǎng)絡(luò)爬蟲技術(shù)原理[J].計算機(jī)與網(wǎng)絡(luò),2018(10):38-39.

      猜你喜歡
      網(wǎng)絡(luò)爬蟲
      基于分布式的農(nóng)業(yè)信息檢索系統(tǒng)的設(shè)計與實(shí)現(xiàn)
      微信平臺下的教務(wù)信息獲取和隱私保護(hù)方法研究
      基于網(wǎng)絡(luò)爬蟲的電子易購軟件設(shè)計與實(shí)現(xiàn)
      搜索引擎技術(shù)的發(fā)展現(xiàn)狀與前景
      煉鐵廠鐵量網(wǎng)頁數(shù)據(jù)獲取系統(tǒng)的設(shè)計與實(shí)現(xiàn)
      基于社會網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁挖掘研究
      主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究
      淺析如何應(yīng)對網(wǎng)絡(luò)爬蟲流量
      中國市場(2016年23期)2016-07-05 04:35:08
      基于淘寶某商品銷售量監(jiān)控系統(tǒng)
      網(wǎng)絡(luò)爬蟲針對“反爬”網(wǎng)站的爬取策略研究
      宁夏| 独山县| 土默特右旗| 青州市| 汪清县| 托克逊县| 栾城县| 合肥市| 六安市| 利津县| 和平区| 宁远县| 甘泉县| 南雄市| 上栗县| 固安县| 新巴尔虎右旗| 湟源县| 锦州市| 阆中市| 咸阳市| 达州市| 孙吴县| 长兴县| 佛教| 福州市| 岱山县| 沈阳市| 诏安县| 深圳市| 凤山县| 富民县| 庆城县| 桃源县| 乌拉特中旗| 铜川市| 阳春市| 大厂| 浦县| 长岛县| 凤庆县|