• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      搜索引擎在計(jì)算機(jī)輔助翻譯中的應(yīng)用

      2018-05-16 06:27:21翟云超馬王儲常璐
      電子測試 2018年7期
      關(guān)鍵詞:全文檢索布爾搜索引擎

      翟云超,馬王儲,常璐

      (華北理工大學(xué)外國語學(xué)院,河北唐山,063000)

      1 搜索引擎的概念

      搜索引擎指根據(jù)一定策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)搜集信息,完成信息組織、處理后為用戶提供檢索服務(wù),并將檢索信息展示給用戶的系統(tǒng),包括 全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索、引擎與免費(fèi)鏈接列表等(劉彥平,2011)。百度和谷歌等是搜索引擎代表。

      2 搜索引擎的工作機(jī)制

      (1)抓取網(wǎng)頁。每個獨(dú)立的搜索引擎都有自己的網(wǎng)頁抓取程序爬蟲(spider)。爬蟲Spider順著網(wǎng)頁中的超鏈接,從這個網(wǎng)站爬到另一個網(wǎng)站,通過超鏈接分析連續(xù)訪問抓取更多網(wǎng)頁。被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁。

      (2)處理網(wǎng)頁。搜索引擎抓到網(wǎng)頁后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中,最重要的就是提取關(guān)鍵詞,建立索引 庫和索引。其他還包括判斷網(wǎng)頁類型、去除重復(fù)網(wǎng)頁、分析超鏈接、分詞(中 文)、計(jì)算網(wǎng)頁的重要度/豐富度等。

      (3)提供檢索服務(wù)。用戶輸入關(guān)鍵詞進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫中找到匹 配該關(guān)鍵詞的網(wǎng)頁。為了用戶便于判斷,除了網(wǎng)頁標(biāo)題和URL外,還會提 供一段來自網(wǎng)頁的摘要以及其他信息。

      3 基本邏輯檢索符

      3.1 布爾邏輯檢索

      布爾邏輯檢索的使用面最廣,使用頻率最高。利用布爾邏輯運(yùn)算符連接各檢索詞,然后由計(jì)算機(jī)進(jìn)行相應(yīng)邏輯運(yùn)算,找出所需信息。需要注意的是,在使用布爾邏輯檢索時仍然需要參考具體數(shù)據(jù)庫使用幫助或說明。

      表1 布爾邏輯運(yùn)算符與檢索式

      3.2 位置算符檢索

      位置算符檢索也稱全文查找邏輯算符或相鄰度算符,是用來規(guī)定符號兩邊的 詞出現(xiàn)在文獻(xiàn)中的位置的邏輯運(yùn)算算符。

      (1)W算符(with):通常寫作A(nW)B,表示詞A與詞B之間至多可以插入n個其他的詞(注意是單詞,不是字母),同時A、B保持前后順序不變;其中(W)也可以寫作(),表示兩詞之間不得有其他詞,但有些系統(tǒng)允許有空格或標(biāo)點(diǎn)符號。

      (2)N算符(new): 通常寫作A(nN)B,表示A與B之間至多可以插入n個其他詞,同時A、 B不必保持前后順序。其中W)表示算符兩側(cè)的檢索詞必 須前后相連,但詞序可顛倒,詞間不允許插入其他詞或字母。

      (3)Same:通常寫作A SAME B,表示SAME兩側(cè)的檢索詞A和B必須同時出現(xiàn)在數(shù)據(jù)庫的同一個段落中。

      (4)s算符(subfield):通常寫作A(S)B,表示A與B必須同時在一個句子或同一子字段內(nèi)出現(xiàn),但詞序可隨意變化,且各詞間可以加任意多個詞。例如輸入solar(W)energy,會得到solar energy;輸入solar(N)energy可能會得到solar energy或者energy solar。

      3.3 截詞檢索

      截詞檢索是指在檢索詞的合適位置進(jìn)行截斷,然后使用截詞符進(jìn)行處理,既 可節(jié)省輸入的字符數(shù)目,也可達(dá)到較高的查全率。需要注意的是,任何一種 截詞檢索,都隱含著布爾邏輯中的“或”運(yùn)算(劉振西、李潤松、葉茜,2006)。檢索符:“?”代表零或一個字符,“*”代表無限截詞符號。

      (1)后截詞 :輸入“book?”,檢索結(jié)果為“book”或“books”;輸 入“educat*”,檢 索 結(jié) 果 為“education” 、“educational”、“educator”。

      (2)中截詞 :輸入“s?w”,檢索結(jié)果為“saw” 、“sew”。

      3.4 字段檢索

      字段檢索是指根據(jù)標(biāo)題、作者、摘要、關(guān)鍵詞、作者單位、文獻(xiàn)來源、學(xué)位授予單位、學(xué)位級別、會議信息、會址、會期、書名、出版地、出版年、專利號報告號、ISBN 和 ISSN 等字段檢索所需內(nèi)容。

      表2 常見字段檢索

      3.5 全文檢索

      全文檢索是一種將文件中所有文本與檢索匹配的文字資料檢索方法。全文檢索系統(tǒng)是按照全文檢索理論建立的用于提 供全文檢索服務(wù)的軟件系統(tǒng),可將存儲于數(shù)據(jù)庫中整本書、整篇文章中的任 意內(nèi)容信息查找出來,進(jìn)行各種統(tǒng)計(jì)和分析。

      3.6 精確檢索

      精確檢索是指盡可能限定檢索范圍,以最快速度找到自己所需的檢索方式。在計(jì)算機(jī)輔助翻譯中采取精確檢索能夠提升檢索效率,避 免大量冗余信息。需要注意的是,采取該種檢索方法的前提是譯者對自己的檢索內(nèi)容非常確定。

      例 1

      使用雙引號“”。檢索符含義:對引號中的內(nèi)容不進(jìn)行任何添加刪除處理進(jìn)行檢索。

      在 Google 中檢索短語 knock down joint 會發(fā)現(xiàn),除了包含完整關(guān)鍵詞 knock down joint的檢索結(jié)果外,還顯示了包含 knock down、joint 等關(guān)鍵詞和關(guān)鍵字的結(jié)果。將整個關(guān)鍵詞 knock down joint 加上雙引號“”進(jìn)行檢索,結(jié)果則只剩下包含完整關(guān)鍵詞knock down joint 的詞條。

      例 2

      使用布爾邏輯檢索符“-”。檢索符意義:排除減號“-”后面的內(nèi)容?!癇ass”在中文中既指一種低音樂器(貝斯),同時也有“鱸魚”之意。如要在搜索引擎中僅查找有關(guān)“貝斯”的檢索詞條,需在檢索框中輸入“bass[空格] -fish”,就可以把有關(guān)鱸魚的檢索詞條全部屏蔽掉。

      4 結(jié)語

      除了電子詞典與工具書,在進(jìn)行翻譯實(shí)踐時,搜索引擎已經(jīng)成為翻譯實(shí)踐工作必不可少的工具。與此同時,在使用搜索引擎輔助翻譯時也要辨別檢索結(jié)果的真?zhèn)?,避免出現(xiàn)偏差、低質(zhì)量或違法的結(jié)果。

      參考文獻(xiàn)

      [1]李躍珍.信息檢索與利用[M].杭州:浙江大學(xué)出版社,2006.

      [2]劉廷元,邵衛(wèi)東,湯凝.信息檢索原理教程[M].北京:北京交通大學(xué)出版社,2008.

      [3]劉彥平.關(guān)于網(wǎng)絡(luò)搜索引擎及其優(yōu)化的討論[J].電子商務(wù),2011(04).

      [4]劉振西,李潤松,葉茜.實(shí)用信息檢索技術(shù)概論[M].北京:清華大學(xué)出版社,2006.

      [5]徐劍,柯貴明.網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[A].全國第21 屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2010)暨全國第 2 屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C]. 2010.

      [6]趙慧,李春明,鮑可進(jìn).一種基于 DotLucene 搜索引擎的知識庫中文全文檢索系統(tǒng)[A].第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集[C].2005.

      猜你喜歡
      全文檢索布爾搜索引擎
      布爾和比利
      幽默大師(2019年4期)2019-04-17 05:04:56
      布爾和比利
      幽默大師(2019年3期)2019-03-15 08:01:06
      布爾和比利
      幽默大師(2018年11期)2018-10-27 06:03:04
      布爾和比利
      幽默大師(2018年3期)2018-10-27 05:50:48
      Oracle數(shù)據(jù)庫全文檢索性能研究
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      基于KySou的全文檢索系統(tǒng)的分析與優(yōu)化
      廣告主與搜索引擎的雙向博弈分析
      特色數(shù)據(jù)庫全文檢索系統(tǒng)的設(shè)計(jì)
      桂阳县| 清远市| 阳城县| 孟津县| 宁夏| 若尔盖县| 安国市| 吉安县| 涡阳县| 扶绥县| 福泉市| 东乡族自治县| 蛟河市| 江都市| 卢氏县| 贵港市| 潮安县| 弥勒县| 古丈县| 津市市| 封丘县| 巨野县| 凌海市| 宜兰市| 乐业县| 股票| 竹北市| 雷山县| 阿拉善右旗| 嵊州市| 宜章县| 布拖县| 清原| 平乡县| 昭通市| 科技| 阳城县| 万州区| 丰都县| 肥西县| 保康县|