• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      外文數(shù)據(jù)庫英譯中文作者姓名消歧實踐*

      2022-04-14 02:00:10朱玉強(qiáng)江濤李翼飛
      數(shù)字圖書館論壇 2022年2期
      關(guān)鍵詞:消歧語料庫網(wǎng)頁

      朱玉強(qiáng) 江濤 李翼飛

      (1. 山東師范大學(xué)圖書館,濟(jì)南 250014;2. 海南醫(yī)學(xué)院圖書館,???571199)

      Web of Science(WoS)、Scopus、Engineering Village(EI)等外文數(shù)據(jù)庫收錄英文學(xué)術(shù)論文,正文以外包括題名、作者、摘要、關(guān)鍵詞等信息,其中作者信息包含作者姓名和所屬機(jī)構(gòu)名稱(機(jī)構(gòu)所在省市和郵編)。中國作者在外文期刊發(fā)文時按國際慣例須將中文姓名翻譯為英文,因不同國家或地區(qū)期刊出版規(guī)范不同、不同歷史時期數(shù)據(jù)加工標(biāo)準(zhǔn)有差異等原因[1-2],有些作者姓名不是按漢語拼音方案翻譯,如按威妥瑪-翟理斯方案將“蔣介石”翻譯為“Chiang Kai-shek”,將“張三豐”譯為“Chang San-feng”[3];即便使用漢語拼音方案,因期刊執(zhí)行時格式有差異,同一作者有不同英譯名或同一英譯名對應(yīng)不同作者的情況相當(dāng)普遍,如“張三豐”有“Zhang(,)Sanfeng”[4]“Zhang(,)San-F(f)eng”“Sanf(F)eng(,)Zhang”“San-F(f)eng(,)Zhang”等譯法,還有“Zhang(,)S.F.”“Zhang(,)SF”“S.F. Zhang”“Zhang(,)S.”“S. Zhang”等縮寫版本,后兩種譯法甚至將“豐”字丟棄,可對應(yīng)“章四鳳”“張?!薄皬埶肌钡戎形淖髡呙V形膯涡諉蚊⒆g因“姓前名后”或“名前姓后”原則不同造成的混亂尤甚,如將“姚明”翻譯為“Yao Ming”[5]或“Ming Yao”[6],后者亦可對應(yīng)中文名“明瑤”“明堯”等。即便機(jī)構(gòu)確切、人名拼音標(biāo)記完全,還存在類似“明瑤”“明堯”音同字不同的情況。因此,僅依據(jù)外文數(shù)據(jù)庫中作者英譯姓名及機(jī)構(gòu)名稱確認(rèn)其歸屬易錯易漏,給文獻(xiàn)計量工作帶來諸多不便,進(jìn)而使基于文獻(xiàn)計量的情報分析、人才評價、參考咨詢工作受到很大影響。有鑒于此,對外文數(shù)據(jù)庫英譯中文作者姓名進(jìn)行消歧處理是進(jìn)行數(shù)據(jù)清洗、提高數(shù)據(jù)質(zhì)量的關(guān)鍵。英譯中文作者姓名漢化消歧的難點在于英文縮寫還原、同拼音漢字溯源及不同機(jī)構(gòu)相同漢字人名身份的甄別,手工排檢工作量繁雜巨大,如多人協(xié)作則數(shù)據(jù)質(zhì)量難以統(tǒng)一,從業(yè)者對半自動或全自動數(shù)據(jù)處理工具的需求日益迫切。

      1 相關(guān)研究與實踐

      英譯中文作者姓名漢化消歧的解決方案按自動化程度可分人工、半自動和全自動3類[7]。人工排檢實踐方面,侯長來[8]對SCI論文中同一拼音著者,先將署名機(jī)構(gòu)翻譯為中文,再到《中國科技論文統(tǒng)計與引文分析數(shù)據(jù)庫》中找到對應(yīng)中文機(jī)構(gòu),查找該機(jī)構(gòu)下有無同拼音著者進(jìn)行辨識追蹤。人工排檢優(yōu)點為結(jié)果準(zhǔn)確,如原英文署名為“Hu G.C.”,找到對應(yīng)中文機(jī)構(gòu)后模糊匹配,關(guān)注“胡貴超”“胡國策”“胡桂朝”“胡國才”“呼革彩”等疑似作者,再根據(jù)二級機(jī)構(gòu)、專業(yè)方向等進(jìn)一步篩選確認(rèn)。極端情況下兩位作者機(jī)構(gòu)、專業(yè)方向甚至所在教研室都完全相同,如作者發(fā)文時自行用性別、年齡等做了標(biāo)識,人工排檢時即可按已有標(biāo)識記為“胡貴超(男)”或“胡貴超(大)”,如無標(biāo)識又確需分清彼此則只能和原作者聯(lián)系。人工排檢的缺點為效率非常低且成功率受中文對照庫豐富程度影響,如“胡貴超”只發(fā)表外文論文從未發(fā)表中文論文,僅從中文期刊庫這一語料庫查找就無解,只能再借助于搜索引擎或百科網(wǎng)站等其他語料庫。何春建[9]、高營[10]開展了以正則表達(dá)式為主要技術(shù)的半自動排檢實踐,該技術(shù)可從字符串中靈活提取指定文本,但此類實踐僅能篩選或微調(diào)檢索結(jié)果,如取回網(wǎng)頁源碼中疑似作者姓名拼音的文本串“G.C. Hu”再轉(zhuǎn)為中國人習(xí)慣的“Hu G C”,無法將姓名拼音補(bǔ)全,更無法漢字化,只能為后續(xù)人工介入提供比較干凈的姓名拼音或機(jī)構(gòu)名稱,為補(bǔ)全拼音全稱做準(zhǔn)備。孫源[11]、何濤等[12]、霍朝光等[13]、盛曉光等[14]、鄧啟平等[15]開展了以詞向量為主要技術(shù)的半自動排檢實踐,該技術(shù)思路為:將文本按一定規(guī)則數(shù)字化為空間坐標(biāo)系中的點,各點連接構(gòu)成大小、方向不同的向量,通過各向量差異(夾角、長度)表征文本相似程度,夾角越小、長度越相近表明兩點越可能重合,則兩點代表的原文本越相似。常用計算方法有編輯距離相似度[16]、余弦相似度等,如將“山東濟(jì)南250014”通過一定規(guī)則數(shù)字化為平面直角坐標(biāo)系中的點對(1,2),按同樣規(guī)則將“山東濟(jì)南250100”數(shù)字化為(2,3),兩點各自與坐標(biāo)原點連接成兩條線段,使用余弦相似度計算兩線段夾角余弦值為0.992 3,則夾角接近0°,表明兩段文本非常相似。在半自動排檢實踐的語料庫選擇、應(yīng)用方面,昌寧等[17]選用了中國知網(wǎng)、維普、萬方和個人主頁,劉瑋辰等[18]選用引文網(wǎng)絡(luò),Waqas等[19]選用了作者個人網(wǎng)頁、ResearchGate(RG)和Google Scholar,Zhang等[20]選用了Microsoft Academic Graph、Semantic Scholar和PubMed Knowledge Graph等,Rehs[21]選用了infomap社區(qū)。全自動排檢理論研究方面,Kim等[22]指出隨著ORCID繼續(xù)推進(jìn),通過ORCID鏈接的標(biāo)記數(shù)據(jù)可以使消歧數(shù)據(jù)總體得到改進(jìn),Author-ity2009的ORCID鏈接標(biāo)記數(shù)據(jù)可公開用于驗證,但全自動排檢實踐尚未見報道。

      本文通過組合并改進(jìn)正則表達(dá)式、詞向量和多源數(shù)據(jù)等技術(shù)手段,將人工排檢操作的共性部分如查找不同語料庫并比對結(jié)果交由程序完成,減少人工介入并縮短操作時間。通過編制帶用戶界面的應(yīng)用程序,為外文數(shù)據(jù)庫英譯中文作者姓名消歧工作提供更便捷有效的工具。程序?qū)τ脩粲嬎銠C(jī)操作能力幾乎沒有要求,工作組中一人導(dǎo)出數(shù)據(jù)源,清洗工作可由多人多臺電腦分批合作完成,仍可保證數(shù)據(jù)處理質(zhì)量統(tǒng)一、收割結(jié)果有序,甚至可以無人值守。

      2 程序設(shè)計思路

      系統(tǒng)總體目標(biāo)是編制一個帶用戶界面的應(yīng)用程序,以實現(xiàn)外文數(shù)據(jù)庫英譯中文作者姓名的漢化消歧。用戶單擊“開始工作”按鈕即開展全自動清洗工作,先自動將英譯作者姓名修正為作者本人或所在團(tuán)隊認(rèn)可的、符合我國及國際標(biāo)準(zhǔn)的漢語拼音形式,然后自動處理英譯作者姓名所屬機(jī)構(gòu)名稱,包括翻譯成中文、查詢語料庫、確定最可能的中文機(jī)構(gòu)名稱,再將作者漢語拼音姓名與中文機(jī)構(gòu)名稱同時提交語料庫進(jìn)行檢索獲取可能的作者中文姓名,結(jié)果以xls格式寫出。程序根據(jù)前期調(diào)查問卷反饋結(jié)果預(yù)設(shè)可調(diào)節(jié)參數(shù)默認(rèn)值,同時允許用戶自由調(diào)整,如同時執(zhí)行任務(wù)進(jìn)程數(shù)量、網(wǎng)頁就緒超時秒數(shù)、網(wǎng)頁解析器失敗時重試次數(shù)等,在工序順暢和結(jié)果準(zhǔn)確之間尋求平衡點,確保程序處理的全自動化,遇少量錯誤寫出詳細(xì)日志供后續(xù)人工處理或?qū)氤绦虿⒂谜{(diào)整后的閾值再次自動處理,實現(xiàn)程序處理和人工介導(dǎo)剝離。

      系統(tǒng)由待處理數(shù)據(jù)集、工作層和結(jié)果數(shù)據(jù)集組成。待處理數(shù)據(jù)集由用戶手工檢索外文庫后手工導(dǎo)出。程序軟件會提醒用戶根據(jù)自身需求在特定外文數(shù)據(jù)庫手工檢索并導(dǎo)出待分析記錄,記錄格式可為html、xls(x)、txt或csv格式中任意一種,允許用戶通過單擊按鈕導(dǎo)入上述格式中任何一種或多種格式組合的一件或多件記錄文檔。軟件自動根據(jù)源文件格式讀取字段及對應(yīng)數(shù)據(jù)、合并記錄并寫入數(shù)據(jù)庫,并且允許用戶通過單擊按鈕瀏覽、查找、增加、刪除或修改數(shù)據(jù)庫記錄。工作層實現(xiàn)自動化操作,將待處理數(shù)據(jù)集中英譯中文作者姓名補(bǔ)充完整并找出對應(yīng)的中文姓名。這一過程借助多個語料庫進(jìn)行匹配,程序界面允許用戶勾選一種或多種語料庫,勾選越多則結(jié)果越精確。本文用到的語料庫包括:多源數(shù)據(jù),如中國知網(wǎng)、萬方數(shù)據(jù)知識服務(wù)平臺、維普網(wǎng)、讀秀學(xué)術(shù)搜索;學(xué)術(shù)社交網(wǎng)絡(luò),如RG、Academia.edu、Mendeley、HumanitiesCommons及科研之友(Scholar Mate);網(wǎng)絡(luò)知識庫,如維基百科、百度百科;在線翻譯網(wǎng)站,如金山詞霸、海詞詞典。學(xué)術(shù)社交網(wǎng)絡(luò)以RG為主。近5年,百度指數(shù)[23]和谷歌趨勢[24]均表明RG在國內(nèi)的影響力逐年攀升,谷歌提示中國對其搜索熱度穩(wěn)居全球第一,所以選用以RG為代表的學(xué)術(shù)社交網(wǎng)絡(luò)作語料庫開展署名作者姓名消歧實踐在數(shù)據(jù)量上有一定保障。自動檢索語料庫使用多進(jìn)程工作,使用一種或多種語料庫在耗時方面沒有顯著差別。還要允許用戶編輯、測試正則表達(dá)式,可根據(jù)應(yīng)用場景分類管理,內(nèi)置按漢語拼音方案編寫的成熟的正則表達(dá)式并支持一鍵導(dǎo)入。主程序開放接口,針對不同語料庫編寫的網(wǎng)頁文檔對象自動操作腳本均使用獨立插件(exe格式)方式提供,方便今后在不更新主程序的情況下更新舊插件或加入新插件,同時解決“大而全”程序的兼容性與準(zhǔn)確性不可兼得問題,主程序根據(jù)用戶勾選情況自動調(diào)用所需運行插件,使該工具兼容常見外文數(shù)據(jù)庫如WoS、Scopus及EI等。工作層的處理結(jié)果自動寫入結(jié)果數(shù)據(jù)集。

      以WoS導(dǎo)出的一條文獻(xiàn)為例,作者“Xiang,JW”“Hu,GC”“Zhang,XG”3人共同署名發(fā)表論文“Equivalent linear damping model of nonlinear hydraulic damper for helicopter rotor”,作者所屬機(jī)構(gòu)“Beijing Univ Aeronaut & Astronaut,Dept Aircraft Design & Appl Mech,Beijing 100083,Peoples R China”。首先,利用正則表達(dá)式提取文本,將題名、作者名、作者機(jī)構(gòu)一一對應(yīng),得3個列表(每位作者1個列表),其中1個列表為“[Equivalent linear damping model of…,Xiang,JW,Beijing Univ Aeronaut & Astronaut…]”。取論文標(biāo)題,自動在語料庫如RG中檢索此文,發(fā)現(xiàn)有同樣題名的論文其3位作者姓名分別為Jinwu Xiang、Guocai Hu和Xiaogu Zhang。由此將作者完整的英文姓名自動替換3個列表中的作者英文名。有時入駐RG作者還會修改變更后單位名稱(如工作變動或?qū)W校更名),程序不應(yīng)該修改原文作者機(jī)構(gòu)名稱,但如果工作任務(wù)同時要求梳理發(fā)文作者工作單位變動情況,則可另立字段記錄。如有作者未入駐RG,姓名仍未補(bǔ)全,可另尋語料庫重試。下一步另設(shè)正則表達(dá)式,按漢語拼音方案將英譯中文作者的姓與名位置調(diào)換,“Jinwu Xiang”自動轉(zhuǎn)換為“Xiang Jinwu”。然后,取該作者所在列表第3個元素即機(jī)構(gòu)名稱,將分詞或全部字符自動提交至翻譯網(wǎng)站,得“北京”“大學(xué)”“航天”“航空”“航天和航空”“北京航空航天大學(xué)”等結(jié)果,利用文本相似度計算等方法,按得分最高者取“北京航空航天大學(xué)”。隨后利用語料庫如中國知網(wǎng)、百科網(wǎng)站、搜索引擎等,使用正則表達(dá)式、文本相似度檢測等算法,使用此機(jī)構(gòu)名稱反復(fù)、多方位自動模糊檢索“Xiang Jinwu”,已知語料庫如中國知網(wǎng)支持模糊匹配漢語拼音,即在作者姓名檢索入口允許輸入漢語拼音并在檢索結(jié)果輸出可能的同音或相近漢字,最終挖掘出作者中文姓名為“向錦武”。如取不回任何結(jié)果,則記錄詳細(xì)日志,待后續(xù)人工介入,或使用作者合作網(wǎng)絡(luò)等更多語料庫,或使用該作者在學(xué)術(shù)社交網(wǎng)絡(luò)標(biāo)記的新單位等再使用程序自動檢索。中英文機(jī)構(gòu)對照表也可事先人工建立從而節(jié)省計算時間,程序自動映射時可追加或更新此表(如北京航空航天大學(xué)的官方英譯已改為“Beihang University”)。實踐中還發(fā)現(xiàn)有學(xué)者誤領(lǐng)或冒領(lǐng)作者身份,導(dǎo)致取回錯誤的姓名全拼,故設(shè)計程序時應(yīng)多方查找取概率最大者。

      3 技術(shù)方案

      整體技術(shù)方案如圖1所示。以文獻(xiàn)標(biāo)題為抓手,綜合利用網(wǎng)頁機(jī)器人、網(wǎng)絡(luò)爬蟲、正則表達(dá)式和短文本相似度檢測技術(shù),抓取特定文獻(xiàn)標(biāo)題對應(yīng)的不同版本作者英文姓名和機(jī)構(gòu)名稱,去粗取精、去偽存真,計算對應(yīng)中文姓名和機(jī)構(gòu)名稱。“去粗取精”指將使用翻譯網(wǎng)站自動翻譯的機(jī)構(gòu)名稱如“北京航空的和航天的大學(xué)”精簡為“北京航空航天大學(xué)”;“去偽存真”指將外文文獻(xiàn)中作者提供的非官方機(jī)構(gòu)名稱(如將“浙江大學(xué)”按方言自行翻譯為“Zheijing Univ.”[25])通過程序自動檢索中外文語料庫或規(guī)則表予以糾正,如將“Zheijing Univ,Coll Med,Affiliated Hosp 1”對應(yīng)為“浙江大學(xué)醫(yī)學(xué)院附屬第一醫(yī)院”??紤]到各編程語言主要適用方向及書寫便利性,使用易語言設(shè)計界面引擎提供人機(jī)交互、Python實現(xiàn)主體算法、AutoHotKey承擔(dān)全局熱鍵腳本任務(wù)、JavaScript設(shè)計各語言產(chǎn)品聯(lián)絡(luò)中間件(如配置文件、日志文件等)。

      圖1 技術(shù)方案

      編制程序關(guān)鍵技術(shù)與方法包括網(wǎng)頁文檔對象操作、短文本相似度檢測、正則表達(dá)式技術(shù)、使用多進(jìn)程代替多線程作業(yè)。

      3.1 網(wǎng)頁文檔對象操作

      該技術(shù)應(yīng)用于程序中網(wǎng)頁相關(guān)操作,如語料庫檢索并提取結(jié)果、解析元素后配合正則表達(dá)式提取格式化文本串等。程序自動操作網(wǎng)頁的抓手是元素,故首先從網(wǎng)頁源碼中分離、識別、定位網(wǎng)頁各元素,再通過讀寫其InnerText屬性或Value屬性獲得或改寫對應(yīng)文本,或通過“click方法”自動點擊,實現(xiàn)自動在語料庫網(wǎng)頁選取檢索入口、輸入文本、單擊按鈕檢索、等待網(wǎng)頁就緒、抓取結(jié)果頁文本等。常用獲取元素方法有“通過元素ID獲取”(getElementById)、“通過元素名稱獲取”(getElementsByName)和“通過元素標(biāo)簽名獲取”(getElementsByTagName)等。程序涉及跨域網(wǎng)頁文檔對象操作對象,即主頁面使用IFrame技術(shù)嵌套不同域名的獨立網(wǎng)頁,可使用document.getElementsByTagName取回所有IFrame再按需篩選。程序框架使用一家網(wǎng)站對應(yīng)一個獨立插件思路,遇網(wǎng)站微改版,主程序和插件程序可讀取更新后配置文件調(diào)整解析語法,甚至無須調(diào)整源碼并另行編譯。

      3.2 短文本相似度檢測

      該技術(shù)應(yīng)用于程序中計算兩段文本是否相似及相似程度,用于計算最可能的英譯漢機(jī)構(gòu)名稱、判斷語料庫機(jī)構(gòu)名稱與原文機(jī)構(gòu)名稱是否存在本質(zhì)變化,并由此推測作者機(jī)構(gòu)變更、語料庫被自動補(bǔ)全拼音的作者是否存在誤領(lǐng)等。本文采用TF-IDF模型計算短文本相似度[26]。TF-IDF模型計算相似度技術(shù)方案為:將兩段待計算文本各自分詞寫入列表;合并兩列表,去重,寫入集合;轉(zhuǎn)換集合為詞典,為各分詞建立索引;按分詞出現(xiàn)位置分別編碼兩列表,文本首次實現(xiàn)簡單數(shù)字化;對應(yīng)詞典,將兩列表進(jìn)行獨熱編碼(OneHot),文本正式數(shù)字化、向量化,且將含不同成員數(shù)的列表編碼統(tǒng)一為相等成員數(shù);計算空間向量余弦夾角。

      由于該模型沒有考慮特征詞位置因素對文本區(qū)分度影響[27],本研究在計算時擴(kuò)展待檢索詞提高計算可信度,如計算“機(jī)構(gòu)名稱”時使用“省市+郵編+機(jī)構(gòu)名稱”組織待檢詞。為進(jìn)一步提高計算可信度,可先構(gòu)造映射規(guī)則,如建立機(jī)構(gòu)常用簡稱與全稱對照表,自動將“中科院”先映射為“中國科學(xué)院”再參與計算。初期可手工建立映射規(guī)則,后期可將程序計算并達(dá)到一定閾值的數(shù)據(jù)寫入數(shù)據(jù)庫自動建立。

      以計算“中科院水生所”和“中國科學(xué)院水生生物研究所”相似度為例,結(jié)果為15.81%;將“中科院”按規(guī)則映射為“中國科學(xué)院”后,計算“中國科學(xué)院水生所”與“中國科學(xué)院水生生物研究所”相似度為71.71%;另加入省市郵編,“湖北武漢430072中國科學(xué)院水生所”與“湖北武漢430072中國科學(xué)院水生生物研究所”相似度達(dá)78.94%;“湖北武漢430072中國科學(xué)院水生生物研究所”與自身相似度為100%。同樣代碼計算“北京100081中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)經(jīng)濟(jì)與發(fā)展研究所”與“湖北武漢430072中國科學(xué)院水生生物研究所”相似度為40.36%。由此認(rèn)為,“中國科學(xué)院水生生物研究所”可能是“中國科學(xué)院水生所”更詳盡地址。當(dāng)語料庫返回樣本足夠多時,取字符更多、相似度最大者,正確率隨之提高。

      3.3 正則表達(dá)式技術(shù)

      該技術(shù)應(yīng)用于程序中從雜亂無章的網(wǎng)頁源碼提取非格式化文本,或用于驗證指定文本是否具有特定屬性等。非格式化文本相對格式化文本而言,后者明顯的特征為使用標(biāo)記語言書寫,提取標(biāo)記間文本只需使用常規(guī)方法如“取文本中間”等。非格式化文本往往無規(guī)律可循,如提取網(wǎng)頁源碼中隨機(jī)出現(xiàn)的疑似中國郵政編碼的文本(前后均無特殊、固定標(biāo)記),只需將計算式“[0-9]d{5}(?!d)”應(yīng)用于正則算法,表示提取僅6位、開頭可為0、連續(xù)數(shù)字型且其后不可緊跟數(shù)字的文本。驗證屬性時,如提取到“Chiang Kai-shek”,人工排檢時可非常方便地判斷該文本不符合漢語拼音方案,至少“Ch”后不可跟“iang”,據(jù)此原理可編制“聲母后可跟韻母”“聲母后不可跟韻母”兩種算法的正則表達(dá)式,用來判斷某文本是否為漢語拼音(標(biāo)準(zhǔn)拼音、威妥瑪-翟理斯方案拼音或郵政拼音)或非漢語拼音。程序反復(fù)使用正則表達(dá)式技術(shù),將任務(wù)細(xì)化,在不同場合編輯不同正則表達(dá)式,遇多種需求則組合不同可執(zhí)行文件實現(xiàn),提升各表達(dá)式功能確切性,盡最大可能保證工序順暢,提高自動化程度。

      3.4 使用多進(jìn)程代替多線程作業(yè)

      程序中調(diào)用多語料庫檢索時,如按用戶勾選語料庫順序依次操作則耗時較長,無法充分發(fā)揮電腦計算潛力。如在可執(zhí)行文件內(nèi)部開啟多線程任務(wù),首先因為網(wǎng)頁文檔對象操作時容易混淆元素,其次線程池操作不穩(wěn)定,在不同電腦表現(xiàn)不同,為獲得更好效果,程序使用多進(jìn)程代替多線程作業(yè)。思路為:將實現(xiàn)某相對完整功能的核心算法封裝在插件文件中,插件運行后首先查看主程序有無為其分配任務(wù),如有,首先領(lǐng)取任務(wù)ID,執(zhí)行任務(wù),將結(jié)果寫出帶任務(wù)ID的xls文檔等,待主程序發(fā)起合并結(jié)果指令,按任務(wù)ID順序合并為整體結(jié)果,合并算法由主程序提供,確保數(shù)據(jù)處理質(zhì)量統(tǒng)一、收割結(jié)果有序。

      4 應(yīng)用效果

      程序可在32位和64位Windows 7與Windows 10操作系統(tǒng)下平穩(wěn)運行,在下載網(wǎng)速平均60Mbps、上傳網(wǎng)速平均50Mbps、使用Ping命令訪問www.a.shifen.com平均耗時10ms、網(wǎng)絡(luò)抖動平均2.67ms、丟包平均0.5%網(wǎng)絡(luò)環(huán)境下7×24小時運行未見崩潰且功能確切。

      筆者陸續(xù)向大連理工大學(xué)、河南農(nóng)業(yè)大學(xué)、東北師范大學(xué)、贛南醫(yī)學(xué)院、青島農(nóng)業(yè)大學(xué)、曲阜師范大學(xué)等圖書館情報分析或參考咨詢崗位同人分發(fā)軟件測試版,通過軟件內(nèi)置模塊回收用戶有效反饋表139份,共處理文獻(xiàn)3 685批(共計1 842 841篇),批均處理約500篇,統(tǒng)計結(jié)果見表1,滿分值均為100%。

      表1 軟件評分 %

      漢化人名自動化率為63.24%,指100位作者姓名中,約63位可通過中外文語料庫匹配為中文姓名,約37位因?qū)W術(shù)社交網(wǎng)絡(luò)無人認(rèn)領(lǐng)、無文章被中文數(shù)據(jù)庫收錄等原因取不回漢化結(jié)果,但程序算法依然適用。姓名漢化消歧總體成功率為63.24%×71.39%,即45.15%,尚有很大提升空間,但對于長期從事情報分析、數(shù)據(jù)治理的從業(yè)人員來講,自動成功處理45%的工作量依然頗具應(yīng)用價值,96.46%的受訪問者有繼續(xù)使用意愿并希望軟件持續(xù)更新。

      以前文提到的文獻(xiàn)“Equivalent linear damping model of nonlinear hydraulic damper for helicopter rotor”為例,消歧前后數(shù)據(jù)對照表如表2所示,人工復(fù)核漢化消歧單筆成功率100%。

      表2 某文獻(xiàn)作者姓名、機(jī)構(gòu)名稱消歧前后對照表

      5 結(jié)語

      數(shù)據(jù)預(yù)處理是數(shù)據(jù)治理、情報分析工作中必不可少且非常重要的一環(huán)。本文通過編制程序,近乎全自動地實現(xiàn)了以往工作中需要人工投入大量精力的英譯中文作者姓名漢化消歧,其優(yōu)勢在于將情報分析等相關(guān)從業(yè)人員從煩瑣的數(shù)據(jù)清洗工作中部分地解放出來,使其可以將精力更多地用于探索數(shù)據(jù)背后的邏輯。139份程序試用反饋表顯示,有92%用戶認(rèn)為功能確切,81%用戶認(rèn)為執(zhí)行速度快,97%用戶表示工具運行不受第三方軟件影響,96%用戶表示有繼續(xù)使用意愿并希望軟件持續(xù)更新,用戶對程序正向認(rèn)可程度為91%。程序的不足之處在于自動化程度偏低,成功率和精確率尚有待進(jìn)一步提高。但該工具框架下的語料庫具有可擴(kuò)展性,用戶無須更新主程序,只需在程序運行目錄添加獨立動態(tài)鏈接庫(dll)文件即可擴(kuò)展語料庫。工具算法適用于對信息爬取、數(shù)據(jù)清洗有需求的應(yīng)用場景,包括但不限于情報分析、關(guān)聯(lián)挖掘、查收查引及自引識別與排除等領(lǐng)域。程序在操作便利性、爬蟲穩(wěn)定性與兼容性、正則表達(dá)式通用性及成功率等方面還有優(yōu)化空間,接下來計劃繼續(xù)提升算法可靠性與架構(gòu)可擴(kuò)展性,發(fā)現(xiàn)并利用更多中外文語料庫,提高成功率。

      猜你喜歡
      消歧語料庫網(wǎng)頁
      基于關(guān)聯(lián)圖和文本相似度的實體消歧技術(shù)研究*
      基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
      《語料庫翻譯文體學(xué)》評介
      基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
      電子制作(2018年10期)2018-08-04 03:24:38
      藏文歷史文獻(xiàn)識別過程中藏文自由虛詞的自動識別及消歧算法的研究
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      把課文的優(yōu)美表達(dá)存進(jìn)語料庫
      網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
      電子測試(2015年18期)2016-01-14 01:22:58
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      10個必知的網(wǎng)頁設(shè)計術(shù)語
      靖州| 高安市| 察隅县| 龙州县| 诸城市| 龙井市| 凌源市| 开封市| 天祝| 海南省| 江城| 山阴县| 马山县| 广饶县| 平山县| 柯坪县| 大宁县| 广丰县| 金昌市| 温州市| 阜平县| 芦山县| 阳东县| 屯门区| 五河县| 晋江市| 天长市| 唐海县| 元阳县| 永年县| 阆中市| 佛学| 子洲县| 洪洞县| 罗城| 汉川市| 砀山县| 晋中市| 嵊州市| 嘉祥县| 禄丰县|