張銳
摘 要:筆者研發(fā)的科技查新輔助查新工具是針對中國知網(wǎng)、萬方、維普、中國知識產(chǎn)權(quán)局專利檢索與服務(wù)系統(tǒng)設(shè)計(jì)的,通過編程實(shí)現(xiàn)基于EXCEL平臺的查新輔助工具,該工具能夠讀取各數(shù)據(jù)庫不同格式的數(shù)據(jù)、對數(shù)據(jù)進(jìn)行去重、并在去重時(shí)抽取不同數(shù)據(jù)庫的內(nèi)容融合成最完整的數(shù)據(jù)進(jìn)行保留,最后按照統(tǒng)一要求的查新格式導(dǎo)出。該工具相較于時(shí)下流行的輔助查新軟件,其輸出內(nèi)容更完全,同時(shí)還具有方便快捷、無需安裝、操作簡單易學(xué)等特點(diǎn)。
關(guān)鍵詞:查新 去重 EXCEL 數(shù)據(jù)融合
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2014)11(c)-0005-03
Based on Data Fusion Technology for Development of Novelty Search Auxiliary Tool
ZhangRui
(Library of Fujian Agriculture and Forestry University)
Abstract:The novelty search tools is aimed at deleting duplicate in the serch results of CNKI, WanFang and VIP database, The system based on EXCEL platform, and can read the database data in different formats, and delete duplicate, finally export the result according to the novelty format. This method is more convenient and quick compared with the popular novelty search software, and don't need to install, and easy operation etc., also can make up for the inadequacy of existing software at the same time.
Keywords:Novelty Search;Delete Duplicate;EXCEL Data fusion
隨著文獻(xiàn)數(shù)據(jù)的不斷增長,科技查新工作變得越加復(fù)雜和重要。計(jì)算機(jī)輔助查新系統(tǒng)不僅可以幫助查新員節(jié)約大量重復(fù)工作的時(shí)間,還可以修正查新員在大工作量下容易犯的錯(cuò)誤。
目前,國內(nèi)的查新輔助軟件主要集中在在線委托與查新檔案的管理方面[1-13],檢索結(jié)果去重和統(tǒng)一查新格式導(dǎo)出方面的軟件較少,僅見哈爾濱工業(yè)大學(xué)圖書館應(yīng)用JAVA語言開發(fā)了《圖書館中文查新智能去重系統(tǒng)》[14]。雖然許多收費(fèi)軟件如NoteExpress和NoteFirst均有查重去重功能,但購買費(fèi)用較高,且在各大數(shù)據(jù)庫所提供的基于NoteExpress和NoteFirst格式的數(shù)據(jù)字段不全的情況下,無法按照查新員需求輸出符合規(guī)范的查新結(jié)果。一些國外收費(fèi)軟件如EndNote由于使用習(xí)慣不同,也不太符合國內(nèi)查新員的需求。另一方面,國內(nèi)的文獻(xiàn)數(shù)據(jù)庫檢索平臺的檢索結(jié)果格式不統(tǒng)一,同一檢索式得到的結(jié)果存在許多重復(fù),若要人工一一篩選去重、整理格式,則費(fèi)時(shí)費(fèi)力,且容易出錯(cuò)。
1 目標(biāo)
筆者研發(fā)的輔助查新工具是針對中國知網(wǎng)、萬方、維普、中國知識產(chǎn)權(quán)局專利檢索與服務(wù)系統(tǒng)設(shè)計(jì)的基于EXCEL平臺的查新輔助工具,其通過雙重的數(shù)據(jù)融合可使輸出的數(shù)據(jù)內(nèi)容最完整。
該輔助查新工具旨在實(shí)現(xiàn)以下目標(biāo)。
(1)讀取各個(gè)數(shù)據(jù)庫(中國知網(wǎng)、萬方、維普、中國知識產(chǎn)權(quán)局專利檢索與服務(wù)系統(tǒng)、Innography專利分析平臺)不同格式的數(shù)據(jù),每個(gè)數(shù)據(jù)庫的兩種格式的數(shù)據(jù)將在同一在表格中融合,最后只以一張表格顯示;
(2)導(dǎo)出各個(gè)數(shù)據(jù)庫的數(shù)據(jù),導(dǎo)出的數(shù)據(jù)應(yīng)符合科技查新的參考文獻(xiàn)著錄規(guī)則;
(3)根據(jù)標(biāo)題對數(shù)據(jù)進(jìn)行去重,在去重時(shí)抽取不同數(shù)據(jù)庫的內(nèi)容融合成最完整的數(shù)據(jù)進(jìn)行保留,去重結(jié)果直接顯示在EXCEL表格里,方便查新員調(diào)整,若有不符合需求的數(shù)據(jù)可直接刪除;
(4)按照科技查新要求的格式導(dǎo)出去重后的結(jié)果。
2 系統(tǒng)功能模塊的實(shí)現(xiàn)
2.1 EXCEL宏語言簡介
EXCEL宏可以使用VB Script指令集編寫針對Office組件的小程序,它是VB編程語言的子集,可以使用VB的常用語句編寫程序,編寫方式與C++類似,依靠EXCEL原有的數(shù)據(jù)處理功能,可以編寫出強(qiáng)大數(shù)據(jù)處理系統(tǒng),而且編寫出的系統(tǒng)根植于EXCEL平臺,相似的平臺操作模式,使使用者更容易上手。
2.2 中國知網(wǎng)、萬方、維普數(shù)據(jù)庫檢索結(jié)果導(dǎo)入
讀取各大數(shù)據(jù)庫的檢索結(jié)果,是該輔助查新工具所要實(shí)現(xiàn)的第一個(gè)功能。由于不同的數(shù)據(jù)庫對檢索結(jié)果提供了不同的保存格式,所以筆者要根據(jù)不同的保存格式編寫不同的讀取程序。同時(shí),筆者發(fā)現(xiàn)中國知網(wǎng)、萬方、維普這三大數(shù)據(jù)庫對檢索結(jié)果提供了多種保存格式,即使是同一數(shù)據(jù)庫的不同保存格式之間所含的內(nèi)容也不一樣,存在互相包含和互相補(bǔ)充的關(guān)系。例如,中國知網(wǎng)數(shù)據(jù)庫的檢索結(jié)果的不同保存格式所包含的字段內(nèi)容略有不同, CNKI桌面版格式中的專利文獻(xiàn)包含專利類別名稱和公開號卻缺少文獻(xiàn)頁數(shù)的內(nèi)容,而E-Learning格式中包含文獻(xiàn)頁數(shù)卻缺少專利類別名稱和公開號的內(nèi)容。考慮到數(shù)據(jù)的完整性,筆者選擇E-Learning格式和桌面版格式這兩種較完整的數(shù)據(jù)格式進(jìn)行讀取,并融合兩種數(shù)據(jù)得到信息最完整的數(shù)據(jù)。同理,筆者對萬方和維普數(shù)據(jù)庫也采用兩種格式進(jìn)行讀取,萬方數(shù)據(jù)庫為萬方查新格式、萬方NoteExpress格式;維普數(shù)據(jù)庫為維普NoteExpress格式、維普自定義導(dǎo)出格式。endprint
讀取檢索結(jié)果的文本文件時(shí),采取逐行讀入的方式,每行以英文冒號“:”為分隔符分隔,存入數(shù)組“MyArr”中,然后比較數(shù)組中的第一個(gè)字符串,當(dāng)它符合我們的需求時(shí),把它填入相應(yīng)的空格中。例如,文本第一行為“Title-題名:科技查新信息管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)”,冒號將其分隔為兩個(gè)部分“Title-題名”和“科技查新信息管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)”,分別被填入數(shù)組“MyArr”的第1、2個(gè)元素中,當(dāng)?shù)?個(gè)元素即“Title-題名”匹配正確時(shí),就可以將“科技查新信息管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)”填入題名對應(yīng)的EXCEL列中。
在使用該查新輔助工具前,需要先將CNKI E-Learning格式、CNKI桌面版格式、萬方查新格式、萬方NoteExpress格式、維普NoteExpress格式、維普自定義導(dǎo)出格式的檢索結(jié)果保存為“CNKI-1.TXT”、“CNKI-2.TXT”、“萬方-1.TXT”、“萬方-2.TXT”、“維普-1.TXT”、“維普-2.TXT”六個(gè)文本文件,并存儲在該工具所在的文件夾下。
然后,按照序號標(biāo)示輪流點(diǎn)擊“打開CNKI-1.txt”、“打開CNKI-2.txt”、“打開萬方-1.txt”、“打開萬方-2.txt”、“打開維普-1.txt”、“打開維普-2.txt”這六個(gè)按鈕導(dǎo)入數(shù)據(jù),如圖1所示。數(shù)秒之后,即可在EXCLE表中見到導(dǎo)入的數(shù)據(jù),分別存放在“CNKI數(shù)據(jù)”、“萬方數(shù)據(jù)”、“維普數(shù)據(jù)”這三個(gè)表單中,如圖2所示。若使用者只需進(jìn)行各個(gè)數(shù)據(jù)庫的格式整理,可以只選擇相應(yīng)的數(shù)據(jù)庫進(jìn)行導(dǎo)入,點(diǎn)擊相應(yīng)的按鈕即可。
2.3 數(shù)據(jù)去重
數(shù)據(jù)去重是該輔助查新工具的最主要功能,為實(shí)現(xiàn)該功能,筆者采用EXCEL提供的CountIf函數(shù)對標(biāo)題列中重復(fù)的數(shù)據(jù)進(jìn)行刪除。CountIf(range,criteria)函數(shù)會統(tǒng)計(jì)某個(gè)區(qū)域內(nèi)符合指定的單個(gè)條件的單元格數(shù)量,其中range表示要計(jì)數(shù)的一個(gè)或多個(gè)單元格范圍,criteria定義要進(jìn)行計(jì)數(shù)的單元格的數(shù)字、表達(dá)式、單元格引用或文本字符串。在該輔助工具中,筆者以標(biāo)題數(shù)據(jù)所在列為計(jì)數(shù)范圍,以重復(fù)的標(biāo)題內(nèi)容為要進(jìn)行計(jì)數(shù)的文本字符串,計(jì)算標(biāo)題重復(fù)的個(gè)數(shù),然后刪除計(jì)數(shù)個(gè)數(shù)大于1的重復(fù)標(biāo)題。由于中國知網(wǎng)、萬方和維普的數(shù)據(jù)內(nèi)容有所差異,通常中國知網(wǎng)中很少給出期刊的卷號,以及專利的申請?zhí)?,而這些信息恰恰有收集在萬方的數(shù)據(jù)中,所以在刪除重復(fù)數(shù)據(jù)時(shí),該工具會將首次出現(xiàn)的條目中沒有的數(shù)據(jù)內(nèi)容先復(fù)制到該條目中,然后再刪除掉重復(fù)的條目。
查新員在使用時(shí),只需點(diǎn)擊“去重”按鈕,EXCEL表中即可生成一個(gè)新表——“去重結(jié)果”,去重后的結(jié)果可在該表中查看。第三列“Source-來源”中會標(biāo)引出哪些數(shù)據(jù)來自中國知網(wǎng),哪些來自萬方數(shù)據(jù)庫,哪些來自維普數(shù)據(jù)庫,以方便查新員閱讀。
2.4 結(jié)果導(dǎo)出
經(jīng)過去重后,點(diǎn)擊“導(dǎo)出去重結(jié)果”按鈕即可在同一文件夾下生成一個(gè)文本文件——“導(dǎo)出去重結(jié)果.TXT”;若不需要去重,只需對中國知網(wǎng)、萬方、維普這三大數(shù)據(jù)庫的檢索結(jié)果進(jìn)行格式整理,可以直接點(diǎn)擊導(dǎo)入按鈕右邊的導(dǎo)出按鈕即可,相同的,會在同一文件夾下生成相應(yīng)的文本文件。
專利文獻(xiàn)數(shù)據(jù)是查新員所依靠的重要文獻(xiàn)數(shù)據(jù),但是中國知識產(chǎn)權(quán)局專利檢索與服務(wù)系統(tǒng)與Innography專利分析平臺的檢索結(jié)果格式均不符合查新報(bào)告要求的格式。為完善該輔助查新工具的功能,筆者特別增加了對這兩個(gè)專利分析平臺檢索結(jié)果的格式整理,只需點(diǎn)擊“導(dǎo)出中國專利”與“導(dǎo)出國外專利”兩個(gè)按鈕即可。
3 性能展示
筆者使用“題名=(程序or軟件or系統(tǒng)) and 查新”檢索式分別在CNKI、萬方、維普上檢索,在CNKI上檢出文獻(xiàn)140篇、萬方上檢出139篇、維普上檢出120篇,一共399篇。點(diǎn)擊“去重”按鈕后,即得到181條去重結(jié)果。觀察新生成的“去重結(jié)果”的表單,可以發(fā)現(xiàn)一些源自CNKI的條目中原來沒有的卷號內(nèi)容,已經(jīng)被補(bǔ)充上了,如圖4所示。
由于各個(gè)數(shù)據(jù)庫收錄的題錄格式不統(tǒng)一,經(jīng)常在英文大小寫、空格、標(biāo)點(diǎn)符號、英文縮寫、有無副標(biāo)題上不一致,甚至有些題錄會有亂碼的現(xiàn)象出現(xiàn),所以還需要對去重結(jié)果進(jìn)行人工微調(diào)。筆者利用EXCEL的排序功能,以標(biāo)題為主要關(guān)鍵字,年份為次要關(guān)鍵字對去重結(jié)果進(jìn)行排序,從而把相似的數(shù)據(jù)排列在一起,如圖4所示,通過對比發(fā)現(xiàn)仍有15篇重復(fù)文獻(xiàn),同時(shí)發(fā)現(xiàn)兩篇文獻(xiàn)存在不同期刊重復(fù)發(fā)表的情況。筆者對比后,選擇數(shù)據(jù)內(nèi)容不夠完整規(guī)范的重復(fù)題錄予以刪除,最終得到164個(gè)去重結(jié)果。
筆者所使用的電腦的主要參數(shù)如下:CPU: Intel(R) Core(TM)2 Duo CPU E8400 @3.00GHz 2.99GHz;內(nèi)存1.84GB。
4 結(jié)語
該輔助查新工具雖然小巧,但在科技查新過程中可以節(jié)省查新員大量的冗余工作時(shí)間,而通過雙重的數(shù)據(jù)融合可保留最為完整的數(shù)據(jù)內(nèi)容。筆者通過一個(gè)多月的使用和完善,對各種BUG進(jìn)行了修補(bǔ),系統(tǒng)運(yùn)行流暢,對科技查新工作起到了很好的輔助效果。
參考文獻(xiàn)
[1] 師曉青,尉江星.基于JSP的在線查收、查引和查新檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)——以山東大學(xué)(威海)為例[J].現(xiàn)代情報(bào),2014,34(3):131-134,138.
[2] 劉莉莉.基于Web的科技查新管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].甘肅科技,2014(4):14-16.
[3] 馮琳,張仁瓊.基于.NET科技查新系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].大學(xué)圖書情報(bào)學(xué)刊,2011(3):50-52.
[4] 林爾正,黃瑞敏.科技查新網(wǎng)上申報(bào)與管理系統(tǒng)構(gòu)建研究——以福建中醫(yī)藥大學(xué)圖書館為例[J].情報(bào)探索,2011(12):78-80.
[5] 李海剛,謝毅.基于ASP.NET技術(shù)的科技查新網(wǎng)上委托及管理系統(tǒng)[J].企業(yè)科技與發(fā)展,2009(12):42-43.
[6] 李騰.基于ASP.NET技術(shù)的科技查新網(wǎng)上受理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].情報(bào)探索,2009(10):74-76.
[7] 宋樂平,丁玉東.科技查新項(xiàng)目管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].情報(bào)探索,2010(2):70-71.
[8] 王權(quán),張纓,楊生舉,等.科技查新項(xiàng)目管理系統(tǒng)中嵌入Word的若干問題研究[J].甘肅科技,2006,22(11):73-74.
[9] 王重陽,許春芳.基于網(wǎng)絡(luò)服務(wù)平臺的農(nóng)業(yè)科技查新檢索系統(tǒng)簡介[J].吉林畜牧獸醫(yī),2007,28(2):19-20.
[10] 吳玲.情報(bào)查新咨詢管理信息系統(tǒng)的研發(fā)[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2007(21):16-17.
[11] 張?jiān)评?基于AJAX的科技查新管理系統(tǒng)[J].大學(xué)圖書情報(bào)學(xué)刊,2008(6):30-32,43.
[12] 曾展鵬.基于ASP技術(shù)的查新報(bào)告管理系統(tǒng)的設(shè)計(jì)和制作[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2008(2):68-70.
[13] 但旺,聶峰英,科技查新業(yè)務(wù)管理系統(tǒng)設(shè)計(jì)分析[J].圖書館學(xué)研究,2008(4):67-69,72.
[14] 李雪婷,李莘,王曉丹.基于JAVA的圖書館中文查新智能去重系統(tǒng)的研究與實(shí)現(xiàn)[J].圖書館學(xué)研究,2013(17):56-58.endprint