論文收錄證明輔助系統(tǒng)的設計與應用

2013-03-02 09:13:45孔云資蕓楊婷薛秀珍昆明理工大學圖書館昆明650093

數(shù)字圖書館論壇 2013年9期

□ 孔云資蕓楊婷薛秀珍/昆明理工大學圖書館昆明 650093

□ 孔云資蕓楊婷薛秀珍/昆明理工大學圖書館昆明 650093

出具論文收錄證明是高校圖書館信息咨詢部的重要業(yè)務之一，其基本流程為客戶提出申請，圖書館員檢索引文數(shù)據(jù)庫，從檢索結果文件提取論文信息，生成報告等。其中最耗時的環(huán)節(jié)為從引文文件提取信息的蠻力過程，所耗時間和論文篇數(shù)呈線性增長。文章首先分析了開具檢索證明的業(yè)務流程和業(yè)內(nèi)研究現(xiàn)狀，其次分析了檢索結果文件，接著設計和開發(fā)了論文收錄證明報告輔助系統(tǒng)，最后以系統(tǒng)在本校超過三年的使用效果說明：該系統(tǒng)極大地提高了出具收錄證明的速度和信息咨詢部的工作效率，是一套具有參考和推廣價值的系統(tǒng)。

論文收錄證明，自動化，信息咨詢，信息服務

1 引言

1.1 論文收錄證明服務介紹

根據(jù)我國的國情和相關部門的規(guī)定，高校教師或其他科研機構的科研人員在申報國家及省部級各類獎項、課題、科技成果鑒定驗收、科研成果獎勵、個人職稱評定等工作時，申報人員提供的論文須由相關部門審定，其中以獨撰或第一作者發(fā)表的論文被SCI、EI等收錄的，須由具有國家認可的資質單位開具收錄或引用檢索報告。因此國內(nèi)具備資質的高校圖書館為申報人員開展了論文收錄證明服務，一般由圖書館的信息咨詢服務部承擔此項服務，以下簡稱為信咨部。

1.2 引文數(shù)據(jù)庫平臺簡介

ISI Web of Knowledge簡介[1]：此平臺以三大引文數(shù)據(jù)庫SCI、SSCI、A&HCI為核心，同時還有兩個化學信息事實型數(shù)據(jù)庫CCR、IC和三個引文數(shù)據(jù)庫CPCI-SSH、SCIE、CPCIS(ISTP)。兼具知識的檢索、提取、管理、分析與評價等多項功能。

Engineering Village簡介[2]：該平臺是最權威的工程、應用科學領域文獻檢索平臺。它提供最專業(yè)、內(nèi)容最豐富的工程科學數(shù)據(jù)庫和相應的科技文獻檢索，以及全球優(yōu)秀工程科學期刊的全文在線訪問服務，提供著名的工程索引EI功能。

2 業(yè)內(nèi)研究現(xiàn)狀和存在的問題

2.1 業(yè)內(nèi)相關研究現(xiàn)狀

以萬方和CNKI數(shù)據(jù)庫為依據(jù)，用“檢索證明”、“檢索報告”、“代查代檢”、“自動化管理”、“網(wǎng)絡化管理”、“計算機管理”以及“服務平臺”等為檢索詞，分別在主題、關鍵詞和摘要中進行檢索，發(fā)現(xiàn)相關的研究成果和系統(tǒng)可以歸納為[3,4]：（1）進行查新項目檔案管理；（2）進行量化管理或績效管理；（3）建立網(wǎng)上服務方式方便用戶；（4）進行質量控制，通過對業(yè)務流程的控制，提升服務質量；（5）建立知識庫。

從已有的文獻來看[4-10]，目前圖書館界針對論文收錄證明自動化系統(tǒng)的研究幾乎為空白。

2.2 當前出具檢索證明的弊端

出具論文收錄證明的基本流程為：客戶填寫檢索申請表，圖書館員根據(jù)申請表選擇引文數(shù)據(jù)庫，檢索客戶需要的論文，篩選論文，經(jīng)客戶同意后輸出記錄文件，圖書館員分析文件內(nèi)容，按格式生成檢索報告文檔，蓋章簽字、支付服務費完成服務。其服務流程如圖1所示。

在和信咨部的專家反復溝通業(yè)務過程后，一致認為：論文收錄證明業(yè)務流程最耗時的環(huán)節(jié)為從分析文件內(nèi)容到按格式生成檢索報告文檔的過程，其所耗時間和客戶要求檢索的論文篇數(shù)成正比例關系。通常來說，提取一篇論文信息所耗費的時間為30分鐘左右。如果一個客戶一次要求檢索的論文篇數(shù)為10篇（這種情況在我們學校比較普遍），則所耗費時間為30*10=300分鐘。實際情況要多于這個時間，因為工作人員不是機器，越往后就越疲勞，而且中間環(huán)節(jié)還會被其他業(yè)務中斷。據(jù)信咨部反映，提取信息的過程，基本是一個尋找信息、組合信息、復制、粘貼到Word的過程。信咨部希望能夠把這個過程自動化，以提高他們的工作效率。

圖1 論文收錄證明報告流程

圖2 自動解析引文文件流程圖

3 論文收錄證明輔助系統(tǒng)的分析與設計

作者和信咨部的專家溝通后，明確了出具論文收錄證明的流程(見2.2節(jié)介紹)。國內(nèi)需出具收錄證明的引文數(shù)據(jù)庫已經(jīng)被整合到ISI Web of Knowledge（為了便于討論，以SCI為簡稱）和Engineering Village（為了便于討論，以EI為簡稱）兩大引文檢索平臺，這一工作為本文想實現(xiàn)的輔助系統(tǒng)提供了有限的數(shù)據(jù)來源，系統(tǒng)只需要分析兩種數(shù)據(jù)格式：即SCI和EI引文數(shù)據(jù)格式，有效降低了系統(tǒng)實現(xiàn)的難度和復雜度。

3.1 論文收錄證明輔助系統(tǒng)的設計思路

要實現(xiàn)論文收錄證明的全部自動化需要檢索平臺提供功能完整和靈活的API便于第三方開發(fā)者調用。從目前掌握的信息來看，Thomson Reuters公司于2012年2月開放了SCI的一個Web服務[11]：通過此API，機構用戶可以實時查詢和獲取該機構的元數(shù)據(jù)信息，包括作者，文章標題，Source數(shù)據(jù)，關鍵字和文章唯一標識號。此API主要是為方便學術機構從其主頁或機構知識庫接入SCI平臺。針對出具論文收錄證明，此API至少有兩方面的不足：首先是返回的數(shù)據(jù)有限，只返回5個字段；其次，只返回本機構的數(shù)據(jù)。論文收錄證明報告要求返回較完整的數(shù)據(jù)，便于適應不同的報告模板；其次客戶的范圍是廣泛的：包括不同高校、不同的科研機構，而不是限制在一個機構內(nèi)。至于EI，目前還沒有提供開放的接口。因此，以目前的情況看，通過API的方式是不可行的。

從2.2節(jié)的討論可以看出，出具證明的瓶頸在于：從引文文件到生成檢索報告的過程，幾乎占去了整個過程90%的時間。如果可以解決此瓶頸，將極大提高出具證明的效率。因此本文設計和開發(fā)了論文收錄證明輔助系統(tǒng)：主要是解決從分析文件內(nèi)容到生成檢索報告的自動化問題。首先由圖書館員在兩大檢索平臺上檢索到客戶的論文并下載引文文件數(shù)據(jù)，然后使用輔助系統(tǒng)自動生成檢索報告：圖書館員上傳引文結果文件到輔助系統(tǒng)，系統(tǒng)按照算法自動解析文件，然后生成并返回網(wǎng)頁形式的檢索報告，檢查無誤后，自動生成Word格式的正式報告。其流程如圖2所示。

3.2 引文文件分析

3.2.1 SCI引文文件分析

在獲取SCI引文庫檢索結果后，按如下步驟輸出檢索結果文件：（1）選擇全記錄方式，目的是獲取論文的相關信息，為后續(xù)解析文件提供完整的信息；（2）選擇保存文件的方式為制表符分隔的格式(Win,UTF-8)，這里規(guī)定字符編碼為UTF-8，目的是為避免編碼出現(xiàn)亂碼。分析導出文件，可以看到SCI引文為論文提供了58個字段，提供的內(nèi)容是以二維表的方式呈現(xiàn)的，這為計算機程序自動分析和提取內(nèi)容提供了便利。SCI引文文件格式如表1所示。

3.2.2 EI引文文件分析

在獲取EI引文庫檢索結果后，選擇下載選中的文章，在下載頁面，選擇記錄詳情（record detail）和下載格式（plain text format ASCII）。分析下載的文件，可以看到EI引文的文件格式是以＜record +編號＞，換行，字段名稱+“:”+字段內(nèi)容+換行的方式陳列，第一篇文章的內(nèi)容顯示完后，換行，然后又是以＜record + 編號＞，換行，字段名稱+“:”+字段內(nèi)容+換行的方式顯示內(nèi)容。EI引文為論文提供了30個左右的字段信息，抽象后的文件格式如表2所示。

3.3 檢索結果算法設計

3.2 節(jié)分析了SCI和EI兩大引文結果文件結構，為設計計算機算法提供了基礎。

表1 SCI引文文件格式

3.3.1 SCI算法設計

由3.2節(jié)的分析可知，SCI引文文件的內(nèi)容為一張二維表，表頭為每篇論文的字段名稱，每篇文章對應二維表的一行，每行提供58列（即58個屬性），二維表的行數(shù)由檢索到的論文篇數(shù)確定。為了便于計算機程序操作，定義如下數(shù)據(jù)結構：

（1）SCI對象SCI(PT,AU,BA, BE,GP,AF,BF,CA,TI,SO,SE,BS,LA ,DT,CT,CY,CL,SP,HO,DE,ID,AB,C 1,RP,EM,RI,FU,FX,CR,NR,TC,Z9, PU,PI,PA,SN,BN,J9,JI,PD,PY,VL,I S,PN,SU,SI,MA,BP,EP,AR,DI,D2, PG,P2,WC,SC,GA,UT)，其中SCI為對象名稱，是每篇論文字段信息的集合，括號內(nèi)的58個字段為SCI引文為每篇論文提供的字段名稱。

（2）SCI對象數(shù)組

為了存儲所有的SCI對象，定義對象數(shù)組List＜SCI＞={SCI1,SCI2,…,SCIn}。List＜SCI＞是一個線性表，線性表的元素為SCI對象。SCI引文文件解析流程如圖3所示。

（3）SCI引文算法sciAnalyze關鍵代碼如下所示：

1.輸入：sciBufferedReader //輸入為SCI引文檢索結果文件

2.輸出：sciList //返回SCI對象數(shù)組

3.List＜Sci＞ sciList = new ArrayList＜Sci＞(); //新建SCI數(shù)組

4.String s = null //定義字符串變量

5.int i = 0 //定義標志符

7. String sp[]= s.split( "\ t" );//根據(jù)水平制表符分隔字符串

8. SCI sci = new SCI();//新建SCI對象

9. sci.setPT( sp[ 0 ]); //為對象屬性賦值

10. sci.setAU( sp[ 1 ]); //為對象屬性賦值

...

11. sci.setUT( sp[ 57 ]); //為對象屬性賦值

12. sciList.add( sci ); //添加SCI對象到對象數(shù)組

}

13.sciBufferedReader.close();//關閉引文文件輸入流

14. Return sciList; //返回SCI對象數(shù)組

3.3.2 EI算法設計

由前面的分析可知，EI引文文件的內(nèi)容如表2所示。為了便于操作，定義如下數(shù)據(jù)結構：

（1）EI對象EI(accessionNum bertitle,authors,authorAffiliation, correspondingAuthor,souceTitle,a bbreviatedSourceTitle,volume,iss ue,monographTitle,issueDate,publ icationYear,pages,articleNumber,l anguage,issn,eissn,isbn,isbn10,do cumentType,conferenceName,con ferenceDate,conferenceLocation,c onferenceCode,sponsor,publisher, abstract,numberOfReferences,mai nHeading,controlledTerms,uncont rolledTerms,classificationCode,do i,database)，其中EI為對象名稱，是EI引文所能提供的所有字段信息的集合，括號內(nèi)的字段為EI引文為每篇論文提供的字段名稱。

（2）EI對象數(shù)組

為了存儲所有的EI對象，定義對象數(shù)組List＜EI＞={EI1,EI2,…,EIn}。List＜EI＞是一個線性表，其元素為EI對象。EI引文文件解析流程如圖4所示。

（3）EI引文算法eiAnalyze關鍵代碼如下所示：

1.輸入：eiBufferedReader //輸入EI引文檢索結果文件

2.輸出：eiList//返回EI對象數(shù)組

圖3 SCI引文文件解析流程

圖4 EI引文文件解析流程

3.4 輔助系統(tǒng)完整的算法

（1）圖書館員上傳引文檢索結果文件；

（2）系統(tǒng)選擇解析算法：sciAnalyze()或eiAnalyze();

（3）生成檢索報告，并按顯示格式返回網(wǎng)頁形式的檢索結果；

（4）檢索結果自動導入到Word文檔；

（5）檢查和調整Word文檔，形成正式檢索報告；系統(tǒng)流程如圖2所示。

4 系統(tǒng)實現(xiàn)和應用效果4.1 系統(tǒng)采用J2EE平臺

J2EE平臺具有開發(fā)結構簡單、開發(fā)效率高、移植性強、重用性好、易于維護、伸縮性強、被廣泛接受等優(yōu)勢，是企業(yè)級應用系統(tǒng)事實上的標準。對于信息技術日新月異的時代，考慮系統(tǒng)的可擴展性，是企業(yè)應用的首選開發(fā)平臺。

4.2 系統(tǒng)部署平臺

論文收錄證明自動生成系統(tǒng)的部署環(huán)境為：Intel(R) Xeon(R) CPU E5420,主頻為2.50GHz，RAM 1.0 GB，Windows Server 2003 Enterprise Edition SP2，JDK1.6.-0.26，Web容器采用開源且性能穩(wěn)定的Apache-Tomcat-6.0.32[12]，本系統(tǒng)在開發(fā)過程中綜合使用了HTML、JAVA SCRIPT、VELOCITY[13]、JAVA和開源文件上傳組件commons-fileupload-1.2.1.jar[14]等技術。

4.3 系統(tǒng)在我校圖書館的應用效果

2010年12月，我校被批準為“教育部部級科技查新工作站籌建單位”。論文收錄證明服務是我校圖書館的重要業(yè)務之一，自系統(tǒng)應用以來，為我校高端人才引進、創(chuàng)新團隊建設、人才培養(yǎng)、重點實驗室建設、重點學科與專業(yè)建設、專業(yè)評估、專業(yè)技術職稱評審、教師績效考核等工作和校外其他單位開展的論文收錄與檢索證明服務提供了有力的支持。2009、2010、2011年完成論文收錄證明報告分別為112項、228項、391項，2012年截止到11月12日，已完成收錄證明報告650項。歷年累計完成SCI檢索3577篇，EI檢索4062篇，ISTP檢索377篇，共累計完成8016篇檢索證明服務。

自本系統(tǒng)應用以來，信咨部做論文收錄證明報告的速度有了顯著的提高，不但顯著降低了工作辛勞度，而且可以把更多的時間投入到其他信息咨詢服務中去；同時極大地縮短了客戶開具檢索證明的等待周期，為客戶節(jié)約了寶貴的時間。圖5所示：為檢索文件輸入入口，圖書館員根據(jù)引文選擇文獻類型，然后上傳文件到文件自動解析系統(tǒng)，服務器將自動生成檢索報告，并返回網(wǎng)頁形式的檢索結果，如圖6所示，為EI類型的檢索結果，從輸入文件到生成固定格式的檢索報告所用的時間在秒級以內(nèi)。點擊圖6左上角的導入Word按鈕，程序將自動調用Word組件，并按配置參數(shù)生成Word文檔，圖書館員只用稍加修飾就可以形成一份檢索報告，極大地提高了工作效率。

5 總結與展望

本文首先研究了引文證明業(yè)務流程和業(yè)內(nèi)研究現(xiàn)狀；然后設計并實現(xiàn)了論文收錄證明輔助系統(tǒng)；最后以系統(tǒng)在我校的使用效果說明系統(tǒng)有效提高了信咨部的工作效率，尤其是當同一個作者或科研團隊要出具多篇文章的檢索證明時，系統(tǒng)所花的時間幾乎沒增加，讓原本是一件痛苦的事情變得十分簡便。展望未來，筆者希望ISI Web of Knowledge和Engineering Village引文檢索平臺能夠提供完整和靈活的API服務，讓第三方開發(fā)機構可以調用接口，從而簡化檢索過程和自主定制檢索報告，進一步提高系統(tǒng)自動化的程度，同時由于每個學校出具檢索證明的模板各異，系統(tǒng)下一步將增加后臺模板定制功能。

圖5 文件自動解析入口

圖6 檢索結果實例

[1]百度百科.ISI Web of Knowledge [OL].[2013-03-20].http://baike.baidu.com/view/878678.htm.

[2]百度百科.Engineering Village介紹[OL].[2013-03-20].http://baike.baidu.com/view/1466057.htm.

[3]鄂麗君.高校圖書館科技查新服務調查與分析[J].情報雜志,2012,31(1).

[4]孫海剛.個性化服務在數(shù)字圖書館科技查新中的研究與應用[D].中南大學,2007.

[5]張?zhí)炜?Php&Mysql技術在高校圖書館“代查代檢”服務系統(tǒng)開發(fā)中的應用[J].情報科學,2003,21(7).

[6]戰(zhàn)玉華,等.代檢代查服務系統(tǒng)的開發(fā)及應用[J].圖書情報工作,2005,49(11).

[7]鄭菲,等.中國科學院科技查新檢索服務平臺的設計與實踐應用[J].現(xiàn)代圖書情報技術,2010(11).

[8]馬驊,等.多校區(qū)環(huán)境下科技查新:以南京大學圖書館為例[J].圖書館學研究(理論版),2010(2).

[9]馬景娣,等.基于J2EE的科技查新綜合信息系統(tǒng)的設計與實現(xiàn)[J].現(xiàn)代圖書情報技術,2004(8).

[10]但旺等.科技查新業(yè)務管理系統(tǒng)設計分析[J].圖書館學研究,2008(4).

[11]Thomson Reuters.Web of Science [OL].[2013-03-20].http://wokinfo.com/products_tools/products/related/webservices/.

[12]The Apache Software Foundation.Apache Tomcat [OL].[2013-03-20].http://tomcat.apache.org/index.html.

[13]The Apache Software Foundation.The Apache Velocity Project [OL].(2010-11-29) [2013-03-20].http://velocity.apache.org/.

[14]The Apache Software Foundation.Commons FileUpload [OL].(2010-07-30) [2013-03-20].http://commons.apache.org/fileupload/index.html.

資蕓（1973-），副研究館員，研究方向：數(shù)字圖書館。

Design and Application of Assistant System on Paper Published Proof

Kong Yun, Zi Yun, Yang Ting, Xue Xiuzhen/Lib of Kunming University of Science and Technology, Kunming, 650093

Showing paper published proof is one of the most important business for the information department in the university library, whose basic process includes customer submitting an application, librarian retrieving database, extracting information from the result, generating a report, etc.The most time-consuming part of this process is to extract information from the downloaded result, which is a procedure of brute force.The time consuming is growing linearly as the number of papers increases.This article first analyses the business process and survey the background on showing paper published proof, followed by analyzing the search result, and then designing and developing an assistant system about paper published proof, at last the system's application effect for more than three years in our library demonstrates that the system greatly improves the librarian's working efficiency and accelerates the speed on making a report.It is really a system of promotional and reference value on the industry.

Paper published proof, Automation, Information consultation, Information service

10.3772/j.issn.1673—2286.2013.09.008

孔云（1982-），館員，研究方向：圖書館自動化。E-mail: 920581344@qq.com

2013-04-14）