易中梅 趙 晶 韓 煦 單甜甜
(第二軍醫(yī)大學圖書館,上海 200433)
會議論文是一種特殊的信息資源,數量多、內容新、質量高、專業(yè)性強,是非常具有情報價值的一種文獻,我國已經建成了一批會議論文數據庫,常用的中文會議論文數據庫有:《中國重要會議論文集全文數據庫》(簡稱CPCD)、《中國學術會議論文全文數據庫》(簡稱PACC)、《中國學術會議論文文摘數據庫》(簡稱CACP)、《中國醫(yī)藥學術會議論文文摘數據庫》(簡稱CMAC)、國家科技圖書文獻中心的《中文會議論文數據庫》(以下簡稱中心)。筆者對它們的內容和設計進行了較為詳細的比較分析,并對存在的問題提出了一些想法和建議。
表1 5個會議論文數據庫的內容
從表1的提供單位可知,5個會議論文數據庫由5個不同的單位提供,在學科覆蓋范圍上,只有一個醫(yī)學會議論文數據庫CMAC是專業(yè)性的,其他會議論文數據庫都是綜合性的,專業(yè)性的會議論文數據庫太少,特色化會議論文數據庫建設嚴重不足。
數據庫最重要的元素是內容,而數據庫提供單位的分散以及各單位之間缺乏溝通和統一將導致數據庫重復建設,數據庫重復建設必然會帶來內容重復,內容重復的直接后果是嚴重浪費資源。筆者認為,我國會議論文數據庫的建設必須規(guī)范化,形成統一認識,協作分工,而不是各自為政,數據庫的數量不在多而在精,多增加各種專業(yè)性的會議論文數據庫,應做好各綜合性會議論文數據庫之間的兼并與整合,充分發(fā)揮優(yōu)勢互補,建立一到兩個高質量的綜合性會議論文數據庫,多建設特色化、專業(yè)化的會議論文數據庫。
由于會議論文數據庫建設的分散性,造成了數據庫的形式各異,各個數據庫在設計上有很大的差異。主要表現在如下幾個方面:
表2 5個會議論文數據庫的檢索界面
從表2可知,5個會議論文數據庫檢索界面的設計差異非常大,筆者認為,檢索主界面的設計不宜復雜,各區(qū)的功能應該一目了然,簡捷易懂,在數據庫的設計中,檢索提問表單和知識分類導航區(qū)是必需的,其他的能省則省,或者放到其他頁面,同時要保持界面的穩(wěn)定性,不可頻繁更換界面,因為它是為學術研究者服務的,需注重嚴肅性[5]。
此外,獨立的數據庫最好有獨立的檢索界面,因為文獻類型不同,檢索字段的設置也應該不同,不能夠一概而論。以中心為例,因其會議論文數據庫要與其他類型的數據庫共用一個檢索界面,所以其檢索字段的設置是大眾型的,能夠揭示會議論文特征的檢索字段如會議名稱、會議時間、會議地點等在檢索界面就不會出現,但這些字段又是會議論文必須具備的,缺少了這些字段,很難保證檢索的查準率。
最后,這種設計的差異性導致了各個數據庫的檢索規(guī)則不同,5個數據庫有4種不同的檢索規(guī)則,增加了用戶的檢索負擔。必須解決這些異構數據庫的統一檢索,讓用戶熟悉了一種檢索界面就可以輕松使用其他的數據庫。這就要求對于國內會議論文數據庫的建設提供一個統一的建庫規(guī)則,在建庫過程中嚴格遵循這一規(guī)則,做到規(guī)范統一。
知識分類導航檢索是在知識分類的基礎上進行的一種檢索,知識分類是以《中圖法》為根基的,分類體系為等級列舉式結構,它以事物的性質為基礎,按照學科知識門類層次劃分,并把劃分出來的類目一一加以列舉。
知識分類導航檢索具有很高的利用價值,它有兩種功能:第一,不用檢索提問表單,直接用鼠標點擊就可查到某一類目下的論文。第二,還可以配合檢索提問表單,縮小或擴大檢索范圍,提高查準率或查全率。因而,CPCD、PACC和中心都提供了分類知識導航檢索服務。
CPCD以“專題數據庫”的形式設計CNKI知識倉庫分類導航體系,將知識分為9個專題,分層次對知識按其屬性及相互從屬關系進行并行或樹狀排列,逐級展開。在分類檢索中,可以通過導航逐步縮小范圍,最后檢索出某一知識單元中的文章;在初級檢索和高級檢索中,根據各篇論文所涉及的學科知識屬性,在檢索的時候可以選擇全選,選擇多個專輯或選擇多個下位的子欄目,這樣可以節(jié)省檢索的時間,提高查準率。
PACC按《中國圖書資料分類法》將其知識分為26個大類,直接點擊某一個大類就可以看到該大類下的所有會議論文的題錄。
中心也按《中國圖書資料分類法》分類,共分19個大類,點擊某個大類,再選擇會議論文數據庫也可看到該類目下的所有會議論文。
可見,PACC和中心只具備第一種功能,而CPCD則具備了兩種,因而比較而言,CPCD的知識分類導航檢索服務做得更成功,值得其他數據庫借鑒。
目前,大多數會議論文數據庫的知識分類都是在傳統分類法的基礎上以主題與學科相結合的分類方式,按照從總到分的方式逐級展開,有較強的通用性和直觀性。但是,由于分散建設數據庫,出現了各數據庫在知識分類上缺乏統一性,分類各異給讀者的檢索帶來不便,容易造成漏檢。因此,制定一套統一的網絡信息資源分類法是建設會議論文數據庫必須解決的問題。
表3 5個會議論文數據庫的檢索字段
從表4可見,5個數據庫的檢索字段可謂五花八門。其中,最有特色的是PACC,它將檢索字段分為《會議名錄》和《會議論文》兩種,且分別放在不同檢索提問表單中,將揭示會議信息和會議論文的檢索字段分開設計,使檢索界面更加明了,可以作為其他數據庫設置檢索字段的參考。
選擇檢索字段是進行檢索的前提條件,檢索字段的設置必須以文獻的種類屬性為依據,要能揭示該檢索系統的文獻特征,否則會影響檢索的查全率和查準率,如前所述,中心的檢索字段設置過于大眾化,完全不能揭示會議論文的信息,使得中心的會議論文檢索非常不方便。
表4 5個會議論文數據庫的檢索方式
初級檢索包括字段級檢索和全文檢索,適用于不熟悉多條件組合查詢或SQL語句查詢的用戶,對于一些簡單查詢,建議使用該檢索系統,但查詢結果有很大的冗余;高級檢索能進行幾個檢索字段的邏輯組合查詢,又可稱為邏輯檢索;專業(yè)檢索支持布爾檢索、相鄰檢索、截斷檢索、同字段檢索、同句檢索和位置檢索等全文檢索技術,專業(yè)檢索需用戶建立檢索表達式,非專業(yè)人士很難使用,但是查詢結果冗余少、命中率高,對于專業(yè)人士來說非常有用;二次檢索,在前一次檢索結果的范圍內繼續(xù)檢索,可以逐步縮小檢索范圍,簡化檢索表達式的書寫;導航檢索是指利用中圖法的分類體系,將各學科、各門類的知識分為專題的形式,按其屬性及相互從屬關系進行并行或樹狀排列,逐級展開。通過初級檢索、二次檢索和導航檢索的運用,完全可以滿足專業(yè)檢索表達式達到的檢索精度,這對于非專業(yè)人士尤為有用。
從表3中我們可以看到,5個數據庫的檢索方式稱謂互不相同。據筆者的了解,CPCD的檢索方式稱謂是正確的,萬方數據資源系統PACC的一般檢索包括了初級檢索和高級檢索,其所謂的高級檢索需要構造檢索式,稱為專業(yè)檢索更為合適;中心的普通檢索相當于萬方的一般檢索,但其高級檢索實際上屬于專業(yè)檢索。
筆者認為這幾個數據庫在檢索方式的稱謂上應該統一,特別是對于一般檢索、初級檢索、高級檢索、專業(yè)檢索這幾種檢索方式更應該弄清楚,否則會給用戶帶來不必要的麻煩。
查全率和查準率是評價和衡量數據庫檢索效果和功能的兩項重要技術指標與重要參數。查全率是指被檢出的相關文獻占總文獻內所有相關文獻的百分比,查準率是指被檢出的相關文獻占被檢出文獻總數的百分比,即:查全率=檢出的相關文獻/實有相關文獻,查準率=檢出的相關文獻/檢出的全部文獻。查全率是用來描述系統檢出文獻能力的一種尺度,查準率則是用來描述系統拒絕不相關文獻的能力或檢索精確度的一種尺度。
以“中心”為例,在作者項中輸入王平,并在結果記錄中進行二次檢索,在全文項中輸入作者的單位“重慶郵電學院郵政自動化研究所”,得到如下檢索結果:
查詢時間:0.918秒查詢結果:共找9條記錄10條/頁 第1頁序號 文獻標題 作者1 電子商務環(huán)境下物流配送車輛計劃調度系統的設計與實現 王平2 電子商務環(huán)境下物流配送車輛計劃調度系統的設計與實現 王平3 電子商務時代的郵政運輸路由規(guī)劃技術 王平4 郵政客戶服務中心的設計 王平5 電子商務環(huán)境下物流配送計劃調度專家系統的設計與實現 王平6 郵政車輛計劃調度系統的設計與實現 王平7 8敏捷制造模式下物流配送決策支持系統存儲過程在ASP/ADO中的應用王平王平9 存儲過程在ASP/ADO中的應用 王平
從以上的檢索實例可知,僅僅9條記錄,就有兩條存在重復現象,其中記錄1、2、5重復,8、9重復,影響了用戶的查準率。可見檢索工具的質量好壞對檢索用戶的檢索效率有直接影響。
從內容方面來說,為了保證查全率,應該選擇收錄量多、收錄年限長、更新頻率快的數據庫;要保證查準率,則應從文獻的學科范圍、收錄時間等考慮。如查找醫(yī)學會議論文最好在醫(yī)學專業(yè)會議論文數據庫CMAC中查找,查找1985年以前的會議論文必須在《國內專業(yè)會議資料數據庫》中檢索。還要注意數據庫的設計、同類數據庫的差異等,如PAPC不支持英文字符檢索,在全文項中輸入“PID”則返回0條記錄,其他的會議論文數據庫基本上都支持中英文字符檢索,而且CPCD還有中文簡體和中文繁體兩種檢索界面。
筆者在PACC中進行檢索時,選擇作者單位項,輸入作者的單位“重慶郵電學院郵政自動化研究所”時,檢索結果為0,這是因為結果記錄中沒有列出作者單位這一項。如前所述的“中心”,它與其他數據庫共用一個檢索界面,其檢索字段的設置是大眾型的,能夠揭示會議論文特征的檢索字段會議名稱、會議時間、會議地點等就沒有設置,而這又是會議論文所必須具有的。這兩個例子反映的問題是檢索字段要能揭示該檢索系統的文獻特征,不能夠太少,也并非越多越好,最好是選擇那些最能夠揭示文獻特征的檢索字段,而且檢索字段的選擇最好與其結果記錄列出的內容結合起來,即在結果顯示記錄中列出的題錄項才在檢索字段中顯示出來,這樣才不至于出現檢索系統中有需要的論文卻出現結果為0的情況。
目前國內的5個主要會議論文數據庫因其提供單位的不同,存在較為嚴重的內容重復、設計差異的問題,由此影響了檢索的查全率和查準率,給讀者的正常使用帶來了諸多不便。隨著互聯網的發(fā)展,會議論文數據庫的應用價值已經日益顯現,其發(fā)展水平也亟待提高。各大數據庫應從讀者的利益出發(fā),達成共識,分工協作,不斷提高兼容性,才能更好地為讀者提供優(yōu)質服務。
[1] 李偉華.因特網上會議文獻信息資源的分布與利用.情報探索,2010(1).
[2] 張元晶.依托TPI系統平臺構建會議論文全文特色數據庫.現代情報,2008(6).
[3] 宋如憶.科技信息檢索與利用.上海:同濟大學出版社,2003.
[4] 談鶴玲.論我國學術期刊數據庫的規(guī)范化建設.現代情報,2004(1).
[5]黃春燕,李玲.《中國期刊全文數據庫》KNS3.5的評價分析.圖書館建設,2003(3).
[6] 沈艷紅.信息檢索中檢索詞的選擇對查全率的影響.情報探索,2006(11).
[7] 李育嫦.文獻檢索中提高查全率與查準率的方法探討.圖書館學研究,2002(11):92-95.
[8]王桂枝,陳建青,顏世剛.《中國醫(yī)學學術會議論文數據庫——CMAC》的研制與服務.中華醫(yī)學圖書館雜志,2000(4).
[9] 王亮,郭一平.基于Web Service的異構數據庫檢索系統.大學圖書館學報,2004(1).
[10]韓紅等.清華同方(CNKI)與重慶維普(VIP)網絡版中文期刊全文數據庫的比較研究.現代圖書情報技術,2003(6).