文/曾祥瑞
數(shù)圖吹響開源集結(jié)號(二)
文/曾祥瑞
編者按:華中科技大學(xué)數(shù)字圖書館體系的門戶系統(tǒng)和統(tǒng)一檢索平臺自刊登以來,受到讀者的廣泛關(guān)注。本欄目推薦其個性化服務(wù)系統(tǒng)、搜索引擎、單點登錄系統(tǒng)、目錄檢索平臺和文獻資源共享平臺,以供建設(shè)參考。
用戶尋求個性化服務(wù)
由于數(shù)字化信息的龐大和復(fù)雜多樣,每個用戶需求的個性化和多樣化,不同用戶的學(xué)科背景、閱覽習(xí)慣、性格偏好等方面的差異,導(dǎo)致所需要的資源和信息不同。滿足用戶個性化的需求,讓人們方便快捷地找到自己所需要的內(nèi)容,這正是個性化服務(wù)應(yīng)用系統(tǒng)模型要實現(xiàn)的目標。它以用戶為核心、以個性化選擇為界面的新型的圖書館信息資源搜集與表達方式,可根據(jù)用戶個性特征提供數(shù)字化信息服務(wù),對個人信息尋求行為進行分析,推送有用的信息,并據(jù)此有效組織資源,還可與用戶進行網(wǎng)上實時交流,提供優(yōu)質(zhì)服務(wù)。
提出MyLibrary系統(tǒng)
個性化服務(wù)應(yīng)用系統(tǒng)是信息門戶認證、Web OPAC服務(wù)、集成檢索和個性化服務(wù)的展示平臺。我們可以通過稱為MyLibrary的系統(tǒng)來實現(xiàn)具體的表現(xiàn)形式。
MyLibrary的提出和建立,是受到類似MyYahoo、MyAmazon等商業(yè)網(wǎng)站的個性化服務(wù)潮流的影響。MyLibrary建立的目的是想從圖書館的立場尋找一種個性化的視角,以解決信息過量和管理負擔(dān)過重的問題,并且提供比當(dāng)前商業(yè)站點具有更強的人工參與和指導(dǎo)的深層次服務(wù)。作為數(shù)字圖書館個性化服務(wù)的一個解決方案,最早建立MyLibrary的有美國北卡羅萊納州立大學(xué)、康奈爾大學(xué)、猶他大學(xué)、紐約大學(xué)等。另一個具有代表性的是MyLibrary@Cornell系統(tǒng),它基于ASP/CGI的Web三層結(jié)構(gòu)設(shè)計。
Mylibrary@HUST系統(tǒng)結(jié)構(gòu)
Mylibrary@HUST中的20多個模塊,可分多頁進行布置,用戶可以根據(jù)自己的需要和愛好,選擇各個風(fēng)格的布局及顏色。它與以往MyLibrary系統(tǒng)的最大區(qū)別在于,各個模塊用戶不僅可以根據(jù)需要進行內(nèi)容編輯處理,還可根據(jù)各自不同的需求選擇自己相關(guān)的模塊,頁面上無關(guān)的模塊可以像電源開關(guān)一樣自由開關(guān)。
系統(tǒng)可以根據(jù)用戶的需求和特征向他們提供經(jīng)過圖書館和系統(tǒng)挑選、推薦的上述信息,從而簡化用戶的信息尋求行為,同時用戶可以決定他們自己頁面的風(fēng)格和功能模塊,并對一些功能模塊中的內(nèi)容進行加工處理。
系統(tǒng)采用Microsoft .NET技術(shù)及架構(gòu)。選擇.NET框架的原因是它展示出了一個標準的.NET企業(yè)級應(yīng)用程序所應(yīng)該具有的特點?;诖碎_發(fā)的Mylibrary@HUST系統(tǒng)具有技術(shù)的前瞻性。
華中科技大學(xué)圖書館
通用的搜索引擎雖然功能強大,但對于具有很多子網(wǎng)站的企業(yè)門戶網(wǎng)站來說,搜索的響應(yīng)速度慢,索引范圍不全。而Lucene是一個強大的全文索引引擎工具包,可以快速地開發(fā)一個搜索引擎,且優(yōu)于通用搜索引擎。
Lucene的出現(xiàn),極大地推動了全文檢索技術(shù)在各個行業(yè)或領(lǐng)域中的深層次應(yīng)用。Lucene本身只是一個組件,而非一個完整的應(yīng)用,所以若想讓Lucene運行,還得在Lucene基礎(chǔ)上進行必要的二次開發(fā)。
特點
Lucene的特點是應(yīng)用范圍廣、開放源代碼、功能強大、有多種語言的版本、結(jié)構(gòu)很清晰,其7個程序“各司其職”:Search負責(zé)檢索,Index進行索引,Analysis是用來切詞的,QueryParser查詢分析,Document存儲結(jié)構(gòu)中數(shù)據(jù)的基本描述,Store實現(xiàn)底層I/O存儲結(jié)構(gòu),Util建立一些公用的數(shù)據(jù)結(jié)構(gòu)。Lucene的主要動作都采用了抽象類,擴展起來十分方便。相對于一些商業(yè)化全文檢索,Lucene的入庫速度更快,因為它的存儲采取分步合并的方法:先建立小索引,待時機成熟才把小索引合并到大索引樹上。因此,在操作應(yīng)用數(shù)據(jù)時可以同步進行全文檢索庫的操作而不會(或許很少)影響系統(tǒng)的效能。
數(shù)字圖書館中的海量信息,使人們在檢索信息時遇到很多問題,而專業(yè)搜索引擎并不能有效地揭示專業(yè)網(wǎng)站內(nèi)部信息;有的無域名專業(yè)網(wǎng)站或有限制的網(wǎng)站,也使專業(yè)搜索引擎無法收錄到信息,因而也就無法檢索。隨著各類圖書館門戶網(wǎng)站的推出,專業(yè)搜索引擎的受限制也更多,也就更加不能有效揭示圖書館專業(yè)網(wǎng)站內(nèi)容。
Lucene性能穩(wěn)定,使用簡單,而且開源免費,有Apache基金做支撐,資金和技術(shù)力量雄厚,這兩年一直穩(wěn)步更新。
在數(shù)字圖書館門戶系統(tǒng)的建設(shè)中,由于整合的資源來源廣,分屬于許多不同的認證系統(tǒng)中,統(tǒng)一認證就顯得很重要。當(dāng)前最重要的Web2.0應(yīng)用支持工具就是身份識別管理系統(tǒng),從微軟的Passport到Liberty,再到 Shibboleth。
對于統(tǒng)一認證,人們常用的方法是:IP限制、用戶名與密碼、匿名訪問、PKI/CA數(shù)字證書認證、時間段認證、訪問次數(shù)認證。這些方法都是把用戶的認證模塊放在資源提供方,這會加大資源提供方的負載。而Shibboleth是將論證模塊放在訪問者端,資源提供方只需從ORIGIN端獲取用戶的身份信息即可。
優(yōu)勢
Shibboleth能減少管理可訪問受保護資源的時間,共享機構(gòu)之間的數(shù)據(jù),管理大量賬戶;增加安全,基于SAML協(xié)議以相似標準解決方案間的互操作。
Shibboleth 被設(shè)計并部署到一個以瀏覽器為中心的世界中。Shibboleth 屬性服務(wù)可以用于更多的 Web 服務(wù)和面向應(yīng)用的部署。客戶機不僅僅是瀏覽器;它們包括 Web 服務(wù)客戶機,可以與跨管理域的應(yīng)用服務(wù)進行交互,這些應(yīng)用服務(wù)再回調(diào)客戶機的Shibboleth 服務(wù),從而獲取可用于訪問控制授權(quán)需求的屬性。它會充分利用 Shibboleth已經(jīng)開展的工作,并將它們呈現(xiàn)在一個基于 Web 服務(wù)的社區(qū)中。
Shibboleth認證系統(tǒng)允許用戶安全地從一個網(wǎng)站跳到另一個網(wǎng)站,而只需登錄一次就可以了。這樣的系統(tǒng)可以保護用戶的隱私、網(wǎng)上交易以及提供網(wǎng)上服務(wù)的其他機構(gòu)。它是大學(xué)與研究機構(gòu)使用的一種開放標準的用戶身份聯(lián)合認證系統(tǒng),是下一代互聯(lián)網(wǎng)計劃的一部分。
應(yīng)用
現(xiàn)在全世界有500多家網(wǎng)站都在使用Shibboleth系統(tǒng),其中包括美國、澳大利亞、比利時、英國、芬蘭、丹麥、德國、瑞士、荷蘭以及中國的教育系統(tǒng)。
在具體應(yīng)用中,Shibboleth可用于大型門戶系統(tǒng)和聯(lián)盟系統(tǒng)。從國內(nèi)外SSO建設(shè)的現(xiàn)狀以及開發(fā)認證系統(tǒng)的實踐來看,Shibboleth正成為研究應(yīng)用的重點,它為用戶共享網(wǎng)上信息資源服務(wù)提供了技術(shù)支撐,使項目的建設(shè)更趨完善。采用Shibboleth進行統(tǒng)一身份認證,成為數(shù)字圖書館SSO的技術(shù)方案的主要選擇。
Z39.50協(xié)議是一個基于C/S結(jié)構(gòu)的網(wǎng)絡(luò)應(yīng)用層協(xié)議,它通過對編碼方式和內(nèi)容語義的標準化來實現(xiàn)不同系統(tǒng)間的互操作。Z39.50協(xié)議數(shù)據(jù)單元通過ASN.1進行定義,并以基本編碼方式(BER)對ASN.1序列化,它屏蔽了數(shù)據(jù)庫間的異構(gòu)性,與軟硬件平臺、數(shù)據(jù)庫接口及查詢語言無關(guān)。Z39.50是一個信息界廣泛接受的標準協(xié)議。
但Z39.50是一個龐大復(fù)雜的標準,實現(xiàn)起來比較困難;而且Z39.50要求各數(shù)據(jù)庫在字段級別實現(xiàn)統(tǒng)一,靈活性差。Z39.550是基于TCP/IP的底層協(xié)議,傳輸層協(xié)議基于TCP/UDP的編程,不提供HTTP的支持,不能在WWW 上實現(xiàn)。
ZING(Z39.50 International Next Generation)是Z39.50的改進版,提供了互操作基于HTTP實現(xiàn)的Web支持。
基于API的網(wǎng)絡(luò)服務(wù)(Web Servicesbased APIs)的xISBN、thingISBN、Open Library API、DLF ILS DI Technical Recommendation、SRU和OpenSearch、OAIPMH和OAI-ORE、RSS和Atom等都可以被稱為Web Services應(yīng)用編程接口(API)。API是計算機與計算機之間交互應(yīng)用,能夠明確地共享數(shù)據(jù),圖書館界發(fā)明的Z39.50是一種典型示范。
特點
利用 Z39.50 API(YAZ Z39.50 toolkit工具包)開發(fā)Z39.50客戶端系統(tǒng),能夠?qū)崿F(xiàn)Z39.50客戶端所要達到的一般功能,它簡單易用、靈活方便、快捷高效、無需非常專業(yè)的Z39.50協(xié)議知識,這些都降低了開發(fā)的難度,縮減了開發(fā)時間,增大了開發(fā)的可行性。此外,這種基于YAZ工具包開發(fā)實現(xiàn)Z39.50系統(tǒng)的技術(shù),實現(xiàn)了與應(yīng)用系統(tǒng)的無縫集成,將極大地推動Z39.50協(xié)議在其他更廣泛領(lǐng)域的應(yīng)用。
我們構(gòu)造了能利用國內(nèi)外開放Z39.50接口的圖書館圖書目錄綜合搜索,已經(jīng)可以檢索的對象圖書館達到了上百家。
內(nèi)涵
域內(nèi)資源整合系統(tǒng)(Domain Resource Integration System,簡稱DRIS)是一種分層的分布式互聯(lián)網(wǎng)信息檢索系統(tǒng),提供了從底層到應(yīng)用層的一整套互聯(lián)網(wǎng)信息資源整合利用方案。
我們在組織級別上建立了一種可以整合各個單位內(nèi)部各類文獻資源的異構(gòu)資源統(tǒng)一檢索平臺,在此基礎(chǔ)上,“域內(nèi)資源整合系統(tǒng)”也提供了一套完整的單位組織間的信息資源協(xié)調(diào)管理和共享方案,然后將其進一步擴展成對整個互聯(lián)網(wǎng)信息管理系統(tǒng)基礎(chǔ)結(jié)構(gòu)的研究,為實現(xiàn)數(shù)字圖書館的基本定義“下一代互聯(lián)網(wǎng)的信息管理模式”進行積極探索。
結(jié)構(gòu)
DRIS采用和DNS系統(tǒng)類似的基本體系結(jié)構(gòu),是一個分層的信息資源管理系統(tǒng)。DRIS能夠?qū)⒒ヂ?lián)網(wǎng)分為獨立的模塊“域(Domain)”,每個域內(nèi)建立一個信息中心節(jié)點,將本域內(nèi)的所有信息資源進行索引。
以CERNET為例,具體如下所述:
1. 第三層:校內(nèi)資源整合。DRIS的第三層即三級域一般對應(yīng)于某個組織,而在我們的試驗系統(tǒng)內(nèi)(CERNET)則對應(yīng)于不同的大學(xué)。此層的DRIS服務(wù)器將建立可以整合一個校園網(wǎng)內(nèi)所有資源的檢索平臺。
2. 第二層:校際資源整合。DRIS的第二層一般對應(yīng)于各個主干網(wǎng),這里討論包括國內(nèi)所有大學(xué)的CERNET。目前各個高校之間的信息資源共享整合一直沒有一個很好的解決方案,而此層的DRIS服務(wù)器則恰恰可以解決此問題。
3. 第一層:國內(nèi)Internet資源整合。DRIS作為文獻資源共享整合平臺的應(yīng)用方法,被應(yīng)用于湖北省科技文獻共享平臺的建設(shè)中,整合了湖北省內(nèi)8所重點大學(xué)的教育資源,取得了很好的效果。
利用開源軟件來架構(gòu)數(shù)字圖書館的體系結(jié)構(gòu),有其簡單通用、容易推廣的一面,但是要真正推廣開源軟件的應(yīng)用還是受到一些因素的制約:1.信息的共享方面,人們受到觀念、體制的限制;2.在信息的利用上,圖書館內(nèi)部人員受技術(shù)水平和機制的制約;3.信息的傳播方面,又有知識產(chǎn)權(quán)等困擾;4.相關(guān)廠商并沒有積極的意愿,一方面是開源軟件的利用還只是有益于建設(shè)方,而對他們的利益造成了沖擊,另一方面,圖書館的獨立性增強,對數(shù)字圖書館的開發(fā)商來說,失去了一些技術(shù)優(yōu)勢。因此,圖書館必須充實信息技術(shù)人員,并讓其牢固掌握業(yè)務(wù)知識,這樣才能使有用的開源軟件得到更好的利用。
(作者單位為華中科技大學(xué)圖書館)
曙光龍芯刀片服務(wù)器贈玉樹
本刊訊 4月23日,曙光推出了具有完全自主化的服務(wù)器產(chǎn)品——龍芯刀片服務(wù)器及云計算產(chǎn)品。
龍芯刀片服務(wù)器產(chǎn)品不僅具有安全、綠色、高效節(jié)能等特性,而且具有通用性的CPU和OS,可以無縫平滑地運行X86 CPU和LinuxOS上的應(yīng)用程序。其中,曙光龍芯刀片服務(wù)器的主板由曙光公司設(shè)計,CPU則采用中國獨立自主研制的LoongSon3ACPU,BIOS采用曙光基于PMON的二次獨立開發(fā)的曙光龍芯BIOS,操作系統(tǒng)采用紅旗公司的Red Flag Linux。總而言之,它是一款包括基礎(chǔ)架構(gòu)、通用處理器和操作系統(tǒng)軟件都具有完全自主知識產(chǎn)權(quán)的服務(wù)器產(chǎn)品。
在發(fā)布會上,曙光總裁歷軍宣布,將首次實現(xiàn)全線自主化目標的曙光龍芯刀片服務(wù)器作為賑災(zāi)物資捐獻給玉樹災(zāi)區(qū)。他說:“曙光成立15年來,一直堅持自主創(chuàng)新與民族責(zé)任感的融合。作為有民族責(zé)任感的高科技企業(yè),我們愿意用實際行動支持玉樹災(zāi)區(qū)群眾抗震救災(zāi)。今天曙光向玉樹地震災(zāi)區(qū)捐贈龍芯刀片服務(wù)器,就是希望災(zāi)區(qū)的信息化平臺能夠盡快恢復(fù),為災(zāi)后重建貢獻一個民族企業(yè)應(yīng)盡的社會責(zé)任?!?/p>