張劍
摘 要 介紹CLUSTER技術(shù)的結(jié)構(gòu)和特點(diǎn)及在天生橋水力發(fā)電總廠信息管理系統(tǒng)應(yīng)用方案和配置。
關(guān)鍵詞 CLUSTER 備份 容錯(cuò)
中圖分類號(hào):TP3 文獻(xiàn)標(biāo)識(shí)碼:A
1 概述
天生橋水力發(fā)電總廠信息管理系統(tǒng)于1999年開始建設(shè)。為保證數(shù)據(jù)的安全性和提高數(shù)據(jù)庫效率以及方便數(shù)據(jù)的集中管理,天生橋水力發(fā)電總廠信息管理系統(tǒng)采用CLUSTER技術(shù)作為主要的數(shù)據(jù)管理基礎(chǔ)。本文對(duì)CLUSTER技術(shù)及在天生橋水力發(fā)電總廠信息管理系統(tǒng)應(yīng)用上作一介紹。
2 CLUSTER技術(shù)的特點(diǎn)及運(yùn)行機(jī)制
2.1 CLUSTER技術(shù)的特點(diǎn)
CLUSTER技術(shù)即集群技術(shù)是目前較為先進(jìn)的一種多機(jī)容錯(cuò)及性能提升技術(shù),它分別通過共享SCSI總線和共享內(nèi)存總線(memory channel)為用戶提供共享外部存儲(chǔ)設(shè)備和內(nèi)存資源的高可用環(huán)境。它比較以前單系統(tǒng)提供更大的應(yīng)用可用性,并且比SMP(對(duì)稱多處理)更具伸縮性,比雙機(jī)備份技術(shù)具有無須人工干預(yù),充分利用資源和數(shù)據(jù)備份及時(shí)等優(yōu)點(diǎn)。目前CLUSTER技術(shù)主要分為三種,即OPENVMS CLUSTER、WINDOWS NT CLUSTER和TRU64 UNIX CLUSTER。
COMPAQ 的TRUCLUSTER可以配置高速的內(nèi)存通道互連,提供近于SMP的速度,比傳統(tǒng)的網(wǎng)絡(luò)互連方式減少了100倍的信息時(shí)延。TRUCLUSTER具有分布式鎖管理(DLM)能力,DLM(Distributed Lock Manager)同步對(duì)共享信息的訪問,保證共享數(shù)據(jù)的完整性,為那些高度并行的應(yīng)用如OPS(ORACLE PARALLEL SERVER)提供服務(wù)。
COMPAQ 的TruCluster技術(shù)可以提供雙機(jī)并行工作方式,即由兩臺(tái)或多臺(tái)主機(jī)組成一個(gè)ASE系統(tǒng),各主機(jī)通過公共的SCSI總線連接共享的數(shù)據(jù)盤,每臺(tái)主機(jī)都有自己的本地操作系統(tǒng)和本地?cái)?shù)據(jù)庫系統(tǒng),共享盤上只存放應(yīng)用數(shù)據(jù)。正常情況下,每臺(tái)主機(jī)上的數(shù)據(jù)庫并行工作,通過分布式鎖管理對(duì)共享盤上的數(shù)據(jù)進(jìn)行I/O操作,系統(tǒng)管理員可以根據(jù)實(shí)際情況人為的將客戶分擔(dān)到每臺(tái)主機(jī),也可以在ASE中設(shè)置一個(gè)有公共IP地址的用戶自定義登錄服務(wù),把客戶對(duì)數(shù)據(jù)庫的操作平衡地分布在兩臺(tái)主機(jī)上以提高系統(tǒng)性能。
WINDOWS NT CLUSTER是基于磁盤共享的,不具備共享內(nèi)存通道,目前只有英文企業(yè)版WINDOWS NT支持。其它方面與TRUCLUSTER類似。
2.2 CLUSTER技術(shù)的運(yùn)行機(jī)制
主機(jī)之間組成一個(gè)ASE(Available Server Environments可用服務(wù)器環(huán)境),主機(jī)通過公共的SCSI總線來連接共享磁盤陣列,主機(jī)之間則通過網(wǎng)絡(luò)(ETHERNET,F(xiàn)DDI,ATM 等)傳遞信息。
兩臺(tái)主機(jī)各有自己的本地操作系統(tǒng),而將數(shù)據(jù)放在共享盤上??梢詫?duì)共享盤定義磁盤服務(wù),掛在一臺(tái)主機(jī)系統(tǒng)的目錄下,另一臺(tái)主機(jī)上看不到它并可以給ASE中盤服務(wù)設(shè)置一個(gè)IP地址,遠(yuǎn)端客戶可用這個(gè)公共的IP地址透明地訪問主機(jī)系統(tǒng),不需要知道自己連接的是哪臺(tái)主機(jī)。
當(dāng)共享盤所掛的主機(jī)發(fā)生故障時(shí),該節(jié)點(diǎn)所運(yùn)行的應(yīng)用軟件系統(tǒng)如數(shù)據(jù)庫系統(tǒng)等自動(dòng)被關(guān)閉,盤服務(wù)便切換到另一臺(tái)主機(jī)上,應(yīng)用軟件系統(tǒng)也重新啟動(dòng),客戶端只需重新連接即可。
ASE中的一臺(tái)主機(jī)始終處于熱后備狀態(tài),并可以運(yùn)行其他軟件。兩臺(tái)主機(jī)可以定義成互為備份模式,也可定義為負(fù)載均衡模式。
故障檢測(cè)方式是用“心跳”機(jī)制,通過多種途徑檢測(cè)節(jié)點(diǎn)是否死機(jī)。集群軟件能夠檢測(cè)應(yīng)用故障并采取相應(yīng)的恢復(fù)措施,它支持人工故障恢復(fù),支持故障節(jié)點(diǎn)重啟動(dòng)恢復(fù),可以定義故障節(jié)點(diǎn)故障恢復(fù)后自動(dòng)成為備份節(jié)點(diǎn)或主節(jié)點(diǎn),以接管故障前承擔(dān)的任務(wù)。
3配置經(jīng)驗(yàn)
(1)在安裝WINDOWS NT CLUSTER時(shí),必須在SCSI控制器自檢提示時(shí),按CTRL-A進(jìn)入配置菜單,將次卡的SCSI ID設(shè)置為7,總線終結(jié)方式設(shè)置為L(zhǎng)OW OFF/HIGH OFF,并關(guān)閉BUS RESET ON BOOT STATUS。同樣在另一臺(tái)上執(zhí)行此操作,把SCSI ID設(shè)置為6,總線終結(jié)方式設(shè)置為L(zhǎng)OW OFF/HIGH OFF,并關(guān)閉BUS RESET ON BOOT STATUS。否則不能正常啟動(dòng)。
(2)在安裝TRU64 UNIX CLUSTER時(shí),需要用戶對(duì)該系統(tǒng)指定其所屬ASE的ID;然后是對(duì)共享SCSI總線進(jìn)行編號(hào),編號(hào)主要是由于在ASE中要對(duì)共享的SCSI總線進(jìn)行統(tǒng)一管理,所以要求ASE的所有成員系統(tǒng)對(duì)這條SCSI總線的編號(hào)要一致,安裝程序給用戶提供的缺省編號(hào)是從16開始的,用戶在設(shè)置編號(hào)時(shí)注意編號(hào)一致。
參考文獻(xiàn)
[1] 劉玲霞,武兆雪,錢淵,夏靖波. Web服務(wù)容錯(cuò)技術(shù)研究 [J]. 計(jì)算機(jī)科學(xué),2009 (01).
[2] 張宇,林云. Veritas Cluster Server集群成員仲裁與數(shù)據(jù)保護(hù)研究 [J]. 數(shù)字技術(shù)與應(yīng)用,2011 (11).
[3] 李小群,張文君,潘遠(yuǎn)明,肖賀,郭亮,姜志穎. 基于RTEMS的軟件容錯(cuò)系統(tǒng)設(shè)計(jì)[J]. 計(jì)算機(jī)應(yīng)用研究,2009(03).