范江波
(西南財(cái)經(jīng)大學(xué)信息與教育技術(shù)中心,四川 成都611130)
基于O racle EM的數(shù)據(jù)中心云服務(wù)監(jiān)控與管理體系研究與實(shí)踐
范江波
(西南財(cái)經(jīng)大學(xué)信息與教育技術(shù)中心,四川 成都611130)
數(shù)據(jù)中心云服務(wù)的監(jiān)控與管理技術(shù)的研究成為云計(jì)算相關(guān)領(lǐng)域內(nèi)的重點(diǎn)。該環(huán)境下的監(jiān)控平臺具有其自身的特殊性,數(shù)量龐大的集群設(shè)備、動態(tài)增長的管理規(guī)模、多樣化的監(jiān)控對象、高可靠性的性能要求,這些應(yīng)用需求都對數(shù)據(jù)中心監(jiān)控系統(tǒng)的設(shè)計(jì)開發(fā)提出了嚴(yán)峻挑戰(zhàn)。本文將以O(shè) racle EM為基礎(chǔ)構(gòu)建智慧校園云數(shù)據(jù)中心監(jiān)控體系提出研究實(shí)踐和探討。
智慧校園;數(shù)據(jù)中心;云服務(wù);自助服務(wù);監(jiān)控與管理
智慧校園的建設(shè)是教育信息化的重要組成部分,也是衡量教育現(xiàn)代化程度的重要標(biāo)志,近年來智慧校園建設(shè)已經(jīng)得到了人們的極大關(guān)注,同時(shí)隨著云計(jì)算技術(shù)的快速發(fā)展,智慧校園各項(xiàng)應(yīng)用對基礎(chǔ)信息服務(wù)的依賴程度更加緊密,資源共享程度要求更高,數(shù)據(jù)中心作為云計(jì)算技術(shù)的基礎(chǔ)設(shè)施,受到越來越多的重視,數(shù)據(jù)中心監(jiān)控技術(shù)的研究也成為云計(jì)算相關(guān)領(lǐng)域內(nèi)的重點(diǎn)。該環(huán)境下的監(jiān)控平臺具有其自身的特殊性,數(shù)量龐大的集群設(shè)備,動態(tài)增長的管理規(guī)模,多樣化的監(jiān)控對象,高可靠性的性能要求,這些應(yīng)用需求都對數(shù)據(jù)中心監(jiān)控系統(tǒng)的設(shè)計(jì)開發(fā)提出了嚴(yán)峻挑戰(zhàn)。因而對數(shù)據(jù)中心的各類資源如何有效實(shí)時(shí)監(jiān)控(服務(wù)器運(yùn)行狀態(tài)、異構(gòu)數(shù)據(jù)庫的健康以及各類應(yīng)用服務(wù)的狀態(tài)監(jiān)控)成為云平臺非常重要的工作。高效實(shí)時(shí)的云監(jiān)控可以保障智慧校園數(shù)據(jù)中心各項(xiàng)服務(wù)的穩(wěn)定,提高服務(wù)的可用性。保證監(jiān)控的實(shí)時(shí)性和高效性。本文將以O(shè)racle EM為基礎(chǔ)構(gòu)建智慧校園云數(shù)據(jù)中心監(jiān)控體系提出研究實(shí)踐和探討。
1.云計(jì)算現(xiàn)狀
云計(jì)算的本質(zhì)到底是什么,目前還沒有一個(gè)公認(rèn)的權(quán)威的定義,各家公司和研究機(jī)構(gòu)也都有著自己的認(rèn)知。IBM公司認(rèn)為,云計(jì)算就是“未來的服務(wù)器”,虛擬服務(wù)器將是最主要的賣點(diǎn);AMAZON公司也有IBM著同相似的觀點(diǎn),他們認(rèn)為云計(jì)算就是以通過互聯(lián)網(wǎng)為媒介,租售虛擬服務(wù)器即基礎(chǔ)架構(gòu);Google公司則更關(guān)注通過云端為終端用戶提供在線文檔編輯、個(gè)人資料存儲等服務(wù)。
可見對于云計(jì)算的討論和思考可以稱得上百家爭鳴。各家都從不同的角度發(fā)現(xiàn)了云計(jì)算應(yīng)用的廣闊前景。但是本質(zhì)上講,云就是用戶可以隨時(shí)訪問和處理云端信息,便捷地使用在云端上大量資源的資源管理和分配模式。這己經(jīng)在業(yè)界形成廣泛共識。根據(jù)美國國家標(biāo)準(zhǔn)和技術(shù)研究院的研宄結(jié)果,全世界己經(jīng)公認(rèn)云計(jì)算具有三種服務(wù)模式:
(1)Ia aS基礎(chǔ)架構(gòu)即服務(wù)。用戶可以定制和使用“基礎(chǔ)硬件資源”,掌握“虛擬服務(wù)器”的操作系統(tǒng)和存儲空間,部署定制化的應(yīng)用程序和軟件系統(tǒng),而不需要關(guān)注云基礎(chǔ)架構(gòu)。在今天眾多的案例中、是典型的商業(yè)實(shí)現(xiàn)。
(2)PaaS平臺即服務(wù)。這種服務(wù)模式起源于搜索引擎系統(tǒng)采用的平臺架構(gòu),用戶享有完整的軟件開發(fā)運(yùn)行環(huán)境,可在此基礎(chǔ)上開發(fā)和托管用戶代碼,發(fā)布和運(yùn)行軟件系統(tǒng)。這個(gè)過程中,用戶無需完全掌控操作系統(tǒng)、硬件平臺以及網(wǎng)絡(luò)部署架構(gòu)。
(3)Saa S軟件即服務(wù)。在此服務(wù)模式中,用戶完全不需要了解操作系統(tǒng)、硬件設(shè)備和基礎(chǔ)網(wǎng)絡(luò)架構(gòu),通過互聯(lián)網(wǎng)即可直接操作和使用某項(xiàng)軟件服務(wù),最大限度、最方便地構(gòu)建IT信息化平臺。
2.云計(jì)算對數(shù)據(jù)中心現(xiàn)實(shí)需求
云計(jì)算本身的優(yōu)勢是顯而易見的,云服務(wù)提供商通過在特定的地區(qū)建立超大規(guī)模的商業(yè)數(shù)據(jù)中心,綜合運(yùn)用虛擬化、分布式計(jì)算、網(wǎng)格計(jì)算等前沿計(jì)算機(jī)技術(shù),集中部署大量的計(jì)算和存儲資源,對外提供高性能、高可用的服務(wù),實(shí)現(xiàn)相對低成本的信息系統(tǒng)管理、分配和計(jì)費(fèi)。這種商業(yè)模式可以帶來巨大的規(guī)模效應(yīng),強(qiáng)大的資源分配能力,高可伸縮性、高可靠性、高通用性、廉價(jià)的IT服務(wù)產(chǎn)品?;A(chǔ)設(shè)施是云計(jì)算最重要的物理載體,而基礎(chǔ)設(shè)施最終是通過云數(shù)據(jù)中心數(shù)以萬計(jì)的服務(wù)器、交換機(jī)以及配套設(shè)備實(shí)現(xiàn)的。然而數(shù)據(jù)中心業(yè)務(wù)數(shù)據(jù)迅速增長,應(yīng)用系統(tǒng)正變得日益龐大與復(fù)雜,由此面臨一系列運(yùn)維管理方面的挑戰(zhàn):
(1)服務(wù)器、存儲、網(wǎng)絡(luò)設(shè)備、軟件規(guī)模增長迅速,尤其隨著Oracle數(shù)據(jù)庫一體機(jī)的引入,對于軟硬件及網(wǎng)絡(luò)設(shè)備集中、統(tǒng)一、一致的IT運(yùn)維管理成為必需;
(2)IT基礎(chǔ)架構(gòu)設(shè)備及技術(shù)的頻繁升級和更新對人員的層次要求越來越高,也造成了人力成本上升并帶來了管理風(fēng)險(xiǎn);
(3)應(yīng)用架構(gòu)(包括關(guān)聯(lián)性)越來越復(fù)雜,出現(xiàn)應(yīng)用群的概念,多個(gè)應(yīng)用之間協(xié)調(diào)完成復(fù)雜交易。從而,對交易的追蹤與管理變得越來越困難;
(4)應(yīng)用的復(fù)雜帶來基礎(chǔ)架構(gòu)性能保障的風(fēng)險(xiǎn),IT運(yùn)維部門面臨持續(xù)優(yōu)化提高基礎(chǔ)架構(gòu)性能、保障業(yè)務(wù)高可用性的壓力;
(5)新應(yīng)用低下的測試效率和應(yīng)用質(zhì)量會將企業(yè)投資置于風(fēng)險(xiǎn)之中,保障應(yīng)用質(zhì)量對維持業(yè)務(wù)敏捷性、保證服務(wù)質(zhì)量、降低總體成本與風(fēng)險(xiǎn)變得異常重要,成為IT部門的新命題;
(6)云數(shù)據(jù)中心是IT基礎(chǔ)架構(gòu)的發(fā)展方向,大多數(shù)IT組織開始在企業(yè)內(nèi)部數(shù)據(jù)中心應(yīng)用云計(jì)算,無論是更快地供應(yīng)、按需訪問、基于策略的靈活資源調(diào)度,還是按規(guī)則收費(fèi)以保證商務(wù)結(jié)算和對環(huán)境的更好控制,IT部門都必須從被動式反應(yīng)轉(zhuǎn)型到主動和預(yù)防式管理上來。
面對以上挑戰(zhàn),通過使用Oracle基礎(chǔ)架構(gòu)運(yùn)維管理技術(shù)軟件和其在IT運(yùn)維管理領(lǐng)域的豐富項(xiàng)目經(jīng)驗(yàn),結(jié)合現(xiàn)有的IT運(yùn)維體系流程,建立一體化的運(yùn)維管理框架,實(shí)行業(yè)務(wù)和技術(shù)管理創(chuàng)新,對于降低IT運(yùn)維管理風(fēng)險(xiǎn),提高業(yè)務(wù)用戶的滿意度,保障基礎(chǔ)架構(gòu)高可用性等方面有著緊迫和重要的戰(zhàn)略意義。
由于我校在十二五期間進(jìn)行了基于Oracle項(xiàng)目的人事系統(tǒng)和校園一體化建設(shè),作為基礎(chǔ),結(jié)合OracleEM,使之成為我們建設(shè)和管理成為可能和高效的手段。
1.O racle EM的特點(diǎn)
Oracle Enterprise Manager(Oracle企業(yè)管理器,簡稱OEM)是Oracle公司的集成企業(yè)信息技術(shù)管理產(chǎn)品線,它提供了業(yè)界唯一的完整、集成和企業(yè)的云管理解決方案。OEM通過利用內(nèi)置的管理功能,為傳統(tǒng)和云環(huán)境,實(shí)現(xiàn)前所未有的效率收益,同時(shí)大幅提高服務(wù)水平,創(chuàng)造價(jià)值。
OEM是通過一組Oracle程序,為管理分布式環(huán)境提供了管理服務(wù)。OEM包括了一組DBA工具,一個(gè)repository,以及一個(gè)圖形化顯示的控制臺。OEM控制臺與每一個(gè)服務(wù)器上的智能化代理(IntelligentAgent)相對應(yīng)。
智能化代理能夠監(jiān)控系統(tǒng)的特定事件并且執(zhí)行任務(wù)(作業(yè))就像你在系統(tǒng)本地一樣。事件和作業(yè)的結(jié)果會被送回控制臺,這樣可以在一個(gè)地方管理所有的系統(tǒng)。Oracle的Oracle Enterprise Manager Cloud Control 13c應(yīng)用技術(shù)。Oracle的企業(yè)管理器在經(jīng)歷了多個(gè)版本的發(fā)展后,企業(yè)管理器的功能更加完善、穩(wěn)定,支持更多的平臺和版本,配置越來越健全,主流瀏覽器基本通過認(rèn)證。在EM13c中,Oracle提供了更加完善的一體化云管理解決方案??梢灶A(yù)見,Oracle的企業(yè)管理器必然會在數(shù)據(jù)庫管理和監(jiān)控方面成為優(yōu)先選擇。該系統(tǒng)架構(gòu)如圖1所示。
圖1 系統(tǒng)結(jié)構(gòu)
2.O racle EM的部署
本文的建設(shè)是基于REDHAT AS6.4操作系統(tǒng),采用雙機(jī)備份的模式,數(shù)據(jù)庫采用的Oracle12C12.1.0.2.0,EM為OracleEnterpriseManagerCloud Control13c Release 1(13.1.0.0)。具體安裝部署可以參看Oracle官方的標(biāo)準(zhǔn)文檔。部署完成后的結(jié)果如圖2所示。
安裝完成后對系統(tǒng)進(jìn)行初始參數(shù)配置后即可開始正常服務(wù),系統(tǒng)參數(shù)配置圖如圖3所示。
OEM涉及框架和基礎(chǔ)設(shè)施,企業(yè)監(jiān)控和事件管理功能、數(shù)據(jù)庫管理、中間件管理、硬件和虛擬化管理、異構(gòu)(非Oracle產(chǎn)品)管理、云管理、混合云管理、生命周期管理、配置管理、大數(shù)據(jù)設(shè)備管理、信息服務(wù)交互測試和查詢、應(yīng)用績效管理,應(yīng)用質(zhì)量管理等功能服務(wù)。下面主要從如下幾個(gè)主要功能應(yīng)用做出介紹。
圖2 安裝部署結(jié)果圖
圖3 系統(tǒng)參數(shù)配置圖
1.對數(shù)據(jù)庫的云監(jiān)控與管理
Oracle EM實(shí)現(xiàn)了無人值守式監(jiān)控IT環(huán)境。通過一系列有關(guān)性能與健康指標(biāo)監(jiān)控IT關(guān)鍵組件,例如應(yīng)用、應(yīng)用服務(wù)器、數(shù)據(jù)庫,以及他們所依賴的后臺組件。另外OEM與ServerManagerMotif相比,有以下優(yōu)點(diǎn):
(1)從適用范圍看:OEM可以同時(shí)監(jiān)控管理多個(gè)系統(tǒng)上的多個(gè)數(shù)據(jù)庫,因而特別適合分布式環(huán)境;而ServerManager只能監(jiān)控管理一個(gè)數(shù)據(jù)庫。
(2)從管理對象看:OEM可以監(jiān)控管理節(jié)點(diǎn),數(shù)據(jù)庫和監(jiān)聽進(jìn)程(listener),而ServerManager只能監(jiān)控?cái)?shù)據(jù)庫。
(3)從適用版本看:OEM可以同時(shí)監(jiān)控管理Oracle7.x 和8.x,而從8版開始,ServerManager已不存在。
OEM數(shù)據(jù)庫工具組是一組使DBA能夠通過GUI界面管理Oracle數(shù)據(jù)庫的工具。包括以下工具:
DataManager(數(shù)據(jù)管理器):這工具使你能夠象加載數(shù)據(jù)一樣執(zhí)行數(shù)據(jù)的export/import。
SchemaManager:這工具使你能夠在數(shù)據(jù)庫中管理對象。可以用于創(chuàng)建,修改,和刪除tables,indexes,views, snapshots,sequences等。
SecurityManager(安全性管理器):這工具使你能夠管理用戶、角色、權(quán)限及profiles。
StorageManager(存儲管理器):這工具允許你創(chuàng)建和修改表空間、數(shù)據(jù)文件和回滾段。
InstanceManager(實(shí)例管理器):這工具允許你關(guān)閉、啟動實(shí)例并且存儲和管理數(shù)據(jù)庫參數(shù)。
SQL*Worksheet:這工具使你能夠運(yùn)行或創(chuàng)造SQL腳本并且存儲在硬盤上。你能使用這工具重現(xiàn)最后執(zhí)行的語句;同時(shí),檢查顯示到屏幕上的執(zhí)行結(jié)果。
BackupManager(備份管理器):這工具允許你管理備份和恢復(fù)為Oracle7和Oracle8數(shù)據(jù)庫。在Oracle7此工具支持EnterpriseBackupUtility(EBU),在Oracle8此工具支持恢復(fù)管理器RecoveryManager。
SoftwareManager(軟件管理器):這允許你將遠(yuǎn)程軟件安裝到支持這一特性的遠(yuǎn)程服務(wù)器。
監(jiān)控?cái)?shù)據(jù)集中存放在存儲庫中,管理員可以利用豐富的圖表診斷故障并分析趨勢。一旦檢測到告警,將發(fā)送各種通知給管理員以快速解決問題。
缺省地,EM提供以下能力:
1)符合Oralce最佳實(shí)踐的監(jiān)控指標(biāo)與閥值設(shè)置,包括客戶化指標(biāo);同時(shí)支持監(jiān)控模版。
2)基線設(shè)置與更正行動。
3)監(jiān)控所有IT基礎(chǔ)(Oracle的或非Oracle的),包括應(yīng)用與服務(wù)。
4)實(shí)時(shí)訪問各種性能圖表。
5)收集、保存、匯總各種指標(biāo)數(shù)據(jù)。這使得你可以執(zhí)行戰(zhàn)略性分析,例如趨勢分析與報(bào)表。
6)對檢測到的緊急事件提供各種通知能力。
2.意外事件處理機(jī)制
Oracle EM利用集中式直觀的“意外事件管理器”簡化故障管理復(fù)雜性。EM將所有通過指標(biāo)閥值等觸發(fā)的事件稱之為“事件”。EM的事件類型包括:目標(biāo)可用性、基于指標(biāo)閥值的告警、作業(yè)狀態(tài)的變化、合規(guī)性沖突、高可用檢測、服務(wù)等級告警等等。
在此基礎(chǔ)上,將有意義的“事件”或重大的“事件”整合為“意外事件”或“故障”。一般地,管理員只需要專注于“意外事件”,而避免陷入大量無意義的“事件”中,從而大幅降低工作復(fù)雜度與工作量。意外事件管理器使你可以查找、查看、管理、并解決故障,同時(shí)提供了指導(dǎo)解決方案,加速問題處理。意外事件管理器:意外事件的觸發(fā)條件由規(guī)則/規(guī)則集控制。規(guī)則定義了什么情況下、什么時(shí)候、向誰發(fā)送通知。規(guī)則集則是規(guī)則的集合,可以為一組目標(biāo)(例如主機(jī)、數(shù)據(jù)庫、組等)采取合適的行動以自動化事件的流程處理。Oracle EM具有整套的意外事件處理機(jī)制,可以跟蹤它的完整生命周期:
1)分派異常事件的所有者;
2)跟蹤異常事件處理狀態(tài);
3)設(shè)置異常事件優(yōu)先級;
4)設(shè)置異常事件的升級;
5)提供定制的匯總視圖;
6)提供注釋;
7)提供壓縮和解壓能力;
8)提供手動清除異常事件能力;
9)提供創(chuàng)建ticket能力。
OracleEM云服務(wù)如圖4所示
圖4 OracleEM云服務(wù)圖
云的概念中有兩條重要的標(biāo)準(zhǔn):按需獲得服務(wù);自助服務(wù)。在云服務(wù)里最終服務(wù)的都是我們的最終用戶。OracleEM13c最顯著的好處就是可以讓標(biāo)準(zhǔn)的數(shù)據(jù)庫平臺部署和中間件平臺部署,從管理員驅(qū)動的形式向最終用戶驅(qū)動的形式轉(zhuǎn)變。OracleEM13c可以讓我們完成以下工作。
(1)池化資源;
(2)標(biāo)準(zhǔn)化和自動化部署流程;
(3)發(fā)布模板和服務(wù)目錄;
(4)設(shè)置基于角色的訪問控制和授權(quán);
(5)設(shè)置限制過度消費(fèi)資源的配額;
(6)建立升級、降級和回收的策略;
(7)建立測量手段,使按資源消耗收費(fèi)成為可能;
(8)通過BI進(jìn)行報(bào)表分析和數(shù)據(jù)挖掘。
配置好云端的參數(shù)和路徑如圖5所示。
圖5 配置好云端的參數(shù)和路徑
每個(gè)云服務(wù)資源均按如圖6所示的進(jìn)行配置,即可提供給用戶進(jìn)行自助服務(wù)。
圖6 云服務(wù)資源配置
從目前來看,智慧校園的建設(shè)管理對教育信息化的發(fā)展具有相當(dāng)重要的作用,要根據(jù)學(xué)校的總體發(fā)展,統(tǒng)籌規(guī)劃、逐步實(shí)施、通力合作,使智慧校園的建設(shè)日趨完善。
通過對云服務(wù)管理和監(jiān)控平臺的建設(shè),初步達(dá)到了高可用性原則、由于該系統(tǒng)承擔(dān)著對整個(gè)系統(tǒng)的統(tǒng)一管理和監(jiān)控,一旦出現(xiàn)系統(tǒng)崩潰造成數(shù)據(jù)丟失或者暫停服務(wù),都會給學(xué)校帶來不可估量的損失,因此,在建設(shè)該云管理和監(jiān)控平臺的同時(shí),一定要考慮管理和監(jiān)控系統(tǒng)本身的高可用性原則、一體化管理原則和易用性和管理原則,監(jiān)控系統(tǒng)一定要支持雙機(jī)備份能力,當(dāng)主管理機(jī)器出現(xiàn)故障,備份機(jī)器能及時(shí)接管,確保云資源數(shù)據(jù)不被丟失,同時(shí)也不會造成暫停服務(wù)的狀況。所有的管理和監(jiān)控在統(tǒng)一的監(jiān)控平臺上進(jìn)行管理和監(jiān)控,操作人員在該平臺,可以直觀地管理被管理目標(biāo),集中監(jiān)控各管理單元的各項(xiàng)指標(biāo),系統(tǒng)應(yīng)能提供統(tǒng)一視圖,讓操作人員可以從上而下,到相應(yīng)的管理單元進(jìn)行細(xì)化管理。同時(shí)通過統(tǒng)一視圖,可以直觀展現(xiàn)各個(gè)管理單元之間的邏輯關(guān)系,便于管理者有序地對各管理單元進(jìn)行管理。監(jiān)控管理平臺管理終端要求采用中文圖示化管理界面,最好能提供多國語言支持,可以提供滿足需求的不同時(shí)間尺度的分析圖表,并能夠提供各個(gè)角色的訪問權(quán)限管理,為不同角色的操作人員提供不同的管理視圖。
通過上述對數(shù)據(jù)中心資源的云服務(wù)監(jiān)控與主動管理的摸索與實(shí)踐,為高校智慧校園的建設(shè)和管理打下堅(jiān)實(shí)的基礎(chǔ)。
[1]饒冰,裴征峰,高文博.O racle云管理平臺企業(yè)管理器12c實(shí)戰(zhàn)指南[M].北京:清華大學(xué)出版社,2013.
[2][OL].https://docs.oracle.com/cd/E63000_01/.
[3][OL].http://www.oracle.com/technetwork/indexes/ downloads/index.htm l#em
(編輯:楊馥紅)
TP315
:B
:1673-8454(2016)15-0063-04