張國晶
【摘要】 民航氣象數(shù)據(jù)庫系統(tǒng)是依托民航 ATM 網(wǎng)絡(luò)建設(shè)的以華北空管局氣象中心為主節(jié)點(diǎn)數(shù)據(jù)庫,華東、中南、西南、西北、東北、新疆地區(qū)氣象中心為分節(jié)點(diǎn)數(shù)據(jù)庫的星形民航氣象情報(bào)廣域網(wǎng)數(shù)據(jù)庫系統(tǒng),該數(shù)據(jù)庫系統(tǒng)是民航氣象業(yè)務(wù)的核心系統(tǒng),承擔(dān)著全系統(tǒng)的資料收集、情報(bào)交換、預(yù)報(bào)平臺(tái)、服務(wù)支持等重要任務(wù)。本文從日常工作中幾個(gè)故障入手,給出故障的分析過程以及處理過程,以方便維護(hù)人員在遇到類似問題時(shí)能夠及時(shí)做出準(zhǔn)確的排查。
【關(guān)鍵詞】 民航氣象數(shù)據(jù)庫系統(tǒng) 通信分系統(tǒng)
一、引言
民航氣象數(shù)據(jù)庫是航空氣象領(lǐng)域的數(shù)據(jù)庫系統(tǒng),它是集氣象資料處理、通信傳輸和信息服務(wù)為一體的數(shù)據(jù)庫應(yīng)用系統(tǒng)。它的主要功能是收集全國各地機(jī)場的氣象情報(bào)并進(jìn)行交換,它的主要功能是對(duì)民航各機(jī)場的氣象情報(bào)進(jìn)行收集和交換,對(duì)全球的氣象數(shù)據(jù)進(jìn)行組織和管理,提供統(tǒng)一的數(shù)據(jù)接口,開放式的數(shù)據(jù)訪問,對(duì)海量的氣象數(shù)據(jù)進(jìn)行快速檢索和有效存儲(chǔ),具有靈活授權(quán)、高度共享、分布訪問、安全可靠等特點(diǎn)。它把系統(tǒng)所收集的大量氣象數(shù)據(jù)資料按照一定的結(jié)構(gòu)組織起來,并通過給用戶提供數(shù)據(jù)維護(hù)、存儲(chǔ)、檢索等功能, 使氣象信息系統(tǒng)可以方便、及時(shí)、準(zhǔn)確地從數(shù)據(jù)庫中獲得所需信息,為民用航空器的飛行提供及時(shí)、準(zhǔn)確、標(biāo)準(zhǔn)化氣象資料,是氣象數(shù)據(jù)庫應(yīng)用服務(wù)統(tǒng)一的支撐平臺(tái)。民航青??展芊志謿庀髷?shù)據(jù)庫系統(tǒng)主要由通信子系統(tǒng)、數(shù)據(jù)庫子系統(tǒng)、預(yù)報(bào)平臺(tái)、監(jiān)控子系統(tǒng)、應(yīng)用和服務(wù)子系統(tǒng)等組成。本文詳細(xì)分析了幾起在民航氣象數(shù)據(jù)庫系統(tǒng)運(yùn)行過程中出現(xiàn)的故障,方便相關(guān)數(shù)據(jù)庫維護(hù)人員在遇到此類問題時(shí)進(jìn)行參考借鑒。
二、常見故障及排查
2.1數(shù)據(jù)庫監(jiān)聽無法啟動(dòng)
故障現(xiàn)象:2014年11月2日民航氣象數(shù)據(jù)庫系統(tǒng)應(yīng)用服務(wù)器出現(xiàn)死機(jī),重新啟動(dòng)系統(tǒng),啟動(dòng)過程中發(fā)現(xiàn)監(jiān)聽listerner無法正常啟動(dòng),根據(jù)系統(tǒng)錯(cuò)誤告警提示得知:無法正常打開監(jiān)聽日志文件及打開該文件出錯(cuò),即listener.log。
故障分析及解決過程:根據(jù)以往的處理經(jīng)驗(yàn),出現(xiàn)此故障是由以下幾種原因引起:1)磁盤空間不足:磁盤空間不足,無法提供存儲(chǔ)空間以及程序運(yùn)行空間,易出現(xiàn)上述情況。istener.log該日志文件的目錄為/u0/oracle/product/10.2.0/ db/network/log;通過使用df –v命令查看磁盤使用率,發(fā)現(xiàn)u0 所在磁盤的使用率為54%,且每周周維護(hù)時(shí)定期清除過期的歷史資料,故排除此種情況。2)日志過大而無法打開:通過命令查看,該日志文件的大小為4GB,同時(shí)查看1號(hào)數(shù)據(jù)庫及其他分局?jǐn)?shù)據(jù)庫系統(tǒng)該日志文件的大小,發(fā)現(xiàn)均為4GB,且備份該日志后,用1號(hào)數(shù)據(jù)庫系統(tǒng)的日志文件進(jìn)行替換,系統(tǒng)任然無法啟動(dòng),故排除此種情況。3)配置文件出現(xiàn)錯(cuò)誤:根據(jù)以往數(shù)據(jù)庫監(jiān)聽無法啟動(dòng)的案列,此種情況可能是由于配置文件出現(xiàn)錯(cuò)誤引起的,查看并與1號(hào)數(shù)據(jù)庫對(duì)比,發(fā)現(xiàn)配置文件未丟失且內(nèi)容無異常,故配置文件是正確的。4)經(jīng)向廠家負(fù)責(zé)氣象數(shù)據(jù)庫系統(tǒng)的軟件工程師請(qǐng)教并進(jìn)行遠(yuǎn)程檢查后發(fā)現(xiàn),該日志文件的權(quán)限出現(xiàn)了問題,當(dāng)時(shí)的權(quán)限為root:system,而該文件的權(quán)限應(yīng)為 oracle:dba,故此故障是由該日志文件的權(quán)限發(fā)生改變引起的,使用root賬戶進(jìn)行登錄,對(duì)文件的權(quán)限進(jìn)行修改,之后再次啟動(dòng)系統(tǒng),監(jiān)聽恢復(fù)正常,數(shù)據(jù)庫可以正常啟動(dòng)。
2.2 數(shù)據(jù)庫磁盤空間使用率高
故障現(xiàn)象:近期民航氣象數(shù)據(jù)庫系統(tǒng)頻發(fā)出現(xiàn)登錄慢或死機(jī)現(xiàn)象,經(jīng)檢查發(fā)現(xiàn)home文件系統(tǒng)增長迅速,且氣象數(shù)據(jù)庫磁盤空間利用率高,而通過歸檔文件遷出不能有效的釋放磁盤空間。
故障分析及解決過程:氣象數(shù)據(jù)庫機(jī)的磁盤空間超過70%時(shí),通過歸檔文件的遷出,來釋放磁盤空間,但有時(shí)經(jīng)過文件歸檔遷出后,磁盤空間利用率僅僅降了幾個(gè)百分點(diǎn),短時(shí)間之內(nèi)又會(huì)超過70%,通過歸檔文件的遷出,很難有效的釋放磁盤空間,尤其到了雨季后,磁盤空間的利用率漲幅更是比平常要快,鑒于以上原因,機(jī)務(wù)員經(jīng)過檢查發(fā)現(xiàn),home文件系統(tǒng)硬盤資源只有50G,而監(jiān)控顯示文件系統(tǒng)的利用率達(dá)90%,通過命令查找大文件,顯示沒有,逐級(jí)查找大文件,發(fā)現(xiàn)/home/mhdbs/trash/rad/p2imag 文件夾異常大可達(dá)25G,即home文件系統(tǒng)的50%,進(jìn)入文件夾查看發(fā)現(xiàn)每天全國下發(fā)的雷達(dá)圖可達(dá)3G左右,保存7天可達(dá)21G左右,正是由于雨季來臨后,雷達(dá)圖的數(shù)量增多,導(dǎo)致磁盤空間利用率漲幅很快,因此機(jī)務(wù)員將早期的雷達(dá)資料刪除,保留最近三天的資料,磁盤利用率可降到41%左右,系統(tǒng)運(yùn)行暢通。
2.3 修改控制文件,本地?cái)?shù)據(jù)庫無法收到氣象情報(bào)
故障現(xiàn)象:2015年6月24日收到民航空管局關(guān)于寧蒗瀘沽湖機(jī)場飛行氣象情報(bào)參加國內(nèi)交換的批復(fù),12:40(UTC)機(jī)務(wù)員對(duì)通信機(jī)控制數(shù)據(jù)進(jìn)行修改,將寧蒗瀘沽湖機(jī)場的SACI76,SPCI76,F(xiàn)CCI76,F(xiàn)TCI76,WSCI76公報(bào)加入控制數(shù)據(jù)。在13:00(UTC)時(shí)次發(fā)現(xiàn)本地?cái)?shù)據(jù)庫中沒有最新時(shí)次的氣象情報(bào)。
故障分析與處理過程:在發(fā)現(xiàn)本地?cái)?shù)據(jù)庫中缺少最新時(shí)次的氣象情報(bào)后,機(jī)務(wù)員首先檢查通過ping西安交換服務(wù)器檢查網(wǎng)絡(luò)的連通性,網(wǎng)絡(luò)連接正常;檢查通信系統(tǒng)運(yùn)行狀態(tài),各進(jìn)程運(yùn)行正常,且MQ通道運(yùn)行正常,隊(duì)列無積壓,檢查通信系統(tǒng)/home/comm/history/的留底文件,發(fā)現(xiàn)沒有最新時(shí)次報(bào)文收發(fā)記錄;故初步判斷是由于先前修改控制數(shù)據(jù)導(dǎo)致本地?cái)?shù)據(jù)庫無法收到氣象情報(bào)。首先,通過預(yù)報(bào)編發(fā)報(bào)主機(jī)發(fā)送請(qǐng)求報(bào),請(qǐng)求全國各地機(jī)場的氣象情報(bào),2分鐘之后可以看到AFTN線路上有收?qǐng)?bào)記錄,通過預(yù)報(bào)綜合信息服務(wù)平臺(tái)進(jìn)行查看,發(fā)現(xiàn)數(shù)據(jù)庫報(bào)文資料恢復(fù)正常。機(jī)務(wù)員進(jìn)入目錄20150624bak(提取和制作BSB的目錄)進(jìn)行檢查,發(fā)現(xiàn)當(dāng)前目錄下生成一個(gè)core文件,進(jìn)入$HOME/msdat目錄,使用ls –l命令查看,通過文件最新修改時(shí)間發(fā)現(xiàn)MSS01. dat文件并不是最新作的控制數(shù)據(jù),MSS04.dat是最新控制數(shù)據(jù)。判斷是在mv MSS*.dat $HOME/msdat過程中程序發(fā)生崩潰,導(dǎo)致mv命令執(zhí)行失敗,只將MSS04.dat文件移動(dòng)過去,MSS01.dat文件移動(dòng)失敗。在$HOME/msdat目錄中,MSS01. dat和MSS04.dat兩個(gè)文件并不是由同一個(gè)bsb.txt文件生成的,所以當(dāng)通信機(jī)收到氣象情報(bào)后,把它當(dāng)成錯(cuò)報(bào)丟棄。使用備份的bsb.txt文件重新制作BSB文件,并且確定$HOME/ msdat目錄下MSS01.dat和MSS04.dat是當(dāng)前最新制作的BSB文件,執(zhí)行冷啟動(dòng)。持續(xù)監(jiān)控下一時(shí)次,發(fā)現(xiàn)報(bào)文入庫正常。
三、小結(jié)
作為一名氣象數(shù)據(jù)庫維護(hù)人員,必須要掌握民航氣象數(shù)據(jù)庫系統(tǒng)的整體網(wǎng)絡(luò)架構(gòu)拓?fù)?,了解氣象資料的傳輸走向以及處理流程,通過不斷的業(yè)務(wù)學(xué)習(xí),來提升自身的業(yè)務(wù)能力和素質(zhì),在系統(tǒng)出現(xiàn)故障之后,一定要保持沉著冷靜、有條不紊,不盲目的進(jìn)行故障判斷,從關(guān)鍵點(diǎn)入手,逐步深入,檢查系統(tǒng)的各項(xiàng)運(yùn)行狀態(tài),找出異常,快速定位故障并進(jìn)行故障排除。每一次故障的排除過程對(duì)我們來說是一個(gè)很好的學(xué)習(xí)機(jī)會(huì),事后要善于對(duì)故障進(jìn)行記錄、總結(jié),組織科室全體人員進(jìn)行學(xué)習(xí)討論,以便日后遇到類似情況時(shí),能夠快速的定位解決設(shè)備故障,提高設(shè)備的運(yùn)行率,保證各項(xiàng)業(yè)務(wù)的不間斷運(yùn)行。
參 考 文 獻(xiàn)
[1] 太極計(jì)算機(jī)股份有限公司,民航氣象衛(wèi)星傳真廣播系統(tǒng)用戶手冊(cè),1-60.
[2] 朱盛文 民航氣象數(shù)據(jù)庫系統(tǒng)故障案例分析[期刊論文]-中國新通信 2015(23).
[3] 陳齊亞 民航氣象數(shù)據(jù)庫通信系統(tǒng)[M].西安,2011.
[4] 俞霄靚.陳齊亞.梁欣.兀鵬越 民航氣象數(shù)據(jù)庫系統(tǒng)一起典型資料傳輸故障的分析及處理[期刊論文]-計(jì)算機(jī)時(shí)代 2014(12).
[5] 李占睿 民航氣象二期數(shù)據(jù)庫系統(tǒng)管理、維護(hù)和二次開發(fā)[期刊論文]-氣象水文海洋儀器 2011(1).