郭維靖+鄒積凱
摘要:本文總結了第三代110報警服務平臺各類子系統故障,及其故障的解決辦法,通過對故障的分析,對110系統的整體性能、規(guī)劃調整以及升級改造提供可靠依據。旨在描述110報警服務平臺維護人員處理日常故障的方式。
關鍵詞:服務平臺;系統故障;處理方式
1概述
第三代110報警服務平臺緊緊依靠天津市公安局第三代110指揮系統進行建設,滿足指揮中心日常處置各種突發(fā)事件對各種信息、數據、圖像等資源的應急處置需要。
天津市公安局110報警服務平臺主要涉及排隊調度子系統、接處警子系統、網絡子系統、綜合布線子系統、無線調度子系統、數字錄音子系統、LED顯示子系統、防病毒子系統、時鐘同步子系統等系統。。在后期又陸續(xù)建設了手機定位子系統、勤務報備子系統、用戶資料三字段查詢子系統、短信回訪子系統等子系統。
應用的軟件有:市局、分局接處警軟件、派出所接警軟件、有無線集成調度軟件、坐席分配軟件(Agent)、話務分配軟件(CTI)、消息通信軟件、通信代理服務程序、話務日志軟件、綜合接入服務臺、綜合接人分配臺、數字錄音軟件等組成。
2研究內容及目標
維保對上線前架構、系統、網絡、硬件資源規(guī)劃及隨后的質量、效率、成本管理方面都發(fā)揮了不可替代的作用。110維保過程中通過對第三代110報警服務平臺各類子系統故障及解決辦法總結,可對故障的分析,對110系統的整體性能、規(guī)劃調整以及升級改造提供可靠依據。為110報警服務平臺維護人員處理日常故障的方式。
總體目標是在110維保過程中,指導110報警服務平臺維護人員可解決處理日常故障。滿足指揮中心處理應急事件的需要,可提高指揮中心在應對相應突發(fā)事件的處置能力及快速反應能力。
3整體研究思路
運維環(huán)境,不論大小復雜度,總會有個系統架構層次。有了這個架構體系,那所有的運維事情大體都圍繞著這個系統架構上的每個元素及整體進行運維保障工作。
通過總結相關文獻和第三代110報警服務平臺各類子系統故障,及其故障的解決辦法,對110系統的整體性能、規(guī)劃調整以及升級改造提供可靠依據。
4故障說明
4.1手機定位系統
4.1.1個別受理臺手機定位故障
首先判斷是否是大面積受理臺均無法定位,如果只是個別受理臺出現問題,則重啟受理臺,觀察。
4.1.2大面積受理臺手機定位故障
若是大面積受理臺出現問題,則可初步判斷為非受理臺故障,按照如下方法排查:
1)登錄“手機定位及短信后置機”服務器,若程序中返回值為空,則重啟該服務,重啟服務后若程序返回值,(緯度坐標/用戶姓名、經度坐標/裝機地址、基站地址、基站id)是否為空,如果所有電話號碼上述返回值在軟件中均顯示為空,進行2)中的檢查。
2)檢查2008機房運營商前置機程序就收數據是否正常,(緯度坐標/用戶姓名、經度坐標,裝機地址、基站地址、基站id)是否為空,出現異常后重啟服務程序。
3)檢查運營商網關服務器程序是否正常,若出現無法與運營商服建立連接,則通知相關運營商,此故障為運營商服務端故障。
若1)-3)操作后還是無法定位,則查看是否更改了gis服務器ip地址或者相關鏈接。
4.2綜合接入服務器
4.2.1分局無法接受市局派單
綜合接入服務出現“濱海、保稅、河北”三個分局任意一個分局無法接受市局派單的情況,問題后解決流程如下:
登錄“綜合接入”服務器,登陸后觀察“天津市公安局指揮中心業(yè)務處理臺一市局端”軟件運行情況,該軟件中列出了當前三個有系統分局(保稅、河北、津南)連接市局接處警的狀態(tài),若軟件中“單位名稱”所對應的“狀態(tài)”為“斷開”,則該分局無法接受市局派單,解決辦法是點擊該軟件右上角的“x”按鈕,關閉該軟件,然后點擊桌面上的“綜合接入有系統分局”重啟啟動該軟件即可。
4.2.2交管局無法接受市局派單
綜合接入服務出現“交管局”無法接受市局派單的情況,問題后解決流程如下:
登錄“綜合接入”服務器,登陸后觀察“天津市公安局綜合接人服務臺”軟件運行情況,若軟件中“對方臺號類型”為“8610”所對應的“狀態(tài)”為“斷開”,則該交管局無法接受市局派單,解決辦法是點擊該軟件右上角的“x”按鈕,關閉該軟件,然后點擊桌面上的“交消互行”重啟啟動該軟件即可。
4.3OGG進程
4.3.1數據庫遷移
GoldenGate遷移前后同步示意圖如下:
其中,ORA A為原生產庫,ORA B為中間庫,ORA C為新生產庫,新ORA A為ORA C修改IP后的新生產庫,也就是業(yè)務數據庫系統。
·具體實施步驟為:
·數據庫準備一套單節(jié)點,一套雙節(jié)點RAC
·安裝GoldenGate軟件,版本11.2
·配置ogg進程
·ORA B在線沖定義分區(qū)表
·數據初始化,進行ORA A到ORA B數據同步(禁用trigger,job,外鍵)
·驗證數據同步情況
·數據初始化,進行ORA B到ORA c數據同步(禁用trigger,job,外鍵)
·驗證數據同步情況
·下線ORA C,修改ORA C為ORA A的IP
·下線ORA B,修改ORA B的OGG配置,同步ORA B至新ORA A庫
·生效新ORA A庫的trigger,外鍵,JOB
·啟動新ORA A至ORA B的OGG同步
·上線新ORA A,ORA B
·上線業(yè)務
4.3.2異常處理一般步驟
如果GoldenGate復制出現異常,可以通過以下步驟嘗試解決問題:
1)通過ggsci>view report命令查找ERROR字樣,確定錯誤原因并根據其信息進行排除;
2)通過ggsci>view ggsevt查看告警日志信息;
3)檢查兩端數據庫是否正常運行,網絡是否連通;
4)如不能確定錯誤原因,則可以尋求Oracle技術支持。在尋求技術支持時一般需要提供以下信息:
錯誤描述、進程報告,位于dirrpt下以大寫進程名字開頭,以rpt結尾,如進程名叫extsz,則報告名字叫EXTSZ.rpt;
GGS日志ggserr.log,位于GGS主目錄下;
丟失數據報告,在復制進程的參數disardfile中定義,一般結尾為dsc;
當前隊列,位于dirdat下。
4.3.3 Extract進程常見異常
對于源數據庫,抽取進程extxm如果變?yōu)閍bended,則可以通過在ggsei中使用view report命令察看報告,可以通過搜索ERROR快速定位錯誤。
一般情況下,抽取異常的原因是因為其無法找到對應的歸檔日志,可以通過到歸檔日志目錄命令行下執(zhí)行‘ls-lt arch x XXXXX.arc察看該日志是否存在,如不存在則可能的原因是:
1)日志已經被壓縮
GoldenGate無法自動解壓縮,需要人工解壓縮后才能讀取。
2)日志已經被刪除
如果日志已經被刪除,需要進行恢復才能繼續(xù)復制,請聯系本單位DBA執(zhí)行恢復歸檔日志操作。
一般需要定期備份歸檔日志,并清除舊的歸檔日志。需要保證歸檔日志在歸檔目錄中保留足夠長時間之后,才能被備份和清除。即:定期備份清除若干小時之前的歸檔,而不是全部歸檔。保留時間計算如下:某歸檔文件保留時間≥抽取進程處理完該文件中所有日志所需的時間。
4.3.4 Replicat進程常見異常
對于目標數據庫,投遞進程repXX如果變?yōu)閍bended,則可以通過在ggsci中使用view report命令察看報告,可以通過搜索ERROR快速定位錯誤。
復制進程的錯誤通常為目標數據庫錯誤,比如:
1)數據庫臨時停機;
2)目標表空間存儲空間不夠;
3)目標表出現不一致。
可以根據報告查看錯誤原因,排除后重新啟動rep進程即可。
需要注意一點:往往容易忽略UNDO表空間。如果DML語句中包含了大量的update和delete操作,則目標端undo的生成速度會很快,有可能填滿UNDO表空間。因此需要經常檢查UNDO表空間的大小。
5結語
本文根據維保過程中的實際工作需要,便于理順和暢通作業(yè)流程、故障處理流程、業(yè)務流程,最大限度地發(fā)揮對天津市公安局110報警服務平臺的維保處理作用,建立便于操作、利于提高工作質量和效率的高效運行機制,將維護工作面向客戶,貼近客戶,使維護管理和設備運行質量有了進一步提高。