于慧珠++潘相東
為了解決目前聯通營業(yè)側業(yè)務處理是單點系統(tǒng)處理,在全流程各子系統(tǒng)出現應用系統(tǒng)運行異常或者應用系統(tǒng)處理工單緩慢出現積壓時,導致工單無法正常處理出現用戶投訴,同時結合2016年3月北京聯通為提升客戶感知,改善服務質量,提出的信控業(yè)務全流程、全業(yè)務(含普話、寬帶、移網)5分鐘開通的目標,大唐電信旗下大唐軟件提出了聯通急速開通系統(tǒng)解決方案,將“提高系統(tǒng)反應能力,提高客戶滿意度”,作為聯通極速開通平臺的設計與實現的標準。
在此目標的驅動下,必須首先解決單點系統(tǒng)問題,為此提出開辟工單應急處理通道,在現有系統(tǒng)出現故障時,可立即切換到應急處理通道,進行業(yè)務工單持續(xù)處理(一階段為復機業(yè)務),以保證5分鐘開通目標達成。
聯通極速開通系統(tǒng)的五個亮點
流程極簡
信控業(yè)務全流程是指從計費定單開始,至網元施工結束。聯通現網處理流程,由營業(yè)側下發(fā)訂單,timer掃描生成定單信息存儲入Oracle數據庫,通過工作流解析timer掃描定單生成工單信息存儲入Oracle數據庫,定單信息發(fā)送NAS,timer掃描NAS接受到的工單信息存儲入Oracle數據庫,通過timer掃描生成網元工單信息存儲入Oracle數據庫,組織網元工單下發(fā)網元執(zhí)行,timer掃描報竣網元工單并同步工單信息存儲入Oracle,NAS結果通知IOM報竣信息,timer掃描后,同步工單報竣信息存儲入Oracle,timer掃描后,同步定單報竣信息存儲入Oracle,最后定單歸檔到Oracle。
從現網處理流程分析得出:現網系統(tǒng)高度依賴timer、數據庫存在瓶頸、資源爭搶激烈、過程冗余等問題突出。
聯通極速開通系統(tǒng)處理流程由營業(yè)側下發(fā)訂單,生成的定單存入內存數據庫,經過映射生成工單信息并同時生成網元工單,存入內存數據庫。而后網元工單下發(fā)網元執(zhí)行,網元工單報竣同步結果到工單和定單,然后進入結果上報流程,工單竣工后進行數據清理后歸檔到關系數據庫保存?zhèn)浞荨?/p>
聯通極速開通系統(tǒng)不再依賴timer進行處理,而是引入異步消息隊列驅動進行工單流程控制,并且把過程處理數據保存在內存數據庫,去掉連接數據庫并讀取磁盤帶來的開銷,除外還去除原有復雜的工作流處理機制,精簡中間處理環(huán)節(jié),使處理過程更加簡單高效。
云化架構
聯通極速開通系統(tǒng)設計理念:云化架構,消息驅動,快速執(zhí)行,它有四個特點。
第一,高速處理,全組件云化架構,MQ消息驅動,緩存加速,數據庫分庫分表設計,減少單表數據量。
第二,高擴展能力,各組件均可橫向擴展,無性能瓶頸。
第三,高可靠性,多宿主容災,無單點故障瓶頸。
第四,節(jié)省成本,去IOE,所有服務器使用PC服務器,不采用小型機、磁盤陣列。
多宿主容災
只通過一條鏈路連接到單個主機節(jié)點的模式容易發(fā)生單點失效而導致系統(tǒng)癱瘓,而此問題對于分布式系統(tǒng)是不可行的。為此我們對sorl、redis、rabbitMQ和mysql進行集群,各個連接點實現主備實現,保證快速響應連接和數據一致性。如果出現單節(jié)點故障,不會影響用戶使用和數據丟失等情況,實現多宿主容災目標。
全流程實時預警
此系統(tǒng)技術復雜和組件繁多,如果系統(tǒng)出現異常,光靠人手動監(jiān)控是不現實的,所以我們提供完整的監(jiān)控預警系統(tǒng)。例如,在現網處理通道某個環(huán)節(jié)出現故障,監(jiān)控預警系統(tǒng)會進行告警通知并切換到應急處理通道,保證故障實時處置,其它工單監(jiān)控點還包括總工單數、未竣工工單數、在途工單數和已回單數等。在服務技術組件監(jiān)控方面,我們對tomcat請求連接池、solr集群、redis集群、rabbitmq集群情況和zookeeper進行監(jiān)控,為組件平穩(wěn)運行提供服務。
高擴展能力
聯通極速開通系統(tǒng)支持服務平滑擴容,如果聯通極速開通服務器數量需要擴充或者裁減,只需要進行相應配置就可以實現,且在系統(tǒng)升級時也有安全退出機制,保證數據一致性。
服務組件擴容,在現有組件集群能力不能滿足支撐時,可以動態(tài)平滑增加機器到集群中,組件能力過剩也可以滿足指定機器從集群中刪除操作。
服務數擴展,如果在當前系統(tǒng)某個模塊并發(fā)數不足,可以在配置中增加并發(fā)數實現服務數動態(tài)擴展能力。
網元平臺擴展,如果加入新的網頁配置,只要加入配置啟動信息和消息指向就可以完成擴展。
聯通極速開通系統(tǒng)運行成果
運行情況和成果推廣
在2016年7月4日12時17分05秒,現網產生積壓、服務中斷等核心故障,應急開機系統(tǒng)立即響應,于12時22分接收到切換請求,啟動時長為1小時5分鐘所得極速開通數據和現網數據對比圖。期間應急開機系統(tǒng)接收復機數據量5833條工單,分別為移網號碼5085、固網355、寬帶393,執(zhí)行成功5827,失敗6(網元超時),執(zhí)行成功率達到99.87%。
經過生產應用,切實解決了中國聯通北京聯通分公司出現工單積壓現象影響停復業(yè)務的開機服務問題。同時,其自動切換的及時性,給信息化的運維工作帶來了極大的便利。對于改善聯通公司其它各省份信息化部,針對開機延時問題提供了行之有效的解決方案。
標準化實施
在此過程中,將系統(tǒng)服務運行的監(jiān)控機制和服務異常時的應急處理機制不斷進行標準化。
鞏固期數據
我們對2016年7月-2016年12月繳費開機及時率進行了統(tǒng)計。在鞏固期內繳費開機及時率穩(wěn)定在99%以上的水平,目標達成。
極速開通平臺集中體現運維服務體系建設,應包含運維服務制度、流程、組織、隊伍、技術和對象等方面的內容。同時結合極速開通平臺支撐的業(yè)務特色,整合運維服務資源,規(guī)范運維行為,確保服務質效,形成統(tǒng)一管理、集約高效的一體化運維體系,從而保障極速開通平臺在集中的條件下,網絡和應用系統(tǒng)安全、穩(wěn)定、高效、持續(xù)運行。
展望未來,目前聯通極速開通系統(tǒng)支撐停復業(yè)務是遠遠不夠的,基于現有技術和系統(tǒng)不斷成熟穩(wěn)定,未來將支撐電信運營商營業(yè)側業(yè)務的開通、撤銷、開戶、銷戶等全業(yè)務處理操作。