網絡運維 設備管控

如何實現網絡安全監控運維?

銀行數據中心綜合監控運維方案

銀行數據中心綜合監控運維方案
    馬上咨詢

            隨著金融科技的不斷變革,銀行的網絡整體規劃和建設思路也在不斷追趕新時代銀行業務的發展需要。隨之而來的是銀行數據中心的網絡規模不斷擴大,從最初的單中心逐漸延伸到多地多中心運營的模式,使用的網絡技術也從傳統的交換路由、負載均衡、防火墻逐步發展到軟件定義網絡、網絡服務虛擬化等各類新興技術。 

            同時,在金融需求越來越旺盛,銀行業務發展越來越快的當下,銀行數據中心出現異常運行而造成的損失和后果就愈發嚴重。在云計算、大數據等新興技術不斷涌現的新形勢下,如何保障數據中心安全生產運行,高效率、高質量地運維龐雜的網絡環境,已成為銀行信息科技部門的必答題。

    第1章 銀行數據中心運維建設背景

            根據銀監會編制的《中國銀行業信息科技“十三五”發展規劃監管指導意見》中明確指出: 提高運維自動化水平,打造智能化運維體系。

            《意見》表明:提高基礎資源和應用部署的自動化水平,實現快速交付、動態調整、彈性部署,降低人工操作風險,自動化部署比例不低于75%。持續推進生產運維監控精細化、自動化、智能化建設,強化系統風險和故障的早預警、早定位和早處置。實現應用層面交易全流程、全節點監控全覆蓋,結合應用系統交易特性及相關數據的分析對比,提升交易過程監控的智能化水平。強化容量管理,做好相關資源的動態規劃,預防非計劃性、突發性的容量瓶頸問題發生。強化運維、開發、安全、風險管理的信息共享和一體化協作,提升多方聯動能力。加強運維大數據分析,利用運維大數據加強業務風險防控,探索利用運維大數據推動業務流程優化并支持業務創新。

    第2章 銀行數據中心網絡運維痛點

            隨著銀行數據中心信息系統規模逐漸壯大,信息科技部的運維工作任務日益繁重,傳統的局部、粗放、碎片化的IT運維管理模式已經無法滿足新形勢下業務連續性保障的實際需求。在現有的銀行運維體系下,運維管理的工作涵蓋從機房基礎設施,到各類網絡及網絡設備、服務器、操作系統、數據庫、中間件、各級業務系統所引發的各類事件和問題,如容量不足、故障恢復、災備轉移等等內容。

            銀行IT運維也面臨著應用系統繁多,系統間關聯關系負責,業務環節繁多等壓力,而在日常運維工作中,事件處理中信息不全、問題描述不準確、關鍵信息缺失等情況,也給運維部門帶來重重困難。

    • 銀行數據中心的系統硬件從型號、品牌呈現數量多、品牌多的特點,難以統一管理。
    • 支撐業務系統的虛擬化、云計算、大數據、微服務、容器、信創等技術趨勢迅速翻新,迫IT環境復雜度、規模都急劇提升;節點分布范圍更加廣,物理位置不統一,對故障定位、變更升級等運維工作帶來新挑戰。
    • 新增業務需配置多廠商、多類型設備,各廠商設備配置命令千差萬別,協議繁復,配置極其復雜,大量重復性的策略開通工作,費時費力;而上云的業務也同樣面臨異構多云跨廠商業務開通的難題。
    • 銀行業務的多元化發展,對系統和網絡設施的依賴性不斷增加,在傳統運維方案中,難以自動發現業務應用拓撲關系和交易訪問路徑,難以直觀定位業務節點,故障根源定位慢,缺乏對業務系統整體健康狀況和運行趨勢的監測,無法判定業務系統是否存在運行瓶頸。
    • 跨部門排障行為復雜,需較長時間進行故障定位,無法達到精準化報警;同時由于系統和應用間交互關系復雜,往往需要多部門聯動、多環節并發式排障,造成異常處置不及時。
    • 銀行運維數據存儲分散,缺乏統一數據標準,存在數據一致性、準確性、完整性不足等問題,不易管理及挖掘價值,難以評估系統當前和未來對資源的需求,及資源分配的合理性。
    • 銀行數據中心的安全生產水平,依賴于開發、測試、運行以及業務、風險管理、支持保障等多個部門,在實際運維工作中,運維職能難以清晰界定,部門間協同存在客觀難度。
    • 在銀行實際運維工作中,部分場景問題解決過度依賴專家人員,解決方案沒有形成知識,難以傳承復用,也無法持續擴展打造自身知識運營體系。


    第3章 智和信通銀行數據中心自動化運維解決方案

            銀行作為對IT系統可用性、業務系統穩定性要求極高的金融機構,對整體網絡架構的可靠性、安全性等方面提出更高要求。銀行數據中心的網絡運維涉及網絡可視化、故障管理、性能管理、業務管理、配置管理、變更管理、應急保障等多方面的需求。同時,因業務的特殊性,客戶對銀行服務中斷和性能問題的容忍度較低,運維需求已由單純的實現IT支撐,逐步轉變為支持業務發展,平穩應對業務量持續及爆發式增長,保障用戶體驗等方面的需求,因此在系統異構的現狀下,如何保障業務連續性和高可靠性建設正在逐步成為銀行數據中心運維的重點。

            北京智和信通深入分析銀行運維需求,針對銀行數據中心基礎架構復雜度不斷增長,服務器數量急劇增加,業務復雜度快速發展的現狀,提出自動化運維方案,為銀行網絡保駕護航。

    智和信通銀行網絡運維平臺功能模型

    3.1.異地網絡架構可視化

            目前大型銀行基本采取全國數據集中管理的模式,在網絡架構上采用“全國一網”的形式。網絡架構中軟硬件環境涉及的技術復雜,廠商眾多。北京智和信通通過網絡架構拓撲可視化能力,將網絡數據從離線表格轉移至平臺內,從靜態的網絡架構數據轉化為動態智能拓撲,實現全網設備、資源、鏈接關系、IP等實時更新、快速定位。

            在動態拓撲上展現設備實時狀態,通過樹形、平面結構聯動展示設備間鏈接關系,通過按片區、按地域、按層級等多種布局方式劃分網絡,使用不同顏色、粗細、圖標表示被管理對象的狀態信息,助力運維人員實時了解網絡架構及全網運行狀態,快速感知資源、鏈路、流量等異常信息。

    銀行網絡撲示意圖

    3.2.“兩地三中心”的災備架構可視化

            為滿足銀行對業務穩定運行與快速恢復,確立“兩地三中心”的災備模式,即數據中心、同城災備中心和異地災備中心,非常重要。但是異地+多中心的模式,給網絡可視化運維管理帶來極大挑戰。

            北京智和信通自動化運維方案通過多維管理視圖,對不同品牌、類型、版本的網絡設備、安全設備、無線設備、存儲、主機、中間件、數據庫、虛擬化、應用服務、視頻監控等IT資源進行統一、全方位、多層次的綜合管理,實時分析資源當前性能和運行狀態,直觀反映資源的動態變化對支撐業務的影響。

    銀行網絡撲示意圖

    3.3.端到端全鏈路可視化

            從整體維度到局部維度全面展示銀行網絡內設備鏈路各項指標,整體可觀測、可告警、可分析、可統計,通過實時監控各個端口以及每條線路的通斷情況和性能指標,結合專業的流量監控分析能力,對鏈路容量進行即時監控,并生成流量分析報告,為容量規劃提供依據。

            針對銀行雙運營商網絡的模式,對雙鏈路進行管理,通過不同顏色展示主備線路,支持自動切換監控線路,實現主線路掉線設備顯示紅色,副線路掉線設備顯示棕色,全掉線顯示灰色。

    鏈路綜合信息示意圖

    3.4.全網資源統一監控

            本方案實現網絡設備信息高頻采集,并結合智能算法,實現對整體網絡架構、設備運行狀態、業務可用狀態的實時信息采集和感知。通過對銀行網絡中海量設備的智能解析和關聯分析,結合全流量采集分析能力,形成整個網絡通信鏈路的多端網絡流量分析鏈,助力運維人員從多個維度實現對相應告警的智能分析,解決傳統運維監控中關聯數據缺失,輔助排障信息不足的問題。

    3.4.1.全網軟硬件設備統一監控

            方案針對銀行網絡內各類設備、業務系統構建統一、智能監控體系,對業務系統、操作系統、基礎設施、主機存儲、數據庫、中間件、虛擬化、云、數據中心機房等全方位監管。屏蔽廠商、型號差異,全面掌握銀行網絡整體運行情況和運行效能,能高效、快速、精準進行故障定位診斷。

    設備資源可視化顯示 

    3.4.2.全網帶寬、流量監控與回溯分析

            方案基于海量流量數據的存儲挖掘,實現對網絡流量的偵測分析。通過網絡流量分析技術,采集、分析、存儲所有網絡流量,回溯分析數據包特征、異常網絡行為,以多維數據分析和深度挖掘為手段,實現數據包層面的流量追蹤,發現潛伏于網絡中的未知攻擊。

            針對銀行中業務專線、物聯網專線等專線線路管理需求,通過實時監控和定期對專線線路的使用情況進行統計分析,為每條專線的擴容或縮容提供數據依據。

    全網流量監控與回溯分析示意圖

            從設備、接口、IP、服務、應用、會話、QoS等層級的實時流量監控和歷史流量分析,識別帶寬消耗較大的應用程序、服務、協議或 IP 地址,避免網絡容量過載,并提升最終用戶網絡體驗。

    3.4.3.IP地址分配與管理

            銀行對IP地址管理的唯一性與安全性存在極高要求,北京智和信通自動化運維方案支持端到端規劃、部署、管理和監控IP 地址。通過智能IP掃描能力,定義多層次子網,掃描其范圍內每個IP地址的當前狀態,包括IP地址,MAC地址等信息,也可以查看IP段內地址使用詳情,便于銀行信息科技部進行IP地址分配管理等。


            通過端口視圖及列表視圖的形式,展示當前IP地址的使用情況,可查看某個子網的IP現網詳情信息,如IP、掩碼、主機名、設備類型、現網MAC、現網接入設備、現網接入端口、規劃MAC、規劃接入設備、使用人等,可批量分配IP地址,保障了IP地址使用的唯一性。


            通過黑白名單配置,通過黑白名單功能用來檢測用戶所關心的設備是否在網絡中出現及出現時間,對非法接入設備進行告警處置。支持IP-MAC綁定,對全網MAC和IP進行配對綁定,并周期性對MAC-IP進行檢測,當IP-MAC的綁定關系發生沖突時產生告警,保證入網終端安全可信。

    3.4.4.視頻設備集中監控

            本方案可對不同品牌、不同型號的攝像頭進行統一運維,融合網絡高清、智能分析、多級管控為一體。支持監管視頻監控體系涉及的視頻前端設備(攝像頭、卡口、編解碼器),傳輸設備(光纖收發器、EPON 等)內場設備(網絡與安全設備、主機/虛擬機、存儲設備)、機房動力環境等多種設備,等統一接入、集中管理。并通過網絡拓撲一鍵自動發現生成能力,直接生成視頻系統可視化拓撲,通過定時輪詢和事件上報進行可用性和健康度檢查。

    視頻監控效果示意圖

            平臺輕松對接多品牌、型號攝像頭,通過onvif接口協議和智能化識別技術,實現對視頻畫面自動偵測、自動提取,主動監控發現和分析出攝像機設備常見的故障,如設備不連通、畫面偏色、信號缺失、清晰度異常、亮度異常等問題和原因,并及時在拓撲圖中顯示出當前視頻監控的可用情況。

    3.4.5.設備模型庫監管無限制

            方案采取用戶自定義設備類型及其設備資源的方式,賦予用戶自定義適配設備的能力,最大可能地支持對不同設備類型的支持。通過自定義設備類型及其設備資源,最大限度上提高了智和網管平臺的管理范圍,真正實現了對設備及其資源的全面化管理,達到管控萬物的目標。


    3.5.全面適配國產信創環境

            平臺以JAVA高級編程語言為基礎,從功能塊、數據庫、界面全部基于統一JAVA技術平臺和統一數據關系模型。

            智和信通國產信創能力采用Java、HTML5跨平臺技術,全面兼容國產化操作系統、數據庫、中間件、CPU和虛擬化等,支持包括:中標麒麟、銀河麒麟、中科方德、達夢、人大金倉、南大通用、神州通用、華為虛擬化、H3C虛擬化、深信服虛擬化等。


    3.6.業務可用性管理

            銀行業務系統流程從終端用戶側的柜面、網銀、手機銀行,到ESB業務系統總線,再到后端核心系統,每個環節互相關聯影響。本方案以保障業務可用性為基礎,通過對承載業務的IT基礎設施構建真實的業務模型。

    銀行業務系統示意圖

            方案通過構建業務系統與部門、IT資源及關鍵指標的關聯關系,整合前端、應用、后臺任務、外部服務、數據庫及基礎設施,直觀呈現面向服務的業務系統體系架構;直觀、便捷地幫助運維人員對銀行內辦公系統、交易系統、支付系統、網銀系統、基金系統、保險系統、官網、手機APP系統等進行監控,掌握業務的運行狀態和健康水平,了解業務動態變化趨勢,快速定位故障源,降低運營風險。

    業務看板示意圖

    3.7.實時故障預警,及時洞察異常信息

            北京智和信通銀行數據中心自動運維方案,通過統一的故障管理平臺,將各個模塊中的監控信息統一采集、分析,實現整個銀行網絡中各種事件信息、設備故障、網絡異常、流量異常等告警,以智能化手段進行標準化的分析、壓縮、并歸關聯等,通過多種方式實時傳達告警信息,保證落實到指定人員進行處理,為銀行提供主動式的故障解決方案。

            全面采集銀行內所有聯網設備,如存儲、服務器、路由器、交換機、防火墻、虛擬化、云、自動提款機、自動存款機、存折補登機、多媒體查詢機、票據打印機、開卡機等設備、資源、應用、服務等的狀態信息,通過對告警機制以及閾值的設置,第一時間獲取準確的告警信息,快速定位告警設備,提升告警處理效率,降低因設備故障帶來的損失。


    3.8.全覆蓋IT資源自動巡檢

            傳統的人工巡檢,尤其是應用巡檢,缺乏統一的規范、標準,導致巡檢的范圍和深度都存在一定的局限性,并且是基于人工的手工統計,工作效率比較低,同時耗費較大的人力資源。

            本方案依托平臺將以前依賴手工進行的日常巡檢轉換為自動化、定時執行的巡檢策略。制定統一的巡檢指標、巡檢方式、巡檢頻度等,保證巡檢標準化、巡檢范圍、巡檢深度;通過設計巡檢作業、數據采集方式、自動化作業調度等實現日常巡檢的自動化,代替手工工作,提高效率的同時,解放管理人員,釋放管理人員更多的精力,使更多的精力處理更重要的事項。


    3.9.網絡變更實現“人工+智能”

            銀行網絡對運維的顆粒度和精細程度均有較高要求,運維過程中網絡人員將面對每日數以百計的網絡變更及調整,相關的變更從用戶域訪問控制到變更投產,都需要投入大量的人力進行變更內容的評審和準備。在安全合規的前提下,將運維人員從整體的變更流程及變更內容的準備中解脫出來,實現網絡變更、設備配置自動化。


    3.10.人工運維與故障自愈結合

            通過實時發現告警,進行預診斷分析,判斷告警類型和級別,如果是一般告警,平臺進行自動恢復,如果是嚴重復雜告警則通過告警通知、運維工單等形式通知運維管理人員,進行人工處理。同時,將只能有專家處理的各類操作和判斷轉化為可存在于平臺內的流程,形成可保留可復用的運維知識。

    3.11.全場景實現自動災備切換

            通過一鍵啟停的應用控制和場景觸發,簡化人工操作,實現快速災備切換。保障在遇到系統故障、業務崩潰等災難時,自動將源端業務切換到備端數據中心,從而保障業務的連續性,實現業務的高可用。

    3.12.靈活編排,多運維場景支持

            自動化運維編排,可實現完全根據用戶場景,定制化設計運維劇本,真正將運維任務托管至平臺,全面解放人力。

    • 開發環境自動化,如軟件代碼自動化更新、自動化編譯、自動化打包、自動化發布預生產環境。
    • 應用發布自動化,如服務自動化升級、軟件自動化部署等。
    • 故障自愈能力,如網口異常自動關閉、磁盤爆滿自動清理、非法設備入侵阻斷、CPU空間不足自動重啟等。
    • 定時服務重啟,如在工作日每天晚上定時關閉應用,每天早上自動重啟應用等。
    • 智能批量設備管控,如批量設備策略執行,當設備的配置狀態不一時,能夠基于當前設備自身的狀態自動決策適合于本設備的管控操作等。
    • 定期設備健康狀況自檢,如定期設備健康狀態自檢、服務運行狀態自檢等。
    • 基于HTTP接口自動化,如基于HTTP接口的工單自動化、審批自動化、業務自動化等。
    • 高可用服務自動切換,如主備數據庫運行狀況自檢異常自動切換,服務運行狀態檢查主備切換等。
    • 虛擬化、云服務資源自動化擴容,如在虛擬化環境資源不足時自動化根據實際情況進行擴容。
    • 日常運維自動化,如自動化定期執行批處理cmd\sh腳本、自動化定期數據清洗、自動化定期環境檢查并導出報表等。

    3.13.積累形成運維知識庫

            在銀行日常網絡運維服務中,重復的故障和請求約占到70%,只有30%的故障真正需要專業人員來解決,知識經驗對提升重復工作的效率起到了至關重要的作用。

            通過智和網管平臺自動化運維的能力,將只能有專家處理的各類操作和判斷轉化為可存在于平臺內的流程,形成可保留可復用的運維知識,減少因誤操作帶來的損失,保障運維效率。以規范的流程進行運維作業,保障關鍵數據的完整合規。

    3.14.可視化數據分析

            利用圖形、圖表、圖表等易于理解的形式,提取和分析大量復雜的銀行網絡中各類運維數據,呈現分析結果,從而幫助運維人員在短時間內更好地理解和獲得更多的信息,幫助運維部門能夠實時了解業務和其所依賴IT資源的運行狀況,以及提供系統運維和優化的指示和依據。

    銀行拓撲大屏示意圖

            適配各種應用場景,二十四小時不間斷監控,細粒度可達網絡中每個設備、資源和鏈路。所有的網絡故障都一目了然地呈現,大大降低了管理成本,同時也提高了運維人員處理故障的能力,節省的故障處理時間,為運維人員管理網絡提供了可靠的保證。

    3.15.資產全生命周期監管

            對于銀行的網絡資產管理,采取統一數據標準,對整體網絡資產進行梳理和調用,避免資產信息在運維系統和實物間的差異,減少網絡運維過程中信息不一致、數據不統一等問題通過平臺將資產實物與運維數據庫一一對應,解決網絡設備在日常運維過程中出現“脫管”或“半脫管”的問題,實現對整體銀行網絡內IP、ARP、MAC接口數據,訪問控制信息,應用系統信息,網絡地址及性能容量、設備資產配置容量、機房布線容量信息的集中管理。


            建立健全資產臺賬,實現一機一檔,通過自定義多級資產分類,細化資產類別,實現資產分類管控,提高資產精細管理程度。從資產入庫、領用、變更、維修、調撥、到報廢處置,資產每一步操作均實現完整記錄,支持追溯,通過平臺實現資產整個生命周期的全流程閉環管理,使得IT資產每一次生命周期變更,都有流程可依、都有跡可循,從而實現全面的IT資產監管。

    3.16.定制化運維工單體系

            通過方案實現運維工單“無紙化”,支持于設備和故障管理頁面快速創建工單,把控故障處理進度,通過工單平臺簡化故障處理流程,形成自動化故障處理機制,并在每個處理流程的節點上責任到人,實現在快速響應故障的同時,實現兼顧運維流程管控。

            通過建立工單服務基準,預設工單在不同優先級、不同狀態時,受理人應該響應的時間及未響應時的處理方式,生成工單自動化處理規則,并以多種方式進行通知,避免超時響應提升全流程服務管理質量。

    3.17.多級部署適配“全國一網”結構

            在“全國一網”數據集中管理的背景下,一旦關鍵節點出現故障或受到攻擊,極可能引發連鎖反應,波及全行,造成區域性或全行性異常。因此銀行數據中心的運維工作不僅要確??傊行牡纳a安全,更重要的是要保障各分中心、各個節點的安全運行。全行執行統一的運維標準和要求,橫向到邊,縱向到底,一體化管理。

            因此,北京智和信通為銀行采取多級運維平臺部署方案,采用綜合-區域-設備運維平臺-設備的結構,部署多級架構運維平臺方案,上級運維平臺可以查看下級運維平臺(包含其子集)的監控信息,綜合運維平臺可以管理所有設備,下級運維平臺對本區域內單位或本單位網絡進行管理。每級運維平臺可以單獨監控各自的網絡設備,也可以由綜合運維平臺集中管理。

    智和網管平臺多級部署示意圖

            實現上級運維平臺對各二級單位的網絡設備運行數據的采集、管理、存儲,集成數據庫進行數據的本地存儲,并通過安全的傳輸方式將數據上傳至綜合運維平臺。

    部署方案優勢:

    • 對于銀行總部平臺,可對接下層分行子平臺,支持完整的網絡、設備、資源、告警、事件等數據同步
    • 對于分行子平臺,可完成其下各網點、機房等的設備群交互,可具有平臺完整的監控、管理權限。
    • 子平臺支持橫向水平擴展,隨著項目規模靈活增設
    • 支持聯動資產平臺、工單平臺、呼叫中心等,提供一體化運維解決方案


    第4章 方案應用價值

            通過部署智信通自動化運維方案,將傳統手工繪制的網絡拓撲圖升級到了網絡拓撲可視化,將傳統表格式的網絡資源管理升級到了應用級的網絡資源可視化,將傳統的網絡定點抓包分析升級到了應用級的網絡流量可視化,將傳統的經驗式故障定位升級到了清單化的自動檢查定位。實現“高可用、高性能、高質量”運維管理體系,

            在降低故障發生概率的同時,在故障發生后,“早感知、快定位、急止損、優改進”,降低影響范圍。不但保障網絡基礎架構穩定性的關鍵性能指標,而且通過運維自動化提升整體網絡團隊的能力。

    第5章 標桿案例

    5.1.某農商銀行雙鏈路監控

            由于農商行是移動+電信雙線路模式,其核心是想對雙線路進行管理,監控各鄉鎮網點的網絡狀況,明確移動和電信哪條線路出現問題,及時進行處理。

    • 實現對市和各鄉鎮網點的監控;
    • 實現每臺設備上電信與移動雙ip監控;
    • 實現對交換機的詳細管理,包括性能、故障等;
    • 將拓撲界面投影到大屏幕上進行展示。

    需求實現

            智和信通提出了智和網管平臺+定制開發的方案,基礎需求采用智和網管平臺成熟功能,并針對農商行雙線路的情況進行部分開發。

    • 通過開發,實現雙線路監控,實現自動切換監控IP;
    • 由于農商行的網點型網絡結構,設計通過設備顏色對雙線路進行展示,主線路掉線設備顯示紅色, 副線路掉線設備顯示棕色,全掉線顯示灰色;
    • 通過自動切換監視IP,實現對設備不間斷的故障、性能等監控。



    黄色片免费在线观看