直达原文:【晋商银行】“数据驱动 + 工具整合”,智能运维平台驱动IT系统管理全面升级!
晋商银行股份有限公司(简称“晋商银行”),成立于1998年,前身为太原市商业银行,2009年正式更名挂牌。2019年位列全球银行1000强第421位,获评AA+主体信用评级,科技监管评级等多项资质居全省城商行前列。秉承"诚信、创新、实干"核心理念,该行先后荣获"中国城商行最具竞争力民族品牌"、"山西省功勋企业"等称号,以低风险、高效益的发展模式树立行业标杆。晋商银行致力于成为区域精品上市银行,努力实现高标准、高水平、高质量、严要求发展。
01.从传统到智能,晋商银行的运维破局之战
随着金融行业数字化转型的深入,晋商银行在业务规模快速扩张的同时,面临着IT系统架构复杂化、运维数据激增,作为区域挑战龙头银行,其核心业务系统、理财产品平台、智能网关等应用系统规模庞大,基于传统应用架构构建的分散运维工具和人工处理模式已难以满足对系统稳定性、资源优化及故障响应时效的要求。运维团队在跨系统协作、数据整合分析及自动化操作上面临着以下挑战:
- 告警管理分散:多源告警分散在不同系统,运维人员需频繁切换平台查看,且无效告警占比高,关键故障响应延迟。
- 资源管理低效:对CPU、内存、磁盘等基础设施资源的使用情况缺乏精准预测,易出现资源过剩或不足,影响系统性能和成本优化。
- 业务运维割裂:应用系统启停、进程管理与告警信息脱节,无法快速关联故障与业务影响;现有工具功能局限,制约运维效率。
- 发布流程风险高:大量应用系统的发布依赖人工操作,版本控制、回滚机制不完善,发布周期长且故障率高。
02.工具整合+数据驱动,构建智能运维平台
为应对业务快速增长带来的运维压力,晋商银行亟需通过系统化的平台建设实现运维能力的升级。经过层层筛选,最终携手嘉为蓝鲸打造智能运维平台,通过构建统一告警中心、业务运维中心、应用发布系统,实现运维管理的自动化、智能化,提高运维效率,降低运维成本;同时覆盖数据采集、存储、计算、分析,并落地AIOps能力,实现资源预测、异常检测、健康评估等场景智能化,确保系统的稳定性和安全性。通过 “工具整合 + 数据驱动” ,实现智能运维能力的系统性提升。
1)工具整合:构建统一运维入口
- 统一告警中心:整合多个应用系统的告警源,实现告警信息的集中接入和管理。通过批量配置和单个配置相结合的方式对告警进行丰富,同时制定并实施告警抑制和屏蔽策略,过滤无效告警,提高告警质量。
- 业务运维中心:对业务运维中心进行功能定制和优化,实施应用系统的启停功能,支持强制停止操作,允许进程名称重复配置,增加业务选择搜索功能,并实现与统一告警中心的对接,使运维人员在业务运维中心即可查看所有告警信息,提升业务运维的便捷性和高效性。
- 应用发布自动化:完成weblogic发布、微服务等系统的应用发布,同时在项目实施周期内,扩展自动化发布能力,实现应用发布的标准化和自动化。
- 应用发布增强能力:通过应用CMDB统一管理资源配置,证书管理SaaS自动化管控证书生命周期,配置发现实时同步基础设施信息,以及Linux安全基线强制校验系统安全标准,全面保障发布流程的可靠性与安全性。
2)数据驱动:搭建智能运维平台
(1)分层架构整合多源数据
- 底层支撑:通过ZooKeeper/Consul实现分布式协调,Auth统一认证,MetaData管理数据字典,确保工具层与数据层无缝对接。
- 数据管道:利用Kafka实时采集日志、指标、工单数据,通过Flink/Spark清洗处理,存储至 MySQL(结构化)、ES(日志检索)、HDFS(海量历史数据),形成统一运维数据湖。
(2)智能化分析赋能工具层
- 容量预测:通过分析历史数据的趋势性和周期性,预测存储、计算、网络等资源的未来使用量,为资源自动扩缩容提供依据,优化资源配置,降低成本。
- 异常检测:针对不同类型的指标数据(CPU使用率、内存使用率、磁盘使用率等),采用合适的算法(移动平均、指数平滑、机器学习算法等)进行单指标异常检测,结合业务背景判断异常的实际影响,实现精准告警。
- 健康画像:通过系统分层(WEB层、DB层、OS层)和各层关键指标异常检测,计算各层及整体系统的健康分数,直观展示系统健康状况,便于快速定位故障根源。
同时,为了确保运维人员对于工具使用熟练度和AIOps技术认知,嘉为蓝鲸还针对蓝鲸平台开发、权限体系、业务运维中心源码、应用发布最佳实践、统一告警中心使用等多个主题,组织多场培训和交流活动,邀请内部专家作为讲师,提升运维团队的技术水平和业务能力,确保新系统的顺利使用和维护。
03.成效斐然,智能运维能力全面落地
1)统一告警中心:多源聚合+智能降噪,构建告警处理闭环
统一告警中心成功接入嘉为蓝鲸监控中心等多个应用系统告警源,通过6条告警抑制和屏蔽策略,有效抑制和屏蔽了90%的无效告警,大大减少了运维人员的告警处理压力。对接数据平台的智能异常检测结果,实现 “规则+算法” 双重降噪(如内存使用率预测超基线时自动触发高优先级告警)。
从最近7天告警压缩占比图可以看出,有效告警占比逐步提升,告警处理效率明显提高,MTTA(平均告警响应时间和MTTR(平均故障修复时间)均得到优化,运维人员能够更快速地定位和解决问题。
此外,在业务运维中心嵌入统一告警视图,支持按业务系统(如理财销售平台)聚合告警,联动健康画像功能,一键下钻至网页层、数据库层、服务器层异常指标,缩短故障定位路径。
2)业务运维中心:功能强化 + 告警联动,提升操作效率
业务运维中心的应用启停功能稳定可靠,已配置621条进程启停,满足了日常业务运维需求。新增的定制化功能涵盖:应用告警与统一告警中心对接开发,实现在业务运维中心可以查看统一告警中心的所有告警、强制停止功能、进程名称重复支持以及业务选择搜索功能,使运维操作更加灵活便捷。与统一告警中心的对接,实现了告警信息的集中查看,让运维人员能够更全面地掌握业务系统的运行状态,提升了业务运维的精细化管理水平。
3)应用发布:模板化设计+CMDB联动,实现自动化部署
在项目周期内,完成WebLogic、微服务2套系统的标准化应用发布,并额外扩展60余套系统的自动化发布配置,整体发布效率提升80%,运行效果显著。自动化发布的实现,不仅减少了手动操作带来的错误,还大大缩短了发布时间,提高了发布效率,为企业业务的快速迭代提供了有力支持。
此外,项目还涉及了应用CMDB、证书管理SaaS、配置管理发现和Linux安全基线的建设,实现发布过程与资源健康状态实时校验(如发布前检测目标服务器内存使用率是否达标),这些模块为晋商银行提供了更全面的配置管理和安全保障。
4)计算平台:分层构建智能分析底座,打造数据驱动引擎
(1)容量预测:通过分析历史数据,预测未来CPU、内存、磁盘的使用情况。针对CPU、内存、磁盘等关键资源,精准预测1年后使用趋势,提前识别资源瓶颈,自动化触发扩缩容策略,避免因资源不足或浪费导致的业务风险。
CPU使用率预测值
内存使用率预测值
磁盘使用率预测值
(2)单指标异常检测:用6种算法智能检测指标异常(比如CPU突然过高、内存泄漏),检测结果实时接入数据库并联动嘉为蓝鲸监控中心告警。形成 “数据采集-清洗-检测 - 告警” 全流程闭环,复杂异常识别准确率达95%以上,显著降低误报率与漏检率。
(3)系统健康画像:把系统分成网页层、数据库层、服务器层,每层设定关键指标,算出整体健康分。比如某系统半夜健康分突然下降,3分钟内就能找到是数据库层慢查询太多导致的,故障根因定位效率提升3倍以上,实现从 “单点监控” 到 “系统级健康透视” 的跨越,大幅缩短故障排查时间。
04.质变跃升,闭环能力铸就业务守护盾
晋商银行携手嘉为蓝鲸打造的智能运维平台项目通过数据智能与业务场景的深度融合,不仅实现了运维效率的 “量变” 提升,更完成了从 “故障处理者” 到 “业务守护者” 的 “质变” 转型。基于精准的容量预测、智能的异常检测、直观的健康画像,该行构建了 “提前预判 - 实时诊断 - 快速修复” 的闭环能力,为金融业务的稳定运行与创新发展提供了坚实保障,在数字化转型的道路上迈出了坚实的一步。未来,嘉为蓝鲸将继续探索和深化智能运维平台的应用,以实现更高效、更智能的运维管理,支持银行业务的持续发展和创新。