一体化智能运维平台查看源代码讨论查看历史
一体化智能运维平台一体化智能运维平台包含配置管理、事件管理、变更管理、发布管理、月报管理、机房管理、问题管理、运营管理、知识管理、巡检管理、员工培训、投诉与建议、客服中心、集中监控及智能运维等功能。
一、主要技术内容
1.技术背景和意义
一体化智能运维平台包含配置管理、事件管理、变更管理、发布管理、月报管理、机房管理、问题管理、运营管理、知识管理、巡检管理、员工培训、投诉与建议、客服中心、集中监控及智能运维等功能。目前平台应用于攀钢集团的信息化、智能化和自动化[1]等系统运维监控和管理工作中,涵盖攀枝花、西昌、成都、江油等区域,具备跨区域、大规模、全业务的一体化智能运维管理能力,是开展星云智联运维工作的利器。
2.技术要点和优势
功能全面。监控告警措施全面;运维管理功能全面;展示功能全面,包括对自动监控、运维管理及运营管理等的手机APP及微信公众号展示;运维管理全面集成呼叫中心、安全感知、集中监控、智能运维等。
兼顾定制与产品化。基于星云智能运维实际需求和经验,开发适合攀钢信息化运维管理的平台功能,同时兼顾产品化需求可自定义流程配置。
二、技术应用情况
1.应用案例介绍
目前平台应用于攀钢集团的信息化、智能化和自动化等系统运维监控和管理工作中,涵盖攀枝花、西昌、成都、江油等区域,具备跨区域、大规模、全业务的一体化智能运维管理能力,具体功能如下∶
一、自动监控
1、监控到因机房停电造成大面积网络中断,给维护项目负责人发送短信,缩短了故障判断及处理时间。
2、监控到云平台物理服务器[2] CPU资源和内存资源不足,告警提示维护人员处理,避免承载的虚拟机因资源不足故障。
3、监控到Oracle数据库表空间占用超高,提示处理后正常。
4、监控到产销系统Tuxedo 中间件服务异常,及时处理后产销Tuxedo 中间件运行正常。
5、监控到MB数据交换平台 JDBC 连接断开,提示及时重启 JDBC连接后正常。
6、监控到机房温度超高,提示维护人员及时处理,恢复空调正常运行后正常,避免机房服务器大面积故障。
二、故障自愈
1、监控到统计系统某个文件目录这磁盘空间占用超高,监控并故障自愈清除日志文件后正常,保障了系统稳定运行,避免了故障扩大。
2、监控到Oracle数据库工具库锁表超时,采用故障自愈措施主动解锁,避免了业务受阻。
3、监控到重要进程掉线,采用故障自愈措施自动启动进程后正常。三、运维管理
1、对工单进行全流程跟踪处理,保证处理时效及效率,更有效地对维护质量进行监管。。
2、对变更及发布进行全流程跟踪处理,保证变更及发布流程审核规范,更有效地对业务方进行协调。
3、全面掌控众多信息系统的主机平台、网络环境性能数据及应用服务数据准确性。
参考文献
- ↑ 业务流程数字化转型的方向 | 信息化、自动化、智能化 ,搜狐,2022-08-11
- ↑ 服务器是什么?服务器的作用与用途 ,搜狐,2023-04-08