通过对影响原材料用量的过程以及公用工程中水、电、汽、风用量的实时监测,可以及时的发现问题,特别是对生产调度人员来说,可以利用UEC-PASS及时地平衡公用工程及物料供应系统,减少单耗,提高经济效益。
实时监控系统监控,如CPU的负载,上下文切换、内存使用率、磁盘读写、磁盘使用率、磁盘inode使用率。当然这些都是需要配置触发器,因为默认太低会频繁报警。
CAT与应用间是否做了反馈机制,监控报警后是否会有应用重启,服务降级这种操作?点评内部的pigeon是否有这种服务健康检查包括自动降级的功能,今天,我们就这个问题展开讨论。
所以不说服务自愈,哪怕在我们日常的故障处理当中,也很依赖于经验。就是说这个东西是能做的,但是我们不太敢,因为要考虑的要素很多,就不太敢去直接做自愈这一块。
我们这边大屏其实主要还是应用的维度以及网络流量的维度为主,比如说从公网的一个出口和入口的流量来看会不会有大面积的一个问题,如果发现已经达到外面防火墙或者它流量的一个阈值了,就可以迅速定位问题。
如何快速定位解决问题:不仅需要针对告警信息的多维关联分析,同时还需具备针对告警事件的闭环处理以及故障自愈管理,支撑运维人员快速解决故障。
实时监控视频CAT为每个报表单独分配一个线程,所以不会有锁的问题,所有报表模型都是非线程安全的,其数据是可变的。这样带来的好处是简单且低开销。
同期数据,是我按照周期,比如说今天某个时间点这个数据,我去比较昨天这个点是什么样子的,去比较数据;
报警阈值定义:怎么样才算是故障,要报警呢?比如CPU的负载到底多少算高,用户态、内核态分别跑多少算高?
关于技术实现方面,我简单赘述两句,我们公司的监控大屏是用了Grafana来做的,Grafana可能已经成为了事实上的监控UI、数据可视化的标准了,它可以后面去接各种各样的数据源,然后你各个监控系统、各种数据原理的数据可以统一来展示。
预测的数据也是基于现状的,如果可以对预测数据进行判断报警,理论上,也可以针对现有的数据进行判断报警。
正如道旅CTOJames在应用ARMS之后感叹:“凭借ARMS,道旅IT人员能够在5分钟内搭建和启动基于大数据平台的业务实时监控系统,在充分发挥数据监控时效性的同时,大幅提升了IT人员效率!”
第一种是数据的转储,比如像Prometheus,我们在本地只存2周或者4周的数据,然后更多的话,就把它写到远端。
性能基准指标:我们要监控这个东西的什么属性?比如CPU的使用率、负载、用户态、内核态、上下文切换。
网络监控如果是云主机又不是跨机房,那么可以选择监控网络。当然你说我们是跨机房以及如何推荐使用smokeping来做网络相关的监控,或者直接交给你们的网络工程师来做,因为术业有专攻。
通过对影响生产过程的运行状态的关键参数的监控,使生产的运行状态保持平稳,当状态发生变化时,可以及时地作出反映,避免生产装置停车及设备停转,这方面的效益是十分巨大的。
自动化监控,如上我们做了那么多的工作,当然不能是一台一台的来加key实现,可以通过Zabbix的主动模式以及被动模式来实现,当然最好还是通过API来实现。
因为我们知道我们的环境其实是很复杂的,比方说,我发觉数据库宕了,服务停了,我敢不敢通过这个服务自己切过去。因为很多时候并不是数据库本身的问题,是网络的问题,网络抖动了,监控数据拿不到了。这个是非常依赖于整个整体环境的,你可能要想到方方面面,这个规则会非常复杂。你可能在做服务自愈的时候,还要去对其他的东西做一个完全的检查,确保其他东西是没有问题的。
可视化通过screen以及引入一些第三方的库来美化界面,同时我们也需要知道,订单量突然增加、突然减少。或者说突然来了一大波流量,这流量从哪儿来,是不是推广了,还是被攻击了,可以结合监控平来梳理各个系统之间的业务关系。