大数据平台监控体系
监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题。
1. 监控体系概述
- 监控体系是平台的后盾,系统异常可能造成巨大的损失,有后盾才能放心冲锋,完善监控是运维人的重要工作之一。
- 监控系统建设应该以结果为导向,告警宜准不宜多;提供告警分析辅助工具,减少定位时间;监而不控,等于没有监控。
- 监控不仅是维稳,还应该引导提升业务体验,性能监控对持续引导优化业务体验十分重要,要找准核心指标,并提供辅助指标,核心指标要切中要害,覆盖面要广。
2. 监控体系定义
- 发现问题:当系统发生故障报警,我们会收到故障报警的信息
- 定位问题:故障邮件需要描述具体故障的内容,我们需要对报警内容进行分析故障具体原因。
- 解决问题:当然我们了解到故障的原因后,就需要通过故障解决的优先级去解决该故障。
- 总结问题:当我们解决完重大故障后,需要对故障原因以及防范进行总结归纳,避免以后重复出现。
3. 监控指标及措施
3.1 硬件
Hadoop集群和元数据库中的节点都需要监控。
功能分类 | 监控指标 | 优先级 |
---|---|---|
网络 | 延时 500ms以内丢包率 | 高 |
磁盘 | 存储占用率 80%或不足20G读写IO | 高 |
内存 | 占用率 90% | 高 |
CPU | 进程数 1024以内 | 高 |
监控措施:
- 监控人:集群运维部门,同时需要通知到Kyligence平台负责人
- 监控方式:客户需要提供监控措施,使用工具对环境中的硬件信息进行监控,并提供短信或邮件告警。
异常处理:
问题影响:环境不稳定,可能会导致集群不稳定或不可用。
问题处理:遇到问题,需要及时协调人员排查原因及解决
3.2 软件
3.2.1 Hadoop
如果是读写分离模式,包含构建和查询Hadoop集群。
功能分类 | 监控指标 | 优先级 |
---|---|---|
HDFS | 存储占用率 90%HDFS读写速度 是否占用集群吞吐60% | 高 |
Hive | Hive服务状态 | 高 |
Zookeeper | Zookeeper服务状态 | 高 |
Yarn | 能正常提交和执行任务占用资源多的构建任务 占队列50% | 高 |
Hadoop节点 | 节点状态,是否正常 | 高 |
监控措施:
- 监控人:集群运维部门,同时需要通知到平台负责人
- 监控方式:使用工具对环境中的硬件信息进行监控,并提供短信或邮件告警。
3.2.2 元数据库
功能分类 | 监控指标 |
---|---|
MySQL | 服务架构,是否合理 |
服务状态,是否可用 | 高 |
性能指标 , 读写操作延时不超过1000ms | 高 |
连接数,是否超1000 | 中 |
监控人:整理MySQL服务架构方案,确保高可用且负载均衡,配置符合产品要求规范,集群运维部门,同时需要通知到平台负责人
监控方式:客户需要提供监控措施,使用工具对环境中的硬件信息进行监控,并提供短信或邮件告警。
问题影响:MySQL环境不稳定,可能会导致集群不稳定或不可用。
问题处理:遇到问题,需要及时协调人员排查原因,确定影响及及时解决