大数据平台监控体系

大数据平台监控体系

监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题。

1. 监控体系概述

  • 监控体系是平台的后盾,系统异常可能造成巨大的损失,有后盾才能放心冲锋,完善监控是运维人的重要工作之一。
  • 监控系统建设应该以结果为导向,告警宜准不宜多;提供告警分析辅助工具,减少定位时间;监而不控,等于没有监控。
  • 监控不仅是维稳,还应该引导提升业务体验,性能监控对持续引导优化业务体验十分重要,要找准核心指标,并提供辅助指标,核心指标要切中要害,覆盖面要广。

2. 监控体系定义

  1. 发现问题:当系统发生故障报警,我们会收到故障报警的信息
  2. 定位问题:故障邮件需要描述具体故障的内容,我们需要对报警内容进行分析故障具体原因。
  3. 解决问题:当然我们了解到故障的原因后,就需要通过故障解决的优先级去解决该故障。
  4. 总结问题:当我们解决完重大故障后,需要对故障原因以及防范进行总结归纳,避免以后重复出现。

3. 监控指标及措施

3.1 硬件

Hadoop集群和元数据库中的节点都需要监控。

功能分类 监控指标 优先级
网络 延时 500ms以内丢包率
磁盘 存储占用率 80%或不足20G读写IO
内存 占用率 90%
CPU 进程数 1024以内

监控措施:

  • 监控人:集群运维部门,同时需要通知到Kyligence平台负责人
  • 监控方式:客户需要提供监控措施,使用工具对环境中的硬件信息进行监控,并提供短信或邮件告警。

异常处理:

  • 问题影响:环境不稳定,可能会导致集群不稳定或不可用。

  • 问题处理:遇到问题,需要及时协调人员排查原因及解决

3.2 软件

3.2.1 Hadoop

如果是读写分离模式,包含构建和查询Hadoop集群。

功能分类 监控指标 优先级
HDFS 存储占用率 90%HDFS读写速度 是否占用集群吞吐60%
Hive Hive服务状态
Zookeeper Zookeeper服务状态
Yarn 能正常提交和执行任务占用资源多的构建任务 占队列50%
Hadoop节点 节点状态,是否正常

监控措施:

  • 监控人:集群运维部门,同时需要通知到平台负责人
  • 监控方式:使用工具对环境中的硬件信息进行监控,并提供短信或邮件告警。

3.2.2 元数据库

功能分类 监控指标
MySQL 服务架构,是否合理
服务状态,是否可用
性能指标 , 读写操作延时不超过1000ms
连接数,是否超1000
  • 监控人:整理MySQL服务架构方案,确保高可用且负载均衡,配置符合产品要求规范,集群运维部门,同时需要通知到平台负责人

  • 监控方式:客户需要提供监控措施,使用工具对环境中的硬件信息进行监控,并提供短信或邮件告警。

  • 问题影响:MySQL环境不稳定,可能会导致集群不稳定或不可用。

  • 问题处理:遇到问题,需要及时协调人员排查原因,确定影响及及时解决

作者

Benjamin

发布于

2018-03-10

更新于

2021-09-26

许可协议

评论