论坛与新闻
论坛与新闻

用大数据思维做运维监控的一种体验(3)

用大数据思维做运维监控是怎样一种体验?(三)

(2016年9月22日)

4 大数据思维

对于运维的监控,利用大数据思维,需要分三步走:

  • 找到数据
  • 分析定义从数据里中我能得到什么
  • 从大数据平台中挑选你要的组件完成搭积木式开发

所有系统最可靠的就是日志输出,系统是不是正常,发生了什么情况,我们以前是出了问题去查日志,或者自己写个脚本定时去分析。现在这些事情都可以整合到一个已有的平台上,我们唯一要做的就是 定义处理日志的的逻辑 。

图4

这里有几点注意的:

如果你拥有复杂的产品线,那么日志格式会是一个很痛苦的事情。以为这中间Storm(或者SparkStreaming)的处理环节你需要做大量的兼容适配。我个人的意见是,第一,没有其他更好的办理,去兼容适配吧,第二,推动大家统一日志格式。两件事情一起做。我一个月做不完,那我用两年时间行么?总有一天大家都会有统一的日志格式的。

如果你的研发能力有富余,或者有大数据团队支撑,那么可以将进入到SparkStreaming中的数据存储起来,然后通过SparkSQL等做即席查询。这样,有的时候原先没有考虑的指标,你可以直接基于日志做多维度分析。分析完了,你觉得好了,需要固化下来,那再去更新你的SparkStreaming程序。

后话

我做上面第一幅图架构实现时,从搭建到完成SparkStreaming程序开发,到数据最后进入HBase存储,大概只花了一天多的时间。当然为了完成那个Trace的指标分析,我修改ServiceFramework框架大约改了两三天。因为Trace分析确实比较复杂。当然还有一个比较消耗工作量的,是页面可视化,我这块自己还没有能力做,等招个Web开发工程师再说了。

(原标题:教程 | 用大数据思维做运维监控是怎样一种体验?)

(续完)

(摘编自 公众微信号:36大数据 作者:祝威廉 / 编辑 严进军)