工业大数据架构分析(9)
工业大数据架构分析(九)
(2019年3月10日)
1.2.3 数据计算
大数据系统通常需要能够支持多种任务,包括处理结构化表的SQL引擎、计算关系的图处理引擎和进行数据挖掘的机器学习引擎,其中面向SQL的分析主要有交互式查询、报表、复杂查询、多维分析等(如表3)。
表3
1)实时计算引擎,包括Storm、Spark Streaming、Flink等业界通用架构,适用于基于窗口或消息的实时数据处理,结果响应的时延要求在毫秒级。
2)离线计算引擎,包括MapReduce、Spark、Hive,适用于批数据分析和定时分析等。
3)图计算引擎,适用于事件及人之间的关联关系分析。
4)数据综合分析OLAP,如MPP数据库,适用于综合报表分析。
5)业务交互查询OLTP,如MySQL、SQLServer、Oracle、PostgreSQL等,适用于交互式查询分析。
6)分布式数据库中间件,可解决数据库容量、性能瓶颈和分布式扩展问题,提供分库分表、读写分离、弹性扩容等能力,适用于海量数据的高并发访问场景,有效提升数据库读写性能。
7)数据挖掘能力,为了能够匹配工业大数据决策与控制应用的5大场景,特别是诊断类、预测类、决策类应用闭环的要求,系统应该具备完善的机器学习、深度学习、图计算等平台级能力。机器学习能力如基于开源Spark框架推出的算法库MLlib、GraphX等;深度学习有TensorFlow、Caffe、MXNet等平台;图计算能力,业界相对比较流行的开源产品有Titan,另外还有很多优秀的商业产品可供选择。
总体来说,大数据平台的计算组件需要能支持批量和实时两大类任务,同时具备精细化的任务和资源调度的能力。
(未完待续)
(摘编自 微信公众号 信息通信技术 联通智汇)