论坛与新闻
论坛与新闻

工业大数据架构分析(9)

工业大数据架构分析(九)

(2019年3月10日)

1.2.3 数据计算

大数据系统通常需要能够支持多种任务,包括处理结构化表的SQL引擎、计算关系的图处理引擎和进行数据挖掘的机器学习引擎,其中面向SQL的分析主要有交互式查询、报表、复杂查询、多维分析等(如表3)。

表3

1)实时计算引擎,包括Storm、Spark Streaming、Flink等业界通用架构,适用于基于窗口或消息的实时数据处理,结果响应的时延要求在毫秒级。

2)离线计算引擎,包括MapReduce、Spark、Hive,适用于批数据分析和定时分析等。

3)图计算引擎,适用于事件及人之间的关联关系分析。

4)数据综合分析OLAP,如MPP数据库,适用于综合报表分析。

5)业务交互查询OLTP,如MySQL、SQLServer、Oracle、PostgreSQL等,适用于交互式查询分析。

6)分布式数据库中间件,可解决数据库容量、性能瓶颈和分布式扩展问题,提供分库分表、读写分离、弹性扩容等能力,适用于海量数据的高并发访问场景,有效提升数据库读写性能。

7)数据挖掘能力,为了能够匹配工业大数据决策与控制应用的5大场景,特别是诊断类、预测类、决策类应用闭环的要求,系统应该具备完善的机器学习、深度学习、图计算等平台级能力。机器学习能力如基于开源Spark框架推出的算法库MLlib、GraphX等;深度学习有TensorFlow、Caffe、MXNet等平台;图计算能力,业界相对比较流行的开源产品有Titan,另外还有很多优秀的商业产品可供选择。

总体来说,大数据平台的计算组件需要能支持批量和实时两大类任务,同时具备精细化的任务和资源调度的能力。

(未完待续)

(摘编自 微信公众号 信息通信技术 联通智汇)