中国MRO支撑平台技术社区

工业大数据架构分析（9）

工业大数据架构分析（九）

（2019年3月10日）

1.2.3 数据计算

大数据系统通常需要能够支持多种任务，包括处理结构化表的SQL引擎、计算关系的图处理引擎和进行数据挖掘的机器学习引擎，其中面向SQL的分析主要有交互式查询、报表、复杂查询、多维分析等(如表3)。

表3

1)实时计算引擎，包括Storm、Spark Streaming、Flink等业界通用架构，适用于基于窗口或消息的实时数据处理，结果响应的时延要求在毫秒级。

2)离线计算引擎，包括MapReduce、Spark、Hive，适用于批数据分析和定时分析等。

3)图计算引擎，适用于事件及人之间的关联关系分析。

4)数据综合分析OLAP，如MPP数据库，适用于综合报表分析。

5)业务交互查询OLTP，如MySQL、SQLServer、Oracle、PostgreSQL等，适用于交互式查询分析。

6)分布式数据库中间件，可解决数据库容量、性能瓶颈和分布式扩展问题，提供分库分表、读写分离、弹性扩容等能力，适用于海量数据的高并发访问场景，有效提升数据库读写性能。

7)数据挖掘能力，为了能够匹配工业大数据决策与控制应用的5大场景，特别是诊断类、预测类、决策类应用闭环的要求，系统应该具备完善的机器学习、深度学习、图计算等平台级能力。机器学习能力如基于开源Spark框架推出的算法库MLlib、GraphX等；深度学习有TensorFlow、Caffe、MXNet等平台；图计算能力，业界相对比较流行的开源产品有Titan，另外还有很多优秀的商业产品可供选择。

总体来说，大数据平台的计算组件需要能支持批量和实时两大类任务，同时具备精细化的任务和资源调度的能力。

（未完待续）

（摘编自微信公众号信息通信技术联通智汇）