中国MRO支撑平台技术社区

工业大数据架构分析（8）

工业大数据架构分析（八）

（2019年3月7日）

1.2.2 数据存储

工业大数据系统接入的数据源数量大类型多，需要能支持TB到PB级多种类型数据的存储，包括关系表、网页、文本、JSON、XML、图像等数据库，应具备尽可能多样化的存储方式来适应各类存储分析场景，总结如表2。

表2

在不同的工业数据应用场景中，数据存储的介质选择十分重要，下面列举一些经典的使用场景来介绍如何选择存储技术。

1)实时监控数据展示：通常情况下实时采集的监控数据在进行轻度的清洗和汇总后会结合Web UI技术实时展现生产线的最新动态。这类及时性互动性高的数据一般使用内存数据进行存储，如Redis、Ignite等技术，可以快速响应实时的查询需求。

2)产线异常的分析与预测：使用机器学习技术对产线数据进行深入挖掘分析运行规律，可以有效地对产线的异常进行分析和预测，进而改善制程、减少损失、降低成本及人为误判的可能性。这类用于分析的历史数据一般选择使用HDFS、Cassandra等分布式储存，适用于海量数据的探索和挖掘分析。同时，对于这类与时间顺序强相关的分析场景，数据的存储可以选择In?uxDB这类时序数据库，可以极大提高时间相关数据的处理能力，在一定程度上节省存储空间并极大地提高查询效率。

3)商业智能：如果需要整合多种数据来制作商业策略性报表，适合使用结构化储存，比如传统的关系型数据库，MySQL、Oracle等。如果需要考虑性能和及时性，可以考虑分类存储至NoSQL数据库，如Cassandra、HBase与Redis等。

（未完待续）

（摘编自微信公众号信息通信技术联通智汇）