工业大数据架构分析(8)
工业大数据架构分析(八)
(2019年3月7日)
1.2.2 数据存储
工业大数据系统接入的数据源数量大类型多,需要能支持TB到PB级多种类型数据的存储,包括关系表、网页、文本、JSON、XML、图像等数据库,应具备尽可能多样化的存储方式来适应各类存储分析场景,总结如表2。
表2
在不同的工业数据应用场景中,数据存储的介质选择十分重要,下面列举一些经典的使用场景来介绍如何选择存储技术。
1)实时监控数据展示:通常情况下实时采集的监控数据在进行轻度的清洗和汇总后会结合Web UI技术实时展现生产线的最新动态。这类及时性互动性高的数据一般使用内存数据进行存储,如Redis、Ignite等技术,可以快速响应实时的查询需求。
2)产线异常的分析与预测:使用机器学习技术对产线数据进行深入挖掘分析运行规律,可以有效地对产线的异常进行分析和预测,进而改善制程、减少损失、降低成本及人为误判的可能性。这类用于分析的历史数据一般选择使用HDFS、Cassandra等分布式储存,适用于海量数据的探索和挖掘分析。同时,对于这类与时间顺序强相关的分析场景,数据的存储可以选择In?uxDB这类时序数据库,可以极大提高时间相关数据的处理能力,在一定程度上节省存储空间并极大地提高查询效率。
3)商业智能:如果需要整合多种数据来制作商业策略性报表,适合使用结构化储存,比如传统的关系型数据库,MySQL、Oracle等。如果需要考虑性能和及时性,可以考虑分类存储至NoSQL数据库,如Cassandra、HBase与Redis等。
(未完待续)
(摘编自 微信公众号 信息通信技术 联通智汇)