中国MRO支撑平台技术社区

工业大数据中的质量问题及解决方案探索（2）

工业大数据中的质量问题及解决方案探索（二）

（2019年10月11日）

一致性问题，相同实体的相同属性值在不同数据集中的描述是否一致。

工业领域中对于相同实体会产生大量异构数据，这些数据采集于不同数据源，服务于不同系统，遵循的标准不同，但是都是从不同角度来描述同一实体。工业大数据要做的就是把这些多源异构数据叠加业务维度进行建模整合，提供给数据分析、应用开发，以提高效率。而现实情况是不同来源数据的元数据定义通常不同，不同型号的设备对同一传感器产生的数据定义的名称不同，更糟糕的是很多非结构化的数据缺乏对于元数据的抽取和定义。另外，对于元数据属性的定义不是一次性的工作，基于新的业务需求会进行变更和持续定义新的属性和维度。在工业大数据领域对于一致性的要求是敏捷的一致性。

在无法从数据源头进行统一定义的前提下，我们可以在数据统一汇聚的阶段进行治理。在ETL的过程中对元数据进行统一映射，构建对于非结构化数据的元数据抽取、建模平台，允许对于元数据模型的修改与更新。考虑在元数据定义之外提供灵活的标签和属性的定义。构建统一的元数据检索引擎支持全局检索。

重复性问题，数据是否存在重复记录。

工业大数据的数采系统通常会通过采集端缓存等手段缓存一定时间的历史数据。在数据回传过程中，由于网络超时异常、回传程序异常或中心侧接数异常等原因导致接收到一定比例的重复数据。重复数据会导致后续的数据分析产生错误的结果，进而导致错误的决策。例如，工程机械的开工率统计是基于工作时长来计算的，如果重复数据不经过处理可能会算出错误的开工时长，甚至出现出现一天超过24小时的荒谬结果。

为了防止垃圾进垃圾出，对于重复数据的治理可以采用前置处理和后置处理两种策略。前置处理是指在数据最终落库前识别并去重。这种策略的好处是保证最终落库的数据不存在重复数据，减轻数据查询引擎的负担。坏处是前置处理通常还要考虑处理时延，重复数据的比较计算延长数据落库的时间。后置处理是指在数据查询的时候进行去重。这种策略的好处是能降低数据接入系统的复杂度，减少数据落库时延。坏处也显而易见，增加了数据查询引擎的复杂度，增长了查询时延。采取什么治理策略需要根据接入和查询的工作负载特性和系统设计目标进行合理取舍。

时效性问题，能否及时满足工业应用的访问需求。

工业领域数据在应用角度服务于研发设计、监控告警、指标统计和数据挖掘等一系列不同场景。这些场景对于数据的时效性有不同的要求。监控告警这类场景就要求数据及时入库，指标统计能够容忍合理的入库时延，而历史数据上的机器学习的宽容度就更大。

这就要求数据采集和接入系统在设计上和部署架构上需要考虑不同场景的需求进行针对性的设计。例如，针对及时性要求高的场景在部署上尽量靠近数据源，在接入设计上尽量保证较小的时延。这时云加端的架构就比较合理。而对于历史数据的存储则可以牺牲一定的时延来保证数据的清洗和治理需求。

（续完）

原创：杨锐感悟工业互联网