论坛与新闻

工业大数据中的质量问题及解决方案探索(1)

工业大数据中的质量问题及解决方案探索(一)

(2019年10月8日)

工业大数据,已经成为工业企业非常依赖的新型重要资产。数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力。

工业大数据从数据的来源看,主要包括三类:企业经营相关的业务数据、机器设备互联数据和企业外部数据。其中机器设备互联数据是工业大数据的主体,并且具有较多质量问题。主要包括以下几类。

规范性问题,数据的采集和加工是否遵循统一的规范标准。

工业各个细分领域的数据标准规范建设存在极大的不平衡性。大量领域缺乏统一的数据标准,部分领域有数据标准但实现情况参差不齐。从数据采集角度看,不同的数据采集厂商提供的采集设备的协议点表定义不一致且封闭。工业企业内部生产的不同批次或型号的产品本身的采集点和字段定义不统一,更新频繁且缺乏统一授信源和有效管理。从数据加工角度来看,由于缺乏指标计算的标准,不同业务部门对于原始数据加工计算逻辑理解不一致会导致计算结果有偏差。

短期来看,可以在数据接入的过程中进行实时处理,基于业务需要设置数据映射、清洗规则。例如在流处理过程中引入协议对照表将不同的字段名称统一到单一字段,进行单位的换算统一,基于规则填补缺失值等。长期来看,需要推动建立并遵循统一的数据采集和计算标准规范。

完整性问题,数据是否存在缺失记录或缺失字段。

工业大数据领域数据完整性问题主要原因包括前端数采程序回传不稳定,数据协议不统一且频繁变更等。工业大数据中机器数据主要来自于传感器、设备、过程控制系统等,且生产网络环境也较为复杂,在建设过程中采集点的设置和命名比较随意等一系列问题都会导致数据存在各种完整性的问题。

从监控的角度来说,针对完整性问题可以采用统计的方法来发现问题,发现问题后再逐层下钻检查。统计方法包括数据增量统计、数据趋势统计、数据完整度计算等。统计维度可以根据具体需求设置为按表统计,按业务对象统计,按时间区间统计等。综合各维度的统计,基于业务理解可以定义出一系列告警规则。例如,某台设备有10个采集点,采集频率均为1s,7x24小时持续采集数据。那么理论上每天采集的数据点为864000点。基于这个基线,那实际采集的数据点数就可以算出当天的数据完整度百分比。如果不是匀速采集,而是有规律的波峰和波谷,则可以根据监测值画出曲线进行比较。

正确性问题,数据是否与其对应的客观实体的特征相一致。

在工业数据采集过程中存在协议点表不正确、传感器异常、数据解析错误等一系列问题会导致数据取值错误。例如协议点表的变更使解析完的数据产生错列问题,传感器故障返回错误数据、传感器增减等。

针对数据正确性可以通过前置或后置的审计核查规则进行验证。例如,数据解析导致的错列问题会使字段的定义和实际取值不一致,对于这些数据首先需要通过核查规则过滤出来,但是不能简单丢弃。因为这些数据本身是有效的,可以经过后处理二次入库。另外,对于某些字段可以通过业务知识定义出更严格的核查规则,例如值域范围等。这种规则不仅能对数据进行更严格的检查,还能结合业务知识识别出数据背后表征的不良工况,设备异常等。

(未完待续)

原创: 杨锐 感悟工业互联网