中国MRO支撑平台技术社区

工业大数据分析的误区与建议（上篇）（1）

工业大数据分析的误区与建议（上篇）（一）

（2016年9月5日）

前言

作为数据价值变现的核心技术手段之一，大数据分析的作用被广泛宣传甚至神化。对于工业大数据分析，产业界存在有不少困惑。是不是把商业大数据分析照搬过来就是就足够了？只要有了海量数据，大数据分析是不是不需要任何假设前提了？是不是机理模型或领域经验就不重要了？工业大数据分析有没有典型的范式来指导实际操作？从行业数据分析实践者的角度，本文上篇剖析工业大数据分析的常见误区与正确的价值变现之路；下篇归纳了工业大数据的典型分析范式，归纳为6类算法应用模式、4种融合模式和3类业务应用模式。

上篇:工业大数据“大,不一样”

在与工业企业的交流中，笔者感受到业界对大数据分析的期望与“神化”。

谓之“神化”，是由于大数据应用在国内外实践产生的案例，在提质增效及个性化服务方面，产生的利润与之煽动的蝴蝶效应，让有些工业企业以为只要安装了传感器，能把数据采集下来，就能让数据说话，就能从上千种因素中定位出故障原因，就能精准指导研发、生产、运营。甚至误认为经典的机理模型或多年积累的经验不再重要。

然而脱离机理与领域知识的大数据分析结果常常是“你以为你以为的不是你以为的”。

图1

工业大数据的“小”与“大”

从传统大数据3V（Volume, Velocity, Variety）或4V（Veracity）度量角度来看，工业数据当然属于大数据的范畴，在体量上甚至超过互联网大数据[1]。然在数据分析中仍不时感觉到工业数据之“小”，主要体现在3个方面。

1）价值密度：王建民教授曾指出[2]，相对于产品图纸、工艺设计等传统“小”数据，工业“大”数据的价值密度低。工业大数据分析无法脱离这些基础信息的支撑，不举小数据之“纲”，难行大数据之“目”。

2）大数据永远是物理世界的“小”样本：以SMT(Surface Mount Technology)生产线为例，最终产品质量由工艺参数、材料特性、生产设备等上千个参数共同影响，生产检测大数据仅仅覆盖了很小的参数组合空间（curse of dimension）。并且不是所有关键因素都有测量，测量值也不一定能反映分布式参数系统的全部（比如回流焊的温度监测值并不等于电路板的表面温度）。工业数据分析更需要利用先验知识缩小搜索空间，同时保持一种“大胆探索、小心求证”的态度。

3）对分析有直接意义的样本比例通常很小：工业通常是运行在设计的常态模式下，对不期望的干扰因素会进行很多压制，造成绝大部分数据对应非常相似的环境与过程。特别对于故障分析、残次品因素分析等大数据分析，样本不均衡程度非常高(biased data)。虽然物理系统相对社会系统更容易做一些控制性实验，但由于很多工业领域控制实验（比如风机叶片断裂、油气管道泄漏等）成本或风险太高，实际上也很难提供足够的异常情形样本。

因此，工业大数据的“大”不能仅从数据量、数据类型、产生速度、质量等角度来看，而应考虑以下两个方面。

1）维度之大：风力发电机组的健康分析应该从时间（过去故障记录、整机性能演化等）、空间（相同机型在不同风场的表现）、环境（气象、地理）、业务运作（设计、维修、限电等）等多个维度综合来看。独立看似异常的事件，很多其实是正常业务操作引起的（如风机功率低可能是由于启动限功率运行模式以降低对居民区的影响）。对于工业数据，更应构建全面的上下文(context model)，才有可能分析出一些有价值的结果。

2）先验知识基础之大：工业领域通常有大量的机理模型、专家经验的深厚积累，可以为数据分析缩小参数空间、提供有用的特征变量（如齿轮箱震动的倒谱参数），数据分析也应思考如何有这些基础更好的互动与融合，以期创造更大的价值。

（未完待续）

（原创：田春华摘编自：微信公众号昆仑科技K2Date / 编辑严进军）

作者介绍

田春华：昆仑智汇数据科技（北京）有限公司首席数据科学家。2004年1月清华大学自动化系博士毕业。2004年-2015年在IBM中国研究院，负责数据挖掘算法研究和产品工作，在高端装备制造、石油石化、新能源、航空与港口等行业，帮助中国、亚太、欧美领先企业，成功实施资产管理、运营优化、营销洞察等各类数据分析项目。发表学术论文（长文）82篇（第一作者42篇），拥有36项专利申请（10项已授权）。研究兴趣是数据挖掘算法与应用。