中国MRO支撑平台技术社区

五个数字说清工业大数据（3）

五个数字说清工业大数据（三）

（2019年3月31日）

三个优势

大数据的不同之处是什么？笔者将其归结为三个优势。正是这三个优势让我们便于从大数据中获得知识。

笔者把第一个优势称为“不必纠结于因果”。这种说法区别于“是相关，不是因果”，以及“工业大数据必须具备因果关系”。这种观点的意思是：从大数据中提炼的工业知识，要以因果关系的存在为基础，但不必按照机理逻辑去计算。比如，我们可以从数据中得到某个最优参数，但不必从理论上推导出来为什么最优。不纠结于因果，可以让知识的获取变得简单。在这个基础上，大数据可以获得靠谱的“感性知识”“经验知识”，让知识的种类大大拓展。这是大数据促进图像识别等技术发展的原因之一。

第二个优势是“样本=全体”。从应用的角度看，数据的优势不在“多”，而在“全”。“多”只会增加计算机处理的复杂性，而“全”则保证了知识的存在性。当数据能够覆盖所有场景时，“新问题”就变成了“老问题”，这时我们就可以从历史中得到所需要的经验和知识。

第三个优势是“混杂性”。这个优势可以让我们从多个角度印证知识，提高知识的可靠性，但其前提是确保大数据记录的完整性。

由此可以看出，三个优势的本质都落脚在“知识的优势”上。

大数据的优势与人的作用

工业大数据并不是天生存在的，而是要人去创造的。比如，“样本=全体”的内涵是借鉴过去的经验。然而，“世界上没有两片完全一样的叶子”。从这个角度看，其实每个问题都是独特的，“样本=全体”的理念在应用时必然涉及个性与共性的关系问题。借鉴过往经验的前提是对问题抽象、归纳、总结的结果——但这往往是人类才能做的事情，至少是人类告诉计算机该怎么做。而且，大数据记录的数据毕竟属于过去，因此，在应用于未来时，必须有办法来提高其可靠性。

再如，“不纠结于因果”的前提是以因果关系的存在为基础，只是不必按照因果逻辑去推导、计算。但是，因果关系是具有专业知识的人用专业领域知识“保证”的，而不能指望数据分析算法能“保证”。

工业界经常遇到的问题是：数据常常来自某个“工作点”附近，数据量大而相似度高、干扰相对强而信息含量相对低。这种现象会使得分析结果的可靠度降低。笔者认为，解决这个问题，可以把生产数据和实验数据结合起来，把“大数据”与“小数据”结合起来，而不是局限于生产数据本身。

（续完）

本文来源《中国冶金报》作者郭朝晖