中国MRO支撑平台技术社区

朝晖随笔（12）工业大数据的理论体系（1）

朝晖随笔（12）工业大数据的理论体系（一）

（2018年11月5日）

大数据的课程我讲过多次。除了给专业人人士讲，我个人几乎都不满意。有个问题一直困惑着我：“工业大数据”到底该讲什么，才不至于以偏概全？或者说，理论体系应该包含哪些内容？下面是我想到的一点原则性的观点——可以从哪些视角看待它。

1、工业大数据的意义：从DIKW体系的角度看

我用DIKW体系的观点解释大数据的意义：将人类带入智能社会。大数据够把人类带入智能社会的核心优势在于“知识”的生产和应用。我们把智能理解为“感知、决策和执行”的统一，则大数据能很好地提供“感知”和“决策”所需要的知识。

2、大数据与业务系统的关系：概念。

很多人把数据和大数据混淆起来。一个典型的表现是把业务系统（如MES、ERP）的功能说成大数据的应用，似乎只要数据都是大数据。在我看来业务系统看数据，侧重数据用于完成特定业务的一次利用。数据作为信息的载体，数据的生命周期相对较短。

大数据则侧重数据的二次利用或重复利用，数据主要作为知识的载体。当然：大数据主要由业务系统（如ERP、MES）产生、积累，并最终服务于业务系统。

3、大数据的特征：甲乙方的视角

甲乙双方看待大数据的特征是不同的。

其中，甲方就是希望通过大数据创造价值、改进业务的业务人员，而乙方是帮助甲方实现目标的IT技术人员。

大数据的甲方视角：有三个特征（样本=全体等，后面详细展开），都与获取知识相关。而获取了知识才能创造价值。大数据的乙方视角即“4V特征”。这四个特征关注的是IT技术人员数据处理的困难。

显然，乙方的工作应该服从甲方的业务需求。从这个意义上讲，乙方可能遇到4V涉及的困难、也可能遇不到，视甲方的实际情况而定。我讲的课主要是甲方视角，而IT专业人士讲的课主要是乙方视角。

4、大数据与知识获取的可行性（甲方视角、大数据特征）

（从甲方看）大数据的价值在于产生知识。人们经常提到的大数据的几个特征（样本=全体、相关非因果、混杂性），都可以归结为便于获得知识。

样本=全体。解决知识的存在性问题。人类的一切知识都来源于历史；如果大数据能够完整地记录历史，就会蕴含知识。这一点强调的是样本分布的完整性。

不拘泥于因果。一般说法的是“相关关系而非因果关系”，而我将其改为“不拘泥于因果”。人类的知识有很多种，一种是说不出来的“默会知识”、一种是说的清楚的知识；而说得清楚的知识又包括理论知识和经验知识。其中，理论知识是讲究因果的；如果有把知识拘泥于因果则是不完备的。所以，“不拘泥于因果”解决了知识完的整性问题。

混杂性。本质是知识的可获得、可验证性，保证知识的质量。获得知识的一个本质要求是区分偶然联系和非偶然联系。混杂性可以用于解决这个问题。

换句话说，这三个特点保证了知识的存在性、完整性和可获得性。这就是大数据的意义所在。我们知道：智能制造需要知识才能形成闭环、互联网可以让知识的价值放大。所以，在智能制造、工业互联网的背景下，大数据的价值猛增。

5、知识类型的角度：多角度观察

我一直认为，大数据的价值在于获得、存储和运用知识的能力。而“知识”可以分类——可以从多个维度来看：

默会知识、经验知识、理论知识。

默会知识就是说不清楚、难以变成程序代码的感性知识。例如，从图像中人是一个人、下棋时对“势”的理解，都是感性知识。

感性知识之外的经验知识。这些知识说得清楚怎么做，不一定需要说明原因。如某种方法较好、哪条路走的快等——实际上好就是好了，不一定需要解释。

理论知识就是说得清楚原因、可以解释、甚至可计算的知识。

如前所述，大数据的优势在于可以更容易地获得默会和经验知识——这在过去是很难的。过去计算机用到的知识，往往需要人们写成代码——但这只是人们大脑中的一部分知识。单纯依靠理性知识，难以实现智能化。

正向知识（建模获得）、逆向知识（根因分析）。

从原因到结果的知识，我称其为正向知识。数学建模过程就是建立正向知识。从结果到原因的知识，我称为逆向知识。就是所谓的根因分析。

联系型知识、设计型知识。

因果知识、感性知识等体现的都是信息之间的联系。而设计型的知识指的是产品、工艺设计等。设计型知识占用的计算机存储量很大。在大数据时代，设计型知识容易存储、处理了。

（未完待续）

原创：郭朝晖蝈蝈创新随笔