五个数字说清工业大数据(3)
五个数字说清工业大数据(三)
(2019年3月31日)
三个优势
大数据的不同之处是什么?笔者将其归结为三个优势。正是这三个优势让我们便于从大数据中获得知识。
笔者把第一个优势称为“不必纠结于因果”。这种说法区别于“是相关,不是因果”,以及“工业大数据必须具备因果关系”。这种观点的意思是:从大数据中提炼的工业知识,要以因果关系的存在为基础,但不必按照机理逻辑去计算。比如,我们可以从数据中得到某个最优参数,但不必从理论上推导出来为什么最优。不纠结于因果,可以让知识的获取变得简单。在这个基础上,大数据可以获得靠谱的“感性知识”“经验知识”,让知识的种类大大拓展。这是大数据促进图像识别等技术发展的原因之一。
第二个优势是“样本=全体”。从应用的角度看,数据的优势不在“多”,而在“全”。“多”只会增加计算机处理的复杂性,而“全”则保证了知识的存在性。当数据能够覆盖所有场景时,“新问题”就变成了“老问题”,这时我们就可以从历史中得到所需要的经验和知识。
第三个优势是“混杂性”。这个优势可以让我们从多个角度印证知识,提高知识的可靠性,但其前提是确保大数据记录的完整性。
由此可以看出,三个优势的本质都落脚在“知识的优势”上。
大数据的优势与人的作用
工业大数据并不是天生存在的,而是要人去创造的。比如,“样本=全体”的内涵是借鉴过去的经验。然而,“世界上没有两片完全一样的叶子”。从这个角度看,其实每个问题都是独特的,“样本=全体”的理念在应用时必然涉及个性与共性的关系问题。借鉴过往经验的前提是对问题抽象、归纳、总结的结果——但这往往是人类才能做的事情,至少是人类告诉计算机该怎么做。而且,大数据记录的数据毕竟属于过去,因此,在应用于未来时,必须有办法来提高其可靠性。
再如,“不纠结于因果”的前提是以因果关系的存在为基础,只是不必按照因果逻辑去推导、计算。但是,因果关系是具有专业知识的人用专业领域知识“保证”的,而不能指望数据分析算法能“保证”。
工业界经常遇到的问题是:数据常常来自某个“工作点”附近,数据量大而相似度高、干扰相对强而信息含量相对低。这种现象会使得分析结果的可靠度降低。笔者认为,解决这个问题,可以把生产数据和实验数据结合起来,把“大数据”与“小数据”结合起来,而不是局限于生产数据本身。
(续完)
本文来源《中国冶金报》作者 郭朝晖