论坛与新闻

朝晖随笔(10)工业大数据分析之道:机理与数据分析的知识融合

朝晖随笔(10) 工业大数据分析之道:机理与数据分析的知识融合

(2018年10月8日)

一天中午,两位曾在宝钢工作过的年轻朋友约我喝茶,谈起工业大数据建模问题。期间我谈到一个体会:领域专家往往鄙视数据模型,而数据分析师则以为只要有了数据就可以解决问题、不愿意花功夫了解机理。

我认为:工业数据建模的真正出路是数据与机理的融合:机理主要解决的是定性的问题,而数据是要解决定量的问题,两者无法相互代替。没有机理,难以判断模型的对错、适用范围的大小、模型的可靠性不会太高;没有数据,我们难以给出定量的结果。直接从机理出发的建模,不适合复杂的模型:因为数据不足以保证模型的准确和可靠性。

然而,关键的问题是如何融合起来。

我见过很多人有这样的思考习惯:谈机理的时候用的是领域的术语、谈数据分析时用的是数据分析的术语——两种知识在同一个人的脑子里都融合不起来,又怎么能在建模过程中融合起来?

我的经验是:要进行这种融合,首先是学会用数学的语言,描述对机理的定性认识。比如,在材料学领域,人们强调多种强化机制的时候,往往意味着强化机制是“可加的”;析出物长大意味着其强化作用是“非线性的”;析出物的互溶意味着两者的强化作用“不可加”。工艺能够影响析出,意味工艺和成分有“交互作用”。两种元素形成化合物时,各自线性回归的系数含义是不一样的:过剩一种反映的是该元素自身的作用,而不足的一种反映的是化合物的作用......这样,就把对机理的认识,转化成数学的语言。把两类知识在人的脑子里融合起来,并在建模的过程中体现出来。这样,就自然而然地体现了融合。

然而,有的人认为:复杂的机理模型是“高大上的”;另一些人则认为:复杂的算法才是“高大上的”。他们在各自的领域内,都可以称为权威人士,很有发言权。但在我看来,能够把复杂问题拆分成若干简单的问题,让机理和数据分析融合起来,才是“高大上的”。

原创 郭朝晖