宝钢数据分析师有话说(1)
(2016年12月23日)
做工业大数据,规划很重要,落地更重要。那么,一线的数据分析师怎么说?“我的一个感受是,做数据分析是非常之难的。为什么难?因为每天与各种各样的假象做斗争。”宝钢中央研究院首席研究员,教授级高工郭朝晖说。在日前的“工业大数据的特点,方法与价值创造”的分享会上,郭朝晖指出,数据质量不高,成为工业大数据发挥价值的瓶颈。
宝钢中央研究院首席研究员、教授级高工郭朝晖
郭朝晖于1997年加盟宝钢,长期从事信息,模型,自动控制,大数据等领域的技术研发工作,在企业一线积累了宝贵的经验。
他表示,工业大数据能否真正落地,取决于能否创造经济价值。要体现价值,必须找到合适的场景。而价值的持续创造,必须与日常的生产或管理流程相结合。为此,必须理解工业大数据的特殊要求,那就是可靠性。
一、可靠:工业的基本要求
工业数据分析的项目常常不了了之、虎头蛇尾。为什么呢?
业界在谈到数据应用的时候,往往是在说它好的一面,比如说数据中有信息,数据中有知识,数据是有用的;但是,业界往往会忽略其另外一面,比如说数据有假的,有错的,有偏差很大的,有暂时性的。
特别地,人们对分析结果有一个基本的要求:可靠。可靠性要求和使用价值往往是硬币的两面:如果价值很大,则往往对分析结果的可靠性要求很高;反之,对可靠性要求不高的分析,价值也不会很大。如果正确的分析结果能够带来很大的效益,错误的分析结果往往也会带来巨大的损失。
工业大数据分析结果的可靠性成为重中之重。然而,当前无论是从数据质量层面,亦或是在分析理论层面,工业大数据均面临挑战。
在工业过程中,数据质量差是种常态。在传统的分析理论,同样面临挑战。
场景一:钢铁的成分和工艺怎么提升炼钢的性能,这个模型的建立非常重要,这是钢铁工业60多年来的一个梦想。但是在建模的过程中,分析师会发现模型的精度总是提不高,不同的人会得出完全不同的模型。
是否存在精确的模型?郭朝晖的结论是:不可能的。因为数据的误差制约了模型的精度。
在实践中,郭朝晖发现,如果自变量存在显著误差,用误差最小化的优化方法,可能都存在分析结果与真实性的偏离的问题。这对传统建模理论是一个极大的冲击。
场景二:相关性与因果性。比如,A钢种,很少发生缺陷,所以不对其进行检验,B钢种容易发生缺陷,必须经常进行检验;导致的结果却是,A钢种缺陷率高,B钢种缺陷率低。
长期以来,在工业过程中,工程师往往采用前馈、反馈的手段,构成一个复杂的人造系统。所以常常有这样的现象(几乎是必然会发生的):某一个变量如果有重大影响,权重极高,分析师一定会想方设法降低其影响力。
这说明,从工业大数据中淘金,相关性分析可能是不够的。
回归分析与相关性分析,都存在某种程度的失效,工业大数据还能怎么玩?
工业条件往往不高,导致分析师不能提出不现实的数据的要求;分析的误差也比较大,因为过程中看不见的原因有很多……这都是造成最后的分析结果似是而非,不了了之。
怎么办?
(未完待续)
(原创:周冰)
(摘编自 微信公众号 大数据洞察)