宝钢数据分析师有话说(2)
(2016年12月26日)
二、提高数据质量 采用合理的分析方法
可靠性是工业大数据的灵魂,这与商务大数据(包括互联网大数据)具有本质的不同。那么,怎么提高工业大数据的可靠性?数据质量和分析方法(思路),成为两大关键,而组织好数据是基础。
郭朝晖表示,在思维上,要认识到工业大数据要求数据的完整性与真实性,包括存储数据时的真实性,组织数据时的结构化,分析数据时的预处理。
如果在开始时,数据没有进行很好的组织,到最后肯定是分析不出结果的。因此,要想把工业大数据用好,在分析阶段,在组织数据和收集数据时,就该想到数据是干什么用的,否则很有可能收集到的数据是不能用的。
“首先是为人的分析创造条件,然后才能有自动化的分析。”郭朝晖说。
2013年3月,IBM公司在发布的《分析:大数据在现实世界中的作用》白皮书中,对大数据的4V理论进行了修改,把其中的商业价值(Value)修改为Veracity(真实性)。IBM认为,“前3个V涵盖了大数据本身的关键属性,但真实性是当前企业亟需考虑的重要维度,将促使他们利用数据融合和先进的数学方法进一步提升数据的质量,从而创造更高价值。”
据介绍,对于真实性,宝钢老专家王洪水认为,真实性首先是数据的完整性,数据之间的联系要尽可能完整地记录下来。而郭朝晖认为,我们不仅要知道数据是什么,还要知道数据是怎么来的。有时候,这比数据本身更重要,是分析问题的关键所在。
一个完整性,不仅仅包含过程本身、对象本身的完整性,还要包含数据本身的逻辑的完整性。这样,在使用的时候,才能不被假象所误导。事实上,“做数据分析的,本身就是不断地与假象做斗争。”
有专家认为,数据分析无非有两种方法,一种是先对数据的分布做出某种假设,结论的正确性依赖于假设的正确性;另外一种不作出假设,直接根据数据之间的关联得出结论。所有的方法,离不开这两种。如果第一种方法的前提可行,结论一定是可靠的。但现实问题却是:数据分布往往不能满足某些分析方法的要求。
郭朝晖认为,为此要把分析的重点转到幕后去,也就是在原始数据的基础上,通过人工分析来选定数据和创造条件,从而得到一个可靠的统计的办法。
“绝对可靠是不存在的。我们只能得到相对的可靠。如果从多个维度去论证其合理性,并且没有明显的反例,我们或许就可以认可这个结论。”
从数据到数据的方法就像是坐井观天:因为我们不知道数据产生背后的原因。同时,工业界的数据往往是多维度的,如果仅仅想从数据本身证明某个结论,数据量往往是不够的。
“一定要把知识和机理融合进去,当这两者同时满足时,才有可能得到一个可靠的结果。”
(未完待续)
(原创:周冰)
(摘编自 微信公众号 大数据洞察)