论坛与新闻

朝晖随笔(1) 针对工业大数据平台的备忘录

朝晖随笔(1) 针对工业大数据平台的备忘录

(2018年6月20日)

以下是我最近谈到的几个观点。简单记录一下,以防忘记。

1、大数据平台的主要用户应该是各种管理者、并非实时在线的作业人员,至多是间断型的在线。相关的业务活动常常是异常事件驱动的。这一点,与业务系统和工业互联网平台不一样。

2、要做好平台,似乎至少也要三种人:(1)用户,提出管理需求;(2)数据科学家,整理需求、变成数据可分析的事情;(3)平台建设和维护人员。否则做不好。

3、大数据平台的首要作用是针对具体问题的可追溯、可比较。而不是一般性规律的发现。形象地说,长于“见多识广”,而不是善于总结理论。

4、大数据最重要的特点是容易验证、而不至于陷入似是而非的境地。其次是可以排除噪声,让结果更准确。形象地说,便于“批判性思维”。

5、大数据的作用大小、能否发挥作用。与数据基础密切相关,这是需要事先策划的。有了分析需求再临时抱佛脚的事情,不一定能做好。

6、大数据分析的主要价值点和方向,人类大体是可知的。数据一般只是用来验证、完善、清晰化人类的想法。按照这个思路办事,就是追求用10%的精力创造90%的价值。否则,就可能是用90%的时间创造10%的价值,商业上不合算。除非学校里写论文或者特别重要,一般别碰。

7、如果数据不应用,质量就很难保证。而数据质量不保证,分析的麻烦就很大。另外,工业数据的场景太复杂,需要人来区分。这是数据分析难以提高效率的重要原因。所以,工业大数据分析问题的瓶颈主要是人,而未必在计算机性能。

8、永远要记住的是:价值是用户决定的。换了用户,价值就不一样。总体上看,越是高端用户,价值越显著。有些人说大数据分析缺少价值,其实是自己的事情太低端:这就好比兽医挣的钱不可能比御医多。

原创:清华大学软件学院访问学者 郭朝晖