论坛与新闻
论坛与新闻

郭朝晖谈:数据很重要,但本质原因是什么?(2)

郭朝晖谈:数据很重要,但本质原因是什么?(二)

2017829日)

那么,知识是什么?知识是一种关联信息的关联:一种信息告诉我们发生了什么,另外一种信息告诉我们会发生什么。现实中,两类关联可能不是绝对的,但可重复性一定是比较强的——比较强才有实际意义啊。关联强又意味着什么?意味着共性:两类信息先后顺次发生,具有一定的普遍性。有了大数据、有了大量的案例,才有可能提取这样的共性,才有可能形成知识。

这样,我们就理解了:“数据之所以重要,是因为它能被计算机处理;大数据之所以重要,是因为它便于提炼共性。”

但是,理解了这句话,对我们有什么用呢?一个显然的工作就是:数据处理和共性提炼是未来极其重要的工作。

按照DIKW体系的观点,数据(D)处理的关键是提炼信息(I),而信息的关联是知识(K)。当提炼信息、提炼知识能做到“自动化”的时候,知识的完备性大大加强时,就可以设法实现信息感知、决策和执行的自动化,也就开始具备智慧(W,其实叫智能或许更合适)。这时,机器就可以代替人类的很多工作时,人类自由的时代就临近了。

接着,我们把认识再深入一步:我们的重要工作是为数据的处理、知识的提炼奠定基础。孔子说:预则立,不预则废。要把数据处理好、提炼出知识,首先是数据本身包含信息和知识。

按照DIKW体系的观点,数据之间的关联非常重要,数据有了关联才能形成信息,否则数据就不包含金子,而是真正的垃圾。这意味着,收集数据的时候,就要讲究方法。就像我的师傅王洪水先生说的那样,“让数据像录像一样,完整地记录相关过程”。在数据的记录过程中,人的参与往往是信息的断点。收据收集时要尽量减少人的介入。这就是宝钢人常说的“数据不落地”。

从这种意义上说,我们不主张随便把数据收集起来,然后再想如何处理,而是事先为处理数据奠定条件。汽车跑得快,关键的约束往往是路况,而不是车子的性能。同样,数据条件不好,处理水平再高也分析不出什么东西。

我有个观点:一个技术之所以难,往往是因为相关的条件不具备。进入数据时代,要想技术领先,关键是花时间去奠定相关基础,而不是针对一堆垃圾数据使蛮力。条件好了,高技术往往是水到渠成的。

原创:郭朝晖

(续完)

(选编自 微信公众号 蝈蝈创新随笔)