郭朝晖谈:数据很重要,但本质原因是什么?(1)
做创新,为什么要认识问题的本质。我想,是想知道做什么是真正重要的,是为了避免走入歧途、陷入细枝末节。昨天,我在微信朋友圈中发了一段话,探讨数据和大数据的本质:“数据之所以重要,是因为它能被计算机处理;大数据之所以重要,是因为它便于提炼共性。”这段“废话”到底意味着什么呢?
我想从人类的理想谈起。自由是人类追求最终理想。所谓自由,前提是可以不做自己不喜欢的事。繁重的体力劳动、枯燥的脑力劳动都是人不愿意做的。所以,人类必须把这些工作交给机器去做,这就是自动化。
我们知道,重复性的工作,自动化可以做得很好。强调“重复性”其实是成本问题,重复的次数越多,成本越低。但“重复性”还有个前提,就是边界条件或环境相对稳定。如果外部环境不断变化,重复性的工作也很难做。传统的自动化也能在一定程度上应对变化,而智能化就是能应对更复杂的变化。例如,自动驾驶就是应对路况的各种变化。从这种意义上讲,智能化本质上是高级的自动化。只要应对变化,就要获得并处理这些时刻变化的信息。要实现自动化或智能化,关键就是信息的自动处理。
数字化为什么重要?因为数字化才能被计算机处理,才能摆脱人,才能实现自动化、智能化。
如何处理信息?这就需要知识。有了知识,我们才会知道信息意味着什么。比如,红灯意味着需要停车。
要实现自动化,知识必须让计算机处理。传统的做法,是用编程序的办法,把知识变成程序代码。
然而,人的很多知识自己都说不清楚。比如,开车的都有一条知识:“看到老年人过马路要慢一点”。那么,多远开始减速?慢到什么程度,如何识别老人?如何判断老人想过马路? 对待不同年龄的老人有什么不同?.... 把这些知识用代码编出来就太难了。而且,我们甚至不知道机器应该知道多少类似的知识,才能实现自动驾驶。由此可见,智能化并不容易。这个困难一直困惑着我们。
知识的表达成为关键困难时,人们想到的办法就是让机器自己去学习。学习就是获取知识。
原创:郭朝晖
(续完)
(选编自 微信公众号 蝈蝈创新随笔)