论坛与新闻

大数据的真命题和伪命题1

大数据里的真命题和伪命题(一)

(2015年9月24日)

编者的话:本文从另一个角度看待大数据,对我们全面认识大数据有着借鉴意义,也希望大家在“咨询社区”进行讨论。

大数据必会深刻的改变这个世界,这点是毋庸置疑的,但从很多当下的讨论来看,大家似乎在大数据的使用边界上走入了误区,这篇文章想具体探讨下大数据能干什么以及不能干什么上的原则问题。

一、大数据与预测

人们总是想预测未来,因为这样经济收益会非常大,作为结果就经常看到大数据与票房预测的故事,有时准,有时不准。

大数据确实可以用来做预测,但是有能力边界的,影响这个能力边界的关键因素就是索罗斯经常说的反身性。反身性说的是:参入者的思维与参入的情景之间相互联系与影响,彼此无法独立,认知与参入处于永远的变化过程之中。反身性之所以对预测有影响,是因为它会导致出现不连续的变化。

这在逻辑上很好理解,当一件事物是连续变化的,你比较容易计算出它未来的状态,比如汽车,我们只要知道他的速度,那就比较容易预测它下一刻的位置。但如果是充满突变的混沌系统,这种预测就很难实现,汽车本来走的好好的,突然从路边涌上一群羊,那它当然不会出现在本来预测的那个位置。所以做预测,第一关键是这系统是不是一个混沌系统,在充满偶然的混沌系统里,基于数据的预测是无效的。而反身性正是导致混沌蝴蝶会出现的一个关键因素。

当我们去观察某个系统并采取行动时,系统本身会因为我们的观察和行动发生改变,这就是反身性。而当每个人都这么做时,那被观察和操作的系统就会变成混沌系统。金融市场已经充分说明了这点,如果大数据在预测上是没边界的,那只要掌握了大数据就应用技巧,那在金融市场上就没人不会赔钱,但显然这是不可能的,最多是不同人输赢的概率不同。

二、容易预测的与不容易预测的

如果一种现实更多的依赖于某些不易改变的因素,比如一种文化传统、一种生物特性,那这种现实是容易被预测的;如果一种现实更多的依赖于可被瞬间改变的因素,比如:人们的心情,那这种现实是不容易预测的,甚至是不可预测的。

具体来讲,人们生病后会检索自己的相关症状,而传染病会扩散,因此Google那种监测传染病暴发区域,以及预测其可能扩散路径的大数据使用方式是极为有效的。在这里反身性并不起太大作用。

但股票就不行,因为你在预测,别人也在预测,买家和卖家的行动又不一致,这就会使股票市场成为混沌系统。究竟怎么样才能用大数据预测到国内这波股票的上涨呢?

同传染病和股票市场相比,电影票房的可预测性则在两者之间。有必然性在支撑,比如基本上很垃圾的电影很难有好的票房,但偶然性影响也很大,你不好预测那个点戳到了人们的哪根神经,它突然就变火了。谁能预测泰囧的10亿票房呢?所以我的判断是在票房预测上,不管大数据怎么发展,它始终会处在时灵时不灵的状态上,因为这根本不是个技术问题。

总结来看,反身性作用越大的领域越不容易预测,反之则预测的帮助会比较大。

(摘编自微信 重庆大数据 \ 编辑 严进军)