中国MRO支撑平台技术社区

细数大数据行业的四大误区（2）

细数大数据行业的四大误区（二）

（2016年10月3日）

误区二：只有大数据才能拯救世界

大数据目前的技术和应用都是在数据分析、数据仓库等方面，主要针对OLAP（Online Analytical System），从技术角度来说，包含我总结的两条腿：一条腿是批量数据处理（包括MR、MPP等），另一条腿实时数据流处理（Storm、内存数据库等）。在此基础上，部分场景又发现MR框架或实时框架不能很好的满足近线、迭代的挖掘需要，故又产生了目前非常火的基于内存数据处理Spark框架。很多企业目前的大数据框架是，一方面以Hadoop 2.0之上的Hive、Pig框架处理底层的数据加工和处理，把按照业务逻辑处理完的数据直接送入到应用数据库中；另一方面以Storm流处理引擎处理实时的数据，根据业务营销的规则触发相应的营销场景。同时，用基于Spark处理技术集群满足对于实时数据加工、挖掘的需求。

以上描述可以看出，大数据说白了就是还没有进入真正的交易系统，没有在OLTP（Online Transaction system）方面做出太大的贡献。至于很多文章把大数据和物联网、泛在网、智慧城市都联系在一起，我认为大数据不过是条件之一，其余的OLTP系统是否具备，物理网络甚至组织架构都是重要因素。

最后还想说，大数据处理技术，再炫如Google的Dataflow或成熟如Hadoop 2.0、数据仓库、Storm等，本质上都是数据加工工具，对于很多工程师来说，只需要把数据处理流程搞清楚就可以了，在这个平台上可以用固定的模版和脚本进行数据加工已经足够。毕竟数据的价值70%以上是对业务应用而言的，一个炫词对于业务如果没有帮助，终将只是屠龙之术。任何技术、IT架构都要符合业务规划、符合业务发展的要求，否则技术只会妨碍业务和生产力的发展。

随着时代变迁，大浪淘沙，作为数据行业的一员，我们每个人都在不同的角色之间转换，今天你可能是科学家，明天就会变成架构师，今天的工程师也会变成几年后的科学家，部分人还终将步入跟风者的行列。

误区三：数据量特别大才叫大数据

在 “数据界”存在这样有一波人，他们认为“只有Peta级以上的才叫大数据，甚至到了Zeta以上才叫大数据，目前还没有到真正的大数据时代！”，每次听到这样的话，我就知道这些人受IOE某巨头的4V理论中的“容量”影响太巨大了。对此，我想说的第一句话是“尽信书不如无书，尽信巨头不如去IOE”，去 IOE不只是要从硬件做起，还要从思想上敢于挑战巨头做起，尽管很多IT界的经典理论都是传统巨头提出的，但是随着挑战者的出现，萌发了新的思想和技术后，传统巨头会被慢慢颠覆，这也是我们人类前进向前的一个重要因素。如果我们还停留在迷信巨头的时代，如此刻板教条的去追求一个概念，那么就不会有现在的 Hadoop，不会有现在的Spark，不会有现在的特斯拉，不会有机器学习人工智能，更不会有未来的第N次工业革命。

首先我想强调，大数据技术真的不是一个新鲜词，在之前的文章中我已经说过，大数据的本质还是数据，数据这个行业已经发展了若干年，而数据量的规模永远是超出该时代的想象的，比如十几年前，一张软盘的数据量也就1.44M，当时的数据如果达到1T都让旁人咂舌。那么按数据量的标准，当时如果有人收集了1T数据就已经进入大数据时代了吗？显然不是！所以我想说，数据量的大小并不是衡量大数据的标准，如果按数据量去判断是否大数据的话，那么“大数据”这个词真的是一个伪命题，就如同“老虎比如是老的，小伙必须是小的，巨头必须是脑袋大的，飞人必须是长翅膀的”这种纯粹字面意思去定义的话题一样。

那么再回过来说，大数据的概念是什么？首先，大数据是一个完整的生态体系，从数据的产生、采集、加工、汇总、展现、挖掘、推送等方面形成了一个闭环的价值链，并且通过每个环节的多种技术处理后，为所在业务场景提供有价值的应用和服务。其次，大数据的核心是什么？一方面是开源，一方面是节流，目前大数据技术的核心目标都是通过低成本的技术更好的满足对数据的需求（尤其是处理近年来更多的非结构化数据），并在在满足需求的基础上尽可能多的为企业节省投资。说一千道一万，大数据的核心理念还是满足应用需求，有明确目标的技术叫生产力，没有业务目标的技术叫“浪费生命力”。

（未完待续）

本文作者：刘强

（摘编自微信公众号中国指挥与控制学会 / 编辑严进军）