大数据的泡沫、价值和陷阱(3)
大数据的泡沫、价值和陷阱(三)
(2017年04月26日)
(2)第二问:我是搞技术驱动、业务驱动还是数据驱动?
当前不少公司的大数据产品和服务不接地气,从开始规划上就有一定问题。很多公司都号称自己有云计算和大数据方面的产品和服务,覆盖面从Hadoop、Spark、MPP、NOSQL、OpenStack等,到公有云、私有云、商业智能、人工智能、深度学习等等方面,偌大一片浮云,客观上促进了大数据领域的技术高速发展,可惜最终少有几家能活到赚钱。首先,大数据领域,没有几把刷子是很难玩技术驱动的,像Hadoop,Spark这些基础框架,AlphaGo系统、Nvidia的核心产品等,后面都有一帮名校博士、教授等技术大牛的身影在支持;其次,业务驱动最靠谱,但要有足够的创新和资本支持,最近几年出现的Uber、滴滴、摩拜、Airbnb、23andMe、货车帮等创新公司,就是典型的业务驱动型大数据企业,对传统社会和商业的冲击也是颠覆性的,如果能有极好的创意和资本支持,走这条路发展潜力巨大;而政府和大型垄断国企拥有真正的大数据金矿,有数据+业务驱动的条件,但由于自身管理体制原因或引入的技术实力太弱,大数据的价值远远没有被挖掘出来,当然这也是大机会,我们的国安部门也需要中国版的Palantir。所以大数据应用要接地气,结合自身实力,问问自己搞技术驱动、业务驱动还是数据驱动,是最需要回答的问题。
(3)第三问:我是否清楚大数据应用的局限?
现阶段,大数据应用面临诸多挑战,新技术泛型下标准的大数据应用体系尚未建立,技术复杂度和风险较高,成功案例和最佳实践缺乏。很多企业和机构都知道大数据潜力巨大,但却不知如何着手,更不清楚大数据应用有哪些局限和潜在的问题。伯克利的Jordan教授是机器学习领域大牛,他提出了一个很好的比喻:如果大数据给出的结果可靠性低,没有经过充分的验证,就急于应用到实际业务中,会面临很大的风险,就好比是土木工程都没学好就开始造桥,结果只能造出“豆腐渣工程”。所以我们要充分了解大数据技术的局限性,数据采集的不全面必然导致数据偏见,数据质量的问题会导致GarbageInGarbageOut,我们对分析结果的不理解,或者不进行持续反馈验证升级,就无法确认模型的准确性和稳定性,另外《大数据时代》一书中所说的关注相关性不重视因果分析,也会导致一系列问题。数据科学发展到现阶段,从某种程度上讲还不是一个足够严谨的学科,我们有一定的概率做出准确的预测,但是使用不当或预测不准,又会造成不好的后果。显然Jordan教授很担心现在公众对大数据技术的热情,并不是基于对这个领域的深入理解,但是他坚信大数据领域未来会诞生很多重要的应用,就像AlphaGo系统花一晚时间,自我学习几百万盘棋才战胜李世石,对于新兴技术,我们不能高估它但更不能低估。鉴于此,我们需要对大数据的数据质量及技术偏差等做更细致的考察和评估,搞清楚大数据应用技术所面临的限制及问题,才能走得更稳更远。
(4)第四问:我是否准备好打一场大数据应用持久战?
我在《大数据应用从小做起?谈微服务和大数据架构》一文中有提到过,大数据项目如何顶天立地:立地就是要落实到一个个要解决的具体问题,基于业务和数据驱动;顶天就是要规划得目标长远,大数据系统不是搞一锤子买卖,没有一劳永逸的做法。特别是大型企业、机构或政府的大数据系统,一定不能是传统MIS系统的做法,大数据是个动态增量系统,数据规模在变,业务在变,模型在变,参数在变,核心技术模型的迭代、优化、持续升级及交付将是常态,长期目标应该是智能化的综合管控,从企业的生产、产品、销售、服务各个环节的一体化智能管控中心,政府各部门联席的智能服务和决策中心,好比GoogleBrain,BaiduBrain,大型企事业单位和政府也需要未来的数字决策大脑。从某种程度上讲,大数据的关键不在于具体项目,而在于数据决策中心的持续优化与运营,大数据系统建设要作为一个长远的事业来做,让每个成员都融入大数据管理思维变革过程中。我在《说说敏捷大数据》一文中提出了“快、小、证”大数据应用原则,对一个具体的大数据项目来讲,能做到快速出原型,小分析点切入,证明有效之后再扩张的原则,就不用惧怕失败,失败后切换到下一个分析目标即可。由于大数据项目前期的实际投入成本远远大于收益,这就更需要精耕细作,打一场大数据应用持久战,可以从小处着手,逐步构建统观全局的分析链,从而建立组织未来的大数据中心和基于大数据分析的辅助决策大脑。
(未完待续)
(文章来源:36大数据 作者:杜圣东)