论坛与新闻

大数据的泡沫、价值和陷阱(2)

大数据的泡沫、价值和陷阱(二)

(2017年04月24日)

2. 大数据价值:需要你自己去定义

大数据绝不只是数据大,不能光看字面意思。可以说大数据是一套技术体系,可以说是一种认知挖掘过程,也可以说是一种方法论和管理决策思维。
我们要搞懂大数据的价值,首先绕不开数据挖掘(或更窄的机器学习、或更广义的人工智能技术)。数据挖掘(DataMining),又称为资料探勘、数据采矿,或数据库知识发现(Knowledge-Discovery in Databases,KDD)。数据挖掘一般是指从大量的数据中通过各种算法挖掘隐藏于其中的规律和有价值信息的过程,通常通过统计方法、机器学习、专家系统、模式识别和在线分析处理等诸多方法来实现上述目标。
现阶段大数据领域注重数据采集、数据存储、基础计算和可视化等层面,唯独对数据挖掘建模和决策支持这两个硬骨头没有展开深入研究和对接,这是大数据难以落地的根本原因。我们大多数人决策其实是靠感觉、个人经验或别人建议,少部分人会亲自对报表等小数据进行客观数据分析。
而大数据为我们提供了一种更加可靠的决策支持,毕竟数据不会说假话。大数据本身不产生价值,大数据的根本用途是利用大数据挖掘分析对我们的决策提供规律、知识和经验等科学依据,客观上减少面对未来决策的不确定性。所以,以业务决策支持为分析目标,大数据不靠大,小数据也一样有大价值。为什么大数据的价值需要我们自己去定义呢?因为对于未来、对于未知领域,我们每个人或组织面临的不确定性问题是不一样的,有的偏个体(如疾病诊断,犯罪预测),有的偏大众(如广告营销、客户细分),有的偏微观(如基因序列,个性化教育),有的偏宏观(环境监测、天文数据处理),有的关注资源优化配置(如供需匹配,出行服务),有的关注宏观决策(如政府资产分析、综合管控)…可以说大数据分析需求无处不在,而又大不相同。这就需要从自身实际需求和数据、技术现状出发,自行设定大数据分析的价值和应用目标,生搬硬套互联网公司那套做法,不可取。

3. 大数据陷阱:应用前先问自己几个问题

综上所述,大数据无疑是好东西,很多组织机构也正在规划或建设大数据平台,很多创业玩家也正在计划或进行大数据领域的技术服务或产品研发。但大数据领域面临的陷阱也是不少,光看大数据、云计算、机器学习、数据挖掘、人工智能、深度学习、分布式计算等目不暇接的技术和概念,就够眼花缭乱了,要真正理解各种技术的原理及相互联系就更难,如何才能不畏浮云遮望眼,走出一条扎实的大数据应用落地之路。我以个人粗浅的理解提几个问题供大家参考:

(1)第一问:我属于什么级别的玩家?

大数据的核心优势在于规模效应,你的业务量越大、业务覆盖性越广、数据量越大,大数据投入的成本就越容易被摊薄,而长远获取的大数据应用价值就越巨大。所以,我一直认为政府才是最适合大数据应用的超级玩家,这也是为什么大数据独角兽企业Palantir的产品只有政府定制版(FBI,CIA专用)和金融定制版(华尔街金融巨头专用)的原因!一般企业或个人根本玩不起大数据,小的个体只能像《黑客帝国》的孵化人为Matirx系统提供生物电池一样,为超级玩家贡献数据和技术还差不多。所以做大数据之前,先问问自己,我属于什么级别的玩家。我有特定领域的海量数据吗?有数据科学能力相关的核心技术(应用建模)吗?有机会成为BAT吗?或者降一级有机会成为Uber、滴滴、摩拜吗?研发的产品能否等到大规模应用之时?提供的技术是否符合客户的业务需求?因为一般来讲,大数据的初始投入成本是很高的,自我定位很关键。当然成不了甲方还是可以做乙方,成不了BAT还是有机会被BAT收购的,另外采用敏捷大数据方法论,也有低成本的玩法。

(未完待续)

(文章来源:36大数据 作者:杜圣东)