论坛与新闻
论坛与新闻

数据科学家应该拥有的好习惯(3)

数据科学家应该拥有的好习惯(三)

(2017年1月10日)

4、好奇心与多沟通

爱因斯坦说过,提出一个好问题比找到一个合适的答案更重要!

在我个人经验中,按照既定的一些分析框架分析,一般都只是完成了既定的任务而已。但是,你对分析中的一些异常多问几个为什么,很容易找到一些业务的突破口。

比如你分析销售业绩,你发现一个人,成单比例总是比别人高,甚至有时候比特别有经验的人还高,你就问问为什么呢?否则,你就只能发现这个数字而已。

后来,你通过分析和直接询问等方法,发现他发现了新注册的用户容易成单,所以每天盯着新用户呢!

当然,这样的例子是比较多的,比如为什么要让用户自己选择一些信息呢?然后一个数据产品就出来了。

5、多实践与多走一步

这里涉及到模型了,也是我个人做的比较多的地方。

在数值计算(或者任何其他工程领域)里,知道一个东西的基本算法和写出一个能在实际中工作得很好的程序之间还是有一段不小的距离的。

有很多可能看似无关紧要的小细节小 trick,可能会对结果带来很大的不同。

当然这样的现象其实也很合理:因为理论上的工作之所以漂亮正是因为抓住了事物的主要矛盾,忽略“无关”的细节进行了简化和抽象,从而对比较“干净”的对象进行操作,在一系列的“assumption”下建立起理论体系。

但是当要将理论应用到实践中的时候,又得将这些之前被忽略掉了的细节全部加回去,得到一团乱糟糟,在一系列的“assumption”都不再严格满足的条件下找出会出现哪些问题并通过一些所谓的“engineering trick”来让原来的理论能“大致地”继续有效。

这些东西大概就主要是 Engineer 们所需要处理的事情了吧?这样说来 Engineer 其实也相当不容易。这样的话其实 Engineer 和 Scientist 的界线就又模糊了,就是工作在不同的抽象程度下的区别的样子。

在工作和平时学习练习中,都是这样。很多人问的太多,做的太少,导致眼高手低。比如你问用Ensemble,会怎么怎么样呢?对哇,很多人能问这个问题,但是就是不去试一试。

再比如,有偏样本的问题,有过抽样、欠抽样、阈值调整等等方法,都可以去自己实践一下,才会有更加直观的认识,否则只停留在讨论阶段是没用的。多走一步,每个问题都是自己成长的阶梯。

对于其他的,比如责任心、细心啥的,这些是其他职业也要求的,而专业性,这个就更不用说了。

(续完)

(摘编自 微信公众号 数据分析 \ 编辑严进军)