性感车模

你知道21世纪最性感的职业每天都干些啥吗?

字号+作者: 来源: 2018-01-11 22:48 我要评论() 收藏成功收藏本文

《哈佛商业评论》认为,“21世纪最性感的职业”就是数据科学家(data scientist)。“数据科学家”这个职业相信大家已经不再感到陌'...

 《哈佛商业评论》认为,“21世纪最性感的职业”就是数据科学家(data scientist)。“数据科学家”这个职业相信大家已经不再感到陌生,但一定很少有人了解这个它背后的录取标准和工作内容。今天就让数据侠阿萨姆带大家一起来探索这个职位的迷人之处吧~

我随手搜索了几家国内国外不同领域的数据科学家招聘广告(国内:阿里巴巴、百度 | 海外:IBM、道明银行、Manulife保险),通过简单的归纳总结,我们不难发现其实岗位要求有很大的重叠部分:

1. 学历要求:硕士以上学历,博士优先。统计学、计算机科学、数学等相关专业。

2. 工作经历:3年以上相关工作经验。

3. 专业技能熟练掌握Hive\SQL\Hadoop,熟悉大规模数据挖掘、机器学习、自然语言处理(NLP)

4. 分析语言:R、Python、SAS、JAVA

5. 额外要求:对数据敏感,具备良好的逻辑思维能力、沟通技巧、组织沟通能力、团队精神以及优秀的问题解决能力

有趣的是,这个广告适用于大部分的数据科学家招聘,甚至不分行业不分地域。可能唯一的不同是,金融领域更强调擅长反欺诈和风控,而电商领域强调熟悉推荐系统,侧重点不同而已。

其实这个现象的本质就是:数据科学家是一个不限行业,拥有广泛就业需求,高度"相似"却又"不同"的职位。

因此结合我自己的经验,以及与国内国外这一行同事/朋友的交流心得,我想来谈谈我对数据科学家这个岗位的理解。

在个人理解的前提下,我想谈谈:

1. 数据科学家为什么是“科学家”?

2. 数据科学家的工作内容有什么?

3. 一些对于数据分析的感悟。

4. 如何成为一个合格的数据科学家?

什么是数据科学家?“科学家”是否言过其实?

数据科学家成为了一个跨学科职位。我将数据科学家定义为:能够独立处理数据,进行复杂建模,从中攫取商业价值,并拥有良好沟通汇报能力的人。

关于数据科学家这个岗位怎么来的,说法不一。我自己的理解是随着机器学习和更多预测模型的发展,数据分析变得"大有可为"。

为了区分拥有建模能力的高端人才和普通商业分析师/数据分析师(data analyst),数据科学家这个职位自然就产生了。通过这个新岗位,行业可以与时俱进地吸收高端人才。

在机器学习没有大行其道,也没有大数据支撑之前,这个岗位更贴近统计科学家(statistician),和研究科学家(research scientist)也有一点点相似。

对于科学家,我们的一般的定义是在特定领域有深入研究的人,因此潜台词一般是“拥有博士学位的人”。而数据科学家的基本要求是硕士以上学历,甚至有时候本科学历也会被接受,而且似乎数据科学家的工作并不会在特定领域有所深入。那么数据科学家是否言过其实了?

我的看法是:不,数据科学家的“广度"就是其"深度"。从另外一个角度来看,数据科学家的优势在于其优秀的跨领域技能,既可以抓取数据,也可以分析,进行建模,还能将有用的信息用抓人眼球的提供给决策层。

能拥有这样解决问题能力的人,似乎并不愧对一声“科学家”。

而正因为数据分析更要求的广度而不是深度,所有现在只有纽约大学提供科学博士,而现在大部分从业的博士都是统计学/计算机/数学/物理背景。

正是这个原因,这个行业对于数据科学家的要求是硕士及以上,而计算机或者统计的人更适合的原因是其在机器学习/统计学习方面的积累,其他所需技能可以以很低的代价赶上。

相对应的,如果一个心理学博士想要从事这一行就会发现需要补充的技能太多,而因此不能适应这个岗位。

与研究科学家(research scientist)相比,数据科学家更像是全能手,但在特定领域深度不足。和普通分析师(analyst)相比,数据科学家应该有更强的建模和分析能力。在和数据工程师相对比时,数据科学家应该具备更强的汇报和沟通能力。

数据科学家的日常工作内容包括什么?

我最近在和朋友闲聊时,惊讶的发现大家的工作内容都很相似。主要包括:

分析数据和建模

此处的工作特指根据客户需求,从数据中攫取商业价值,而这个过程中一般都会涉及统计建模和机器学习模型。如果在数据没有处理的情况下,我们的工作偶尔也涉及清理数据。

有时候我们反而希望数据是未经过处理的,因为很多重要信息都在被处理中遗失了。一般的项目遵循以下几个流程:

1. 确定商业痛点,明白要解决的问题是什么?

2. 获得数据并进行清理,常见的数据预处理包括:

a. 缺失值处理

b.特征变量转化

c.特征选择和维度变化(升维或者降维)

d. 标准化/归一化/稀疏化。涉及文字的时候可能还要使用一些自然语言处理的手段。

3. 模型选择与评估。这个过程常常是比较粗暴的,往往需要对多个模型进行评估对比。

4. 提取商业价值,编写报告或意见书,并向相关负责人汇报。

与团队其他成员的沟通

与纯粹的机器科学工程师不同,数据科学家的重要工作内容是交流沟通。如果无法了解清楚客户的需求是什么,可能白忙活一场。

如果无法了解数据工程师在采集数据时的手段,我们使用的原始数据可能有统计学偏见。

如果不能讲清楚如何才能有效的评估模型,负责在云端运行模型的工程师可能给出错误的答案。

因此,数据科学家除了建模必须亲手来做以外,其他的环节可以“外包”给别人。在数据量特别大的时候,这个需求变得更为明显。

请遵守《互联网电子公告服务管理规定》及中华人民共和国其他各项有关法律法规。本站管理员有权保留或删除评论内容。

相关文章
网友点评