什么包括伟大的数据团队?
数据团队很难雇用。工程师供应量低,需求量高,Resumés难以冒险,而不耗时的电话/编码屏,而且经常没有旺’资源可以很难找到人们对您的产品充满热情。作为招聘经理,您可能很幸运能够负担专业招聘人员的服务。但是,招聘人员通常会向您发送完全不合适的候选人。
一个非常友好的招聘人员,我在纽约市中心,我前几天喝了咖啡,讨论这些行业问题。我们同意如果我们定义了构成大型数据团队以及角色实际意味着什么,那将是有用的。
我应该先雇用谁?他们如何一起工作?
- 数据分析师
- 您在雇用数据团队的目标可能是商业洞察力,并达到您的行动主要是数据(而不是直觉)驱动的一点。为此,有能力的数据分析师是您的起点。值得庆幸的是,数据分析师提供丰富的供应。具有激情挖掘见解和定量或半定量(例如ECON)背景的新群’太难找到。在高端,您可以在SQL中找到具有经验的人以及相对新的BI工具,如Looker。如果您有预算,75%的工程任务可以遇到的工程任务可以通过诸如段的即插即用管道工具来解决。大多数标准商业见解– “昨天/上个月发生了什么?”, “what’在我的客户群中是一个欠缺的人群吗?”可以在没有昂贵的数据科学家的情况下回答。
- 数据工程师
- 在某些时候,您的数据库和查询将变得太慢。你’LL还要刮擦数据源或使用No-One在段中构建连接器的API。也许你’LL希望有一些定制的销售额进行销售,那里’ll是一堆安全问题或那里’一些你想要刷新的一些巨大的查询,每天早上都会刷新,并在松懈中通知你。没有编程背景,您的数据分析师会感觉到他们的深度。这是您需要雇用数据工程师的时候。他们的专业知识确实位于将数据集获取到可以分析的位置。如果您的表格每月获得5000万场比赛,则查询将在一夜之间开始花时间,甚至可能会锁定。数据工程师可以缓解这一点– they 将能够优化数据库的索引’S用于快速查找的表,每天早晨刷新的有用聚合的有用聚合的物化视图,将自定义API连接到数据仓库,并且通常超出可由即插即用工具覆盖的。
- 数据科学家
- 现在你’获得标准的商业洞察力,并从有趣的来源获得尺度’几乎肯定会对AI的警报歌曲感到好奇。如果您可以预测哪些客户会搅拌/转换怎么办?如果您可以通过行为培养客户群,该怎么办?具有主管数据科学家,这种下一级洞察力都是可能的。它们将在Python中使用机器学习库,尝试自动对您的系统中的客户和操作进行分类。他们可以预测未来(具有一定程度的准确度)并告诉您关于您的数据的故事。这将涉及使用数据工程师提供的大型数据集。一旦这些见解已经浮出水面,它们就会有一个培训的模型,可以保存到磁盘并刷新。但是,如果需要每天刷新,那么添加到数据分析师甚至销售人员可以阅读的表格中的那些见解?然后,您需要返回数据工程师,并让它们设置后端系统来执行此操作。
- 数据科学工程师,机器学习工程师
- 有时,您的(可能更多的老学校)数据工程师将以100%管道和数据库管理员专注于实现您的数据科学家提出的Python的模型。对于此问题,您需要数据科学工程师或机器学习工程师。他们的专业知识正在部署,缩放和刷新数据科学家提出的模型。数据科学家应该完全专注于概率,调整模型参数和置信度分数;您的数据分析师应该关注更高的叙述,您的DS / ML工程师现在可以采取模型,并确保它快速提供您的见解,并使用干净,新鲜,正确的数据。
- 可视化工程师
- 如果看起来都没有什么?’有你想要的图表吗?如果您需要可视化网络怎么办?如果您的数据有16个维度和您’在散点图中耗尽了所有颜色,尺寸和形状选项?然后,您需要可视化工程师的非常专业的作用,以建立自定义可视化,并考虑更好的方法来实现数据分析师挣扎的洞察力。
- 商业智能工程师
- 这是一个暧昧的冠军–它们可以是数据科学工程师或数据工程师。
角色
标题 | 责任 | 工具/技术 |
---|---|---|
数据分析师 | 基本商业见解 | 何处 / Tableau,SQL,Excel,Redash |
数据科学家 | 更复杂的业务预测 | Jupyter笔记本,Python,Scikit-Searning,Numpy,Scipy,StatsModels |
数据工程师 | 得到“Big Data”到可以分析的点以及连接自定义数据源 | SQL,Python,Scrapy,Spacy,Selenium,Kafka,气流,Luigi,Spark,AWS,红移 |
数据科学工程师或机器学习工程师 | 实施数据科学家’s models at scale | SQL,Python,Scikit-Learn,Numpy,Scipy,AWS,Tensorflow |
可视化工程师(罕见) | 制作美丽的图形来增加每个人’s work | looker / tableau,javascript,d3.js,highcharts,html |
但为什么每个人都专注于数据科学?
数据科学是一种流行语,即一些用于代表任何适合数据工程和分析的人的流行语。最大的错误公司之一使得聘请了太多的数据科学家,而不是足够的数据工程师。最近,数据科学家们越来越容易雇用,因为许多原始数学家,化学家,统计学家和其他量化毕业都发现他们可以轻松地重新加入自己或参加3个月的训练营,并在初中雇用。但是,他们的模型和他们的见解可能是有限的’知道如何缩放/部署它们;他们将花费大部分时间清理数据集,而不是深入集中在隐藏内部的消息和预测。当然,作为一个大多数现在专注于数据工程的人,我偏见,但我会说每个数据科学家应该与至少1个数据工程师配对。我实际迁入数据科学的原因是我自己的工作真的是必需品。
我希望本指南在今天解释时取得了成功’S数据团队。如果您对如何改进它有任何想法,请发表评论或发送电子邮件。