每月档案: 2019年四月

一个优秀的数据团队由什么组成?

数据团队很难招募。工程师的供应量低,需求量大,如果没有耗时的电话/编码屏幕,甚至没有FAANG,就很难审查简历。’的资源,很难找到像您一样对产品充满热情的人。作为招聘经理,您可能有幸负担得起专业招聘人员的服务。但是,招聘人员通常会向您发送完全不合适的候选人。

A very friendly recruiter I know in NYC and I had coffee the other day to discuss these industry issues. We agreed that it would be useful if we defined 什么 makes up a great data team and 什么 the roles actually mean.

我应该首先雇用谁?他们如何一起工作?

  • 数据分析师
    • 雇用数据团队的目标可能是业务洞察力,并在某种程度上使您的行动主要由数据(而非直觉)驱动。为此,您需要一个有能力的数据分析师。值得庆幸的是,数据分析师的人数很多。渴望挖掘洞察力并具有定量或半定量(例如Econ)背景的新毕业生不应该’太难找了。在高端,您可以找到具有SQL经验的人以及相对较新的BI工具(如Looker)。如果您有预算,则可以使用即插即用的流水线工具(例如细分)解决75%的工程任务。最标准的业务见解– “昨天/上个月发生了什么?”, “what’我的客户群中服务不足的人群?”没有昂贵的数据科学家就可以回答。
  • 数据工程师
    • 在某些时候,您的数据库和查询将变得太慢。您’ll还想抓取数据源或使用没有人为Segment中的连接器建立过的API。也许你’我想要一些定制的销售线索评分’一堆安全问题’您希望每天早晨刷新一些庞大的查询,并在Slack中通知您。没有编程背景,您的数据分析师会感到不胜其烦。这是您需要雇用数据工程师的时候。他们的专业知识真正在于使您的数据集达到可分析的地步。如果您的表每月收到5000万个事件,那么查询将在一夜之间开始花费数小时,并且表甚至可能被锁定。数据工程师可以缓解这种情况– they 将能够优化数据库的索引’用于快速查找的s表,创建有用的聚合的物化视图,这些聚合每天早晨刷新,将自定义API连接到您的数据仓库,并且通常超出即插即用工具所涵盖的范围。 
  • 数据科学家
    • 现在你’重新获得标准的业务见解,并从有趣的来源中大规模获取它们’几乎肯定会对AI的警笛声感到好奇。如果您可以预测哪个客户会流失/转换,该怎么办?如果您可以按行为将客户群聚在一起怎么办?称职的数据科学家有可能提供这种更深入的了解。他们将使用Python中的机器学习库来尝试自动对您的客户和系统中的操作进行分类。他们可以预测未来(以一定的准确性),并告诉您有关数据的故事。这将涉及使用数据工程师提供的大型数据集。一旦这些见解浮出水面,他们将获得训练有素的模型,可以将其保存到磁盘并进行刷新。但是,如果需要每天刷新一次,并将这些见解添加到数据分析师甚至销售员可以读取的表中,该怎么办?然后,您需要返回到数据工程师,并让他们设置一个后端系统来执行此操作。
  • 数据科学工程师,机器学习工程师
    • 有时,您的(可能是较老的)数据工程师将100%专注于管道和数据库管理员,并且在实施数据科学家想出的基于Python的模型方面没有特别的经验。对于此问题,您需要一名数据科学工程师或机器学习工程师。他们的专长是部署,扩展和刷新数据科学家提出的模型。数据科学家应该完全专注于概率,调整模型参数和置信度分数;您的数据分析师应该专注于更高层次的叙述,而您的DS / ML工程师现在可以采用该模型,并确保该模型可以快速提供您的见解,并提供干净,新鲜,正确的数据。
  • 可视化工程师
    • 如果Looker没有,该怎么办’没有您想要的图表?如果您需要可视化网络怎么办?如果您的数据有16个维度并且您’是否已用完散点图中的所有颜色,大小和形状选项?然后,您需要可视化工程师的非常专门的角色来构建自定义可视化并想出更好的方法来揭示数据分析师难以解决的见解。
  • 商业智能工程师
    • 这是一个模棱两可的标题–他们可能是数据科学工程师或数据工程师。

的角色

标题 工作职责 工具/技术
数据分析师  基本业务见​​解 Looker / Tableau,SQL,Excel,Redash
数据科学家 更复杂的业务预测 Jupyter笔记本,Python,Scikit-Learn,Numpy,Scipy,Statsmodels
数据工程师 得到“Big Data”到可以分析以及连接自定义数据源的地步 SQL,Python,Scrapy,Spacy,Selenium,Kafka,Airflow,Luigi,Spark,AWS,Redshift
数据科学工程师或机器学习工程师 实施数据科学家’s models at scale SQL,Python,Scikit-Learn,Numpy,Scipy,AWS,TensorFlow
可视化工程师(稀有) 制作精美的图形以增强每个人’s work Looker / Tableau,Javascript,D3.js,Highcharts,HTML

但是,为什么每个人都只专注于数据科学?

数据科学是一个流行词,有人用它来表示适合数据工程和分析交叉领域的任何人。公司犯下的最大错误之一就是雇用了太多的数据科学家而没有足够的数据工程师。最近,许多前数学家,化学家,统计学家和其他数量级的毕业生发现,数据科学家正在变得更容易招聘,他们可以轻松地重塑自己的形象或参加3个月的Bootcamp并担任初级职位。但是,他们的模型和洞察力可能会受到限制,因为他们没有’不知道如何扩展/部署它们;他们将花费大量时间来清理数据集,而不是专注于隐藏在其中的消息和预测。当然,作为一个现在主要专注于数据工程的人,我有偏见,但是我想说,每个数据科学家都应与至少一名数据工程师配对。我实际上从数据科学专业转到数据工程专业的原因确实是出于我自己工作的需要。

我希望本指南今天能成功解释’的数据团队。如果您有任何改进建议,请发表评论或给我发送电子邮件。