我们的数据科学主管 dovydas ceilutka 阐述数据科学工作职责

我们的数 我们的数据科学 据科学主管 Dovydas Čeilutka 阐述数据科学工作职责
对于许多人来说,数据科学似乎是一个令人费解的职业领域。甚至连这个术语本身都不容易理解,因为大多数人都知道它的含义,但却很难解释它。有些人可能认为,只要在 Excel 上运行一些宏并绘制一个漂亮的图表,就可以称自己为数据科学家了。

但它远不止这些,它可以涉及从基本数据整理到复杂的机器学习方法的方方面面。尽管该领域相对较新,但我们已经看到特定的专业化正在兴起,即数据分析师、数据工程师、机器学习工程师和 MLOps 工程师等职位。

在本文中,我将尝试解释这些专家做什么,以及最重要的是,雇主对他们有什么期望。

任何从事数据科学事业的人都应该知道什么?

多年来,我见过许多定义 特殊数据库 数据科学的方式,而我发现最接近事实的解释是这样的:

“数据科学是利用数据来尝试理解和解决现实世界问题的实践。”
这个描述很清楚,但还是有点太宽泛了。仔细想想,几乎每个人都希望通过分析来理解和解决问题。说实话,没有一个很好的定义。我在 Vinted 面试候选人时注意到,这种不确定性在当前的就业市场上也很普遍。虽然几乎所有的数据科学职位都需要相同的技能,但对特定技术的掌握程度决定了候选人是否适合某条特定的道路。这就是为什么聘请数据科学家常常感觉像买一盒巧克力——你永远不知道你会得到什么。

简单来说,数据科学家必须了解或擅长三件事——编程和数据库、数学和统计学以及领域知识。如果你仔细研究这些能力,你会发现决策科学、机器学习、分析等等。这些技能是相互关联的,不同的科学家可以以不同的水平掌握每一项技能。这可能就是为什么这个行业有超过一千个数据科学家的头衔。现在,让我们深入了解一下,看看对数据分析师、数据工程师、机器学习工程师和 MLOps 工程师等职位的应聘者有何期望。

数据科学专业化

数据分析师做什么?

简而言之,数据分析 专业知识或位于农村地区的知识 师是通过分析数据来讲述故事的人。他们向团队提供可行的见解,并有望利用深厚的领域知识做出决策。这项工作需要对统计学和数学有深入的理解,并具备出色的数据整理技能,这意味着您必须能够轻松地导入、清理和处理数据。虽然建模能力对于所有数据科学专业人士都很重要,但对于分析师来说,它们是必不可少的,因为他们必须让复杂的数据易于他人理解。

数据分析师的技能和技术堆栈
在考虑工具时,数据分析师的主要编程语言是Python 和 R(Scala 和 Java 也很有用)。数据分析师还使用许多大数据技术,例如Spark、 Amazon EMR 或 Google Dataproc服务。例如,在 Vinted,我们的数据分析师每天都使用 Spark,并进行大量决策科学、数学和统计。与其他类型的数据科学家相比, SQL知识甚至更有益。‍

数据工程师的角色是什么?

数据工程师设计、构建和操作数据 體育新聞 891 处理系统。通过收集、转换和发布数据,他们通过特定平台将数据提供给用户。数据工程师必须具备的技能各不相同,尤其是从这些专家所展示的高水平软件工程来看。

数据工程师的技能和技术堆栈
在这里,你必须对云技术和软件工程有很强的掌握——主要是Python,较少使用 R、Scala 或 Java。根据我的经验,我可以说编程语言的选择通常取决于公司。例如,尽管 Python 在行业中应用更广泛,但 Vinted 使用的是 Scala。当我们比较数据分析师和数据工程师时,他们与数据平台交互的方式是主要区别。数据分析师通常是大数据平台的用户,而数据工程师是建设者和维护者。此外,他们必须了解Docker 和 Kubernetes 等容器技术。

成为一名机器学习工程师需要什么?

机器学习工程师应该非常擅长构建解决业务挑战的机器学习模型。他们负责整个流程,因为他们需要能够自行设计、构建和生产。为了实现这一点,他们必须具备出色的建模、软件工程和统计技能。最后,他们应该精通模型架构、数据管道交互、指标解释的各个方面,并熟悉应用程序开发、基础设施管理、数据工程和网络安全。

由于他们的大部分工作都围绕机器学习框架展开,因此Python是必备语言,在工作要求方面几乎是没有商量余地的。机器学习工程师自然会使用ML 框架(scikit-learn、XGBoost)和深度学习框架(PyTorch、Tensorflow、MXNet),而这些框架都只存在于 Python 生态系统中。

机器学习工程师的技能和技术堆栈

什么是 MLOps 工程师?

总体而言,数据科学领域仍然相对较新,因为它出现才 8 到 9 年左右。机器学习操作工程可能是市场上最新鲜的专业,它出现才几年。

现代公司尚不清楚如何部署越来越多的机器学习模型,因为企业环境中的机器学习生命周期在需求和工具方面要复杂得多。因此,MLOps 工程师为机器学习工程师和数据分析师提供工具,以成功构建和部署他们的机器学习模型。

要做到这一点,他们必须非常擅长软件工程、云技术和DevOps(CI/CD、监控),从职位名称就可以看出。同样,Docker 和 Kubernetes与Python也进入了他们的技能列表。MLOps 使用的另一项值得注意的技术是基础设施即代码,例如 Terraform,旨在独立管理您自己的基础设施。

MLOps 工程师技能和技术堆栈

在开始数据科学职业生涯之前您还应该了解什么?
尽管存在差异,但所有四个数据科学专业对企业来说都同样重要且要求高。目前,与其他专业相比,该行业对数据分析师和机器学习工程师职位的空缺更多,但这种情况可能会改变。这种情况发生的唯一原因是这些职位已经存在了很长时间,而且入职程序对雇主来说要清晰得多。此外,请记住,在一家较小的公司工作可能意味着你需要成为一个万事通,处理与数据相关的所有事情。在较大的公司,通常的做法是拥有专门的职位和庞大的数据科学家团队。Vinted 也是如此——我们内部拥有所有四个专业。

 

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部