如何成为全栈数据科学家?

Nov 25, 2022 by Zhang in  Blog

2019 年,人人都想成为数据科学家。
2020 年,人人都想成为数据工程师。
2021 年,人人都想成为一名机器学习工程师。
在 2022 年,事情几乎又回到了原点。

现在,公司希望有人可以做所有的事情:理解业务问题,编写生产代码,开发机器学习模型,设计数据管道,向C级高管演示等等。公司的期望和需求推动下一代数据驱动技术人员的未来,他们希望在该领域找到一份工作。然而,这一次公司更倾向于在技术领域中的软件方面出现更多的具有数据科学天赋的人。

在2022年这一次公司正在寻找全栈数据科学家。

什么是全栈数据科学家?

我们从未见过如此多的全栈数据科学家招聘广告。

但究竟什么是全栈数据科学家?

全栈数据科学家是一个独特的角色,他能够充当软件工程师,数据工程师,业务分析师,机器学习工程师和数据科学家的角色,操办所有的事务。这个人拥有多样化的技能,甚至超出了普通数据科学家的技能,并且可以成为公司管理数据科学项目整个生命周期的一站式服务。

这种全生命周期方法意味着全栈数据科学家能够识别业务需求(或与 C 级高管合作确定需要解决的问题),建立项目所需的数据架构,分析数据并构建模型,最终将模型部署到生产环境中。

从本质上讲,这个人是一个单人数据科学团队,可以满足小公司的所有数据需求。

全栈数据科学家与数据科学通才有何不同?

全栈数据科学家可能比你想象的要简单一些。

从本质上讲,大多数崭露头角且经验丰富的数据科学家都拥有成为全栈数据科学家所需的大部分技能。

让全栈数据科学家与众不同的一点是他们的软件和数据工程技能。这就是数据科学通才和全栈数据科学家的不同之处。数据科学通才将在多个领域拥有各种技能(如果你愿意的话,他是所有行业的千斤顶),但在执行整个团队的端到端工作方面可能没有丰富的经验。

公司不再需要为最初的目的雇用数据科学家,而是希望数据科学家能够为各种任务带来广泛的技能。这导致数据科学家希望通过扩展他们的数据和软件工程技能来满足现在所有工作的要求,从而变得更加有影响力。

如何成为全栈数据科学家?

全栈数据科学家具有普通数据科学家的所有基本技能,并具有强大的数据和软件工程技能。

在基础层面,全栈数据科学家将具有解决任何一般数据科学问题所需的数学,分析,设计和编码技能。这些基本原理超出了本文的范围,但我们确实可以看到更多信息:

数据科学家可以扩展他们的数据和软件工程技能,成为“完整的包”。

软件工程

最容易提高的技能是软件工程。所有这些都需要编写比当前更好的代码。

全栈数据科学家需要了解的软件工程围绕着能够端到端地执行数据项目,这意味着你可以在最后将其启动到生产环境。这将涉及开发模块化、文档化和自动化测试方面的技能。

模块化是指在编写代码时,将其功能划分为独立的、可互换的模块。这些模块应该分隔成独立的、可存取的类和函数,这些类和函数允许你只编写一次代码,提高代码的性能,并保持代码文件小且易于查找。

提高软件工程技能的下一步是学习如何编写好的代码文档。令人惊讶的是,将新代码集成到现有的生产环境中是很常见的,但却没有代码文档来帮助你清理混乱。好的代码文档很容易创建,并且围绕突出逻辑中的任何关键点,提前排除故障,并通常提供代码做什么以及大致概述代码的作用和工作方式。

提高软件工程技能的最后一步是培养自动化测试的感觉。常规测试是手动运行代码并查看每次输入逻辑段时是否抛出错误,与常规测试相比,自动化测试使用执行这些任务的工具进行。可以执行的自动化测试类型包括单元测试、冒烟测试、集成测试、回归测试、API 测试、安全测试、性能测试、验收测试等。你将熟悉的一些工具包括 Selenium,LambaTest 和 QMetry AutomationStudio。这里有一个很棒的视频,可以帮助你开始自动化测试。(https://youtu.be/QtZ4yV49RtA)

数据工程

数据工程是你在成为全栈数据科学家之前需要提高的另一项技能。

数据工程涉及“设计和构建大规模收集、存储和分析数据的系统”。更广泛地说,这可以扩展到包括获取数据集,开发清理数据的算法,创建数据验证模型,确保遵守数据安全策略等等。

数据工程围绕使用编程,数据库,分布式系统和云工程技能的组合来开发数据管道,这对一个好的数据科学项目至关重要。

原文作者:Madison Hunter
翻译作者:王文龙
美工编辑:过儿
校对审稿:明慧
原文链接:https://towardsdatascience.com/full-stack-data-scientists-are-trending-right-now-heres-how-you-can-become-one-d5398dff60e7

数据科学家最容易被面试的问题:偏差和方差!

Jun 10, 2022

作者介绍:
Cassie Kozyrkov是谷歌首席决策科学家。擅长领域:统计、机器学习/人工智能、数据、艺术、戏剧、决策科学。

如何处理工作经历中的空档期

Dec 21, 2023

简历上有几段工作空档期并不可耻。人们需要退出职场的原因有很多,包括照顾家庭成员、搬迁到一个新的城市、医疗问题等等。

游戏领域中的8个数据科学应用

Mar 14, 2022

如今,游戏产业正在崛起,全球有超过20亿的玩家。这也表示游戏产业会是一个巨大的收入来源,预计这些收入在将来还会进一步增长。

Leave a Comment

Your email address will not be published. Required fields are marked *

Comment *