数据科学家(DS)面试指南

Nov 28, 2021 by Zhang in  Blog

近年来,数据对于企业的发展越来越重要。由于每周数据库都会产生PB(petabytes)量级的数据,公司招聘数据科学家(Data Scientist)分析数据,获得关键见解也就显得至关重要。

许多公司都需要数据科学家。然而,数据科学家的工作内容并不简单,需要有技术能力和经验才能胜任。我们采访了几位专家,了解如何成为数据科学家,以及数据科学家面试中可能会出现哪些问题。

数据科学家必备资质

Public.com 数据科学主管 Koyuki Nakamori(近期就职于互联网健康公司Headspace )告诉 Dice,成功的数据科学家有几个关键特征:“分析精确、统计严谨、扎实掌握SQL/Python 编码技能,以及熟练的讲故事/沟通技巧。”

加州大学洛杉矶分校 (UCLA) 数据分析执行董事 Adam Sugano 补充道:“数据科学是一个不断发展的领域,每年都会引进新的工具和技术,这就要求该领域的工作人员需要不断学习。”

好奇心是数据科学家的一个重要资质,Sugano说:“他们不仅享受学习过程,吸收新的知识,并能立即转身思考如何将这些新工具、方法、数据领域等知识应用至需要解决的问题范围。”

如何在申请材料中表现出你的好奇心? Sugano 往往想要招聘那些自愿参加数据竞赛,或通过 Datacamp 等平台追求终身学习的数据科学家。你需要突出你的个人数据项目或数据科学博客,这有助于强调你对该领域的热情。

“此外,数据科学家需要知道如何思考,”Sugano 继续说道。“我经常看到‘业务’领域的人向数据科学团队提出一些必要但不充分的问题。优秀的数据科学家不仅会接受这些要求,而且会与提问者共同努力,了解他们的想法,为了得到更好的结果,构建解决方案框架。仅仅通过浏览简历几乎不可能识别出这种技能,但可以通过面试过程中的关键问题来识别。”

数据科学家简历应该突出什么?

在准备申请材料时,统计方法的知识是基础。“很多人称自己为数据科学家,因为他们修完了 Coursera 的四门课程,或者完成了为期 12 周的 Python 训练营,”Sugano 说。“我认为这些入门级学习课程非常好,但候选人仅仅在简历中列出了一个 Kaggle,其中包含他们最喜欢的机器学习算法,这并不意味着他们真的了解该算法的运行方式。”

换句话说,数据科学家的工作内容不仅包括通过 R 或 Python 调用预测建模函数;他们必须知道为什么要这样做,以及如何解释结果。了解工具或模型的局限性同样也很重要。Sugano 表示,“接受过统计学培训的人不仅可以调用运行算法的函数,而且他们还知道如何正确为正在使用的模型准备数据,如何调整模型,提高性能,并且可以回答关于如何生成预测或预测值值的含义问题。”

Bonsai 分析主管 John Fordice 对此表示赞同意:“候选人应该在简历中表达他们对数据科学的热情。

Nakamori 补充说:“许多公司都对具有多行业经验、跨学科背景(数学、统计、计算机科学)以及坚实计算机科学背景的候选人”特别感兴趣。

在数据科学家面试中可能会出现哪些问题?

Nakamori 与 Abhinav Unnam(Aviso AI 的高级数据科学家)和 Benn Stancil(Mode 的联合创始人兼首席分析官)提出了一些数据科学家工作面试中可能出现的问题:

通常使用list、dictionary等概念的Python 编码测试:

  • 查找特定URL中符合要求的字符串组合。
  • 在一系列互相重叠的时间间隔中,运行算法并计算总时间花费。

机器学习案例面试:

  • 端到端地解决问题。
  • 定义问题,并提出解决方案。
  • 使用简单的量化术语解释问题;为什么使用这些量化指标以及如何测量?
  • 你将如何帮助公司销售领导团队确定销售团队的规模是否合适?
  • 我们应该如何衡量广告牌带来的影响?
  • 你将如何帮助 Airbnb 房东决定个人资料上应该发布的图片数量?
  • 用外行人的话来说,P 值是什么?
  • 简要说明一类和二类误差。
  • 如何在 SQL 和 Python 中将long dataframe和 wide dataframe互相转换?
  • 什么是 XGB模型,以及为什么它的效率很高?
  • 什么是随机森林(Random Forest)?如何计算特征重要性?
  • 什么是逻辑回归 (logistic regression)?最大似然估计是如何被应用其中的?
  • 使用 OOP 从头开始编写逻辑回归模型。
  • 请举出一个你全程参与的项目(从项目开始到产生业务影响),并做详细说明。

对于一些招聘经理和数据科学家来说,面试的难度可能很大,尤其是当面试职位的专业程度很高。“我提出的问题因人而异,具体结合工作的性质和需求,以及候选人在简历中列出的技能和经验。”菅野说。“此外,我发现,为候选人布置一些包含真实数据的课后作业,让他们进行操作和分析,还是很有帮助的。”

他补充说,课后作业可以“更好地反映了现实世界,数据科学家使用谷歌搜索、Stack Overflow等工具,而非仅仅希望他们知道仅有的编程、统计或概率问题的答案(如果有100个灯泡排成一排……)。”

传达你的结果也非常重要;当你与招聘人员和招聘经理面对面交流,你需要准备好向他们解释你所提出的解决问题背后的逻辑。数据科学家的很大一部分工作是将数据呈现给包括高管在内的多个利益相关者,帮助他们进行分析。

是否有在线测试平台可以帮助

数据科学家为面试做准备?

“可能有,也可能没有,”斯坦西尔说。“有许多用于示例技术问题的工具,以及许多用于学习技术语言的在线教程。我认为这些工具对很多面试都很有用。”

但对于专业程度很高的数据科学家职位,这类平台可没有什么用。“候选人最好试图用数据解决问题,”Stancil 补充道。“问题不需要非常重要,但是如果候选人能够谈论这些经历、过程中遇到的问题以及如何解决这些问题,对我来说,这些比能够快速说出一长串熟悉的预测模型更有用、也更令人印象深刻。”

Nakamori 鼓励数据科学家通过“HackerRank、Leetcode、Interview.io、AlgoExpert”和拥有大量学习资源的 YouTube 频道准备面试。

Fordice 补充道:“Interviewkickstart.com 是一个不错的资源,可以为数据科学家提供为期六周的课程。”

Sugano 指出,如果你真的想从面试中脱颖而出,研究潜在雇主可以帮到你:“数据科学家的研究应该从了解公司的商业模式的角度出发,同时预测该公司过去或将来利用数据提高业务决策的方式。你还需要询问有关公司数据资产集,其目前如何利用这些数据,以及为这些使用方式提供潜在的新应用程序等问题。通过提出这些问题,可以表现出数据科学家对这家公司很感兴趣,同时展示自身强大的商业头脑。

作者:Nate Swanner

亚马逊计划扩招5.5万新员工

Sep 12, 2021

据新任首席执行官安迪·贾西 (Andy Jassy) 称,亚马逊计划在未来几个月内再招 55,000 名企业和技术人员。如果亚马逊坚持增加这 55,000 名员工,公司的技术人员和企业劳动力将增加 20%。

CoreLogic 数据如何影响房屋交易?

Nov 12, 2021

在房地产市场,大量数据驱动着每一个决策。每一秒,市场都在不断发展,并为利益相关者提供新的见解,把握房地产市场的发展动向。

2021科技公司H-1B拒签率大幅下降

Sep 17, 2021

一直以来,对于 H-1B 系统的批评者来说,他们一直期待着过去几年不断上升的拒绝率会演变成长期趋势,但是,这些批评者可能要迎来一个坏的消息。

Leave a Comment

Your email address will not be published. Required fields are marked *

Comment *