五个数据科学项目,让你的简历更出色

Apr 17, 2022 by Zhang in  Blog

不久前,我和一名研究生聊天,他一直拿不到面试,想让我帮他修改简历。很多人都认为,拿不到面试是因为简历缺少关键词,或者之前工作经验并没有什么具体的价值。

如果你还在泰坦尼克号数据集上机器学习,或者在波士顿房价数据集上进行线性回归,那么你现在可能就知道问题出在哪里了。

简历中的项目经验是简历中最重要的部分,尤其是对于应届毕业生或转行的求职者(因为你的其他经历现在并不重要)

要以初学者的身份进入数据行业,你需要证明你拥有必备的技能,如果你没有任何正式工作经验,最好的方法就是做新的数据科学项目。你的项目证明你具有这方面的潜力,可以让雇主相信你能胜任这份工作。

以下是五个为我带来了灵感的项目,并为我带来为期一年的实习和后面的两个全职工作铺平了道路。

1 让我获得实习机会的项目

这是我做过的第一个数据科学项目(早在2018年),当时的我是一个编程新手。话虽如此,这个项目让我在百事可乐获得了一个数据科学的实习机会。

  • 问题陈述:创建一个模型,以确定在城市中开设新餐厅的最佳位置,要满足人口最多、竞争最小这两个条件。
  • 使用的技术:One-hot 编码、特征工程和选择、分段和k-means聚类、地理编码(获取位置的经纬度)、使用Python的BeautifulSoup库进行数据提取(获取与邮政编码和坐标对应的社区)

使用的工具:Jupyter for Python。

这个项目是如何让我获得实习机会的?

在第一轮面试中,面试官让我讲一下我所做的项目,于是,我介绍了这个项目,因为它涵盖了数据科学生命周期的大部分内容。我介绍了项目背景,并详细阐述了这个项目将如何为百事可乐增加价值。

我没有谈论某个城市附近的餐馆,而是从百事可乐的角度出发,以确定他们下一个食品加工厂、仓库、或装瓶厂的位置。通过使用全新的数据点,该项目可以帮助百事公司最大可能地节约成本。

幸运的是,在我面试的时候,百事可乐公司正巧也在研究一个非常类似的问题,第二天,我就接到了招聘经理第二轮面试的回电!

2 展示项目

我在学校里时就想做一个研究项目——创建一个端到端的项目,从收集数据、到通过图表展示结论。我读了一些关于展示项目的文章,并给教授发了一封电子邮件来陈述要处理的问题。

在这个为期三个月的项目中,我分析了Twitter关于新冠疫苗的帖子,从情绪、政治、旅游、返工、症状、疫苗批准等多个方面进行了分析。

问题陈述:提取新冠疫苗相关的推文中的信息,它们五花八门毫无条理。我需要利用主题建模和文本分析来从这些推文中提取“主题”,并将流行主题对应的情感趋势可视化。

使用的技术:

  • 1. 从Twitter提取数据、数据清理和特征工程。
  • 2. 半监督CorEx(相关性分析)建模,用于探索数据中的关系,并确定数据中的主要“主题”。
  • 3. 情感分析。
  • 4. 无监督LDA(线性判别分析),分离两类或两类以上对象或事件特征的线性组合。
  • 5. 数据可视化、聚类。

使用的工具:Python、Tableau、MS Excel。

几个月后,在我努力寻找关于抓取数据的材料的过程中,我写了一篇博客,讲述了如何使用snscrape抓取数百万条推文,并将其反馈给其他正在处理类似问题的人,并将我的GitHub项目分享到了博客上,那一刻起,这成为了我与其他同行的一次很好的旅程。我在LinkedIn上收到了一条消息,是与一家初创公司的资深数据科学家聊天,我们像一个团队一样,讨论如何使用社交媒体进行情感分析。

重点是,就像我把这当作我的展示项目一样,每个项目的学习、代码、文档和演示都会变得更精彩。

3 培养有责任的领导力的项目

为即将成立的初创公司提供技术咨询

为了实现一个从概念到可行应用的种子阶段的商业理念,我和一个由产品经理和应用程序开发人员组成的团队合作,作为技术顾问和他们一起开发了一款产品,以确保在第一轮融资中获得资金。

  • 问题陈述:开发、测试和实施战略,将产品(Android和iOS应用程序)推向市场,并为市场定位创造独特的价值。
  • 使用的技术:时间序列预测、竞争对手分析的Tableau图表、市场研究、信息流架构。

要从头到尾参与一个项目,这些经历会让你学会耐心、决心和毅力来帮助创办或发展一家新公司。

你不通过项目来成为技术专家。学习、创造力、独立性、和探索新的做事方式的机会可以让你脱颖而出。

4 让我得到一份全职工作的项目

[在这部分,你可以为自己特别感兴趣的行业——金融、体育、约会、营销、电子商务、教育、社交媒体等——开展项目。]

医疗相关的分析让我感到能超越现在,展望未来。我在学校上了一节课,学习更多关于医疗保健中数据和商业的融合,并进行了更深入的学习。

  • 问题陈述:根据入院时的临床因素,创建一个预测模型来预测治疗价格。
  • 使用的技术:One-hot编码、特征工程、统计t-tests、相关性、逻辑回归、生存分析。

对于这个项目(或任何医疗项目),我必须理解问题陈述背后的商业背景——HMO和PPO保险计划之间的差异、套餐定价与传统定价、医院成本与患者成本、医疗条件对诊断和治疗计划的影响以及相关成本。

在面试中,我被问到一个可怕的问题:我们为什么要聘用你?

这个项目的知识和经验支持了我的答案。就在今天早上(2022年3月),我就写了一个SQL查询,对标准定价和套餐定价进行了严格分析。正是由于这个项目,我掌握了一些基础行业术语和医疗保健行业的语言,这些知识储备为我的面试增加了亮点!

5 Tableau仪表盘

任何公司都会使用仪表板。具体工具可能有所不同,但仪表板对业务的增加价值是至关重要的。虽然创建Tableau仪表盘没有规则,但你也可以从Community Projects,Tableau Public或PowerBI论坛中获得灵感,从一个空白表开始。

在申请工作时,我会灵活运用三个Tableau仪表盘(阅读工作描述,并使用其中一个来匹配最接近的所需技能)

  • 1. 信用评分分析:分析银行贷款数据,评估贷款违约风险。
  • 2. 医疗支出:按医院比较医疗程序成本。
  • 3. 营销推广提升:研究与产品的互动,了解参与度,并使用业务问题陈述中定义的KPI在植入式广告中建立一致性。

每次“数据”面试通常都会询问你是否熟悉仪表板或数据可视化工具中的任何一种,因此掌握这项技能对于面试是不可或缺的。

让你的项目脱颖而出的快速方法:

  • 1. 收集你自己的数据——这样你的项目在洞察方面是独一无二的。
  • 2. 建立一个展示项目——涉及数据科学生命周期的项目。
  • 3. 将结果与业务影响联系起来,并为项目创造价值。
  • 4. 做一个数据清理项目,为社区发布开源数据。
  • 5. 创建一个管道,展示你对数据管道工作方式的理解

以上就是本文的全部内容。谢谢你的阅读!请在评论中分享你的数据之旅,以及2022年的目标!

原文作者:Rashi Desai
翻译作者:Chuang Zhang
美工编辑:过儿
校对审稿:Jiawei Tong
原文链接:https://medium.com/geekculture/5-data-science-projects-that-made-my-resume-stand-out-dbaeefd7f583

哪些企业急需远程办公技术员工?

Jun 15, 2021

现在哪些公司招聘的远程技术人员最多呢?正如大家所预想的,目前正疯狂招聘的行业对远程技术人员的需求量最多,包括国防和医疗保健领域。

离职潮中的五大面试问题

Jun 19, 2022

技术人员的低失业率促使雇主不得不重新评估人员流动数据,来改进招聘和面试流程。他们试图找出潜在的离职风险——那些工作几个月就离职的员工,要么是因为不适合这份工作,要么是因为他们发现了更好的机会。

你必须知道的数据科学的可视化技术

Apr 21, 2022

在应用统计和机器学习中,数据可视化可以说是最重要的技能之一。总结来说,数据可视化是通过使用图形(例如图表、绘图、表格、甚至动画)来表示数据的一种方式。

Leave a Comment

Your email address will not be published. Required fields are marked *

Comment *