数据行业被认为是现在增长最快、价值数十亿美元的行业之一。最近,一项使用LinkedIn求职搜索工具的研究显示,2020年大多数顶尖科技工作都需要数据科学技能。

因此,公司和组织正试图充分利用现有的数据,并确定哪些数据仍然需要捕获和存储。此外,数据科学家仍然需要弄清楚这些数字的意义,并发现复杂业务问题的隐藏解决方案。

面对数据科学领域令人兴奋的机遇,自学数据科学是个好方法,可以帮你获得在这个竞争领域脱颖而出所需的技能和经验,并让你的雇主在竞争中拥有优势。在进入数据科学领域之前,以下几个问题很重要,可以用来评估数据科学是否真的适合你。

1. 什么是数据科学?

数据科学是一个非常广泛的领域,其包括几个细分领域,如数据准备和探索、数据表示与转换、数据可视化与呈现、预测分析、机器学习、深度学习、人工智能等。可以考虑三个级别的数据科学能力(3个级别是根据目前最好的机器学习教科书之一:Sebastien Raschka的Python Machine Learning,第3版)中的主题定义的,即:1级(基础级);2级(中级);3级(高级)。能力从1级提升到3级,如下图1所示。

图1:数据科学能力的三个层次。图片:Benjamin O. Tayo

2. 数据科学家做些什么?

数据科学家通过数据得出有意义和深刻的结论,从而推动机构或组织的决策。他们的工作职责包括数据收集、数据转换、数据可视化和分析,建立预测模型,根据数据发现提供行动建议。数据科学家可以在不同的部门工作,如医疗保健、政府、工业、能源、学术界、技术、娱乐等。雇佣数据科学家的顶级公司有亚马逊、谷歌、微软、Facebook、LinkedIn、Twitter、Netflix、IBM等。

3. 数据科学家的就业前景如何?

数据科学家的就业前景非常乐观。IBM预测,2020年对数据科学家的需求将激增28%。最近一项使用LinkedIn求职搜索工具的研究显示,2020年大多数顶级科技工作都需要数据科学、商业分析、机器学习和云计算方面的技能(见图2)。

图2:通过LinkedIn的工作搜索工具,全球范围内的技能工作数量。图片:Benjamin O. Tayo

4. 数据科学家能挣多少钱?

作为数据科学家,你挣多少钱取决于你为之工作的组织或公司、你的教育背景、工作年限和你的具体工作职位。数据科学家的年薪从5万美元到25万美元不等,平均年薪约为12万美元。

5. 我如何为数据科学的职业生涯做准备?

大多数数据科学或商业分析项目会有以下要求:

  • a)高水平的定量能力
  • b)解决问题的心态
  • c)编程能力
  • d)有效沟通的能力
  • e)团队合作的能力

因此,为了做好数据科学领域职业准备,你可以先攻读定量学科的学士学位,如科学、技术、工程、数学、商业或经济学。

6. 我应该以哪些编程语言为重点?

如果你对学习数据科学的基础知识感兴趣,你就基础开始学起,不要被数据科学家招聘广告中提到的编程语言列表所吓到。尽管学习尽可能多的数据科学工具很重要,但建议开始时只学习一到两种编程语言。一旦你打下了扎实的数据科学基础,就可以挑战自己,学习不同的编程语言或不同平台和产品工具来可以提高自己的能力。就像本文所讲的,Python和R仍然是数据科学中最常用的两种编程语言。我建议从Python开始学起,因为越来越多的学术培训项目和行业正在使用Python作为数据科学的默认语言。

7. 成为一名数据科学家需要多长时间?

如果你在分析学科(如物理、数学、工程、计算机科学、经济学或统计学)有扎实的基础,你基本上可以自学数据科学的基础知识。你可以从edX、Coursera或DataCamp等平台上的免费在线课程开始。Level 1(见图1)可以在6到12个月内达到。Level 2可以在7到18个月内达到。Level 3可以在18到48个月内达到。获得一定水平的能力所需的时间取决于你的背景和你愿意在数据科学学习中投入多少时间。通常情况下,具有分析学科背景(如物理、数学、科学、工程、会计或计算机科学)的个人需要的时间比具有非数据科学背景的个人要少。

8. 即使项目中遇到障碍,我也有足够的耐心继续工作吗?

数据科学项目可能会很长,要求很高。从构建问题到建立模型和应用,这个过程可能需要几周甚至几个月的时间,这取决于问题的规模。作为一名执业数据科学家,在项目中遇到障碍是不可避免的。耐心、坚韧和毅力是数据科学事业成功的关键素质。

9. 我是否具备商业敏锐度,能够从模型中得出有意义的结论,从而为组织做出重要的数据驱动决策?

数据科学是一个非常实用的领域。请记住,你可能非常擅长处理数据和构建良好的机器学习算法,但作为一个数据科学家,实际应用才是最重要的。每个预测模型都必须对现实生活的情况产生有意义和可解释的结果。预测模型必须经过实际验证,才能被认为是有意义和有用的。作为一名数据科学家,你的角色是从数据中得出有意义的见解,这些见解可以用于数据驱动的决策,可以提高公司的效率或改善业务运作的方式,或帮助增加利润。

10. 我是否具备良好的沟通技巧?

数据科学家需要能够与团队中的其他成员或组织中的业务管理员交流他们的想法。在这里,良好的沟通技巧将发挥关键作用,能够向那些对数据科学的技术概念了解很少或完全不了解的人传达和展示非常技术性的信息。良好的沟通技巧将有助于与其他团队成员,如数据分析师、数据工程师、现场工程师等营造一种团结一致的氛围。

11. 我是终身学习者吗?

数据科学是一个不断发展的领域,所以准备好接受和学习新技术。与该领域的发展保持联系的一种方法是与其他数据科学家建立联系。一些促进社交的平台包括LinkedIn、GitHub和medium(面向数据科学和人工智能出版物)。这些平台对于有关该领域最近发展的最新信息非常有用。

12. 我擅长团队合作吗?

作为一名数据科学家,你将在一个由数据分析师、工程师、管理员组成的团队中工作,因此你需要良好的沟通技巧。你也需要成为一个好的倾听者,特别是在项目开发的早期阶段,你需要依靠工程师或其他人员来设计和构建一个好的数据科学项目。做一个具有良好团队精神的人将有助于你在商业环境中茁壮成长,并与团队其他成员以及组织的管理者或董事保持良好的关系。

13. 我道德高尚吗?

在数据科学中,伦理和隐私方面的考虑是必须的,你需要了解你的项目的含义,对自己诚实。避免操纵数据或故意使用会造成结果偏差的方法。在数据收集、分析、模型建立、分析、测试和应用等各个阶段都要遵守道德规范。避免为了误导或操纵听众而捏造结果,在解释数据科学项目的发现时要合乎道德。

14. 学习数据科学有哪些资源?

如果条件允许,你可以攻读数据科学或商业分析的硕士学位。如果你负担不起攻读硕士学位的费用,你可以通过自学的方式学习数据科学。一般来说,如果你在物理、数学、经济学、工程学或计算机科学等分析学科有坚实的基础,并且你对探索数据科学领域感兴趣,最好的方法是从大规模的在线开放课程(MOOC)开始。在打下坚实的基础之后,你可能会找其他途径来增加你的知识和专业技能,比如从课本上学习,参与项目,与其他有抱负的数据科学人士建立联系。

以下是推荐的mooc和教科书,可以帮你掌握数据科学的基本原理。

网络公开课推荐:

Professional Certificate in Data Science(HarvardX,通过edX)

https://www.edx.org/professional-certificate/harvardx-data-science

Analytics: Essential Tools and Methods(Georgia TechX,通过edX)

https://www.edx.org/micromasters/gtx-analytics-essential-tools-and-methods

Applied Data Science with Python Specialization(密歇根大学,通过Coursera)

https://www.coursera.org/specializations/data-science-python

推荐书目:

Python Machine Learning
作者:Sebastian Raschka

从书本上学到的知识比你从网络课程中学到的知识更精炼、更深入。这本书很好的介绍了数据科学和机器学习,包括代码。

https://github.com/rasbt/python-machine-learning-book-3rd-edition

开源书籍链接:

GitHubhttps://github.com/rasbt/python-machine-learning-book-3rd-edition

作者以一种非常容易理解的方式解释了机器学习的基本概念。此外,还包含了代码,因此你可以实际使用提供的代码来实践和构建你自己的模型。我个人觉得这本书对我作为数据科学家的旅程非常有用,我会向任何有志于数据科学的人推荐这本书。你所需要的只是基本的线性代数和编程技能来理解这本书。

还有很多优秀的数据科学教材,如Wes McKinney的《Python for data Analysis》https://sushilapalwe.files.wordpress.com/2018/04/python-for-data-analytics-book.pdf

Kuhn & Johnson的《Applied Predictive Modeling》https://vuquangnguyen2016.files.wordpress.com/2018/03/applied-predictive-modeling-max-kuhn-kjell-johnson_1518.pdf

Ian H. Witten、Eibe Frank & Mark A. Hall的《Data Mining: Practical Machine Learning Tools and Techniques》https://www.wi.hs-wismar.de/~cleve/vorl/projects/dm/ss13/HierarClustern/Literatur/WittenFrank-DM-3rd.pdf)等。

总结

总而言之,我们讨论了14个学习数据科学的人常问的重要问题。根据个人背景的不同,走向数据科学的旅程可能会有所不同,但本文提供的答案可以为考虑数据科学领域的个人提供一些指导。

原文作者:Benjamin Obi Tayo Ph.D.
翻译作者:过儿
美工编辑:过儿
校对审稿:Dongdong
原文链接:https://medium.com/towards-artificial-intelligence/is-data-science-for-me-14-self-examination-questions-to-consider-45287205c1a9

新手数据工程师常犯的5个错误

Jun 08, 2021

在最佳的实践和业务调整方面,大多数新手数据工程师都是边学边做的。从构建太复杂而不可持续的系统,到过分信任现有的数据结构。

如何与招聘经理建立联系来获取求职优势?

Oct 02, 2023

过去几年,招聘环境发生了变化。值得注意的是,科技行业的低失业率已经转化为大量的空缺职位。

北美求职60秒:求职简历写几页最合适?(4月第1周)

Apr 19, 2023

本期话题,带你了解“求职简历写几页最合适?”

Leave a Comment

Your email address will not be published. Required fields are marked *

Comment *