数据科学家八大最常见统计面试题

Mar 28, 2021 by Zhang in  Blog

统计学是数据科学的重要基础之一,在数据科学家的工作中发挥着重要的作用。因此,每一个数据科学家都必须拥有充足的统计知识。

推论统计学 (Inferential Statistics) 有助于从任何给定的数据集中推论出总体的属性,而描述统计学 (Descriptive Statistics) 则可以帮助我们借助集中趋势和变异性来理解数据以及这些属性。

作为一名优秀的数据科学家,熟悉以下统计问题,一定会对你的技术面试大有帮助。下面,让我们来深入研究学习这些问题。

1.如何定义置信区间 (Confidence interval)

通过统计推断,我们可以得到样本的某个总体参数的区间估计,即置信区间。置信区间可以通过以下公式计算得到:

[point_estimation – cv * sd,point_estimation + cv * sd],

其中,cv 是根据样本分布定义的临界值,sd是样本的标准差。

2.如何定义置信水平 (Confidence level)

在假设检验中,置信水平是指在原假设错误的前提下拒绝原假设的可能性。计算公式为:

P(不拒绝H0 | H0为真)= 1 – P(拒绝H0 | H0为真)

默认统计功效 (Statistical power) 一般是95%。

3.如何定义假设检验 (Hypothesis testing)

假设检验是一种统计推断方法,通过该方法,你可以对总体的某种规律提出一个假设,通过样本数据来推断,决定是否拒绝这一假设。在这一过程中,你需要通过比较p值 (p-value) 和显着性水平 (significance level) 来决定是否拒绝原假设。假设检验主要用于测试某一决策或改变是否会产生实际的效果。

4.如何检测异常值 (Outliers)

检测异常值其实很简单,我们只需要找出一组测定值中与其他测定值差异较大的值。具体方法是使用IQR(四分位距)。IQR是指第三个四分位数和第一个四分位数之间的差值,即IQR = Q3 – Q1。任何小于Q1 – 1.5 * IQR或大于Q3 + 1.5 * IQR的数据点都可以定义为异常值。

5.如何定义p值 (p-value)

P值就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率。如果p值很小,那么拒绝原假设的可能性就更高。

6.如何定义I型和II型错误 (Type Ⅰ and Type Ⅱ error)

I型错误是指P(拒绝H0 | H0为真),也叫伪阳性 (False positive),可以用⍺表示,(⍺ = 1 – 置信水平),II型错误是指P(不拒绝H0 | H0为假),也叫伪阴性 (False negative),可以用β表示,(β = 1 – 统计功效)

实际工作中,常需要在I型和II型错误之间做一些折衷。例如,如果希望减小I型错误,必须接受II型错误可能随之提高的事实。

7.如何选择实验的样本大小 (Sample size)

实验所需样本大小与样本的标准误差(Standard error)、统计功效 (Statistical power)、效应值 (Effect size)和所需的置信水平(Confidence level)等密切相关。一般情况下,只有当统计功效增加或样本效应值减小时,样本大小才需要增加。统计是数据科学家的基本工具,这也是为什么每一个从事数据科学领域的人都需要对此有深入的了解。

8.如何定义标准误差 (Standard error)

标准误差,也称标准误,即样本平均数抽样分布的标准差。平均值标准误差,可以通过总体的标准差和样本大小计算得出,即平均值标准误差等于总体的标准差除以样本大小的平方根。其中,如果总体的标准差未知,可以用样本的标准差来进行估计。

总而言之,如果你想成为一名数据科学家,掌握统计知识是非常重要的。多年来,数据科学广受求职者的青睐。但是,许多人申请了相关的职位,却因为缺乏合适的技能而被拒绝。为了成为一名优秀的数据科学家,一定要掌握各种相关知识、技能,通过参加课程、考取证书、增加项目经历等等提高求职成功率。

原文作者:Mark Taylor
翻译作者:Haoran Qiu
美工编辑:过儿
校对审稿:Dongdong
原文链接:https://blog.usejournal.com/top-8-statistics-interview-questions-for-a-data-science-interview-ef95ad1dfefb

二季度初创企业裁员加剧,尚未达到疫情水平

Oct 03, 2022

对于许多初创公司来说,这几个月过得很艰难,尤其是那些处于加密货币等动荡行业下游的初创公司。一些初创公司已经倒闭了,而另一些公司则在裁员和削减项目。

数据科学面试中,你需要问你的雇主这 5 个问题

Jan 19, 2022

面试中,面试官总是会问你“有没有什么问题想问的”。你可能和我一样,因为脑子短路而问了一些非常傻的问题。比如,有一次我太紧张了,我问:“到办公室需要多长时间?” 

北美求职60秒:为什么在美国科技行业中印度人比中国人多?(12月第1周)

Dec 06, 2023

本期话题,带你了解“为什么在美国科技行业中印度人比中国人多?”

Leave a Comment

Your email address will not be published. Required fields are marked *

Comment *