统计学是数据科学的重要基础之一,在数据科学家的工作中发挥着重要的作用。因此,每一个数据科学家都必须拥有充足的统计知识。
推论统计学 (Inferential Statistics) 有助于从任何给定的数据集中推论出总体的属性,而描述统计学 (Descriptive Statistics) 则可以帮助我们借助集中趋势和变异性来理解数据以及这些属性。
作为一名优秀的数据科学家,熟悉以下统计问题,一定会对你的技术面试大有帮助。下面,让我们来深入研究学习这些问题。
1.如何定义置信区间 (Confidence interval)
通过统计推断,我们可以得到样本的某个总体参数的区间估计,即置信区间。置信区间可以通过以下公式计算得到:
[point_estimation – cv * sd,point_estimation + cv * sd],
其中,cv 是根据样本分布定义的临界值,sd是样本的标准差。
2.如何定义置信水平 (Confidence level)
在假设检验中,置信水平是指在原假设错误的前提下拒绝原假设的可能性。计算公式为:
P(不拒绝H0 | H0为真)= 1 – P(拒绝H0 | H0为真)
默认统计功效 (Statistical power) 一般是95%。
3.如何定义假设检验 (Hypothesis testing)
假设检验是一种统计推断方法,通过该方法,你可以对总体的某种规律提出一个假设,通过样本数据来推断,决定是否拒绝这一假设。在这一过程中,你需要通过比较p值 (p-value) 和显着性水平 (significance level) 来决定是否拒绝原假设。假设检验主要用于测试某一决策或改变是否会产生实际的效果。
4.如何检测异常值 (Outliers)
检测异常值其实很简单,我们只需要找出一组测定值中与其他测定值差异较大的值。具体方法是使用IQR(四分位距)。IQR是指第三个四分位数和第一个四分位数之间的差值,即IQR = Q3 – Q1。任何小于Q1 – 1.5 * IQR或大于Q3 + 1.5 * IQR的数据点都可以定义为异常值。
5.如何定义p值 (p-value)
P值就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率。如果p值很小,那么拒绝原假设的可能性就更高。
6.如何定义I型和II型错误 (Type Ⅰ and Type Ⅱ error)
I型错误是指P(拒绝H0 | H0为真),也叫伪阳性 (False positive),可以用⍺表示,(⍺ = 1 – 置信水平),II型错误是指P(不拒绝H0 | H0为假),也叫伪阴性 (False negative),可以用β表示,(β = 1 – 统计功效)。
实际工作中,常需要在I型和II型错误之间做一些折衷。例如,如果希望减小I型错误,必须接受II型错误可能随之提高的事实。
7.如何选择实验的样本大小 (Sample size)
实验所需样本大小与样本的标准误差(Standard error)、统计功效 (Statistical power)、效应值 (Effect size)和所需的置信水平(Confidence level)等密切相关。一般情况下,只有当统计功效增加或样本效应值减小时,样本大小才需要增加。统计是数据科学家的基本工具,这也是为什么每一个从事数据科学领域的人都需要对此有深入的了解。
8.如何定义标准误差 (Standard error)
标准误差,也称标准误,即样本平均数抽样分布的标准差。平均值标准误差,可以通过总体的标准差和样本大小计算得出,即平均值标准误差等于总体的标准差除以样本大小的平方根。其中,如果总体的标准差未知,可以用样本的标准差来进行估计。
总而言之,如果你想成为一名数据科学家,掌握统计知识是非常重要的。多年来,数据科学广受求职者的青睐。但是,许多人申请了相关的职位,却因为缺乏合适的技能而被拒绝。为了成为一名优秀的数据科学家,一定要掌握各种相关知识、技能,通过参加课程、考取证书、增加项目经历等等提高求职成功率。
原文作者:Mark Taylor
翻译作者:Haoran Qiu
美工编辑:过儿
校对审稿:Dongdong
原文链接:https://blog.usejournal.com/top-8-statistics-interview-questions-for-a-data-science-interview-ef95ad1dfefb