作者介绍:
Cassie Kozyrkov是谷歌首席决策科学家。擅长领域:统计、机器学习/人工智能、数据、艺术、戏剧、决策科学。

偏差和方差是两个基本的数据科学概念。

什么是偏差?

取决于你在哪里听到这个词。我列出了各种偏差用法的详细清单,以供大家消遣,但在本文中,我们将重点讨论一种特定的偏差——统计偏差。

打靶

如果你是一个优秀的射手,而且你瞄准的是靶心,那么完成后你的靶子会是什么样子?像这样的?

现在想象一下,如果你的目标是有偏差的。你的目标会是什么样子?

到处都是点?不。这就是我们所说的高方差,而不是高偏差。

相反,偏差是这样的:

这一系列的图像是由作者创作的

有偏差的结果系统性地偏离标准,但如果方差低,可能仍会紧密聚集在一起。

在统计学中,偏差是关于系统的不平衡性,而方差则衡量数据的分散程度。

方差是在数据中有更多的分布。没有偏差的高方差是一种无能,平均的散布。这就是为什么当我玩飞镖时,你不想站在我20码以内的任何方向。这足以让你希望我在飞镖的一般方向上有偏差。

从这张图中可以看出,最坏的结果是那些具有高方差和高偏差的结果,而最好的是使它们都保持在低水平。

如果你是因为对机器学习中的偏差-方差权衡概念感到好奇,那么最重要的是要了解最佳模型是没有偏差和方差的。如果你正在训练一个机器学习模型,并且成功地降低了偏差和方差,那么就没有必要谈论权衡了。

但是如果你不能同时改进偏差和方差呢?如果方差降低意味着偏离目标怎么办?为什么会这样?为什么这很重要?大多数认为理解偏差-方差权衡的人为什么实际上完全误解了它?

在关于偏差和方差的系列中,将回答这些问题以及更多问题。

作者高斯马尔可夫。差异太大!

延伸阅读:横向

如果你足够了解方差,我建议你继续阅读我的平行文章,该文章使用冠状病毒案例研究来教你其他类型的偏差:抽样偏差、选择偏差、信息偏差、报告偏差和确认偏差。(链接:https://towardsdatascience.com/were-21-of-new-york-city-residents-really-infected-with-covid-19-aab6ebefda0

延伸阅读:深入

你们可能希望更深入一些,特别是如果你热衷于了解偏差-方差权衡。在这种情况下,请继续关注该系列的其余部分。当你等待下一部分时,你可以获取所有你需要的背景,以便理解它。

下面是一份核心概念清单,假设你在本系列的其余部分中已经理解:

  • 人口
  • 样本
  • 观察
  • 参数
  • 统计资料
  • 估计
  • 估计器
  • 被估量

如果其中任何一个不熟悉,这里有我的方便的词汇指南来帮助你。

链接:https://towardsdatascience.com/statistician-proves-that-statistics-are-boring-4fc22c95031b

如果你对机器学习中的偏差-方差权衡感兴趣,这也是系列的目的所在,那么对ML/AI的这些基础知识略知一二会有所帮助:

链接:https://hackernoon.com/machine-learning-is-the-emperor-wearing-clothes-59933d12a3cc

  • ML/AI 的意义是什么
  • 模型
  • 损失函数

此外,你应该知道每一个的定义:

(链接1:https://towardsdatascience.com/getting-to-know-probability-distributions-cc1dd1e2f22b

链接2:https://towardsdatascience.com/a-field-guide-to-the-most-popular-parameters-d734596c3f26

  • 期望值
  • 随机变量
  • 分布
  • 概率
  • 均值
  • 方差

不用担心!这些概念比大多数人想象的要容易得多。学习快乐!

原文作者:Cassie Kozyrkov
翻译作者:明慧
美工编辑:过儿
校对审稿:Miya
原文链接:https://towardsdatascience.com/making-sense-of-bias-and-variance-a5e639f6bd86

数据工程师(DE)需要掌握哪些技能?

Dec 11, 2022

数据工程是一项关键性的工作,数据工程师构建和维护对业务运营至关重要的大型数据库,数据科学家和数据分析师依靠这项工作来找到正确的数据并对其进行有效的分析。

《Indeed》2024年最佳工作评选出炉

Mar 04, 2024

工作环境受诸多因素的影响一直处于变化、高度流动中。

解析数据工程师职业路径

Apr 15, 2023

数据工程师是美国现如今需求最大的职业之一。数据工程师利用编程、数据建模和算法知识等技能,帮助公司收集、管理原始数据并将其转换为信息可用的系统。

Leave a Comment

Your email address will not be published. Required fields are marked *

Comment *