作者介绍:
Cassie Kozyrkov是谷歌首席决策科学家。擅长领域:统计、机器学习/人工智能、数据、艺术、戏剧、决策科学。
偏差和方差是两个基本的数据科学概念。
什么是偏差?
取决于你在哪里听到这个词。我列出了各种偏差用法的详细清单,以供大家消遣,但在本文中,我们将重点讨论一种特定的偏差——统计偏差。
打靶
如果你是一个优秀的射手,而且你瞄准的是靶心,那么完成后你的靶子会是什么样子?像这样的?
现在想象一下,如果你的目标是有偏差的。你的目标会是什么样子?
到处都是点?不。这就是我们所说的高方差,而不是高偏差。
相反,偏差是这样的:
有偏差的结果系统性地偏离标准,但如果方差低,可能仍会紧密聚集在一起。
在统计学中,偏差是关于系统的不平衡性,而方差则衡量数据的分散程度。
方差是在数据中有更多的分布。没有偏差的高方差是一种无能,平均的散布。这就是为什么当我玩飞镖时,你不想站在我20码以内的任何方向。这足以让你希望我在飞镖的一般方向上有偏差。
从这张图中可以看出,最坏的结果是那些具有高方差和高偏差的结果,而最好的是使它们都保持在低水平。
如果你是因为对机器学习中的偏差-方差权衡概念感到好奇,那么最重要的是要了解最佳模型是没有偏差和方差的。如果你正在训练一个机器学习模型,并且成功地降低了偏差和方差,那么就没有必要谈论权衡了。
但是如果你不能同时改进偏差和方差呢?如果方差降低意味着偏离目标怎么办?为什么会这样?为什么这很重要?大多数认为理解偏差-方差权衡的人为什么实际上完全误解了它?
在关于偏差和方差的系列中,将回答这些问题以及更多问题。
延伸阅读:横向
如果你足够了解方差,我建议你继续阅读我的平行文章,该文章使用冠状病毒案例研究来教你其他类型的偏差:抽样偏差、选择偏差、信息偏差、报告偏差和确认偏差。(链接:https://towardsdatascience.com/were-21-of-new-york-city-residents-really-infected-with-covid-19-aab6ebefda0)
延伸阅读:深入
你们可能希望更深入一些,特别是如果你热衷于了解偏差-方差权衡。在这种情况下,请继续关注该系列的其余部分。当你等待下一部分时,你可以获取所有你需要的背景,以便理解它。
下面是一份核心概念清单,假设你在本系列的其余部分中已经理解:
- 人口
- 样本
- 观察
- 参数
- 统计资料
- 估计
- 估计器
- 被估量
如果其中任何一个不熟悉,这里有我的方便的词汇指南来帮助你。
(链接:https://towardsdatascience.com/statistician-proves-that-statistics-are-boring-4fc22c95031b)
如果你对机器学习中的偏差-方差权衡感兴趣,这也是系列的目的所在,那么对ML/AI的这些基础知识略知一二会有所帮助:
(链接:https://hackernoon.com/machine-learning-is-the-emperor-wearing-clothes-59933d12a3cc)
- ML/AI 的意义是什么
- 模型
- 损失函数
此外,你应该知道每一个的定义:
(链接1:https://towardsdatascience.com/getting-to-know-probability-distributions-cc1dd1e2f22b
链接2:https://towardsdatascience.com/a-field-guide-to-the-most-popular-parameters-d734596c3f26)
- 期望值
- 随机变量
- 分布
- 概率
- 均值
- 方差
不用担心!这些概念比大多数人想象的要容易得多。学习快乐!
原文作者:Cassie Kozyrkov
翻译作者:明慧
美工编辑:过儿
校对审稿:Miya
原文链接:https://towardsdatascience.com/making-sense-of-bias-and-variance-a5e639f6bd86