在应用统计和机器学习中,数据可视化可以说是最重要的技能之一。总结来说,数据可视化是通过使用图形(例如图表、绘图、表格、甚至动画)来表示数据的一种方式。
它提供了一套重要的工具,以易于理解的方式识别对性质的理解、关系和数据驱动的洞察力,并且是业务分析的重要方面。
在这篇文章中,我们将讨论一些基本的、可以让你以更好的方式理解的数据可视化图表。
不同类型的数据可视化技术:
- i. 单变量分析(Univariate Analysis)
- ii. 双变量分析(Bivariate Analysis)
- iii. 多元分析(Multivariate Analysis)
i. 单变量分析(Univariate Analysis)
在这种技术中,单个特征用来对几乎所有属性进行分类。用于单变量分析的常用可视化技术是直方图(histogram),也就是频率分布图。类似的,箱线图(box plot)和小提琴图(Violin plot)用于比较变量的分布,并对异常值提供洞察。
a. 直方图
- 1. 存在于Seaborn包中。
- 2. 这是一种条形图,其中 X 轴代表 bin 的范围,而 Y 轴提供有关频率的信息。
- 3. 它是用分布图形表示数值数据的准确方法之一。
b. 箱形图
- 1. Seaborn库中提供了箱线图。
- 2. 通过四分位数描绘的数字来展示数据的视觉表示。箱线图也常被用于检测数据集中的异常值。它通过简单的方框和线条有效地捕获数据摘要,我们可以轻松地跨组进行比较。它用第 25、第 50 和第 75个百分位数来汇总样本数据。这些百分位数也称为下四分位数、中位数和上四分位数。
- 3. 箱线图由最小值、第一四分位数( 25%)、中位数(第二四分位数或 50%)、第三四分位数(75%)、以及最大值组成。
c. 小提琴图
- 1. 你可以把小提琴图可以看作把箱线图放在中间,数据放在两侧的分布图(核密度估计Kernel Density Estimation)的组合。
- 2. 它可以给我们描述数据集的分布,比如分布是否是多模态的(multimodal)、偏度(Skewness)等。
- 3. 它还为我们提供了有用的信息,比如95% 置信区间。
ii. 双变量分析
此类数据涉及 两个不同的变量。这类数据的分析包含原因和关系,我们对它们进行分析以找出两个变量之间的关系。
a. 线图
- 1. 只要是分析2 个变量之间类型, 你可以在各个地方遇到这个图。
- 2. 线图是一系列数据点上的值,用直线连接起来。
- 3. 它用ROC-AUC 曲线,分析一个模型的性能。
b. 条形图
- 1. 条形图或条形图是用矩形条表示数据类别的图形,矩形条的长度和高度取决于它们所代表的值。
- 2. 条形图可以水平或垂直绘制。条形图描述了离散类别之间的比较。图的一个轴代表被比较的特定类别,而另一个轴代表与类别对应的测量值。
- 3. 条形图存在于Matplotlib包中。
c. 散点图
- 1. 散点图是一个图表,其中每个值都由一个点表示。
- 2. 散点图需要相同长度的数组,一个用于 x 轴的值,另一个用于 y 轴的值。每个数据都表示为一个点,其位置由 x 和 y 列给出。
- 3. 散点图可以是 2-D 或 3-D的。二维散点图是常见的散点图,主要用来找出数据的模式、聚类和可分离性。
iii.多元分析
当数据涉及三个或更多变量时,它就被归类为多变量。它的形式类似于双变量,但包含多个因变量。对此数据进行分析的方法取决于你要实现的目标。其中常见的一些技术有回归分析、路径分析和因子分析。
在可视化方面,Python 中的 Seaborn 库都有配对图(pairplots),它根据变量的类型,在一系列散点图和直方图中生成一个固定变量的大图表,也称为散点图矩阵。
总结
你刚刚了解了几种不同可视化的技术,以及每种技术对应的常用图表工具。希望这篇文章能让你了解每个图的作用,以及应该在何时使用。掌握每个图的关键特性,可以让你能更快地根据需要应用图表。谢谢你的阅读!
原文作者:Tanvi Kurade
翻译作者:Jiawei Tong
美工编辑:过儿
校对审稿:Jiawei Tong
原文链接:https://medium.com/@kuradetanvi13/data-visualization-techniques-for-data-science-you-must-know-c58bb1f16da8