你必须知道的数据科学的可视化技术

Apr 21, 2022 by Zhang in  Blog

在应用统计和机器学习中,数据可视化可以说是最重要的技能之一。总结来说,数据可视化是通过使用图形(例如图表、绘图、表格、甚至动画)来表示数据的一种方式。

它提供了一套重要的工具,以易于理解的方式识别对性质的理解、关系和数据驱动的洞察力,并且是业务分析的重要方面。

在这篇文章中,我们将讨论一些基本的、可以让你以更好的方式理解的数据可视化图表。

不同类型的数据可视化技术:

  • i. 单变量分析(Univariate Analysis)
  • ii. 双变量分析(Bivariate Analysis)
  • iii. 多元分析(Multivariate Analysis)

i. 单变量分析(Univariate Analysis)

在这种技术中,单个特征用来对几乎所有属性进行分类。用于单变量分析的常用可视化技术是直方图(histogram),也就是频率分布图。类似的,箱线图(box plot)小提琴图(Violin plot)用于比较变量的分布,并对异常值提供洞察。

a. 直方图

  • 1. 存在于Seaborn包中。
  • 2. 这是一种条形图,其中 X 轴代表 bin 的范围,而 Y 轴提供有关频率的信息。
  • 3. 它是用分布图形表示数值数据的准确方法之一。
直方图

b. 箱形图

  • 1. Seaborn库中提供了箱线图。
  • 2. 通过四分位数描绘的数字来展示数据的视觉表示。箱线图也常被用于检测数据集中的异常值。它通过简单的方框和线条有效地捕获数据摘要,我们可以轻松地跨组进行比较。它用第 25、第 50 和第 75个百分位数来汇总样本数据。这些百分位数也称为下四分位数、中位数和上四分位数。
  • 3. 箱线图由最小值、第一四分位数( 25%)、中位数(第二四分位数或 50%)、第三四分位数(75%)、以及最大值组成。
箱形图

c. 小提琴图

  • 1. 你可以把小提琴图可以看作把箱线图放在中间,数据放在两侧的分布图(核密度估计Kernel Density Estimation)的组合。
  • 2. 它可以给我们描述数据集的分布,比如分布是否是多模态(multimodal)偏度(Skewness)等。
  • 3. 它还为我们提供了有用的信息,比如95% 置信区间。
小提琴剧情

ii. 双变量分析

此类数据涉及 两个不同的变量。这类数据的分析包含原因和关系,我们对它们进行分析以找出两个变量之间的关系。

a. 线图

  • 1. 只要是分析2 个变量之间类型, 你可以在各个地方遇到这个图。
  • 2. 线图是一系列数据点上的值,用直线连接起来。
  • 3. 它用ROC-AUC 曲线,分析一个模型的性能。
线图

b. 条形图

  • 1. 条形图或条形图是用矩形条表示数据类别的图形,矩形条的长度和高度取决于它们所代表的值。
  • 2. 条形图可以水平或垂直绘制。条形图描述了离散类别之间的比较。图的一个轴代表被比较的特定类别,而另一个轴代表与类别对应的测量值。
  • 3. 条形图存在于Matplotlib包中。
条形图

c. 散点图

  • 1. 散点图是一个图表,其中每个值都由一个点表示。
  • 2. 散点图需要相同长度的数组,一个用于 x 轴的值,另一个用于 y 轴的值。每个数据都表示为一个点,其位置由 x 和 y 列给出。
  • 3. 散点图可以是 2-D 或 3-D的。二维散点图是常见的散点图,主要用来找出数据的模式、聚类和可分离性。
散点图

iii.多元分析

当数据涉及三个或更多变量时,它就被归类为多变量。它的形式类似于双变量,但包含多个因变量。对此数据进行分析的方法取决于你要实现的目标。其中常见的一些技术有回归分析、路径分析和因子分析。

在可视化方面,Python 中的 Seaborn 库都有配对图(pairplots),它根据变量的类型,在一系列散点图和直方图中生成一个固定变量的大图表,也称为散点图矩阵。

总结

你刚刚了解了几种不同可视化的技术,以及每种技术对应的常用图表工具。希望这篇文章能让你了解每个图的作用,以及应该在何时使用。掌握每个图的关键特性,可以让你能更快地根据需要应用图表。谢谢你的阅读!

原文作者:Tanvi Kurade
翻译作者:Jiawei Tong
美工编辑:过儿
校对审稿:Jiawei Tong
原文链接:https://medium.com/@kuradetanvi13/data-visualization-techniques-for-data-science-you-must-know-c58bb1f16da8

软件工程师绩效评估三大误区

Nov 16, 2022

2020年4月,McKinsey就“技术转型”给公司带来的影响对500位领导者进行了调查,而结果令人震惊。从增强IT基础设施到数据扩展和分析,该调查询问了大约10项旨在增加收入或降低成本的技术主导的变革。

北美求职指北-E周报(8月第3周):疫情致全美公司返回办公室计划延后;科技公司白领居家,蓝领复工无望

Aug 26, 2021
  • 疫情致全美公司返回办公室计划延后
  • 科技公司白领居家,蓝领复工无望

为什么人际关系在职场中那么重要?

May 13, 2024

职业社交仅限于偶尔的技术会议或求职活动的日子已经一去不复返了。

Leave a Comment

Your email address will not be published. Required fields are marked *

Comment *