你必须知道的数据科学的可视化技术

Apr 21, 2022 by Zhang in  Blog

在应用统计和机器学习中,数据可视化可以说是最重要的技能之一。总结来说,数据可视化是通过使用图形(例如图表、绘图、表格、甚至动画)来表示数据的一种方式。

它提供了一套重要的工具,以易于理解的方式识别对性质的理解、关系和数据驱动的洞察力,并且是业务分析的重要方面。

在这篇文章中,我们将讨论一些基本的、可以让你以更好的方式理解的数据可视化图表。

不同类型的数据可视化技术:

  • i. 单变量分析(Univariate Analysis)
  • ii. 双变量分析(Bivariate Analysis)
  • iii. 多元分析(Multivariate Analysis)

i. 单变量分析(Univariate Analysis)

在这种技术中,单个特征用来对几乎所有属性进行分类。用于单变量分析的常用可视化技术是直方图(histogram),也就是频率分布图。类似的,箱线图(box plot)小提琴图(Violin plot)用于比较变量的分布,并对异常值提供洞察。

a. 直方图

  • 1. 存在于Seaborn包中。
  • 2. 这是一种条形图,其中 X 轴代表 bin 的范围,而 Y 轴提供有关频率的信息。
  • 3. 它是用分布图形表示数值数据的准确方法之一。
直方图

b. 箱形图

  • 1. Seaborn库中提供了箱线图。
  • 2. 通过四分位数描绘的数字来展示数据的视觉表示。箱线图也常被用于检测数据集中的异常值。它通过简单的方框和线条有效地捕获数据摘要,我们可以轻松地跨组进行比较。它用第 25、第 50 和第 75个百分位数来汇总样本数据。这些百分位数也称为下四分位数、中位数和上四分位数。
  • 3. 箱线图由最小值、第一四分位数( 25%)、中位数(第二四分位数或 50%)、第三四分位数(75%)、以及最大值组成。
箱形图

c. 小提琴图

  • 1. 你可以把小提琴图可以看作把箱线图放在中间,数据放在两侧的分布图(核密度估计Kernel Density Estimation)的组合。
  • 2. 它可以给我们描述数据集的分布,比如分布是否是多模态(multimodal)偏度(Skewness)等。
  • 3. 它还为我们提供了有用的信息,比如95% 置信区间。
小提琴剧情

ii. 双变量分析

此类数据涉及 两个不同的变量。这类数据的分析包含原因和关系,我们对它们进行分析以找出两个变量之间的关系。

a. 线图

  • 1. 只要是分析2 个变量之间类型, 你可以在各个地方遇到这个图。
  • 2. 线图是一系列数据点上的值,用直线连接起来。
  • 3. 它用ROC-AUC 曲线,分析一个模型的性能。
线图

b. 条形图

  • 1. 条形图或条形图是用矩形条表示数据类别的图形,矩形条的长度和高度取决于它们所代表的值。
  • 2. 条形图可以水平或垂直绘制。条形图描述了离散类别之间的比较。图的一个轴代表被比较的特定类别,而另一个轴代表与类别对应的测量值。
  • 3. 条形图存在于Matplotlib包中。
条形图

c. 散点图

  • 1. 散点图是一个图表,其中每个值都由一个点表示。
  • 2. 散点图需要相同长度的数组,一个用于 x 轴的值,另一个用于 y 轴的值。每个数据都表示为一个点,其位置由 x 和 y 列给出。
  • 3. 散点图可以是 2-D 或 3-D的。二维散点图是常见的散点图,主要用来找出数据的模式、聚类和可分离性。
散点图

iii.多元分析

当数据涉及三个或更多变量时,它就被归类为多变量。它的形式类似于双变量,但包含多个因变量。对此数据进行分析的方法取决于你要实现的目标。其中常见的一些技术有回归分析、路径分析和因子分析。

在可视化方面,Python 中的 Seaborn 库都有配对图(pairplots),它根据变量的类型,在一系列散点图和直方图中生成一个固定变量的大图表,也称为散点图矩阵。

总结

你刚刚了解了几种不同可视化的技术,以及每种技术对应的常用图表工具。希望这篇文章能让你了解每个图的作用,以及应该在何时使用。掌握每个图的关键特性,可以让你能更快地根据需要应用图表。谢谢你的阅读!

原文作者:Tanvi Kurade
翻译作者:Jiawei Tong
美工编辑:过儿
校对审稿:Jiawei Tong
原文链接:https://medium.com/@kuradetanvi13/data-visualization-techniques-for-data-science-you-must-know-c58bb1f16da8

软件工程师、项目经理位居全美最受欢迎职位榜首

Mar 22, 2022

从奥米克戎爆发到俄罗斯入侵乌克兰,似乎2022年的每一天都有新的事件发生。但在所有这些混乱之中,有一件事似乎是不变的:企业对软件开发人员和工程师的需求。

【To-Don’t List】你会在Holiday期间安排面试吗?

Dec 24, 2020

安排工作面试可能会成为一个棘手的问题,尤其是在年底前后。许多招聘经理会在12月休年假;而那些没有休假的人可能会忙于各种各样的活动,比如为来年做预算。

编程语言薪酬排行: Python、C++等

Nov 09, 2020

如果你是一家投资银行的技术人员,哪种编程语言会让你的收入最大化?显然这个问题很好回答:银行业的大多数工程工作都要求开发人员精通多种语言。

Leave a Comment

Your email address will not be published. Required fields are marked *

Comment *