你必须知道的数据科学的可视化技术

Apr 21, 2022 by Zhang in  Blog

在应用统计和机器学习中,数据可视化可以说是最重要的技能之一。总结来说,数据可视化是通过使用图形(例如图表、绘图、表格、甚至动画)来表示数据的一种方式。

它提供了一套重要的工具,以易于理解的方式识别对性质的理解、关系和数据驱动的洞察力,并且是业务分析的重要方面。

在这篇文章中,我们将讨论一些基本的、可以让你以更好的方式理解的数据可视化图表。

不同类型的数据可视化技术:

  • i. 单变量分析(Univariate Analysis)
  • ii. 双变量分析(Bivariate Analysis)
  • iii. 多元分析(Multivariate Analysis)

i. 单变量分析(Univariate Analysis)

在这种技术中,单个特征用来对几乎所有属性进行分类。用于单变量分析的常用可视化技术是直方图(histogram),也就是频率分布图。类似的,箱线图(box plot)小提琴图(Violin plot)用于比较变量的分布,并对异常值提供洞察。

a. 直方图

  • 1. 存在于Seaborn包中。
  • 2. 这是一种条形图,其中 X 轴代表 bin 的范围,而 Y 轴提供有关频率的信息。
  • 3. 它是用分布图形表示数值数据的准确方法之一。
直方图

b. 箱形图

  • 1. Seaborn库中提供了箱线图。
  • 2. 通过四分位数描绘的数字来展示数据的视觉表示。箱线图也常被用于检测数据集中的异常值。它通过简单的方框和线条有效地捕获数据摘要,我们可以轻松地跨组进行比较。它用第 25、第 50 和第 75个百分位数来汇总样本数据。这些百分位数也称为下四分位数、中位数和上四分位数。
  • 3. 箱线图由最小值、第一四分位数( 25%)、中位数(第二四分位数或 50%)、第三四分位数(75%)、以及最大值组成。
箱形图

c. 小提琴图

  • 1. 你可以把小提琴图可以看作把箱线图放在中间,数据放在两侧的分布图(核密度估计Kernel Density Estimation)的组合。
  • 2. 它可以给我们描述数据集的分布,比如分布是否是多模态(multimodal)偏度(Skewness)等。
  • 3. 它还为我们提供了有用的信息,比如95% 置信区间。
小提琴剧情

ii. 双变量分析

此类数据涉及 两个不同的变量。这类数据的分析包含原因和关系,我们对它们进行分析以找出两个变量之间的关系。

a. 线图

  • 1. 只要是分析2 个变量之间类型, 你可以在各个地方遇到这个图。
  • 2. 线图是一系列数据点上的值,用直线连接起来。
  • 3. 它用ROC-AUC 曲线,分析一个模型的性能。
线图

b. 条形图

  • 1. 条形图或条形图是用矩形条表示数据类别的图形,矩形条的长度和高度取决于它们所代表的值。
  • 2. 条形图可以水平或垂直绘制。条形图描述了离散类别之间的比较。图的一个轴代表被比较的特定类别,而另一个轴代表与类别对应的测量值。
  • 3. 条形图存在于Matplotlib包中。
条形图

c. 散点图

  • 1. 散点图是一个图表,其中每个值都由一个点表示。
  • 2. 散点图需要相同长度的数组,一个用于 x 轴的值,另一个用于 y 轴的值。每个数据都表示为一个点,其位置由 x 和 y 列给出。
  • 3. 散点图可以是 2-D 或 3-D的。二维散点图是常见的散点图,主要用来找出数据的模式、聚类和可分离性。
散点图

iii.多元分析

当数据涉及三个或更多变量时,它就被归类为多变量。它的形式类似于双变量,但包含多个因变量。对此数据进行分析的方法取决于你要实现的目标。其中常见的一些技术有回归分析、路径分析和因子分析。

在可视化方面,Python 中的 Seaborn 库都有配对图(pairplots),它根据变量的类型,在一系列散点图和直方图中生成一个固定变量的大图表,也称为散点图矩阵。

总结

你刚刚了解了几种不同可视化的技术,以及每种技术对应的常用图表工具。希望这篇文章能让你了解每个图的作用,以及应该在何时使用。掌握每个图的关键特性,可以让你能更快地根据需要应用图表。谢谢你的阅读!

原文作者:Tanvi Kurade
翻译作者:Jiawei Tong
美工编辑:过儿
校对审稿:Jiawei Tong
原文链接:https://medium.com/@kuradetanvi13/data-visualization-techniques-for-data-science-you-must-know-c58bb1f16da8

数据科学家(DS)面试指南

Nov 28, 2021

近年来,数据对于企业的发展越来越重要。由于每周数据库都会产生PB(petabytes)量级的数据,公司招聘数据科学家(Data Scientist)分析数据,获得关键见解也就显得至关重要。

北美求职指北-E周报(9月第4周)

Sep 27, 2021
  • 美国对外国公民的旅行禁令将于11月解除
  • Google创纪录重金收购纽约办公楼
  • 美股餐饮业科技独角兽上市表现亮眼

如何写出一份引人注目的数据分析师简历

May 07, 2022

数据分析师必须使用各种技能和工具为他们的企业提供准确的(通常是大量的)数据集分析。这是一份要求很高的工作,但也是一份薪酬很高的工作。

Leave a Comment

Your email address will not be published. Required fields are marked *

Comment *