你必须知道的数据科学的可视化技术

Apr 21, 2022 by Zhang in  Blog

在应用统计和机器学习中,数据可视化可以说是最重要的技能之一。总结来说,数据可视化是通过使用图形(例如图表、绘图、表格、甚至动画)来表示数据的一种方式。

它提供了一套重要的工具,以易于理解的方式识别对性质的理解、关系和数据驱动的洞察力,并且是业务分析的重要方面。

在这篇文章中,我们将讨论一些基本的、可以让你以更好的方式理解的数据可视化图表。

不同类型的数据可视化技术:

  • i. 单变量分析(Univariate Analysis)
  • ii. 双变量分析(Bivariate Analysis)
  • iii. 多元分析(Multivariate Analysis)

i. 单变量分析(Univariate Analysis)

在这种技术中,单个特征用来对几乎所有属性进行分类。用于单变量分析的常用可视化技术是直方图(histogram),也就是频率分布图。类似的,箱线图(box plot)小提琴图(Violin plot)用于比较变量的分布,并对异常值提供洞察。

a. 直方图

  • 1. 存在于Seaborn包中。
  • 2. 这是一种条形图,其中 X 轴代表 bin 的范围,而 Y 轴提供有关频率的信息。
  • 3. 它是用分布图形表示数值数据的准确方法之一。
直方图

b. 箱形图

  • 1. Seaborn库中提供了箱线图。
  • 2. 通过四分位数描绘的数字来展示数据的视觉表示。箱线图也常被用于检测数据集中的异常值。它通过简单的方框和线条有效地捕获数据摘要,我们可以轻松地跨组进行比较。它用第 25、第 50 和第 75个百分位数来汇总样本数据。这些百分位数也称为下四分位数、中位数和上四分位数。
  • 3. 箱线图由最小值、第一四分位数( 25%)、中位数(第二四分位数或 50%)、第三四分位数(75%)、以及最大值组成。
箱形图

c. 小提琴图

  • 1. 你可以把小提琴图可以看作把箱线图放在中间,数据放在两侧的分布图(核密度估计Kernel Density Estimation)的组合。
  • 2. 它可以给我们描述数据集的分布,比如分布是否是多模态(multimodal)偏度(Skewness)等。
  • 3. 它还为我们提供了有用的信息,比如95% 置信区间。
小提琴剧情

ii. 双变量分析

此类数据涉及 两个不同的变量。这类数据的分析包含原因和关系,我们对它们进行分析以找出两个变量之间的关系。

a. 线图

  • 1. 只要是分析2 个变量之间类型, 你可以在各个地方遇到这个图。
  • 2. 线图是一系列数据点上的值,用直线连接起来。
  • 3. 它用ROC-AUC 曲线,分析一个模型的性能。
线图

b. 条形图

  • 1. 条形图或条形图是用矩形条表示数据类别的图形,矩形条的长度和高度取决于它们所代表的值。
  • 2. 条形图可以水平或垂直绘制。条形图描述了离散类别之间的比较。图的一个轴代表被比较的特定类别,而另一个轴代表与类别对应的测量值。
  • 3. 条形图存在于Matplotlib包中。
条形图

c. 散点图

  • 1. 散点图是一个图表,其中每个值都由一个点表示。
  • 2. 散点图需要相同长度的数组,一个用于 x 轴的值,另一个用于 y 轴的值。每个数据都表示为一个点,其位置由 x 和 y 列给出。
  • 3. 散点图可以是 2-D 或 3-D的。二维散点图是常见的散点图,主要用来找出数据的模式、聚类和可分离性。
散点图

iii.多元分析

当数据涉及三个或更多变量时,它就被归类为多变量。它的形式类似于双变量,但包含多个因变量。对此数据进行分析的方法取决于你要实现的目标。其中常见的一些技术有回归分析、路径分析和因子分析。

在可视化方面,Python 中的 Seaborn 库都有配对图(pairplots),它根据变量的类型,在一系列散点图和直方图中生成一个固定变量的大图表,也称为散点图矩阵。

总结

你刚刚了解了几种不同可视化的技术,以及每种技术对应的常用图表工具。希望这篇文章能让你了解每个图的作用,以及应该在何时使用。掌握每个图的关键特性,可以让你能更快地根据需要应用图表。谢谢你的阅读!

原文作者:Tanvi Kurade
翻译作者:Jiawei Tong
美工编辑:过儿
校对审稿:Jiawei Tong
原文链接:https://medium.com/@kuradetanvi13/data-visualization-techniques-for-data-science-you-must-know-c58bb1f16da8

数据分析求职最常用的30种大数据工具,你掌握几个了?

Apr 19, 2021

大数据处理分析能力在21世纪至关重要。使用正确的大数据工具是企业提高自身优势、战胜竞争对手的必要条件。下面让我们来了解一下最常用的30种大数据工具。

H-1B工作签证「高薪优先」遭法官驳回

Dec 06, 2020

今年10月,川普政府宣布更改H-1B工作签证规定,取消原本的抽签制,改以薪水高低作为核发标准,这项新规1日遭加州北区联邦法院法官怀特(Jeffrey White)驳回。

美国职场新闻分析栏目:北美求职指北-E周报(5月第2周)

May 20, 2021
  • 创业签证回归,留美工作添新路径
  • H-1B新规再次推迟18个月
  • US News发布2021最火10大技术岗位
  • PayPal一季度财报火爆,招聘岗位增加

Leave a Comment

Your email address will not be published. Required fields are marked *

Comment *