为了跟上数据创新的速度,数据工程师不仅需要投资于最新的建模和分析工具,还需要投资能够提高数据准确性和防止中断管道的技术。

有何解决方案呢?——数据可观察性,数据工程的下一个前沿领域和新兴数据可靠性类别的支柱。

随着公司越来越依赖于数据驱动,这些丰富见解背后的技术也变得越来越微妙和复杂。虽然我们收集、存储、聚合和可视化这些数据的能力在很大程度上满足了现代数据团队的需求(比如:面向领域的数据网格、云仓库、数据可视化工具和数据建模解决方案),但数据质量和完整性背后的机制却落后了。

无论你的分析界面有多先进,或者你在云计算上投入了多少,如果它提取、转换和推送到下游的数据不可靠,那就都是徒劳的。换句话说,“无用输入”就是“无用输出”。

在讨论数据可靠性是什么样子之前,让我们先讨论一下创建的“垃圾”数据有多不可靠。

好数据变成坏数据

在过去12个月里,我与数百个数据工程团队进行了交谈,我注意到,好的数据变成坏数据有三个主要原因:

  1. 单个数据生态系统中的数据源越来越多;
  2. 数据管道日益复杂;
  3. 更大、更专业的数据团队。

越来越多的数据源

如今,公司使用数十到数百个内部和外部数据源来生成分析和ML模型。这些来源中的任何一个都可能以意想不到的方式发生变化,而且不会事先通知,从而损害公司用于决策的数据。

例如,一个工程团队可能对公司的网站进行更改,修改对市场分析至关重要的数据集的输出。因此,关键的营销指标可能是错误的,导致公司在广告活动、销售目标和其他重要的、能带来收入的项目上做出糟糕的决定。

日益复杂的数据管道

由于处理的多个阶段以及不同数据资产之间的非琐碎依赖关系,数据管道变得越来越复杂。由于对这些依赖关系的可见性很小,因此对一个数据集所做的任何更改都可能产生影响依赖数据资产正确性的意外后果。

就像火星气候轨道飞行器的例子一样,一个系统中简单的单位改变就会严重影响到另一个系统的正确性。美国国家航空航天局(NASA)太空探测器火星气候轨道器(Mars Climate Orbiter)因数据输入错误而坠毁,产生了非国际单位制和国际单位制的输出,使它离地球太近。与航天器一样,分析管道在过程的任何阶段都极易受到最无害的变化的影响。

更大、更专业的数据团队

随着公司越来越依赖数据来推动智能决策,他们雇佣了越来越多的数据分析师、科学家和工程师来构建和维护数据管道、分析和ML模型,以支持他们的服务和产品以及业务运营。

沟通不畅或协调不足是不可避免的,这将导致这些复杂的系统随着变化而崩溃。例如,一个团队添加到数据表中的新字段可能会导致另一个团队的管道失败,从而导致数据丢失或部分丢失。在下游,这些糟糕的数据可能导致数百万美元的收入损失、客户信任的削弱,甚至可能导致法规遵从性风险。

坏数据带来的好消息是什么?数据工程正在经历复兴,我们非常感谢DevOps中的同行们,感谢他们提供的一些关键概念和原则引领我们走向下一个前沿领域。

下一个前沿领域:数据可观测性

从软件应用程序可靠性的角度来分析“垃圾数据”的影响是一个简单的方法。在过去的十年左右,软件工程师已经利用了像newrelic和DataDog这样的有针对性的解决方案,以确保高应用程序正常运行时间(换句话说,工作性能良好的软件),同时将停机时间(停机和滞后软件)保持在最低限度。

在数据中,我们称这种现象为数据停机。数据停机是指数据不完全、错误、丢失或其他不准确的时间段,当数据系统变得越来越复杂,支持无穷无尽的源和用户生态系统时,停机时间会成倍增加。

通过将软件应用程序可观测性和可靠性的相同原则应用于数据,可以识别、解决甚至预防这些问题,从而使数据团队对其数据充满信心,从而提供有价值的见解。

下面,我们将介绍数据可观测性的五大支柱。每个支柱都包括了一系列问题,这些问题总体上提供了数据健康状况的整体视图,也许你会觉得他们很眼熟?

  • 新鲜度:数据是最近的吗?它最后一次生成是什么时候?包含/省略了哪些上游数据?
  • 分布:数据是否在可接受的范围内?它的格式正确吗?它完整吗?
  • 卷:所有的数据都到达了吗?
  • 模式:模式是什么?它是如何改变的?谁做出了这些改变,出于什么原因?
  • 沿袭:对于给定的数据资产,受其影响的上游源头和下游资产是什么?是谁生成了这些数据,又是谁依靠这些数据来做决策?

一个稳健和全面的数据可观察性方法需要通过一个集中的接口对这五个支柱进行一致和可靠的监控,该接口是有关数据健康状况的主要真实来源。

端到端数据可靠性平台允许团队探索和了解他们的数据沿袭,自动映射上游和下游的依赖关系,以及每个资产的健康状况。图片由巴尔·摩西提供。

一个有效的、主动的数据可观察性解决方案将快速无缝地连接到现有堆栈,提供端到端沿袭,允许你跟踪下游依赖关系。此外,它将自动监视你的静止数据,而不需要从数据存储中提取数据。这种方法确保你满足最高级别的安全性和遵从性需求,并可伸缩到要求最高的数据量。

这样的解决方案还需要最小的配置,实际上不需要设置阈值。它使用ML模型来自动学习环境和数据。它使用异常检测技术让你知道什么时候发生了故障。它不仅考虑单个指标,而且考虑数据的整体观点和来自任何特定问题的潜在影响,从而将误报最小化。

此方法提供了丰富的环境,支持快速筛选和故障排除,以及与受数据可靠性问题影响的涉众进行有效沟通。与临时查询或简单的SQL包装器不同,这种监视不会只停留在“表Y中字段X的值低于Z”。

数据目录将有关数据资产的所有元数据都放在一个窗格中,因此你可以在一个视图中查看沿袭、模式、历史变化、新鲜度、数量、用户、查询等等。图片由巴尔·摩西提供。

最重要的是,这种解决方案首先通过在这五个支柱上公开关于数据资产的丰富信息来防止数据停机事件的发生,以便能够负责地、主动地进行更改和修改。

数据可观测性的下一步是什么?

就我个人而言,我对数据工程这一新的前沿领域感到无比兴奋。随着数据领导者越来越多地投资于利用数据可观测性的数据可靠性解决方案,我预计这一领域将继续与数据工程的其他主要趋势相交叉,包括:数据网格、机器学习、云数据架构和数据产品平台化。

原文作者:Barr Moses
翻译作者:过儿
美工编辑:过儿
校对审稿:Dongdong
原文链接:https://towardsdatascience.com/data-observability-the-next-frontier-of-data-engineering-f780feb874b

四年,从教师到数据科学家的职业转变!

Nov 22, 2020

放弃一份高薪的工作,去做自己感兴趣的事情,这是一个艰难的决定。我们被各种各样的事情束缚着,这些事情可能会让我们无法转行,让我们在目前的道路上感到安全。

13大自测问题:你适合当数据科学家吗?

Jan 14, 2021

数据行业被认为是现在增长最快、价值数十亿美元的行业之一。最近,一项使用LinkedIn求职搜索工具的研究显示,2020年大多数顶尖科技工作都需要数据科学技能。

重塑世界秩序:冠状病毒后的7种预测

May 29, 2020

冠状病毒大流行将作为一场重塑世界秩序的事件而被铭记。与大萧条、柏林墙倒塌和2008年全球金融危机一样,它将加速社会和经济变革,而这些变革原本需要多年时间才能实现。

Leave a Comment

Your email address will not be published. Required fields are marked *

Comment *