数据架构:2.5现代数据集成工具的类型

Istock 889237210

随着我们进入现代云数据架构时代,企业正在部署两类主要的数据集成工具来处理传统的ETL和ELT用例。

第一种类型的数据集成工具是基于gui的数据集成解决方案。

Talend、Infosphere Datastage、Informatica和Matillion都是很好的例子。这些工具利用UI来配置数据集成引擎或编译数据集成代码。GUI集成工具承诺快速、友好的用户界面,快速创建新的数据管道。此外,基于gui的数据集成工具在提高开发人员生产率方面有良好的记录。对于具备以下条件的组织来说,它们是有益的:

  1. 许多数据集成管道需要管理。
  2. 需要集成到数据管道中的复杂MDM需求和业务规则。
  3. 无处不在的关系数据库生态系统。
  4. 数据进出云平台(如AWS、Azure、GCP)的要求

第二种类型的数据集成是基于脚本/代码的数据集成解决方案。

基于脚本/代码的数据集成利用了一系列工具来开发数据管道。这种能力通常需要:

  1. 像Python或Scala这样的编程语言
  2. 数据处理框架,如Spark
  3. 类似于Apache气流的编排工具。

代码/脚本使用编程语言和框架在顶点或节点中构造。然后,这些顶点通过编制工具在有向无环图(dag)中结构化。dag可以扩展到处理非常大的数据管道(比如每天10兆兆字节)。在人工智能或机器学习用例中,dag对于处理定制的或复杂的处理也非常有用。

0.5:云原生

当我开始社会化两种类型的云ETL博客想法时,一个同行问道:“云原生的怎么样?”好问题!云本地选项只是两种类型的数据集成。例如,AWS胶谷歌DataProc有生成代码的ui(例如Python和Scala)。与具有丰富UI功能的传统工具不同,这些云本地工具仍然需要编辑生成的代码(通常是Python或Scala)。原生云工具正在迅速赶上,但它们仍然需要在ui中添加重要的功能,才能获得与传统基于gui的解决方案相同的生产力收益。

关于作者

Bill是Perficient大数据团队的主管和高级数据策略师。在他27年的专业经验中,他帮助组织转变他们的数据管理、分析和治理工具和实践。作为分析、大数据、数据架构和信息治理方面的资深人士,他为高管和企业架构师提供最新实用信息管理策略方面的建议。他敏锐地意识到如何通过制定数据战略、制定可行的路线图和提供高影响力的解决方案来为公司提供建议和领导。作为Perficient大数据领域的主要思想领袖之一,他为Perficient的大数据能力发展提供了有远见的方向,并领导了我们的许多客户最大的数据和云转型项目。比尔是一个活跃的博主,可以在推特@bigdata73上关注他。

更多作者介绍

留下一个回复

这个网站使用Akismet来减少垃圾邮件。了解如何处理您的评论数据

订阅每周博客文摘:

报名