微软

使用Azure数据工厂转换数据

Azure砖

本博客将帮助您了解Azure数据工厂(ADF)的基本功能,以及它在处理大数据时的强大功能。探索ADF的基本架构,了解涉及的组件和服务。

Azure数据工厂及其主要特性的快速介绍

ADF是一种基于云的集成服务,用于编排和自动化数据移动和数据转换,内置90个免维护连接器,无需额外成本。在可视化环境中轻松构建ETL和ELT流程或编写自己的代码。

降低运营费用和资本支出,节省宝贵的时间:

  • 在数据工厂可视化环境中构建混合ETL和ELT管道不需要代码或维护。
  • 具有成本效益和完全管理的无服务器云数据集成工具,可按需扩展。
  • SSIS集成运行时,使用熟悉的SSIS工具轻松地在云中重新托管内部部署的SSIS包。
  • Azure安全措施可以放心地连接到内部部署、基于云的和软件即服务(SaaS)应用程序。

记住ADF过去(v1)了解ADF现在(v2)

Azure数据工厂v128日开始公开预演th2014年10月6日正式发布th2015年8月。当时,它是一种有限的数据处理工具,但在SQL Server集成服务(SSIS)特性面前,它无法支撑。在Azure数据工厂的早期,你需要在visual studio中开发解决方案,尽管对图表视图做了一些改进,但仍然需要完成大量的JSON编辑。

在MS Ignite 2017上,微软推出了ADF的新更新版本。它以v2的形式发布,因为它有许多新的特性和功能,这使得它几乎是一个全新的产品。现在,您可以非常轻松地将本地SSIS解决方案提升和转移到Azure。ADF v2于2017年9月25日公开预览。

最重要的更新是分支和循环,甚至在预定的时间时钟或定期运行管道。Azure数据工厂v2甚至在新的Visual Studio于2018年1月16日公开预览时变得更受欢迎。2018年6月27日,更多的功能进入了公开预览,如拖放功能。

什么是ETL?

如上所述,ADF是用于数据解决方案的ETL和ELT工具。ETL代表提取、转换和加载。ETL提供了将数据从各种来源移动到数据仓库的方法。下图说明了ADF中数据流的3个阶段,即E -提取,T -变换和L -加载。

ETL过程示意图

ETL流程从本地SQL数据库中收集非结构化数据。将数据提取到云服务存储平台,根据需求进行数据转换。ADF具有将非结构化数据转换为BI工具和分析的结构化数据的功能和活动。在ADF的帮助下,转换后的数据被加载到数据仓库或任何云存储中。

ETL是一个使用云存储服务的过程,用于临时环境,如Blob、数据湖、S3存储等。登台环境类似于实际数据的工作空间,在存储实际数据之前,需要对其完整的属性进行测试。

在这种情况下,原始数据从本地服务器暂存到云存储中。转换工作是在存储在源目标(即云存储)中的原始数据上完成的。然后将其存储到雪花或Databricks等数据仓库中。

现在让我们看看所有这些阶段是如何相互连接的,以及使用哪些函数来转换ADF中的数据。

ADF的连接和工作流程

下图是一个ADF复制工作流的示例,以及用于编排任务的组件和服务。让我们浏览一下流程并学习ADF转换工作中涉及的每个部分。

Azure数据工厂架构

这个示例活动使用两个数据集作为输入源和输出目的地(接收器),这些数据集使用链接服务连接。链接服务用于连接源端和目的端数据的实际存储位置。Integration Runtime绑定了这个完整的工作流,为了自动化或通过一次单击执行该任务,您将创建一个Pipeline。

管道

如上图所示,管道是活动的逻辑分组。活动一起部署以执行特定的任务。Pipeline有很多活动,如获取元数据、For Each、复制活动等,用于执行数据转换任务。在这个场景中,“复制活动”用于将数据从数据源存储复制到目标存储。

集成运行时

集成运行时通常被称为IR,是Azure数据工厂的核心。IR为ADF中的数据传输活动和数据传输活动的调度提供计算机资源。集成运行时有3种类型:Azure IR、Self-hosted、Azure- ssis。

Blob存储

微软提供的云存储存储大量的非结构化数据,如文本或二进制数据。如您所见,带有客户详细信息的非结构化数据的customer .csv文件存储在blob存储中。

相关服务

链接的服务连接数据源和目标。在这个例子中,链接的服务连接到我们的数据源,即blob存储。数据源可以是Azure blob存储、Azure SQL数据库或本地SQL Server。

数据集

数据集用于通过链接的服务连接到数据源和目标。数据集是根据要连接的数据源和目标的类型创建的。

如上所示,在源端,数据集的blob存储类型通过链接服务连接到数据在blob存储中的实际位置。在目标端,SQL server类型的数据集通过链接服务连接,指向数据库中存储数据的确切表位置。

复制活动

此管道中的活动用于在不同的数据存储之间复制数据,并在本例中转换目标存储中所需的数据格式。数据集作为输入和输出源提供给此活动。

因此,你可以理解ADF是所有组件的保护伞——例如链接服务、数据集、集成运行时——在Pipeline Activity中融合在一起,为Power BI和HDInsight等分析工具生成转换后的数据,用于规划业务结果。

为什么Perficient ?

我们在各个行业拥有超过20年的数据经验,这让我们对当前的数据趋势有了深刻的理解。雷竞技raybet提现作为一个获奖的人,金牌认证微软合作伙伴作为为数不多的全国解决方案提供商之一,我们是公认的云专家,拥有多年帮助企业充分利用微软云的经验。

准备好整合数据以利用Azure的高级分析功能了吗?联系我们的团队关于这个解决方案。

关于“用Azure数据工厂转换数据”的思考

  1. Anugrah Narayan Singh Thakur

    精彩的博客,很有帮助,继续吧,上帝保佑你

留下回复

你的电邮地址将不会公布。

这个网站使用Akismet来减少垃圾邮件。了解如何处理您的评论数据

苏拉Thakur

Suraj Thakur是Perficient的副技术顾问,在云计算方面有两年多的经验。他拥有红帽和微软Azure云的全球认证。Suraj专注于实时解决客户面临的问题和挑战。他希望通过博客分享他的知识,并获得理解。

更多来自作者

订阅每周博客文摘:

报名
关注我们
推特 Linkedin 脸谱网 Youtube Instagram