本博客将帮助您了解Azure数据工厂(ADF)的基本功能,以及它在处理大数据时的强大功能。探索ADF的基本架构,了解涉及的组件和服务。
Azure数据工厂及其主要特性的快速介绍
ADF是一种基于云的集成服务,用于编排和自动化数据移动和数据转换,内置90个免维护连接器,无需额外成本。在可视化环境中轻松构建ETL和ELT流程或编写自己的代码。
降低运营费用和资本支出,节省宝贵的时间:
- 在数据工厂可视化环境中构建混合ETL和ELT管道不需要代码或维护。
- 具有成本效益和完全管理的无服务器云数据集成工具,可按需扩展。
- SSIS集成运行时,使用熟悉的SSIS工具轻松地在云中重新托管内部部署的SSIS包。
- Azure安全措施可以放心地连接到内部部署、基于云的和软件即服务(SaaS)应用程序。
记住ADF过去(v1)了解ADF现在(v2)
Azure数据工厂v128日开始公开预演th2014年10月6日正式发布th2015年8月。当时,它是一种有限的数据处理工具,但在SQL Server集成服务(SSIS)特性面前,它无法支撑。在Azure数据工厂的早期,你需要在visual studio中开发解决方案,尽管对图表视图做了一些改进,但仍然需要完成大量的JSON编辑。
在MS Ignite 2017上,微软推出了ADF的新更新版本。它以v2的形式发布,因为它有许多新的特性和功能,这使得它几乎是一个全新的产品。现在,您可以非常轻松地将本地SSIS解决方案提升和转移到Azure。ADF v2于2017年9月25日公开预览。
最重要的更新是分支和循环,甚至在预定的时间时钟或定期运行管道。Azure数据工厂v2甚至在新的Visual Studio于2018年1月16日公开预览时变得更受欢迎。2018年6月27日,更多的功能进入了公开预览,如拖放功能。
什么是ETL?
如上所述,ADF是用于数据解决方案的ETL和ELT工具。ETL代表提取、转换和加载。ETL提供了将数据从各种来源移动到数据仓库的方法。下图说明了ADF中数据流的3个阶段,即E -提取,T -变换和L -加载。
ETL流程从本地SQL数据库中收集非结构化数据。将数据提取到云服务存储平台,根据需求进行数据转换。ADF具有将非结构化数据转换为BI工具和分析的结构化数据的功能和活动。在ADF的帮助下,转换后的数据被加载到数据仓库或任何云存储中。
ETL是一个使用云存储服务的过程,用于临时环境,如Blob、数据湖、S3存储等。登台环境类似于实际数据的工作空间,在存储实际数据之前,需要对其完整的属性进行测试。
在这种情况下,原始数据从本地服务器暂存到云存储中。转换工作是在存储在源目标(即云存储)中的原始数据上完成的。然后将其存储到雪花或Databricks等数据仓库中。
现在让我们看看所有这些阶段是如何相互连接的,以及使用哪些函数来转换ADF中的数据。
ADF的连接和工作流程
下图是一个ADF复制工作流的示例,以及用于编排任务的组件和服务。让我们浏览一下流程并学习ADF转换工作中涉及的每个部分。
这个示例活动使用两个数据集作为输入源和输出目的地(接收器),这些数据集使用链接服务连接。链接服务用于连接源端和目的端数据的实际存储位置。Integration Runtime绑定了这个完整的工作流,为了自动化或通过一次单击执行该任务,您将创建一个Pipeline。
管道
如上图所示,管道是活动的逻辑分组。活动一起部署以执行特定的任务。Pipeline有很多活动,如获取元数据、For Each、复制活动等,用于执行数据转换任务。在这个场景中,“复制活动”用于将数据从数据源存储复制到目标存储。
集成运行时
集成运行时通常被称为IR,是Azure数据工厂的核心。IR为ADF中的数据传输活动和数据传输活动的调度提供计算机资源。集成运行时有3种类型:Azure IR、Self-hosted、Azure- ssis。
Blob存储
微软提供的云存储存储大量的非结构化数据,如文本或二进制数据。如您所见,带有客户详细信息的非结构化数据的customer .csv文件存储在blob存储中。
相关服务
链接的服务连接数据源和目标。在这个例子中,链接的服务连接到我们的数据源,即blob存储。数据源可以是Azure blob存储、Azure SQL数据库或本地SQL Server。
数据集
数据集用于通过链接的服务连接到数据源和目标。数据集是根据要连接的数据源和目标的类型创建的。
如上所示,在源端,数据集的blob存储类型通过链接服务连接到数据在blob存储中的实际位置。在目标端,SQL server类型的数据集通过链接服务连接,指向数据库中存储数据的确切表位置。
复制活动
此管道中的活动用于在不同的数据存储之间复制数据,并在本例中转换目标存储中所需的数据格式。数据集作为输入和输出源提供给此活动。
因此,你可以理解ADF是所有组件的保护伞——例如链接服务、数据集、集成运行时——在Pipeline Activity中融合在一起,为Power BI和HDInsight等分析工具生成转换后的数据,用于规划业务结果。
为什么Perficient ?
我们在各个行业拥有超过20年的数据经验,这让我们对当前的数据趋势有了深刻的理解。雷竞技raybet提现作为一个获奖的人,金牌认证微软合作伙伴作为为数不多的全国解决方案提供商之一,我们是公认的云专家,拥有多年帮助企业充分利用微软云的经验。
准备好整合数据以利用Azure的高级分析功能了吗?联系我们的团队关于这个解决方案。
干得好!!非常有用和信息丰富的博客。
非常有用!!坚持下去
不错的博客,很有帮助。
不错的博客继续…
精彩的博客,很有帮助,继续吧,上帝保佑你
很棒的博客,很有帮助,保持下去,上帝保佑你
信息量很大!!
不错的博客,对我们很有帮助。