数据与智能

用于数据的IBM Cloud Pak -多云数据集成和数据治理

一群不同的同事一起在电脑上工作

IBM Cloud Pak数据-多云数据集成和数据治理:

我们都知道,IBM Cloud Pak for Data是一种本地云解决方案,它使您能够快速而有效地将数据投入工作。让我们了解一下IBM Cloud Pak用于数据的以下特性。我还将通过一些详细的步骤讨论我在此工作中获得的实际经验:

  • 多云数据集成,DataStage作为数据结构体系结构的一部分
  • 地址验证接口
  • 沃森知识目录-数据治理过程和数据隐私

与DataStage的多云数据集成:

IBM Cloud Pak for Data上的IBM DataStage是一种现代化的数据集成解决方案,可在多云和混合云环境上和跨云环境中以任何规模和复杂性在任何地方收集和交付可信数据。

这个基于云的洞察平台构建在Red Hat OpenShift容器编排平台上,集成了在数据结构体系结构中收集、组织和分析数据所需的工具。数据结构是一种通过智能和自动化系统促进各种数据管道和云环境的端到端集成的体系结构。

它动态地、智能地跨分布式环境编排数据,为数据消费者创建即时可用的信息网络。IBM Cloud Pak for Data可以作为IBM Cloud上的服务,或任何供应商的云上部署。

Ibm数据阶段

以上数据阶段图的来源:IBM文档

前提条件:需要提供数据阶段实例来执行所需的任务。

以下是在数据阶段执行的任务:

  1. 创建一个项目,并将DB2添加为连接
  2. 向项目添加数据。从本地项目示例文件添加的数据
  3. 创建一个DataStage流,从DB2源系统提取信息
  4. 使用操作执行步骤,以使用Customer列上的过滤器转换数据。
  5. 编译并运行DataStage作业以转换数据。
  6. 交付数据到目标-项目-资产选项卡,数据资产客户在那里。

先决条件:

  • 已注册Cloud Pak的数据即服务
  • 新增数据阶段服务实例
  • 还增加了沃森知识目录和云对象存储服务

以下是多负载数据集成在数据Stage上执行的任务:

  1. 创建了一个示例项目,并与云对象存储实例相关联
  2. 运行一个现有的DataStage流,该流在连接两个不同的Customer应用程序数据集的项目中创建了一个CSV文件。
  3. 编辑“DataStage Flow”,修改“Joint”节点设置,并选择“Email Address”列名称为“Key”
  4. 添加PostgresSQL数据库以获取更多与客户相关的信息。
  5. 添加了另一个联接阶段来联接筛选的应用程序数据
  6. 添加了一个转换阶段,通过汇总两个不同的Customer $amount列来创建一个新列。
  7. 添加MongoDB数据库以获取更多有关客户的资料
  8. 添加了一个查找阶段,并指定了获取客户信息的范围
  9. 运行DataStage流以创建最终的Customer输出文件。
  10. 创建了一个目录以便数据工程师和分析师能够访问相关的客户数据。
  11. 查看项目中的输出文件并将其发布到目录中
  12. 在“项目->资产”页签->现在可以查看数据。

地址验证接口:

IBM的Quality Stage地址验证接口(AVI)提供了全面的地址解析、标准化、验证、地理编码和反向地理编码,可通过选定的包针对超过245个国家和地区的参考文件进行使用。

AVI的重点是帮助解决跨企业的位置数据挑战,特别是地址、地理编码和反向地理编码数据属性。数据质量和MDM作为任何数字化业务意图的成本和运营效率的基础,从未像现在这样至关重要。

IBM关心质量地址,以避免负面的客户体验、欺诈预防、未交付和返回邮件的成本,以及维护关键的客户人口统计数据属性。

Avi质量

以上图表的来源:IBM文档

先决条件:

  • 已注册Cloud Pak的数据即服务
  • 新增数据阶段服务实例

以下是在数据Stage AVI特性上执行的任务:

  1. 在IBM Cloud Pak为数据创建了一个分析项目
  2. 向项目添加连接->选择DB2并提供所有DB和Host详细信息
  3. 将DataStage流添加到项目中。下面是三个主要类别
    1. 连接器(源和目标接入点)
    2. 阶段(数据聚合、转换和表查找等)
    3. 质量(数据标准化和地址验证)
  4. 向DataStage流添加和配置连接器和阶段
    1. 新增源连接器从资产浏览器和选择的地址作为输入
    2. 添加地址验证质量的菜单
    3. 添加顺序文件生成.csv输出
    4. 从左到右连接以上3个文件
    5. 提供地址行1和地址行2所需的详细信息和输入
  5. 编译并执行AVI DataStage流
  6. 转到项目->数据资产->你会看到一个。csv文件将被创建
  7. 打开.csv文件并查看列。在这里,您将看到从地址验证过程添加的更多列
  8. 请参阅精度码串查看已验证地址与未验证地址的对比。

沃森知识目录:

IBM Watson Knowledge Catalog on Cloud Pak for Data支持智能,自助发现数据、模型等,为人工智能、机器学习和深度学习激活它们。通过WKC,用户可以访问、管理和共享数据、知识资产和他们的关系,无论他们居住在哪里。

对WKC的以下功能进行了执行和测试。

  • 数据治理过程包括角色分配、访问控制、业务术语和分类。
  • 创建自助服务集中数据目录
  • 创建工作流来管理业务流程
  • 将业务价值映射到技术资产

数据治理

以上数据治理图的来源: IBM文档

先决条件:

  • 作为管理员注册了云数据库

以下是在沃森知识目录上执行的任务:

  1. 单击“管理员”->访问控制->创建新用户组
  2. “新用户组”下新增用户:
    1. 质量分析
    2. 数据管理员
  3. 提供预定义角色—管理员、数据质量分析师、数据管理员和报表管理员。
  4. 进入“治理->”类别,>客户信息->客户统计信息子类别查看治理的工件
  5. 在这里你可以探索治理工件,例如地址、年龄、出生日期、性别等。
  6. 进入“治理->”业务条款->帐号。在这里,您可以查看业务术语,如-描述、主要类别、次要类别、关系、同义词、分类、标签等。
  7. 进入“治理->”分类——<保密分类。在这里,你可以查看业务术语,如-描述、主要类别、次要类别、父/从属分类、标签等
  8. 转到管理-工作流程-治理工件管理-模板文件->您将在这里发现不同的审批模板,包括发布和审查步骤。
  9. 选择自动发布和提供的条件(创建、更新、删除、导入)
  10. 保存并激活它。
  11. 在WKC你可以做更多的事情,比如:
    1. 为引用数据创建治理工件,以遵循某些标准和过程。
    2. 创建策略和治理规则
    3. 创建商业术语
    4. 创建引用数据集和层次结构
    5. 创建数据类——例如数据字段或列

沃森知识目录-资料私隐:

在这里我学到了:

  • 如何用数据结构的数据治理和隐私用例准备可信数据。
  • 通过丰富数据和数据质量分析创建可信数据资产。
  • 目标是数据消费者如何通过自助服务目录轻松找到高质量和受保护的数据资产。

先决条件:

  • 注册Cloud Pak for Data,使用Watson知识目录服务提供数据作为服务

以下是在沃森知识目录上执行的任务:

  1. 作为数据管理员—通过使用强制数据策略转到目录菜单来创建目录
  2. 通过转到治理->类别创建类别。这包含了我们以后必须导入的业务术语。
  3. 添加了治理->业务术语,并导入了.csv文件
  4. 出版《商业条款》。
  5. 通过“项目”->数据治理和隐私项目->资产->新建资产->元数据导入->单击“下一步”->选择项目->选择“范围和连接”
  6. 为DB2 Warehouse连接选择Data Fabric Trial,以便导入数据并将其视为表。
  7. 通过从Assets选项卡中选择Metadata Enrichment来丰富导入的数据。你可以配置数据,分析质量和分配条款。这将帮助最终用户更快地找到数据。
  8. 查看充实元数据
  9. 将丰富的数据发布到数据目录。

结论:IBM Cloud Pak for Data是一个健壮的云数据、分析和AI平台,提供了一个具有成本效益、功能强大的多云数据集成和数据治理解决方案。

留言回复

您的电邮地址将不会公布。必填项已标记

这个网站使用Akismet来减少垃圾邮件。了解如何处理您的评论数据

Sagar Adabaddi

Sagar Adabaddi是一位经验丰富的数据专家,在数据现代化、数据、分析、Azure/AWS/雪花云、架构、咨询、项目管理、发布管理、QA、DataOps和DevOps方面拥有21年的经验。他目前担任高级解决方案架构师和数据操作实践负责人,帮助客户在数据现代化和数据操作之旅中取得成功。

更多来自作者

关注我们
推特 Linkedin 脸谱网 Youtube Instagram