最近,在2019年Informatica World大会上,我听到了数据平台在为组织构建人工智能能力方面的重要性。有趣的是,以提供“数据瑞士”产品而闻名的Informatica,现在正在使用人工智能功能来增强他们自己的产品套件克莱尔功能。在进一步探索其他几篇关于数据重要性的文章时,我也发现了Monica Rogati的数据科学需求层次她将人工智能结构与人类联系起来的方式给我留下了深刻的印象马斯洛需求层次论.
在某种程度上,马斯洛定义的“自我实现”即“充分发挥个人潜力”就是人工智能的能力。然而,要做到这一点,您需要数据平台基础的基础知识。现在,Monica Rogati的数据科学层次结构和我的金字塔结构之间的一个重要区别是,假设您将使用来自软件产品的功能,例如Informatica,它提供了基于gui的功能,您可以将更多的时间集中在治理、分析和质量上,而不必花那么多时间编写自定义代码。所以,当你阅读这篇文章时,请考虑一下这一点。
数据平台路径
找到
确定并明确定义AI团队所追求的“用例”是至关重要的。如果没有一个有意义的用例,仅仅为了探索而构建机器学习和自动化并不能提供任何价值。定义了用例之后,找到数据驻留在企业内部或企业外部的位置(基准测试、第三方等)。
收集
利用数据市场中可用的商业和开源工具,您可以快速构建数据集成,将实时或批量数据收集到数据湖中。在这一点上不要过度考虑数据的质量。
理解
将数据收集到数据湖后,通过分析数据集并将其映射回用例来理解收集到的数据。您还可以在数据中定义标记,以放置数据集的业务上下文。此外,要努力将收集到的数据分类为具有业务意义的类别。
整合与转型
对数据集进行标记和分类后,将来自多个来源的数据集成到一个数据模型中,该数据模型可以支持您定义的用例。在某些情况下,这也可以是对现有数据模型的增强,以支持多个用例。
丰富
集成还应该包括数据丰富。如此多的开放数据集,如天气、交通模式、货币、灾难、健康状况可供公众消费。此外,邓白氏(Dun & Bradstreet)等第三方数据集可以帮助验证客户地址。
规模
很明显,要集成如此大的、不同的数据集,并从这些数据集构建数据模型,您的云或内部数据平台应该能够大规模执行。因此,使用性能调优和存储/计算技术将提供准时的结果。
经验
高质量的数据如果不能以不同受众层次(从直线级到高管层)可以使用的格式显示结果,那就没有任何意义。报告平台,例如权力BI,表,Microstrategy一直是市场的领导者,因为他们有能力用流媒体或大批量数据集构建美丽的可视化。因此,Salesforce等大型云供应商一直在收购Tableau等BI公司,以增强他们的可视化。
定义指标
另一个重要因素是明确定义度量标准和度量,以便根据事实采取行动。
监控
构建数据平台不是一朝一夕的事情。与基础设施类似的数据需要根据业务主题专家(SME)的反馈进行持续监控和改进,这些专家也是数据SME。因此,在构建数据平台时,应使用监视服务,并基于业务需求驱动的阈值构建通知和警报。此外,您还可以根据数据集与决策过程的相关性对数据进行评分。这将提高对组织很重要的数据的质量。这一活动还将提高关键数据集的优先级,类似于对重要系统及其恢复程序设置更严格的SLA。
人工智能和深度学习
以上所有步骤都将引导您构建机器学习算法和自动化流程,这将为您的组织的底线提供相关机会和直接影响。
虽然上述事件序列将在数据准备的整个生命周期中管理数据,但数据安全和数据治理在管理数据生命周期方面也发挥着关键作用。此外,Dev Ops将提供构建数据平台的灵活性,以保持业务的发展和变化,因为合并和收购主导了当前的格局。