自从我上次帖子我一直为客户工作,积极参与建立一个湖的目的是支持他们的数据分析工作,但也希望“构建”他们的系统协作的方式使用这个数据湖环境中所有信息共享交互控制和巩固他们的环境。
我最感兴趣的信息是否和如何治理实践被定义并应用到这个新的“集中式”视图的信息共享。这将是我接下来的几个博客条目的焦点。
我相信现在大多数人都熟悉数据湖的概念,在所有数据进入企业的想法是——无论内容、格式或来源,放置或登陆,进入“湖”,其他人访问。然而,有效地访问这个“生”数据需要某种程度的转换、整合和标准化,以便有一个“普通”视图的信息以满足多个目标无需他们每个人设计自己的定制的机制来获得他们所需要的湖。
这是需要信息治理的公共视图。通过将一组适当的决策权,控制(政策、规则、准则等)和过程,有一个更好的机会,湖不会被污染,而且,湖的实际内容仍然不仅有用,但是访问——无论加法和减法的源和目标。
在接下来的几个月,我将我的想法如何做这件事。首先,我将描述“架构”和利用数据的概念湖为上述目的——用一个类比的聚合器(就像仓库存储模型,提出产品有时就像收到和有时“重新包装”基于消费者需求),从那里我将深入玩家的角色和职责,“目录”的关键作用的湖泊管理内容、标准和模板的同样至关重要的作用,一个健壮的绝对必要的要求信息治理计划,最后,总结的一些关键的外卖。
注意,这不是一个技术讨论——所以不会谈论Hadoop, NoSQL RDBMS或者其他的各种相关技术,但将集中在管理数据的概念和用法湖为确保业务价值是真正从这种环境中获得。
我希望你能和我一起在这个旅程,你会发现这个信息和有用的。