数据分析案例研究结果
- 简单易用,
创建基于web的内部平台,用于在一次查询中访问专门的数据 - 内部平台也定
作为面向客户的平台推出 - 面向客户的平台从只为齐柏林阿帕奇直升机服务演变成
支持齐柏林飞艇,木星,Python等等 - 工序拉拔减少87.7%
目录相关数据 - 方便地获取信息
对于关系分析 - 完成从Amazon EMR的迁移
到Kubernetes在?预期的时间框架
执行概要
客户端是一家全球地理定位公司,办事处遍布全球,每秒接收数百万个数据点。有了这些信息,他们对开发利用数据的机制很感兴趣,以扩展工具的功能并提供更大的价值。客户求助于领先的近岸软件开发外包提供商Perficient Latin America,以建立一支由高技能数据科学家组成的团队,他们可以利用机器学习算法、大数据平台和数据分析,为专业和新手用户打造一个高度交互式的位置服务平台,将大数据转化为有价值的见解。
技术堆栈
Apache Spark / Hadoop / Amazon EMR / Kubernetes / Scala / Apache Zeppelin / Jupyter / Python
挑战
perent拉丁美洲客户是一家著名的地理定位公司,预计到2020年每秒将收到高达10亿个数据点,该公司面临着如何最好地利用信息的问题。这种丰富的情报为扩展他们的业务工具提供了独特的机会,反过来,为最终用户提供了附加价值,但也需要高度专业化的专业人员来开发提取可操作的见解所需的策略和机制。
通过与拉丁美洲领先的软件开发外包公司Perficient Latin America的合作,客户组建了一个多学科团队,其中包括高技能和经验丰富的软件工程师、数据科学家、机器学习专家、架构师和DevOps专家。
解决方案
为了为所有类型的用户设计从客户丰富的数据资源中消费和生产数据的方法,Perficient拉丁美洲团队开始探索各种大数据解决方案的概念证明(POC)。由于该项目基于地理关系数据库,他们测试了各种大数据平台,如Spark、Hadoop等,以实现更大规模的地理空间分析。
因为客户的核心价值在于其数据的价值,所以目标是允许客户的客户访问,不管他们选择的技术是什么,并授予他们为项目提供动力所需的信息。团队最初构建了一个环境,允许客户轻松地处理客户端数据,而无需参考代码行或了解集群细节,因此该解决方案是用带有API库的Scala Java构建的,主要支持Apache Zeppelin。之后的迭代将完全支持Jupyter和Python,以更好地促进数据科学家的项目。
在此期间,由于需要使客户的数据库信息更易于查询,产生了另一个应用程序开发项目。为了更好地利用数据进行分析开发,该团队专注于将以前难以获取的信息通过易于访问的平台进行转换。通过scala驱动的编译器和Spark管道,他们设计了一个系统,将查询处理时间缩短了87%,提高了效率,加速了客户的开发。该产品被证明是一个巨大的成功,目前已在内部提供给客户的工作人员,并计划作为面向客户的平台发布。
与此同时,该团队仅用了4个月就完成了从Amazon EMR到Kubernetes的迁移——比最初预期快了2个月——最终完成了DevOps实现。
所开发的产品确保客户的数据能够提供最大的价值,并将在未来十年内改变位置服务。通过利用客户的数据,客户将能够构建高度可定制和丰富的用户体验,并将他们的服务提升到一个新的水平。
___________
想要最大限度地利用数据?年代安排一个电话给拉丁美洲的完美.