数据与智能

强化学习的重要性

加强学习以最大程度地提高特定环境中的奖励。

几年前,BBC地球强调了记忆测试由黑猩猩的名字Ayumu执行。当黑猩猩在屏幕上以随机顺序显示数字1到9时,黑猩猩显示了机器学习的特征(ML),并且当数字几乎消失了90%的时间时,可以正确记住序列。该测试很重要,因为人类受试者仅确定了一次正确的数字顺序。那么,这是否意味着我们将永远无法与AI竞争?对,那是正确的。但是,我们不需要与AI竞争。在与黑猩猩的这种情况下,要提醒一些事情是黑猩猩必须花一些时间来了解数字顺序从1到9的工作方式。因此,如果将数字交换为字母A-Z,黑猩猩将需要更多的时间和培训,而人类受试者可以立即适应。

如果您观看视频,您会注意到黑猩猩每次选择机器中的正确序列时都会获得奖励。这就是所谓的增强学习(RL)。这是ML的计算技术,在其中奖励了机器在给出的选项中选择正确的答案。示例包括Google的DeepMind学习Atari视频游戏Alphago AI击败了世界上最好的人类GO播放器,我在我的视频博客

强化学习允许AI玩游戏

ML的最新进展为AI代理提供了能力与视觉和语音等感官输入相互作用,为RL提供了大量应用。如果您考虑一下Atari,它将有几款游戏,例如突破,太空入侵者和Seaquest。这些游戏中的每一个都有一种独特的玩游戏方式。DeepMind的Deep RL自己多次玩这些游戏,以学习如何玩游戏。例如,太空入侵者是固定的射击游戏,玩家通过水平移动屏幕底部并在下降外星人发射来控制激光大炮。外星人可以朝各个方向移动。当要求DeepMind玩此游戏时,它只是指向屏幕的两个区域:计算分数和显示游戏丢失的区域的区域。从那里,Deep RL进行了比赛,并加强了积分。在短时间内,它掌握了游戏,并能够独自发挥创意技术。

数据智能 - 大数据的未来
大数据的未来

有了一些指导,您可以制作一个适合组织需求的数据平台,并从数据资本中获得最大的回报。

获取指南

与Atari类似,Alpha通过多次演奏而适应了动作,并在正确的举动时会不断获得奖励。实际上,当alpha零被释放,它通过与其前身的比赛和加强来学习和国际象棋,Alpha在3天内Go。经过3天的训练,Alpha Go Zero击败了Alpha,并连续100场比赛以人为同行从未想过的创意动作进行了创意。

RL代理和环境

RL有一个代理和环境。代理是您使用代码库构建的,环境就是您运行RL的情况。此外,RL有两种环境和学习:情节学习和持续学习。情节学习是计算具有起点和终点与连续状态的地方,直到停止力才能继续进行。在情节学习中,将在每个情节结束时对奖励进行评估和分析,并在下次播放时进行改进。但是,在持续学习时,将评估奖励,并将在RL模型中进行持续改进。

增强学习并发症

为了识别用例并采取适当的措施,RL需要大量标记的培训数据集。此外,为避免任何偏见,提供标签的数据集质量应该很好。诸如监督学习(SL)之类的算法之间的区别在于,可以在使用数据集的评估,培训和验证期间跟踪SL的性能。但是,鉴于RL的自动性质,很难跟踪进度。

发表评论

该站点使用Akismet减少垃圾邮件。了解如何处理您的评论数据

Arvind Murali,首席数据策略师

Arvind Murali是完善的数据治理的首席数据策略师。他的角色包括定义数据策略和治理以提供变革性数据平台。Arvind曾担任多个行业组织的数据战略和治理执行顾问。雷竞技raybet提现Arvind致力于解决挑战和确定新的机会,为客户提供了有价值的以业务为中心的结果,例如为全球销售团队提供自助服务访问数据;帮助医生制定知情的健康计划;并提供有关当前供应链库存的见解。他是YouTube上充满激情的视频博物馆,讨论了现实世界中的见解,数据平台趋势,以及随着大数据的持续指数增长,治理的重要性。

来自作者的更多

订阅每周博客摘要:

报名
跟着我们
推特 LinkedIn Facebook YouTube Instagram