强化学习的重要性

几年前，BBC地球强调了记忆测试由黑猩猩的名字Ayumu执行。当黑猩猩在屏幕上以随机顺序显示数字1到9时，黑猩猩显示了机器学习的特征（ML），并且当数字几乎消失了90％的时间时，可以正确记住序列。该测试很重要，因为人类受试者仅确定了一次正确的数字顺序。那么，这是否意味着我们将永远无法与AI竞争？对，那是正确的。但是，我们不需要与AI竞争。在与黑猩猩的这种情况下，要提醒一些事情是黑猩猩必须花一些时间来了解数字顺序从1到9的工作方式。因此，如果将数字交换为字母A-Z，黑猩猩将需要更多的时间和培训，而人类受试者可以立即适应。

如果您观看视频，您会注意到黑猩猩每次选择机器中的正确序列时都会获得奖励。这就是所谓的增强学习（RL）。这是ML的计算技术，在其中奖励了机器在给出的选项中选择正确的答案。示例包括Google的DeepMind学习Atari视频游戏和Alphago AI击败了世界上最好的人类GO播放器，我在我的视频博客。

强化学习允许AI玩游戏

ML的最新进展为AI代理提供了能力与视觉和语音等感官输入相互作用，为RL提供了大量应用。如果您考虑一下Atari，它将有几款游戏，例如突破，太空入侵者和Seaquest。这些游戏中的每一个都有一种独特的玩游戏方式。DeepMind的Deep RL自己多次玩这些游戏，以学习如何玩游戏。例如，太空入侵者是固定的射击游戏，玩家通过水平移动屏幕底部并在下降外星人发射来控制激光大炮。外星人可以朝各个方向移动。当要求DeepMind玩此游戏时，它只是指向屏幕的两个区域：计算分数和显示游戏丢失的区域的区域。从那里，Deep RL进行了比赛，并加强了积分。在短时间内，它掌握了游戏，并能够独自发挥创意技术。

大数据的未来

有了一些指导，您可以制作一个适合组织需求的数据平台，并从数据资本中获得最大的回报。

获取指南

与Atari类似，Alpha通过多次演奏而适应了动作，并在正确的举动时会不断获得奖励。实际上，当alpha零被释放，它通过与其前身的比赛和加强来学习和国际象棋，Alpha在3天内Go。经过3天的训练，Alpha Go Zero击败了Alpha，并连续100场比赛以人为同行从未想过的创意动作进行了创意。

RL代理和环境

RL有一个代理和环境。代理是您使用代码库构建的，环境就是您运行RL的情况。此外，RL有两种环境和学习：情节学习和持续学习。情节学习是计算具有起点和终点与连续状态的地方，直到停止力才能继续进行。在情节学习中，将在每个情节结束时对奖励进行评估和分析，并在下次播放时进行改进。但是，在持续学习时，将评估奖励，并将在RL模型中进行持续改进。

增强学习并发症

为了识别用例并采取适当的措施，RL需要大量标记的培训数据集。此外，为避免任何偏见，提供标签的数据集质量应该很好。诸如监督学习（SL）之类的算法之间的区别在于，可以在使用数据集的评估，培训和验证期间跟踪SL的性能。但是，鉴于RL的自动性质，很难跟踪进度。

发表评论取消回复

该站点使用Akismet减少垃圾邮件。了解如何处理您的评论数据。

经过Arvind Murali上2019年10月8日|〜4分钟阅读

强化学习允许AI玩游戏

大数据的未来

RL代理和环境

增强学习并发症

标签

发表评论取消回复

Arvind Murali，首席数据策略师

订阅每周博客摘要：

类别

跟着我们