几年前,BBC地球强调了记忆测试由黑猩猩的名字Ayumu执行。当黑猩猩在屏幕上以随机顺序显示数字1到9时,黑猩猩显示了机器学习的特征(ML),并且当数字几乎消失了90%的时间时,可以正确记住序列。该测试很重要,因为人类受试者仅确定了一次正确的数字顺序。那么,这是否意味着我们将永远无法与AI竞争?对,那是正确的。但是,我们不需要与AI竞争。在与黑猩猩的这种情况下,要提醒一些事情是黑猩猩必须花一些时间来了解数字顺序从1到9的工作方式。因此,如果将数字交换为字母A-Z,黑猩猩将需要更多的时间和培训,而人类受试者可以立即适应。
如果您观看视频,您会注意到黑猩猩每次选择机器中的正确序列时都会获得奖励。这就是所谓的增强学习(RL)。这是ML的计算技术,在其中奖励了机器在给出的选项中选择正确的答案。示例包括Google的DeepMind学习Atari视频游戏和Alphago AI击败了世界上最好的人类GO播放器,我在我的视频博客。
强化学习允许AI玩游戏
ML的最新进展为AI代理提供了能力与视觉和语音等感官输入相互作用,为RL提供了大量应用。如果您考虑一下Atari,它将有几款游戏,例如突破,太空入侵者和Seaquest。这些游戏中的每一个都有一种独特的玩游戏方式。DeepMind的Deep RL自己多次玩这些游戏,以学习如何玩游戏。例如,太空入侵者是固定的射击游戏,玩家通过水平移动屏幕底部并在下降外星人发射来控制激光大炮。外星人可以朝各个方向移动。当要求DeepMind玩此游戏时,它只是指向屏幕的两个区域:计算分数和显示游戏丢失的区域的区域。从那里,Deep RL进行了比赛,并加强了积分。在短时间内,它掌握了游戏,并能够独自发挥创意技术。
与Atari类似,Alpha通过多次演奏而适应了动作,并在正确的举动时会不断获得奖励。实际上,当alpha零被释放,它通过与其前身的比赛和加强来学习和国际象棋,Alpha在3天内Go。经过3天的训练,Alpha Go Zero击败了Alpha,并连续100场比赛以人为同行从未想过的创意动作进行了创意。
RL代理和环境
RL有一个代理和环境。代理是您使用代码库构建的,环境就是您运行RL的情况。此外,RL有两种环境和学习:情节学习和持续学习。情节学习是计算具有起点和终点与连续状态的地方,直到停止力才能继续进行。在情节学习中,将在每个情节结束时对奖励进行评估和分析,并在下次播放时进行改进。但是,在持续学习时,将评估奖励,并将在RL模型中进行持续改进。
增强学习并发症
为了识别用例并采取适当的措施,RL需要大量标记的培训数据集。此外,为避免任何偏见,提供标签的数据集质量应该很好。诸如监督学习(SL)之类的算法之间的区别在于,可以在使用数据集的评估,培训和验证期间跟踪SL的性能。但是,鉴于RL的自动性质,很难跟踪进度。