绑定完请刷新页面
取消
刷新

分享好友

×
取消 复制
请查收,这是份值得收藏的Unity强化学习指南!
2019-08-13 11:27:31

作者——João Ramos

上周,我和我的两位同事Pedro Quintas和Pedro Caldeira进行了一些实验。在实验中,他们使用了Unity ml-agents(09https://github.com/Unity-Technologies/ml-agents)。我认为这是一个很好的契机,能够与社区分享我们的成果,并向你展示应该如何扩展强化学习知识。

如果你不知道Unity ml-agents是什么,请允许我提供一个简短的介绍。Unity ml-agents是一个"开源的Unity插件,它能使游戏和模拟器成为你训练智能代理的环境"。在我看来,它是一个很好的框架,可以帮助新手开始学习深度学习和强化学习。因为它可以使你看到正在发生的事情,而不仅仅是看到在终端上的数字和字母。

在开始介绍我们的小项目之前,让我先展示一些已经创建好的场景。

好,现在你了解了这个工具的功能,下面就让我们讨论这个项目吧!

我们使用了Unity ml-agents创建了一个代理。它的外形像是一只"蜘蛛",但只有4条腿。我们为小""蜘蛛""创造了一个移动平台。

这就是Unity building,接下来我们一起谈谈强化学习!在开始时,和往常一样,""蜘蛛""(agent)只知道它在平台上的位置和方向,其余的它都一无所知。由于我们的目标是让两只""蜘蛛""互相争斗(不告诉它们该怎么做),所以我们必须设法教它们。现在就是强化学习大展身手的时候了。在这篇文章中,我会默认为你知道强化学习背后的基本理论。如果你是新手,那么这里有初学者指南!(https://skymind.ai/wiki/deep-reinforcement-learning)

所以,就像任何一个"懵懂的"代理一样,我们必须"教"它。通过奖惩来训练它,经过一番反复试验,""蜘蛛""终于知道如何站起来走路了!基本上,每次它们的身体接触到地面时,我们都给予了惩罚。因为如果它们的身体在地面上,这意味着它们没有用腿行走,或者说它们的腿没有产生足够的力。通过给予惩罚,我们能告诉""蜘蛛""这些行为是不好的,它们应该避免这些行为。

让我们概括一下到目前为止的情况:

- 我们使用ml-agents创建了一个Unity环境。

- 我们教我们的"蜘蛛"站起来,让它们学会行走。

下一步是教它们学会战斗!为了改变"蜘蛛"的行为使它们能够战斗,我们必须改变奖惩机制。因此,如果其中一只"蜘蛛"走出平台,或者身体与地面进行了接触,它将获得非常严重的惩罚。

再一次强调,如果我们没有良好的奖惩机制,它们就会不断犯错。所以当一只"蜘蛛"面对另一只"蜘蛛"时,我们给了它奖励,当"蜘蛛"朝另一只"蜘蛛"的方向行进时,我们给予了更好的奖励。这使得两只"蜘蛛"会朝着另一只"蜘蛛"的方向前进,并且在某些时候,其中一只"蜘蛛"会将另一只"蜘蛛"扔出平台。(这只是一个证明我的观点的简单例子)

此外,它们自己也认识到,只要把对方打倒在地,就能赢得胜利。所以在同一时刻,他们开始"摔跤"。这是一个非常有趣的观察。

同时,我们还使用移动平台测试了我们的代理,以创建一个更加困难的环境:

如果你想复制我的结果,这里有更多关于我的可观测向量和奖励函数的信息:

可观测向量(代理即指蜘蛛)

代理关于自身的信息:

- 关于代理关节的信息

- 使代理身体前进的向前向量e

- 代理在平台中的位置

关于对手的信息:

- 能够向上移动对手身体的向前向量

- 对手在平台中的位置

奖励函数

代理不能站立会受到惩罚,使对手摔倒会获得奖励,攻击对手,令对手摔倒是代理的主要目标。

代理从平台上掉下来会受到惩罚,不会得到奖励。我们希望代理学习战斗方法,不限制以特定方式击倒对手。

代理前进和推对手会获得奖励,后退或者自己被推会受到惩罚。我们奖励战斗积极的代理,并惩罚战斗风格偏向逃避或喜欢逃跑的代理。

基于前面的观点,我们创建了以下内容:

如果代理的身体接触了地面:-1.0分

如果对手的身体接触了地面:+1.0分。

如果代理不在平台上:-1.0分

0.003(归一化速度(对手位置 - 代理位置))+ 0.001(前向归一化(对手位置 - 代理位置))

后,我们试图通过使用类人生物作为代理来进行进一步研究。难度呈指数级增长,因为"蜘蛛"只有有8个关节,而类人生物有12个。这增加了可能的运动组合的总数。所以,我们终没有取得满意的结果,但看起来非常有趣:

总之,Unity ml-agents允许你非常容易地构建一些有趣的东西。 我认为这是开始学习这门学科的好方法。

分享好友

分享这个小栈给你的朋友们,一起进步吧。

IT知识联盟
创建时间:2019-07-05 15:30:45
分享收集到的大小知识点
展开
订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅:虚拟交易,一经交易不退款;若特殊情况,可3日内客服咨询

• 专区发布评论属默认订阅所评论专区(除付费小栈外)

栈主、嘉宾

查看更多
  • 王超
    栈主

小栈成员

查看更多
  • ?
  • youou
  • gamebus
  • chinacc
戳我,来吐槽~