作者yuwenche (yuwenche)
看板DataScience
标题[讨论] 能用A2C解"MountainCar-v0"吗?
时间Wed Nov 24 13:30:37 2021
目前我可以用proximal policy optimization (PPO) 和trust region policy
optimization (TRPO)成功解出MountainCar-v0,但花了好多时间还是没办法用
Advantage Actor Critic (A2C) 解出这问题。
回顾一下这几个演算法的重要papers: Sutton et al.在1999年发表了A2C(注一),这是
policy-based方法的源头。一直到了2015和 2017年Schulman et al.才发表了TRPO(注二
) 和PPO(注三) ,这两个方法简单讲都是限制gradient的变化量,使产生的策略不要变化
太大。
A2C用来解CartPole-v0没问题,因该策略本来就是摇来摇去;但MountainCar-v0的策略就
须有持续性,而且它又是sparse reward,因此要用A2C来解大概非常困难,除非把它解
除封装(env.unwrapped) 。
欢迎对这方面有研究的人发表一下高见。
(注一) Sutton, Richard S, McAllester, David A, Singh, Satinder P, and
Mansour, Yishay. “Policy gradient methods for reinforcement learning with
function approximation.” In NIPS, volume 99, pp. 10571063. Citeseer, 1999.
(注二) Schulman, John, Levine, Sergey, Moritz, Philipp, Jordan, Michael I,
and Abbeel, Pieter. “Trust region policy optimization.” ArXiv Preprint
ArXiv:1502.05477, 2015.
(注三) Schulman, John, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg
Klimov. “Proximal Policy Optimization Algorithms.”ArXiv Preprint
ArXiv:1707.06347, 2017.
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 218.172.81.85 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1637731839.A.AB3.html