[心得] Learning to play Tetris

时间Mon Dec 24 22:39:27 2018

[关键字]: Tetris, Reinforcement Learning, Monte Carlo Tree Search, Temporal Difference Learning [重点摘要]: 利用MCTS和TD实作自我学习的俄罗斯方块机器人 1.影片 & GitHub https://www.youtube.com/watch?v=EALo2GfZuYU

https://github.com/hrpan/tetris_mcts 2.简介故事起源於第一次看到 DeepMind 的 Atari 影片 https://www.youtube.com/watch?v=V1eYniJ0Rnk

当时深深觉得这东西实在太神奇了竟然可以自我学习而且达到超人类水准觉得如果可以用到俄罗斯方块应该蛮有趣的就开始在闲暇时间读相关的文章起初以为用 DQN 或是 policy gradient 就可以轻松解决的问题没想到不管训练多久都消不了几条就放着生灰尘了直到後来看到 AlphaGo 以後才又燃起了一线希望也成功让我的机器人成功消了超过1000条 3.关於俄罗斯方块相信大家应该都玩过了对游戏规则就不多做说明一般人大概都不会觉得俄罗斯方块是一款很难的游戏起初我也这样想後来仔细想想俄罗斯方块其实需要很长远的计画能力对一个完全没有先备知识的电脑来说每个动作都是等价的假设电脑要消掉一条 (先假设没有 hard drop) 他必须要往前计画约50步才有办法做到 (假设是 20 X 10 的版面) 这对传统的 Q-Learning 来说难度是相当高的因为 Q-Learning 本身对於 credit assignment 是指数递减也就是说你如果在第50步得到一分的话第一步所获得的分数只有 r^49 (0 < r < 1) 几乎跟杂讯没甚麽两样之所以台面上的俄罗斯方块机器人可以有近人类水准的操作是因为他们大多用了一些 hard-code 的额外奖励例: 列的高度台面有几个洞平滑程度等等这些额外奖励可以大量缩短奖励分配的长度 (从每消一条变成每放一块奖励一次) 让这些讯号变得更显着不过这些奖励只能用在特定游戏中一旦规则改变就必须在重新写过而且在一些困难的游戏(例如围棋)中并不是所有人都有能力去写出这种奖励所以让机器人可以自我学习是非常重要的详细要如何用MCTS来解决这个问题就请看GitHub吧 4.心得从开始解决这个问题开始到现在也过了快两年刚开始没办法消超过10条到现在可以消超过1000条看起来真的是蛮过瘾的 (而且看起来还没收敛应该可以再更高不过因为一轮要跑太久(>10hrs)所以放弃了) 过程中也学到了不少python的技巧可以算是蛮有收获的吧希望这篇文章可以启发更多对 reinforcement learning 有兴趣的人 (虽然我知道这文章没啥组织性又打的很杂) --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.169.67.208 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1545662371.A.E27.html

1^F：推 larsonloreal: 先推再看 12/25 00:35

2^F：推 TreeMan: really cool! 12/25 08:09

3^F：推 y956403: 大推实作 12/25 11:13

4^F：推 st1009: 推推 12/25 12:42

5^F：推 tritonight: 推 12/25 12:51

6^F：→ panruru1224: 文章也发在reddit上有些蛮有趣的讨论可以看看 12/25 13:01

7^F：→ panruru1224: https://tinyurl.com/y8ne25fu 12/25 13:02

8^F：推 cutekid: 大推，好厉害(Y) 12/25 13:22

9^F：推 woogee: 超强.... 12/25 14:38

10^F：推 illegalplan: 刚好期末在做这个偷偷跟原po讲 DQN跟PG都起不来 12/25 22:36

11^F：→ illegalplan: 但是actor-critic可以喔 12/25 22:36

12^F：→ panruru1224: 蛮好奇AC可以到多少有数据吗? 12/25 23:25

13^F：→ illegalplan: AC平均只到60行左右而且action是可能的落地组合 12/25 23:59

14^F：→ panruru1224: 蛮有趣的不过我猜action的设计应该影响很大 12/26 00:28

15^F：→ panruru1224: 用落地组合应该可以让planning简化很多 12/26 00:29

16^F：→ sizzle0121: 加上prioritized experience replay试试? 12/27 08:48

17^F：推 a78998042a: 好强 XDD 12/30 23:23

18^F：推 gaexp233008: 推推 01/02 00:38

19^F：推 alen84204: 从人类的角度来看感觉每次好不容易有空格出来结果机 01/07 12:55

20^F：→ alen84204: 器又直接把他补上XDD 另外是不是当前方块如过在最低平 01/07 12:57

21^F：→ alen84204: 面上无法填补时机器会自动判对放在最高的位置上阿 01/07 12:58

22^F：推 uukoQAQ: 推推 01/08 21:00

23^F：推 diabolica: 感想推 12/19 00:21

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

DataScience 板

[心得] Learning to play Tetris

热门看板

赞助商连结