[新闻]AlphaGoZero创造者:星海争霸2比围棋更有难

时间Fri Oct 20 14:29:22 2017

AlphaGoZero创造者：星海争霸2比围棋更有难度　选自Reddit 　　机器之心编译昨日，DeepMind 在《自然》杂志上发表了一篇论文，正式推出人工智慧围棋程式 AlphaGo 的最新版本 AlphaGo Zero。同时，在 DeepMind 发布的官方博客中， DeepMind 强化学习团队负责人、AlphaGo 专案负责人 David Silver 视频介绍了最新的 AlphaGo Zero。今天，David Silver 与团队另一成员 Julian Schrittwieser 代表 AlphaGo 创造者在 Reddit 上回答了读者的一系列问题。本文对这些问答作了编译介绍。　　以下为 David Silver 与 Julian Schrittwieser 代表 AlphaGo 创造团队在 Reddit 上的问答：　　1。为什麽 AlphaGo Zero 的训练如此稳定？深度强化学习极其不稳定且易於遗忘，自我对弈（self-play）也是，两者的结合如果没有很好的（基於模仿的）初始化和大量人类棋谱将是一个灾难。但是 AlphaGo Zero 从零开始，并且没有借助人类棋谱来防止遗忘或闭环。论文对於这点没有涉及，因此你们是如何做到的？　　David Silver：相较於典型的（无模型）演算法，如策略梯度或者 Q 学习， AlphaGo Zero 采用了一种相当不同的深度强化学习方法。借助 AlphaGo 搜索，我们显着提升了策略和自我对弈的结果，接着我们使用简单的基於梯度的更新训练下一个策略+价值网路。这要比累加的、基於梯度的策略提升更加稳定，并且不会遗忘先前的成果。　　2。你认为 AlphaGo 能解决 Igo Hatsuyoron 120 这个‘史上最难死活题’吗？即赢取一个给定的中局或者确定一个现有解决方案？　　David Silver：我们刚刚请教了樊麾，他认为 AlphaGo 会解决这个问题，但更为有趣的是 AlphaGo 能否找到书中的答案，或者我们想不到的方案。而这正是我们在 AlphaGo 的训练中多次目睹的事情。　　3。你们认为围棋与星海争霸 2 哪个更有难度？面临的最大潜在技术障碍是什麽？正式更新什麽时候出来？　　Julian Schrittwieser：我们宣布开放星海争霸 2 环境刚过去几个星期，所以现在还处於早期阶段。星海争霸的行动空间确实要比围棋更具挑战性，因为其观察空间要远大於围棋。从技术上讲，我认为两者最大的区别之一在於围棋是一种完美资讯博弈，而星海争霸因为有战争迷雾，属於不完美资讯博弈。　　4。你觉得资料比演算法更重要吗？不过你关於 AlphaGo Zero 的新论文却暗示了另外的含义。　　Julian Schrittwieser：我觉得目前演算法仍然比资料更重要，只要看看 AlphaGo Zero 比之前几个版本的训练效率高出那麽多就能理解。而且我认为在未来，资料在训练效率上的重要性也会大有提升。　　5。由於整个管道只在模型的最新最好版本上展开自我对弈，你们认为模型在使用具体的 SGD 演算法更新参数空间时存在过拟合风险吗？看起来最後的模型游戏过程中，模型会稍微依赖于随机初始化权重以及实际面对的游戏状态（作为随机行动采样的结果）。　　David Silver：实际上，表徵也很可能在其他选择上表现良好。但是我们有 3 个理由使用堆叠的观测历史：（1）它在其它领域（比如 Atari）的常用输入表徵是一致的；（2）我们需要一些历史来表徵 ko；（3）了解对手最近输入位置的历史很有用，这可充当一种注意力机制（即注意对手的想法很重要）。　　6。这会是 AlphaGo 的最终反覆运算版本吗？　　David Silver：我们已经停止了强化 AlphaGo 的积极研究，但仍保留了研究试验台，以供 DeepMind 人员验证新思路和新演算法。　　7。 DeepMind 和 Facebook 都在大力研究强化学习，你认为是什麽令 AlphaGo 的表现能如此快速地提升？此外对於机器学习前沿，特别是强化学习，其发展趋势如何？　　David Silver：Facebook 更关注监督学习，它能产生当时性能最优的模型；而我们更关注强化学习，因为我们相信它最终会超越人类已有的知识而进一步取得提升。我们最近的结果实际上表明，只有监督学习确实可实现令人惊叹的表现，但强化学习绝对是超越人类水准的关键。　　8。有开源 AlphaGo 的计画吗？　　David Silver：我们之前已经开源了大量的代码，但过程一直非常复杂。不幸的是， AlphaGo 项目的代码库更加复杂，甚至有点过分。　　9。我们现在可以通过强大的国际象棋引擎给棋手做内部评级，一步一步地分析棋手的下棋过程进而评定 Elo 等级分。这可以使我们更有条理的做事，比如比较不同时代的棋手，而且还有可能提供研究人类认知的平台。这对 AlphaGo 也有效吗？我猜测这对围棋来说会更加复杂，因为在国际象棋中不需要考虑 margin of victory。　　Julian Schrittwieser：这确实是个很棒的主意！我觉得我们完全可以在围棋中做同样的事情，可能会以比较最佳落子和每一步落子的价值的方式，或者使用决策网路为每一步落子分配的概率。如果有时间的话，我很乐意尝试。　　10。你们在 AlphaGo Zero 中首先尝试自我对弈训练而不是整合人类比赛资料。为什麽 AlphaGo 之前的版本没有使用自我对弈训练呢，还是已经尝试过，但效果没有这麽好，为什麽？我很好奇这一块的发展和进步。和现在相比，两年前在 AlphaGo 训练过程中使用自我对弈有什麽瓶颈吗？从最终成就自我对弈系统的所有反覆运算中收获了什麽‘ 机器学习知觉’（machine learning intuition）？　　David Silver：创建利用自我对弈来学习的系统在强化学习领域一直是一个开放性问题。我们最初尝试了文章提到的很多类似演算法，发现都不稳定。我们进行了很多次实验，最终发现 AlphaGo Zero 的演算法是最高效的，而且应该解决了这个问题。　　11。据说 AlphaGo 柯洁版本仅需李世石版本处理能力的 1/10。你对此做了哪些优化？也就是说 AlphaGo 柯洁版本的能力是李世石版本的 10 倍吗？　　Julian Schrittwieser：这主要是因为价值/策略网路的改善，训练和架构都变得更好。这篇论文的图 4 对比了不同网路架构。　　12。有考虑过使用生成对抗网路吗？　　David Silver：在某种意义上，自我对弈（self-play）训练已经是对抗性质的：每次反覆运算都试图找到对抗上一版本的‘anti-strategy’。　　13。在设计 AlphaGo 系统架构时，最困难的部分是什麽？　　David Silver：我们遇到的一个重大挑战是在与李世石比赛期间出现的，当时，我们意识到 AlphaGo 偶尔会受到我们称之为‘错觉（delusion）’的影响，即对弈中智慧体会持续多次系统地误解当前的棋局，并尝试了很多方法来解决它，如给智慧体灌输更多的围棋知识或人类元知识。我们的解决方法是使智慧体变得更加条理化，使用更少的知识，更多地依赖强化学习来生成更高品质的解决方案；最终我们取得了成功，在 AlphaGo 中消除了这些问题。　　原文连结：http://goo.gl/wuwTPi http://sports.sina.com.cn/go/2017-10-20/doc-ifymzqpq2704743.shtml --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 123.192.74.47 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/StarCraft/M.1508480964.A.B1A.html ※ 编辑: qweewqq (123.192.74.47), 10/20/2017 14:29:58

1^F：推 semiacicada: 当然,星海可以狗你,围棋不行 10/20 14:41

2^F：推 abc0922001: 3天打上宗师1 10/20 14:43

3^F：推 shasen1235: 我觉得Has会是对付AlphaGO最适合的选手认真 10/20 14:52

4^F：推 abc0922001: 其他人遇到大招会吓到，AlphaGO不会 10/20 14:58

5^F：→ dr45jfga: 别说笑了 10/20 15:07

6^F：推 noabstersion: 初期has可以占便宜,训练过後比大局观就难说了 10/20 16:50

7^F：→ FAlin: AldnoahZero 10/20 17:05

8^F：推 Adonisy: 最近的星海AI比赛，第一名是工兵快攻 10/20 17:14

9^F：推 perfects1988: 依稀记得HAS骗过上帝视角的SOBAD和九妹那场~假偷开 10/20 20:43

10^F：→ perfects1988: 三矿真不朽叉一波! 10/20 20:43

11^F：推 Blood5499: 我比较好奇许多骗人的战术alphago会怎麽反应 10/21 01:35

12^F：推 aegis43210: 可能要先让AI知道他在星海二各种行动的价值多寡 10/21 02:05

13^F：→ gn00604767: 这不是讲废话XD 10/21 02:12

14^F：推 clamperni: AI只要闪追一波应该就没人挡得住了 10/21 12:10

15^F：推 semiacicada: Ai有限制apm，这是培养人工智慧，不是培养操作机器 10/21 15:13

16^F：推 sampp1213205: 那就是让它去算每个行动的期望值有多少了 10/21 19:08

17^F：推 e12401421: AI会不会被幻影骗到喊GG呢 10/22 00:33

18^F：→ kira925: 不过幻影也是目前神族最没被开发的方向 10/22 00:39

19^F：推 h311013: 再怎样强也敌不过大卫精的改动哈哈 10/22 13:34

20^F：推 Blood5499: 大味精不在团队了吧= = 10/22 14:52

21^F：推 jrsh0906: perfect大说的是哪场呀？方便给个连结吗 10/23 14:43

22^F：推 Pf2you: 只要控制距离。 ai绝对无敌 10/23 15:38

23^F：推 kira925: 怕的是只给AI战争平原他还是不会打.... 10/23 16:01

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

StarCraft 板

[新闻]AlphaGoZero创造者:星海争霸2比围棋更有难

热门看板

赞助商连结