[新闻] DeepMind提出多智慧体强化学习新方法(星)

时间Sat Nov 4 23:30:52 2017

面向星海争霸：DeepMind提出多智慧体强化学习新方法　文章来源：公众号机器之心　　　（选自arXiv 机器之心编译参与：路雪、李泽南）　　不久前 DeepMind 强化学习团队负责人、AlphaGo 专案负责人现身 Reddit 问答，其中一个问题是‘围棋和星海争霸 2 哪个更难？潜在技术障碍是什麽？’近日，DeepMind 发表论文，提出了多智慧体强化学习方法，有望为星海争霸等游戏的 AI 技术的开发提供帮助。该论文也将出现在 12 月美国长滩举行的 NIPS 2017 大会上。　　深度强化学习结合深度学习 [57] 和强化学习 [92， 62] 来计算决策策略 [71， 70]。传统来说，单个智慧体与所处环境进行重复互动，从观察结果中学习，进而反覆运算地改善自己的策略。受近期深度强化学习成就的启发，DeepMind 的研究人员对多智慧体强化学习（multiagent reinforcement learning，MARL）重新燃起了兴趣 [88， 16， 97]。在 MARL 中，多个智慧体在一个环境中同时互动和学习，可能是围棋和扑克中的竞争模式，学习如何交流的合作模式，也可能是二者皆有。　　MARL 最简单的形式是独立强化学习（independent RL，InRL），每个学习器不理会其他智慧体，将所有互动作为自己（‘局部’）环境的一部分。这些局部环境是非稳态和非玛律可夫的 [55]，导致在很多演算法中缺乏收敛保证，除此之外，研究者还发现这些策略会与其他智慧体的策略产生过拟合，从而无法实现很好的泛化效果。强化学习社区对环境过拟合的研究还很少 [100， 67]，但是 DeepMind 的研究人员认为这在多智慧体设置中尤其重要，该设置中一个智慧体必须根据观察到的其他智慧体的行为动态地作出反应。经典的技术是收集或逼近额外资讯如联合值（joint value）[60， 18， 28， 54]、使用适应性学习率 [12]、调整更新频率 [47， 79]，或对其他智慧体的动作进行线上动态回应 [61， 49]。但是，近期研究中出现了一些特例 [21， 78]，他们关注（重复）矩阵博弈（matrix game）和/或完全可观察的环境。　　有多个建议能够在多智慧体设置中处理部分可观测环境。当模型完全可知，且设定是与两名玩家完全对抗时，可以使用策略反覆运算方法，该方法基於使用专家级抽象（ expert abstraction）可以进行很好扩展的遗憾最小化（regret minimization）[26， 14， 45， 46]。近日，研究者将这些方法和深度学习结合起来，创建了无限下注德州扑克专家级 AI 系统 DeepStack [72]。大量研究在通用设置下，通过扩展信念状态和来自 POMDP 的贝叶斯更新 [27]，处理去中心化合作问题 [74， 77]。这些模型具备较强的表达能力，得出的演算法也比较复杂。在实践中，由於难解性，研究者通常使用近似式（ approximate form），通过采样或利用结构来确保模型保持优秀性能 [40， 2， 66]。　　在这篇论文中，DeepMind 的研究者介绍了一种新的指标，用於量化独立学习器学得策略的关联效果，并展示了过拟合问题的严重性。这些协调问题在完全可观测的环境中已经得到充分研究 [68]：DeepMind 的研究者在部分可观测的混合合作/竞争设置中观察到了类似问题，并证明其严重性随着环境可观测的程度降低而增加。DeepMind 的研究者提出一种基於经济推理（economic reasoning）的新型演算法 [80]，该演算法使用（i）深度强化学习来计算对策略分布的最佳回应，（ii）博弈论实证分析（empirical game-theoretic analysis）来计算新的元策略分布。研究者为去中心化执行进行中心化训练：策略以分离的神经网路的形式呈现，智慧体之间没有梯度共用或架构共用。基本形式使用中心化支付矩阵（payoff table），但在需要更少空间的分散式、非中心化形式中该矩阵被移除。图 1：Double Oracle 演算法。图 1：Double Oracle 演算法。　　DeepMind 的研究人员展示了他们的主要概念性演算法：策略空间回应 oracle（ policy-space response oracles，PSRO）。该演算法是 Double Oracle 演算法的自然泛化，其中元博弈是策略而非动作。它还是 Fictitious Self-Play 的泛化 [38， 39]。与之前的研究不同，该演算法可以插入任何元求解器以计算新的元策略。在实践中，无需任何域知识，使用参数化策略（函数逼近器，function approximator）泛化至状态空间。图 4：（a）两玩家 Leduc 扑克中 DCH 参数在 NashConv 上的效果。左：解耦 PRD；中：解耦 RM；右：Exp3。（b）MAUC 对抗 cfr500 的渗透图。图 4：（a）两玩家 Leduc 扑克中 DCH 参数在 NashConv 上的效果。左：解耦 PRD；中：解耦 RM；右：Exp3。（b ）MAUC 对抗 cfr500 的渗透图。　　DeepMind 也展望了新方法的未来应用方向，研究人员正在考虑保持基於策略差异损失惩罚的差异性，一般回应图拓扑，即时语言游戏和 RTS 游戏等环境，以及其他需要进行预测的架构，如对立建模、在辅助任务中进行未来状态估测。DeepMind 还希望研究快速线上适应及其与计算心智理论的关系，以及对使用继任者特徵的类似策略进行泛化（迁移）的 oracle。　　论文：A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning 　　论文连结：https：//arxiv.org/abs/1711.00832 　　要想实现通用智慧，智慧体必须学习如何在共用环境中与他人进行互动：这就是多智慧体强化学习（multiagent reinforcement learning，MARL）遇到的挑战。最简单的形式是独立强化学习（independent reinforcement learning，InRL），每个智慧体将自己的经验作为（非稳态）环境的一部分。这篇论文中，我们首先观察到，使用 InRL 学得的策略能够在训练过程中与其他智慧体的策略产生过拟合，但在执行过程中无法实现充分的泛化。我们引入了一种新的指标：共策略关联（joint-policy correlation），对该效果进行量化。我们介绍了一种用於通用 MARL 的演算法，该演算法基於深度强化学习生成的多种策略的几乎最佳回应，还进行博弈论实证分析来计算策略选择的元策略。该演算法是之前演算法的泛化，如 InRL、iterated best response、double oracle 和 fictitious play（虚拟对局）。之後，我们展示了一种可扩展的实现，使用解耦元求解器（meta-solver）减少记忆体需求。最後，我们在两种部分可观测的设置（gridworld coordination games 和扑克）种展示了该策略的通用性。 http://sports.sina.com.cn/go/2017-11-04/doc-ifynmzrs7030271.shtml --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.233.93.166 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/StarCraft/M.1509809455.A.40F.html ※ 编辑: zkow (118.233.93.166), 11/04/2017 23:31:14

1^F：推 syldsk: 嗯嗯，跟我想的一样 11/04 23:38

2^F：推 henry1915: 可恶我paper写得慢了一点QQ 11/04 23:48

3^F：推 goal56: 看不懂 11/04 23:57

4^F：推 c60203: 我也是这样认为 11/05 00:11

5^F：推 xxxddd748: 嗯嗯我也是想说该从这个方向前进 11/05 00:15

6^F：→ zseineo: 那堆数字感觉应该编辑掉 11/05 00:20

7^F：推 GLaDOS1105: 不舒服 11/05 01:09

8^F：推 Sechslee: 太硬了看不懂 11/05 02:16

9^F：推 Adonisy: 嗯,论文被抢先了 11/05 06:04

10^F：推 woodghost: 在下资质愚钝请问这要怎麽应用在AI打星海上? 11/05 08:55

11^F：推 iamten: 重点：有望提供帮助就是还不行啦 11/05 16:07

12^F：推 dispatchadv: 想请教：AI领域，有没有一看就知道骗科专经费的？ 11/06 21:57

13^F：推 Timba: 有... 就是没有演算法一堆资料一堆判断就是 11/07 20:03

14^F：推 dispatchadv: 谢赐教，原来如此，真有趣www 11/07 23:41

15^F：推 g9911761: 可以讲中文吗 11/09 17:40

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

StarCraft 板

[新闻] DeepMind提出多智慧体强化学习新方法(星)

热门看板

赞助商连结