作者HeterCompute (异质运算)

看板GO

标题

[情报] AlphaZero战胜将棋与西洋棋最强软体

时间Wed Dec 6 20:38:11 2017

https://arxiv.org/pdf/1712.01815.pdf 这次论文的标题是： Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm 从零学棋，使用相似的神经网路架构，一样没有使用任何人类知识， 4小时打败西洋棋最强软体Stockfish， 2小时打败将棋最强软体Elmo， 34小时打败围棋AlphaGoZero 20blocks 3天版本， (围棋其实有些争议，因为他这次用了5000TPU，上次AlphaGoZero只用2000TPU)，以MCTS打倒传统的alpha beta search，通用於完全讯息游戏，又一伟大的突破。 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.169.176.30 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/GO/M.1512563895.A.CBE.html

1^F：推 staristic: 一个通用於下棋的AI？ 12/06 20:45

没错

2^F：推 tetratio: 又达到新境界了 12/06 20:50

3^F：推 BBSealion: 不知道限制多严格，有运气成分的（例如暗棋）或多人的 12/06 20:54

4^F：→ BBSealion: （例如跳棋）不知道能否通用过去 12/06 20:54

暗棋这种非完全讯息游戏很难说，跳棋这种只有多人应该没什麽问题。 ※ 编辑: HeterCompute (118.169.176.30), 12/06/2017 20:56:17

5^F：推 birdy590: 力王：大家可以回家啦~ 12/06 20:55

6^F：推 harrybbs: 逆天啦发展这麽快 12/06 20:59

7^F：推 dongy: 暗棋可以计算机率的,但因复杂度不高,且有部分运气,所以人类 12/06 21:01

8^F：→ dongy: 棋手会有一定胜率 12/06 21:02

9^F：推 TWN2: 想看阿法零跟赤木茂打麻将 12/06 21:04

10^F：推 zeat: AlphaGO老师：我是说在座的各位都是＿＿ 12/06 21:06

11^F：推 aegis43210: 已经征服完全讯息游戏了，希望星海二也会有突破 12/06 21:15

12^F：推 s891234: 真的是在座的各位都是哈哈，可以回家啦~~~ 12/06 21:41

13^F：→ Lordaeron: 多人跟双人是有很多不同,没问题就有鬼罗. 12/06 21:43

14^F：推 turing: 这也终结了西洋棋的西西里防御。 12/06 22:22

15^F：推 MonkeyCL: 这世界变化太快好累啊 12/06 22:35

16^F：推 hne: 太强了 O o 12/06 22:52

17^F：推 asglay: 借转chess 12/07 00:11

※ asglay:转录至看板 chess 12/07 00:15

18^F：推 weiqi5566: 多人会有问题吧，有人合作或针对都会影响吧 12/07 00:27

19^F：→ wadashi1: AlphaZero:我不是说人类而已,我是说连其他程式也都是＿ 12/07 00:28

20^F：→ weiqi5566: 两个人的完全讯息游戏最复杂的应该就围棋，其他应该都 12/07 00:28

21^F：→ weiqi5566: 不是问题了 12/07 00:28

22^F：推 Eleganse: 这样的话完全讯息游戏已经到尽头了 12/07 00:30

23^F：→ Eleganse: 说不定世上最後一块净土会是麻将 AI与人类打成平手 12/07 00:31

24^F：推 indium111: 使用ZERO学习模式是不可能学会星海的，即使用map hack 12/07 01:06

25^F：→ indium111: 因为星海的规则和变化数远远超过围棋太多太多了 12/07 01:07

26^F：推 weiqi5566: 非完全讯息游戏人类跟AI互有胜负不奇怪 12/07 01:07

27^F：推 CGary: 这件事大概可以把所有完全讯息的问题解了... 12/07 01:12

28^F：推 aegis43210: 为什麽会是麻将？非完全讯息游戏多如牛毛 12/07 02:30

29^F：推 HanaYukii: 德州扑克比麻将难多了吧 12/07 02:35

30^F：推 david1124: 我比较想看它打LOL,个种压血和反杀XD 12/07 09:35

31^F：推 david1124: 而且说不定它可以真正演算出最适合的对线角和友方英雄 12/07 09:37

32^F：→ kenwufederer: 期待生物科技或材料的革命性 12/07 10:19

33^F：推 wadashi1: 非完全讯息难在抽卡机率计算和本身牌组的搭配,麻将、德 12/07 11:27

34^F：→ wadashi1: 州扑克其实比较好解决,星海要模拟人的地方很多,要图片辨 12/07 11:28

35^F：→ wadashi1: 视,很多非关策略的问题要解决,个人感觉其实难多了! 12/07 11:28

36^F：推 moonlind: 才刚出一个AlphaGO zero 又再创一个打败他我都麻痹了 12/07 11:48

37^F：→ moonlind: 就像一开始看超级赛亚人打架好兴奋现在整个眼神死 12/07 11:49

38^F：→ wadashi1: 就如我之前所说的..先血洗其他棋类游戏的软体,没想到只 12/07 12:08

39^F：→ wadashi1: 花这麽短的时间... (搞不好中国象棋也被KO,只是没说..) 12/07 12:09

40^F：推 harrybbs: 中国象棋也同样适用啊，可能是没花资源训练而已 12/07 12:15

41^F：→ fossil313: 老实说连将棋和西洋棋这种有放回和翻转的都没问题了 12/07 12:21

42^F：→ fossil313: 象棋根本只是小儿科吧 12/07 12:22

43^F：推 Tabrith: AlphaGo不要再玩游戏了啦，学写程式生一个AlphaGo二代w 12/07 13:49

44^F：推 wadashi1: 楼楼上说得好! 12/07 17:08

45^F：推 toya123: ALPHAGO : 我要扫荡各种竞技游戏!! 12/07 17:48

46^F：推 ddavid: @Tabrith 会有这个想法大概是不清楚难度跳了多少等级吧XD 12/07 18:35

47^F：→ ddavid: @fossil313 没记错的话将棋评估的复杂度是比中国象棋高的 12/07 18:36

48^F：→ ddavid: ，将棋能搞定象棋基本上没啥问题。是说围棋都搞定了，本来 12/07 18:37

49^F：→ ddavid: 其他棋类都是复杂度较低的啊XD 12/07 18:37

50^F：推 ddavid: 基本上写程式跟下棋在问题类型上就已经有距离了，而且难度 12/07 18:40

51^F：→ ddavid: 差距可是很大 12/07 18:40

52^F：推 zxshih: 德州扑克不是早就被AI打败了吗 12/07 18:43

53^F：推 ddavid: 虽然自写程式的研究是有，但其实没有完全真正从零开始，比 12/07 18:57

54^F：→ ddavid: 较像设计架构的感觉。从零开始的话还会扯出额外理解问题跟 12/07 18:58

55^F：→ ddavid: 解读结果的问题要解决，难度又比围棋跳升不少了 12/07 18:59

56^F：→ wadashi1: AlphaZero字面不就是从0开始,乱下由碰触让ai了解规则,再 12/07 19:17

57^F：→ wadashi1: 由人类修正bug,修练出强到不可思议的棋力! 12/07 19:17

58^F：推 harrybbs: 有人类修正bug吗？ 12/07 19:21

59^F：推 supergogila: Alpha go下一版本:Alpha skynet 12/07 19:27

60^F：推 wadashi1: 楼上,这个版本没有go了,这版是AlphaZero了! 12/07 19:41

61^F：推 ilw4e: 扑克是有限注能达到顶尖，无限注印象中还没有能到颠峰的 12/07 20:31

今年年初就有无限注赢了吧，好像叫做DeepStack

62^F：推 Tabrith: @ddavid AlphaGo已经强到不像话了给他点挑战嘛XD 12/07 23:25

63^F：推 ilw4e: 那个不是跟顶尖高手打啊 12/07 23:58

德州扑克不太熟悉，请问怎样才算是顶尖高手的赛事？ ※ 编辑: HeterCompute (118.169.179.36), 12/08/2017 00:04:29

64^F：推 ddavid: @Tabrith 强到不像话是指棋类而已，乱扯一个不同类问题有 12/08 00:17

65^F：→ ddavid: 啥意义？XD 12/08 00:18

66^F：→ ddavid: F1赛车跟人赛跑也强得不像话啊，所以叫车去跟鸟比飞高吗XD 12/08 00:19

67^F：推 ddavid: @HeterCompute TH有世界最大赛事，称为World Series of 12/08 00:22

68^F：→ ddavid: Poker，WSOP 12/08 00:22

69^F：→ ddavid: https://goo.gl/PWktDF 12/08 00:23

70^F：→ ddavid: 其中世界大赛中的主要赛事（Main Event）就是比no-limit 12/08 00:27

71^F：→ ddavid: TH 12/08 00:27

72^F：→ ddavid: 而能比到Main Event的决赛桌大多都是一时之选了 12/08 00:28

73^F：→ ddavid: 而世界上也有许多知名的顶尖Poker选手都在这项赛事有好成 12/08 00:29

74^F：→ ddavid: 绩，例如Poker界的传奇之一Doyle Brunson曾在1976和1977连 12/08 00:30

75^F：→ ddavid: 续两届WSOP Main Event靠垃圾手牌非同花10-2逆转获胜，传 12/08 00:32

76^F：→ ddavid: 奇到自此10-2这手牌直接被用他的名字命名 12/08 00:32

77^F：推 Tabrith: yeah 的确不是叫alphago去学而是要alphago的AI系统学 12/08 00:32

78^F：→ Tabrith: 查了一下 google 已经在别的地方开始做了 (惊 12/08 00:33

79^F：推 ddavid: 另外有个一般没接触TH有可能见过的知名高手是Johnny Chan 12/08 00:35

80^F：→ ddavid: ，在麦特戴蒙主演的电影赌王之王（Rounders）中客串演出赌 12/08 00:36

81^F：→ ddavid: 王的就是他，事实上也就是演出他自己 12/08 00:37

82^F：推 ddavid: 另外在我有空且很迷TH的那阵子最喜欢的职业Poker玩家是 12/08 00:41

83^F：→ ddavid: Daniel Negreanu 12/08 00:41

84^F：推 HanaYukii: 扑克AI赢得只是限定100大盲的单挑一般打的都是六人桌 12/08 00:42

85^F：→ HanaYukii: 九人桌筹码也是上下波动的 12/08 00:42

86^F：→ HanaYukii: AI能在主流比赛或现金局都还没攻克 12/08 00:45

87^F：推 ddavid: Poker AI如果攻克现金桌，基本上你就可以拿去玩线上TH做持 12/08 00:48

88^F：→ ddavid: 续赚钱了，就好像如果你研发出预测股价的技术就拿去投入股 12/08 00:49

89^F：→ ddavid: 市赚钱XD 12/08 00:49

90^F：推 ddavid: 另外就是，TH的现金桌跟Tournament的打法也会有所不同，同 12/08 00:53

91^F：→ ddavid: 一套训练出来的AI基本上应该是没法在这两种环境共用的 12/08 00:54

92^F：→ ddavid: 如HanaYukii提到，桌上人数的不同也会影响打法 12/08 00:54

93^F：→ ddavid: 顺带一提，上面提到WSOP Main Event的buy-in（参赛费用） 12/08 00:56

94^F：→ ddavid: 是一个人一万美金 12/08 00:56

95^F：推 ilw4e: Poker AI如果够强线上绝对看到一堆AI在打，毕竟是真钱在赌 12/08 00:59

感谢楼上各大高手解惑，真是有趣的内容 ※ 编辑: HeterCompute (118.169.179.36), 12/08/2017 01:25:13

96^F：推 sivid: 顺便提一下，master其实没有跟zero平等较量过 12/08 02:04

97^F：→ sivid: 当时zero用的计算力比master拿到的强 12/08 02:04

98^F：推 aegis43210: 去西洋棋论坛看了一下，能对Stockfish无败真是了不起 12/08 02:20

99^F：→ aegis43210: 的成就，每个棋谱都异常精彩 12/08 02:20

100^F：推 oldTim: 德扑的AI已经屌打人类了，之前李开复办的比赛，卡内基美隆 12/08 02:57

101^F：→ oldTim: 大学的Libratus乐胜，只是硬体要求有点高 12/08 02:58

102^F：→ oldTim: https://www.inside.com.tw/2017/02/03/how-libratus-work 12/08 02:58

103^F：→ oldTim: 是有限注，补充一下楼上众高手的说法 12/08 03:02

104^F：推 HanaYukii: Libratus就仅限heads up单挑阿 12/08 03:32

105^F：推 ddavid: 单挑比多人桌单纯非常多，说服力还不够 12/08 18:08

106^F：→ ddavid: 有限注也比no-limit单纯更多。 12/08 18:10

107^F：→ ddavid: 另外就是，现金桌的职业高手的强项是强在1.懂得分辨出其他 12/08 18:11

108^F：→ ddavid: 的高手并且避开，找出鱼并坐在那一桌，2.判读其他人临场的 12/08 18:12

109^F：→ ddavid: 情绪跟打法变化。大多是只打heads-up train不出来的东西 12/08 18:14

110^F：→ ddavid: AI要真的能打多个打多人桌而且决定入座或离桌，长期+EV会 12/08 18:16

111^F：→ ddavid: 比较称得上攻克现金桌XD 至於tournament又是另一个课题。 12/08 18:17

112^F：推 ddavid: 话说看文章里面写说是玩no-limit 12/08 18:20

113^F：→ ddavid: https://goo.gl/AQukJd wiki也写是针对no-limit 12/08 18:22

114^F：→ wadashi1: 所以现在alphazero策略上训练已经超凡入圣了,接下来要克 12/08 18:24

115^F：→ wadashi1: 服的就是非关策略上,理解、图片辨识,诸多拟人上的问题了 12/08 18:26

116^F：推 ddavid: 就算要说超凡入圣也只是针对容易模拟并评估结果的双人对抗 12/08 18:28

117^F：→ ddavid: 资讯公开类别的问题就是了，跳问题种类要研究的事情还多呢 12/08 18:28

118^F：推 wadashi1: 围棋那边的确有争议,要不alphazero至少要挑战40天版本 12/15 11:59

119^F：→ wadashi1: 40 block的alphago Zero,毕竟用了5000个TPU.. 12/15 12:00

120^F：→ wadashi1: 不好意思!我就是抱着狗咬狗看好戏的心态,看有没有机会 12/15 12:01

121^F：→ wadashi1: elo破6000,或让李世石版本4子还完胜之类的! 12/15 12:02

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

GO 板

[情报] AlphaZero战胜将棋与西洋棋最强软体

热门看板

赞助商连结