作者HeterCompute (异质运算)
看板GO
标题[情报] AlphaZero战胜将棋与西洋棋最强软体
时间Wed Dec 6 20:38:11 2017
https://arxiv.org/pdf/1712.01815.pdf
这次论文的标题是:
Mastering Chess and Shogi by Self-Play with a
General Reinforcement Learning Algorithm
从零学棋,
使用相似的神经网路架构,
一样没有使用任何人类知识,
4小时打败西洋棋最强软体Stockfish,
2小时打败将棋最强软体Elmo,
34小时打败围棋AlphaGoZero 20blocks 3天版本,
(围棋其实有些争议,因为他这次用了5000TPU,上次AlphaGoZero只用2000TPU),
以MCTS打倒传统的alpha beta search,
通用於完全讯息游戏,
又一伟大的突破。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.169.176.30
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/GO/M.1512563895.A.CBE.html
1F:推 staristic: 一个通用於下棋的AI? 12/06 20:45
没错
2F:推 tetratio: 又达到新境界了 12/06 20:50
3F:推 BBSealion: 不知道限制多严格,有运气成分的(例如暗棋)或多人的 12/06 20:54
4F:→ BBSealion: (例如跳棋)不知道能否通用过去 12/06 20:54
暗棋这种非完全讯息游戏很难说,跳棋这种只有多人应该没什麽问题。
※ 编辑: HeterCompute (118.169.176.30), 12/06/2017 20:56:17
5F:推 birdy590: 力王:大家可以回家啦~ 12/06 20:55
6F:推 harrybbs: 逆天啦 发展这麽快 12/06 20:59
7F:推 dongy: 暗棋可以计算机率的,但因复杂度不高,且有部分运气,所以人类 12/06 21:01
8F:→ dongy: 棋手会有一定胜率 12/06 21:02
9F:推 TWN2: 想看阿法零跟赤木茂打麻将 12/06 21:04
10F:推 zeat: AlphaGO老师:我是说在座的各位都是__ 12/06 21:06
11F:推 aegis43210: 已经征服完全讯息游戏了,希望星海二也会有突破 12/06 21:15
12F:推 s891234: 真的是在座的各位都是哈哈,可以回家啦~~~ 12/06 21:41
13F:→ Lordaeron: 多人跟双人是有很多不同,没问题就有鬼罗. 12/06 21:43
14F:推 turing: 这也终结了西洋棋的西西里防御。 12/06 22:22
15F:推 MonkeyCL: 这世界变化太快好累啊 12/06 22:35
16F:推 hne: 太强了 O o 12/06 22:52
17F:推 asglay: 借转chess 12/07 00:11
※ asglay:转录至看板 chess 12/07 00:15
18F:推 weiqi5566: 多人会有问题吧,有人合作或针对都会影响吧 12/07 00:27
19F:→ wadashi1: AlphaZero:我不是说人类而已,我是说连其他程式也都是_ 12/07 00:28
20F:→ weiqi5566: 两个人的完全讯息游戏最复杂的应该就围棋,其他应该都 12/07 00:28
21F:→ weiqi5566: 不是问题了 12/07 00:28
22F:推 Eleganse: 这样的话 完全讯息游戏已经到尽头了 12/07 00:30
23F:→ Eleganse: 说不定世上最後一块净土会是麻将 AI与人类打成平手 12/07 00:31
24F:推 indium111: 使用ZERO学习模式是不可能学会星海的,即使用map hack 12/07 01:06
25F:→ indium111: 因为星海的规则和变化数远远超过围棋太多太多了 12/07 01:07
26F:推 weiqi5566: 非完全讯息游戏人类跟AI互有胜负不奇怪 12/07 01:07
27F:推 CGary: 这件事大概可以把所有完全讯息的问题解了... 12/07 01:12
28F:推 aegis43210: 为什麽会是麻将?非完全讯息游戏多如牛毛 12/07 02:30
29F:推 HanaYukii: 德州扑克比麻将难多了吧 12/07 02:35
30F:推 david1124: 我比较想看它打LOL,个种压血和反杀XD 12/07 09:35
31F:推 david1124: 而且说不定它可以真正演算出最适合的对线角和友方英雄 12/07 09:37
32F:→ kenwufederer: 期待生物科技或材料的革命性 12/07 10:19
33F:推 wadashi1: 非完全讯息难在抽卡机率计算和本身牌组的搭配,麻将、德 12/07 11:27
34F:→ wadashi1: 州扑克其实比较好解决,星海要模拟人的地方很多,要图片辨 12/07 11:28
35F:→ wadashi1: 视,很多非关策略的问题要解决,个人感觉其实难多了! 12/07 11:28
36F:推 moonlind: 才刚出一个AlphaGO zero 又再创一个打败他 我都麻痹了 12/07 11:48
37F:→ moonlind: 就像一开始看超级赛亚人打架好兴奋 现在整个眼神死 12/07 11:49
38F:→ wadashi1: 就如我之前所说的..先血洗其他棋类游戏的软体,没想到只 12/07 12:08
39F:→ wadashi1: 花这麽短的时间... (搞不好中国象棋也被KO,只是没说..) 12/07 12:09
40F:推 harrybbs: 中国象棋也同样适用啊,可能是没花资源训练而已 12/07 12:15
41F:→ fossil313: 老实说 连将棋和西洋棋这种有放回和翻转的都没问题了 12/07 12:21
42F:→ fossil313: 象棋根本只是小儿科吧 12/07 12:22
43F:推 Tabrith: AlphaGo不要再玩游戏了啦,学写程式生一个AlphaGo二代w 12/07 13:49
44F:推 wadashi1: 楼楼上说得好! 12/07 17:08
45F:推 toya123: ALPHAGO : 我要扫荡各种竞技游戏!! 12/07 17:48
46F:推 ddavid: @Tabrith 会有这个想法大概是不清楚难度跳了多少等级吧XD 12/07 18:35
47F:→ ddavid: @fossil313 没记错的话将棋评估的复杂度是比中国象棋高的 12/07 18:36
48F:→ ddavid: ,将棋能搞定象棋基本上没啥问题。是说围棋都搞定了,本来 12/07 18:37
49F:→ ddavid: 其他棋类都是复杂度较低的啊XD 12/07 18:37
50F:推 ddavid: 基本上写程式跟下棋在问题类型上就已经有距离了,而且难度 12/07 18:40
51F:→ ddavid: 差距可是很大 12/07 18:40
52F:推 zxshih: 德州扑克不是早就被AI打败了吗 12/07 18:43
53F:推 ddavid: 虽然自写程式的研究是有,但其实没有完全真正从零开始,比 12/07 18:57
54F:→ ddavid: 较像设计架构的感觉。从零开始的话还会扯出额外理解问题跟 12/07 18:58
55F:→ ddavid: 解读结果的问题要解决,难度又比围棋跳升不少了 12/07 18:59
56F:→ wadashi1: AlphaZero字面不就是从0开始,乱下由碰触让ai了解规则,再 12/07 19:17
57F:→ wadashi1: 由人类修正bug,修练出强到不可思议的棋力! 12/07 19:17
58F:推 harrybbs: 有人类修正bug吗? 12/07 19:21
59F:推 supergogila: Alpha go下一版本:Alpha skynet 12/07 19:27
60F:推 wadashi1: 楼上,这个版本没有go了,这版是AlphaZero了! 12/07 19:41
61F:推 ilw4e: 扑克是有限注能达到顶尖,无限注印象中还没有能到颠峰的 12/07 20:31
今年年初就有无限注赢了吧,好像叫做DeepStack
62F:推 Tabrith: @ddavid AlphaGo已经强到不像话了给他点挑战嘛XD 12/07 23:25
63F:推 ilw4e: 那个不是跟顶尖高手打啊 12/07 23:58
德州扑克不太熟悉,请问怎样才算是顶尖高手的赛事?
※ 编辑: HeterCompute (118.169.179.36), 12/08/2017 00:04:29
64F:推 ddavid: @Tabrith 强到不像话是指棋类而已,乱扯一个不同类问题有 12/08 00:17
65F:→ ddavid: 啥意义?XD 12/08 00:18
66F:→ ddavid: F1赛车跟人赛跑也强得不像话啊,所以叫车去跟鸟比飞高吗XD 12/08 00:19
67F:推 ddavid: @HeterCompute TH有世界最大赛事,称为World Series of 12/08 00:22
68F:→ ddavid: Poker,WSOP 12/08 00:22
70F:→ ddavid: 其中世界大赛中的主要赛事(Main Event)就是比no-limit 12/08 00:27
71F:→ ddavid: TH 12/08 00:27
72F:→ ddavid: 而能比到Main Event的决赛桌大多都是一时之选了 12/08 00:28
73F:→ ddavid: 而世界上也有许多知名的顶尖Poker选手都在这项赛事有好成 12/08 00:29
74F:→ ddavid: 绩,例如Poker界的传奇之一Doyle Brunson曾在1976和1977连 12/08 00:30
75F:→ ddavid: 续两届WSOP Main Event靠垃圾手牌非同花10-2逆转获胜,传 12/08 00:32
76F:→ ddavid: 奇到自此10-2这手牌直接被用他的名字命名 12/08 00:32
77F:推 Tabrith: yeah 的确不是叫alphago去学而是要alphago的AI系统学 12/08 00:32
78F:→ Tabrith: 查了一下 google 已经在别的地方开始做了 (惊 12/08 00:33
79F:推 ddavid: 另外有个一般没接触TH有可能见过的知名高手是Johnny Chan 12/08 00:35
80F:→ ddavid: ,在麦特戴蒙主演的电影赌王之王(Rounders)中客串演出赌 12/08 00:36
81F:→ ddavid: 王的就是他,事实上也就是演出他自己 12/08 00:37
82F:推 ddavid: 另外在我有空且很迷TH的那阵子最喜欢的职业Poker玩家是 12/08 00:41
83F:→ ddavid: Daniel Negreanu 12/08 00:41
84F:推 HanaYukii: 扑克AI赢得只是限定100大盲的单挑 一般打的都是六人桌 12/08 00:42
85F:→ HanaYukii: 九人桌 筹码也是上下波动的 12/08 00:42
86F:→ HanaYukii: AI能在主流比赛或现金局都还没攻克 12/08 00:45
87F:推 ddavid: Poker AI如果攻克现金桌,基本上你就可以拿去玩线上TH做持 12/08 00:48
88F:→ ddavid: 续赚钱了,就好像如果你研发出预测股价的技术就拿去投入股 12/08 00:49
89F:→ ddavid: 市赚钱XD 12/08 00:49
90F:推 ddavid: 另外就是,TH的现金桌跟Tournament的打法也会有所不同,同 12/08 00:53
91F:→ ddavid: 一套训练出来的AI基本上应该是没法在这两种环境共用的 12/08 00:54
92F:→ ddavid: 如HanaYukii提到,桌上人数的不同也会影响打法 12/08 00:54
93F:→ ddavid: 顺带一提,上面提到WSOP Main Event的buy-in(参赛费用) 12/08 00:56
94F:→ ddavid: 是一个人一万美金 12/08 00:56
95F:推 ilw4e: Poker AI如果够强线上绝对看到一堆AI在打,毕竟是真钱在赌 12/08 00:59
感谢楼上各大高手解惑,真是有趣的内容
※ 编辑: HeterCompute (118.169.179.36), 12/08/2017 01:25:13
96F:推 sivid: 顺便提一下,master其实没有跟zero平等较量过 12/08 02:04
97F:→ sivid: 当时zero用的计算力比master拿到的强 12/08 02:04
98F:推 aegis43210: 去西洋棋论坛看了一下,能对Stockfish无败真是了不起 12/08 02:20
99F:→ aegis43210: 的成就,每个棋谱都异常精彩 12/08 02:20
100F:推 oldTim: 德扑的AI已经屌打人类了,之前李开复办的比赛,卡内基美隆 12/08 02:57
101F:→ oldTim: 大学的Libratus乐胜,只是硬体要求有点高 12/08 02:58
103F:→ oldTim: 是有限注,补充一下楼上众高手的说法 12/08 03:02
104F:推 HanaYukii: Libratus就仅限heads up单挑阿 12/08 03:32
105F:推 ddavid: 单挑比多人桌单纯非常多,说服力还不够 12/08 18:08
106F:→ ddavid: 有限注也比no-limit单纯更多。 12/08 18:10
107F:→ ddavid: 另外就是,现金桌的职业高手的强项是强在1.懂得分辨出其他 12/08 18:11
108F:→ ddavid: 的高手并且避开,找出鱼并坐在那一桌,2.判读其他人临场的 12/08 18:12
109F:→ ddavid: 情绪跟打法变化。大多是只打heads-up train不出来的东西 12/08 18:14
110F:→ ddavid: AI要真的能打多个打多人桌而且决定入座或离桌,长期+EV会 12/08 18:16
111F:→ ddavid: 比较称得上攻克现金桌XD 至於tournament又是另一个课题。 12/08 18:17
112F:推 ddavid: 话说看文章里面写说是玩no-limit 12/08 18:20
114F:→ wadashi1: 所以现在alphazero策略上训练已经超凡入圣了,接下来要克 12/08 18:24
115F:→ wadashi1: 服的就是非关策略上,理解、图片辨识,诸多拟人上的问题了 12/08 18:26
116F:推 ddavid: 就算要说超凡入圣也只是针对容易模拟并评估结果的双人对抗 12/08 18:28
117F:→ ddavid: 资讯公开类别的问题就是了,跳问题种类要研究的事情还多呢 12/08 18:28
118F:推 wadashi1: 围棋那边的确有争议,要不alphazero至少要挑战40天版本 12/15 11:59
119F:→ wadashi1: 40 block的alphago Zero,毕竟用了5000个TPU.. 12/15 12:00
120F:→ wadashi1: 不好意思!我就是抱着狗咬狗看好戏的心态,看有没有机会 12/15 12:01
121F:→ wadashi1: elo破6000,或让李世石版本4子还完胜之类的! 12/15 12:02