几十年来,德州扑克一直是人工智能领域最难以攻克的重大问题之一。因为扑克对局涉及“隐藏信息”你不知道对手的底牌是什么,要想在牌局中获胜,需要成功运用多种策略,而这策略并不适用于国际象棋,围棋等对局。这使得德州扑克成为AI难以攻克的堡垒之一。近年来随着技术进步,AI在“一对一”德州扑克对局中,已经能够击败所有顶级玩家。
美国卡内基梅隆大学和Facebook公司7月12日在《科学》上发表论文称,他们联合开发的德扑人工智能Pluribus在六人桌无限德扑中击败了顶级人类玩家。
这其中包括了获得过4次WPT(世界扑克巡回赛)冠军的Darren Elias、拥有6条WSOP(世界扑克锦标赛)金手链的“耶稣”Chris Ferguson,和在职业生涯中赚了将近200万美元的Michael Gagliano。
无论是一个Pluribus对战5个顶级人类玩家,还是五个Pluribus混战一个顶级人类玩家,经过1万手牌后,它的表现都会明显优于人类。
“Pluribus”是一个拉丁语词汇,意为“众”,美国国徽上就印有“E pluribus unum”(合众为一)的字样。起这个名字,无疑彰显这是世界上首个在多人德扑中超越人类专业选手的AI。
“Pluribus在多人扑克领域取得了超人的成绩,这在人工智能和博弈论领域是一个公认的里程碑,”卡内基梅伦大学计算机科学教授Tuomas Sandholm说。Tuomas Sanholm和其学生Noam Brown博士(目前在facebook AI项目组工作)共同开发了Pluribus。
早在2015年4月到5月,由Noam Brown、Tuomas Sandholm 开发开发的第一款德扑程序Claudico,就在匹兹堡轮流与包括当时世界排名第一的Doug Polk在内的四名人类顶尖高手过招。那次比赛历时13天,共计2万局牌。但初出茅庐的德扑AI在赛程过半时,就已落后人类约46万个筹码,最终以大约73万个筹码的劣势铩羽而归。
但是到了2017年1月,同样由Noam Brown、Tuomas Sandholm 开发的人工智能程序 Libratus ,在持续20天的1对1无限制德扑比赛中成功战胜了4名全球顶级职业玩家。这也成为了继围棋之后,又一个高难度游戏被AI攻陷的里程碑事件。
此时的人工智能已经学会了bluff,而且还可以看穿人类选手的bluff。
但是从1对1到玩转6人对决,人工智能经历了怎样的进步?
“虽然从二到六看起来是一个渐进的过程,但这实际上是一个巨大的挑战,”研究游戏与人工智能的纽约大学助理教授 Julian Togelius 表示。“多人游戏方面的研究,此前在所有游戏中都未有出现。”
据介绍,Facebook 和卡内基梅隆大学设计的比赛分为两种模式:1 个 AI+5 个人类玩家和 5 个 AI+1 个人类玩家,Pluribus 在这两种模式中都取得了胜利。如果一个筹码值 1 美元,Pluribus 平均每局能赢 5 美元,与 5 个人类玩家对战一小时就能赢 1000 美元。职业扑克玩家认为这些结果是决定性的胜利优势。
No tags for this post.