AI攻陷多人德扑:训练成本150美元每小时赢1000刀

文章来源:机器之心

在无限制德州扑克六人对决的比赛中,德扑 AI Pluribus 成功战胜了五名专家级人类玩家。Pluribus 由 Facebook 与卡耐基梅隆大学(CMU)共同开发,实现了前辈 Libratus(冷扑大师)未能完成的任务,该研究已经登上了最新一期《科学》杂志。

六人无限制玩法是德州扑克最受欢迎的游戏方式,Facebook 与 CMU 的成果是第一个在拥有两个(或以上)人类玩家的比赛中击败人类专业选手的 AI。

2017 年 1 月,由 CMU 学者 Noam Brown、Tuomas Sandholm 开发的人工智能程序 Libratus 在宾夕法尼亚州匹兹堡的 Rivers 赌场持续 20 天的 1 对 1 无限制德扑比赛中成功战胜了 4 名全球顶级职业玩家。这也成为了继围棋之后,又一个高难度游戏被 AI 攻陷的里程碑事件。2017 年底,Libratus 的论文也被《科学》杂志收录。

‘冷扑大师’使用大量算力和博弈论等方法来攻克信息不完整的纸牌游戏。该研究的另一篇论文《Safe and Nested Subgame Solving for Imperfect-Information Games》也在当年成为了人工智能顶会 NIPS 2017 的最佳论文。

从 1 对 1 到玩转 6 人对决,人工智能经历了怎样的进步?‘虽然从二到六看起来是一个渐进的过程,但这实际上是一个巨大的挑战,’研究游戏与人工智能的纽约大学助理教授 Julian Togelius 表示。‘多人游戏方面的研究,此前在所有游戏中都未有出现。’

在‘冷扑大师’的基础之上,Noam Brown 与 Tuomas Sandholm 提出的新算法 Pluribus 需要的算力更小。在为期 12 天,超过 10000 手牌的比赛中,Pluribus 击败了 15 名人类顶级玩家。‘很多 AI 研究者此前都认为实现这样的目标是不可能的,’Noam Brown 表示。

几十年来,扑克一直是人工智能领域一个困难而又重要的挑战。原因在于,扑克中含有隐藏信息,也就是说,你无法知道对方的牌。要想在扑克中获胜,你需要 bluff(吓唬)或者使用其他策略,这在棋类比赛中一般是不需要的。这一点使得在扑克中应用人工智能变得非常困难。

现在的人工智能已经学会了 bluff,而且还可以看穿人类选手的 bluff。不过在 Noam Brown 看来,这些技巧也是由数学过程决定的策略。

据介绍,Facebook 和卡内基梅隆大学设计的比赛分为两种模式:1 个 AI+5 个人类玩家和 5 个 AI+1 个人类玩家,Pluribus 在这两种模式中都取得了胜利。如果一个筹码值 1 美元,Pluribus 平均每局能赢 5 美元,与 5 个人类玩家对战一小时就能赢 1000 美元。职业扑克玩家认为这些结果是决定性的胜利优势。

这是 AI 首次在玩家人数(或队伍)大于 2 的大型基准游戏中击败顶级职业玩家。以下是关于 Pluribus 的细节。

相关推荐
新闻聚焦
猜你喜欢
热门推荐
返回列表
Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。