湘桥农业网
日期归档
热点专题 当前位置:首页 > 热点专题 > 正文

AI 赌神超进化:德扑六人局击溃世界冠军,每小时能赢 1 千刀

人工智能赌徒完成超级进化!

天平动队两年前在20天内击败了四名德州扑克顶级玩家,但只有1v1。现在,全新的赌徒普勒比乌斯终于取得了突破,统治了多人游戏:“在六人无限注游戏中击败了所有顶尖的人类玩家。

结束了扑克人工智能的一对一局面,Pluribus成为多玩家复杂游戏的里程碑。与围棋相比,对许多人来说做起来要困难得多。

Pluribus不仅赢了,而且干净利落地赢了,每手牌只需20秒,是人类职业选手的两倍。它比播放围棋的阿尔法围棋(AlphaGo)需要更少的计算能力,并且只需要运行两个中央处理器。

共有15名顶尖人类专家被新的人工智能赌徒打败。官员们说,如果每个芯片价格为1美元,普勒比乌斯平均每手能赢5美元,每小时能赢1000美元。

其中有克里斯费格森,传奇扑克玩家和世界扑克大赛(WSOP)冠军。

他的“获奖感言”如下:

普勒比乌斯是一个很难对付的对手,任何牌都很难吃。

他也非常擅长在最后一手牌上下小注(薄注(Thin Bet),意思是觉得自己的牌比对手的好,然后下注来榨干对手),并且非常擅长从好牌中榨取价值。

杰森莱斯(Jason Les)是另一名职业玩家,他说:“它的虚张声势技巧就像怪物一样,比任何人类虚张声势都要高效。“人工智能赌客”的两个父亲也是脸书和CMU的Libratus的父亲。有了这个辉煌的新成就,他们登上了科学。

好吧,让我们先来看看这场比赛,人类是如何在地面上摩擦的:

在比赛开始时,普勒比乌斯拿到了同花钻石5和6,在第一轮下注结束后,发行了三张公共牌(黑桃4、钻石2和钻石10),另外三名玩家在场,两张支票和一张加注。

虽然此时普勒比乌斯的脸并不大,但却是直接全包的,是的,直接全包的。

结果,其他几名顶级玩家相继弃牌。可以说他们虚张声势玩了6次。

有什么困难?

扑克多年来一直是人工智能领域的一大挑战。

因为扑克有隐藏的信息,你不知道对手的牌。赢得比赛需要虚张声势,并且需要许多不涉及象棋、围棋和其他游戏的技巧。

这对人工智能玩牌来说是一个巨大的障碍。另一个障碍是人数。

在过去,人工智能要么是两个人玩,要么是两个队之间的零和游戏(一赢一输):跳棋、象棋、围棋、星际争霸2或DOTA 2,所有这些都是一样的。

DeepMind Alphastar在25分钟内击败人类

在这些游戏中,人工智能非常成功,因为它可以制定纳什均衡策略:它可以选择一系列动作,无论对手做什么,它至少不会输。对手也是如此。

然而,纳什均衡并不总是被发现的:

首先,如果观察对手的弱点以获得纳什均衡,例如,对手经常制造剪刀,人工智能总是可以制造石头,但是对手也可以根据人工智能的选择调整他的策略。这种方法还需要大量数据。

其次,如果是多人游戏,即使每个玩家都找到了自己的纳什均衡,加在一起也不一定是纳什均衡,因为游戏不是零和游戏:

柠檬水摊游戏就是一个例子。每个球员都应该尽量远离其他球员。纳什均衡意味着所有的参与者都是等距的。然而,每个玩家都会找到一个平衡点来计算,那么每个人计算出来的联合策略不太可能是纳什均衡。

因此,普勒比乌斯没有采用博弈论的思想来寻找一个不失败的平衡策略。而是为了打败人类。

做决定的方法

要做到这一点,我们不能依赖于着名的前任天平动的反事实后悔最小化算法。

Libratus对抗游戏中隐藏信息的策略是让人工智能互相战斗,与自己战斗,采用随机策略,看每场游戏后游戏中的哪手牌后悔,然后尝试不同的策略,在决策点恢复游戏。

在双人比赛中,这个策略是有效的。

然而,在不完美的信息游戏中,游戏的复杂性会随着每增加一个玩家而成倍增加,现有技术无法应对。

Pluribus使用迭代蒙特卡罗CFR(MCFR)。核心思想也是自学,左手和右手互相打斗,不使用任何人或高级人工智能游戏数据作为输入。

但是它的特别之处在于它已经制定了一个蓝图战略。在与竞争对手的竞争过程中,普勒比乌斯会根据实际情况实时寻找更好的策略来改进蓝图策略。

换句话说,它的行为可以分为两个阶段。

阶段1:蓝图策略

无限期持有它们有太多的决策点需要单独考虑。为了降低游戏的复杂性,首先要抽象,即消除一些可疑的动作。

Plurribus使用两种抽象:动作抽象和信息抽象。

动作抽象减少了人工智能需要考虑的不同动作的数量。无限注德州扑克通常允许100美元至10,000美元之间的全价下注,200美元至201美元之间几乎没有差异。

因此,在任何给定的决策点,Pluribus只需要考虑几个不同的下注规模。根据实际情况,它考虑的下注数量从1到14不等。

如果你的对手在训练中下注150美元,而普勒比乌斯只下注100美元或200美元怎么办?

此时,Pluribus将依赖于下面提到的搜索算法。

信息抽象就是把战略上相似的卡片放在一起,用同样的方式处理它们。这将大大降低游戏的复杂性,但也可能消除超人表现中一些非常重要的细微差异。

因此,在与人类进行实际比赛时,Pluribus只使用信息抽象来推断未来下注回合的情况,而不会使用它来实际下注。同时,信息抽象也适用于自我游戏。

蓝图策略的关键点是迭代蒙特卡罗反事实后悔最小化算法(MCCFR)。在算法的每次迭代中,MCCFR指定一个玩家为“旅行者”,并且在迭代中更新其当前策略。

在迭代开始时,MCCFR根据所有玩家的当前策略随机模拟一手牌。一旦这只手完成,算法将开始回顾遍历者的每一个决定,并通过选择其他可能的操作来评估这只手的好坏。人工智能然后评估每一个假设决策的优点,这些决策可能是在玩不同的牌后做出的。

Video Player

00336000

00336037

Traversor选择一只手后的收获和Traversor在迭代中预期收获之间的差异将被添加到动作的“后悔点”(反事实后悔)。

在迭代结束时,遍历者的策略将被更新,之后它将有更高的概率选择更高的反事实后悔行为。

第二阶段:深度限制搜索

由于无限注德州扑克的规模和复杂性,整个游戏的蓝图策略给出了模糊的决定。

事实上,普勒比乌斯只在第一轮下注中按照既定的蓝图玩游戏。在第一轮之后,甚至在第一轮,如果对手选择的赌注大小与蓝图动作抽象中的大小完全不同, Pluribus将进行实时搜索并制定更详细的策略。

蒙特卡罗树搜索、双层搜索、α-β修剪搜索.这些在完美信息游戏中表现出色的实时搜索将在德州扑克面前被屏蔽,因为它们没有考虑对手改变战术的能力。

Pluribus使用了一种方法,该方法明确地认为所有玩家可以在子游戏的叶节点之外选择不同的策略。

algorithm假设当每个玩家到达叶节点时,他可以选择四种不同的策略来玩下面的游戏,包括预先计算的蓝图策略、倾向于丢弃的修正蓝图策略、倾向于调用的修正蓝图策略和倾向于提升的修正蓝图策略。像

这样的搜索方法可以找到更平衡的策略,从而提高整体性能。

另一个巨大的挑战是,在德州扑克这样的游戏中,玩家的策略有时取决于对手如何看待自己的游戏。

为了解决这个问题,Pluribus根据自己的策略跟踪每只手到达当前位置的概率。不管普勒比乌斯实际握着哪只手,它都会首先计算每只手的动作。一旦计算出所有的平衡策略,它将对它实际握着的手执行一个动作。

令人惊讶的是,普勒比乌斯的训练成本非常低。研究人员只在64核服务器上运行了8天,并且成功地训练了普勒比乌斯的蓝图策略,需要不到512千兆的内存空间,并且不使用图形处理器。

换句话说,普勒比乌斯在培训上的花费不到150美元!

玩游戏时,Pluribus只需在2个处理器上运行,使用的内存少于128千兆字节。

相比之下,当AlphaGo在2016年面对李世石时,1920个中央处理器和280个图形处理器被用于实时搜索。

在6人比赛中,普勒比乌斯每轮平均只需要20秒,是顶尖人类选手的两倍。

如此小的成本和速度,这样的策略会有什么结果?

完全超越人类职业大师

为了评估普勒比乌斯的实力,研究人员找到了一群德国摔跤顶级大师,包括2000年世界扑克锦标赛冠军克里斯‘耶稣’弗格森、2012年世界锦标赛冠军格雷格梅尔森、四届世界扑克锦标赛冠军达伦埃利亚斯(Darren Elias)等。

这些顶尖选手都在德州扑克职业比赛中赢得了100多万美元,其中大部分都赢得了1000多万美元。

在具体的测试中,研究人员设计了两种匹配卡。一个是五个人和一个人工智能的匹配,另一个是五个人工智能和一个人的匹配。在每手牌的开头,有10,000个筹码,50个小盲注和100个大盲注。

在许多人机大战中,人工智能起初往往表现良好,但当人类玩家发现它的弱点时,他们就会变得弱智。

为了全面评估普勒比乌斯的能力,测试持续了十多天,打了数万张牌。目的是给人类专家足够的时间来适应人工智能的策略并发现人工智能的弱点。

此外,虽然Debu是一款高技能游戏,但运气也是一个非常重要的影响因素。对于顶级德国职业运动员来说,仅仅因为运气不好就在10,000只手里赔钱是很常见的。

研究人员说,为了减少运气对比赛的影响,他们在一个版本中采用了“AIVAT”算法。在保持样本无偏差的情况下,使用每种情况的基线估计来减小方差。

例如,如果人工智能有一手非常强的牌,人工智能增值税将从它赢得的总金额中减去一个基线估计值来抵消运气成分。

5个人和一个人工智能

一共玩了12天1000手。

每天,从顶尖选手中选出五名选手。根据他们的表现,将为他们拨款5万美元,鼓励他们发挥最佳水平。

应用AIVAT后,普勒比乌斯的获胜率估计约为每100手牌5倍大盲注(5 bb/100),这在顶尖人物之间的比赛中是一个非常好的结果(P=0.021)。

Pluribus每手平均可赚5美元,如果每个筹码是1美元,每小时可赚1,000美元。这一记录已经超过了职业选手和业余选手在混合比赛中的获胜率。“普勒比乌斯是一个强硬的对手,”弗格森在实验后说。不管用什么方法,都很难把他钉住。他也非常擅长在河牌(最后一张牌)上打小赌。他非常擅长用他的好手获得更多的价值。“

5 AI和1 Human

参加这场比赛的是三名顶尖选手中的佼佼者。

2000年世界扑克锦标赛冠军克里斯‘耶稣’弗格森、四次世界扑克锦标赛冠军达伦埃利亚斯和莱纳斯洛伊格被公认为六人无限注世界第一。

他们每人打了5000张5分的牌。普勒比乌斯不会根据对手调整策略,所以不会有人工智能勾结。

总的来说,每100手人类玩家输掉2.3倍大盲注(2.3 bb/100)。

Elias每100手牌4大盲注(4.0 bb/100,标准误差2.2 bb/100),Ferguson每100手牌2.5大盲注(2.5bb/100,标准误差2.0 bb/100),Loeliger每100手牌0.5大盲注(0.5bb/100,标准误差1.0 bb/100)。

下图显示了在10,000手牌实验中专业扑克玩家的普勒布斯平均获胜率。直线代表实际结果,虚线代表标准偏差。

埃利亚斯说,它的主要优势在于能够使用混合策略。这和人类试图做的是一样的。对人类来说,这是一个完全随机且一致的执行问题。大多数人都很难做到。“

Pluribus的策略完全由没有任何人类数据的自我游戏决定,因此它也提供了一个外部视角来寻找玩多人无限德比的最佳方式。

Pluribus证实了传统的人类智慧,即跟随(跟随大盲注,而不是折叠或加注)不如任何玩家。

例外是小盲注玩家,他们已经有一半的大盲注在底池中,所以他们只需要投资其他玩家一半的钱。

虽然普勒比乌斯第一次通过自我游戏时尝试了后续策略,但随着自我游戏的继续,它逐渐放弃了策略。

但是Pluribus对人类认可的策略提出了不同的意见:不下注是错误的(在一轮下注结束时打电话,开始一轮下注);普勒比顶级人类专家更频繁地这样做。

‘看到它在扑克机器人比赛中选择的一些策略真是不可思议,令人着迷。’加利亚诺说,有几个策略是人类根本想不出来的,尤其是与赌注的大小有关的。

下图显示了玩家和职业玩家玩的筹码数量。实线表示实际结果,虚线表示标准偏差。

值得注意的是,普勒比乌斯是研究人工智能的工具。研究人员表示,选择扑克只是为了评估人工智能和不完全信息场景下多智能体交互中人类最高水平之间的差距。

也就是说,他们的旅程不仅仅限于德国,还包括星海。

毕竟,现实世界非常复杂。这不仅仅是双方的战斗,也不是一个输赢的局面。学习多人复杂游戏是走向通用人工智能的一个非常重要的步骤。

当然,作为对“天平动者接受军事命令”事件的回应,脸书称这项研究不会用于军事目的。

[资料来源:量子位]



湘桥农业网 版权所有© www.clanigu.com 技术支持:湘桥农业网 | 网站地图