• <small id='vvrabzd9'></small><noframes id='ptqua3el'>

      <tbody id='xmdycxvp'></tbody>

    就没有公平的棋牌吗-德州扑克:人工智能可以击败人类

    发布时间:2020-08-11 17:19    浏览:

    德州扑克:人工智能可以击败人类

    德州扑克:人工智能可以击败人类

    前一段时间,受周围朋友的影响,爱上了德州扑克,与卡片好友一起享受心理游戏的过程,也享受赌博”的快感。我一直觉得得克萨斯州的最大魅力在于,这并非完全是理性的判断。这是感性之间的较量, 勇气和理性。不确定性太多因此,它不同于其他棋盘游戏,无法通过学习一些常规和技巧来击败对手。

    最近回到学校它还开始了与AI进行游戏”的日常生活。今天惊奇地发现AI实际上在玩德州扑克时击败了人类!比赛持续了20天,四位人类职业选手JasonLes, 东金 Daniel McAulay和JimmyChou与人工智能程序Libratus对抗,在20天的时间表中, 120对方打了000手,争夺$ 200的奖金,000。最终结果是在比赛中,总体而言,人类玩家从未领先过。”

    随着天数的增加,人工智能与人类玩家之间的差距越来越明显

    最近几年,随着技术的不断发展,计算机打败人类并不少见。作为节目女孩”,我也被认为是一半的内幕”,大学生参加了一些计算机游戏和机器人相关比赛,在攻读硕士学位期间,我对AI也有了一些简单的理解。今天从理性的角度讲,人工智能如何击败人类。

    几年前太好了~~~

    如何玩德州扑克?(请忽略,如果您要玩)德州扑克是目前世界上最受欢迎的扑克游戏。请观看视频了解游戏规则:

    结论,如果你想赢,第一种可能性是您的卡比其他卡大。第二种可能性是使用博彩技术吓跑不如您大的对手。可能性是德州扑克最有趣的部分。

    为什么AI不能轻易在Texas Hold\em上击败人类?Texas Hold\em和Go for AI有什么区别?首先,了解完善的信息游戏(纸牌游戏)和不完善的信息游戏(扑克游戏)之间的区别。

    完美的信息游戏意味着以后行动的参与者可以观察先行动的参与者的行动信息。像国际象棋和纸牌游戏,双方的信息是共享的,像围棋一样双方都可以看到在球场上打过的旗帜以及它们的优缺点。

    还有扑克 谈判, 商业决策和其他问题,双方的信息不会透露给另一方,换一种说法, 当参与者做出选择时, 他们不知道其他参与者的选择。这被称为不完美的信息游戏。

    简单的说,如果其他参与者的行为被理解为参与者在做出决策时所面对的环境,信息不完善意味着决策者不知道他们所处的决策环境。

    对于德州扑克,即使对手艾伦拥有所有筹码,然后我们不知道他手中到底有哪些洞牌。信息不对称,它迫使每个人都具有赌博”的精神。

    这就是为什么金融专业人士和投资大亨喜欢玩德州扑克的原因。

    我们用科学和工程学的思想来谈论AI如何击败人类完美的信息游戏

    对于围棋游戏,是零和完美信息游戏,这意味着在任何时候,两位玩家都知道上一场比赛的所有状态(完美的信息),经过有限的步骤后, 游戏的结果是赢或输(零和)。知道游戏的有限状态,计算机可以通过暴力枚举来计算所有可能发生的移动,形成一棵巨大的搜索树,该搜索树可以列出当前状态下的所有可能动作,每个子搜索树都可以独立求解,计算机可以根据计算结果安排相应的策略,从而达到最终的胜利。

    给栗子如,小明是一个在普通中国家庭中长大的孩子。在他的一生中面对很多选择,我们将来如何达到生活的高峰?如果您能列举出他未来的所有可能性,将选择的每个步骤分解为子功能”,然后,您可以计算成功的最佳选择。(该示例可能不够充分,只要理解一下意思,呵呵)

    电脑:我太压力了,哇, 花爆炸了”

    所以,科学家们进行一些修剪 搜索和其他算法以减少计算范围,以便在有限的时间内找到最佳策略。

    不完美的信息游戏

    最后谈到了今天的主角,德州扑克。

    德州扑克是一种非常不完美的信息的典型游戏。在其策略设置中有隐藏的信息。这种类型的模型还具有大量的应用场景,例如谈判, 拍卖, 等等不完美的信息游戏不能像完美的信息游戏那样通过分解来解决。因为子游戏的最佳策略可能取决于尚未获得的其他子游戏的策略和输出。

    换一种说法,我们无法通过预测对手下注多少来猜测对手的手。因为也许对手的手不好但是他下注欺骗了你,让您选择折叠。所以,对于意外的计算机而言,这件事相当困难,对手第一手得到全押,但是他的牌有多好?

    因此,当我看到AI在德克萨斯州也击败了人类时,我有点激动也许在将来,机器人也可以具有女性的第六感。

    那么,人工智能如何打败人类呢?

    本文中提到的许多内容很难理解(实际上, 我不明白Escape)算法,为了便于理解,让我们以一个简单的游戏模型为例,尝试了解智能AI。

    让我们设计一个简单的游戏。

    有两个球员, A和B。一个人可以掷一次硬币,只有自己可以看到正面和背面,扔后 他有两种选择:①卖出,卖硬币; ②玩,与B玩游戏。

    ①A选择卖出:

    如果:硬币落在正面,卖出后获得50美分;

    否则:硬币落在另一侧,卖出后,A损失了50美分。

    ②A选择游戏:游戏继续进行,下一个, B猜测硬币是落在正面还是反面:

    如果:B猜对了,A赔了一元B赚一元;

    否则:B猜错了,A赚一元B损失1元。

    此时,对于B,是不完美的游戏,他无法从A中选择游戏来确定A手中的硬币是正面还是反面。

    目前有两种极端情况,如果B总是猜对了,然后,聪明的A会改变策略,当他翻转时, 他卖硬币如果您在玩游戏之前将其扔到另一侧,那么B一定会输。此时,A的预期分数是:

    0。5(掷头的概率)* 0。5(选择卖出分数)+0。5(掷向对侧的概率)* 1(选择比赛得分)= 0。75

    如果B总是猜对了,然后把A扔到前面 它将选择播放,拿一元; 将其扔到另一侧,然后选择卖出出售硬币,这只会损失50美分。因此,A的期望是:

    0。5(掷球的概率)* 1(选择比赛得分)+0。5(投掷到另一侧的概率)*(-0。5)(选择卖出分数)= 0。25

    此时,有一个知识点,叫做纳什均衡那是, B为了有效减少损失,他最有效的策略是使用0。25的概率为正,与0。75的可能性相反这将确保他有最大的获胜机会。

    游戏始终是一个动态的过程,如果B继续根据内在策略做出决策,然后,A将根据B的决策结果调整其策略。所以,B最安全的方法它会不断更新A在出售硬币时会获得的奖励,继续寻找最佳解决方案。

    我们的智能计算机使用这种方法来动态计算扑克玩家下注带来的回报期望。然后不断更新对手的常规”,最终赢得了比赛期间,人类玩家从未从整体上引领潮流。”

    看来我想和AI竞争,人脑可能需要更快地转弯才能做到,也许没有套路是最大的套路。

  • <small id='ea01r2r1'></small><noframes id='takd807n'>

      <tbody id='grrbyamt'></tbody>
    相关文章
    
      <tbody id='jfqo9dd5'></tbody>
  • <small id='7e8qh5mt'></small><noframes id='m5sb1nqe'>