后打作为世界上最好的围棋选手,Deepmind的AlphaGo将目光投向了另一种游戏:扑克。问题是,它能打败我们人类吗?
谷歌公司开发的人工智能(AI)软件DeepMind AlphaGo击败围棋之王李世石后,很多人认为,就棋类游戏而言,人工智能已经完蛋了。虽然棋类游戏对于复杂的超级计算机和人工智能来说并不是什么新鲜事——还记得深蓝吗?围棋,一种古老的中国游戏,是一个完全不同的水平,因为它更抽象。
但伦敦大学学院(University College London)讲师、DeepMind编程背后的人之一戴维•西尔弗(David Silver)想要更进一步,创造一个扑克机器人。
扑克是一种流行的赌场游戏,它可以为AlphaGo提供更明确的挑战,原因只有一个:“不完全信息”。
除了有许多不同类型的扑克之外,只有少数几张牌是在桌子上显示的,而且不是同时显示的。此外,为了让玩家赢得游戏,他还需要知道如何解释肢体语言甚至眼睛的运动等线索。
在西尔弗与该大学的研究生约翰内斯·海因里希(Johannes Heinrich)共同发表的论文中,他继续使用围棋游戏中使用的原则来测试人工智能玩扑克的能力深度强化学习.这两个人还让AI进行了自我游戏,这意味着它与一个虚构的玩家一起玩游戏,让自己在游戏中互动时学习。
这意味着人工智能每玩一轮,它都会从错误中学习,修改神经网络,并试图在没有对手所玩扑克牌的第一手知识的情况下创建策略——就像在现实世界中一样。
结果表明,在Leduc扑克这种只有6张牌的简单扑克游戏中,机器人达到了纳什均衡,这是游戏的最佳方法。说到德州扑克,它“学会了一种竞争策略,接近人类专家的表现和最先进的方法,”说[PDF]这项研究。
尽管存在一些限制,例如AI无法预测对手在游戏中的行为,但目前重要的是,系统“在没有任何关于游戏的先验知识的情况下从头开始学习扑克游戏。这使得它也可以适用于现实世界中其他具有战略性质的问题。”说海因里希。
图片:Dan Goodwin |Flickr