各位老铁们,大家好,今天由我来为大家分享德州扑克人工智能程序,以及德扑人工智能软件的相关问题知识,希望对大家有所帮助。如果可以帮助到大家,还望关注收藏下本站,您的支持是我们最大的动力,谢谢大家了哈,下面我们开始吧!
本文目录
- Libratus是如何在双人无限注德扑中击败人类顶级选手的?
- 人工智能能不能被用于彩票预测?
- 怎么看AI首次在德州扑克战胜人类职业玩家?
- AI赌神Libratus称霸德州扑克赛场,人工智能是如何打德州扑克的?
Libratus是如何在双人无限注德扑中击败人类顶级选手的?
Libratus提出了一种在大型状态空间、隐藏信息中有效地应对博弈论推理挑战的方法;它在12万手单挑无限注德州扑克比赛中击败了四个顶尖的人类选手,成功解决了处理不完美信息博弈的领先基准问题与长期存在的挑战。由于现实世界策略交互中的隐藏信息无处不在,因此Libratus引入的范式将在AI的未来发展和广泛应用中发挥重要作用。
近年来,人工智能已经取得了非常大的进步。很多情况下,这种进步体现在基准游戏中和人类表现的对比。目前AI程序已在跳棋、国际象棋和围棋等击败了人类顶尖选手。在这些完美信息博弈中,双方都知道博弈中每一个点的确切状态。相反在不完美信息博弈中,关于博弈状态的一些信息是隐藏的,即博弈中存在包含多个决策点的信息集或博弈者无法区分对手的一些行动。隐藏信息在现实世界策略互动中无处不在,这使得研究不完美信息博弈的技术更加重要。
由于多种原因,隐藏信息使博弈变得更加复杂。对于不完美信息博弈而言,AI不是简单地搜索一个最佳行动序列,而是必须确定如何适当地行动,这样对手才不会过多地发现我方所拥有的私人信息。例如虚张声势是任何竞技性扑克都需要的技巧,但经常唬人就会被对方抓住特点而被击败。因此换句话来说,一个行动获得的价值取决于它出现的概率。
另一个关键点是博弈的不同部分不能独立地考虑。对于一个给定的情况,最佳策略可能取决于未发生情况下将执行的策略。因此,一个竞争性的AI总需要考虑整个游戏的策略。
扑克游戏作为理解隐藏信息的博弈有很长历史,而德扑是目前最受欢迎的扑克游戏之一。由于其庞大的规模和复杂的战略,单挑无限注德州扑克(HUNL)已经成为近年来不完美信息博弈研究的主要游戏和基准挑战问题。这个游戏中,之前没有AI击败过顶尖的人类玩家。
在本论文中,我们介绍了Libratus,它采用了一种独特的方法来处理不完美信息博弈。该AI在为期20天、拥有20万奖金池、总数12万手的竞赛中,击败了HUNL顶尖选手。Libratus中的技术并不是使用专家领域知识或人类数据,也不是专门针对扑克的,因此它们适用于大量不完美信息博弈。
论文:SuperhumanAIforheads-upno-limitpoker:Libratusbeatstopprofessionals
论文链接:http://science.sciencemag.org/content/early/2017/12/15/science.aao1733/tab-pdf
摘要:无限注德州扑克是最流行的扑克形式之一。尽管人工智能在完美信息博弈中取得了成功,但私人信息和大规模博弈树使得无限制博弈问题很难解决。我们提出了Libratus,它在12万手单挑无限注德州扑克比赛中击败了四个顶尖的人类选手,解决了处理不完美信息博弈的领先基准问题与长期存在的挑战。我们的博弈论方法以独立于应用的技术为特征:一个算法用于计算总体策略的蓝图,另一个算法在博弈中求解并充实子博弈的具体策略,还有一个自提升算法用于修正可能存在的弱点,该弱点可能已经在对手的蓝图策略中得到了识别与针对。
图1:子博弈求解
上:博弈过程中出现了一个子博弈。中:通过求解一个增强子博弈,为该子博弈确定一个更加详细的策略,其中每次迭代中的对手持有一个随机牌组,并给出了策略选择,选择旧抽象(红色)的期待值,或选择新的细粒度的抽象(绿色,其中对弈双方的策略都是可变的)。这迫使Libratus将细粒度策略设置成至少和初始抽象(和所有的对手牌组对弈)一样好。下:新策略取代了原来的策略。
图2:嵌套子博弈解决方案的2A可视化。每次在游戏中达到一个子博弈,就会为这个子博弈构建和解决一个更加详细的抽象,同时将其解决方案纳入整体蓝图策略之中。
图3:Libratus与人类顶级玩家的表现对比。上图给出了2017Brainsvs.AI的竞赛结果。其中95%的置信区间(如果手牌相互独立且分布相同)由虚线表示。
结论
Libratus提出了一种在大型状态空间、隐藏信息中有效地解决博弈论推理挑战的方法。我们开发的技术在很大程度上是独立于域的,因此可被应用于其他策略性不完美信息交互,包括非娱乐性应用。由于现实世界策略交互中的隐藏信息无处不在,我们认为Libratus引入的范式对AI的未来发展和广泛应用将非常重要。
人工智能能不能被用于彩票预测?
这个问题应该从两个方面来看,第一是人工智能能不能准确预测彩票,答案显然是不能。
从结果反推的,如果人工智能能够准确预测,那么靠人工智能买彩票就能挣钱,社会上就不会有“傻子”再去做炮灰了,彩票也就不存在了。
第二则是人工智能对彩票预测有没有帮助,也就是本问题的大部分含义,人工智能能不能被用于彩票预测,答案是能,实际上已经有人在做了。
这里就不提这家公司的名字了,他们推出的智能彩票推荐机器人,也被冠以了“人工智能”的称号,但是从结果来看,和人肉彩票专家相比并没有区别,甚至是有所下降。
但是这并不意味着人工智能的失败,实际上,人工智能在彩票领域大有可为!
不管是数字彩还是竞技彩(足球,篮球等彩票),人工智能通过大数据分析,能够给彩民提供投注参考,虽然人类大脑超级发达,但是和计算机相比还是非常渺小,而人工智能强大的地方则在于他的运行处理能力,它的深度学习能力。
这里要提一下的是,现在大部分国家的数字乐透彩都采用了物理摇奖的方式,而不是电脑开奖,究其原因,一是保持物理摇奖的刺激性和原始的特质,以来也是为了安全考虑。
在学术界,人工智能在彩票中的应用其实已经有不少研究了,这一点出乎很多彩民的意料,很多人以为只是玩笑而已。其实作为发行彩票的机构,更需要控制人工智能给彩票带来的风险。
2009年昆明理工大学信息工程与自动化学院的研究者就采用BP网络的三种改进算法,对福彩双色球(2008073期~2008133期)的历史中奖数据进行分析,建立了基于BP神经网络的双色球预测模型,并对三种改进算法的训练结果进行了比较。与现存的彩票分析方法不同的是,该方法并非基于频数分析缩小样本集来产生预测号码,而是基于BP神经网络对历史数据进行学习,挖掘其中隐含的规律,生成用来预测号码的神经网络节点的连接参数,再根据这些参数产生下一期预测号码。与此类似的论文还有很多,但都是在探索阶段。
不过学术研究即使有大的突破,也不容忽视一个客观事实,我们国家彩票的返奖率只有50%左右,也就是说,很难达到数学模型上的要求,在这个基础上,人工智能用于彩票困难很大很大。
不过,和人工智能相比,另一个事物似乎更受彩民的欢迎,那就是章鱼保罗。
06年世界杯,章鱼保罗一炮二红,而来又有了各种各样的章鱼二世,从小狗到鹦鹉之类的都有,彩民们也乐此不疲。
章鱼保罗的出现更符合彩票本身的原意,彩票是公益,中奖是运气。
在未来的不久,我们可以期待一个人工智能时代的彩票,我们的买彩票习惯或者被改变,但是中奖并不会变得简单,乐趣或者会更少,这也是为什么彩票行业并不看好人工智能的原因。
怎么看AI首次在德州扑克战胜人类职业玩家?
我们看看第二次在中国举行的人机大战,在4月10号的时候,德扑人机大战最终以AI冷扑大师完胜结局。在经过5天36000手牌的较量后,冷扑大师最终以792,327总记分牌的战绩获胜,此次表演赛的200万奖励归属冷扑大师。但从这次人机大战中我分析出一些东西。如下,
冷扑大师也有弱点
冷扑大师在德州扑克领域战胜人类,实际上它目前还有着非常大的局限性。冷扑大师只能进行每局重置筹码的1V1比赛,人类德扑比赛常见的多人桌赛制,它暂时还不能挑战。大家可以注意到每局开始时,每位牌手
有20000的筹码,大盲注100,小盲注50。这手牌打完之后,无论结果如何,下一局双方的筹码都要重置回20000。
也就是说,机器和人总是一对一比赛,且筹码是受限的。如果模仿人类正常的德州扑克比赛,比如六人桌、九人桌,这些目前对冷扑大师来说是绝对做不到的;或者规则改为不重置筹码的话,人类选手还是有极大概率翻盘。
冷扑大师并非战无不胜
冷扑大师并非每一场都可以碾压任何人。在第六场的人机对战中,“龙之队”两位复式发牌同组的队员同时取得当场对AI的胜利,其中童舟利用“防守反击”打法连续4场战胜冷扑大师。
不断强化学习的冷扑大师
对战德扑AI时,中国选手出现AI会针对不同对手定不同的策略的错觉,感觉每打十手牌AI就会变一个策略,试图把十手牌打的很奇怪,下十手牌却打得很正常。而实际上,冷扑大师并没有针对某个选手优化策略,它只是通过每天进行强化学习来调到了更高的纳什平衡,并没有改进任何算法。
冷扑大师背后的巨大价值
比起处理完美信息的AlphaGo等人工智能,冷扑大师的算法在真实生活中会应用得更多。
现实世界中,不完美信息才是常态,各种看不见的隐藏信息产生了大量的不确定性,而德州扑克代表的就是这种类型的博弈。因此,Libratus将会适用于更多行业,在金融、医学、教育,在各方面的领域会带来巨大的价值。
冷扑大师的秘密核心原理
德州扑克AI算法设计分为三个模块。
1、在比赛前算出纳什平衡。
2、残局解算。
3、自我强化学习。
其中它的原理核心是博弈论,最重要的理念就是纳什平衡。纳什平衡意味着,博弈游戏中有个不败战略,不管对手用什么样的策略都不可胜。
博弈论会告诉我们该游戏的最佳策略是什么,然后从策略出发,变成优化的问题。我们把博弈论和AI算法结合在一起,通过计算就能找到最佳策略。
总之,这次比赛只是德扑人机大战的第一步,如果有一天冷扑大师能够在多人比赛中从头打到底,完美应对不同筹码量的问题,那么我们才敢说,人工智能在德州扑克项目上已经击败了人类。
AI赌神Libratus称霸德州扑克赛场,人工智能是如何打德州扑克的?
称霸德州扑克赛场的赌神Libratus,是今年最瞩目的AI明星之一。
最近,《科学》最新发布的预印版论文,详细解读了AI赌神背后系统的全貌。
在最新论文SuperhumanAIforheads-upno-limitpoker:Libratusbeatstopprofessionals中,卡内基梅隆大学(CMU)的博士生NoamBrown和教授TuomasSandholm,详细介绍了德扑AI如何通过将游戏分解为可计算、可管理的部分,来实现超越人类的表现,而且AI还能根据对手情况,修正潜在的战略弱点。
Libratus所用到的技术既不需要领域专家知识,也没有使用人类数据,甚至不是专门为扑克设计的。换句话说,这些技术适用于多种不完美信息博弈。
不完美博弈正是德扑的一个主要特征。围棋、国际象棋、跳棋等棋类游戏,属于完美信息博弈,对战的双方,清楚每一时刻局面上的全部情况。相比之下,德州扑克存在大量的隐藏信息,包括:对手持有什么牌,对手是否在诈唬?
详解Libratus
据最新论文介绍,Libratus主要包括三个模块。
第一个模块负责对牌面进行简化计算,将包含10161种情况的一对一无限注德扑抽象成一个比较简单的博弈。然后,这个模块为前两轮制定详细的策略,并为后两轮制定一个粗略的策略。这个抽象简化版博弈的解决方法称为蓝图策略(blueprintstrategy)。
这种抽象体现在两个方面,一是下注金额上,二是牌面上。
在下注金额上,100美元和101美元其实几乎没有差别,因此,算法可以对不到100美元的差异进行四舍五入。同时,将类似的牌面视为同一类,也能降低计算的复杂度。
需要说明的是,Libratus在后两轮游戏中并不会按照抽象版的解决方法来玩,蓝图策略在这两轮中的作用,只是用来估算玩家在子游戏中每一首牌应该得到的奖励,然后参考这个估算值,在真正的牌局中做出更精确的策略。
这个“更精确的策略”,也就是第二个模块:嵌套安全子博弈求解(Nestedsafesubgamesolving)。在博弈后期,这个模块会基于当前的牌面,构建一个全新的、更精细的抽象,而且对这个子博弈的策略进行实时计算。
上图是Libratus的子博弈求解过程。顶部表示在对局过程中出现了一个子博弈,中间部分表示算法为这个子博弈制定了更详细的策略,每次迭代中,对手随机发放一手牌,可选的期望值可能来自旧的抽象(红色),也可以来自新的、更精细的抽象(绿色)。如果期望值来自新的抽象,两个玩家的策略都会改变。这就迫使Libratus制定更精细的策略。上图底部表示用新的策略替代旧策略。
Libratus的子博弈策略计算和那些完美信息博弈不太一样,它需要确保这些子博弈的精细解决方法与整个博弈的大蓝图策略不冲突,而不能孤立地解决它。
第三个模块的意义,是随着比赛的进行,改进自身的蓝图策略。Sandholm教授表示,通常AI使用机器学习来发现对手的战略错误并加以利用。但这也会让AI暴露自身的弱点,并被对手加以利用。
不同之处在于,Libratus的自我改进模块分析对手赌注大小,以检测自身蓝图战略中潜在的漏洞,然后弥补自身的不足之处。
在与人类高手对战之前,Sandholm和Brown为了测试Libratus中所用的各项技术,先用简化版的扑克对整体流程进行了测试,然后把AI用到了完整版的一对一无限注德州扑克上,和他们自己之前开发的BabyTartanian8进行比赛。
2016年,BabyTartanian8曾经赢得电脑德扑大赛冠军,不过Libratus以63±28大盲注/千手(mbb/hand)的战绩击败了它。
“我们研发的技术在很大程度上是独立于领域的,因此可以应用于其他不完美信息策略应用,不仅限于游戏领域”,Sandholm和Brown总结说:现实世界的战略交锋中,隐藏信息无处不在,Libratus引入的范式对AI未来的发展和引用至关重要。
目前,这项技术已经授权给Sandholm创办的公司。
论文地址
http://science.sciencemag.org/content/early/2017/12/15/science.aao1733
好了,文章到此结束,希望可以帮助到大家。