从博弈论的角度分析诈唬2：什么情况下该诈唬|德州扑克资讯、视频、赛事直播 - 您最全面的德州扑克平台中扑网|德州扑克资讯、视频、赛事直播

从博弈论的角度分析诈唬2：什么情况下该诈唬

2020-05-07 12:27:20

预期回报和纯策略

首先，让我们追溯到最初始的问题。我们打扑克的目标是什么？是赢钱。更准确地说，是赢尽可能多的钱。在做决定的时候，我们要问问自己，哪个行动会有最大的预期回报？

在我们的例子中，如果你有一手能获胜的牌，你会做价值下注。在你下注以后，你的对手可能跟注(y)，也可能弃牌(1 – y)。当他跟注时，你会赢下现有的底池，加上你的对手跟注的钱，也就是P + B。当他弃牌时，你只会赢得现有的底池，也就是P。(`现有底池` 通常指在你下注之前，初始的底池大小。) 因此，如果你有一手获胜牌，你的预期回报Ew (w代表`获胜winning`)会是

Ew = y(P + B) + (1 – y)P.

如果是一手会失利的牌(你的听牌失败了)，情况就会变得更复杂一些。你有可能诈唬(x)，也可能过牌放弃这手牌(1 – x)。

如果你选择诈唬，你的对手还是有可能跟注(y)，或弃牌(1 – y)。当他跟注时，你会损失这次下注，所以你的净回报是负的，也就是–B。当他弃牌时，你会赢得现有底池，也就是P。所以当你诈唬时，你的预期回报由这两部分组成：

(1 – y)P – yB.

如果你选择过牌(放弃这手牌)，你不会赢到一分钱，所以这种情况你的预期回报是0.综合这些，在你持有一手会失利的牌时，你的预期回报 El (l代表`失败losing`)会是

El = (1 – x)0 + x[(1 – y)P – yB]

(综合以上几种情况的可能性).

第一部分是0，我们可以直接忽略，公式变为

El = x[(1 – y)P – yB].

如果你知道你的对手从来不跟注(y = 0)，你的预期回报公式会简化为：

El, y=0 = xP

为了最大化你的预期回报，你必须让x = 1，这意味着你应该一直诈唬。

而如果你的对手总是跟注(y = 1)，你的预期回报公式变为

El, y=1 = – xB

在这种情况下，为了最大化你的预期回报，你必须让x = 0，也就意味着你应该永远不要诈唬。(记住这条法则`永远不要诈唬一个跟注站`)

用博弈论的方法，我们只计算了你的最佳状况，知道你的对手在两种特殊情况时的策略。但是这是两种非常极端的情况，所以这被称为纯策略。在现实的扑克游戏中，对手们会更加难以预料。他会有一定的概率跟注你的下注(y不是0也不是1)。他会有一种混合策略。

最佳策略

你的对手可以选择一个跟注频率y，可以让你无论使用什么策略时(也就是无论x是多少)，你的预期回报都不会改变。我们用yopt表示这个跟注频率(在某种意义上yopt是y的最佳值).

yopt很容易计算。你可以在后面的附录里找到它的计算公式：

yopt = P/(P + B).

在我们的例子中，P = B = $100，所以yopt = 1/2。如果你的对手有恰好一半的时候会跟注，你就不能在策略上战胜他了。如果你的对手根据y = yopt的策略打牌，你的预期回报将会是

El,y=yopt = x[PB/(P + B) – PB/(P + B)] = 0.

(就是把yopt带入求El的一般公式中). 如果x没有出现在公式中，结果也不会发生变化，还是0，所以无论你选择什么策略(无论x是多少)，你都不能提高或降低你的预期回报。

有趣的是yopt只取决于底池大小和下注大小，不受q的影响。这表明yopt并不总是y的最佳值。例如当 q=1时，也就是你的对手确定你有一手获胜牌，他就不会有一半的次数跟注，事实上他根本不会跟注。他会使用y=0的策略。我们会在以后的内容中看到，在什么意义上yopt才是最佳值。

同样的，你也可以选择一个x，而无论对手选择什么样的策略(无论y是多少)，他的预期回报都是一样的。我们用xopt表示这个x的特殊值。但是，求xopt的值会更复杂一些，它的公式是

xopt = qB/[(1 – q)(P + B)].

(如果你对细节感兴趣，请参考下面附录的内容)如果你常常用会失败的牌诈唬，对手的预期回报为

Eop = (1 – q)P – qPB/(P + B).

这个公式里没有y，所以你的对手不能改变他的预期回报。

在我们的例子中P = B = $100，q = 0.2，所以xopt = 1/8。如果你有1/8的可能性诈唬，你的对手就不能在策略上战胜你了，即使他非常善于观察，了解你的策略(知道x = xopt)。如果你诈唬的可能性比1/8较多或较少，那些善于观察的对手就会发掘出你策略上的弱点。所以当你面对一个非常优秀的对手时，xopt可以确保你的策略是最佳的。

一个优秀的对手会多么频繁地跟注你的下注？yopt已经给出了答案。如果你根据x = xopt的策略打牌，他可以选择任何策略，但都不能提高或降低他们的预期回报。如果对手不使用y = yopt的策略打牌，作为一个善于观察的玩家，你就可以利用他的错误，选择最佳的回应方式。唯一不能利用他策略上的错误的情况是他的y = yopt，现在无论你使用怎样的策略，你的预期回报都不会改变。要记住，如果你不使用xopt的策略，你的对手也会调整策略来利用你的缺陷。

现在我们知道xopt和yopt在什么时候才是最佳的：在它们可以提供不可被对手利用的策略时。在博弈论中，这两个策略(xopt, yopt )被称为纳什均衡点。这在博弈论和经济学中都是非常重要的概念。(没错，就是电影 `美丽心灵`中的纳什，1994年诺贝尔经济学奖的获得者). 现在我们知道它在扑克中也扮演着重要的角色。

相关新闻：从博弈论的角度分析诈唬1：什么情况下该诈唬