从博弈论的角度分析诈唬(1):什么情况下该诈唬

从博弈论的角度分析诈唬(1):什么情况下该诈唬

这篇文章的主要内容• 数学背景

• 最佳策略

• 纳什均衡点

诈唬是德州扑克游戏的重要组成部分,每一个优秀的玩家都应该牢记。从不诈唬或太频繁诈唬,对一个德州扑克玩家来说都是巨大的错误。如何找到适当的平衡点?什么时候诈唬才是理想的选择?什么时候,以什么样的频率对某些玩家诈唬才能打出有收益的扑克呢?

这篇文章会涉及到诈唬的数学背景,并利用博弈论阐述一些策略。

我应该诈唬吗?你正处在河牌圈,牌面是6♠9♥K♠A♦5♣。

你确定对手有一手成牌。从他的行动你认为他可能有AA,KK或AK。你的牌是J♠10♠。

你听牌失败。底池是$100,你和对手还各剩$100,你先行动。这时过牌你就输了。(如果对手也过牌,你会输掉摊牌;如果对手下注,你也没足够的钱去诈唬他。)

假设对手读出了你的牌,在河牌之前,他猜到你在听牌。为了简单起见,我们假设他有80%的概率认为你听同花或卡顺失败,另外20%的概率认为你有87,在河牌击中顺子。

如果你有87,击中顺子,你应该价值下注,可惜你没有。你有两个选择:过牌放弃,或是尝试诈唬拿下底池。假设你在诈唬时,会全下所有$100,也就是一个底池,你的诈唬频率应该是多少?

这个问题的答案是什么?

要回答这个问题,我们需要利用一些数学工具。别担心,不会太复杂,你只需一点代数知识和一些常识。差点忘了,还有博弈论,但是只会用到很常识的部分。

把问题转化为数学我们会用到一些符号。P代表底池大小,B代表下注大小。q代表对手认为你会赢这手牌的概率。在我们的例子中,P=$100,B=$100,q=0.20.如果你对20%这个数字不满意,可以换掉,计算方法是一样的。同样,你也可以改变底池大小和下注大小。

我们需要用符号表示诈唬频率和对手的跟注频率。x代表诈唬赔率,y代表跟注赔率。如果我们有30%的概率诈唬(x = 0.3),从长期来看我们诈唬的频率就是30%。同样,y表示对手会跟注我们下注的频率。

所以我们初始的问题变成了求x的最佳值。

期望回报和纯策略首先,追溯到最初始的问题。我们打扑克的目标是什么?赢钱。准确地说,是赢尽可能多的钱。在做决定的时候,我们要问问自己,哪个行动会有最大的期望回报?

在这个例子中,如果你有优胜牌,你会做价值下注。在你下注以后,对手可能跟注(y),也可能弃牌(1 – y)。

当他跟注时,你会赢下现有的底池,再加上对手跟注的钱,也就是P + B。当他弃牌时,你只会赢得现有的底池,也就是P。(现有底池通常指你下注之前的底池大小。) 因此,如果你有一手获胜牌,你的期望回报Ew (w代表获胜winning)会是

Ew = y(P + B) + (1 – y)P

如果你的牌会输(听牌失败),情况就会变得更复杂。你有可能诈唬(x),也可能过牌放弃(1 – x)。

当你选择诈唬时,对手还是有可能跟注(y),或弃牌(1 – y)。当他跟注时,你会损失这次下注,所以你的净回报是负的,也就是–B。 当他弃牌时,你会赢得现有底池,也就是P。所以当你诈唬时,你的期望回报会由这两部分组成:

(1 – y)P – yB

如果你选择过牌(放弃这手牌),你赢不到一分钱,所以这种情况下你的期望回报是0。

综上所述,当你的牌会输时,你的预期回报 El (l代表失败losing)会是

El = (1 – x)0 + x(1 – y)P – yB

由于第一部分是0,我们可以直接忽略,公式变为:

El = x(1 – y)P – yB

假设你知道对手从不跟注(y = 0),你的期望回报公式还可以简化为:

El = xP

要最大化期望回报,你必须让x = 1,也就是说你应该每次都诈唬。

但是,如果对手总是跟注(y = 1),你的期望回报公式会变为:

El= – xB

在这种情况下,为了最大化期望回报,你必须让x = 0,这代表你永远不要诈唬。(所以明白了吗?永远不要诈唬一个跟注站。)

以上计算是知道对手在两种特殊情况下会采取什么策略,然后得出的应对结果,但是这两种情况非常极端,所以这个策略被称为纯策略。在真实的扑克游戏中,对手们会更加飘忽不定,他会有一定的频率跟注你的下注(y不会是0也不会是1)。他采取的会是混合策略。

最佳策略对手可以选择一个跟注频率y,让你无论使用什么策略(也就是无论x是多少),期望回报都不会改变。我们用yopt表示这个跟注频率(在某种程度来看,yopt就是y的最佳值。)

yopt很容易计算,下一篇文章会讲。

yopt = P/(P + B)

在我们的例子中,P = B = $100,所以yopt = 1/2。如果对手刚好有一半的机会跟注,你是打不过他的。如果对手根据y = yopt的策略打牌,你的期望回报将会是

El= xPB/(P + B) – PB/(P + B) = 0

(就是把yopt带入求El的公式)

这时,无论你选择什么策略(无论x是多少),你的期望回报都不会升高或降低。

有趣的是yopt只取决于底池和下注的大小,不受q(q代表对手认为你会赢这手牌的概率)的影响。这表明yopt并不总是y的最佳值。例如当 q=1时,也就是你的对手确定你有优胜牌,这时他不会有一半的跟注频率,因为他根本不会跟注。他会使用y=0的策略。

后面我们还会说,yopt在什么情况下才是最佳值。

同样,你也可以选择一个x,让对手无论选择什么样的策略(无论y是多少),他的期望回报都一样。我们用xopt表示这个特殊的x。但是,求xopt的值会更复杂一些,它的公式是

xopt = qB/(1 – q)(P + B)

如果你经常用会输的牌诈唬,对手的期望回报为

Eop = (1 – q)P – qPB/(P + B)

这个公式里没有y,所以对手的期望回报不会改变。

在我们的例子中P = B = $100,q = 0.2,所以xopt = 1/8。如果你有1/8的概率诈唬,对手就赢不了你,就算他非常善于观察,了解你的策略(知道x = xopt)。如果你的诈唬频率高于或低于1/8,善于观察的对手就会剥削你策略上的漏洞。所以当你面对非常优秀的对手时,xopt可以确保 你的策略是最佳的。

优秀的对手用什么频率跟注你的下注?yopt就是答案。如果你根据x = xopt的策略打牌,他选择任何打法都不能提高或降低期望回报。如果对手不使用y = yopt的策略打牌,你可以观察他的漏洞,利用他的错误,选择最佳的回应剥削。

只有当他的y = yopt时,你是无法剥削他的,这时无论使用怎样的打法,你的期望回报都不会改变。

记住,如果你不使用xopt的策略,对手也会调整打法来剥削你的漏洞。

现在你知道xopt和yopt在什么时候情况下才是最佳值了吧:当对手无法剥削你时。在博弈论中, 这两个策略(xopt, yopt )被称为纳什均衡点。这在博弈论和经济学中都是非常重要的概念。(没错,就是电影 《美丽心灵》中的纳什,1994年诺贝尔经济学奖的获得者)。现在你知道它在扑克中也扮演着重要的角色了吧。

接下文:从博弈论的角度分析诈唬(2):特殊情况中的期望回报:https://www.moshike.com/a/3601.html

FAQ

巴西哪个城市华人最多?

巴西华人或巴西华裔(葡萄牙语:Sino-brasileiro或Chinês-brasileiro)是出生在巴西或者移民到巴西的华人,总数估计

Why are slots called slots?

The “slot machine” term derives from the slots on the machine for inserting and retrieving coins. “Fruit machine” comes from the traditional fruit images on the spinning reels such as lemons and cherries.

巴西赌博违法吗?

巴西博彩业自2018年开始被划归合法产业,但一直未受到监管,也无相关征税措施,很多企业参与到操纵“假比赛”和向避税天堂转移财产等灰色市场中。

Which online casino is legit in the Philippines?

DraftKings Casino App It offers a very sharp, stylish real money casino app with more than 800 slots, including plenty of exclusives, and some excellent table games. It is possibly the best casino app real money for sign-up bonuses, and the current offer will earn you $50 in bonus credits just for playing $5.

老虎机会赢钱吗?

老虎机的魅力就在于以小搏大,常有意外的人收获,投资小而收益大。 只要投入硬币,然后拉拉把一下,运气好的话,就可以赚到数万美元。 当然,也有高赌注

本網站僅收集相關文章。如需查看原文,請複製並打開以下連結:从博弈论的角度分析诈唬(1):什么情况下该诈唬

🔥 🎲 PG老虎机 - Online Slots 🎹
🎷 最新文章 🎷 😘 熱門文章 🔥
👄 推薦文章 🎀
# 文章標題 關鍵詞 文章連結 文章詳情