浅析博弈

什么是博弈

静态博弈与动态博弈。

博弈的结果是选择

  1. 前提假设(博弈的基础):趋利避害->价值观差异

    理性人假设->共同理性->普适准则

    两个满足共同理性的人的思想如同相对放置的两面镜子。

  2. 囚徒困境(示例)

    理性选择:对结果进行偏好排序后做出选择。

博弈的均衡

Equilibrium of game: Reach the fixed point.

绝大多数具有实际意义的社会博弈可以达到纳什均衡。

Nash equilibrium: the most common way to define the solution to a non-cooperative game involving two or more players.

合作与竞争过程中均存在博弈。

博弈的过程

认识人与人的联系、人的行事动机、社会的基本问题与社会选择的评价。

要素

  1. Player
  2. Strategy

Players是博弈中的决策主体,player会基于自己的认知分析other players的认知

A strategy refers to a series of decisions for a player to deal with any situation faced in the whole process.

人性

劣根性

  1. 事前自作聪明
  2. 事后装作无辜

人品:对事物的偏好序

人与人的区别在于 程度 的区别

对人性而言,堵不如疏

博弈 & 均衡

均衡:所有策略组合的子集。

劣策略

通过(重复)剔除严格劣策略来简化博弈过程——剪枝

智猪博弈:剔除严格劣策略后存在平衡状态

劣纯策略、混合策略、占优策略

Pareto Optimality

帕累托最优:

Nash Equilibrium

纳什均衡:所有人的策略达到局部最优(策略组中策略均为最佳应对)。任何参与人都没有动机单方面偏离纳什均衡策略(单方面改变策略使自己的收益更多)。

占优策略均衡是一种特殊的纳什均衡.

相遇博弈(协调博弈):参与人之间需要协调彼此的策略,他们因而需要协调对彼此策略的预期。

每名参与人都希望正确预期其他参与人的策略,同时也希望自己的策略被其他参与人正确地预期到。

军备竞赛:参与人之间的对抗与合作都有可能成为均衡,但是相对于对抗均衡,合作均衡对于所有参与人来说更加有利。

率先由 对抗 -> 合作 的一方会承担一定损失。

鹰鸽博弈(演化博弈):少数派占优

鹰鸽博弈均衡也称为 演化稳定均衡 (evolutionarily stable equilibrium)。

Cournot 模型

最基本的寡头产量竞争模型(Cournot 模型)包括以下四个方面的基本要素:

  1. 同质产品(homogeneous goods)
  2. 双寡头(duopoly)
  3. 同时行动(simultaneous move)
  4. 产量竞争(quantity competition)

CournotModel

纯策略纳什均衡混合策略纳什均衡

一些博弈不存在纯策略纳什均衡(如石头剪刀布),考虑参与人分别以相应的概率选择对应策略,联立所有参与人的反应函数即可求解混合策略纳什均衡。

Nash 均衡总是意味着博弈参与人之间的某种协调,其实现需要参与人的一致预期

  1. 基于信念的选择是合理的
  2. 支持选择的信念是正确的

Rational agents cannot agree to disagree…

动态博弈

在博弈中,参与人有时不是同时行动 (simultaneous-move,对应静态博弈) ,而是相继行动 (sequential-move,对应动态博弈)。因此,可以说动态博弈体现了信息对博弈的重要性(又分为完全信息博弈不完全信息博弈) 。

绝大多数情况,当信息相对透明公开时,先发制人占优。当信息相对闭塞时,后发制人占优。在现实生活中,绝大多数博弈的信息均不明朗,采取后发制人往往更占优。

海盗分金:五个海盗依次制定策略分配100金币直到策略被认可,策略被否决者死,投票严格大于半数时通过。

(自底向上进行分析)

二海盗:45,4必死,5全拿

三海盗:345,34必死,5全拿

四海盗:2345,2全拿

五海盗:12345,给345一个,1拿97

蜈蚣博弈:参与人甲乙轮流决定继续 / 停止,如果一人选择了停止,那么博弈立即终结,参与人获得相应支付;如果一人选择了继续,那么他将以交出一单位支付给另一位参与人为代价,将决定权交给另一位参与人。上述博弈每被推迟一期,下一期做决定者将获得额外一单位支付(支付累计增加)。

可见,每名参与人在轮到自己做出决策时,都可以选择有利于所有参与人总体利益的“长远”策略 (不使博弈立即终结),但每一次总体长远利益的实现,都会导致做出这种决策的参与人自身利益的损失。我们发现,尽管有一条实现所有参与人总利益最大化的路径,但是博弈难以沿着一路径发展。

通过逆向归纳的方法,始终求解博弈最后一个阶段的子博弈(实现子博弈 Nash 均衡),最终可以达到子博弈完美 Nash 均衡(sub-game perfect Nash equilibrium, SPNE),它是对 Nash 均衡的精炼。

特别的,在静态博弈中,子博弈完美 Nash 均衡等同于 Nash 均衡。

Bargaining Game

设定(纯粹冲突场景):甲乙两人就如何分割一元钱进行博弈,两人可以各自提出一个要求的数额。如果两人要求的数额之和不大于1,则按照两人要求的数额分配一元钱,否则两人都得不到任何东西。

解决 Bargaining Game 均衡问题的两种思路

  1. 公理化方法(axiomatic approach)
  2. 基于策略的方法(strategy-based approach)

基于公理化方法的 Nash 均衡解:求解 $max_{x\in[0,1]}x^{\delta_{1}}(1-x)^{\delta_{2}}$

$ \delta : $ 议价能力(Bargaining stress / Bargaining power)

基于策略的方法:假设博弈一共进行 T 期,(在第 T 期,如果甲乙两人仍旧无法达成共识,博弈也必须终止),在每一期,甲乙依次提出分配方案,另一人只能选择接受或离开(take it or leave it),一旦方案被接受,博弈在该期直接结束,并按方案进行分配,否则博弈进入下一期。

但是,对甲乙两人而言,下一期获得一单位货币分别等价于本期获得 $ \delta_1$ 单位和 $\delta_2$ 单位货币($\delta_1 \in (0,1) $, $\delta_2 \in (0,1)$,$\delta$ 为贴现因子这意味着选择延迟进入下一期需要付出等待成本)。

容易证明:

若 T ≥ 2 为偶数,在博弈第一期的参与人提出的分配方案是:

$\{(1-\delta_2)\sum_{t=0}^{\frac{T}{2}-1}\delta_1^t\delta_2^t,1-(1-\delta_2)\sum_{t=0}^{\frac{T}{2}-1}\delta_1^t\delta_2^t\}$

若 T ≥ 3 为奇数,在博弈第一期的参与人提出的分配方案是:

$\{1-\delta_2(1-\delta_1)\sum_{t=0}^{\frac{T-1}{2}-1}\delta_1^t\delta_2^t,\delta_2(1-\delta_1)\sum_{t=0}^{\frac{T-1}{2}-1}\delta_1^t\delta_2^t\}$

若 T 无限,该博弈有一个是稳态策略均衡的 SPNE ,它将表现出周期性,解为:

$\{\frac{1-\delta_2}{1-\delta_1\delta_2},\frac{1-\delta_1}{1-\delta_1\delta_2}\}$

贴现因子越大,越耐心的参与人在谈判中越占优势。

重复博弈

重复博弈是一类特殊的动态博弈。如果一个多期博弈(multi-stage game)在其每一期具有相同的结构,相当于在每一期进行一次单期博弈(stage game),称这样的博弈为重复博弈(repeated game)。由于可以存在 未来奖励 或者 未来惩罚,重复博弈有可能产生与单期博弈不同的结果。

假设囚徒困境中的两人采用冷酷战略进行多期囚徒困境的重复博弈。

冷酷战略(trigger strategy):采取合作,但只要对方在之前的博弈中选择过背叛,从该期开始的所有博弈均选择背叛。

有限期采取冷酷战略的囚徒困境重复博弈从第一期开始双方均会选择背叛(逆向归纳)。

无限期采取冷酷战略的囚徒困境重复博弈则双方均会选择合作(贴现因子 $\delta = 1$时),从第 T 期时开始选择背叛(根据 $\delta \in (0,1)$对当期收益与后续有限收益总和进行判断)。

Stackelberg 模型

标准的 Cournot 模型假设所有厂商是同时行动的,但实际情况中会有实力较强大的寡头充当行业的领导者率先进行行动(Stackelberg 模型),其他厂商充当追随者,此时,领导者将拥有先发制人的优势(first mover advantage),从而往往可以获得相对追随者更高的利润。

StackelbergModel

非对称信息博弈

非对称信息博弈(asymmetric information games)有两种:

  1. 不完美信息博弈(imperfect information games):存在参与人在行动时无法确定自己所在的博弈树节点
  2. 不完全信息博弈(incomplete information games):参与人无法确定其他参与人的支付函数(类型)

信息:其他参与人的 人品行动

Harsanyi 证明,给定若干条件,可通过 Harsanyi 变换将不完全信息转换为不完美信息

信念(belief)与 声誉(reputation):

在不完美信息博弈中,参与人会基于 信念 猜测自己在博弈树中的哪个节点,再进行行动。

对理性人来说,信息决定信念,信念决定行动

对非理性人来说,先有行动,再寻找信念使之合理化

博弈论中的 声誉 指先行动的参与人通过其前期的选择,向后期行动的参与人传递关于自身类型的信息。

再看囚徒困境:

A/B fight cooperate
fight 0,0 4,-1
cooperate -1,4 3,3

假设 B 为 理性 人;A 有 p 的概率是 非理性 的,采取 以牙还牙(tit-for-tat,TFT)策略,有 1-p 的概率是 理性

非理性 A 全程合作,理性 A 最后两期不合作,其余期合作

理性 B 最后一期不合作,其余期合作

信息量:理性 A > 理性 B

Bayesian 均衡 & 序贯均衡

Bayesian 均衡->完美贝叶斯纳什均衡

序贯均衡->构造非均衡策略组收敛序列收敛于均衡策略组

拟完美均衡 恰当均衡

Sociality

人是一切社会关系的总和。

劣币驱逐良币:买者关注商品的整体声誉,卖者关注自身的商品质量。

All same products share with the same reputation, However, the bad product rob the profit from the good product which depends on the difference.

毁我教者,着我衣人。

利用不同身份者的不同 偏好 来甄别身份。

Market

Lemon Market

拍卖

英式叫价拍卖、荷兰式拍卖、Vickery 拍卖(次高价格拍卖,所有人给出真实报价评估)