当前位置:网站首页>【博弈论】基础知识
【博弈论】基础知识
2022-06-23 06:25:00 【见见大魔王】
【博弈论】基础知识
1 策略式博弈
策略式博弈 又称 静态博弈,它是 一次 博弈。策略式博弈 G G G 形式化表示为:
G = { N , { A i } i = 1 N , { u i } i = 1 N } G=\left\{N,\left\{A_{i}\right\}_{i=1}^{N},\left\{u_{i}\right\}_{i=1}^{N}\right\} G={ N,{ Ai}i=1N,{ ui}i=1N}
其中:
- N N N:玩家集,所有玩家的有限集合;
- A i A_{i} Ai:玩家 i i i 的策略集:表示玩家 i i i 可选择的策略的集合;
- u i u_i ui:玩家 i i i 的收益函数: A 1 × A 2 × … A N → R A_{1} \times A_{2} \times \ldots A_{N} \rightarrow R A1×A2×…AN→R 表示在一组策略下的收益。
完全信息静态博弈 具有以下特点:
- 非合作博弈
- 同时行动(simultaneous move):所有玩家同时做出策略选择。在选择策略时不知道其他玩家的策略选择
- 完全信息(complete information):每个玩家的的策略和收益函数都是所有玩家的共同知识(common knowledge)
非完全信息静态博弈(也称 静态贝叶斯博弈)具有以下特点:
- 非合作博弈
- 同时行动(simultaneous move):所有玩家同时做出策略选择。在选择策略时不知道其他玩家的策略选择
- 非完全信息(incomplete information):至少有一个玩家不能准确地知道其他某个玩家的收益函数。
以 囚徒困境 为例:
完全信息静态博弈:
两名犯罪嫌疑人被抓捕,被关到不同的牢房,但警方无充足证据,两名嫌疑人被告知:
- 若双方都不坦白,则均被判一个月;
- 若双方都坦白,则均被判六个月;
- 若一方坦白而另一方不坦白,则坦白一方释放,不坦白一方被判九个月。
可以使用双变量矩阵来表示二者的收益:
非完全信息静态博弈:
两名犯罪嫌疑人被抓捕,被关到不同的牢房,但警方无充足证据,两名嫌疑人被告知:
- 若双方都不坦白,则均被判一个月;
- 若双方都坦白,则均被判六个月;
- 若一方坦白而另一方不坦白,则坦白一方释放,不坦白一方被判九个月。
除此之外,还有额外需要注意的:
- Prisoner 1 总是理性的,即自私的
- Prisoner 2 可能是理性的,也可能是利他的,取决于他的心情
- 当 Prisoner 2 是利他时,那么他更偏好不坦白,他认为坦白等于“额外入狱四个月”
- Prisoner 1 不能准确地判断 Prisoner 2 是利己的还是利他的,但他能推断 Prisoner 2 理性的概率为 0.8,利他的概率为 0.2。
2 扩展式博弈
扩展式博弈,也称 动态博弈,它与策略博弈相对应。在扩展式博弈中,玩家是轮流进行决策的,通常可用 博弈树 将其刻画。
博弈树由 结点 (node)和 边 (edge)组成,对应博弈玩家、策略和收益。
- 非叶子结点:代表 博弈玩家,表示这个时候哪个博弈玩家做出决策。每个非叶子结点有且仅有一个博弈玩家。
- 叶子结点:代表每个玩家在此时的 收益。收益只存在于叶子结点。
- 边:表示 策略

扩展式博弈 G G G 形式化表示为:
G = { N , H , P , { u i } } G=\left\{N, H, P,\left\{u_{i}\right\}\right\} G={ N,H,P,{ ui}}
其中:
- N N N 为玩家集合;
- H H H 为“策略的序列”构成的集合,可以是有限集或者无限集。 H H H 中的元素称为 历史 (history)。性质包括:
- ∅ ∈ H \emptyset \in H ∅∈H,表示博弈树的根结点。
- 如果策略序列 a 1 a 2 … a k ∈ H a^{1} a^{2} \ldots a^{k} \in H a1a2…ak∈H 并且 s < k s<k s<k,那么 a 1 a 2 … a s ∈ H a^{1} a^{2} \ldots a^{s} \in H a1a2…as∈H
- 如果无穷策略序列 ( a k ) k = 1 ∞ \left(a^{k}\right)_{k=1}^{\infty} (ak)k=1∞ 满足对于任意的 k k k, a 1 a 2 … a k ∈ H a^{1} a^{2} \ldots a^{k} \in H a1a2…ak∈H,那么 ( a k ) k = 1 ∞ ∈ H \left(a^{k}\right)_{k=1}^{\infty} \in H (ak)k=1∞∈H
- 每一条历史序列都对应博弈树的一个结点,对应历史序列末端到达的结点
- 在完全信息扩展式博弈中,历史集大小=结点个数
- 最终历史集(Terminal history set): Z Z Z = {All Terminal history},在这些结点上是 收益
- P P P 为博弈玩家函数(Player Function):
- P : H \ Z → N P: H \backslash Z \rightarrow N P:H\Z→N 给每一个非终结历史分配玩家集 N N N 中的一个元素
- P ( h ) P(h) P(h) 表示在历史 h h h 后,轮到哪个玩家做决策
- u i u_i ui 为收益函数,表示第 i i i 个玩家的收益
3 纳什均衡
继续上面 完全信息静态博弈 的囚徒困境的例子。我们先站在犯人1的角度思考:
- 如果2坦白了,我选择坦白,则收益为-6;如果我不选择坦白,则收益为-9。因此我会选择坦白;
- 如果2不坦白,我选择坦白,则收益为0;如果我不选择坦白,则收益为-9,因此我会选择坦白。
同时,犯人2也会这么想。因此二者都会坦白。
最优反应:当对手策略选定的时候,玩家会调整自己的策略,使得自己的收益在几种策略选择中是最大的。
纳什均衡:任何一位玩家在此策略组合下单方面改变自己的策略(其他玩家策略不变)都不会提高自身的收益。
也就是每个玩家的策略都是 最佳反应 的时候,就会形成一个稳定的局面,即达到 纳什均衡。
纳什均衡的形式化定义如下:
纳什均衡是博弈结果 a ∗ = ( a 1 ∗ , a 2 ∗ , … , a N ∗ ) a^{*}=\left(a_{1}^{*}, a_{2}^{*}, \ldots, a_{N}^{*}\right) a∗=(a1∗,a2∗,…,aN∗),即对每个玩家 i i i 都有:
u i ( a i ∗ , a − i ∗ ) ≥ u i ( a i , a − i ∗ ) u_{i}\left(a_{i}^{*}, a_{-i}^{*}\right) \geq u_{i}\left(a_{i}, a_{-i}^{*}\right) ui(ai∗,a−i∗)≥ui(ai,a−i∗)
因此,我们可以 通过寻找同时满足所有人的最佳反应的博弈结果,来求解纳什均衡。
Reference
https://zhuanlan.zhihu.com/p/148407108
https://zhiqianghe.blog.csdn.net/article/details/107330041
https://www.docin.com/p-2590113104.html
https://zhuanlan.zhihu.com/p/199047997
边栏推荐
猜你喜欢

Mysql(十一) — MySQL面试题整理
![[STL] summary of deque usage of sequential containers](/img/33/65c54d14697ee43b2655ea1255d67d.png)
[STL] summary of deque usage of sequential containers

别找了诸位 【十二款超级好用的谷歌插件都在这】(确定不来看看?)

MySQL(四) — MySQL存储引擎

初始化层实现

闫氏DP分析法

Eureka

excel高级绘图技巧100讲(八)-Excel绘制WIFI图

The illustration shows three handshakes and four waves. Xiaobai can understand them

junit单元测试报错org.junit.runners.model.InvalidTestClassError: Invalid test class ‘xxx‘ .No runnable meth
随机推荐
SSTable详解
406 double pointer (27. remove elements, 977. square of ordered array, 15. sum of three numbers, 18. sum of four numbers)
Advanced drawing skills of Excel lecture 100 (VIII) -excel drawing WiFi diagram
Mysql事务隔离级别
20220621 Three Conjugates of Dual Quaternions
20220620 uniformly completely observable (UCO)
Paddle version problem
309. 最佳买卖股票时机含冷冻期
闫氏DP分析法
ldconfig 命令
Flannel 工作原理
303. region and retrieval - array immutable
SSM整合
滚动播报效果的实现
100 GIS practical application cases (79) - key points of making multi plan integrated base map
In depth learning series 46: face image super score gfp-gan
MySQL MVCC多版本并发控制
Xshell7 Download
UNET code implementation
How to achieve efficient network information dissemination

