Skip to content

博弈论转录1029

· 147 min

同学们好,我们现在开始上课。今天我们要讲的是纳什均衡的精炼,因为在动态博弈中,往往存在不止一个纳什均衡。那么到底哪个均衡相对来说更合理,哪个均衡不合理?其实我们在第一讲中已经讨论过一些概念,比方说抗联盟均衡,但这类概念不具有普遍意义,也就是说在有些博弈中不一定肯定存在。

另外,在动态博弈中,我们判断均衡的合理性有一个非常重要的衡量标准,就是这个均衡中是否包含了不可信的威胁和许诺。我们按照这个标准来要求,比方说如果一个纳什均衡里含有参与者的不可信的威胁和许诺,我们就认为这个均衡是不合理的。那么,排除了不可信的威胁和许诺的纳什均衡,我们有一个专门的概念叫做子博弈完美纳什均衡,或者简称为子博弈完美均衡。所以在动态博弈中,最重要的一个均衡概念就是子博弈完美均衡。进一步地,在不完全信息的博弈中,或者说在不完全信息的动态博弈中,最重要的一个均衡概念,我们后面会讲到,是完美贝叶斯均衡。

所以,在这一个部分讲完全信息的动态博弈时,我们着重讲解子博弈完美均衡。颤抖手完美均衡在这一部分其实也有用武之地,但一般的博弈论教材会把它放到不完全信息博弈的一部分来讲。但实际上,这个概念对于比较复杂的完全信息动态博弈也很有用。

纳什均衡的精炼#

例4 威胁的可信性问题#

我们通过一个非常简单的例子来看威胁的可行性问题。比方说,看一个非常简单的两阶段博弈:参与者一可以选 AA,博弈结束;也可以选 BB。如果选了 BB 之后,参与者二观察到了参与者一的行动,参与者二决定做出选择。这是一个很简单的博弈,我们要求它的纳什均衡。最简单的方法我们前面讲过,是把它用策略式表述,然后用划线法求出纳什均衡。当然,你还可以考虑是否存在混合策略纳什均衡。

我们现在为了讲解威胁和许诺的可行性,可以主要讨论纯策略均衡。把这个博弈用策略式表述,就是幻灯片上的形式。因为每个参与者只有一个信息集,所以每个参与者的行动就是他的策略。采用划线法,我们发现左上角这个单元格对应的策略组合 (A,C)(A, C) 是一个纳什均衡,右下角的 (B,D)(B, D) 对应的策略组合 (B,D)(B, D) 也是一个纳什均衡。那就有两个纳什均衡,哪个纳什均衡更合理呢?从这个矩阵上我们看不出来哪个更合理。

所以我们回到这个博弈树来看。如果选择 (A,C)(A, C) 这个均衡,参与者一获得1的收益,参与者二获得2的收益。如果是 (B,D)(B, D) 这个均衡,正好反过来,参与者一的收益更高,参与者二的收益更低。所以可以想到,参与者一肯定是希望得到这个均衡对应的更高的收益。但是参与者二,他更希望得到 (A,C)(A, C) 这个均衡对应的收益。

那么我们来考虑一下,参与者二不希望参与者一选择 BB,从而走向 (B,D)(B, D) 这个均衡,因为那样他只能获得1的收益,他也不希望得到这个结果。我们可以设想,在参与者一行动之前,参与者二向参与者一发出威胁。他讲:“如果你要是选 BB,我就一定选 CC,哪怕给你我两败俱伤,也要你获得零的收益。”

如果说参与者一要是相信了参与者二的这个威胁,参与者一就会想:“我要是选 BB,他真的选 CC,我只能获得零的收益。我要是直接选 AA,我还能获得1的收益。1虽然不是我所希望的那个高收益,但是好歹比零的收益要高。”所以,如果他相信了参与者二的威胁,那么他就会选择 AA。也就是说,如果参与者二选择 CC,那参与者一要是相信他真的选 CC 的话,那参与者一选 AA 就是最优反应。

那我们再看一下,如果参与者一相信了参与者二的威胁,选了 AA,那参与者二有没有动机向参与者一发出威胁?也就是说,很多人说:“你要选择 BB,我一定选 CC。”如果你想起来看到威胁,参与者一已经选了 AA,结果也已经出来的话,这个时候参与者二选 CC 的话,他也不会获得零的收益,因为他已经获得2的收益了。所以只要参与者一相信了参与者二的威胁,参与者一会选 AA。给定参与者一会选 AA 的话,对参与者二来说,发出这个威胁也没有成本。那干嘛不威胁呢?这样的话, (A,C)(A, C) 确实是构成了一个纳什均衡。

但是我们说这个均衡不合理。为什么说它不合理呢?假设参与者一不顾参与者二的威胁:“我就选 BB,你不是不希望我选 BB 吗?我就选 BB。”进来之后看你会不会把你的威胁付诸实施。那么你看一下,参与者二面对参与者一选择了 BB 的情况下,他要是按照威胁选 CC,他只能获得0的收益;他要是转而选 DD,他的收益能够提高到1。所以真的到了这一步,当观察到参与者一选 BB 之后,参与者二不会把他的威胁付诸实施,因为把威胁付诸实施对他有惩罚。

所以我们判断一个威胁是否可信的一个标准就是:如果这个威胁是发生这个威胁的话,它所假定的前提条件得到满足时,发出威胁的这个参与者从自己的利益出发会不会实施威胁?如果从自己的利益出发,实施威胁是不可取的,那么我们就说这个威胁是不可信的,或者说是空洞的。所以威胁的可信与否,就是当威胁所假定的条件满足时,把威胁付诸实施是否符合自己的利益。如果不符合自己的利益,那么这个威胁我们就说是空洞的,或者是不可信的。

一个纳什均衡中要是含有某个参与者的不可信的威胁,我们说这个纳什均衡是不合理的。那么双方都是理性的情况下,参与者一不会相信参与者二的威胁。我就选 BB 看你会不会选 CC,发现你真的到那一步了,参与者二不会选 CC。所以我们说纳什均衡 (A,C)(A, C) 含有不可信的威胁。

那我们看另外一个纳什均衡 (B,D)(B, D)。这个纳什均衡是否含有某个参与者的不可信的威胁?没有,对吧?这个是没有的。参与者一选择 BB,参与者二选择 DD。参与者一真的选 BB 的话,参与者二就是选 DD。就这一方的话没有不可信的威胁。所以 (B,D)(B, D) 这个纳什均衡更加合理。

当然我们举的这个例子讲的是威胁是否可信。实际上在动态博弈中,不仅要关心威胁是否可信,我们还关心许诺是否可信。因为威胁是说:“你不准怎么做,我不希望你怎么做,你如果这样做了,我将会如何处罚你。”许诺是说:“我希望你怎么做,你要是这样做了,我会如何来奖励你。”那么这个许诺也有可行与否的问题。

一个纳什均衡如果包含某个参与者不可信的许诺,那这个纳什均衡也是不合理的。我们举一个例子,比方说在座同学当年,不知道你们高中在高考前,然后考大学的时候,有没有谁的父母亲对你们做出过很大的许诺。就你只要考上北大和清华,比方说给你买辆保时捷。假设你要是相信了你父母亲的这个许诺,然后你高中三年发奋读书,最后考上了。考上了,拿着北大清华的录取通知书找你的父母去兑现的时候,你父母亲会不会兑现?真的到了那一步,可能不会兑现,因为反正你已经考上了。所以这样的许诺它就是不可信的,这就是不可信的许诺。你如果很理智,可能不光在高中阶段,可能在小学阶段,你对这种许诺都不会相信。

我们可以看到有些小孩,比方说哪怕在幼儿园那个阶段,要是父母亲给他发出一个比较严厉的威胁的时候,有的小孩就马上老老实实了。但是有的小孩,父母亲对他发出威胁的时候,他会嚎啕大哭。表面看起来是害怕的,但实际上他一哭,他对父母亲所有的教育,所有的威胁就充耳不闻,根本就听不进去了。

还有,哪怕是听到了非常严厉的威胁,比方说:“你要不听我的话,那么我就把你带走,卖到外地去。”有的小孩,他相信你的这种威胁是完全不可信的。所以你要发出这样的威胁,那有的小孩会置若罔闻。但是你要发出一些可信的威胁,比方说:“你要是再不听话,那么接下来的一个月不准玩电子产品,不准玩 iPad,也不准吃雪糕。”这种情况下,小孩会相信。因为这个威胁,你把这个威胁付诸实施,对父母亲来说没有什么损害。所以这样的威胁,有的小孩比较冷静,比较聪明,会凭感觉觉得这样的威胁是可信的,而更严厉的威胁是不可信的。所以威胁的可行与否或者许诺的可行与否,在动态博弈中是一个非常关键的问题。当然我们举的这个例子非常简单。

我们刚才讲过了,在动态博弈中,我们要定义一个均衡概念,叫子博弈完美均衡。子博弈完美均衡是排除了不可信的威胁和许诺的纳什均衡。那什么叫子博弈完美均衡呢?我们首先需要定义子博弈。子博弈的定义其实很简单,我们把这个博弈可以设想一下,画成一棵博弈树,画成一个树状图。那么这个树从每一个分支节点开始,也就是说这个树的每一根树枝都可以看作一个子树。如果你这个子树要是满足一定的条件,我们就把这个子树称之为子博弈。

满足什么条件呢?幻灯片上列出的这三个条件。这些条件的目的是为了让我们定义的这样一个子树可以作为一个单独的博弈来进行分析。要能够作为一个单独的博弈进行独立的分析,也就是说分析这个子博弈的时候,我们不需要知道这个树的其他部分的情况,这个子博弈本身可以看成一个单独的博弈来分析。

要满足这个条件的话,我们就要求这个子博弈要起始于博弈树中的一个单节点信息集,而不能起始于多节点信息集。也就是说,它的起始节点不能够有虚线与其他节点连接起来。第二个是,一旦我们选择从哪一个节点开始,那么这个节点之后的所有部分都应当包含在这个子博弈之内。也就是说,我们要把一棵树从哪一个分叉的地方砍下来,从这个地方砍下来的话,这整个树枝都包含在这个子博弈里面。你不能把这个树枝中间的某一部分再砍掉。第三点是,没有分割任何信息集。没有分割任何信息集的话,你可以这样想:如果一个信息集我们是用虚线把一些节点连起来构成的,那意味着当我们从这棵树的某一个分叉的节点砍下来的时候,要把这个子博弈搬走的时候,这个子博弈上面没有任何节点跟这个树的其余部分有虚线相连。

例5 子博弈的例子#

我们来看两个例子,比方说看一下这样一个博弈。在这个博弈中,不是用虚线表示信息集,而是用椭圆形的线圈来表示信息集。大家可以看,从这个节点开始,即参与者一行动,这构成了一个子博弈。只不过这个子博弈很简单,是一个单人决策问题,就是参与者一选择 T3T_3 还是选择 B3B_3。选择 T3T_3 能够获得一个收益,选择 B3B_3 能够获得一个收益。这就是这个子博弈退化为了参与者一的一个单人决策问题。从这个节点开始,这也是一个子博弈,也是参与者一的一个单人决策问题。

从这个节点开始,也是一个子博弈,只不过这个子博弈的起始节点是属于自然。自然表示虚拟参与者,它做出一个选择。那么从这个博弈树的其他节点开始,都不是子博弈。比方说从这个节点开始,它就不是子博弈,因为它起始于一个多节点信息集。你要是说想分析这个博弈树的这一个部分的话,你是没有办法分析的,因为你都不知道就是参与者二不知道自己处于这还是处于这。在当前情况下,这一部分是无法独立分析的。同样地,你说要是从这开始或者从这开始,那都不是起始于单个信息集,所以都不能够独立分析。

例6 威慑博弈#

这个博弈树还比较简单,我们下面再看一个博弈树,比方说这样一个博弈树。这类博弈树经常用来刻画很多威慑问题。

这个博弈树上,我们先来解释几个符号。这个 CC 对应这个节点 CC,它是英文Chance的第一个字母,所以这个表示机会或者自然,是虚拟参与者。这个 CHCH 不是表示Chinese,这个 CHCH 是Challenge,即挑战者或者挑衅者,那么这个 DD 表示防御者。所以如果我们要用这个博弈树来刻画中美之间的博弈,比方说中国跟美国两个国家之间的这种大国博弈,那么显而易见,美国就是挑战者,美国是找麻烦的,是麻烦制造者。那么中国是防御者。

我们这边为什么会在这个博弈树上用虚线来构造了一个多节点信息集呢?因为很多时候,挑战者要向防御者发出挑战的时候,我们可以想象,这个防御者可能有两种类型。一种比方说是温和型,一种是强硬型,或者换一个词,像这个模型中,它是由不坚决和坚决来衡量。比方说这个模型要是刻画中美之间的贸易战,中美贸易战中的坚决不坚决反映了什么呢?反映了当美国开始采取措施,比方说发起对中国的贸易战的时候,不坚决性的中国可能就是说愿意跟美国妥协,愿意做出一个很大的让步。他愿意做出一个很大的让步,肯定是按照自己的效用函数,按照自己的偏好,认为做出让步跟美国妥协优于跟美国正面的冲突这个结果。他一定是基于自己的偏好做出这样一个选择。但是坚决行动或者强烈行动的正好相反,就是当美国发出挑战的时候,他会认为硬碰硬优于忍气吞声妥协退让。我们作为中国人,我们当然知道中国的这种坚决性。

但是问题的关键在于,你的对手,他并没有百分之百的信念相信你是坚决性的。哪怕无论是从国家领导人到外交部都向美国政府表明红线在哪儿,我们是坚决性的。但是问题在于,美国会认为,哪怕你是不坚决性的,你也可能会有动机装成坚决性的。所以你再怎么向对方宣誓自己什么类型,对方不会百分之百地相信。对方会从他所掌握的信息出发,对你的类型做出一个概率判断。他认为你属于坚决性跟不坚决性是一个什么概率分布,比方说五五开或者二八开等等,反正他有一个信念。虽然我们中国知道我们是坚决性的,但是只要美国认为中国有可能是不坚决性的,我们在用博弈论来建模的时候,都需要把中国有可能属于不坚决性的纳入模型里面去。因为建立这个模型是为了刻画美国的信念。

那么在构建这个博弈树的时候,实际上这个模型只是一个结构。还有些信息它没有反映,就比方说一开始自然选择中国政府的类型是坚决性的还是不坚决性的,自然会以一定的概率分布来选择。那么这个概率分布是什么呢?概率分布是美国持有的信念,就是美国认为中国是一个什么概率分布,我们就按照这个概率分布来建模。因为我们用这个博弈是来刻画中美之间的威慑问题的。那么中国采取什么样的策略是针对美国策略的最优反应?那肯定,因为博弈就需要换位思考。实际上站在美国的角度,如果美国持有这样的对中国类型的信念的话,那美国会认为如何做符合美国的利益。中国也会从美国的这个信念出发来推断美国将会采取这样的策略。一方对一方怎么看自己,这本质上也是个信念。很多模型就是这样建模的。

比方说用国际数据来看,中国政府是什么类型?比方说80%的可能性是坚决性的,20%的可能性是非坚决性的。我们把中国政府的这个类型的先验概率分布假设是博弈双方的共同知识。就是说美国持有这个信念,中国也知道美国有这个信念。美国当然也知道中国知道美国有这信念。假设它是一个共同知识,从这个共同知识出发。现在自然选择了美国的这个类型之后,接下来美国行动。美国要是选择不挑战中国,那么一切维持现状,博弈结束。

美国人如果选择挑战中国,那么轮到中国行动。我们可以看到,美国在决定市场挑战中国的时候,美国是不知道中国到底什么类型,他是从自己的先验信念出发,然后决定是挑战还是不挑战中国。如果他要是挑战中国的话,就是中国行动。

那么中国行动的时候,你看中国的这两个节点是单节点信息集,没有用虚线连起来。也就是说,中国政府在行动的时候,中国政府是知道自己的类型,当然知道自己的类型。要不知道自己的类型,那还能说是理性参与者吗?

中国政府,如果是属于上面这个节点,他知道自己坚决性,那他决定什么呢?是抵抗还是不抵抗。如果属于下面的节点,他知道自己不坚决性,那么他决定抵抗还是不抵抗。当然,我们大家作为中国人都知道,中国是处于坚决性的。

中国要决定了抵抗,接下来又轮到美国行动。美国要决定是进一步推进他的威胁还是退却。美国行动之后,博弈结束。美国在第三阶段行动的时候,其实美国仍然不知道中国政府的类型。

但是我们后面在不完全信息的博弈部分来讲这类博弈的分析的时候会讲到,你看在美国的第一个信息集里,美国对中国的类型是一个先验概率分布。那么在美国的第三阶段又轮到美国行动的时候,美国对中国政府的类型还是一个概率分布。但是他在这个信息集里,他未必在持有先验概率分布。在这个信息集里,他会根据此前中国政府的观察,到了中国政府的行动来修正自己的信念。具体修正的方式,我们后面会讲,就是从先验信念出发,结合双方的策略组合利用贝叶斯法则来修正信念。一般来说,美国在这个信息集的信念跟一开始的信念是不一样的,一般是不一样。

每一个参与者在他的任何一个信息集里,我们后面会讲,他的行动都要满足理性的要求。理性的要求就是我们导论当中讲到的理性的两个方面:一个是认知,一个工具理性。

每一个参与者在他的一个多节点信息集里,都需要用贝叶斯法则来生成信念。每一个参与者在他的任何一个信息集里,都需要从他的信念出发,做出一个最优选择。所以我们发现,信念对参与者的策略选择有一个复杂的关系。什么样的策略是最优的,依赖于他持有何种信念。那么他应该持有何种信念呢?又需要根据策略,用贝叶斯法则来生成出来。所以我们要求每一个参与者,他的策略要跟信念能够互相支持,不能够产生矛盾。这是我们后面会讲的。

如果一个博弈的结构可以这样来刻画,大家看一看这个博弈树有没有子博弈。这个博弈树就没有子博弈。当然有的书上,有些博弈的教科书,也把原来的整个博弈称之为它自己的子博弈。但这样我觉得没有太大的意义。所以我们讲,真正的子博弈应当不包含它自己。

如果是这样的话,这个博弈树是没有子博弈的。因为从这个节点开始,这一个部分的博弈树起始于多节点信息集,不符合子博弈的要求。从这个节点开始的,虽然起始于单节点信息集,但是这边分割了这个信息集。从这个节点开始也是基于多节点信息集,所以是没有收益的。

好了,定义了子博弈之后,我们下面就可以定义子博弈完美均衡。什么是子博弈完美均衡呢?如果一个策略组合不仅在整个博弈上构成纳什均衡,而且在每一个子博弈中,双方的策略组合对于这个博弈的那一部分行动计划,也能构成一个纳什均衡。如果还满足这样的要求,我们就说这个策略组合是子博弈完美均衡。子博弈完美均衡简单来说,就是要求各方的策略在这个博弈的整个博弈上,以及在这个博弈的每一个子博弈中,都要互为最优反应。如果它做到了这样,那么就能够排除不可信的威胁。

参看例4。我们前面说 (A,C)(A, C) 这个纳什均衡,它含有不可信的威胁。参与者二的 CC 这个威胁是不可信的,但它确实是一个纳什均衡。但是我们看一下这个博弈树是不是有个子博弈,子博弈就是这一个部分,只不过这个子博弈退化为参与者二的一个单人决策问题。变成了一个单人决策问题的话,那么子博弈完美均衡中要求各方的策略组合在每一个子博弈上也互为最优反应。反映这个要求,就退化为要求在这个单人决策问题中自我决策的参与者必须做出最优决策。

那么我们看一下,在这个子博弈中,假设因为这个子博弈是可以独立分析的,在这个子博弈中参与者二要做选择,选 CC 得到0,选 DD 得到1。他选 CC 显然是不合理的。所以 (A,C)(A, C) 这个纳什均衡就不是子博弈完美均衡。但是我们可以看 (B,D)(B, D) 这个纳什均衡是子博弈完美均衡。因为在整个博弈上构成了纳什均衡,而且在这一个子博弈中参与者二选择 DD 本身就是最优的。所以它符合子博弈完美均衡定义。

我们简单地介绍两个结论:第一,任何具有完美信息的扩展式有限博弈至少存在一个纯策略子博弈完美均衡。第二,任何具有完美回忆的扩展式有限博弈,我们博弈论的课到现在为止都讲究所有参与者都具有完美回忆。所以你可以理解,我们在博弈论课上讲的所有扩展式有限博弈,至少存在一个子博弈完美均衡,但不一定是纯策略的均衡。

均衡、均衡路径#

好了,接下来我们区分几个概念:区分什么是均衡,什么是解。一般来讲,我们把均衡定义为各个参与者的一个策略组合。而解定义为这个均衡策略组合所对应的均衡路径。也就是说,按照这个策略组合,从博弈的一开始到博弈的结束,一步一步地,各个参与者实际是怎么选择的,这个称之为博弈的解。

另外,在不完全信息的博弈中,还要涉及到经常有一个概念就是均衡路径上的信息集和非均衡路径上的信息集。所以我们需要区分均衡路径跟非均衡路径。均衡路径实际上就是指按照这个均衡的策略组合,可以从根节点开始,一步一步地,是怎么发展到哪个节点结束的,这是均衡路径。除了这个均衡路径之外的,其他的路径都是非均衡路径。那意味着在非均衡路径上,从根节点开始抵达非均衡路径上的那些节点的概率是0。因为它属于,就按照双方的策略组合,不会抵达那些,抵达的概率是0。

区分均衡路径跟非均衡路径非常重要。为什么呢?因为在不完全信息的博弈中,一个非常关键的问题是参与者的信念应该如何生成。我们刚才介绍要求参与者的信念用贝叶斯法则来生成。但是在比较复杂的博弈中,比较困难的问题是,有些信息集从双方的策略组合出发,抵达这个信息集的概率是0。所以就涉及到以0概率抵达的信息集中的信念应当如何生成。

这个问题是信念生成的一个比较麻烦的问题。也就是说,按照各方策略组合,我们现在来看,在博弈开始之前,根据这个策略组合,你到哪一个状态、哪一个信息集的概率就是0。可是如果真的到了那个信息集,处于那个信息集的参与者,他应当对他处于什么样的节点,是有什么概率分布,应该怎么来生成信念?这是关于不完全信息博弈中一个最复杂、最重要的问题。当我们现在在这个完全信息博弈这一部分暂时还不涉及。

颤抖手完美均衡#

好了,刚才讲完子博弈完美均衡的概念,我们现在先不讲子博弈完美均衡的求法,我们现在是先给出两个纳什均衡的精炼概念。把这个概念介绍之后,我们下一步再来专门讲子博弈完美均衡的求法。比子博弈完美均衡更严格的一个均衡概念,就是颤抖手完美均衡。颤抖手完美均衡我们在第一讲已经介绍过了,简单来说就是当每一个参与者都有小概率出错的时候,那么我们要求每一个参与者采取的均衡策略,依然是对对手发生颤抖之后的策略的最优反应。

但是为什么在动态博弈中我们需要再次来讲这个颤抖手完美均衡呢?因为在动态博弈中,颤抖手完美均衡这个定义跟前面讲的静态博弈中的定义是不一样的。在静态博弈中,大家回想,我们把一个博弈放在策略式表述来定义颤抖手完美均衡。

在动态博弈中,颤抖手完美均衡不是从策略式来定义的,是从多代理人表述来定义的。把这一个博弈把它转化为多代理人表述。也就是说,把同一个委托人在这个博弈树上的不同代理人视为完全独立的参与者。那么每一个代理人都可以独立做决策,他肯定会发生颤抖,有可能会出错。在这样的多代理人表述中,我们来定义颤抖手完美均衡。比方说我们来看一个例子,通过这个例子可以看到,为什么我们要基于多代理人表述来定义颤抖手完美均衡,而不是基于策略式表述来定义。

例7 颤抖手完美均衡#

对于这样一个两参与者的博弈,参与者一先行动。他如果选 BB,博弈结束。但是选了 AA 之后,又轮到他自己行动,他可以选 CC 或者 DD。只不过他在这种情况下,实际上他是跟参与者二同时行动的。我们说,除非参与者一行动后参与者二行动,需要用信息集来把参与者二的两个节点纳入同一个信息集。所以在这个图里面,我是用阴影的区域来刻画这个信息集。所以参与者二不知道参与者一选 CC 还是 DD。我们现在先来看一下,对于这样一个动态博弈,如果我们基于策略式表述来定义颤抖手完美均衡的话,我们看一下有什么颤抖手完美均衡。

首先把这个模型,把它用策略式表述。这个表述大家可以看,因为参与者一有两个信息集,每个信息集里面两个行动都可以选。参与者一是不是有 2×22 \times 2 种纯策略?那参与者二只有一个信息集,所以它的两种行动就是它有两种策略。这样的话我们可以把这个博弈用一个四行两列的矩阵来刻画。参与者一有 AC,AD,BC,BDAC, AD, BC, BD 这四种纯策略,参与者二有 e,fe, f 两种纯策略。那么采用划线法可以求出它的纯策略纳什均衡。

划线之后,我们发现有三个纯策略纳什均衡:(AD,f)(AD, f)(BC,e)(BC, e)(BD,e)(BD, e)。这三个纯策略纳什均衡,我们可以断言它们都是这个博弈的… 看幻灯片。

幻灯片中提到,策略组合 (BD,e)(BD, e) 是基于策略式表述的一个颤抖手完美均衡。我们可以通过定义来验证。我们构造一个扰动的混合策略组合,参与者一发生颤抖之后的策略是这样,以 (1ϵ)(1-\epsilon) 的概率选 BDBD,以 0.1ϵ0.1\epsilon 的概率选 BCBC,以 0.1ϵ0.1\epsilon 的概率选 ADAD,以 0.8ϵ0.8\epsilon 的概率选 ACAC。那么参与者二以 (1ϵ)(1-\epsilon) 的概率选 ee,以 ϵ\epsilon 的概率选 ff。我们假设 ϵ\epsilon 是一个很小的正数,比方说 ϵ=1/(k+2)\epsilon = 1/(k+2),那么 kk 可以趋于无穷大。如果是这样的话,我们首先看这个扰动策略组合的极限是不是就回到了策略组合 (BD,e)(BD, e)?因为当 kk 趋于无穷大的时候,这个策略组合就是确定 (BD,e)(BD, e) 这个策略组合。那么按照颤抖手完美均衡的第一个要求,对每个参与者来说,即使对方发生颤抖,要求自己采取原来的这个策略组合中对应的那个策略,依然是最优反应。

大家很容易验证,给定参与者二采取这样一个策略组合。那么参与者一,你看他要是选择纯策略 BDBD,他的收益是多少?选 BCBC 收益是多少?选 ADAD 收益是多少?选 ACAC 收益是多少?只要 ϵ\epsilon 很小,只要 kk 很大,那么参与者一选择 BDBD 它的收益是最高的。所以这意味着 BDBD 这个策略是针对对手发生小概率颤抖之后的策略的最优反应。

同样的道理,也可以验证参与者二策略 ee 也是针对对手发生颤抖之后的策略的最优反应。这样的话就发现这个策略组合符合颤抖手完美均衡的定义。所以这个策略组合确实是基于策略式表述的一个颤抖手完美均衡。

但是,在动态博弈中,我们说我们是基于多代理人表述来定义颤抖手完美均衡的。这个策略组合 (BD,e)(BD, e) 并不是这个动态博弈的颤抖手完美均衡。它只是那个策略式表述的颤抖手完美均衡,但不是这个动态博弈的颤抖手完美均衡。为什么?

我们来分析一下这个动态博弈的颤抖手完美均衡应该是什么。这是一个两参与者的博弈。我们说我们是基于多代理人表述来定义颤抖手完美均衡的。所以我们可以现在把这个博弈变成一个三参与者的博弈。比方说,这边的参与者用 1.11.1 来表示,这边的参与者用 1.21.2 来表示,这边是参与者二。我们现在假定参与者 1.11.1 跟参与者 1.21.2 他们是完全互相独立的,他们都代表参与者一的利益,但是他们做决策完全是互相独立的,就完全把这个博弈看成是一个三个参与者的博弈。看成一个三个参与者的博弈的话,现在我把这个符号标上去,这边 A,C,D,BA, C, D, B

我们来考察一下,比方说每一个参与者都发生颤抖之后的一个策略组合。发生颤抖意味着每一个参与者在他的每一个信息集里,他的每一种行动都有正的概率。

有正的概率的话,那就意味着什么呢?意味着参与者 1.11.1 选择 AA 的概率肯定是正的。所以参与者 1.21.2 处于这个节点的概率是正的,哪怕这个概率再小,这一点是有可能会到达的。那么这边也是,参与者二的这两个节点都是以正的概率抵达。如果是这样的话,我们现在来分析一下参与者 1.21.2 跟参与者二他们之间的这个博弈局势。

这个博弈局势,你会发现,就参与者 1.21.2 来说,不管参与者二选 ee 还是选 ff,对于参与者 1.21.2 来说,他选 DD 总是优于选 CC 的。比方说,如果参与者二选的是 ee,他选 CC 那么他能获得2的收益。可是他如果选 DD 的话,他能获得3的收益。如果参与者二选的是 ff,他选 CC 只能获得0的收益。可是他如果选 DD 的话,他能获得6的收益。所以,既然在每一个节点都能够以正的概率抵达,那么这样一个从这个节点开始的这个子博弈,它在现实中确实是以正的概率能够出现的。而在这样一个子博弈中,对参与者 1.21.2 来说, DD 是它的一个占优策略。所以我们可以判断,参与者 1.21.2 既然是占优策略,他一定会选 DD。所以哪怕他发生了颤抖,他选 DD 的概率也是非常大的,接近于一的。他选 CC 的概率是很小的,是趋近于零的。

从这样一个分析出来这一点之后,我们现在再来看一下参与者二。参与者二,你看他要是选 ee,他有可能获得1的收益,也有可能获得0的收益。获得1或者获得0的收益的概率取决于对方选 CCDD 的概率。比方说我们现在假定参与者 1.21.2DD 的概率是 (1δ)(1-\delta),选 CC 的概率是 δ\delta。那如果是这样的话,我们看参与者二他如果选 ee,他的收益是多少?他选 ee 的话,他的收益是 1×δ+0×(1δ)1 \times \delta + 0 \times (1-\delta),那就是 δ\delta

参与者二他如果选 ff 的话,他的期望收益是多少?是 0×δ+3×(1δ)0 \times \delta + 3 \times (1-\delta),所以是 3(1δ)3(1-\delta)。那既然 δ\delta 很小,趋近于0,这种情况下,显而易见,他选 ff 的收益是更高的。

他选 ff 获得的收益是更高的。所以我们可以判断出来,参与者二应当是要选 ff 的。那么即使参与者二发生了颤抖,那参与者二选 ff 的概率大大超过了选 ee 的概率。所以我们可以认为,比方说参与者二选 ff 的概率是 (1δ)(1-\delta),那选 ee 的概率是 δ\deltaδ\delta 趋近于0。

那么一旦推断出来他们参与者的策略是这样的话,再看参与者 1.11.1。参与者 1.11.1 如果选 BB 能够获得4的收益。他要是选 AA 的话,他的期望收益是能算得出来的。他要是选 AA 的话,他的期望收益是多少?这边这个是 δ\delta,这是一减 δ\delta。所以他选 AA 有可能抵达这个节点。抵达这个节点的概率是多少呢?抵达这个节点的概率是 ϵ×δ\epsilon \times \delta。然后的话得到他的收益2,所以 2×ϵ×δ2 \times \epsilon \times \delta。再加上 0×(1δ)×ϵ0 \times (1-\delta) \times \epsilon,再加上 3×(1δ)×(1ϵ)3 \times (1-\delta) \times (1-\epsilon),再加上 6×(1δ)6 \times (1-\delta)。这不是得到他选 AA 的期望收益吗?显而易见,只要这个 ϵ\epsilonδ\delta 足够小的话,他选 AA 的期望收益一定是超过4的。

那这样的话就意味着参与者 1.11.1 他应当选 AA。所以他哪怕发生颤抖的话,那么他颤抖的时候,他选 AA 的这个概率,比方说是 (1γ)(1-\gamma),选 BB 的概率是 γ\gammaγ\gamma 趋近于0。只要我们得到了颤抖之后的策略的话,那么当这个颤抖的概率趋近于零的时候,就得到了这个均衡的策略组合。就是参与者 1.11.1 的这个策略跟参与者 1.21.2 的策略的极限合到一块的话,在原博弈中参与者一的策略是 ADAD,参与者二的策略是 ff。所以经过这样的分析,如果基于多代理人表述来定义动态博弈的颤抖手完美均衡的话,这个博弈的颤抖手完美均衡只有一个,就是 (AD,f)(AD, f) 这个策略组合。那另外的两个纳什均衡,那自然就不是颤抖手完美均衡。

也就是说,另外的那个策略组合,比方说刚才我们前面看到的那个策略组合 (BD,e)(BD, e)。那显然是不合理的。因为一旦发生颤抖的时候,每一个参与者在每一步都有可能发生颤抖的话,那其他策略的概率就是正的,真的是有正的概率抵达。抵达出来的话,这种情况下参与者 1.21.2 在这选 DD 是对的。但参与者二,你明知道对方一旦想到这个信息集之后,对方大概率会选 DD,选 CC 的概率很小的话,结果你还选 ee 的话,那显然是不合理。所以基于策略式表述来定义动态博弈的颤抖手完美均衡的话,那是不合理的。而应当基于多代理人表述来定义。好了,这个例子讲完,我们就把颤抖手完美均衡也介绍完了。休息一会儿之后,我们来讲子博弈完美均衡的求法。

单阶段偏离条件与逆向归纳法#

好,那我们接着上课。为了讲子博弈完美均衡的求法,我们下面介绍的这个方法是有使用条件的,适用于多阶段可观察行动博弈。什么叫多阶段可观察行动博弈?这个博弈分成多个阶段。在每个阶段,要么只有一个参与者行动,要么几个参与者同时行动。每个阶段结束之后,所有参与者都能够观察到过去每个参与者的行动。

比方说两个人进行囚徒困境博弈。囚徒困境博弈很简单,如果两个囚徒决定进行重复囚徒困境,就是每一次他们一起作案被警察抓住之后,放在两个不同的牢房里面,面临的选择是坦白还是抵赖。同时选择之后,这个阶段结束了,那么按照规则,每个人得到自己的收益。

比方说有的人关三个月,有人关一年。等到两个人都释放出来之后,两个人再进行第二轮博弈。两个人在一起作案,这次又被抓住了,又面临着是招认还是抵赖。然后第二次判了刑之后,等放出来了再以此类推,又被抓起来。

但是在每个阶段结束的时候,比方说在第二次博弈开始之前,双方都能观察到博弈的历史。都能知道在进行第一次囚徒困境博弈的时候,你选择了什么,我选择了什么,我们的收益分别是多少。大家都能看到过去的博弈历史,再来进行下一轮。每个阶段都能看到博弈的历史。所以要是这样的话,大家可以想到,我们要是能够用一个博弈树把一个多阶段可观察行动博弈画出来的话,这个博弈树会有什么样的特点?在每个阶段结束之后,下个阶段开始之前要行动的参与者,他所处的决策节点一定是单节点信息集。因为他完全清楚过去的博弈历史,所以每个阶段结束之后,要行动的参与者都属于单节点信息集。这是多阶段可观察行动博弈的特点。我们把多阶段可观察行动博弈分成两类。

伊朗与以色列的报复循环#

然后这边我举这个例子,比方说伊朗与以色列的报复循环,还有中美之间的贸易战。特朗普决定对中国加多少关税,我们马上宣布我们的决定。每一方的决定宣布之后,大家都能看到,然后决定下一轮如何来行动。这就是多阶段可观察行动博弈。

然后我们把它分成两类。一类是只有有限的阶段,不管这个是多少个,只要是有限的。比方说有1000个、100个都是有限的。理论上讲,人的寿命是有限的,所以我们今天讨论的博弈都是有限的。但是理论上我们也可以构建无限多阶段可观察行动博弈,就是博弈的阶段数是无限的。那么就无限多阶段可观察行动博弈,我们仅仅分析其中的一类特殊的,称为什么呢?称为无限连续多阶段可观察行动博弈。

这个无限连续,这里的连续不是指策略是连续的。是指每个参与者,它的收益函数在无穷远处是连续的。就是参与者的收益函数,在无穷远的未来,不同的博弈路径代表参与者的收益差异微乎其微。只要满足什么条件呢?按照我们幻灯片上的这个定义:一个博弈在无穷远处是连续的,如果对每一个参与者 ii,收益函数 uiu_i 满足下面的条件:

suph,h~ s.t. ht=h~tui(h)ui(h~)0,t\sup_{h, \tilde{h} \text{ s.t. } h^t = \tilde{h}^t} |u_i(h) - u_i(\tilde{h})| \rightarrow 0, \quad t \rightarrow \infty

我们解释一下这个条件。首先我们用 HH (History的第一个字母) 表示博弈的历史。可以怎么想象?要是把这个博弈画成博弈树的话,那么从根节点抵达博弈树的任何一个节点,是不是有一条唯一路径?我们把这条路径称之为历史。比方说从这个根节点抵达这个节点,抵达这个节点有一条路径是 ACAC,我们可以把 ACAC 称为一段历史。那么从这个抵达这个终结点的话,有一段历史是 ACEACE。所以我们说的每一个节点,其实它都对应着一段独一无二的历史。我们实际上甚至可以把博弈树上的节点不命名,把每一个节点直接用它对应的历史来刻画。

我们现在考虑博弈树上的两段历史,一段历史用 hh 来表示,另外一段历史用 h~\tilde{h} 来表示。那么这两段历史带给参与者 ii 的收益的差距,这差距有多大呢?我们要求满足下面这个条件,就是这两段历史不是任取的两段历史。这两段历史在从第一个阶段到第 TT 个阶段为止,在前面 TT 个阶段,这两段历史是重合的。在前面的 TT 个阶段,这两条路径是重合的。那么在 TT 个阶段之后,两条路径不一定是符合的,两条路径可以分开。

那我要求,只要这两条路径在前面 TT 个阶段是重合的,要求当 TT 足够大的时候,但并不要求 TT 是无穷大,只要 TT 足够大,那么这两条路径在无穷远的未来,参与者 ii 的收益差异趋近于0。他的差异的上界趋近于0。所以你可以正式地理解为,在无穷远的未来,这两条路径带给参与者 ii 的收益差异,收益就是没有差异,他的差异可以忽略不计。所以这个条件表明,在遥远未来的事件相对而言不重要。

如果我们要考虑,我们尽量考虑这类博弈。这类博弈中引入贴现因子。比方说,如果一个参与者明年,即在下一期,能够获得1万元的收益,他认为只相当于今年的 δ\delta (德尔塔) 乘以1万元。 δ\delta 小于1,比方说0.9或者0.95。如果贴现因子小于1,那么在这样一个博弈中,在无穷远的未来你的收益是多少?只要是有限的,在今天看来都是微不足道的。

所以大家肯定可以想象,现在20岁上下的同学,想象一下你到你100岁的时候,你是一个百万富翁还是个亿万富翁?是个穷光蛋?站在现在你觉得根本无所谓,对吧?100年之后,你100岁的时候,你那时候有1000个亿,还是有100万,还是穷光蛋一个,你现在关心吗?因为贴现到现在,基本上可以忽略不计。当然100年你可能觉得可能还是比较短,1000年可能都不在了。

总而言之,如果贴现因子小于1,那么无穷远未来的收益贴现到当前都趋近于0。所以这样的博弈肯定是无限连续博弈。它对任何两条路径的收益差异都趋近于0。它比我们定义的无穷连续博弈的要求更高。

单阶段偏离条件#

那么我们下面就要讲一个非常重要的结论,就是对于一个有限多阶段可观察行动博弈,或者对于一个无限连续多阶段可观察行动博弈。对这两类博弈我们都有这样的结论:一个策略组合构成这个博弈的子博弈完美均衡的充分必要条件是,每一个参与者都要满足一个单阶段偏离条件。单阶段偏离条件是一个策略组合能够构成子博弈完美均衡的充分必要条件。所以我们现在来正式地看一看这个结论,幻灯片定理3.3 和 3.4。

什么是单阶段偏离条件的含义呢?是说没有任何参与人可以通过在某个阶段偏离这个策略组合中他的相应策略,而在其他阶段仍然遵守这个策略组合中他的这个策略,通过这样一个单次的或者单阶段的偏离,能够提高他的收益。

就是没有策略能够做到这一点。如果每个参与者都不能做到这一点的话,那么这个策略组合就是这个博弈的子博弈完美均衡。为了帮助大家理解,我们简单地来证明一下这个定理。为什么说单阶段偏离条件是子博弈完美均衡的充分必要条件。

一个博弈可以分成很多个阶段。比方说前面是第一个阶段,第二个阶段一直到第 TT 个阶段,后面又有很多个阶段。无论在哪一个阶段,那么这个阶段开始的时候,这个阶段要做决策的参与者,他一定处于一个单节点信息集。所以在这个阶段,比方说到了第 TT 个阶段,那么在第 TT 个阶段要做决策的这个参与者,他所处的这个博弈历史可能有好多段博弈历史。有,比方说我们用 h1th^t_1h2th^t_2 等等,因为从博弈的根节点开始,到博弈的第 TT 个阶段,它有很多不同的路径。

每一条,每一个到了第 TT 个阶段之后,这个时候如果我们这个参与者的话,他所处的每一个节点都对应了一条独一无二的一段历史。而且这些节点都是单节点信息集。

当然,如果说在这个阶段是几个参与者同时行动的话,那在这个阶段的时候,比方说我们参与者一跟参与者二同时行动。参与者一,参与者二看起来,他好像不是属于这一个单节点信息集。但实际上这相当于在一个策略式矩阵中,双方同时行动。这要参与者一、参与者二,这边是 A,BA, B,那边是 C,DC, D。分析参与者二的时候,你看这个。

再来到这个信息集的时候,参与者知道过去的历史。他现在要决定选 CC 还是选 DD。如果对方的策略,参与者一的整个策略都给进来的话,这个时候,参与者他要做决策的这个时间点,他是不是相当于属于一个单节点信息集?实际上相当于他就是决定选 CC 还是选 DD,其实相当于你可以理解的话,我们可以把参与者一跟参与者二在这地方实际上先选择后选择都是可以的。所以相当于属于一个单节点这样的信息集。

那么单阶段偏离条件就说,到了这个博弈的任何一个阶段,在这个博弈的任何一个阶段的任何一个节点,因为每个节点都可以用一段历史来表示。比方说我们可以写下来,这边是一个节点,这也是一个节点。那么在任何阶段的任何一个要做决策的一个信息集,那么这个参与者,我们考察比方说在这个节点对应的这个信息集,比方说正好是参与者 ii 要做决策。要做决策的话,给定其他参与者的策略不变。我们已经考察了一个策略组合,比方说就以两个参与者为例:S1,S2S_1^*, S_2^*。考察这个策略组合,给定参与者二的策略 S2S_2^* 不变。

给定参与者一,他在整个过程中除了在这个节点,或者说这个信息集之外,他在博弈的其他所有阶段,以及在这个阶段中的其他的这些信息集的行动计划,都遵循 S1S_1^*。仅仅是在这个信息集,他偏离 S1S_1^* 的要求。他在这个信息集所采取的行动,比方说 S1S_1^* 要求他在这选 AA。他本来还有其他的行动可以选,比方说他还有 B,C,DB, C, D 还有几种。在这个信息集本来还有几种行动可选,但是 S1S_1^* 是要求他在这选一个 AA

我们要求,如果参与者一在这个信息集就不选 AA 而选其他的任何行动,无论选什么行动都无法提高参与者自己的收益。他保持他在整个博弈中的其他所有信息集的行动计划不变。在其他任何地方都按照 S1S_1^* 行动,仅仅在第 TT 阶段的这个信息集,在任何一个这样一个特定的信息集作为一个单次偏离,无法提高他的收益。我们就说他在这个信息集满足单阶段偏离条件。要求这个参与者一在整个博弈中的任何一个信息集都满足单阶段偏离条件。也就是说,在整个博弈中,任何一个他要做选择的信息集,他做一个单阶段偏离,做一个一次性偏离,都是无利可图的。

要求参与者一这样,也要求参与者二这样。参与者二就是给定参与者一采取 S1S_1^* 的策略。参与者二在整个博弈中的任何他的信息集,那么他要是偏离 S2S_2^* 这个策略,做一次性偏离,他是无利可图的。如果两个参与者都满足这个条件,我们就可以断定这个策略组合是有限多阶段可观察行动博弈的一个子博弈完美纳什均衡。这就是这个定理的意思。那怎么来证明呢?证明其充分必要性。我们首先说充分性。充分性是不言而喻的。

如果一个策略组合构成了子博弈完美均衡,按照子博弈完美均衡的定义是什么?当对手采取 S2S_2^* 这个策略的时候,自己在无论是在整个博弈上,还是在每一个子博弈中,以任何形式偏离 S1S_1^* 都是无利可图的。子博弈完美均衡不就是这个要求吗?要求互为最优反应,不仅在整个博弈上,而且在每一个子博弈中都互为最优反应。所以给定对手 S2S_2^* 的策略,参与者一在整个博弈上,在每一个子博弈中,以任何方式偏离 S1S_1^* 都无法提高自己的收益。这是子博弈完美均衡的定义。他以任何方式偏离 S1S_1^* 都无法提高自己的收益的话,那么他在他的某一个特定的信息集做一次性偏离的话,当然也不能提高他的收益了。

所以如果这个策略组合是子博弈完美均衡,那意味着这个策略组合一定满足单阶段偏离条件。因为做多阶段的任何复杂的偏离都是无利可图的,那作为一个简单的偏离,当然也是无利可图的。最关键是要证明它的必要性。必要性就是说,我们要证明如果这个策略组合满足单阶段偏离条件,那么我们要证明它一定能构成子博弈完美均衡。关键是要证明这。

那怎么来证明呢?我们采用反证法。我们假设这个策略组合,假设它确实满足单阶段偏离条件。但是它却不是子博弈完美均衡。不是子博弈完美均衡的话,一定有某一个参与者在这个博弈中,通过偏离到另外一个策略,能够提高他的收益。一定有。不妨假设参与者一,他把他的策略从 S1S_1^* 改为 S1S_1^\triangle,通过把策略从 S1S_1^* 换为 S1S_1^\triangle,至少在博弈的某个阶段能够提高它的收益。

在某个阶段的,至少在某个阶段的某一个信息集里,能够提高他的收益。这样他才有动机偏离到这,那么他就不能构成子博弈完美均衡。所以不能构成子博弈完美均衡的话,至少有一个参与者通过偏离到另外一个策略是能够提高他的收益的。

我们不妨假设参与者一,他从策略 S1S_1^* 偏离到 S1S_1^\triangle 能够提高他的收益。那么这就意味着什么呢?意味着参与者一选择 S1S_1^\triangle,那么参与者二的话选择 S2S_2^*。这个时候参与者一获得的收益 U1(S1,S2)U_1(S_1^\triangle, S_2^*) 是要大于参与者一选择 S1S_1^*,参与者二选择 S2S_2^* 不变的收益 U1(S1,S2)U_1(S_1^*, S_2^*)。那一定有这个。

那现在我们要为了搞出矛盾的话,我们现在采用这样的方式。我们把这两个策略 S1S_1^*S1S_1^\triangle,就把这两个行动计划加以对照。怎么对照呢?这个博弈是有限的阶段。比方说从第一个阶段到第 TT 个阶段,最后到第 TT 个阶段就结束了。我们把这两个完备的行动计划,因为它对每一个阶段的每一个信息集都给出了自己的行动方案。

我们把这两个行动计划从最后的阶段开始加以对比。比方说先对比第 TT 阶段。在第 TT 阶段这两个完美的行动计划是不是完全一样?如果不是一样,我们就从第 TT 个阶段,他要是不一样的话,一定是在第 TT 个阶段的某一个信息集里面,两个,某一个信息集或者某几个信息集的行动方案不一样。那么我们随便找出来那一个,找出来任何一个在第 TT 阶段的任何一个行动计划不一样的信息集,我们把它找出来。找出来的话,比方说它是对应的 hth^t 这个信息集。在这个信息集,这个 S1S_1^*S1S_1^\triangle 他们的行动计划是不一样的。然后在其他的信息集是不是一样,我不管它,我现在只考虑在这个信息集里面这个行动计划不一样。

行动计划不一样的话,那么现在我们稍微改一下。怎么改呢?我有 S1S_1^*S1S_1^\triangle,把这两个合起来,就是说各取一部分,生成一个新的策略。比方说这个新的策略我们称之为 S1S_1'。这个新的策略是这样。他在这个博弈中,它跟 S1S_1^\triangle 的这个策略比的话,它唯一的不同在于什么呢?唯一的不同就是在这个信息集 hth^t。在这个信息集,他原来是以 S1S_1^\triangle 的行动,然后对于其他信息集,他还是按照 S1S_1^\triangle 来行动。构造了一个新的一个策略 S1S_1'S1S_1'S1S_1^\triangle 唯一的不同之处在于,就是在这个信息集 hth^t,在 S1S_1^*S1S_1^\triangle 不同的信息集,让他按照 S1S_1^* 来行动。在其他所有的信息集,都遵循 S1S_1^\triangle

那么我们现在把 S1S_1'S1S_1^\triangle 这两个策略的优劣加以对照。这两个策略唯一的差别就在于在这个信息集中选择不一样。但是我们不是已经知道 S1,S2S_1^*, S_2^* 这个策略组合,它是满足单阶段偏离条件的,两个参与者都满足。那就意味着在这个信息集,参与者一按照 S1S_1^* 的行动一定是弱优于或者严格优于按照 S1S_1^\triangle 来行动的。也就是说,在这个地方要是按照 S1S_1^\triangle 的行动方案来行动的话,它是不可能比按照 S1S_1^* 来行动的要优的,不可能比它优。因为 S1S_1^* 满足单阶段偏离条件,任何单阶段的偏离对他来说都是无利可图的。所以他偏离到 S1S_1^\triangle 是无利可图的。所以这就表明,这样我们就可以得到一点,就是:

我要是把这个简写为把参与者二的这个策略忽略掉,这样的话。简写一下就是什么呢?就是刚才讲到的话,这个 U1(S1)U_1(S_1^\triangle) 是要大于 U1(S1)U_1(S_1^*) 的。这是从这个假定出发,他不他不是子博弈完美均衡,所以至少有一个参与者通过偏离别的策略能够提高他的收益。那么,不妨假设参与者一提高收益。那么现在我们发现,把 S1S_1^\triangleS1S_1^* 加以对照的话,那么一定有 U1(S1)U_1(S_1')。把 S1S_1'S1S_1^\triangle 加以对照的话,那么选择 S1S_1' 获得的收益一定是大于等于选择 S1S_1^\triangle 获得的收益。

那么构造出来这个之后,再看一下,在第 TT 阶段要是还有另外一个,比方说还有一个 h2th^t_2 个行动计划也不一样。这样的话,我们在 S1S_1' 的基础上的话,现在再把这个信息集参与者一他的行动计划,也从 S1S_1^\triangle 置换为 S1S_1^*。这样置换了之后,就得到了一个又一个策略 S1S_1''。那么我们同样的道理可以推出来,因为在这个信息集,参与者一他也满足单阶段偏离条件,他选择 S1S_1^* 是最优的,偏离到别的地方,一定是无利可图的。所以我们可以得到 U1(S1)U_1(S_1'') 也是大于等于 U1(S1)U_1(S_1') 的。

这样的话,我们从最后这个阶段开始,对每一个 S1S_1^*S1S_1^\triangle 赋予了不同行动计划的信息集,我们逐一地把那个行动计划由 S1S_1^\triangle 替换为 S1S_1^*。这样的话,每做一次替换,得到的策略都是比前面一个策略要做优的,至少会比他差。这样的话,一直替换到博弈,最后到博弈一开始的时候就回到了 S1S_1^* 自己了。这样的话,我们发现有很多这样的不等式。最后的话回到了 U1(S1)U_1(S_1^*)。那意味着,你看我们后来每一次构造出来的新策略,它的收益都不低于前面一个策略。U1(S1)U_1(S_1') 这个策略最低在这,所以后来构成的所有策略,它都不可能低于这个值。那么构造策略最后得到的 S1S_1^*,也不可能低于这个值。但是你说 S1S_1^* 在这,现在我们说构造出来他不可能低于这,那就产生了矛盾。

所以意味着对于无限连续多阶段可观察行动博弈,这个单阶段偏离条件也是构成子博弈完美均衡的一个充分条件。只要满足单阶段偏离条件,那么就一定构成子博弈完美均衡。虽然这个证明看起来有点麻烦,但是理解这个证明还是有意义的。

这个证明过程告诉我们,对于一个一般的多阶段可观察行动博弈,如果有无限个阶段的话,并不是都可以提供单阶段偏离条件的。它是有前提的要求,这个博弈是无限连续博弈。如果不是无限连续博弈的话,我们刚才这个论证是不成立的。所以对一个一般的无限多阶段可观察行动博弈的话,那么当前的前提条件并不能够用来判断一个策略组合是不是能够构成子博弈完美均衡。只有它是一个无限连续博弈的时候,这个条件才能够用。否则的话,要不是一个无限连续博弈的话,哪怕他满足单阶段偏离条件,也未必能构成子博弈完美均衡。

这个就是非常重要的单阶段偏离条件。关于这个单阶段偏离条件的内容和证明,大家有没有什么问题?

国内一般的教科书,或者说国内外一般的本科生教科书,都不讲单阶段偏离条件。一般讲这一部分的时候,直接讲逆向归纳法。讲逆向归纳法就是从后往前倒推,比方说海盗分金,从后往前倒推,推出这个结果之后,把每个参与者的策略写出来,就说这个策略组合就是这个博弈的子博弈完美均衡。但是你要是仔细一想,就会产生这样的疑问:为什么采用逆向归纳法得出的这类组合,你就能够断定他能够构成子博弈完美均衡?它的原理就在单阶段偏离条件,就是说采用逆向归纳法所推出的这个策略组合,它一定满足单阶段偏离条件。是因为它满足单阶段偏离条件,所以我们才说它能构成子博弈完美均衡,是这样。但是一般的书,因为不讲这个,所以直接告诉你,你就采用逆向归纳法解就可以了。但是没有告诉你,采用逆向归纳法求出来的解为什么就能构成均衡,没有证明这一点。

例8 逆向归纳法#

我们可以通过一个简单的例子来看一下,然后我们通过简单的例子来看一下逆向归纳法。比方说有这样一个博弈,三个阶段。采用逆向归纳法是这样来分析的。从最后的阶段开始往前倒推,如果处于这个阶段参与者一要行动,那这个阶段变成了单人决策问题。他选 UU' 得到5,选 DD' 得到4。5大于4,所以他应该选 UU'。我们在 DD' 上面打一个叉,保留下来他做的最优选择。

这个求出来之后,再倒推到倒数第二个阶段。在这参与者二如果选 LL 获得1的收益。如果选 RR?那么根据刚才的分析,参与者一会选 UU',他只能获得0的收益。0小于1,所以参与者二不会选 RR。我们这边打个叉。进一步往前倒退,参与者一如果选 UU,如果选 DD 的话,根据刚才的分析,参与者二会选 LL,那么参与者一获得1。1小于2,所以参与者一在这不选 DD

逆向归纳法很简单,比化简法很简单。这样分析完之后,我们就可以把这个策略组合写出来了。比方说参与者一的策略是什么呢?就是保留下来没打叉的行动构成的组合。参与者一的策略是这个信息集选 UU,这个信息集选 UU',所以参与者一的策略是 (U,U)(U, U')

参与者二的策略是什么呢? LL。我们可以断定 (U,U;L)(U, U'; L) 就是这个博弈的子博弈完美均衡。所以逆向归纳法求子博弈完美均衡是很简单的。但是为什么它能构成子博弈完美均衡?我们简单地看一下之后就下课。你看逆向归纳法这样求了之后,我们可以看,我们说逆向归纳法求出来的解一定满足单阶段偏离条件。比方说我们分析这个阶段,到了这个阶段,参与者一要做一个单阶段的偏离,是偏离到 DD'DD' 已经打叉了,表明在这个地方他偏离到 DD' 的话,收益是会降低的。所以在这个节点,参与者一满足单阶段偏离条件。再看一下。

比方说参与者一在这个节点,这个节点的话你看给定对手的策略要保持不变,给定自己随后的策略 UU' 也保持不变。那么看一下自己的话,在当前这里做一个单阶段的偏离。要是不偏离选 UU 获得2,单阶段偏离到 DD。给定对方选择 LL 不变,自己是不是只能获得利润收益?所以在这个信息集,参与者一是没有动机单阶段偏离到 DD 的。那就意味着参与者一在这个博弈中,在他们每个信息集里都没有动机做单阶段的偏离。

那参与者二呢?参与者二给定对方的策略保持不变,对方后面会选择 UU' 保持不变。自己要是不偏离选 LL 获得1的收益,要是偏离到 RR 那么会到这结束,只能获得0的收益。所以这边打叉已经表明,他这个贡献度大约2000米。所以参与者二也满足单阶段偏离条件。

两个参与者都满足单阶段偏离条件,这个博弈是不是有限多阶段可观察行动博弈?是不是三个阶段可观察行动?每个阶段只有一个参与者行动,所以满足单阶段偏离条件,一定构成子博弈完美均衡。但是你要是按照定义来验证它是子博弈完美均衡的话,那就要比较复杂。因为你要验证它以任何形式偏离既定策略都是无利可图的。不仅是单阶段的偏离,多阶段偏离也要是无利可图。如果这个博弈树更加复杂的话,一个参与者在博弈中有很多次行动的机会,而且这样的一个行动的时候,还有好多不同的行动可以选的话,你要验证的情形是非常多的。但是你要验证单阶段偏离的话,就情形很少,所以就很方便。好,那我们休息一会儿。

好,那咱们接着进行。逆向归纳法是我们求动态博弈的子博弈完美均衡的基本方法。

但是对逆向归纳法,我们再做一点补充说明。因为像我们分析的这种博弈是非常简单的。你看这种博弈具有有限的阶段,而且这个博弈树上的所有节点都是单节点信息集。所以逆向归纳法分析起来很简单。

因为从后往前倒推的时候,每一次的分析,你会发现分析的都是一个单人决策问题。这个地方是一个参与者一的单人决策问题,参与者一选 UU'。一旦确定之后,再来分析参与者二的时候,也是一个单人决策问题。选 LL 得到1,选 RR 得到0。也是一个单人决策问题。所以,这样的称之为完美信息的动态博弈,就是每一个节点是单节点信息集。逆向归纳法很简单。有些博弈比这个博弈要复杂。比方说:

比方说这样一个博弈。参与者一可以选 AA 也可以选 BB。那么参与者一选了 AA 之后,现在接下来比方说参与者二行动。参与者二,比方说这样他可以选 CC 也可以选 DD。参与者二行动之后,比方说又轮到一个参与者行动,比方说这地方是参与者三。

但是参与者三行动时,参与者三观察不到参与者二的选择。比方说这个博弈树的结构是这样的。那这样的话就有多节点信息集。你要采用逆向归纳法的话,我们说你看它是子博弈完美均衡。我们是从后往前,一个一个子博弈开始分析,不是一个节点开始分析。因为子博弈是可以独立分析的。所以就这个博弈树,你看我们分析从这个节点开始的这一个部分是无法分析的。因为它起始于多节点信息集。所以我们首先分析什么呢?分析这个子博弈。这个子博弈怎么分析呢?采用逆向归纳法分析这个子博弈。所以就涉及到,有的书上称之为广义逆向归纳法。

广义逆向归纳法就是说,我从后往前专门找子博弈来分析。要是发现从这开始,这是一个子博弈,可以独立分析的。我们就先分析这个子博弈,把这个子博弈的所有纳什均衡都求出来。怎么求?这个子博弈用策略式矩阵的形式表述,采用划线法就形成了一个很… 然后就混合策略均衡。就可以把这个子博弈的纳什均衡求出来。求出来之后可以算出在每个纳什均衡情况下各方的收益。因为均衡求出来了的话,那均衡的收益组合当然能求出来。比方说这个子博弈恰好只有一个纳什均衡,那就很好办。把纳什均衡求出来之后,接下来我们把这个纳什均衡下的收益组合,把它抄在这个节点的旁边。

抄在这个节点的旁边表示什么呢?只要参与者一选择 AA,那么就会得到这个子博弈的纳什均衡的收益组合。那么在这儿,这个收益组合,参与者一的收益多少?参与者二的收益多少?参与者三的收益是多少?然后再往前倒退,那么参与者一如果选 BB 得到这个终结点对应的收益,如果选 AA 得到这个子博弈的纳什均衡下参与者一的收益,哪个收益更高,参与者一就选哪个。这样就能够确定在每一个参与者的每一个信息集里,他会选择什么行动。

确定了之后,就可以把均衡写出来。均衡无非是参与者一,刚才的分析理想归纳的话就出来他会选什么,要让他的策略。参与者二的话,他策略什么呢?策略是在这个子博弈中,他的均衡策略。参与者三的策略是在这个子博弈中的均衡策略。三个参与者的这个策略构成的组合就是这个博弈的子博弈完美均衡。所以是这样的求法,可以称之为广义逆向归纳法。

如果说这个子博弈存在不止一个均衡,比方说因为我们一般讲这个均衡的个数是奇数个。如果说这个子博弈,比方说有三个纳什均衡,两个纯策略均衡,一个混合策略均衡,那怎么办呢?我们每求出一个,我们把三个均衡求出来之后,每一次用一个均衡所对应的均衡收益组合来代替这个节点。然后往前倒推求出相应的这个博弈的子博弈完美均衡。求出来之后,接下来再把这个子博弈的第二个纳什均衡的收益组合再用来代替这个节点。然后再往前倒推,又可以得到整个博弈的第二个子博弈完美均衡。然后再把第三个纳什均衡的收益组合代替这个节点,再往前倒推就可以得到第三个子博弈完美均衡。所以每次用这个子博弈的一个均衡收益组合代替这个子博弈往前倒推。

这个称之为有的书上称之为广义逆向归纳法。有的书上把这个不称为逆向归纳法,也不称为广义逆向归纳法。称为什么呢?称为子博弈完美性。就是利用子博弈完美性来求。所谓子博弈完美性就是要求在这个博弈的每一个子博弈中,双方的策略组合都能构成纳什均衡。那按照这个要求,你看每一个子博弈中都能构成纳什均衡。那么在这个子博弈中一定要是一个纳什均衡。在整个博弈中,它也要是一个纳什均衡。所以就相当于我们先求这个子博弈的纳什均衡,把均衡收益组合带进这个子博弈之后,再来求整个博弈的纳什均衡。

所以像这种方法既称为利用子博弈完美性来求,也被称之为利用广义逆向归纳法求。这是一点关于逆向归纳法的说明。好,下面我们来看另外一种情形,看连续策略的情况。比方说我们在这第一讲里面不是讲了古诺双头垄断模型?两个企业进行竞争生产同质产品,没有固定成本,只有可变成本。可变成本都是 cc。两个企业同时行动选择自己的产量,然后均衡的产量总额是多少,这是古诺模型。

例9 斯塔克尔伯格双头垄断模型#

我们现在把这个稍微改一改。我们假设两个企业的行动先后顺序是一个企业先行动,一个企业后行动。一个企业先选择自己的产量。选择产量之后,后面的企业观察到前面企业的产量,再行动。这个博弈我们称之为斯塔克尔伯格双头垄断模型。那么这个模型怎么来求它的子博弈完美均衡?

回顾一下我们前面的假定:两个企业生产同质产品,没有固定成本,只有可变成本。可变成本比方说都是 cc。每两个单位的产品发生的成本是 cc。那么企业一的产量是 Q1Q_1,企业二的产量是 Q2Q_2。这意味着企业一先选择自己的产量 Q1Q_1,企业二再选择自己的产量 Q2Q_2。两个企业的产量确定之后,这个市场的价格由反需求函数来确定。那么价格是 P=AQ1Q2P = A - Q_1 - Q_2

企业一的利润 π1\pi_1 是多少呢?利润是 (PC)Q1(P-C)Q_1。我们要是把 PP 的表达式代进去的话,就是 (ACQ1Q2)Q1(A-C-Q_1-Q_2)Q_1。这是企业一的利润函数。企业二的利润函数 π2\pi_2 也可以类似地写出来, π2=(ACQ1Q2)Q2\pi_2 = (A-C-Q_1-Q_2)Q_2。这是企业二的利润函数。

回顾一下在第一讲,如果两个企业同时行动,我们怎么来求纳什均衡呢?是不是对企业一来说,把对手的产量 Q2Q_2 视为外生给定的?然后看自己选择什么样的 Q1Q_1 能够最大化 π1\pi_1,从而求出一阶条件。整理之后,把 Q1Q_1 写成 Q2Q_2 的函数,我们称之为企业一的反应函数。同样的对企业二来说也是这样的,得到企业二的反应函数,把两个企业的反应函数联立起来求解就可以得到 Q1,Q2Q_1, Q_2。那就是纳什均衡,但是那是同时行动的古诺模型。

现在是企业一先选 Q1Q_1,选了之后,企业二观察到 Q1Q_1,企业二再选择 Q2Q_2。博弈规则变了。那么这是一个多阶段可观察行动博弈。它不能用博弈树来画,因为每个参与者的产量是连续的,有无数种,所以不能画成博弈树。但是分析方法还是逆向归纳法。

首先分析第二个阶段,企业二行动。企业二此时已经观察到了 Q1Q_1 是多少。企业二要选择 Q2Q_2 来最大化自己的利润。所以企业二首先分析他选择 Q2Q_2 来最大化他的利润。那么一阶条件我们可以求出来,求出来的话是什么呢?Q2=12(ACQ1)Q_2 = \frac{1}{2}(A-C-Q_1)。这个也是企业二对企业一产量的反应函数。只要他观察到的 Q1Q_1 值带到这个表达式里面去,就可以得到企业二的最优产量。

那么把 Q2Q_2 的这个反应函数求出来之后,现在我们倒推回到第一阶段。站在企业一的角度,企业一知道自己的利润函数是这个函数,但是他现在不能够把对手的产量 Q2Q_2 视为外生给定的。因为他知道在自己选了 Q1Q_1 之后,对方一定会按照这个表达式来选择 Q2Q_2。所以企业一应当把 Q2Q_2 视为 Q1Q_1 的函数,而不能够把 Q2Q_2 视为一个外生变量。这就意味着,我们需要把 Q2Q_2 的表达式带到企业一的目标函数里面去。

带进去的话,大家可以看这个括号里面是 (ACQ1Q2)(A-C-Q_1-Q_2)。而 Q2Q_2 的话是 12(ACQ1)\frac{1}{2}(A-C-Q_1)。所以企业一的利润函数就变成什么了?就变成 12(ACQ1)Q1\frac{1}{2}(A-C-Q_1)Q_1。企业一的利润函数变成这样。

在代入之后,你会发现它仅是 Q1Q_1 的函数,就不再是 Q2Q_2 的函数。现在企业一要选择 Q1Q_1 来最大化自己的利润。这个最优化是不是很简单?最优化条件是什么呢?是 Q1=12(AC)Q_1^* = \frac{1}{2}(A-C),得到企业一的最优产量。得到企业一的产量之后,第二个阶段观察到了企业一的这个产量。那么企业二会根据这个产量行动,把 Q1Q_1^* 带到 Q2Q_2 的表达式里面去,所以就可以得到 Q2Q_2^*

Q2=14(AC)Q_2^* = \frac{1}{4}(A-C)。这样我们是不是就求出来这个博弈问题的均衡解?均衡解就是企业一在第一阶段先行动,选择产量是 12(AC)\frac{1}{2}(A-C);企业二后行动,选择的产量是 14(AC)\frac{1}{4}(A-C)。所以你可以看到两个企业的产量是不一样的。

回顾一下我们前面讲的第一讲的古诺模型,两个企业同时行动的时候,大家回顾一下 Q1=Q2=13(AC)Q_1^{**} = Q_2^{**} = \frac{1}{3}(A-C)。同时行动的时候,每个企业的产量是 13(AC)\frac{1}{3}(A-C)。现在有行动先后顺序的时候,先行动的企业生产的产量更大,后行动的企业生产的产量更小。我们进一步可以看一下哪个企业的利润更高。

你看,把这个 Q1,Q2Q_1^*, Q_2^* 带到 PP 的表达式里面去就可以得到价格。两个企业的产品卖的价格是一样的,成本也是一样的。但是产量的话,一个是另外一个的两倍。所以我们可以断定,企业一的利润一定是企业二的两倍。这意味着企业一具有先动优势。在这个博弈中,先下手为强,就是先行动的这一方是占优势,后行动的这一方是处于劣势。

还有一个问题就是,我们刚才分析了这些之后,我要问你的话,这个博弈的子博弈完美均衡是什么?

这个博弈的子博弈完美均衡是什么?

大家想一想,我前面上一节课刚刚区分了什么是均衡,什么是解,什么是均衡路径。Q1=12(AC)Q_1^* = \frac{1}{2}(A-C)Q2=14(AC)Q_2^* = \frac{1}{4}(A-C),这是不是一个策略组合?参与者一的策略是产量定为 12(AC)\frac{1}{2}(A-C),参与者二的策略是产量定为 14(AC)\frac{1}{4}(A-C)。这个策略组合是不是唯一的子博弈完美均衡?你觉得是不是?是吗?这个策略组合甚至不是一个纳什均衡。为什么说他不是一个纳什均衡呢?我们来看一下,如果企业二的产量给定企业二的产量是 14(AC)\frac{1}{4}(A-C),你看企业一会不会把它的产量定为 12(AC)\frac{1}{2}(A-C)?再看一看企业一的这个目标函数。企业一的目标函数中,你看如果 Q2Q_214(AC)\frac{1}{4}(A-C)。那这样的话,企业一要最大化它的利润的话,它的一阶条件是什么?是不是 (ACQ2)2Q1=0(A-C-Q_2) - 2Q_1 = 0?这是他的最优反应。最优反应的话,你看他的这个最优反应要求 Q1=12(ACQ2)Q_1 = \frac{1}{2}(A-C-Q_2)。代入 Q2=14(AC)Q_2 = \frac{1}{4}(A-C),所以 Q1=12(AC14(AC))=12×34(AC)=38(AC)Q_1 = \frac{1}{2}(A-C-\frac{1}{4}(A-C)) = \frac{1}{2} \times \frac{3}{4}(A-C) = \frac{3}{8}(A-C)。所以如果企业二的产量定为 14(AC)\frac{1}{4}(A-C),企业一根本不会把产量定为 12(AC)\frac{1}{2}(A-C),它会定为 38(AC)\frac{3}{8}(A-C)。这意味着这个策略组合并不是一个纳什均衡。

但是我们刚才不是采用逆向归纳法求出来这个解吗?怎么逆向归纳法求出来的解,甚至都不是纳什均衡?你们觉得奇怪吗?因为如果企业一这么做,企业二全面测。应当说这样子我们采用逆向归纳法求出来的是这个博弈的解,这是这个博弈的解,或者说这个博弈的子博弈完美均衡所定义的均衡路径。均衡路径是 Q1=12(AC)Q_1^* = \frac{1}{2}(A-C)Q2=14(AC)Q_2^* = \frac{1}{4}(A-C)。就是说在这个博弈中,按照博弈的持续发展的时候,企业一会采取这个行动,随后企业二会采取这个行动。这是均衡的路径或者是解。但是它不是这个博弈的,不是我们所说的子博弈完美均衡。

子博弈完美均衡是什么呢?其实很简单,子博弈完美均衡是这个:参与者一的策略是 Q1Q_1^*,企业一采取这个策略。企业二的策略是这个策略:Q2(Q1)=12(ACQ1)Q_2(Q_1) = \frac{1}{2}(A-C-Q_1)

这是企业二的策略,这是一个完美的行动计划。他在后面第二个阶段行动的时候,根据观察到的 Q1Q_1,按照这个方式做出最优反应。所以这个才是企业二的均衡策略,企业二的反应函数是它的均衡策略,企业二的一个特定产量不是它的均衡策略。所以你要写它的子博弈完美均衡的话,应该是写这个策略组合:Q1=12(AC)Q_1^* = \frac{1}{2}(A-C),以及 Q2(Q1)=12(ACQ1)Q_2(Q_1) = \frac{1}{2}(A-C-Q_1)。这个是这个博弈的子博弈完美均衡。这个 Q1Q_1^*Q2Q_2^*,只是这个博弈的子博弈完美均衡解,只是解,但不是均衡。

另外我们也很容易验证,这个策略组合 Q1=13(AC)Q_1^{**} = \frac{1}{3}(A-C), Q2=13(AC)Q_2^{**} = \frac{1}{3}(A-C),是不是这个斯塔克尔伯格模型的一个纳什均衡?你们觉得是不是?我们在古诺模型中求出的这个均衡解。这个均衡的话,是不是这个行动有先后顺序的斯塔克尔伯格模型的一个纳什均衡?

是,当然是互为最优反应。如果企业一一定按照这个方式来决定自己的产量,一定把产量定为 13(AC)\frac{1}{3}(A-C),那企业二一定会把它的产量定为 13(AC)\frac{1}{3}(A-C)。如果企业一把它的产量定为 13(AC)\frac{1}{3}(A-C) 的话,企业二也会这样来定。它是互为最优反应的,它是纳什均衡。但是它不是子博弈完美纳什均衡。为什么说不是子博弈完美均衡?所以通过这个例子,我们可以仔细辨别,什么是纳什均衡,什么是子博弈完美均衡,什么是均衡路径,或者说解,这些概念是有差别的。

那讲到这个的话,再补充一点,就是刚才讲的两个企业通过产量来进行竞争的时候,我们发现先行动的企业能够获得更大的利润。所以在企业以产量进行竞争的时候,每一个企业都有动机先下手。现实世界中大家有没有观察到企业通过产量进行竞争?比方说有OPEC组织。或者说,比方说大宗产品的竞争的模式都是这样的。

比方说大豆或者玉米,就是这种大面积种植的农产品。你们可以参考一下。比方说两家农场,全国只有两家农场,大家都在生产大豆,别的企业没有人生产。那么这两个农场要决定自己的大豆的播种面积。播种面积定了的话,相当于自己的产量定了。两个企业的播种面积确定之后,等大豆成熟的时候,整个市场大概的供应量是不是也确定了?大概的价格是不是也确定了?所以就相当于是一个产量竞争。这个时候有先动优势的话,你会发现每个农场要是有博弈思维的话,都想先下手。农场就先播种。我现在已经播下去了,比方说我播了1万亩。那么我已经先行动了。你知道我已经播种了1万亩的话,那从你的利益出发权衡之后,你可能就只能少播种一点。所以这就是产量竞争的情况下具有先动优势。

但是我们要是把这个竞争手段稍微改一改。假设两个企业不是产量竞争,是价格竞争。两个企业分别给自己的产品确定价格。假设两个企业的产品是完全同质的。比方说两个商店都卖农夫山泉的矿泉水。有很多消费者,消费者总是买便宜的。这种情况下你们觉得是先定价好还是后定价好?后定价好。因为只要对方定的价格有利可图的话,我比对方定的低两分钱,消费者都买我的。那就是后发制人。

为什么这个博弈是两个企业的竞争,仅仅是竞争的工具或者手段不一样,那么就涉及到先下手为强还是后下手为强,这个结论就不一样。那么有没有一些一般性的规律呢?有,一般性的规律在于什么?你来分析一个博弈的时候,比方说你先不知道谁先行动,谁后行动。你假设两个参与者同时行动,你思考一下给定对方的一个行动的话,你的最优反应是什么?就是在这个同时行动博弈中,你的最优反应是什么?或者说,你假设对方先行动,你后行动的话,是不是更容易求出你的最优反应?

是不是觉得最优反应之后的话,看看你这个最优反应函数,最优反应函数是对手策略变量的单调递增函数还是单调递减函数。比如说在这个产量竞争中,产量竞争中,你看企业二的反应函数是 Q2=12(ACQ1)Q_2 = \frac{1}{2}(A-C-Q_1)。当然企业一的反应函数也是类似的。如果两个企业同时行动的话,它的反应函数都是类似的。企业二的反应函数是对手的产量的单调递减函数。单调递减函数意味着什么?意味着对手的产量要是越高的话,那么我的最优产量就越低。这意味着什么呢?对手扩大产量的话,它能够替代我的一部分产量。

所以这种情况下,我们说具有策略替代性,就对手的策略能够替代我们的策略。那么一般结论就是,如果存在这种策略替代的场合,那么先下手为强。在存在策略替代的这种场合,先下手为强。

反过头来,我们再考虑一下这个价格竞争。价格竞争,比方说你的对手定的一个价格 P2P_2。这个 P2P_2 肯定要想赚钱, P2P_2 是大于他的成本的,他也是有利润的。那么你会定一个什么价?你定的价可能就比 P2P_2 稍微低一点,把消费者都吸引过来,你也能赚钱。

那么随着对方提价,对方的这个价格要是进一步往上提,你的最优反应,你的价格会不会也往上提?所以你的最优反应是对手的策略变量的单调递增函数。这种情况我们称之为策略互补。

具有策略互补。策略互补类似我们很多人都戴眼镜。比方说眼镜跟装眼镜的眼镜盒,这两个商品是互补性的。眼镜销量越大的话,那眼镜盒的销量肯定也越大。这种情况就是策略互补。在策略互补的情况下,是后发者。所以说让对方先行,自己后行,这种情况下是适合你的。这是一些一般性的规律。

好,讲到这儿的话,我们就。比方说如果是都是 13(AC)\frac{1}{3}(A-C) 的时候,那它是不是子博弈完美均衡?当然不是,它只是纳什均衡,仅仅互为最优反应。但是最后就是说,给定对方采取这个策略,那么我采取这个策略是最优反应,仅仅是纳什均衡。但是你要想一想,为什么说它不是子博弈完美均衡?你想一想,根据这个策略组合,大家可以算一下,企业一的利润是多少。

企业一的这个利润函数是这样的,你看 (PC)Q1(P-C)Q_1。这个时候 PP 等于多少?Q1+Q2Q_1+Q_223(AC)\frac{2}{3}(A-C)。所以这个企业一的利润的话,是企业一的利润是 (PC)Q1(P-C)Q_1。那么这个 PP 是多少呢?PP 是刚才已经说出来了,P=A23(AC)P = A - \frac{2}{3}(A-C)。再减去单位成本 CC。这样讲的话,你看是不是 (AC)23(AC)(A-C) - \frac{2}{3}(A-C)?那这样的话,这个 (PC)(P-C)13(AC)\frac{1}{3}(A-C)。那么企业一的均衡产量也是 13(AC)\frac{1}{3}(A-C)

所以在这个纳什均衡中,企业一的利润是 19(AC)2\frac{1}{9}(A-C)^2。我们得到了这个利润是 19(AC)2\frac{1}{9}(A-C)^2

我们再看一下在这个子博弈完美均衡中,Q1=12(AC)Q_1^* = \frac{1}{2}(A-C)Q2=14(AC)Q_2^* = \frac{1}{4}(A-C)。再来算一下企业一的利润,企业一的利润是多少?Q1+Q2=34(AC)Q_1^* + Q_2^* = \frac{3}{4}(A-C)。那么 (PC)(P-C) 的话,这个 (PC)(P-C) 的话,P=A34(AC)CP = A - \frac{3}{4}(A-C) - C。所以现在 (PC)(P-C)14(AC)\frac{1}{4}(A-C)14(AC)\frac{1}{4}(A-C) 这是现在每卖出一个单位的产品挣的钱,再乘上企业一的产量 12(AC)\frac{1}{2}(A-C)。那么这个利润是多少?利润现在变成 18(AC)2\frac{1}{8}(A-C)^2。在这个子博弈完美均衡中,企业一的利润是更高的。

既然如此,那企业一在他先行动,他知道如果选 13(AC)\frac{1}{3}(A-C),那么最后的话,利润一定是 19(AC)2\frac{1}{9}(A-C)^2。如果选 12(AC)\frac{1}{2}(A-C),这个的利润一定是 18(AC)2\frac{1}{8}(A-C)^2。那这个利润更高的话,当然一开始就不选那个,就不会把产量定为 13(AC)\frac{1}{3}(A-C),就会定为 12(AC)\frac{1}{2}(A-C)。这就是逆向归纳法求子博弈完美均衡。定义就是说,整个博弈上是纳什均衡,并且在每个子博弈上也是纳什均衡。对,那么古诺均衡中,双方产量都是 13(AC)\frac{1}{3}(A-C) 的情况,在整个博弈上是纳什均衡。

在其他子博弈中,只要企业一的产量一开始不是 13(AC)\frac{1}{3}(A-C),那么古诺均衡中的策略组合就不是最优反应。所以有的书上,他也把这个博弈画博弈树。有的书上怎么画博弈树?就是两个阶段。企业一先行动,企业一先行动的话,企业一比方说他画一个圆弧,这个圆弧的话,这是比方说它的产量从0,假设一个最大的一个有上限,你看它的产量最大的话,也不可能超过 AA。比方说一直到 AA。那么就是说他在这个上面是可以连续取值的。那么这个圆弧上面的任何一点的话,是不是又轮到企业二行动?那企业二的话,你看是不是一样一个这样的圆弧?他也可以这边是 Q1Q_1,这边是 Q2Q_2。那 Q2Q_2 比方说也是0到 AA。它化成把博弈树画成这样的形式,你很好理解。你看对于这个企业一的任何一种产量,其实下面都有这样的子博弈,都有个这样的子博弈。但是刚才求出的这个,就是前面古诺均衡中的这个均衡的这个纳什均衡的这个策略组合的话,仅仅是在一个特定的子博弈中,它可能构成均衡。

在别的那个,就是如果企业一的产量一开始不是 13(AC)\frac{1}{3}(A-C) 的话,在这里面的话,它是不能够均衡的。但是我们求出的子博弈完美均衡,那就是了。那企业一在第一阶段,所以按照这个来行动。那企业二的话,始终按照这个来反应。所以不管你的 Q1Q_1 定位多少,我都按照这个反应都是最优的。所以企业二在每一个子博弈中,他都做出了最优反应。因为他的这个策略是非常灵活的,对于你的任何的 Q1Q_1 带进去之后的话,都可以得到他的最优反应。

老师这个问题里面,他的那个企业一的反应有没有企业二?只有一个企业的反应是一样的技巧还是就是企业二的企业一就是如果没有企业二的,只有这个市场,全场只有一个企业,那只是一个巧合。我们很容易把这个博弈,比方说以前我在十年前的课堂曾经有过这样的练习。比方说我们的博弈很容易把它变成一个三企业的博弈。企业一先行动,企业一行动之后,企业二跟企业三同时行动。企业二跟企业三同时行动。这种情况下逆向归纳法就要求先求第二阶段,企业二跟企业三的那个同时行动博弈的纳什均衡。求出来之后的话,再回到博弈的第一阶段,求企业一的最优反应。那求出来你看跟你所想的就不一样了。这个可以做很多很多变化。

重复博弈#

好,下面我们还有一点时间的话,重复博弈开个头。大家在座的同学有没有人读过一本书,叫做《合作的进化》?有没有人听过这本书?那个作者是美国密歇根大学以前政治系的教授,叫做阿克谢罗德。中文的话给他翻译成阿克谢罗德,就是上海人民出版社翻译的这本书。没看过?另外一本书大家看过没有?叫《自私的基因》,应该有人看过,对吧?《自私的基因》那本书是先出版的。

后来阿克谢罗德在80年代,在80年代末90年代初,出了那一本《合作的进化》之后,请《自私的基因》的作者给《合作的进化》这本书作序。然后这个作者在《自私的基因》的作者,在序言里面把《合作的进化》这本书捧得非常高。我的印象中,他在序言里面最后一句话是“这本书值得取代圣经”。

这有多高?他为什么把他吹得这么高呢?是因为阿克谢罗德当年就是在80年代的时候,他有一个想法,就是如果让囚徒困境博弈重复进行多次,那么你们想想囚徒困境如果只进行一次的话,坦白是不是一个占优策略?但是你想一想,如果说你跟你对手玩,比方说我们提前约定好总共玩十轮,每一轮结束之后都能看到上一轮你出了什么,我出了什么。每个人都有自己的收益,根据那个矩阵的话得到自己的收益。

大家想一想,当囚徒困境博弈要是重复进行,总共进行十轮的时候,那变成一个多阶段的可观察行动博弈。在这个博弈中,你说每个阶段都选择自己的占优策略,就是坦白,是不是把这十轮博弈作为一个整体的话,是不是这个整体博弈的一个占优策略?为什么?

你会发现它取决于对手选什么,对吧?但不像一次性博弈,不管对手选什么,我选坦白都是最优的。但是如果进行多轮的话,你选择什么策略,好还是坏,取决于对方选择,它没有一个,就是一个严格的这样一个策略。所以阿克谢罗德就很好奇,就是说人们玩囚徒困境博弈的话,有没有一个策略总体来说是比较好的。所以他在上个世纪80年代初期的时候,他就想做一个实验。

做一个实验的话,那个时候计算机还不普及。就在他所认识的学术圈子里,找感兴趣的一些专家学者,包括有心理学家、社会学家、博弈论专家等等,来参与一个实验。他说:“我们准备让大家玩这个重复囚徒困境博弈。比方说重复100次。重复100次的话,这个博弈的规则是这样,就是重复100次,每一次结束之后都能看到过去的博弈历史。然后如果,比方说无论有多少人报名,比方说有十个人报名进行循环赛,就是任何两个参与者之间都玩一次囚徒困境博弈。”那么他邀请参赛的这些专家,每一个人写下他的策略。就说你准备玩这个游戏的话,你准备采取一个什么样的策略。

比方说你采取每一轮都是坦白,那你就是一种很简单的策略。你也可以采取更复杂的策略。那么邀请这些专家把自己的策略写下来之后交给他。然后他把这些策略变成计算机程序。在计算机里面,这些策略两两对抗进行囚徒困境博弈。最后计算每一个策略所获得的总分,看哪一个策略获得总分最高的话,那就意味着这个策略表现比较好。

结果他第一次比赛竞赛结果出来之后,他挺意外。因为获得总分冠军的是加拿大多伦多大学心理系的一个教授。这个教授提出了一个针锋相对策略。这个策略获得了总分的冠军。

针锋相对策略很简单。针锋相对策略就是第一个阶段采取合作行为。就囚徒困境博弈来讲,就是我第一次跟你玩囚徒困境博弈的话,我选择抵赖,准备跟你合作。第一轮采取合作行为。从第二轮开始,礼尚往来或者以牙还牙。就是第二轮开始采取什么行动的话,根据对手上一个阶段的行动而定。如果你上个阶段对我投之以桃,我下个阶段对你报之以李。如果你上个阶段对我不仁,我下个阶段对你不义。就是说你上个阶段要是选择的是抵赖,意味着你跟我合作了,我下个阶段也选择抵赖。你上个阶段坦白了,对不起,我下个阶段也坦白。把这样的策略称之为针锋相对策略。

这个策略是不是很简单?这么简单的策略居然获得了这个总分的冠军。所以那个时候觉得那有可能是一种巧合,碰巧因为比赛人也不是很多,所以他想再进行一次比赛。所以这一次他在一个计算机杂志上登广告。因为那个时候的微机还没有普及,有计算机的人基本上没有什么个人,都是在机房里面才能有这个计算机。

然后登广告,登广告招募人来参加这个重复囚徒困境博弈的循环赛。他不仅告诉大家博弈规则,而且还在广告里面告诉大家说,我已经举行过一次这样的比赛了。而且获得总分冠军的是针锋相对策略。他这个策略是怎么回事,就是把上次获得冠军的策略告诉潜在的那些想参赛的选手。那你想一想,告诉了之后那些来参赛的选手都知道上一次针锋相对策略获得了冠军。那么有的人可能会想,如果我能想一种策略要是能够战胜针锋相对策略的话,那我就有希望获得冠军。所以有的人可能会从这个思路来设计策略。那这一次的话,这一次他总共收到了14条回应,就是有14个学者来报名参加了,分别提交了自己的策略。

然后是进行200轮的囚徒困境博弈。同时除了这14个策略之外,他还自己补充了两个策略。一个策略是随机选择坦白跟抵赖。这样再来进行一次循环赛,结果循环下来,结果出来之后,让他很意外的是,总分的冠军依然是针锋相对策略。所以他就觉得,你说一次是碰巧,两次的话,特别是第二次比赛的时候,我已经告诉大家上一次的冠军是针锋相对策略。那怎么这一次,冠军还是这个策略?所以他就来研究这个策略到底这么好。后来他就以此写了一本书,他总结了为什么针锋相对策略在实验中表现得这么好。总结来的话,他有下面的几个特点,使得它更加成功。

四个特点就是善意、报复、原谅和明确。我们说什么是善意的?善意就是说其实一开始的时候与人为善。因为我跟一个人打交道,我并不知道这个人是好人是坏人,一开始的时候,我先采取合作行为,即选择抵赖。这个报复是什么呢?报复就是说当对手要是背叛合作的时候,你不能忍气吞声,一定要报复。就像特朗普要是挑衅我们,我们一定要报复,就是这样。

你要是总是忍气吞声做好人的话,那对方肯定会继续欺负你,因为特朗普专门欺负软弱的企业,对吧?如果你越是逆来顺受的话,他觉得那欺负你没有任何的成本,那当然欺负你。第二个就是报复,报复的话,还有一个另外一种表述称为什么呢?听这个的话就是说可识别性,就是你是可以被别人记住的。你不要别人怎么对你,你都不记录。要具有可识别性。

第三点是原谅。原谅就是说浪子回头金不换。如果对方要是改邪归正的话,也别死缠烂打。对方如果回到合作,比方说对方上一轮回到了合作,那么我下一轮也会选择合作。所以要原谅对方这一点,当对方改邪归正的时候,要原谅对方。

第四点是什么呢?是明确。所谓明确就是规则非常清楚。就像我们现在中国对特朗普的政策一样,谈判大门敞开,但若要打则奉陪到底。如果你过去跟我打,现在改邪归正,我们也愿意进行合作,这就是针锋相对策略。他为什么表现这么好的话?我们可以把它跟另外一种策略比较。比方说,在所有这个风险过程中,大家可以想另外一种策略。

另外一种就是每个阶段都采取借贷供应的占优策略,每个阶段都选择坦白。这两个策略比较的话,我们可以发现,针锋相对策略的适应性最强。比方说要是碰到一个老好人,每一轮都选择抵赖的,那么那个总是坦白的那个策略是不是每一轮都大赚?但针锋相对策略只在第一个回合吃亏。

针锋相对策略的话,就是说他在每个回合都能够跟对方合作。因为碰到一个老好人的话,我一开始是合作了,以后都支持对方的话,每个人都合作。那比较起来的话,他没有比那个总是坦白的那个策略要好。但是问题在于,如果要是也碰到一个恶人,要碰到一个总是坦白的恶人的话,那我最后下来,针锋相对策略,它是这样,针锋相对策略的话,他只在第一轮吃一点亏。再以后,他是都能够马上就回到报复了,以后就不再吃亏了。如果个人碰到个人的话,你想一想,每一轮就两败俱伤。但是关键在于说,如果要是碰到另外的这个另外一个策略,另外一个策略就是恶人跟恶人碰到一块的时候,恶人之间没有办法达成合作。

但是针锋相对策略,他碰到恶人的时候,只在第一个回合吃亏。碰到好人能达成合作,碰到同类也能够达成合作。所以它的适应性非常强,不管碰到什么对手,他不吃大亏。而且碰到很多对手,他能够长期合作,从而能够获得合作的收益。所以这是针锋相对策略适应性很强的一个原因。

大家有兴趣,因为时间到了,我们今天的课就不继续讲。有兴趣的话我推荐你们在下次上课之前玩一个游戏。在百度上搜一下叫“信任的进化”。这个游戏是新加坡的一个小伙子把阿克谢罗德的竞赛做了一个简化版的电脑游戏。玩这个游戏大概二十几分钟可以把这个游戏玩一遍,就可以体验到不同策略它的优劣。好吧,我们今天课就上到这。

关键点和注意事项#