Skip to content

博弈论转录1112

· 163 min

以下是根据转录稿和幻灯片内容整理的优化转录稿:

引言与课堂管理#

好,还有两分钟上课,我们先来个开场白。上一次课我印象中来的人比今天好像还要少,所以我点了一次名,提醒大家上课时还是要尽量到场。特别是上次我强调过,下个礼拜开始,连续三个礼拜是教育部专家线上听课的时间。所以,从下个礼拜开始,连续三个礼拜,大家请务必来上课。

我知道有的同学上一次没有来,可能是因为期中考试或其他课程比较紧张。但是也有的同学可能是基于一个理性的分析。什么理性的分析呢?就是因为我们现在每个教室都有录像设备,教学网上可以看课程回放。在宿舍看回放有两个好处:第一,不用奔波一趟;第二,你还可以跳着看,哪个地方觉得我讲得啰嗦,你可能可以跳着看。这样的话,你有可能觉得看回放相对于到教室来上课,是一个收益更大的选择。

但是问题在于,如果大家都看回放,那我到教室里对着空气讲显然也不合适。所以大家可以考虑一下,如果我现在呈现这样的博弈规则:我来上课前可以看到有多少人来了。基本上现在中期,有五个人配合之后,教室里选课的人有99个,加上一个旁听的同学,总共100个同学。这个教室里的座位是104个,所以只要发现空两个座位,超过两个座位就意味着一定有人没来。当然,如果我发现空三个座位,我就不会给… 假设我设定一个规则,每一次来上课时,我估算一下,如果来上课的同学比例低于85%,那么我就点名;要是不低于85%,我就不点名。那这样你想想,如果我点名而你又没来被点到,还是会有一些负面后果的。

所以你们可以设想一下三种情况下你的收益:一种情况是你来了,但我没有点名;另一种情况是你没来,我点名了;再一种是你没来,我点不到你。对于一个理性的同学来说,可能最佳选择是没来上课看回放,但又没被点名,是不是?是这样一个结果。

但是问题在于,大家并不是同班同学,你们互相之间平时并不是很了解。所以你每次周三晚上要决定来不来上课时,你要有个预期,预期今天来上课的人数是否会达到85%。你必须根据你的预期做出一个选择,每个人同时独立选择。所以,你们在座的所有同学,100个同学之间,是有一场博弈的。你们可以求解一下这个博弈的后果。

当然,还有一些具体的收益需要约定这个博弈。实际上,我描述的这样一个来上课的博弈,跟历史上在上个世纪五六十年代,博弈论专家圈子里大家一直讨论的博弈,本质上是一样的。博弈论起源于普林斯顿,冯·诺依曼等人都在普林斯顿大学工作。普林斯顿大学附近有一个酒吧,那时候每到周末,这些学者就想去不去那个酒吧消遣一下。但是他们对到了酒吧可能面临的结果有不同的偏好。比如,到了酒吧发现只有自己一个人,人很少,就会觉得很无聊,因为去酒吧的目的是为了跟人聊天。但是如果酒吧坐满了,太拥挤、太嘈杂,也很难受。所以他们最希望的结果是去酒吧的人数适中,不算少。但是那时候没有手机、电话,每一个人要同时独立地决定是否去酒吧。

你会发现,即使有些人仔细统计了每周末到酒吧的人数,并试图构建模型来预测,比如根据过去周末到酒吧人数的时间序列数据来预测下一周的人数,他们想尽了各种办法,发现无法预测,完全是没有规律的。也就是说,一个博弈的结果完全是没有规律的。你要想预测下一堂课到底有多少同学在课堂上,其实很难预测。言归正传,讲这个例子,一个是强调大家要来上课,另一个是告诉大家,生活中到处都有博弈,都有运用博弈论的场合。

重复博弈:理论回顾与无限次重复博弈#

言归正传,回到我们讲的重复博弈。上一次课我们讲了有限次重复博弈,今天轮到无限次重复博弈。简单回顾一下,在有限次重复博弈中,如果阶段博弈局势只有唯一的纳什均衡,那么当这个阶段博弈重复进行有限次时,只存在唯一的子博弈完美均衡,那就是在每个阶段都出现阶段博弈的纳什均衡。这个结果如果阶段博弈存在不止一个纳什均衡,而且纳什均衡的结果,即不同的纳什均衡,代表参与者的收益是有差异的,例如参与者在两个纳什均衡中获得的收益不一样。如果每个参与者都有两个纳什均衡能够给他带来不同的结果,这个时候我们的结论是我们可以构造子博弈完美均衡,使得你所指定的任何符合个体利益并且具有可行性的收益组合,都可以作为一个子博弈完美均衡的平均收益组合。我们上次不是讲了一个例子吗?最后讲了一个落户博弈,进行100次,就是说明这个结论的。

那么,这样的结论对我们来说是非常有吸引力的,那意味着参与者是有可能达成自发合作的。能够达成自发的合作,为什么我上次课讲到的阿克西罗德的《合作的进化》那本书被捧得非常高?因为在社会科学领域,大家过去一直认为一个社会中个体之间要能够达成合作,往往需要一个中央权威,比如要有政府,政府有强权才能达成合作。要是每个参与者都追求自己的利益,他们一般来说是难以达成合作的。重复博弈的理论告诉我们,在一定的条件下,当参与者有奖惩手段可以用的时候,他们通过对奖惩手段的运用,是能够达成自发合作的。从这个意义上讲,那人类社会至少从理论上讲是不需要有政府承担的,不需要有国家和政府承担,因为参与者可以达成自发合作。所以,这就是阿克西罗德那本书的重要意义。

我们今天讲无限次重复博弈。无限次重复博弈实际上内容比有限次重复博弈更简单。为什么呢?因为当博弈重复进行有限次时,我们要想构建一个子博弈完美均衡,任何策略组合都一定要能够经得住逆向归纳法的考验。逆向归纳法要求最后一期的行动组合必须构成最后一期的纳什均衡。这样就对策略组合有要求,你需要精心构造。比如上次我们举的例子,要精心构造在最后的两期让参与者采取惩罚行动组合,在前面的98期让他们采取合作计划。每个参与者对于偏离合作计划采取什么样的行动来威胁作为惩罚。这样精心构造的策略组合才能构成子博弈完美均衡。

但是如果是一个无限次重复博弈,它没有最后一期,没有最后一期就好办了。因为我不用担心逆向归纳法会首先破解最后一期,所以没有最后一期,我们就能得到更强的结论。例如囚徒困境博弈重复进行。如果囚徒困境重复进行有限次,我们的结论是不管重复多少次,哪怕1万次,唯一的子博弈完美均衡就是在每个阶段每个囚徒都选择招认。因为我首先分析第1万期,那一定是互相都招认。最后一期确定了之后,分析倒数第二期时,你会发现因为最后一期的结果已经确定了,所以倒数第二期就相当于不用考虑最后一期了。这样由后往前倒推,一直推到第一期都出现招认,是不是?那么每个阶段每个囚徒在子博弈完美均衡中一定是选择招认,就没有别的均衡。但是如果囚徒困境博弈重复进行无限次,我们就可以得到非常一般化的结论。

什么一般化的结论呢?可以总结为下面这样一个定理,就是无限次重复博弈的弗里德曼定理(Friedman Theorem),它也属于一类“无名氏定理”(Folk Theorem)。

我们用 GG 表示一个有限的完全信息的静态博弈,它是一个阶段博弈局势。现在假设这个阶段博弈局势 GG 重复进行无限次,贴现因子我们用 δ\delta 表示,δ\delta 可以充分接近于1。

对于这个阶段博弈局势,我们找出一个纳什均衡,因为它一定有纳什均衡。纳什均衡下各个参与者获得的收益,我们用小写字母 ee 来表示。这个收益组合 ee 表示的就是在一个纳什均衡下,各个参与者获得的均衡收益。

我们指定另外一个收益组合,用 xx 表示。我们说只要这个指定的收益组合 xx 满足下面的要求:第一,这个收益组合位于可行收益区。大家回顾一下,可行收益是什么?就是这个阶段博弈局势中的收益组合的凸组合。一个凸组合就是按照相关策略进行加权平均,相关策略的概率可以任意取。只要这个收益组合位于阶段博弈局势的可行收益区域,并且这个收益组合中指定的每个参与者的收益超过他在纳什均衡中获得的收益。

只要满足这个要求,那么我们说我们一定可以构造一个子博弈完美均衡。在均衡中,各个参与者获得的平均收益组合,恰好就是你所指定的这个收益组合 xx。这是一个非常一般化的结论。所以简单来讲,就是对于任何一个位于可行收益区域的收益组合,只要这个收益组合赋予每个参与者的收益超过他在阶段博弈的纳什均衡中的收益,那么我们一定可以构造一个子博弈完美均衡,这个子博弈完美均衡代表的参与者平均收益组合,就是你所指定的这个 xx 收益组合,一定可以做到。

与这个弗里德曼定理类似的还有一个更强的结论,就是幻灯片中的命题五

命题五(无限次重复博弈的Fudenberg-Maskin定理)#

命题五说,这个定理称之为富登伯格-马斯金定理(Fudenberg-Maskin Theorem)。这个定理比弗里德曼定理结论更强。它对这个收益组合中每个参与者获得的收益进一步扩大选择范围,只要求赋予每个参与者的收益大于他的最小最大值。而弗里德曼定理要求大于纳什均衡下的收益。

为什么说这个定理更一般化呢?因为我们很容易证明,对任何一个博弈来说,纳什均衡下代表任何一个参与者的收益一定是大于等于这个参与者的最小最大值。这个证明很简单,我写在黑板上。 例如,我们假设 s1,s2s_1^*, s_2^* 这是一个两人博弈的一个纳什均衡。那么这个纳什均衡带给参与者1的收益 u1(s1,s2)u_1(s_1^*, s_2^*),按照定义,s1s_1^* 是对 s2s_2^* 的最优反应。s1s_1^* 是对 s2s_2^* 的最优反应意味着,给定 s2s_2^*,参与者1是寻找一个能够最大化自己收益 u1u_1 的策略。所以按照定义,参与者1的均衡收益 u1(s1,s2)u_1(s_1^*, s_2^*) 在给定 s2s_2^* 的情况下,选择 s1s_1 来最大化自己的收益。那么在这个式子中,因为 s2s_2^* 是一个特定的策略,我现在把参与者2的策略换成另外一个策略 s2s_2,看看换成哪个策略时能够使得这个最大值最小。所以这个纳什均衡的收益 u1(s1,s2)u_1(s_1^*, s_2^*) 一定大于等于 mins2maxs1u1(s1,s2)\min_{s_2} \max_{s_1} u_1(s_1, s_2)。而 mins2maxs1u1(s1,s2)\min_{s_2} \max_{s_1} u_1(s_1, s_2) 恰好是最小最大值的定义。所以对任何一个参与者来说,他在纳什均衡中获得的收益总是大于等于他的最小最大值。既然如此,这个定理的结论就更强,是不是?

这两个定理能够成立的基本思路是:我们可以依据这样的思路来构造策略组合。例如,第一阶段每个参与者都采取合作行为,这样你所指定的这个收益组合… 我们首先给两个参与者设计这种基本的合作计划,使得策略组合所实现的收益恰好就是这个收益组合。但是你可能会说,这个收益组合它不是双面矩阵中各个单元收益组合的凸组合,一个凸组合不一定能通过纯策略组合构造出来。但是考虑到无限次重复博弈,我们上次说过,我可以让不同单元出现的相对频率不一样,我可以有意识地设计。那他不一样的话,然后就像你刚才我们上节课讲的那个例子一样。

要是有人偏离基本合作计划,基本合作计划是未来若干期平均下来,每个参与者的平均收益恰好就是这个收益组合。但要为了让这个收益组合的平均收益出现,策略组合不一定能构成纳什均衡。一般来说不能构成纳什均衡,所以每一方都有惩罚的威胁。惩罚的威胁就是观察博弈历史时,要是发现在任何一期有参与者偏离基本合作计划,那么从下一期开始报复。对于弗里德曼定理来说比较简单,因为纳什均衡下的收益是低于这个收益组合的收益。所以对弗里德曼定理来说,我要报复对手很简单,我就采取对应于这个纳什均衡的均衡策略。因为我采取这个策略,对方获得的收益一定是小于 X1X_1 的,这就是对对方的报复。所以弗里德曼定理的证明很简单,就是只要有任何参与者偏离基本合作计划,那么我从下一期开始就选择纳什均衡的策略来进行报复。而且一旦报复,就报复到永远,就是冷酷触发策略。

那么对于富登伯格-马斯金定理,你采用纳什均衡的策略来报复不一定奏效,因为纳什均衡给参与者带来的收益未必低于这个值。那怎么来报复呢?采用最小最大策略来报复。可是这两种策略的报复有个问题,就是这种报复的威胁不一定可信。因为你从纳什均衡来报复时,你能够预期到对方一定会采取相应的纳什均衡策略来回应,所以那个报复的威胁是可信的。但当你采用最小最大策略报复对方时,你虽然把对方的收益降低了,但是有可能杀敌一千自损八百,你可能自己也觉得不好受。那这样的报复威胁就不一定可信。

如果对方认为不可信,对方就可能采取偏离行为。所以要证明这个定理,一旦你发现对方偏离合作计划,你才能最好在这段时间来报复。但是你不能够报复到永远,因为报复到永远这个威胁是不可信的。我们可以精心设计,比如我报复若干期,例如我一看发现你偏离了计划,我报复三期或者报复五期,看看报复五期总共给你造成的损失有多大?这个损失是否足以让你觉得偏离基本合作计划得不偿失。如果这个损失还不足以让你觉得得不偿失,那我们进一步增加报复的期数,比如我报复100期。因为我有无限期,所以我总可以选择一个充分长的期数,使得你发现得不偿失。那么在让你得不偿失的情况下,我报复很多期之后,接下来我再回到… 再回到用纳什均衡策略来报复。这样的话,就能够使得你的报复威胁可信,从而就能够使我们构造的子博弈完美均衡所实现的平均收益组合能够在一个更大的范围之内,它只要求大于最小最大值就可以了。那这个增量值一般来说会低于纳什均衡下的收益。

例10 囚徒困境#

好,那我们来可以简单看一个例子,比如我们以前讲的囚徒困境。我们很容易构造一个子博弈完美均衡,在均衡中最好的结果是双方都选B,每一方获得3的收益。那现在我们很容易构造一个子博弈完美均衡,在均衡中每个参与者每期都能获得3的收益。那怎么构造呢?我们采取冷酷策略。这个冷酷策略是这样的:

如果在第一期,选择合作行为B。如果 t2t \geq 2,也就是从第二期开始,对于 t2t \geq 2,如何选择呢?我们观察博弈的历史。如果在博弈历史上,从第一期一直到 t1t-1 期,双方一直合作愉快,一直出现的是 (B,B) 这个行动组合,那么下一期,即在第 tt 期,我就继续选B。否则,就选A,而且一旦选A之后,持续到永远。我这个写得不完整,应该这样写:第一期采取合作行为,从第二期开始观察博弈的历史。如果在博弈的历史上,双方一直合作愉快,一直出现的是 (B,B),那么下一阶段继续选B。如果观察博弈历史,发现至少有一期有参与者没有采取B,那么从下一期开始选A,而且坚持到永远。这就是所谓的冷酷策略,或者称之为冷酷触发策略。

采取这样的策略,我们可以证明这个策略组合一定能构成子博弈完美均衡。那么要证明它,因为我们假设贴现因子 δ<1\delta < 1,这是一个带有贴现因子小于1的无限多阶段可观察行动博弈,那也是一个无限连续博弈。所以可以利用单阶段偏离条件来证明。

我们例如选任何一个参与者来分析,因为两个参与者在博弈中面临的地位完全是对称的。例如我们现在分析参与者1。我们要看给定参与者2采取这样一个冷酷策略,那么参与者1是否满足单阶段偏离条件,也就是参与者1在任何阶段的任何一个信息集里都没有动机做一次性偏离。

要证明参与者1满足这个条件,我们首先考察博弈的第一个阶段,即在博弈刚开始时。如果在 t=1t=1 这个阶段,参与者1不偏离冷酷策略(我们把这个策略记为 SS^*)。如果他不偏离 SS^* 这样一个策略,因为我们是验证单阶段偏离条件,那始终是假定他在其他所有阶段都不偏离的。如果他在第一阶段也不偏离,那就是参与者1自始至终都不偏离这个策略。那这样的话,参与者1在这个重复博弈中获得的收益序列是什么?第一阶段按照这个策略他选B,同时对方也选B,所以参与者1一开始第一阶段能够获得3的收益。第一阶段结束后,大家观察博弈历史,发现在第一阶段双方都选了B。那么参与者2按照冷酷策略,在第二阶段继续选B。那参与者1按照冷酷策略,他也是继续选B,那么参与者1在第二阶段也能获得3的收益。在后面的任何一个阶段观察博弈历史时,发现都没有人偏离过。所以他的收益序列就是 (3, 3, 3, …)。这就是他得到的收益序列。

那我们再看一下,如果参与者1要是偏离了。如果偏离 SS^* 这个策略,那意味着他一定会在第一阶段偏离到A。偏离到A,他的收益能够从3提高到4。所以他要是在第一阶段做一次性偏离的话,他第一阶段的收益就能够达到4。那么第一阶段结束之后,大家观察博弈历史,发现第一阶段的结果是 (A,B),这意味着有人出现了偏离。那么按照这个冷酷策略,参与者2从第二期开始,直到永远都选A。那么参与者1,如果做这样一次性偏离的话,因为我们考虑到一次性偏离,他只是在第一阶段偏离 SS^*。他在第二阶段开始始终遵循 SS^*。遵循 SS^* 意味着他从第二阶段开始观察博弈历史时,发现第一阶段有人偏离,就是他自己偏离了。那自己偏离也是有人偏离,所以他是不是从第二阶段开始,也永远选A?

那么我们可以看一下,给定参与者2在这能遵守策略的情况下,参与者2从第二阶段开始永远都选A。那么对于参与者1来说,最优反应本来就是从第二阶段开始永远选A。给定对方选A的情况下,参与者1的最优反应就是选A。所以这意味着,参与者1如果偏离 SS^*,他在第一阶段获得4的收益,那么他在以后的所有阶段,他的收益就都会是1。

那么我们看在什么条件下,代表参与者的平均收益的收益序列,要大于等于这个收益序列代表参与者的平均收益。这个平均收益,当然我们这样计算不用平均,所以直接算这个收益序列的折现值的和。那么这个收益序列折现值的和是多少?是 31δ\frac{3}{1-\delta}。这是不偏离的收益。偏离的收益是 4 加上 1 的永续折现流 $\frac{\delta}{1-\delta}$,所以是 4+δ1δ4 + \frac{\delta}{1-\delta}

我们要现在使得上面的收益序列要大于等于下面的收益序列的折现值之和。那这样的话,这个条件就是 31δ4+δ1δ\frac{3}{1-\delta} \geq 4 + \frac{\delta}{1-\delta}。 这个条件我们把它整理一下。 34(1δ)+δ3 \geq 4(1-\delta) + \delta 344δ+δ3 \geq 4 - 4\delta + \delta 343δ3 \geq 4 - 3\delta 3δ13\delta \geq 1 δ13\delta \geq \frac{1}{3} 所以只要这个贴现因子 δ\delta 大于等于 1/31/3,那么参与者1在第一阶段就没有动机做一次性偏离。我们现在不妨假设 δ\delta 满足这个条件。这样就确保参与者1在第一阶段没有动力做一次性偏离。那只是分析了第一阶段。我们要求参与者在任何阶段的任何一个信息集里都没有动机做一次性偏离。我们不可能一一验证。所以我们把它放在除了第一阶段之外,其他各个阶段的各个信息集,我们把它分成两类。

一类是观察博弈历史时,发现在博弈历史中所有参与者都没有偏离过。那么你这样的一类博弈历史为起点的子博弈,你会发现它跟整个重复博弈从第一天开始的整个博弈是同构的,结构是完全相同的,因为都是有无限的,后面有无限个阶段,都是没有人偏离过。那么对于这一类子博弈,我们要验证参与者1是否满足单阶段偏离条件,验证的过程跟刚才验证第一阶段是一模一样的。因为这一类子博弈,它跟整个博弈完全是一样的。所以刚才的结论可以直接搬过去,就是对这一类子博弈,在博弈历史中没有任何人偏离过B,那么只要 δ1/3\delta \geq 1/3,那么在这一类子博弈上,参与者就没有动机做一次性偏离。

那我们现在要验证第二类子博弈:观察博弈历史时,发现至少有一个人偏离过。如果有人偏离过,我们来看参与者2如何选择。参与者2按照他的冷酷策略,是不是从此在这个整个子博弈中,从现在这个阶段开始,一直到永远他都选A?他都选A,按照冷酷规则来,他就是选A的。那么参与者1要是按照冷酷策略,观察博弈历史发现有人偏离过,他也是从此以后永远选A。但是我们也可以看到,如果参与者2从此以后永远选A,那么对参与者1来说最优反应就是从此以后永远选A。这就说明,参与者1在这一类子博弈中,是没有动机做一次性偏离的。这一类子博弈对 δ\delta 没有任何要求。因为只要对手按照冷酷策略永远选A,那么对于我来说,我按照冷酷策略永远选A就是最优反应,是不是?这样我们就验证了参与者1在任何一个阶段开始的任何一个子博弈中,都没有动机做一次性偏离。所以参与者1满足单阶段偏离条件。那么参与者2所处的地位跟参与者1完全是类似的。所以对参与者1的分析,同样适用于参与者2。只要你能证明双方都采取冷酷策略,是满足单阶段偏离条件,从而这个策略组合构成了这个博弈的子博弈完美均衡。这就是我们通过囚徒困境博弈为例,来说明了怎么样采用策略组合来构造子博弈完美均衡,来实现我们所要求的平均收益组合。

重复博弈中的典型策略与启示#

好,讲到这之后,现在我们简单来说一下重复博弈中的几种简单而又经典的策略。

(1) 以牙还牙(tit-for-tat)策略#

以牙还牙策略,英文是 “tit-for-tat”,有的翻译成针锋相对,有的翻译成以牙还牙,还有的书上翻译成礼尚往来,这都可以,反正本质是一样的。可以验证,在无限次重复博弈中,只要 δ\delta 足够大,那么双方都采取以牙还牙策略可以构成纳什均衡,但不能构成子博弈完美均衡。上次课我们好像提到过,为什么不能构成子博弈完美均衡?

例如,在有一类子博弈中,这类子博弈观察博弈历史时,比如上个阶段对手偏离了合作。那么不管对方是因为什么原因偏离合作的,如果我按照以牙还牙策略,我下个阶段就会报复。可是我下个阶段的报复会导致对方在下一个阶段来报复我。这样的话,双方会不断地互相报复,那么就会使得我在整个博弈中获得的收益比较低。但是如果说我关注到对方上一期欺骗了我之后,我暂时偏离报复策略。我现在这一期我不报复对方,我忍一气采取合作行为,这样能够诱导对方下一次采取合作行为,做好以后大家一直合作,我的收益就会比较高。所以说明双方都采取以牙还牙策略并不能构成子博弈完美均衡。

(2) 冷酷(grim)策略#

第二种策略就是我们反复强调的冷酷策略(grim strategy)或者冷酷触发策略。它一开始采用合作行为,只要发现双方一直采用合作行为,那么下一期继续合作。要是观察博弈历史,有任何一方没有采取合作行为,那么就采取惩罚行为,而且惩罚到永远。我们可以验证,在无限次重复博弈中,如果双方足够耐心,双方采取冷酷策略不仅可以构成纳什均衡,而且能构成子博弈完美均衡。所以冷酷策略是我们用来构造子博弈完美均衡的最常用手段。

(3) 扯平 (getting even) 策略#

还有一类策略也比较符合我们在生活中与人打交道的一些原则。而且这个策略本身也能构成子博弈完美均衡,我们可以把它翻译成“扯平策略”。扯平策略就是一开始有合作行为。从下个阶段开始,观察博弈历史,要是发现对手欺骗自己的次数严格超过了自己欺骗对手的次数,那么下一个阶段就报复。要是发现对手欺骗自己的次数没有超过自己欺骗对手的次数,那么下个阶段就合作。就是对方要是欺骗自己的次数超过了自己欺骗对方的次数,自己心里不平,就要报复,一直到心理平衡了,然后再恢复合作。那么,这种策略组合它也能构成子博弈完美均衡,这是扯平策略。

启示:从非合作博弈看诚信的条件#

好,重复博弈的基本理论我们就讲到这。下面我们来简单总结一下。因为现实生活中,很多场合都可以建模为重复博弈的局势,比如国家之间、企业之间、人与人相处的博弈。

博弈理论给我们很大的启发就是什么?就是在博弈中,如果参与者你希望你的对手采取合作行为,比如你去餐馆吃饭,你希望对方不要坑你;比如你跟人打交道,你不希望被对方耍了。那么要使得各方能够自觉采取合作行为,它是有条件的。

  1. 重复博弈:首先第一个条件,双方之间的博弈不能是一次性博弈,需要是重复博弈。只有是重复博弈,对于对手的欺骗行为,在以后才有机会进行报复。如果是一个一次性博弈,对方骗了你之后,你都不知道,因为下一次你都不会遇到对方了,所以你没有机会报复,这一点很重要。 虽然很简单,但我们看生活中很多这个道理遍地都是。比如大家肯定有经验,节假日要是去旅游景点吃饭,网红店往往又贵又不好。实际上买东西也往往价高质次。为什么呢?因为既然是旅游景点,那景点的那些人知道你跟他之间进行的是一次性博弈。一次性博弈当然能坑你就坑你,是不是?但是如果你到北大的文创店买个东西,或者校内哪个商店买个东西,或者哪怕是超市买个东西,一般来说他就不太会坑你。因为你跟他之间进行的可能是一个重复博弈。你这个礼拜去,下个礼拜可能还要去,再下个礼拜还要去。这样他为了整体利益出发,他会考虑,会抑制自己短期的欺骗冲动。 所以第一个条件实际上就是重复博弈。为什么现代社会跟传统社会,比如跟你们父辈年轻时生活的那个时代相比,现代社会要使得人们采取诚信的行为好像更加困难?就说比起传统社会,好像社会道德水平在下降,其中一个重要的原因就是什么?现代社会流动性强。比如传统社会里邻里之间、单位同事之间,基本上打一辈子交道,是一辈子重复博弈。但是现在,你看买的都是商品房,而且我们很多人是租户,你不知道这个地方打几天交道。所以很多人就把它视为一次性博弈,根本就不用讲诚信。是不是?你就不期望你的邻居、你的一个单位的同事跟你讲诚信。因为他今天在这干,可能下个月到别的地方去干,跟你不会继续打交道了。重复博弈跟一次性博弈是大不一样的。

  2. 足够耐心:第二点,就是每一方都需要足够的耐心,就是这个 δ\delta 需要足够大。只有 δ\delta 足够大,每一方才把未来的得失看得重,所以才会为了长远利益来抑制自己短期的欺骗冲动。

  3. 相对确定的环境,欺骗行为可以察觉:第三点,相对确定的环境,欺骗行为可以察觉。就是说对方骗了你的话,你能够发现。这种情况下,对方才有可能不骗你。如果对方骗了你之后,你根本就不能察觉,那么对方就很有可能会骗。

  4. 有奖有罚,且受骗人有积极性惩罚:第四点,就是每一个人采取的策略一定要是有奖有罚的策略。就是说对合作行为进行奖励,对非合作行为、对欺骗行为进行惩罚。而且最好是惩罚的手段,在降低对手收益的同时,不损害自己的利益。如果是这样,这个惩罚的威胁才可行。 但是有的时候,生活中你们不知道在座的有没有过这样的经验,有没有人被自己的同学骗了?比如被中学同学骗,我们称之为“宰熟”。一些为什么呢?为什么你的一个熟人他可能会坑你?这说明他不太担心你报复他。为什么不太担心你报复他呢?主要是考虑到你要报复他会两败俱伤。因为对方比如哪一次告诉你手头很拮据,说要不借我500块钱花?你想一想,看在这个朋友的份上借了500块钱给他,结果他以后永远都不提还。这个时候,你心里不爽,你要是想报复,意味着你跟对方的关系破裂。你会权衡,是这500块损失我就认了,跟对方继续保持一个良好的关系,还是为了这500块钱我跟对方割袍断义?但是很多时候你想一想,发现好像为了500块钱不值得。就是说你报复对方,对你自己造成了伤害。但是对方也意识到这一点了,所以对方一开始就准备骗你,是不是?

  5. 惩罚的力度必须既充分又适度:第五点,惩罚的力度必须既充分又适度。一般来说,如果是一个信息非常完全的情况下,其实惩罚的威胁力度越大越好。但是很多时候,我们面临的博弈环境不是完全确定的。也就是说,出现什么结果并不是参与者能够完全控制的。比如举个例子,假设有的单位非常重视员工能否按时上班,不迟到早退。如果这个单位有非常严厉的惩罚措施,就是第一次发现迟到早退立即开除,不管你迟到多少分钟,是不是立即开除。如果说我们每个人能够完全控制自己上班的时间,那么这个严厉的惩罚是能够确保各方都参与合作行为,大家都按时上班。 但是问题在于,并不是每个人在任何时候都能够完全保证按时上班。比如为了保证按时上班,我每天选择坐地铁确保不堵车。我能够提前十分钟到单位,但是万一哪一天地铁在地下出了故障,是不是?这种情况下,这种万一的事情还是避免不了。但是如果说单位的纪律是只要发现迟到就开除,就会导致员工破罐子破摔。因为既然无论如何都不可能做到百分之百,你惩罚又那么严厉,那可能干脆破罐破摔更好。所以这个时候,我们需要适当降低处罚的严厉程度。 降低惩罚的严厉程度是什么呢?就是因为那种严厉的惩罚,你一方面对方不能接受,另外一方面可能对方会觉得你的惩罚威胁不一定可信,惩罚太严厉。比如美国说任何一个国家不跟他合作,他一定会使用核武器,是不是?像这种东西,可能很多同学觉得不可信,是不是?我没有听你的,比如这一次我对你的政策有一个关税,我没有测试,你就对我使用核武器,是不是?这可能觉得这个威胁不可信。但是如果适当降低惩罚的这种威胁,惩罚的严厉程度,它能够变得更加可信。 比如刚才以单位对员工上班为例,如果我们降低一下惩罚的力度。比如任何一个单位规定,只要迟到一次,罚款2000。迟到一次就罚款2000。这个会让他觉得,你要迟到真是得不偿失,是不是?但是又不至于那么严厉。这种情况下,每个人还是会尽量… 他就是一个比较好。这就是在带有噪音的环境下,惩罚的力度应当是既充分又适度。 我们还可以看到,大家看电影,还记不记得有过这样的镜头。比如警察抓了一些匪徒,抓了一个匪徒之后,知道他们是团伙,然后为了抓住他的同伙,拿着枪抵着他脑袋就说:“赶紧告诉我你的同伙是谁,在哪里,否则我就一枪把你毙了。”你看这时候很多匪徒并不害怕,是不是?因为他对你这个惩罚的威胁这么严厉,他是不可信的。 但是有的时候我们可以看到这样的电影镜头,那个警察会告诉他说:“我的枪里面有一颗子弹,是不是?”那我们首先比方说有六个装子弹的弹夹,这样只有一颗子弹。所以当我扣动扳机的时候,有 1/61/6 的概率会打中。我也不知道这一把会不会把你杀了,你也不知道,但是概率是确定的。你可能觉得歹徒会觉得 1/61/6 的概率很低,不怕。歹徒说我不交代。不交代,警察扣了一下扳机,没子弹。没子弹的话,转过一个仓,剩下的还有五个。所以这个时候再问他交不交代。现在相当于你被杀的概率就上升到 1/51/5 了,是不是?如果还不交代的话,再扣一下之后,要是又没有打中,那么概率上升到 1/41/4 了。 你会发现一般的人是坚持不住这样的考验。因为当死亡的威胁概率明确无误地逐渐提高的时候,很多载荷会去屈服。这个惩罚的威胁,它就是一个适度的威胁。它巧妙地运用概率,能够把一个非常大的威胁变成了一个适度的威胁,这样使得威胁可信,从而达到我们希望的结果。

好,讲到这我们休息十分钟之后再讲一个例子,然后就差不多就把这一讲讲完了。 好,那等你一会上课。 刚才讲的这种他拿枪的威胁,有一个博弈专家托马斯·谢林,大概是2005年哪一年获得诺贝尔奖呢?就是因为用博弈论的方法来分析五六十年代美苏两国在冷战中的策略选择。因为这个获得诺贝尔奖。他在分析冷战中的著作中,他把这种策略,就是拿着枪,里面有一发子弹,你扣动扳机,你也不知道会不会把对方杀死,但是你知道杀死对方的概率,双方都知道这一点。那么警察可以控制这个概率,但是不能够控制结果,不能控制到底会不会把对方杀死,那是随机的。托马斯·谢林把这种又跟死干掉的话,那叫可控的失控,就是利用可控的失控。失控就是说警察并不是能够百分之百决定是不是把他打死,但是警察能够控制杀死对方的概率,这叫可控的失控。

经典范例:应用与拓展#

好,我们接下来对重复博弈,我们再讲一个例子,之后我们就不再讲重复博弈,然后再讲别的例子。

例16 双倍返差价#

先看第一个例子,双倍返差价。我们经常看到有的商家对顾客有这样的宣传,他保证他所卖的商品是全城最低价。你要是能够向他证明北京还有别的商家卖同款产品的价格比他卖得更便宜,那么他就可以返还双倍的差价。比如这个商家卖一款格力生产的空调,假设厂家的指导零售价定的是1万元。这个商家就按照1万元来定价。同时他承诺,如果你要是发现有别的商家卖的比1万元便宜,比如有的商家卖了9000,那么差价就是1000。他就会给你返还双倍的差价,给你2000元,那就相当于你用8000元把它买走了。

日常生活中很多商家采取这样的营销策略。大家从你的直觉出发,你觉得要是有一个商家采取了这样的营销策略,有的商家没有,另外商家没有采取这样的营销策略,你觉得哪一个商家更可信?你更愿意到哪一个商场里面去买东西?有一个承诺双倍返差价,另外一个没承诺。你们觉得去没承诺的?为什么去没承诺的?他如果有承诺的话,就说明他可能就不是最低价。他既然承诺,你要是找到一个比他卖得更低的,那你不就赚了吗?是消费者真的会去找吗?确实有很多对价格很敏感的消费者,他会货比三家。很多,特别是这种大件的商品,有很多消费者会找好几个卖场比一比,看哪一个卖得更便宜。

确实有些小东西,比如你看就在校内,我曾经就买过什么?物美里头卖的东西跟29楼下面卖的东西,价格能够差一倍,就是物美卖的比较便宜一些。就是很简单的文具,29楼下面的都贵得多。那确实有价格不一样,但是这种东西因为我们一般价格再高,它也就几块钱,几十块钱。所以我们可能不会去观察。但是对大件的商品,比如空调要是上万的话,很多人还是会比较在意这个价格。

生活中的话,你会发现很多顾客会对有返差价承诺的商家会更加信赖。但是我们说,我们用我们这个博弈论课上讲的知识来分析之后,你就会发现你过去的这种观念,如果存在的话,这个观念需要彻底颠覆。为什么呢?商家的这个双倍返差价的策略是非常狡猾的。一方面,它表面上看是为了让顾客放心,你到我这来买,你放心肯定是全程最低的,是不是?你不会买到高的。如果你要是发现在我这买得高了,我愿意返还双倍差价给你,是不是?让顾客很放心。但是更重要的在于,他这个政策其实主要的目的不是讲给顾客听的,主要是用来威胁竞争对手。

大家想一想,比如空调厂家自己的一个出厂指导价1万元,厂家制定的这个出厂指导价一定是一个高价。你们要是买过农夫山泉的矿泉水,就会发现有的上面写着建议零售价两元。但农夫山泉其实一块钱就能买到,有的地方甚至几毛钱就能买到。所以厂家的建议零售价它一定是一个垄断高价。

为什么是垄断高价?你可以想一想,因为卖这个厂家的那些商家,他们不是厂家属的单位,所以你可以把那些卖矿泉水的商店之间看作是在进行价格竞争的。完全同质的产品都是农夫山泉,大家进行价格竞争。按照我们前面第一讲讲的伯川德博弈,同质产品的价格竞争,唯一的纳什均衡是不是按照成本定价?那首先厂家就有动机由厂家出面来协调各个商家,大家都按照这个垄断高价来卖,不要打价格战。我给你们指定一个价格,大家都按照两块钱一瓶来卖。但是问题在于,厂家的这个建议它是不具有约束力的,只是一个建议。但是它给这些商家形成了一个共同的预期。大家都知道两块钱是我们大家都能想到的一个合理的高价,是不是?否则要是没有厂家的建议零售价,可能这个觉得卖1.8块合适,那个可能觉得卖1.9块合适,他不一定能够达到一个共同的预期。所以厂家的指导价能够把所有的商家,帮助他们形成一个为了达成合作的,在两块钱这个价格上达成合作的共同预期。

但是,各方采取合作行为是各方自己的策略选择,是不是?因为厂家的建议零售价也没有约束力,所以有的商家可能他就是会降价。虽然上面写着建议零售价两块,但是我就按照1.5块来卖,是不是?现在这些商家采取这样一种双倍返差价的策略。这个策略,用我们刚讲的博弈术语来说,就叫做针锋相对策略。就是说我在一开始以空调为例,我的标价就是1万。我按照1万来卖,我也希望对手按照1万来卖,都按照这个厂家的建议零售价来卖。如果大家合作愉快,大家都按照这个1万元来卖,我就不可能给任何人返差价,是不是?

但是要是对手偏离了合作路径,要是有任何一个参与者降价,比如按照9000来卖,我就以牙还牙,我就要报复。你们按照9000来卖,我就按照8000来卖,是不是?返差价就是对对手的报复行为,他就是以牙还牙。所以这是一种针锋相对策略。而且这个策略的狡猾之处在于,这个商家为了监督对手有没有偏离合作路线,他自己不花人力物力去监督。那么这个监督的任务就交给了一些对价格比较敏感的消费者来承担了。由消费者每天货比三家,他们承担了商家的义务监督员。这样的话,采取这样的策略之后,这些商家能够自发地达成一个纳什均衡状态,就是都按照厂家的垄断高价1万元来卖,没有人按照更低的价格来卖。这就是一个典型的一个重复博弈中的应用组合,在重复博弈中,双方采取这样的策略能够达成一个共谋。因为各个国家都有规定,如果商家要公开达成一个同盟,比如商家开会达成一个协议,我们对这一款空调一律按照1万元来卖。要是有任何人违背,去法院告他,这些东西要是签了这个协议,不等任何人告,政府知道了,政府都要把他处罚,因为违反反垄断法。只不过现在有些机构做的确实是违法的。像现在我上次跟大家说过的,比如加油… 中石油和中石化。

我以前加油,一般开车到北大西门万泉河路那地方的中石化的一个加油站,加98号汽油,大概一箱加满的话,大概要超过500块钱。反正每次充500,然后他能够优惠大概38块钱。但是后来发现中石油优惠力度更大,因为中石油在北京的网点比较少,而且往往比较偏。但是在学院路北京科技大学那边,它有一个网点。中石油98号汽油加满一箱,直接优惠80块。因为加油很频繁,每两个礼拜就要加一次油,所以我去年年底以来,一直开车到那个中石油加油的。因为北大东门出去也不是很远,五道口过去了,过了学院路就到了,也不是很远,就开过去加。结果两个礼拜前我再去加的时候,他们说现在没有这个优惠。我说为什么,为什么这个优惠过去了一年多,一直有这个优惠?他说现在石油行业协会出台了措施,出台了反内卷措施。所谓反内卷就是不准商家之间打价格战,是不是?大家不准竞相优惠。那就是因为汽油的零售价国家有统一的指导价。本来这个指导价基础上的话,各家是可以自由浮动的,是不是?现在它相当于国家就自由浮动,都按照国家统一的价格来。但是,石油行业协会的这种反内卷政策,它明显是违反反垄断法,是不是?它就相当于它出面来帮助这个中石油、中石化形成了一个价格同盟,这是公然违法的行为,只不过没有人去告。

例17 战争中的毒气#

好,那我们再看一个例子,战争中的毒气。这幅图片是在一战的时候,第一次世界大战的时候,战场上的真实图片。这是战场上使用了毒气之后,毒气中毒的表现。我们说首先分析国家与国家之间的战争,两个国家之间打仗,一般来说一场战役的胜负不能够决定输赢,是不是?比如中国的抗战,至少是八年的抗战,有多少场战役?所以两个国家的这种战争,我们可以把它建模为一个重复博弈局势。重复博弈,因为有的战争甚至可以旷日持久。像历史上的英法之间的战争,有的人打了百年,100年。所以你可以把它建模为简化为一个无限次重复博弈,因为谁都不知道这个战争会在什么时候结束。那么,无限次重复博弈中是不是有很多不同的子博弈完美均衡?

那我们来考虑一下,在战场上每一方都有两种选择:一种是使用毒气,一种是不使用毒气。比如我们考虑二战的时候,德军和盟军在战场上,在一场战役中使不使用毒气?假设使不使用毒气代表各方的收益组合是这样一个收益组合。

德军
使用毒气 不用毒气
盟军 使用毒气 -8, -8 3, -10
不用毒气 -10, 3 0, 0

从这我们能看到,不管对方使不使用毒气,对自己来说,使用毒气不比不使用毒气更好。如果对方使用毒气,那我使用毒气,我的收益-8比不用毒气的收益高。如果对方不用毒气,那我用毒气的收益也是高于不用毒气。所以对每一方来说,使用毒气都是一个占优策略。所以这个毒气博弈本质上就是一个囚徒困境博弈。囚徒困境博弈重复进行时,如果重复无限次,那我们的基本结论就是按照弗里德曼定理,有无数个子博弈完美均衡。

但是我们观察发现,在一战的战场上经常发现当时普遍使用毒气。但在二战的战场上,好像只有日军在中国使用了毒气,在欧洲战场上,基本上没有普遍使用毒气。那么如何来解释?就是说一战的时候毒气被普遍使用于战场,但在二战的时候毒气并没有普遍使用。也就是说,在一战的战场上,我们观察到的一个子博弈完美均衡,在均衡中各方都使用毒气。在二战的战场上,我们观察到的子博弈完美均衡主要是这个不使用毒气的均衡。那么如何来解释这种现象呢?我们可以从一个角度来解释,就是在一战跟二战,尽管只相差了二十多年,但是战争的形态已经有很大的变化了。大家看一战的电影,往往都挖了很深的堑壕,是不是?士兵躲在堑壕里面,在那种战争形势下使用毒气的效果非常好。因为一旦把毒气喷到对方的堑壕里面去,基本上那些士兵就无处可逃,所以毒气的运用效果非常好。但在二战的战场上,不再使用这种很深的堑壕,你看都是很多时候都是装甲车、坦克这类东西,是不是?战争的形态不一样。所以在二战战场上,使用毒气的相对收益下降。

那么使用毒气的相对收益下降了,如何影响均衡呢?我们可以把这个博弈稍微变化一下,我把它重新抄在黑板上。 比如我把这个… 我把使用毒气,各方的收益,比如我换一个,我用一个A来表示这边是-A,这边的话,其他的保持不变。这边是-10,这是3。

德军
使用毒气 不用毒气
盟军 使用毒气 -A, -A (10-A), -10
不用毒气 -10, (10-A) 0, 0

这边是用毒气,这边是不用,这边是用,这边是不用。那么我们假定A的取值,它的大小还是确保了每个参与者使用毒气构成了一个占优策略。也就是说A它是小于10,A大于0,小于10。我们看一下,在这样一个博弈局势中,要构造这样一个子博弈完美均衡,在均衡中每一方都不使用毒气。那么对参与者贴现因子 δ\delta 还有什么要求?

按照我们前面分析囚徒困境博弈的基本做法,我们现在可以来分析一下,每一方都采取冷酷策略:第一期不使用毒气,从第二期开始观察博弈历史。如果在博弈历史中大家都没有使用毒气,下一期仍然不使用毒气。要是观察博弈历史,发现有一方使用过毒气,至少有一方使用过毒气,那么从今以后永远使用毒气。每一方都采取这样的冷酷策略,要能够构成子博弈完美均衡,对 δ\delta 的取值是有要求的。

我们来看一下,给定对方采取冷酷策略。我自己的话,如果说这里的一方,比如我们来分析盟军,要是不使用毒气,就是要是采取合作行为。比如在一开始的时候,这个收益就是0,是不是?当期的收益0。另外自己不用毒气,对方也不用毒气。那么第一期的收益是0。那么到了第二期观察博弈历史,发现大家都没有使用毒气。对方按照冷酷策略继续不用毒气,我在冷酷策略下也不使用毒气,是不是?我第二期的收益也是0。这样的话,我各期的收益其实都是0。所以在我不偏离冷酷策略的情况下,我各期的收益都是0。

那现在看一下,如果我要是偏离了冷酷策略,我在第一期我使用毒气,做一次性偏离。做一次性偏离的话,那么我在当期的收益就能够提高到 (10A)(10-A)。因为对方没有使用毒气,我使用了毒气,我的收益就提高到 (10A)(10-A) 了。第一期过后观察博弈历史,双方发现有一方使用了毒气。那么按照冷酷策略,从今以后,双方就都使用毒气。那从今以后对方都使用毒气。自己按照这个策略的话,自己是不是从今以后也都使用毒气?那这样的话,从今以后的收益就都是 -A。 这就得到了自己做一次性偏离,得到的收益序列是 (10A),A,A,(10-A), -A, -A, \ldots

我们要使得做一次性偏离获得的收益小于等于不偏离获得的收益,使得偏离是无利可图的。所以我们看一下,让这个收益序列按照贴现因子 δ\delta 折现,在什么条件下折现值的和要小于等于0。因为上面不偏离的收益序列折现值的和是0。那么下面偏离的收益序列折现值的和是多少呢?是 (10A)+δ(A)1δ(10-A) + \frac{\delta(-A)}{1-\delta}。 我们要使得这个小于等于0的条件: (10A)Aδ1δ0(10-A) - \frac{A\delta}{1-\delta} \leq 0 Aδ1δ10A\frac{A\delta}{1-\delta} \geq 10-A Aδ(10A)(1δ)A\delta \geq (10-A)(1-\delta) Aδ1010δA+AδA\delta \geq 10 - 10\delta - A + A\delta 01010δA0 \geq 10 - 10\delta - A 10δ10A10\delta \geq 10 - A δ10A10\delta \geq \frac{10-A}{10}

δ10A10\delta \geq \frac{10-A}{10} 的时候,每个参与者能够构成一个子博弈完美均衡,在均衡中每个参与者在每一期都不使用毒气。 那么这样一个条件,我们看当时的A的变化发生什么变化。你看A越小,A越小就意味着使用毒气带来的收益越大,是不是?使用毒气带来的相对收益越大,因为它相对收益是 (10A)(10-A)。A越小的话,使用毒气带来的相对收益就越大。那么这个A越小,则 10A10\frac{10-A}{10} 就越大。也就是说 δ\delta 要满足的条件就更加苛刻,是不是? δ\delta 现在只有超过一个更高的临界值,才能够构成子博弈完美均衡。

那意味着什么呢?就是说当A越小的时候,使用毒气的相对收益越大,那每一方越受到使用毒气的诱惑。这个时候,要使得各方能够自觉地采取合作行为,不使用毒气的话,就需要各方对未来有更高的耐心,是不是?对未来更加重视。如果说各方对未来的重视程度也保持不变,对各方的 δ\delta 不是那么高的话,这种情况下就意味着当A比较小的时候,就不存在子博弈完美均衡,在均衡中各方在每一期都不使用毒气,就不存在这样的均衡,是不是?因为各方的耐心程度不够,所以就不存在这样的均衡。不存在这样的均衡的话,那就意味着只有在各方每一期都使用毒气。所以在一战的时候,由于使用毒气的这个相对收益比较大,所以我们观察到的均衡是经常使用毒气。 二战的时候,使用毒气的相对收益比较小,就是A比较大。所以这个时候,对于双方能够自发合作所要求的这个 δ\delta 降低了,这个 δ\delta 并不要求很高就可以达成自发合作。所以双方就能够通过采用冷酷策略达成这样的合作。通过这个例子,我们可以看到,就是说不同的策略相对收益,它如何影响要构造构成子博弈完美均衡的 δ\delta 的临界值。

5. 重复博弈的若干变体#

好,两个例子讲到这。到目前为止,关于重复博弈,我们讲的都是标准重复博弈。标准重复博弈就是每一期都是那几个参与者面临相同的博弈局势。这样的博弈局势反复出现就是标准的重复博弈。那么重复博弈也有一些变体,就偏离了标准重复博弈。

例如,我们看几类变体。一类变体是包含长期参与人和短期参与人的博弈。这个。比如介绍了一个商场,他卖大件的商品,不是日常消费品。大件的商品有很多东西我们不会去买多次,是不是?比如你要是去买空调,你一般买了之后,多少年都不会再买,是不是?像这样的商家,他跟顾客之间,他跟他的每个顾客之间进行的相当于是一个一次性博弈。但是他跟很多顾客在进行博弈,就说今天这个顾客去,明天那个顾客去。所以这样的博弈是一个长期参与者(商场)跟众多的短期参与者之间的一个博弈。

那这样的博弈,你们想一想双方有没有可能发生自发的合作?就是说所谓合作,就是商场始终卖高品质的产品,不坑顾客,不卖假冒伪劣的东西。然后顾客也相信他不会卖假冒伪劣的,所以顾客也去那个地方购物。因为顾客要是发现这个商场欺骗了自己,卖假冒伪劣,那顾客就不愿意去那地方购物了。

我们假设博弈局势是这样的,我们可以把它稍微变一下,把阶段博弈局势把它做一下变化。阶段博弈的局势变成一个动态博弈,每个阶段是这样:每个阶段都有一个顾客到商场里面,要决定是不是去这个商场里面去购物。如果不去,这个阶段博弈结束。如果去,那么掏了钱,商家给他一件商品。但这个商品他买的时候,他不知道这个商品质量好坏,是不是?只用了一段时间之后才知道。那时候已经钱都已经付了。所以这段博弈局势,把它改造成一个动态博弈。 顾客先决定是不是去商场购物,商场观察到顾客进了门之后,商场才选择的,既有假冒伪劣的商品,也有货真价实的商品。商场决定到底该把哪一件商品给顾客,是不是?这个顾客买走了之后,接下来第二天又有个顾客去,又有个顾客决定是不是去。要是去,商场就选择给他卖一个真品还是卖个水货。这样的博弈局势无限地重复进行下去。如果这样的博弈局势中我们有这样的条件:

如果每一个顾客,因为他尽管他只跟这个商场进行一个一次性的博弈,但是如果他能够知道在那之前各个顾客跟这个商场的博弈历史的话,也就是说他要是知道以前的各个顾客在这个地方有没有买到假货,是不是?他要知道这一点的话,相当于每一个顾客进行这个博弈的时候,都能观察到博弈的历史,他们具有完美回忆。如果是这样的话,我们可以借鉴前面讲的子博弈完美均衡里面的话来构造子博弈完美均衡。在子博弈完美均衡能够构造出来的话,顾客会相信商场,每次都去购物,商场会讲诚信,对每个顾客都卖正品。

怎么来构造呢?仿照冷酷策略来构造。每个顾客采用这样的策略:每次决定去这个商场去不去的时候,都观察博弈的历史。要是在博弈的历史上,商场没有任何污点,就是从来没卖过假货,那么自己就决定去买。只要观察过博弈历史发现这个商场曾经卖过假货,那从我决定起,我就不去。每一个顾客都采用这样的策略。那么商场的策略是:只要我过去没卖过假货,那么我现在下一个阶段继续不卖假货。但是如果观察我的历史发现我曾经卖过假货,因为我把自己的口碑搞砸了,那我从此以后永远卖假货,是不是?你可以验证采用单阶段偏离条件来验证的话,这样的策略组合能构成这个博弈的子博弈完美均衡。这是一种变体。

我们还可以再看另外一种变体,就是变体二:参与人世代交叠的博弈。

例18 大学生世代交叠博弈#

这边我举了一个例子,比如虚构了一个咱们北大学生的一个博弈。假设学校规定,每名本科新生入学的时候,必须加入一个挑战杯项目小组,而且一直到毕业的时候自动退出。每个小组是由四人组成的四人帮,由大一、大二、大三、大四各一名学生组成一个小组。一旦大四的学生毕业退出,秋季开学的时候就纳入了一名新的大一的学生。这些要求是每个小组每年都要上交一份挑战杯研究成果。那么每名学生在每年都要选择劳动还是偷懒?劳动需要花成本,花一个单位的成本,偷懒没有任何成本。但是小组的产出(挑战杯的成果)是由所有成员均分的。我们进一步假设,如果有 KK 个人劳动,总产出就是 2K2K。现在问题是,如果你是一个小组的成员,你会劳动还是偷懒?我们能不能够构造子博弈完美均衡,至少在这个均衡中,有些参与人是劳动的,有些参与人是不偷懒的。

你看看这样的博弈局势,没有一个长期参与者。每个参与者都只存在几期就会退出,是不是?所以每个参与者都不是长期参与者。如果说我们每个阶段结束的时候,就是每一年结束的时候,大家都能观察到博弈历史的话,那么对于这个博弈,我们确实可以构造子博弈完美均衡。比如构造这样一个均衡出来,什么均衡呢?每个参与者决定是劳动还是偷懒,根据自己的年纪而定。如果这里是大四的学生就偷懒,因为没有以后了,没有将来,是不是?所以采取短期行为,因为自己偷懒是有成本的,劳动的成果是为大家分享的。劳动之后,我也能够分享别人的成果,是不是?所以大四的学生只要进入大四就偷懒。

那么大一的学生,或者说其他年级的学生,他根据自己观察到的博弈历史来定。如果自己当前要做决策的时候,观察过去的博弈历史,要是博弈历史上的话,除了大四的学生偷懒之外,大一、大二、大三的学生都没有人偷懒。我又不是大四的学生,那么我就选择劳动。但是一旦我进入大四,我就偷懒。每个参与者都采取这样的策略的话,你可以证明这个在 δ\delta 的一定要求的情况下,这个能够构成这个博弈的子博弈完美均衡。所以世代交叠博弈,我们也可以构造子博弈完美均衡。

还有一类问题是什么呢?是这个大群体随机匹配的博弈。我想一下,比如这个博弈比较特殊,就是两个群体。比如一个大的群体A有很多人构成,还有一个大的群体B有很多人构成。每一次是一个两人博弈,每一次随机地从群体A中抽一个个体,从群体B中抽一个个体,两个人配对进行一次博弈。比如进行囚徒困境博弈。这样的博弈完了之后,接下来第二轮博弈,再从这两个群体中随机抽一个人来配对,进行这样的博弈。所以每一次都是随机地抽了配对。

我们假定我们把这个规则稍微变一下。我们假设参与者不具有完美回忆。就是每一次被抽到的参与者来坐下来跟对手进行博弈的时候,大家能够观察到上一期的博弈历史。上一期的博弈历史就是说,上一次你在博弈中,你上次博弈中产生什么行为,我在我上次博弈中产生什么行为?就是说大家对双方上一次的博弈采取了什么样的行为,大家都知道,但是在更早期的不知道。那么我们可以构造这样的… 不是子博弈完美均衡,能够构造这样的纳什均衡出来。纳什均衡就是说,每一方仅仅根据自己观察到的上一期的博弈历史,决定下一期如何来选择。而且的话,过渡这个过程中能够使得双方采取合作行为。那么这样的均衡,我们称之为马尔可夫均衡。因为它仅仅根据上一期的状态决定当期的策略选择,对更早期的博弈历史是没有记忆的。这种的话说实话我觉得好,这几类变体我们就介绍到这就不进一步展开说了。

下面我们要讲几个经典的例子,首先来讲一个关于投票的问题。

例19 投票问题#

关于投票的问题,实际上这个非常有意思,而且内容非常丰富。但是我们通过一个例子来说一下。我们先讲一下关于这个。因为投票,更广义来讲,它属于集体决策,或者说民主决策的范畴。那我们一般自古以来,人们都对有没有一种理想的民主制度非常有兴趣,就是说所谓理想的民主制度,大家想一想,我们假设每个个体都是理性的,那么对理性的个体,我们有这样的要求的。

我记得我在导论上说过,是不是每个个人的偏好需要满足完备性和传递性?讲过了,是不是?我在导论中讲过这个,有没有记得?比方说很简单一个例子,我们看一下这样一个。比方说有三个人要做决策,现在有三个备选方案A、B、C。

第一偏好 第二偏好 第三偏好
委员1 A B C
委员2 C A B
委员3 B C A

比如委员1,他能够把他的偏好排个序:最喜欢的A,其次是B,最不喜欢的是C。委员2最喜欢的C,其次是A,最不喜欢B。委员3是这样一个偏好顺序。如果一个参与者能够对不同的方案给出一个排序的话,那么这样的参与者,他的偏好一定是满足完备性和传递性的。什么意思呢?就是说你拿任何两个方案加以比较,问这个参与者说你对这两个方案,他根据他的这个偏好表一定能给一个明确的回答,一定可以做到。

比如就委员1来讲,如果你要问委员1,你问他说A和B两个方案,你告诉我你更喜欢哪一个?那么他对那个电话打通,他一定可以告诉他们他更喜欢A,是不是?你要是问他说B和C两个方案你更喜欢哪一个,他肯定告诉你的说他更喜欢B,是不是?那你要是再问他说A跟C两个方案你更喜欢哪个方案,他一定告诉你的话他更喜欢A,是不是?所以如果一个参与者能够把他的偏好排序的话,那么他的偏好一定是既满足完备性又满足传递性。完备性就是说对任何两个方案加以比较,他能够说出孰优孰劣。 传递性是说如果他认为两个方案他认为A优于B又认为B优于C,那么他必须认为A优于C,是不是?是这样。一个参与者的偏好既满足完备性又满足传递性,我们就说他的偏好是理性的。

我们一般假定每个人的偏好是理性的。但是问题在于当一群个体构成一个集体的时候,我们要设定这个集体的偏好。有没有办法能够保证集体的偏好是理性的,有没有办法? 比如假设咱们在座的同学都是一个班的,那假设在国庆长假的时候,大家要讨论去哪地方秋游去。比如有好几个备选的方案,比如方案A我们可以这样来解释,比如方案A是去哪呢?是去张北草原,有人去过吗?张北草原那边不是有个草原天路,是不是?那么方案B比如是去天津,是吧?那方案C的话比如是去白洋淀,是不是? 有这三个方案,那么你们每一个人是不是对这三个方案都有自己的偏好?你是给你排去。那我们的问题是有没有一种集体决策的方式,你们全班同学作为一个整体,根据你们每个人对这三个方案的偏好,生成一个集体的偏好。

集体偏好就是说,就你们全班作为一个整体,我要问你们这个方案A和方案B加以比较,那就是去张北草原跟去天津加以比较。你们集体做出的决策是A优于B,或者是B优于A,有一个回答。然后对于方案B和方案C,按照你们的集体决策规则,也能给出一个明确的回答。就是我们班集体认为B优于C还是C优于B,是不是?那进一步的话,A跟C加以比较,去张北草原跟去白洋淀加以比较的话,按照你们的集体决策规则,哪个更好,也能给出一个回答。那我们希望,按照你的集体决策规则给出的这种两两比较的偏好,我们也希望它满足传递性。 还有就是说,如果你们集体认为A优于B又认为B优于C的话,我们希望,要问你A跟C哪个好的时候,你那个具体决策规则也应当是认为一定认为A优于C。你不能认为A优于B,B优于C,但是又认为C优于A,是不是?那这样就觉得你这个偏好不满足传递性,是一个很奇怪的偏好,是不是?

但是问题在于,关于这个领域的研究,问题在于在上个世纪50年代51年的时候,美国一个经济学家肯尼斯·阿罗,他严格地证明了,如果备选方案超过两个,就是只要备选方案超过两个,那么我们要是要求一个集体决策规则满足下面几条性质的话,那么世界上不存在任何决策规则能够满足下面几条性质。

哪几条性质呢? 第一条性质就是完备性与传递性,就是我刚才讲的这个要求,是不是?这是一个很合理的要求,要求集体决策的结果要满足完备性和传递性。就任何两个方案集体能够做出一个理性的判断。就是说如果集体认为A优于B,B优于C,集体应当认为A优于C,是不是?这是第一个要求。

第二个要求是什么呢?不限制个体的偏好。 比如这里面的话,刚才我讲了三个,去张北草原、去天津、去白洋淀。因为确实各有优点,是不是?那不同的人可能有不同的看法。那假设还有一个方案D,D是干嘛?D就是国庆长假这几天,就在中关村大街走出去就这样走两圈。大多数人都认为这个方案太差了,是不是?这肯定是一个很差的方案。但是也有人他就认为这样好,你不能说这个人不合理,是不是?他的价值观不同,就说我们不能限制别人的偏好。因为他有什么再奇怪的偏好,你都不应当认为他不合理。就好像审美,我们大部分人都会认为西施很美,但是有的人就认为嫫母比西施美,是不是?那也不能说他的审美观不对,是不是?所以不限制个人的偏好,这是第二个要求。

第三个要求什么呢?要求你的决策规则具有匿名性。 什么叫匿名性呢?因为我们很多时候是不是通过投票表决来形成集体偏好的。比如就任何两个方案的表决,比如就A跟B两个方案,大家投票来表决的话,如果按照你的决策规则的话,是集体决策的结果的话,是大多数人认为A优于B,所以就会形成。但是决策规则上形成的是A,因为不一定是清点票数,反正每个人投了票之后,每个人,比如你们班每个人的选项里面都投了A或者B,是不是?把每个人的选票收集起来。收集起来之后,我们来按照你的决策规则看看是应当认为A优于B还是认为B优于A。如果你的决策结果是A优于B,那么现在我们要求满足这样的性质: 我对你们全班同学中的任何两个人找出来,不改变他在票上写的是A还是B,不改变他选择的方案。但是把这个选票的名字改了。比如张三投的那些票,把名字改成李四,把李四投的那些票的名字改成张三。没有改变这个票上投的是什么东西,只是改变了这张票是由谁投的。我们要求交换任何两个人的投票,仅改变票上的名字,不应该影响决策的结果,是不是?这要求就是说每个人的票具有同等的地位,不能够因人而异,是不是?这叫匿名性。这是第三个要求。

第四个要求是什么呢?是独立于无关选择的要求。 什么意思呢?就是说比如我们现在的话,比如有这个… 有这个… 现在要分析A跟B两个方案,按照这个规则,是认为A好还是B好,给出一个集体的决策。但是现在告诉你,还有一个方案C备选方案是有C的。但是我只问你A跟B谁好,我们要求有没有C不影响你对A跟B的判断。A跟B谁好谁坏不取决于有没有C。这个称之为独立于无关方案。

最后一个要求叫做非独裁性。非独裁性就是说这个集体中没有这样的人,什么人呢?就是整个集体的偏好就由他个人的偏好来决定,他喜欢什么就是什么。集体的偏好要是有这样的人的话,我们称为独裁者。我们要求不存在独裁者。

那么肯尼斯·阿罗在1951年,他数学上严格地证明了,只要备选方案超过两个,那么不存在任何决策规则能够同时满足我上面讲的这些要求。所以他的这个证明的结论被称为阿罗不可能定理。

那么这样一个结论成立的情况下,就意味着什么呢?我们下面马上会讲到,就是说我们可以通过操纵议程来操纵结果。就是说一般来说我们想要哪个方案胜出,我们都有办法让这个方案胜出。你告诉我想要哪个方案胜出了,我可以设计特定的投票议程,最后实现这个目标。所以通过操纵议程可以操纵结果。

而且,后来进一步上升一个叫可以证明的混沌定理。混沌定理就是说在一般的情况下,而且告诉你什么叫一般的情况。只有在非常特殊的情况下,才有当之无愧的最优方案。除此之外,在那种情况不存在的情况下,你想要任何方案胜出,我都可以通过设计投票规则让那个方案胜出。所以结果可以说是混沌,完全依赖于议程的设计。我们回头可以仔细来开一个这样一个非常简单的例子,大家再休息十分钟好吧。

刚才我们讲了这个阿罗不可能定理,说如果备选方案的数量要是超过两个,那么不存在任何集体决策规则能够满足上面的所有需求。但是如果说备选方案要是只有两个的话,那我们是能做到的。如果备选方案,比如我们只是要在A、B两个方案中加以比较,我们根本就没有别的方案要考虑,只考虑A、B两个方案的话,我们是有这样的集体决策规则能够满足上面的所有条件。

什么集体决策规则呢?就是按照简单多数规则,一人一票,简单多数规则哪个方案得到更多票,哪个方案胜出。那么这样的决策规则能够满足上面的所有的要求。所以我们就可能会想,我们能不能把当超过两个方案的时候,我们进行两两比较,能不能够做到?两两比较是不是一个办法?那么进行两两比较的话,如果存在这样的情况,在两两比较中,就是说任何一对方案都进行一场投票,按照简单多数规则来决定哪个方案胜出,从而形成集体关于这两个方案的偏好。

如果存在这样一个方案,他能够在两两对决中战胜其他所有方案,那么这个方案的话显而易见是非常理想的,是不是?比如有A、B、C、D、E五个方案的话,A在跟B的比较中,A在跟C的比较中,跟D的比较,跟E的比较。在这四次比较中,它都能够胜出,是不是?那这就是一个明显很理想的方案,是不是?那么这种情况,我们把A称为什么?称之为孔多塞赢家。就是用法国的一个以前的一个数学家的名字来命名,就是在两两比较中,能够击败其他所有方案的,这样的方案称为孔多塞赢家。

这个问题的关键在于,一般来说是不存在这样的赢家的。一般来说没有哪一个方案能够战胜其他所有的方案。比如就上面的这个偏好表来讲的话,我们要是拿A跟B加以比较,三个人投票,你看是不是A战胜B?委员1跟委员2都投A的票。但是要将B跟C加以比较的话,那么委员1跟委员3都投B的票。所以B胜于C。但是我要是将C跟A加以比较的话,你会发现委员2跟委员3都投C的票,那么C又战胜A。所以它就不存在所谓的孔多塞赢家。没有哪一个方案能够在两两对决中战胜其他所有方案。这是一般情况。只要不存在孔多塞赢家的话,我们就可以通过操纵投票议程来操纵结果。

比如我们设计这样的投票议程:第一个阶段让大家就A、B两个方案,就A、B两个方案,大家来做一个投票。得到一个胜出者。第二轮再在第一轮的胜出者与方案C之间再进行一场投票,决定第二轮的胜出者。你们看一下,假设上面的这个偏好表不是大家的共同知识。为了简化问题,不是共同知识。每个人知道自己的偏好,不知道别人的偏好。如果是这样的话,显而易见每个人会按照自己的真实偏好来做,是不是?这样的话你会发现第一轮是不是A胜出?那么在A跟C对决的时候的话,最后就是C胜出。所以按照这样一个投票议程的话,最后是C胜出。

但是我们稍微改一改,我们要是在第一轮在A跟C之间大家做一场投票。第二轮的话,在第一轮的胜出者跟B来投票。你看是什么结果?第一轮的话A跟C之间进行投票的话C胜出。第二轮的话C跟B之间进行投票,最后的话是什么呢?是B胜出。是不是改变投票议程就可以最终得到不同的结果?所以议程会直接影响结果。我们要是让A胜出的话,我再换一种议程,也能让A胜出。对,只要不存在孔多塞赢家的话,我们就可以通过设计特定的议程,来使特定的方案胜出。所以就得到了一个所谓的这叫议程操作,可以通过操纵议程来操纵结果。

但是我们从这个偏好表来看的话,其实没有哪个方案占优。是不是每个方案都势均力敌,没有哪个方案占优。但是特定的议程能够让特定的方案胜出。但是刚才我讲的这个,这样一个投票的过程的话,我这边是假定这个偏好表不是大家的共同知识,每个人知道自己的偏好。那我们现在稍微改一改,我们假定这个偏好表是大家的共同知识。每个人都不仅知道自己的偏好,而且知道别人的偏好,大家都能看到这个偏好表。那么你们说现在我们还是考虑上面这个议程。

第一偏好 第二偏好 第三偏好
委员1 A B C
委员2 C A B
委员3 B C A

比如第一阶段就A跟B两个方案投票。第二阶段的话在这个第一轮胜出者跟C之间进行投票。你们说投票议程如果是这样的,最后是哪个方案胜出?最后哪个方案胜出?下面的偏好表是共同知识。 你说的哪个方案?是不是… 会因为最后这个可能会是C。然后如果他们都不是共同知识的话,ABC的话,那我们就会使得是A。就是先得出是A,然后A跟C比的话又会是C胜出。所以我委员1不想让C胜出,所以我决定在第一轮不会投A票。对,是不是?他会选择投B票。对。所以你在分析的过程实际上已经采用了我们前面讲的逆向归纳法,是不是?另外的话,我要根据我第一轮的投票会在最后带来什么结果来决定第一轮投票好不好。所以相当于先分析第二个阶段,再分析第一个阶段。分析第二个阶段的话,你看第二个阶段有两种可能性:一种是在B跟C之间进行投票,一种是在A跟C之间进行投票。

进入第二阶段的时候,因为它是最后一个阶段,所以可以想到在第二个阶段每个参与者一定根据自己的真实偏好来投票。是不是?因为第二阶段的投票结果就是最终结果了,所以第二阶段一定根据你的真实偏好来投票。那我们看一下,如果在第二阶段,如果第二阶段是在A和C之间,三个人要投票,那么最后按照这个偏好表是不是就一定是C胜出?一定C胜出,因为C能够获得两票的支持。那么如果说第二轮是在B跟C之间进行投票。因为每个参与者一定要按照自己的真实偏好来投票。这个时候B跟C之间进行,那就一定是B胜出,所以一定是B胜出。

分析了第二阶段之后,现在回到第一阶段看每个人应该如何来投票。回到第一阶段,是在A跟B两个方案之间来表决。那我们现在来分析一下。比如我们现在分析委员1。委员1现在他要决定是投A还是B。他并不知道委员2跟委员3到底如何来投,但是可以分析一下委员2跟委员3,如果他们两个人都投A或者都投B。这个时候的话,对于委员1来说的话,这两种情况下他投A还是投B那都是无差异的。因为结果已经被他们两个人决定了,是不是?所以关键在于如果他们两个人一个人投A,一个人投B,不管谁投的谁投,只要A、B各得一票。这个时候我委员1的这一票就是决定性的,是不是?委员1现在你看他如果要是投A的票,那么A在第一轮胜出。A在第一轮胜出,依据我们刚才的分析,A进入第二轮之后,A一定会败给C,是不是?A会败给C,所以委员1在第一轮投A的话,他最终得到的是C。他如果在第一轮投B的话,那么B就能够在第一轮胜出。进入第二轮之后的话,B就能够战胜C,所以他投B最终就可以得到B。这样我们来分析了之后,你看看根据偏好表,委员1在这两个结果中,C跟B相比,他是不是更喜欢B?所以委员1在这种情况下,他的最优反应是B,就是当他们一个人投A,一个人投B的时候,委员1的最优反应是B。那么不管对方如何来投的话,第一阶段你看委员1选择B都是最优反应或者最优反应之一,是不是?所以我们可以判断的话,委员1在第一阶段会投B的票。对于委员1,可以确定他在第一阶段会投B的票。

那么委员1的这种投票行为,我们称之为策略性投票,或者称之为复杂投票。因为按照偏好表A跟B比较,他本来是更喜欢A的。但是他有博弈思维,经过分析博弈局势之后,他认为他发现投B更好,这称之为策略性投票。如果有的人的话,比如没有这种策略思维,他就根据这些偏好来投票,喜欢哪个方案投哪个方案。这种投票我们称之为天真投票,或者称之为简单投票。就是投票比较简单,喜欢什么投什么。

其他委员的分析可以类似的。比如我们现在也可以分析委员2。对于委员1跟委员3,他们有这种可能性。那么看看这个。如果两个对手投的都是A,都是B,那么委员2投A投B都无所谓。如果两个对手投的是一个A一个B,我们来看一下这个。一个A一个B的话,如果他要是有A,那么A在第一个胜出,最后的话A大于C,最后是C胜出。如果他要是投B,那么最后是B胜出。那么根据委员2的偏好,委员2的话因为就C跟B两个结果加以比较,他最喜欢的是C。既然他最喜欢的是C的话,那么他在第一轮他投A的话,他就能够确保最后得到C,是不是?所以在第一轮的话,委员2就应该投A的票。投A的票的话,这样的话A在第一轮战胜B之后,进入第二轮的话,A会被C击败。C是委员2最喜欢的,是不是?所以委员2在第一轮他应当投A的票。

那么我们再看一下委员3。委员3的话,你看在C跟B之间进行比较的话,委员3更喜欢哪个?更喜欢B,是不是?他更喜欢B的话,那么他在第一轮投B的票的话,他就能够得到B。所以委员3他在第一轮的话,他应当投B的票。这样我们就分析出来了每个委员在第一轮应当如何来投票。这就意味着第一轮B会以2比1战胜A。进入第二轮之后,B又以2比1战胜C。所以在这个偏好表是大家的共同知识的假设之下,最终会是方案B胜出。

在这个每个人的偏好表是私人信息的情况下,结果是不一样的。是不是那种结果呢?不需要用博弈论进行分析。那么在偏好表共同知识的情况下,需要逆向归纳。 所以这个例子告诉我们主要有两个方面。一个方面就是可以通过操纵议程来操纵结果。因为按照这个议程,最后是B胜出。我们要去改变一下议程,比如改变第一轮在A跟C之间进行投票,第二轮的话,让第一轮的胜出者跟B来投票。你会发现的话,在上面的偏好表是共同知识的情况下,我们采用逆向归纳法,结果是另外一种方案,是不是?所以同样是存在操纵议程的问题。

另外的话,就是策略性投票这个概念。好,这样一个博弈,我们这个分析完了,但是还要补充讲一点,就是分析到这之后,如果我问你的话,这个投票博弈在这个偏好表是大家共同知识的假定之下,这个投票博弈的子博弈完美均衡是说。这个博弈的子博弈完美均衡是什么?

刚才我们分析的是结果或者说是均衡路径,是不是?我们分析的是均衡路径跟最后哪个方案是最后投票的结果。均衡是什么?均衡是指各方的一个策略组合,每个人的策略是一个完备的行动计划。所以均衡是什么呢? 我们来看一下每个参与者他的策略是什么?我们先看参与者1的策略。参与者1的策略是第一阶段投B票。进入第二阶段,如果是在A跟C之间进行投票,那么自己支持哪个方案?如果是在B跟C之间进行投票,支持哪个方案?这三个方面的行动组合在一块,才构成了他的一个完美行动计划。所以参与者1的均衡策略是第一阶段投B的票。 那么进入第二阶段,我们用第二个字母表示在第二阶段。如果是在A跟C之间进行表决干嘛呢?参与者1是不是一定会投A的票?如果在A跟C之间进行表决,那么他会投A的票。如果是在B跟C之间进行表决,他会投B的票。按照他的偏好表,第二阶段会投B的票。所以参与者1他的均衡策略是什么呢?是BAD。 BAB的话,第一个字母表示第一阶段选哪个方案。第二个字母表示,如果第二阶段是在A跟C之间进行投票,那么支持哪个方案?第三个字母表示的话,如果第二阶段是在B跟C之间进行表决,又投哪个方案的票?所以他的完美行动计划是 (B,A,B)。 那么参与者2的完美行动计划是第一阶段投A的票。第二阶段无论是在A跟C之间进行表决,还是在B跟C之间进行表决,都投C的票。所以他的最终策略是 (A,C,C)。 参与者3的均衡策略是第一阶段投B的票。第二阶段如果是在A跟C之间进行表决,那么投C的票。如果是在B跟C之间进行表决,那么投B的票。所以我们把三个参与者的这样的策略组合在一块,这就是这个博弈。我们刚才求出来的子博弈完美均衡,是不是?每个参与者都是一个完备的行动计划。所以通过这个例子,我们也要区分均衡和均衡解。

好,讲了这个之后,现在我们来看两个例子。这两个例子本来想做实验,但看来时间不够了,我们就直接讲了。这两个都是序贯谈判。这个来自于著名的博弈论专家鲁宾斯坦在1982年发表的一篇论文。那篇论文认为他是第一次对无限期轮流出价的谈判问题,求出了子博弈完美均衡。那么我们这两个,这两种情形的设定,是他的那篇论文中讲的两种特殊情况。

例20 序贯谈判(固定成本)#

第一种特殊情况是这样的:甲乙两个人,比方说商谈如何分配100万元钱。我们认为有甲乙两个人轮流出价。也就是说第一个阶段由参与人甲提出一个分配方案,参与人乙表态。如果参与人乙同意参与人甲的分配方案,那么谈判就结束了,按照这个方案分配。如果参与人乙要是拒绝了参与人甲的分配方案,那么进入第二个阶段,就由参与人乙提出分配方案,参与人甲表态。 但是拖延是有成本的,我们假定每拖延一期都会发生固定成本。参与人甲的固定成本是2万元,参与人乙的固定成本是3万元。也就是说只要耽误一期达成协议,每一方都会分别增加这样的成本。延迟两期,就又增加了几笔这样的成本。所以也就是说,只要在任何一个回合有人拒绝了对方的方案,这个成本就发生了,就意味着要进入下一期了。所以这很容易理解。比如劳资谈判,工人罢工,劳资谈判每延迟一天,工厂不能开工,不能生产,资本家有利润的损失。那工人拿不到工资,有工资的损失,这都是这就是固定延迟成本。我们假定甲的成本是2万元,乙的成本是3万元。只要谈判没有达成协议,就一直持续下去,这个谈判中途就不会停止。只要没有达成协议,这个两个不断地进行下去,所以它可以持续到永远。

那么对于这些谈判问题,我过去在很多次课上都做过实验。你们自己可以想一想,如果你是在这个谈判中的当事人,你会采取什么样的策略?策略是一个完美的行动计划。大家想想,如果你是甲,你的策略是什么形式?每次轮到我提方案,我提出一个什么分配方案。如果被对方拒绝了,那对方提方案我表态,对方是什么方案我会同意,什么方案我会拒绝,是不是?这是甲的这个策略的形式,乙的策略的形式也是类似的。所以每一个参与者的策略都包含:如果自己提方案,提一个什么方案。如果自己表态,对于什么方案同意,什么方案拒绝。过去当我拒绝不同的对方方案之后,我也可以提自己的不同方案。 你每一个参与者的话,在拒绝对方的方案之后的话,下一轮自己提的方案是没有限制的。你可以提出任何方案,不是我… 我说的是假设他提的是这个,我拒绝了,要给的是C。若拒绝对方B,我给我C给B,这也是理解。就是你可以每次拒绝之后,可以提出不同的方案,你是可以的。不是我我说是假设他提的是那个。 对,这个方案你要具体化方案,就是100万怎么分?比如对方说的话,甲提方案说的话,甲得60,乙得40,就是一个具体的方案。你表态是不是?你要是拒绝了你提方案,你提的方案就是的话,假设多少,假设多少万,自己的多少万,提出一个明确的一个方案。

对于这样一个问题,我先说一下以前很多次实验的结果,比较有代表性的有两种结果。一种结果是参与人甲会提出一个自己稍微多得一点。比如自己的55给对方45,然后当期达成协议了,或者再过了几期之后,经过交手几个回合之后,后来在这样的方案上达成协议,达成一致。这是一类结果。就是这个利益分配基本上是在50附近,甲稍微多分一点,这是一类结果。

但是还有另外一个结果比较极端,是什么呢?甲要求100万都归自己,给乙0。然后乙想了想,说同意。就是一个很极端的分配结果。这种结果的出现,我观察过,根据实验的观察过。有的是在第一个回合就达成,第一个回合甲提出100万归自己,乙表示同意。还有一种情况是双方其实开始达不成协议。双方交手几个回合之后,在甲的一再坚持之下,乙表示同意,最后也是屈服了。

主要这两种结果,你们觉得哪一种结果更加有道理?哪种结果更加有道理?很多同学可能会觉得第一种结果更有道理。但是鲁宾斯坦在他的82年论文里面,他证明了就这个博弈来讲,这个博弈只有唯一的子博弈完美均衡,是什么呢?就是我们讲的第二种结果,甲要求独得,乙表示同意。就是这个博弈的唯一的子博弈完美均衡。但当然他的那篇论文证明比较复杂,这里比较复杂,但我可以说一下,它的背后逻辑是什么?就是首先我们可以看到甲的成本比乙的成本低,所以要是拖下去的话,乙的损失会更大。这一点决定了甲在谈判中是处于更具有优势的地位。

那么我们再分析一下,所有理性的参与者,你要是在这个谈判博弈中跟对手谈判的话。你肯定是带着一个目的来,就是我希望在这个谈判中我能获得多少利益的分配,是不是?哪怕经过底线,我也希望能够达到,我有一个底线,就是我至少要获得多少或者分配多少利益。要低于这个值的话,就不愿意接受,是不是?你如果理性的参与能力,肯定在谈判中你是有自己的底线的。

那我们现在来分析一下这个假设。假设乙在谈判中他有一个自己的底线。这个底线我也不知道到底是多少。我们假设他的最低要求就是他要求分得 XX。他分得 XX,那我们来看一下。虽然这个博弈没有最后一期,但是我们可以有点技巧,就是可以从这个维度选择任何一期开始往前倒推。比如因为按照我们的规则,是在奇数期由参与者甲提方案,偶数期参与者乙提分配方案。所以我们可以来看一下,假设在第 2K2K 期,比如在第 2K2K 期,这一期是由参与人乙提供方案。那参与者乙的话,他要求比如他要求自己的 XX。那么剩下的 100X100-X 给参与者甲,这是不是他提的一个分配方案?我们说他在参与这个谈判,他有一个自己的利益追求。他希望自己获得的利益至少要是 XX,是不是?否则他就不愿意了。

那么给定参与者乙的话,在谈判中有这样一个要求。我们来分析一下在这之前的一期,在第 2K12K-1 期,参与人甲会做出一个什么样的最优选择?在第 2K12K-1 期,参与者甲要提出一个方案,让参与者乙无法拒绝,在这一期就同意。同时要最大化自己的利益,那怎么办呢?考虑到参与者乙拒绝了之后,下一期他会要求 XX。可是他下一期获得的 XX 在上一期,跟上一期获得的 XX 减去他的成本之后是等价的,是不是?我现在给他 X3X-3 万的话,他要是接受就能获得这么多。他要是拒绝的话,那么下一次他提出这个方案 XX,我拿一拿,他就是下一次获得 XX 扣除掉延迟了一期带来的成本,算下来还是 X3X-3。是不是?所以我如果他在下一期提这一个方案,希望我接受的话,那我在之前的一期我提出这样一个分配方案,他没有理由拒绝,是不是?没有别的理由拒绝的话,那么剩下的那个100万减去 (X3)(X-3),那就都归参与者甲自己。

接下来这个之后,我们继续现在继续往前倒推。我们再看一下第 2K22K-2 期,第 2K22K-2 期又是参与者乙提分配方案了。参与者乙预见到在下一期参与者甲拒绝之后,参与者甲会提出这样的分配方案。那参与者乙跟他同样的逻辑,我提出一个分配方案,参与者甲无法拒绝。在这个前提下最大化自己的利益。那怎么来提方案呢?那在这一期,就给他 100((X3)2)100 - ( (X-3) - 2 ),是不是?剩下的都归自己,剩下的是多少?剩下的是 X3+2X-3+2。那么在第 2K22K-2 期,参与者乙会提出这样一个最优方案。

我们再往前继续倒推,比如在第 2K32K-3 期,那么又是参与者甲提分配方案。参与者甲提方案,参与者甲会给参与者乙多少?给参与者乙的话是 X3+23X-3+2-3。那么剩下的都是自己的,剩下的是 100(X3+23)100 - (X-3+2-3) 都是这些。那么我们进一步再往前倒,这个式子我就不再推了。我们进一步往前再倒推进第 2K42K-4 期,第 2K42K-4 期参与者乙,参与者乙要提出一个方案,让参与者甲无法拒绝。那么在这一期就给他多少呢?给他 100(X3+23)100 - (X-3+2-3)。那我这边给他扣除他的成本,剩下的都是自己的,剩下的是多少?剩下的是 X3+23+2X-3+2-3+2

好,讲到这儿,我们就不再往前推。我们来观察一下规律。如果一个理性的参与者乙,他在谈判中他希望坚持不管接到哪一期,他希望他自己能获得 XX。那么如果在第 2K2K 期他能够获得 XX 的话,那么他在第 2K22K-2 期,你会发现他在第 2K22K-2 期,他获得了 X3+2X-3+2X3+2X-3+2 是什么呢?是这个可以写成 (X(32))(X - (3-2))。他在第 2K22K-2 期获得这么多,跟在两期之后获得 XX 等价。 那么进一步的话,你看在第 2K42K-4 期的时候,就是什么呢?这个变成了 (X(32)×2)(X - (3-2) \times 2)。在这之前四期的时候,给他获得的 (X2)(X-2) 他应该能够满足。就是说在更早的话,他只要求更少就可以了。所以越往前推的话,你会发现越往博弈的早期的话,参与者乙他要求的金额越少。所以一开始我就给他0的话,他没有理由拒绝参与者甲。 一开始给参与者乙0的话,参与者乙没有拒绝。所以我们就可以设计这样的策略组合:参与者甲的策略是只要能让自己提方案,就要求100万全部归自己,给对方0。如果被对方拒绝了,轮到对方提方案我表态,只要对方提出的方案不是全部给自己,一概拒绝,全部给自己才同意,是不是?那参与者乙的方案是这样:每次轮到对方提方案,自己表态一概同意,不管对方提什么要求一概同意。能让自己提方案的时候,提出来自己的目标,就是希望快点结束,就别拖了。一拖的话,你这个不就有成本了,就是这样。这是这个博弈的唯一的子博弈完美均衡。这个有兴趣的话你们可以看一下,这个可以的话,看看鲁宾斯坦的这篇文章,要是有兴趣我也可以提供给大家。为了那个证明稍微有点麻烦,因为专门发表一篇论文,这是有固定成本的。

讲完这个之后,我们来看一下马克思的一段话。马克思说:“工资由资本家与工人之间对抗性的斗争所确定,胜利必定属于资本家,没有工人的资本家比没有资本家的工人活得更长。”你看在劳资谈判中,要是运用我们刚才讲的这个博弈的均衡解,工人罢工陷入僵局,每延迟一期工人损失工资,资本家损失利润,你们说谁的损失更大?是相对还是绝对的?我现在就说的是就是谁更大,那不就是这个相对了吗?谁的相对更大?是不是?工人损失的是工资,资本家损失的是利润。那利润应当是损失更大的。那就是资本家的延迟成本更大。但是马克思说胜利毕竟属于资本家,好像跟我们这地方讲的结论相互矛盾,胜利必定属于成本更高的资本家。

为什么马克思的下一句话讲出来原因:“没有工人的资本家比没有资本家的工人活得更长。”因为资本家富裕,是不是?他哪怕罢工拖半年拖一年,他还有很多存量的财富,他是可以维持的。但是工人连续几个月没有工资,可能就过不了日子,所以还要考虑到存量财富,是不是?

现在比方说我们要是在里面,分析中美之间的博弈,这个非常恰当。因为贸易战达不成协议,双方都是有成本,是不是?就看承受的成本更高,谁的成本更低。当然,现在你看中国对付美国,我们找到了一个很好的武器,就是稀土。是不是?稀土在制裁对方的时候自己的成本很低,对对方造成的成本很高。所以这是一个非常有利的一个武器。所以你看其他国家跟美国的谈判,其他国家没有什么好的武器用来惩罚特朗普。所以特朗普跟别的国家会轻易妥协。但是跟中国,因为中国确实有一些手段可以用,所以跟中国就更容易达成,更容易发生关系。

例20 序贯谈判(贴现)#

好,那我们再看一下这个稍微变化一点的一个博弈,还是序贯谈判。跟刚才的话就是说规则都是一样的。唯一的差别在于现在没有固定的延迟成本,但是有贴现因子,而且我们假定贴现因子不一样。甲的贴现因子是0.9,乙的贴现因子是0.8。

那么你们现在来分析一下甲乙谈判。你看甲对下一期获得的收益要乘上0.9,乙要乘0.8。看起来谁在谈判中处于劣势地位?是不是乙?乙处于劣势地位。乙相当于更加缺乏耐心,甲更有耐性,是不是?你们觉得哪个处于劣势地位,是不是乙? 那乙处于劣势地位的话,你们觉得这个博弈的子博弈完美均衡结果跟刚才不一样?甲在均衡中获得全部,乙一无所获,会不会是这样?会不会是这样的?你会发现虽然乙在这个里面是处于不利地位,但是跟刚才的博弈有一个重大的不同在于什么?在于如果这个谈判旷日持久的话,刚才的前面那种情景是很恐怖的。比如两个人没有达成协议,已经过了100期。这个时候的话,前面的那个乙的成本就要花出去300万了。哪怕最后100万全部归乙,乙还要净亏200万,是不是?所以拖下去的话,那个前景是很恐怖的,那这种恐怖的前景可能会对他的策略选择产生压力,他会有动机尽快达成协议。

但是现在不一样,现在不管贴现因子多低,对未来的东西折扣到现在绝对不会是负的,是不是?绝对不会变成亏损。所以这个时候,对于谈判破裂没有那么恐惧。这一点决定了在谈判中,双方都能够获得正的收益。但是获得的正收益到底会是多少?我们直接来算的话,这个比例就是:在均衡中,每一方大概能够获得百分之多少的收益。

那怎么来分析呢?这个分析起来其实也很简单,比刚才还要简单。比如我们现在考虑,每一方都采取这样一种无条件策略。就是只要能让自己提方案,自己都提出一个一成不变的一个方案。比如只要我提方案,我就要求我得到份额 XX。这个 XX 不依赖于我是在哪一期提这个方案,我就坚持我要获得 XX。那我们现在看一下,假设甲在谈判中希望自己获得 XX 的份额,那么这个 XX 在均衡中会是多少?

我们来分析一下,在奇数期甲提分配方案。我们现在考察,比如在第 2K+12K+1 期,在这一期的话,甲要求自己获得 XX 的份额,给对方 (1X)(1-X)。那么我们现在看,给定参与者甲会在第 2K+12K+1 期提出这个最优方案。那么在更早的这一期第 2K2K 期,参与者乙会如何来提方案?参与者乙同样地要提出一个参与者甲无法拒绝的分配方案,确保在这一期能够谈判结束。那么他会提出个什么分配方案呢?他会,比如参与者甲的贴现因子我们用 δ1\delta_1 来表示,那么直接在这一期给他 δ1\delta_1 乘以 XX。参与者甲应该不会拒绝,是不是?因为拒绝了之后,下一期他提出这个方案 XX,这一期的 XX 折现到上一期的话,还是 δ1X\delta_1 X。所以他通过拒绝他的方案,不可能提高他的收益。那么剩下的钱都归乙。

那我们再分析一下第 2K12K-1 期。第 2K12K-1 期还是参与者甲分配方案。参与者甲会提出什么分配方案呢?同样的逻辑,他要提出一个让参与者乙无法拒绝的分配方案。在第 2K12K-1 期的话,直接给参与者乙多少呢?直接给他 δ2\delta_2 乘以 (1XYi)(1-X_{Yi})。 Yi的份额在下一期是 (1X)(1-X)。所以直接给他 δ2(1X)\delta_2(1-X)。他下一期拒绝了之后,下一期他自己会获得 δ2(1X)\delta_2(1-X)。所以面对我的这个提议,参与者乙应该不会拒绝。那么剩下的都归参与者甲自己。 那么分析了这些之后,我们就不再分析了。因为我们本来在考虑有没有这样的子博弈完美均衡,在均衡中每个参与者采取无条件策略。而且在每个参与者提方案的时候,无论是哪一期,他的要求都是一个一成不变的策略。既然如此的话,我们就假定在第 2K+12K+1 期他提出的这个方案 XX,跟在第 2K12K-1 期提出的这个方案的份额是一样的。 所以我们令这两个相等。 甲提方案,他分得 XX,乙得 1X1-X。乙接受的条件是 1Xδ2(1X)1-X \ge \delta_2 (1-X_\text{乙}'),其中 XX_\text{乙}' 是乙在下一轮作为提议者给甲的份额,他自己保留 1X1-X_\text{乙}'。 所以,甲会提 X=1δ2(1X)X = 1 - \delta_2 (1-X_\text{乙}')。 乙提方案,乙分得 1X1-X_\text{乙}',甲得 XX_\text{乙}'。甲接受的条件是 Xδ1XX_\text{乙}' \ge \delta_1 X。 所以,X=δ1XX_\text{乙}' = \delta_1 X。 代入第一个式子: X=1δ2(1δ1X)X = 1 - \delta_2 (1 - \delta_1 X) X=1δ2+δ1δ2XX = 1 - \delta_2 + \delta_1 \delta_2 X X(1δ1δ2)=1δ2X (1 - \delta_1 \delta_2) = 1 - \delta_2 X=1δ21δ1δ2X = \frac{1 - \delta_2}{1 - \delta_1 \delta_2}

这就是均衡中参与者甲会提出的份额要求。他就是一个这样的表达式。

那我们可以算一下,你看看它这个。如果 δ1=0.9\delta_1 = 0.9δ2=0.8\delta_2 = 0.8,把它带进去算的话,这个是多少呢? X=10.810.9×0.8=0.210.72=0.20.28X = \frac{1 - 0.8}{1 - 0.9 \times 0.8} = \frac{0.2}{1 - 0.72} = \frac{0.2}{0.28}0.28 分之 0.2。两边除以 0.04,就是 5 除以 7,所以等于 5/75/7

在均衡中,参与者甲会要求自己获得 5/75/7,参与者乙获得 2/72/7。这是这个博弈的均衡。而且对于这一个的话,相对来说比较好证明,我们可以采用单阶段偏离条件来证明双方采取这样的策略组合。就是这个。那你要看把每个参与者的策略写出来。比如每次轮到参与者甲提方案的时候,参与者甲要求自己分得 5/75/7,给对方 2/72/7。如果是轮到对方提要求,对方提方案自己表态,自己表态的话,对于什么方案接受,什么方案拒绝呢?

我们来看一下,你看第 2K2K 期是参与者乙提方案。参与者甲。你看参与者乙提的这个方案的话,参与者甲是可以接受的。所以什么方案可以接受呢? 甲能接受的最低份额是 δ1X=0.9×57=4.57=914\delta_1 X = 0.9 \times \frac{5}{7} = \frac{4.5}{7} = \frac{9}{14}。 当参与者乙提方案的时候,如果参与者乙提出来的话,分给参与者甲的份额不低于 9/149/14,那参与者甲同意,否则拒绝。这就构成了参与者甲的一个完美行动计划。 那么参与者乙的方案可以类似的来写出来。参与者乙的方案是什么呢? 每次轮到他自己提方案,自己要求自己获得 1X=1δ1(1δ2)1δ1δ2=1δ11δ1δ2=10.910.72=0.10.28=1028=5141 - X_\text{乙}' = 1 - \frac{\delta_1(1-\delta_2)}{1-\delta_1\delta_2} = \frac{1-\delta_1}{1-\delta_1\delta_2} = \frac{1-0.9}{1-0.72} = \frac{0.1}{0.28} = \frac{10}{28} = \frac{5}{14},给对方 9/149/14。 每次轮到自己表态,如果对方分给自己的份额不低于 2/72/7 就接受,否则拒绝。把双方的策略写出来之后,利用单阶段偏离条件来证明,就构成子博弈完美均衡了。 因为这个博弈带贴现因子的情况下,它是一个无限连续博弈,是不是?可以用单阶段偏离条件来证明。但是前面的那种情景,固定成本存在的情况的话,是不能够用单阶段偏离条件来证明的。因为它有无限的阶段,但是它不是无限连续博弈,所以不能够用单阶段偏离条件来证明,那个证明的话就比较复杂。

这个例子给大家的启发是很大的。首先我们发现,越有耐心的参与者在谈判中处于有利的地位。δ\delta 越大,越有耐心,他在谈判中能够获得更大的利益份额,这是一个。

另外的话,我们可以看一下这种极端的情况,其他的情况。比如参与者甲获得的份额是 X=1δ21δ1δ2X = \frac{1 - \delta_2}{1 - \delta_1 \delta_2}。那如果说参与者乙是极其没有耐心。参与者乙的话,比如如果 δ2\delta_2 趋近于0。如果 δ2\delta_2 趋近于0的话,参与者甲获得多少?分母是1,分子是1。全部的利益都归参与者甲所有。所以参与者乙越缺乏耐心的话,对参与者甲越有利。你们想一想,如果你上街骑车跟别人撞了,提出来要赔偿,两个人讨价还价。要是一方没有耐心,一方很有耐心的话,有耐心的这一方就可以获得绝大部分的利益,是不是?你不是很着急吗?你对未来看得很清楚,这种情况下,谈判中最后肯定是有耐心的这一方占优势。

但是我们再看一下,如果 δ1\delta_1 要是趋近于0。δ1\delta_1 要是趋近于0的话,这个 X=1δ21δ1δ21δ2X = \frac{1-\delta_2}{1-\delta_1\delta_2} \to 1-\delta_2。这样的话,如果刚才讲的 δ2=0.8\delta_2 = 0.8 的话,那参与者甲能够分得 20%20\%。 那么为什么呢?在参与者甲完全没有耐心的情况下,参与者甲居然还能够分得一部分?是因为参与者甲具有先动优势,他是第一个提方案,是不是?因为他考虑到你可以想想,如果参与者甲先提方案,参与者甲提的方案要是被参与者乙拒绝了的话,这种情况下,轮到参与者乙提方案的话,从第二期开始的整个博弈,是不是就变成我们刚才分析的,先提方案的参与者(即乙)更有耐心的这种情况?所以可以预见到一旦被拒绝了之后,第二次开始对手提方案的话,对手会要求独占。就是我要完全没有耐心的话,对手会要求独占。对手要求的份额,哪怕在下个阶段开始独吞的话,那么对手获得的这个是折现到第一期的话,是不是还要乘以 δ2\delta_2?是不是?所以的话在这一期的话,我是能够要求的…我是能够我是就是我的话是我是把一部分给对方之后,剩下的给我的话,对方是不会拒绝的,是不是?所以他是利用了参与者甲的这个先动优势。但是如果参与者甲先动,参与者甲更缺乏耐心的话,那么也是类似的。也有一个这边的话也是类似的,也是能够减去对方的这些,你得到也可以得到这个结论。总而言之的话,先提方案的参与者具有先动优势。

关键点和注意事项#