以下是根据您提供的转录稿和幻灯片内容整理的优化版文字记录:
课程准备与签到通知#
大家好,马上就要到上课时间了。今天教室里的同学似乎有些少,尤其是考虑到上次我强调了11月19号开始的三个星期内,大家务必前来听课。虽然有课程回放,有些同学可能会看回放,但教育部的人马上要来听课,大家要自己做好准备。
今天我们安排一次签到,在第一节课结束后的课间进行。目前签到采用的是二维码方式,但不能拍照截屏后转发,这样会导致人数虚假。签到必须限定地点,未来也会如此严格执行。这是本学期第一次签到。
课程安排与助教沟通#
现在我们开始上课,今天的课程安排是:从现在到九点,我将讲授新课;按照惯例,九点钟我会留半个小时给助教,请他给大家上习题课。
周小宝,你刚才去外面了,可能没听到我说。今天安排一次签到,在第一节课和第二节课之间的课间休息时进行。签到要通过手按码的方式。如果打印表格,就可能出现代签的问题,这样就白做功了。什么叫代签?如果你作为助教说出“代签”这种比较严重的话,今天就需要扣分了。不过今天人确实来得比较少,这很反常。我已经强调过11月19号开始大家要来听课,现在还没到,人就这么少,这非常不应该。
所以,一会儿签到必须限定在这个教室的地点,不能让同学拍了二维码发到群里,让在宿舍的同学也能签到。如果需要更严格,我就打一张表。我们今天下节课再来讨论这个问题。
学生情况与成绩核算#
此外,还有一个问题需要汇报。我们有五位同学中期退课,还有些同学作业没交,或者交了几次都没交。上次助教跟我提过,作业总共占20分。如果不在乎作业分数,那也无所谓。不交作业,相应的作业成绩就会减少。作业总共占20分。我还需核查那些不来上课的同学,以及忘记交作业的同学,需要把这些情况清理一下,否则会导致成绩出现问题。
这门课最初有104个同学选,中期退课5人后,还剩99人。这意味着这99名同学期末一定要给出一个成绩。如果期末不参加考试,就意味着没有考试成绩,成绩就会是零分。按照学校制度,一旦选课后不参加考试,系统录入时成绩就是零。所以大家一定要遵守这个规则。
关于签到,这件事我先向上级汇报,把表格弄出来,今天就处理一下。主要是因为人数确实很少。你们就在教室里扫描二维码签到,限定在教学楼的这个范围内,这样也可以。好吧。
重复博弈:从信任的进化谈起#
博弈游戏:信任的进化#
上次下课时我建议大家有时间可以玩玩电子游戏《信任的进化》。玩过这个游戏的同学,可能印象最深刻的就是“针锋相对”策略表现得非常稳定。
“针锋相对”策略,我们上次讲过,其基本思想是:第一个阶段选择合作,从下一个阶段开始,复制对手上一个阶段的策略。
针锋相对策略与纳什均衡#
思考一下,如果两个囚徒玩重复囚徒困境博弈,事先规定重复五次,如果每个囚徒都采取“针锋相对”策略,能否构成该重复囚徒困境博弈的纳什均衡?
你们可以想一想,如果对手采取“针锋相对”策略,你有没有可能通过偏离“针锋相对”策略来提高自己的收益?有一个前提是,你不能预知未来。如果是重复五次,那在最后一次,你总会有动机“坑”对方一次,因为之后就没有惩罚了。所以,在最后一次一定会有动机偏离“针锋相对”策略。这意味着在有限次重复博弈中,两个参与者都采用“针锋相对”策略,是不能构成纳什均衡的。
但是,如果博弈重复进行无限次,没有“最后一次”的情况,我们确实可以验证,两个囚徒都采取“针锋相对”策略能够构成纳什均衡。
针锋相对策略与子博弈完美均衡#
然而,进一步思考:如果两个囚徒玩无限次重复囚徒困境博弈,没有最后一次,在这种情况下,能否构成子博弈完美均衡?
设想一下这种情景:你知道对手采取“针锋相对”策略,你一开始也选择合作,他一开始也合作,所以一直合作愉快。假设在某一个子博弈中,博弈历史显示上个阶段你的对手不小心犯了一次错误,他本来想合作,结果却欺骗了你。按照你的“针锋相对”策略,你现在是不是要报复?如果你报复,又会诱导他下一个阶段继续报复你,这样你们会形成一个冤冤相报的局面。
但是,如果你知道对方是不小心犯了错,他只是暂时偏离了“针锋相对”策略,那么你忍对方一轮,这一次不报复,下一轮他改邪归正了,又回到“针锋相对”策略并产生合作。在这种情况下,当前不报复,诱导了下一轮继续合作,这肯定符合你的长远利益。
所以,在无限次重复博弈中,两个参与者都采用“针锋相对”策略,虽然能够构成纳什均衡,但不能构成子博弈完美均衡。
冷酷策略#
那么,什么样的策略能够构成子博弈完美均衡呢?能构成子博弈完美均衡的策略非常多。例如,两个囚徒都采取“冷酷策略”(Grim Trigger Strategy)。“冷酷策略”也常被称为“冷酷触发策略”。
这种策略是:一开始第一个阶段选择合作行为;从下个阶段开始,每次做选择时都观察整个博弈历史。如果整个博弈历史上双方一直合作愉快,那么自己下个阶段继续产生合作行为。要是观察到博弈历史中,任何一个参与者在任何一期采取了欺骗行为,那么就会触发自己从下一期开始采取欺骗行为,而且一旦被触发之后,就永远采取欺骗行为。
双方都采取这样的策略,可以通过单阶段偏离条件来验证这个策略组合能够构成无限次重复博弈的子博弈完美均衡。因此,我们在分析重复博弈时,经常采用“冷酷策略”来构造所需要的均衡。这也是我们今天晚上接下来要讲的内容。
重复博弈理论的必要性#
今晚我们要系统地讲解重复博弈的理论。为什么需要专门讲授重复博弈理论呢?
从本质上讲,重复博弈只是一类特殊的多阶段可观察行动博弈。因为按照定义,每个阶段结束后,大家都能看到博弈历史,然后进行下一阶段。不同之处在于,重复博弈中每个阶段的博弈结构是完全一样的。所以它是一类特殊的多阶段可观察行动博弈。
我们前面已经分析过多阶段可观察行动博弈。如果是有限多阶段可观察行动博弈,那么单阶段偏离条件是构成子博弈完美均衡的充分必要条件。如果是无限多阶段,即无限连续多阶段可观察行动博弈,或者包含贴现因子(小于1)的无限多阶段可观察行动博弈,那么单阶段偏离条件也是构成子博弈完美均衡的充分必要条件。也就是说,对于分析重复博弈,我们已经掌握了分析方法。
重复博弈为何需要单独研究#
然而,为什么一般的博弈教科书都会专门开辟章节来讲解重复博弈呢?有的教科书用一整章,有的用一节。原因有两点:
-
刻画现实世界博弈局势的工具:重复博弈经常可以用来刻画现实世界的博弈局势。例如,分析中美之间的大国竞争,可以简化为一个无限次重复博弈。只要两个国家在地球上都存在,总要打交道。日复一日、年复一年的矛盾冲突,如果忽略每个阶段博弈局势的细微差异,就可以用重复博弈来刻画。不仅是国家之间的博弈,企业之间、同学之间(例如本科四年)的博弈,也都可以视为有限多阶段可观察行动博弈或重复博弈。因此,重复博弈经常被用来刻画现实世界的博弈问题。
-
策略数量的复杂性:重复博弈的另一个特点是,如果重复的阶段数稍微多一点,每个参与者的纯策略数量将是天文数字。我们上次讲过,如果两个囚徒进行重复囚徒困境博弈,哪怕只进行三个阶段,每个参与者的纯策略个数就超过了100万个。如果每个阶段参与者可选的行动更多,或者阶段数更多,甚至我们分析无限个阶段的重复博弈,那么不可能穷举出每一个参与者的所有纯策略。
在这种情况下,我们在第一讲讲的求纳什均衡的方法,比如用策略式表述(双面矩阵形式)来刻画一个博弈,然后采用画线法来求纳什均衡,就不现实了。因为你不可能把所有参与者的策略都一一列出来,例如画一个100万行100万列的矩阵来分析。
但是,我们又希望能对重复博弈进行分析,了解它在什么条件下会具有什么性质的均衡?什么样的结果可以作为均衡出现,什么样的结果不可能出现?如果希望出现特定的均衡结果,我们又该如何构造出来?我们希望能对这些问题给出透彻的回答。因此,有必要专门对重复博弈进行研究。
策略数量示例#
上次讲多阶段可观察行动博弈时,我让大家看过一个囚徒困境博弈,总共进行两个阶段,简称为重复两次的博弈。这样一个重复两次的博弈,任何一个参与者都有五个信息集,每个信息集里有两种行动可以选择。按照排列组合,一个完备的行动计划,即纯策略的个数是 个。
如果这个重复博弈不是两个阶段,而是三个阶段。那意味着在第二阶段结束后的每个节点上,又有一个信息集。两个阶段结束时有16个节点。所以,重复三次的囚徒困境博弈,每个参与者有一个初始信息集(第一阶段),加上第二阶段的 个信息集,再加上第三阶段的 个信息集,总共有 个信息集。每个信息集里有两种行动可以选择,所以每个参与者的纯策略个数是 ,这超过了100万个。因此,重复博弈中的纯策略个数非常多。
有限次重复囚徒困境博弈的纳什均衡#
我们不可能采用策略式表述并用画线法找出所有的均衡。但是我们希望分析重复博弈,了解它会有什么样的均衡,什么样的结果不可能作为均衡结果出现。
例10 囚徒困境#
假设囚徒困境博弈重复进行两次,在第二阶段开始之前能观察到第一阶段的结果。 如果是一次性博弈,它只有一个唯一的纳什均衡,即严格占优策略均衡:每个参与者都选择A。一次性博弈中只有唯一的严格占优策略纳什均衡。
如果囚徒困境博弈重复进行两次,它会有什么样的纳什均衡?有没有可能在某个纳什均衡中,至少在某个阶段有参与者以正的概率选择B?大家想想,当囚徒困境博弈重复进行时,有没有可能有这样的纳什均衡?
我们可以断言:如果博弈是有限次重复的,比如重复进行两次,那么在任何纳什均衡中,均衡路径(从博弈一开始以正的概率抵达的状态)一定是:在每个阶段每个囚徒都以一的概率选择A。尽管可能有不同的纳什均衡,但其均衡路径一定是这样。
纳什均衡路径的证明#
为什么一定是这样呢?我们不采用第一讲中策略式表述和画线法来分析混合策略均衡的条件,而是直接进行论证。
我们假设一个混合策略组合 构成该重复囚徒困境博弈的一个纳什均衡。根据这个混合策略组合,我们可以确定从博弈根节点开始,以正的概率抵达哪些信息集,即确定均衡路径。我们来看看这个均衡路径,是否在某个阶段,不是两个参与者都选择A。如果能证明这种假设会导致矛盾,那就证明了我们的断言。
反证法: 假设存在一个纳什均衡,其均衡路径在某个阶段,不是两个参与者都选择A。
情况一:在第二阶段,至少有一个参与者没有以一的概率选择A。 假设在第二阶段,参与者1没有以一的概率选择A。在这种情况下,参与者1有动机偏离其策略 。他只需在第一阶段遵循 ,而在第二阶段偏离到以一的概率选择A。这将一定能提高他的收益,因为在第二阶段的博弈中,A是一个严格优于B的策略。第一阶段的收益保持不变,第二阶段的收益会提高。这意味着参与者1在第二阶段通过偏离 能提高收益。这与策略组合是纳什均衡的假设矛盾。因此,这个策略组合不可能构成纳什均衡。
情况二:在第二阶段,两个参与者都以一的概率选择A,但在第一阶段,至少有一个参与者没有以一的概率选择A。
假设参与者1在第一阶段没有以一的概率选择A。我们发现参与者1也一定可以通过偏离 来提高收益。参与者1可以采取这样的策略:在 T=1 阶段,他以一的概率选择A。
第一阶段选择A,显然能提高他第一阶段的收益(因为他之前没有以一的概率选择A)。那么,第二阶段的收益会不会降低呢?
考虑两种子情况:
- 囚徒2的策略 不受囚徒1第一阶段行动的影响:如果囚徒2的策略 在第二阶段始终是选择A(无论囚徒1在第一阶段做了什么),那么囚徒1在第一阶段偏离到选择A后,第二阶段继续选择A,其收益与不偏离时相同。此时,囚徒1第一阶段收益严格提高,第二阶段收益不变,总收益提高。
- 囚徒2的策略 是条件策略:如果囚徒2的 是根据第一阶段的观察来决定第二阶段的行动。例如,如果囚徒1在第一阶段选A,囚徒2在第二阶段会选B。在这种情况下,囚徒1如果第一阶段偏离到选择A,第二阶段选择A,其收益从1提高到4。囚徒1在第一阶段的收益严格提高了,第二阶段的收益要么不变(如子情况1),要么更高(如子情况2)。因此,囚徒1在第一阶段以一的概率选择A,确实能提高其在整个博弈中的收益。
这意味着这种策略组合也不能是纳什均衡。
由此,我们可以断定,任何一个策略组合要构成纳什均衡,在均衡路径上,一定是在每个阶段每个囚徒都以一的概率选择A。
多个纳什均衡但均衡路径相同#
大家可能会问,这不就说明这个博弈只有一个纳什均衡吗?即每个囚徒每个阶段都选择A。不是这样的,博弈可以有很多纳什均衡。
例如,每个参与者可以采取这样的策略:第一阶段选A;第二阶段,如果观察到对手第一阶段选A,那自己第二阶段选A;如果观察到对手在第一阶段没选A,那我在第二阶段以 的概率选A, 的概率选B。这样一个策略组合也是博弈的纳什均衡。它在非均衡路径上,没有以一的概率选择A。但非均衡路径是以零的概率发生的,所以它实际上并不影响其在整个博弈中的收益。纳什均衡对参与者在非均衡路径上的行为没有约束。
所以,这个博弈实际上有无数个纳什均衡。但这些纳什均衡的共同点是:在均衡路径上,每个阶段每个囚徒都以一的概率选择A。
附带惩罚选项的囚徒困境#
大家可能会想,这一点看起来很简单。但其实不然。
例11 附带惩罚选项的囚徒困境(重复两次)#
我们稍微把博弈改变一下。现在给每个囚徒增加一个策略C。大家看C这个策略有什么特点?C与A相比,C是一个严格劣势策略:不管对手选什么,囚徒1选C总是严格劣于A的。如果这个博弈是一次性博弈,那么理性的人是不会选择严格劣势策略的。增加一个严格劣势策略,根本不会改变博弈的均衡。
但是,如果现在考虑这样一个博弈局势重复进行两次,我们还能下类似的结论吗?还能说在这样一个重复两次的扩展囚徒困境博弈中,任何一个纳什均衡的均衡路径都是每个囚徒每个阶段都选A吗?不能下这样的结论。
我现在马上可以给你构造一个纳什均衡出来,在这个均衡中,每个囚徒在第一阶段能够达成合作,都选B。我们怎么样能构成一个均衡呢?
将每个囚徒都采用这样的策略:第一阶段选B,希望得到 (B,B) 这样的收益结果。但是我们知道,(B,B) 这个行动组合并不是阶段博弈的纳什均衡。所以,我们引入惩罚机制。
惩罚机制策略: 第一阶段选择B。 第二阶段的选择,根据观察到的第一阶段结果来定:
- 如果第一阶段对手选了B,那么自己第二阶段选A。
- 否则,第二阶段自己选C,哪怕两败俱伤,也要降低对方的收益。这是作为一种惩罚手段。
策略组合的纳什均衡验证#
你可以验证这个策略组合是能够构成重复两次博弈的纳什均衡的,很容易验证。 假设对手采取我刚才描述的策略:第一阶段选B;第二阶段根据观察到的囚徒1第一阶段的行为来定——如果囚徒1在第一阶段选了B,那么囚徒2第二阶段选A;否则,囚徒2第二阶段选C。
现在我们来看囚徒1,他在博弈一开始时有没有动机不选B? 1. 囚徒1不偏离既定策略 (选B) 如果囚徒1一开始选B,对方也选B。这样,囚徒1第一阶段能获得3的收益。进入第二阶段,观察到博弈历史是 (B,B),囚徒2按照既定策略在第二阶段选A,囚徒1也按照既定策略在第二阶段选A。所以,囚徒1始终不偏离既定策略,获得的两个阶段收益是 。
2. 囚徒1偏离既定策略 (选A) 如果囚徒1在第一阶段不选B,他不会傻到选C,他肯定是想获得更高的收益,所以他会改选A。如果他第一阶段选A,他能获得4的收益。 第一阶段结束后,参与者2观察到囚徒1第一阶段没有选B,这将导致囚徒2在第二阶段报复,囚徒2会选C。囚徒1在第二阶段无论选哪个行动,最高收益都是 -1。这样,囚徒1最多只能获得 的收益。 这意味着,囚徒1在第一阶段偏离其既定策略,其收益反而降低了 ()。所以囚徒1在第一阶段没有动机偏离。
3. 囚徒1在第二阶段的偏离 如果在第一阶段不偏离,双方都选B。按照囚徒2的既定策略,囚徒2在第二阶段会选A。囚徒1的既定策略也是选A,获得1的收益。如果囚徒1在第二阶段偏离到B或C,其收益会下降。所以囚徒1在第二阶段也没有动机偏离。
这样我们就验证了囚徒1实际上不可能通过偏离既定策略来提高收益。由于博弈是对称的,囚徒2也同样没有偏离动机。因此,我们描述的策略组合能够构成博弈的纳什均衡。
惩罚手段的重要性#
为什么给每个囚徒增加一个策略C后,就能在重复博弈中得到这种新的均衡,而且是囚徒们能够达成合作的均衡?关键原因在于引入C这个策略后,它可以用作惩罚手段,威胁对方。如果对方不跟自己合作,就有了惩罚的手段。在只有A、B两种行动可选的原始囚徒困境中,没有有效的惩罚手段可用,所以无法构造出合作的均衡。
子博弈完美均衡与不可信威胁#
但是,如果我们感兴趣的是子博弈完美均衡,你会发现我刚才描述的策略组合并不能构成子博弈完美均衡。即:每个囚徒在第一阶段选B;第二阶段根据观察到的第一阶段结果,如果对手第一阶段选B自己第二阶段选A,否则第二阶段选C。这样的组合不能构成子博弈完美均衡。
例如,我们考察这样的情况:你和我博弈,你本来以为我采取上述策略,你也采取你的既定策略。我考虑了一下,在第一个阶段我不选B,我选A。我选A的话,我的收益就从3提高到4。第二阶段,按照你的既定策略,你不是要报复吗?但是你第二阶段选择C来报复我的时候,你会发现报复并不符合你自己的利益,你还不如选A。你为了报复我而降低自己的收益,这种报复对你而言并不是最优选择。所以这个策略组合虽然能构成纳什均衡,但它含有不可信的威胁,因此不能构成子博弈完美均衡。
重复博弈理论的目标#
在重复博弈这部分,我们要讲解一些一般性的结论:一个博弈在什么条件下能够构造出不同的均衡?什么样的纳什均衡、什么样的子博弈完美均衡能够出现,以及如何构造它们?为了讲得更具体,我们首先要引入几个概念,以便描述什么样的结果可以作为均衡结果出现。
贴现因子与平均收益#
我们现在来考虑一下,假设对于一个重复博弈,我们引入贴现因子 ()。如果是囚徒困境博弈,为了简单起见,有时 也可以取小于1的值。例如,如果两个企业每年才签一次合同,那么 可以设定为小于1。但如果一晚上玩多轮,那 就可以趋近于1。
如果一个参与者在博弈的每个阶段都能获得一个收益。给定双方的策略组合后,一定可以算出每个参与者每个阶段获得的收益。例如,参与者1在第一阶段获得收益 ,第二阶段获得 ,第 t 阶段获得 。为了简单起见,我们考虑一个无限次重复博弈,假设有无数个阶段。
这样的收益流,我们要比较不同策略可能带来的不同收益流的价值。这就需要引入贴现因子,将各期的收益折现到第一期。折现值的和是 。在财务上,我们通过比较净现值来评估投资方案的好坏。
另外一种情况是“常数序列”收益流,即每个阶段都获得 的收益。它的折现值之和是 。
在什么情况下,这两个序列的折现值之和相等呢?对于任何一个收益序列,我们总能找到一个常数序列 ,使得它的折现值之和与给定收益序列的折现值之和相等。 对于无限次重复博弈,常数序列的折现值之和是 。令其与 相等,解出 。我们把由此确定的 称为这个收益序列的平均收益。我们假定每个参与者都追求他在这个博弈中获得的平均收益最大化,平均收益越高越好。 如果是有限个阶段的博弈,也可以类似定义平均收益,只是计算会更复杂一些。
可行收益组合#
第二个概念是可行收益组合(Feasible Payoff Vector)。 以囚徒困境博弈为例。设想两个囚徒采取一种相关策略。这个单元格 (1,1) 出现的概率是 ,单元格 (4,0) 出现的概率是 ,单元格 (0,4) 出现的概率是 ,单元格 (3,3) 出现的概率是 。 符合概率分布的定义。 这样就可以得到两个囚徒的期望收益组合: 即:参与者1的期望收益是 ;参与者2的期望收益是 。 当 在允许的范围内(即符合概率分布定义)改变时,就得到了一个区域。这个区域被称为博弈的可行收益区域。可行收益是指,如果参与者采取某个相关策略,是可以恰好获得这个收益组合的。
可以用图形的方式更直观地来看。我们将参与者1的收益放在横轴,参与者2的收益放在纵轴。将矩阵中四个单元格对应的收益组合视为坐标平面上的四个点,并连接起来。这个四边形所围成的区域,就刻画了收益组合的区域,我们称之为重复博弈的可行收益区域。
大家可能会觉得奇怪,因为我们下面分析重复博弈时,根本不考虑相关策略,只考虑纯策略或行为策略。相关策略需要三个参数(例如 )来刻画,而混合策略只需两个参数(例如 )。那么,是否存在某些可行收益区域中的点,无法通过混合策略组合构造出来呢?如果是一次性博弈,这完全可能。 但在重复博弈中,这不成问题。因为如果我们想要某些单元格以正的概率出现,而另一些单元格以零的概率出现,我们可以让双方在博弈的不同阶段交替出现特定的行动组合。例如,在这个阶段采取 (A,A),在下一个阶段采取 (B,B)。通过改变这些行动组合交替出现的相对频率,就可以近似模拟相关策略的情况。因为博弈会重复很多次,通过调整每个单元格对应情况出现的相对频率,就可以模拟相关策略的情况。
符合个体理性的收益#
接下来要讲的是“符合个体理性的收益”。 首先介绍最小最大策略(Minimax Strategy)概念。我只介绍基于纯策略的简单版本,混合策略情况会更复杂。
假设每个参与者采取纯策略。 以囚徒1为例,假设囚徒2的目的就像特朗普对中国一样,不考虑自己的收益,只希望让对手的收益越低越好。 如果囚徒2选择A,囚徒1作为最优回应,会选择A,获得1的收益。 如果囚徒2选择B,囚徒1作为最优回应,会选择A,获得4的收益。 囚徒2为了最小化囚徒1的最大收益(让囚徒1的收益越低越好),会选择A。我们把A这个策略称之为囚徒2的“最小最大策略”。囚徒2通过选择A,让囚徒1获得这些最优回应收益中的最低值1。 我们把由此确定的囚徒1的收益1,称之为囚徒1的最小最大值。这是囚徒1可能得到的最低收益。囚徒1不可能获得比1更低的收益。
回想我们画出的可行收益区域。如果在这个区域内,存在某个收益组合,其中参与者1的收益小于1,例如 。如果你想构造一个策略组合,希望在均衡状态下参与者1的平均收益低于1,参与者1肯定不答应。因为如果他不答应你,你要惩罚他,顶多只能采用最小最大策略把他的收益降低到1,你无法把他的收益降低到比1还低。他有办法做得比你更好:例如,他总选择A,就能保证自己的收益不低于1。所以,任何你想设计的策略组合,如果希望参与者1获得的收益低于1,参与者1一定不会答应。
因此,我们定义符合个体理性的收益组合:对于任何一个策略组合,如果参与者1获得收益 ,参与者2获得收益 ,为了符合个体理性,要求 且 ,其中 是他们的最小最大值。只有这样,参与者才会接受。 这样,我们就得到了一个区域。这个阴影部分的区域不包含 的虚线,也不包含 的虚线。也就是说,在这个阴影区域的内部,以及其右上方的边界上的任何一点,构成的区域,我们称之为“符合个体理性并且具有可行性的收益区域”,或者简称为“符合个体理性的可行收益区域”。
重复博弈理论希望得到这样的结论:对于这个“符合个体理性的可行收益区域”中的任何一点,能否构造一个均衡(有时是纳什均衡,有时是更严格的子博弈完美均衡),使得在均衡中每个参与者获得的平均收益组合恰好就是这一点?也就是说,不管你指定其中哪一点,我们总能构造出一个均衡,实现这个平均收益组合。
有限次重复博弈的无名氏定理#
有限次重复博弈与无限次重复博弈的一个简单差别在于:
- 无限次重复博弈:如果阶段博弈局势满足某些基本条件,那么对于符合个体理性并且具有可行性的收益区域中的任何一点,我一定可以构造一个子博弈完美均衡,使得各方获得的平均收益组合就是这一点。
- 有限次重复博弈:我们将要求稍微放松一下。在满足某些要求的情况下,对于你指定的任何一点,我可以构造一个子博弈完美均衡(或纳什均衡),使得各方获得的平均收益组合充分地逼近你指定的这一点。不一定能完全达到,但能充分逼近。如果你可以自己设定博弈重复的次数,那么你可以做到这一点,即让近似程度达到你指定的任何小的误差
\epsilon范围内。
命题一(有限次重复博弈的纳什无名氏定理)#
这个定理并不是Nash本人提出的,而是关于有限次重复博弈的纳什均衡的“无名氏定理”。
定理内容:在阶段博弈G中,如果对于每一个参与者,可以找到一个纳什均衡 NE(i),他在此均衡中的收益超过他的最小最大值,那么,对于任何 \epsilon > 0,对于任何可行且符合个体理性(即每个参与者的收益要超过其最小最大值)的收益向量 x,一定存在一个正整数 T*,使得只要博弈重复的次数 T > T*,则贴现因子为1的 T 期重复博弈存在一个纳什均衡,该均衡达到的平均收益向量在 x 的 \epsilon 邻域内。
我们通过前面的两个例子来看。 例10 囚徒困境: 这个囚徒困境博弈只有一个纳什均衡 (A,A),每个参与者在此均衡中获得的收益是1。它的最小最大值也是1。它没有“超过”最小最大值,所以它不满足这个定理的条件。因此,这个定理不适用于这个例子,我们构造不出对可行收益区域中任何一点的均衡。直白地说,参与者没有惩罚的手段可用,因为最小最大策略带来的收益与对方的收益相同,无法有效惩罚对方。
例11 附带惩罚选项的囚徒困境(重复两次): 在这个扩展的囚徒困境博弈中,囚徒1的最小最大值是多少? 如果囚徒2选A,囚徒1最优回应选A,最大收益是1。 如果囚徒2选B,囚徒1最优回应选A,最大收益是4。 如果囚徒2选C,囚徒1不管怎么选,最大收益是 -1。 囚徒2如果想惩罚囚徒1,会选择C,使囚徒1的最大收益是 -1。这个 -1 低于纳什均衡 (A,A) 的收益1。所以C可以作为囚徒2惩罚囚徒1的手段,即最小最大策略。 因为有惩罚手段可用,我们就可以构造均衡。对于这个阴影区域中的任何一点,我们都可以构造一个纳什均衡,使得各方获得的平均收益组合充分逼近这一点。如果还不够近,可以进一步增加重复的次数,比如从10次扩展到100次、1000次,总能充分逼近。 所以,这些定理都有一个非常重要的条件:参与者一定要有惩罚的手段可用。
命题二#
命题二:如果阶段博弈G有唯一的纳什均衡,则对任意有限的 T,重复博弈 G(T) 有唯一的子博弈完美解,即G的纳什均衡结果在每一阶段重复出现。
这个命题很容易理解。采用逆向归纳法分析:最后一个阶段,双方一定会选择阶段博弈的纳什均衡。分析倒数第二个阶段时,由于最后一个阶段的结果已确定,倒数第二个阶段可视为最后一个阶段来分析。每个参与者也会选择A。这样一直往前倒推,在每个阶段每个参与者都会选择纳什均衡中的行动。这是唯一的子博弈完美解。这个命题相对来说是显而易见的。
回到前面讲的两个例子:
- 囚徒困境博弈,如果重复有限次,唯一的子博弈完美解就是每个阶段每个囚徒都选择A。
- 附带惩罚选项的囚徒困境博弈,如果重复有限次,结果也是一样的,唯一的子博弈完美均衡是每个阶段每个囚徒都选择A。因为选择C作为惩罚的威胁是不可信的(惩罚者会损害自己的利益)。
有趣的情况:子博弈完美均衡与惩罚#
例12 重复两次的博弈#
我们来看一个更有趣的情况。现在博弈局势如下:
采用画线法可以找出两个纯策略纳什均衡:(L,L) 和 (R,R)。 (L,L) 收益为 (1,1)。 (R,R) 收益为 (3,3)。 有一个结果 (M,M) 双方看起来更有吸引力,收益为 (4,4)。但是 (M,M) 并不是阶段博弈的一个纳什均衡。 当这样一个博弈局势重复进行时,我们可以构造子博弈完美均衡,使得两个参与者能够出现合作行为,都选择M。
构造策略: 每个参与者采取以下策略(因为两个参与者地位完全对称):
- 第一阶段选择M(合作行为)。
- 第二阶段(最后一个阶段),根据第一阶段的结果来定:
- 如果第一阶段双方都选择了M,那么自己第二阶段选R。
- 否则,第二阶段自己选L。 选择L作为惩罚手段,因为选择L来惩罚对方时,对方只能选L(否则收益更低)。博弈中有 (L,L) 和 (R,R) 两个纳什均衡,(R,R) 对参与者更好,(L,L) 对参与者更差。所以,我们可以用好的均衡来奖励对方,用坏的均衡来惩罚对方。基于这种“奖惩”机制,我们就能构造出符合要求的子博弈完美均衡。
如果这个博弈重复不止两次,例如重复十次,我们也可以类似地构造一个子博弈完美均衡:
- 第一阶段选择M。
- 从第二阶段开始,观察博弈历史。只要博弈历史上双方一直合作愉快(选择M),并且不是最后一个阶段,下个阶段就继续选M。
- 如果是最后一个阶段,下个阶段选R。
- 如果观察到博弈历史中有任何人没有选择M(偏离),那么从下个阶段开始就一致选择L,直到博弈结束。 采用这样的策略,你可以验证它能构成博弈的子博弈完美均衡。验证方法就是利用单阶段偏离条件,而不是逆向归纳法。
单阶段偏离条件验证示例(例12,重复两次)#
假设博弈进行两次,每个参与者都采用刚才描述的策略:第一阶段选M;第二阶段,如果观察到第一阶段双方都选M,自己第二阶段选R,否则第二阶段选L。这个策略组合能否构成子博弈完美均衡? 我们利用单阶段偏离条件来验证。以参与者甲为例,假设对手采取上述策略。我们要验证参与者甲在任何阶段都没有动机进行一次性偏离。
1. 考察参与者甲在第一阶段的偏离动机:
- 不偏离既定策略:如果参与者甲不偏离既定策略,他第一阶段选M,对方也选M。甲第一阶段获得4的收益。进入第二阶段,博弈历史是 (M,M),双方既定策略都是选R。甲第二阶段获得3的收益。总收益是 。
- 一次性偏离:如果参与者甲在第一阶段偏离既定策略。他只能偏离到L,这样第一阶段收益从4提高到5。第一阶段结束后,参与者乙观察到甲第一阶段没有选M。按照乙的既定策略,乙第二阶段会选L。甲由于是“一次性偏离”,他在后续阶段会维持既定策略。他的既定策略是:如果发现有人偏离,则第二阶段选L。所以甲第二阶段也选L,获得1的收益。总收益是 。 偏离收益6低于不偏离收益7。所以参与者甲在第一阶段没有动机做一次性偏离。
2. 考察参与者甲在第二阶段的偏离动机: 第二阶段开始时,可能处于9个子博弈中的一个(第一阶段有 种结果)。我们需要验证在这9个子博弈中的每一个,参与者甲都没有动机做单阶段偏离。
- 第一阶段出现 (M,M):进入第二阶段,按照乙的既定策略,乙会选R。甲的既定策略也是选R。甲不偏离能获得3的收益。如果他偏离到L或M,收益都会下降(例如到0)。所以在这个子博弈中,甲满足单阶段偏离条件。
- 第一阶段出现其他8种结果:例如第一阶段出现 (L,M)。观察历史,双方发现第一阶段有人偏离M。按照各自既定策略,第二阶段双方都会选L。甲不偏离能获得1的收益。如果他偏离到M或R,收益都会下降(例如到0)。所以在这个子博弈中,甲满足单阶段偏离条件。其他7种情况也类似。 由于在这个博弈中,甲和乙是对称的,所以乙也一定满足单阶段偏离条件。因此,我们可以断定我刚才描述的策略组合能够构成这个博弈的子博弈完美均衡。
所以,在重复博弈这部分,我们要验证一个策略组合能否构成子博弈完美均衡,采用的办法就是利用单阶段偏离条件。一般的博弈课程如果不是讲单阶段偏离条件,很多博弈在分析策略组合能否构成子博弈完美均衡时,实际上都没有充分论证。
例13 重复博弈中的再谈判#
然而,我现在提出一个问题。假设两个人进行这样一个重复两次的博弈。刚才我们分析了,如果双方都采用我描述的策略,这个策略组合能构成子博弈完美均衡。 现在双方进行博弈。假设你是参与者甲,对方是参与者乙。你准备按照既定策略行动。第一阶段结束后,你发现对方没有选M,对方选了L。按照你的既定策略,你第二阶段是不是要选L来报复? 结果在你行动之前,对方来和你商量。对方说:“刚才不小心选错了,本来想选M的,结果不小心选了L。那既然第一阶段的结果已经成为历史,我也没法改了。接下来最后一把,你没必要坚持选L来报复我吧?我们可以向前看。你选R我选R,这种情况下我们都能获得更高的收益。”
如果你足够理性,你确实会被对方说服。你坚持选L会导致两败俱伤。你听对方的话转而选R,你相信对方也一定会选R(因为如果对方想“坑”你,也会损害自己的利益)。 如果这样,那岂不是意味着我们刚才构造的那个子博弈完美均衡,其报复威胁是不可信的?你之前说如果第一阶段没有观察到 (M,M) 结果,第二阶段就要报复,这个报复的威胁可信吗?
看起来好像是可信的,但我们前面也讲过:子博弈完美均衡的概念是排除了不可信的威胁。可是我们用单阶段偏离条件验证的策略组合确实是子博弈完美均衡。按道理它排除了不可信的威胁,但现在似乎又没有排除。
原因在于我们现在讨论的问题,与“不可信的威胁”概念有区别。这并不是不可信的威胁,而是不能抗再谈判(Renegotiation-proofness)。原来的威胁确实是可信的。之所以现在觉得不可信,是因为我们改变了博弈规则:在博弈进行的过程中,参与者开口说话了。而我们之前描述博弈规则时,并没有明确提到参与者在博弈过程中可以开口说话。
大家想一想,如果始终不允许开口说话,当你观察到第一阶段对方没有选M时,你确实会按照你的既定策略,第二阶段选择L来报复。你报复是符合你的利益的,因为你预期对方也会选择L。所以这个时候你选L是符合你的利益的。如果你转而不选L,你的收益还会降低到零。双方都对第二阶段选L有预期。
所以,原来这个策略组合中的威胁没有包含不可信的威胁,它确实是可信的。是由于在博弈过程中允许参与者进行交流(即“再谈判”),导致有些参与者提出再谈判的要求时,你很难拒绝。所以我们说刚才这个策略组合不能抗再谈判。
那么,什么样的策略组合能够抗再谈判呢?如果你有这样的惩罚手段:当你惩罚对手时,不损害自己的利益,这时就能抗再谈判。
再谈判对均衡的影响#
我们来看例13的博弈局势。
| A | B | C | D | |
|---|---|---|---|---|
| A | 0,0 | 2,3.9 | 0,0 | 5.5,0 |
| B | 3.9,2 | 0,0 | 0,0 | 0,0 |
| C | 0,0 | 0,0 | 3,3 | 0,0 |
| D | 0,5.5 | 0,0 | 0,0 | 5,5 |
这个博弈局势现在有两个纯策略纳什均衡:(C,C) 收益为 (3,3),(D,D) 收益为 (5,5)。双方都选择D时收益最好。 如果这个博弈是一个有限次重复博弈,我们可以构造一个看起来很好的子博弈完美均衡。比如总共进行十个阶段,每个参与者采取我下面描述的策略。这个策略既不包含不可信的威胁,同时又能抗再谈判。但是,现在描述的这个策略,还是不能抗再谈判。 如何来构造子博弈完美均衡,然后再说明它为什么不能抗再谈判?
策略大致描述:
- 第一阶段选择D(希望合作)。
- 从第二阶段开始,观察博弈历史。
- 如果博弈历史上双方一直都选择D,且不是最后一个阶段,下个阶段继续选D。如果是最后一个阶段,下个阶段选C。
- 如果观察到博弈历史中,自己一直选择D,但对方没有选D(对方偏离),那么从下个阶段开始选择B来报复对方。
- 如果观察到博弈历史中,对方一直选择D,但自己没有选D(自己偏离),那么自己从下一阶段开始选择A来接受对方的报复。
- 如果观察到博弈历史中,双方都偏离了D,则从下一阶段开始选择C,并坚持到博弈结束。 这样一个策略组合,可以用单阶段偏离条件验证,它确实是子博弈完美均衡。但是,它不能抗再谈判。
再谈判分析:
-
重复两次的博弈:如果只进行两次,上述策略组合能构成抗再谈判的子博弈完美均衡。例如,你第一阶段准备选D。我发现你没有选D,你选了A,导致我的收益是0。我按照既定策略,下个阶段要选B来报复你。你无法跟我再谈判,因为我选B报复你,我的收益是3.9,你的收益是2。如果你让我不选B而选C或A,我的收益会更差,我当然不会答应。所以这个重复两次的博弈,我刚才描述的策略组合是抗再谈判的。
-
重复三次的博弈:但如果博弈重复三次,就不是这样了。 假设第一阶段你选了B,我没有选B,我选A欺骗了你。按照你的既定策略,你是不是要选择B坚持报复到博弈结束?接下来博弈还有两轮。如果你坚持用B来报复,你在两期中获得的收益总和是 (因为 (B,A) 收益是 (3.9,2),如果我被报复,我选A,你选B)。 这时对方会找你商量:“要不就既往不咎?我们下面还剩两轮,就采取重复两次博弈中的子博弈完美均衡(即双方都选D)。” 你一想,对方讲得确实有道理。如果我既往不咎,接下来两轮都选D,那第二阶段能获得5的收益,第三阶段也能获得5的收益,总共能获得10的收益。这超过了你坚持报复的3.9。所以你会被对方说服。 你会发现,在三次重复博弈中,无论第一次出现什么结果,经过第一次博弈后,再谈判,后面剩下的两期一定会出现重复两次博弈的子博弈完美均衡。这导致双方都是理性的,都预见到第一阶段出现任何结果,接下来都会通过再谈判达成一个新的协议。这样,在第一阶段就只能出现阶段博弈的纳什均衡,无法实现D。所以,D阶段不可能通过不能抗再谈判的均衡来支持。
-
重复四次的博弈:如果是重复四次,又可以了。因为第一次和第二次可以视为一个独立的博弈,这两轮结束后,会通过再谈判达成一个重复两次博弈的子博弈完美均衡。所以你会发现,这个博弈只要重复的次数是偶数次,那么能抗再谈判的均衡,一定是从第一期开始,每两期出现一个重复两次博弈的子博弈完美均衡。
启示: 在这种能抗再谈判的均衡中,如果不考虑贴现因子,每个参与者在重复偶数次博弈中获得的平均收益是 (假设每两轮都合作D)。而我们之前算过,如果能一直合作D,然后最后一次C,重复10次,平均收益是4.8。 这告诉我们,如果在博弈进行的过程中可以交流,这本身就改变了博弈规则。其次,如果博弈进行过程中双方可以交流、协商,未必是好事。你看,如果双方一直不允许交流,是可以达成子博弈完美均衡的,比如重复10次博弈中,每个参与者能获得平均4.8的收益。但一旦允许交流,这个收益就达不到了。所以,交流未必是好事,有交流的机会,于人于己都不一定是好事。
命题三(两人有限次重复博弈的子博弈完美无名氏定理)#
这个命题将刚才的结论一般化。
定理内容:如果阶段博弈G存在两个纳什均衡,而且每个参与者在两个均衡中的收益不同,并且可行收益集的维数等于参与者人数,那么,对于任何 \epsilon > 0,对于任何可行且带给每个参与者的收益超过其(基于纯策略)最小最大值的收益向量 x,一定存在一个正整数 T*,使得只要 T > T*,则贴现因子为1的 T 期重复博弈存在一个子博弈完美纳什均衡,该均衡达到的平均收益向量在 x 的 \epsilon 邻域内。
解释: “可行收益集的维数等于参与者人数”:例如,囚徒困境博弈的可行收益区域是一个四边形区域,是二维的。而囚徒困境博弈是两个人参与的博弈,所以维数等于参与者人数。 如果这四点共线,那就是一维的了,就不满足定理条件。不满足这个条件,意味着参与者没有奖惩的手段可用。
我们刚才举的例子(例12)就符合这个定理的条件:它有两个纳什均衡 (L,L) 和 (R,R),每个参与者在这两个均衡中的收益各不相同(1和3)。所以可以用好的均衡作为奖励手段,用坏的均衡作为惩罚手段。刚才的例子中,阶段博弈有更多不同好坏的纳什均衡,所以奖惩手段就更丰富。最好的奖惩手段是在惩罚对方的同时,还能提高自己的收益。
例14 愚夫博弈(有限次重复)#
这个博弈很简单,是一个 博弈,有两个纳什均衡。每个参与者在两个均衡中的收益各不相同。我们通过这个例子来讲刚才命题三的结论:对于可行收益区中任何符合个体理性的收益向量,我们一定可以构造一个子博弈完美均衡,使得双方的平均收益充分地逼近你指定的这一点。例如,你希望双方获得的平均收益是 (3,3),或者 (4,4)。只要在这个阴影区域内,我们一定可以构造一个子博弈完美均衡,使得各方的平均收益组合充分逼近这一点。
如何构造策略组合: 假设我们希望在重复100次的愚夫博弈中,构造一个策略组合,能够形成子博弈完美均衡,且在均衡中不考虑贴现,每个参与者获得的平均收益都是3。
思路:
-
基本行动计划: 为了使平均收益接近 (3,3),我们可以让 (T,L) (收益 (6,6)) 和 (B,R) (收益 (0,0)) 这两个行动组合交替出现。这样,在前98轮中,每方获得的平均收益是 。但不能一直这样重复到最后,因为 (T,L) 和 (B,R) 都不是阶段博弈的纳什均衡,所以这个基本行动计划本身不能构成均衡。 因此,在最后的若干阶段,必须采用阶段博弈的纳什均衡。在这个博弈中,有两个纯策略纳什均衡:(T,R) 收益为 (2,7),(B,L) 收益为 (7,2)。 幻灯片上的基本行动计划是:前98个阶段 (T,L) 和 (B,R) 交替出现;第99阶段选择 (B,L);第100阶段选择 (T,R)。
-
惩罚威胁: 由于基本行动计划本身不能构成均衡,我们需要给每个囚徒增加惩罚威胁:如果任何参与者偏离了基本行动计划,那么将如何报复?
- 惩罚方式:
- 参与者1针对参与者2的惩罚行动是B,参与者2采取L接受惩罚。此时收益是 (7,2)。这意味着参与者1惩罚对方时,自己的收益是7,对方是2。这是一个非常好的惩罚手段,能够给自己带来高收益,同时给对方带来低收益。
- 参与者2针对参与者1的惩罚行动是R,参与者1采取T接受惩罚。此时收益是 (2,7)。
- 同时偏离处理:如果双方在同一阶段同时偏离,可以简化处理,例如视同参与者1率先偏离,由参与者2报复参与者1。
- 惩罚方式:
验证策略组合:
这样的策略组合,我们可以用单阶段偏离条件来验证它能否构成子博弈完美纳什均衡。
考虑一个参与者是否会偏离基本行动计划。
假设对方严格遵循策略。如果在前98个阶段的任何一个阶段,例如在第 t 阶段,参与者1偏离了基本行动计划(例如,本应选T却选了B)。那么从第 t+1 阶段开始,参与者2将实施惩罚(选择R),直到第100阶段。参与者1将采取T接受惩罚。
假设惩罚阶段持续10个阶段。在这10个阶段里,如果参与者1坚持偏离,他获得的收益会是惩罚的平均收益。如果他不偏离,他将获得合作的平均收益。
如果他在某个阶段偏离了,他会从当前行动获得更高的收益。但是,由于之后他会遭到惩罚,在剩下的博弈中,他将持续获得较低的收益。比如,如果他不偏离,在倒数第二个阶段他能获得7的收益,但如果他偏离了导致被惩罚,后面只能获得2的收益。7大大高于2,所以他会权衡利弊。
惩罚手段的目的:一是确保策略组合能经得住逆向归纳法的考验;二是要使得在合作阶段,任何参与者出现偏离行为时,对方实施报复后,该参与者权衡利弊发现得不偿失,还不如遵守计划。这两个原则共同确定了后面采取纳什均衡的阶段数量。
报复阶段数量的权衡: 后面采取纳什均衡的阶段数量越多,基本行动计划导致的平均收益与你要求的 (3,3) 之间的偏差就越大。所以我们希望非合作的阶段数越少越好,以达到精度要求。 然而,如果惩罚阶段太少,有些参与者可能不怕报复威胁了。因为如果偏离基本行动计划,报复对我的收益下降很少。例如,如果惩罚只有两个阶段,收益总共下降5个单位。如果偏离能带来5个单位的收益,那么他可能就不怕报复了。 在这种情况下,我们就需要增加惩罚阶段的数量。比如增加到4个阶段,偏离导致的收益总共下降10个单位。参与者权衡后可能会发现得不偿失。 所以,后面的惩罚阶段数到底多少,是有一个权衡:既要足够少以满足精度要求,又不能太少以至于参与者不怕报复威胁。 如果博弈重复的次数足够多(例如1000次),即使惩罚阶段是10次,也能满足精度要求。在惩罚阶段达到10次的情况下,一次性偏离的损失是很大的,参与者权衡后可能就没有动机偏离了。
至此,有限次重复博弈的部分就讲完了。
关键点和注意事项#
- 签到规定:签到必须在教室现场进行,禁止拍照截屏转发。如有需要,会打印纸质表格。
- 成绩与考勤:中期退课、作业未交和缺课情况都会影响期末成绩。期末不参加考试将导致该课程成绩为零。务必遵守学校规定。
- 重复博弈中的策略:
- 针锋相对策略在有限次重复博弈中不能构成纳什均衡(因最后一次偏离动机),在无限次重复博弈中可构成纳什均衡,但不能构成子博弈完美均衡(因对非理性偏离缺乏宽容)。
- 冷酷策略在无限次重复博弈中可以构成纳什均衡和子博弈完美均衡(因对任何偏离都严厉惩罚)。
- 重复博弈理论的重要性:
- 重复博弈是现实世界博弈(如国家间竞争、企业合作)的重要刻画工具。
- 重复博弈的策略数量巨大,无法使用传统矩阵分析法,需要专门理论来分析其均衡性质和构造方法。
- 均衡概念:
- 平均收益:通过贴现因子将无限期收益流转化为每期的等效收益。
- 可行收益组合:通过相关策略可以实现的收益向量集合。
- 符合个体理性的收益:每个参与者获得的平均收益不低于其最小最大值。
- 无名氏定理:
- 有限次重复博弈的纳什无名氏定理:若阶段博弈存在纳什均衡且参与者在此均衡中收益高于其最小最大值,则重复足够多次数后,任何符合个体理性的可行收益都可被纳什均衡充分逼近。
- 有限次重复博弈的子博弈完美无名氏定理:若阶段博弈存在至少两个收益不同的纳什均衡且可行收益集维数等于参与者人数,则重复足够多次数后,任何符合个体理性的可行收益都可被子博弈完美纳什均衡充分逼近。
- 单阶段偏离条件:是验证多阶段可观察行动博弈(包括重复博弈)策略组合是否构成子博弈完美均衡的充分必要条件。
- 再谈判问题:在博弈过程中允许参与者交流和协商(再谈判)可能会改变博弈规则,并可能导致原先的子博弈完美均衡不再稳定(即“不能抗再谈判”),从而降低均衡收益。交流机会未必总是好事。
- 策略构造:构造子博弈完美均衡通常需要:
- 基本行动计划:使各方合作达到期望的平均收益。
- 惩罚威胁:一旦有人偏离基本行动计划,就启动惩罚,使偏离者得不偿失。惩罚通常涉及在后续阶段采取阶段博弈的劣势纳什均衡或对惩罚者有利的行动。
- 惩罚阶段数量的权衡:需要足够的惩罚阶段来威慑偏离,但又不能太多以至于显著降低整体平均收益。