博弈论转录1022 - haoxin.dev

博弈论：完全信息动态博弈#

导言与动态博弈基础#

好，讲到这里，我们就把第一讲的全部内容讲完了。正好快八点，我们现在开始第二讲，完全信息的动态博弈。所谓动态博弈，就是博弈分为不止一个阶段，有参与者先行动，有参与者后行动。动态博弈与静态博弈的最大不同在于：后行动的参与者可以相机行动，根据观察到的前面参与者的行动做出反应。这样，后行动参与者的策略就不等价于行动。策略是事前制定的完备行动计划，所以策略和行动就不再等同了。但在静态博弈中，两者之间是同样的意思。若进行完全清晰的动态分析，如果每个参与者都确定了策略，那么每个参与者获得的收益是大家的共同认知。

在后面的第三讲、第四讲，我们会讲不完全信息的博弈。现在讨论的是比较简单的完全信息的动态博弈。通过这一讲的热身，我们先做一个游戏，海盗分金的游戏。这个游戏我相信在座的同学中，肯定至少有不下十个同学已经听说过，或许更多，也有可能还玩过。但这不妨碍你今天参与这个游戏，因为你过去的经验未必是对的。我们来看一下，先讲一下这个游戏规则，然后我们再找五个同学上来做这个游戏。大家看一下这张图片，有A、B、C、D、E五个海盗。

海盗分金#

有一次出海打劫，他们抢得了一袋金币，打开袋子一看正好有100枚。现在这些海盗面临的问题是如何分赃，如何把这100枚金币在他们之间分配下去。为了简化问题，我们假定金币不可切割，只能整枚地分。每个人分的金币也不能是负的，一定是非负的。现在要讨论如何把这100枚金币在五个参与者之间分配下去。

这个海盗团伙有一个很奇怪的、动态博弈的游戏规则。首先，第一个阶段，排在队伍前面的海盗A提出一个分配方案，由他决定A、B、C、D、E分别能获得多少枚金币。他可以给出一个任意的分配方案，只是要求每个人分配的数字必须是整数，当然也不能超过100。而且每个人分的数额总和不能超过100，因为金币不够分。A提交分配方案之后，所有海盗（包括A在内）投票表决。同意就举手，不同意就不举手。规则是：如果能够有超过半数的人同意，包括A在内，超过半数，注意是要超过半数。如果刚好达到半数，则不能通过。如果能得到过半数的同意，这个方案就通过，就按照这个分配方案分配，游戏就结束了。

但是问题在于，如果这个方案没有能够获得过半数票的支持，这个方案就不能通过。不能通过的话，按照规则要惩罚提出方案的参与者。因此，若A的方案不能通过，海盗A就会被扔到海里喂鲨鱼，他不光出局，甚至性命不保。A出局之后，接下来轮到排在他后面的B提出方案，就不用再考虑A了。B要考虑在B、C、D、E这四个人之间如何分配这100枚金币。B提出分配方案后，同样地，包括B本人在内，四个人投票表决，如果有过半数票支持，这个方案通过，按照这个方案分配，游戏结束。同样地，如果这个方案没有通过，B会被扔到海里喂鲨鱼。接下来C提方案，以此类推。大家可以想到，最后肯定会有一个结果，大不了A、B、C、D全部被扔到海里去，所有的金币都归E，对吧？所以一定会有这个结果。

那么问题在于，这个游戏会是什么结果？每个人如果能自己提方案，会提一个什么样的分配方案？如果能让自己表态，什么情况下支持，什么情况下反对？这个问题看起来有点复杂，对吧？所以我们有请五位同学来充当五名海盗。

我们进一步做一点假定：每个海盗都既贪婪又残忍。贪婪是指每个海盗都希望自己获得的金币越多越好。残忍在于，如果有两个方案供选择，分享给自己的金币数量一样多，但其中一个方案能看到别人被扔进海里，他会支持那个方案。也就是说，在不影响自己利益的情况下，他很乐意看到别的海盗出局，这是他残忍的一面。每个海盗都既贪婪又残忍。现在每个海盗会如何来思考局势、做出决策？最后会出现什么结果？这就是我们这个游戏要讨论的问题。

我们先通过做实验来看看大家是如何思考、做出决策的，会出现什么结果。我们再进行严格的逻辑分析，分析各个参与者应当如何思考、做出决策，以及最终会出现什么结果。我们再说明，分析海盗分金这个问题中的一般化方法是什么？它是贯穿整个动态博弈的分析方法。

好，有没有同学自告奋勇上来？名额有限，先到先得。五位同学，看来都是男生。好，五位同学，这样你们可以自由选择自己的位置。我们从这边开始，比如A、B、C、D、E。谁想当A，大家讨论一下，我们先确定。博弈论前面讲了三个基本假定，其中第二条是每个人都知道博弈规则，对吧？你们都知道了吧？还有现在不清楚的地方吗？想问一下，如果是刚好一半是怎么算，通过吗？四人投票一定要过半，至少要有3票才能通过。2票不能通过。

还有什么疑惑的地方可以交流。我们可以交流，但要注意这是一个非合作博弈。所以你跟别人协商之后，没有任何人有义务执行这个协议，对吧？也就是说，你可以交流，但交流的结果对大家没有约束力，对吧？不过，为了尽量真实，我们需要假定。因为一般的博弈中还有一个什么关注效应，就是说有没有人在下面看会影响他们的决策，他们会考虑是不是要表现出比较大度。所以你们不要考虑下面有人在围观。就设想一下，你们每个参与者都既贪婪又残忍。好，现在如果排到A想好了你的分配方案，就把它写在黑板上，我给你擦一下黑板。你们可以先交流，甚至可以讨价还价。但是记住，协议没有约束力。

（师生互动，同学讨论方案）

好，大家投票，看这个方案能否通过。面向观众。好，我证明海盗并非都不贪婪，他自己同意，其他四个都不同意。我看他不仅出局了，而且被扔下海了。好，那你就暂时消失了，现在由B提出分配方案。你要好好想一想，否则会被扔下去。不要急，不要急。现在看一下这个方案，你们每个参与者想一想同不同意他的方案，想好了吗？想好了我们就可以投票。好，同意的举手。有人在拉票，你举手不举手？A、B都出局了，现在是C、D、E对吗？（D表示）我同意，还没给我呢。

好，这个方案通过了。D急不可耐地表示同意。好，谢谢。你们先下去，我们下面要来分析这个问题。有没有人能够理解，在最后这一轮，C提出分配方案后，D急不可耐地表示同意的原因？对，理解了他们就不会捣乱，因为D会无条件同意，这是他唯一的生机。

如果C的方案没有通过，一旦进入下一轮，你会发现D无论提出什么分配方案，E一定会反对。你看，假设轮到D提出分配方案时，A、B、C都出局了，由D来分配。如果D提出全部金币归E，D一枚都不要，E同不同意？E不会同意。因为E现在能拿100枚金币，但那样就没有热闹可看了。如果E不同意，这个方案就不能通过。不能通过的话，D被扔到海里去，然后100枚金币归E，对吧？所以在不影响自己利益的情况下，E也很乐意看到D被扔到海里去。

所以对于D提出的任何分配方案，E一定会反对。这样一来，只要A、B、C都出局，D就没有生路了。D无论提出什么分配方案，都不可避免地被扔到海里。所以再倒推到前面一轮，如果是C提分配方案，那么C能够预见到，不管自己提什么分配方案，D肯定会同意，因为这至少能保住性命。所以C干脆提出来100枚金币全部归自己，这时D会表示支持，对吧？这样我们是采用从后往前倒推的方法。为什么要采用从后往前倒推的方法？虽然这是一个动态博弈，但在动态博弈中，我们在前面的阶段，每个参与者在思考局势时，当前这个阶段如何选择，其实是基于我做出不同选择后，你将会如何反应的预期，以此为基础决定我当前应该怎么做。也就是说，我是对于对手在后续阶段的反应来决定我当前如何做。

同样地，我可以想到，对手在下一轮将会如何反应，又是基于对手考虑，如果我做出这样的反应，博弈要是没有结束，进入将来，对方又会如何反应，出现什么结果。比如说，当前博弈还没有结束，进入下一轮。进入下一轮，如果是C提分配方案，C会提一个分配方案。那么这个方案能不能通过？C提出了分配方案，C会想，我提出的这个分配方案，对方将会如何表决？对方如果表决，会考虑如果我同意，这个方案会带来什么收益。如果我们不同意，轮到我将来提方案，我能获得多少？对吧？所以在每一个阶段，对手决定怎么做，都是基于对未来的预期做出最优反应。这样我们发现要分析这样一个动态决策问题，我们需要回到未来，就是回到最遥远的未来。这样的未来，比如这里假设已经，比如最简单的情况，A、B、C、D都出局了，只剩下E了，对吧？最简单的情况，对吧？这种情况下，没什么好说的，只剩E一人，这100枚金币肯定都归E，对吧？因为就他一个人了，都归他。

那么分析了这种情况之后，现在我们再来分析，假设不是一个人，假设只剩下D和E两个人。这时，你会想我提出的分配方案，对方将会如何反应呢？比如我提一个分配方案，我给E多少枚金币。如果E支持，那么E就获得了这些金币。如果E不支持，那么我的方案不能通过。那么E会提出一个什么方案呢？刚才已经分析了，D提出的任何方案E都会反对，所以D没有活路，100枚金币归E。因此，当只剩下D和E两人时，D提出任何方案E都会反对。

这种情况分析之后，再倒推到有C、D、E三个人。这时，C提出方案，并给D、E分配。他相信这个方案一定能通过。为什么呢？因为我刚才已经分析了，如果我的方案不能通过，接下来就会出现D没有活路的情况。由此推断，我提出的这个分配方案D一定会支持，我的方案就能通过，对吧？所以整个分析是从后往前倒推的。

那么我们进一步分析，比如还剩下B、C、D、E四个人。这时，按照同样的思路，B要提出一个分配方案，既要获得过半数票的支持，同时争取最大化自己的利益。要获得过半数票的支持，除了自己，还要获得两个人的支持。显而易见，C是不用考虑的，因为C当然希望B的方案不能通过，这样下一次轮到他提方案时才能争取最大利益，对吧？所以B就要想方设法拉拢D和E。只需要征得他们的同意。所以只需要给他们各一枚金币，聊胜于无，对吧？这种情况下，D和E一定会支持，因为D和E支持B的方案，能获得一枚金币。否则下一轮C提出分配方案时，他们会一无所获，对吧？所以B这样一个分配方案是一定能够通过的。

再进一步往前倒推，轮到A提出分配方案时，A提一个分配方案要获得过半数票的支持，除了自己，还要获得两个人的支持。显而易见，B是不用考虑的，B肯定会反对，对吧？因为B就希望A的方案不能通过，下一次他提方案时他就能获得更多。所以，A要以最少的代价，拉拢C、D、E中的两个人。C、D、E中的两个人。你看，如果C的方案没有通过，C会一无所获。我现在就给他一枚金币，他应该很乐意支持我。再从D和E中拉拢一个就可以了，拉拢两个都是浪费，对吧？比如拉拢E，给他两枚金币，他会支持。如果他支持，这个方案通过，他能获得两枚。否则下一轮B提方案时，他只能获得一枚，对吧？

在这种情况下，我们最后推出来，A提出这样一个分配方案理论上是可以的。但这个分析过程依赖于一个重要假定：理性共识。也就是说，所有参与者都是理性的，具有理性共识。但是我们刚才做这个博弈实验，虽然我们上了半个学期的博弈论课，你们每一个人未必被训练成具有理性共识的人。具有理性共识的人，应当会掌握博弈的各种分析方法，对吧？动态博弈的分析方法你们还没掌握，所以还不具有理性共识。那么在不知道大家是不是具有理性共识的情况下，你就贸然按照具有理性共识的分析来提出方案。其实，把这个方案摆出来，那你要是被扔到海里去，那是很正常，对吧？因为你没有考虑博弈的前提是具有理性共识，只有具有理性共识，你提出这个方案才有把握通过。

下面我们给刚才这位A同学来分析一下。对，刚才是不是你？讲到这里，你看你觉得你冤枉不冤枉？我们分析出来，如果基于理性共识，你提的方案是最优的。但是你却早早被扔到海里去了，觉得很冤枉。

那你想一想，如果再有一个机会，比如你在另外一个场合，另外一个课程，老师又要出一个类似海盗分金的游戏，结果你又参与了，而且你很幸运又排在A的位置。那时你知道有一个很好的前景摆在这个地方，但风险很大。有没有说，这个空间可以用，你先进行一些沟通，把这个逻辑跟他们讲清楚，因为他们不一定懂，对吧？那就对了。那就是说，如果你没有强制性的惩罚，你要是在别人的那个课程上，你先给大家讲一堂博弈论的课，对吧？特别是讲动态博弈的基本分析方法——倒推法，不仅要讲，而且要敲黑板确认每个人都听懂。因为在这个博弈中，你发现如果参与者具有理性共识，这对你是有利的。对手聪明对你有利，对手笨对你不利。所以既然如此，你就要在博弈之前想方设法把对手变得聪明。所以你如果先把对手变得聪明，他们确实掌握了这种动态博弈的分析方法，然后你再来提出这个分配方案，你是不是就比较有把握这个方案的通过，对吧？好，请坐。

但是，如果你要是在这个博弈中，你不是处于那个位置，你处于B、C、D、E的位置。结果你没想到，就在A位置的这个参与者在博弈开始之前，他在给你讲博弈论的课。他讲动态博弈的分析方法，而你是B、C、D、E中的一员，你预料到，如果你听懂了，他也知道你听懂了，那他就会提出那个分配方案。你有什么好办法？你要装作没听懂。

可能还是得取决于你处于哪个位置。不管处于哪个位置，比如我们是B、C、D、E的位置，反正你不管怎么做，怎么跟我讲，我就是听不懂，实在听不懂。如果你不给我分，我就会反对。因为你讲的这些东西我听不懂，反正我觉得只有平分才是公平的。对吧？这种情况下，如果你不能确认我是真的听不懂，你可能就会犹豫了，对吧？所以，在B、C、D、E位置的人需要什么呢？需要装疯卖傻，需要这一套策略。有一个人把装疯卖傻用得炉火纯青了，是谁啊？比如现在的贸易战、关税战，其实他心里很清楚，所有人都很清楚，对吧？因为贸易是互惠的，设置关税其实是两败俱伤的。只不过就是看谁伤害更多，谁伤害更少。他心里很清楚，但他就不管这一套，装作不懂，把这些贸易理论摆在一边，反正就是不让我来干预。比如，你对我有每年5000万的贸易顺差，那我就要你交3000亿的关税。我不管什么理论不理论，反正我觉得这是在保持公平，他就摆在这个地方。你接受不接受？对吧？这种情况下，如果你无可奈何，你接受他的条件，当然对他来说是有利。这特别典型的就是装疯卖傻。

所以这告诉我们，在每一个现实的博弈问题中，你要自己分析博弈局势。有时对手越聪明对你越有利，有时对手越愚蠢对自己越有利。有时要让对手相信自己很聪明，对自己有利，有时要让对手相信自己很愚蠢，对自己很有利。所以要根据具体的情况来分析。

当然，如果B、C、D、E装疯卖傻，A也不能被表象所迷惑。A要仔细分辨对方是真的傻还是装疯卖傻，对吧？比如发现对方是数学学院的学生，估计肯定是在装疯卖傻。因为这么简单的逻辑，数学系的学生听不懂，我估计肯定是装的。对吧？这时你就不管他是不是装的，我就提出这个分配方案，他就会就范。但是，假设是一个学艺术的学生，他可能确实听不懂，对吧？如果听不懂，他坚信如果不给他分金币，一定会反对。这种情况下，还是老老实实给别人分一点好，至少可以避免被扔下去。所以认识对手非常重要。

这个海盗分金的游戏，尽管非常简单，大家可能很难想象，在30年前，90年代中期，曾经被微软作为招聘软件工程师的一道面试题。这个游戏给我们最大的启发是什么呢？就是这个动态博弈的基本分析方法——倒推法，或者说我们后来称之为逆向归纳法。

动态博弈的基本分析方法是逆向归纳法。因为基于理性共识，采用这种倒推的方法，逻辑是无懈可击的。但是这一讲后面，我们还会讲一种正推法。倒推法逻辑非常严谨，无懈可击。但在有些比较复杂的博弈中，你会发现倒推法分析出的结果可能没有说服力。我们回头会介绍一种正推法，正推法得出的结果可能与倒推法矛盾。但有时正推法的逻辑也很有说服力。这个我们在这讲的后面再来讲。但一般来说，在博弈当中，我们以倒推法为基础，在有些比较复杂的博弈中，再辅助正推法。

一、行为策略均衡#

那下面我们来正式地讲第二个，第二讲首先讲行为策略均衡。行为策略均衡是指在一个动态博弈中，如果考虑到参与者可以随机选择，那么我们需要定义一种基于随机策略的均衡。我在导论中讲到过，导论中专门有一个内容讲行为策略。为什么要在那时讲这个？因为现在要用到，在动态博弈中，我们定义均衡是基于行为策略的。但基于行为策略来定义均衡，又要用到混合策略，还要用到混合策略与行为策略之间的关系。我们先来看一下，如果我不考虑行为策略，就基于混合策略来定义均衡，这种均衡会有什么问题？

我们来看一个这样的博弈。在这个图上的节点前的符号表示参与者的编号。根节点上是零号参与者，零号参与者是自然（Nature）。自然通过掷硬币的方式选择上（Upper）或下（Lower）两种情况。自然选择了行动之后，接下来轮到参与者一行动。参与者一行动时能够观察到自然的选择。所以参与者一的上下两个节点都是单节点信息集。参与者一观察到自然选择了上之后，可以选择W1或者X1。与此同时，参与者二也能观察到自然的行动。参与者二要选择W2或者X2。参与者二与参与者一是同时行动的。所以参与者二的这两个节点构成了一个多节点信息集，代表了在自然选择了上之后，参与者一与参与者二同时行动。下面是类似。所以这是一个两人博弈。

这个两人博弈，我们可以把这个博弈用策略式重新表述。就是把先出现的参与者一放在行的位置，后出现的参与者二放在列的位置，然后把每个参与者的纯策略列举出来。参与者一有上下两个信息集，每个信息集里有两种行动可供选择，所以有 $2 \times 2 = 4$ 种纯策略。参与者二也有 $2 \times 2 = 4$ 种纯策略。因此，我们可以让这个博弈的策略式表述中，参与者一有这样的4种纯策略，参与者二也有4种纯策略。根据这个博弈树，我们可以把每个策略组合下对应的收益填进去，就是这样一个矩阵。

例1#

策略式表述

C2	w2y2	w2z2	x2y2	x2z2
C1
w1y1	3,1	2,2	2,2	1,3
w1z1	2,2	3,1	1,3	2,2
x1y1	2,2	1,3	3,1	2,2
x1z1	1,3	2,2	2,2	3,1

混合策略均衡的多重性 $\begin{array}{l} (\alpha [ w _ {1} y _ {1} ] + \alpha [ x _ {1} z _ {1} ] + (5 - \alpha) [ w _ {1} z _ {1} ] + (5 - \alpha) [ x _ {1} y _ {1} ], \\ \beta \left[ w _ {2} y _ {2} \right] + \beta \left[ x _ {2} z _ {2} \right] + (5 - \beta) \left[ w _ {2} z _ {2} \right] + (5 - \beta) \left[ x _ {2} y _ {2} \right]) \\ \end{array}$

其中， $\alpha$ 和 $\beta$ 都在 0 与 0.5 之间。

这个矩阵表述之后，我们是不是可以采用划线法求这个博弈的纯策略纳什均衡？也可以利用我们前面讲的求混合策略均衡的方法，来求这个博弈的混合策略均衡。就这个博弈来讲，会有无数个混合策略均衡。

例如，我们考虑这一类均衡的策略组合，上面这一行是参与者一的策略。其中有一个参数 $\alpha$ 。我们假设 $\alpha$ 在0到0.5之间可以取任何一个数。参与者一以 $\alpha, \alpha, 0.5 - \alpha, 0.5 - \alpha$ 的概率分布来选择这四种纯策略。参与者二以另外一个概率分布 $\beta, \beta, 0.5 - \beta, 0.5 - \beta$ 选择纯策略。假设 $\alpha$ 和 $\beta$ 的取值都在0到0.5之间，那这样 $\alpha$ 和 $\beta$ 的取值稍微变化一下，就是一种新的策略组合。我们可以验证这个策略组合，只要 $\alpha$ 和 $\beta$ 取值在0到0.5之间，这个策略组合就是这个博弈的混合策略纳什均衡。所以这个博弈的混合策略均衡有无数个。

但是这样一个混合策略组合，即使 $\alpha$ 和 $\beta$ 可以取不同的值，如果把它转化为行为策略，你会发现它们都对应着相同的行为策略。而且这个行为策略非常简单：每个参与者在自己的每一个信息集，通过抛硬币选择自己的两种行动，就这么简单。如果自然选择的是上，那么参与者一抛硬币选W1或X1，参与者二抛硬币选W2或X2。如果自然选择的是下，那么参与者一也是抛硬币选Y1或Z1，参与者二也是抛硬币选Y2或Z2。所以，这无数个混合策略纳什均衡，其实对应着相同的行为策略组合，而且这个行为策略很简单。

这个例子告诉我们，在动态博弈中，如果基于混合策略来定义均衡，会存在均衡的多重性。而且这些多重性是没有意义的，因为本质上对应着相同的行为策略组合，对吧？这就原因在于什么呢？在于我们前面讲行为策略时，在一个博弈中，或在一个一般化的博弈中，描述参与者一的混合策略需要几个参数？需要三个参数，对吧？这有4种纯策略，用三个参数来刻画，对吧？但是如果我们用行为策略来刻画，参与者一只需要用两个参数。在这个信息集，比如以 $p$ 的概率选W1，以 $1-p$ 的概率选X1。在这个信息集，以 $q$ 的概率选Y1，以 $1-q$ 的概率选Z1，只需要 $p$ , $q$ 两个参数。

所以动态博弈中，如果基于混合策略来定义均衡，会存在均衡的多重性。而且很多看似不同的混合策略均衡，其实对应着相同的行为策略组合，对吧？所以在动态博弈中，我们不定义、不基于混合策略来定义均衡，我们基于行为策略来定义均衡。休息一会儿之后，我们具体来讲如何基于行为策略定义均衡。好，先休息。

好，大家好，我们开始上课了。刚才讲了，对于动态博弈，如果我们基于混合策略来定义均衡，那么会存在均衡的多重性。而且很多看起来不同的均衡，实际上本质上对应着相同的行为策略组合。我们下面来看一下，如果要是基于行为策略来定义均衡。

多代理人表述与行为策略均衡定义#

基于行为策略来定义均衡，我们首先介绍一种博弈的另外一种表述——多代理人表述。例如，我们来看一下这样一个很简单的博弈，A、B两个企业之间的博弈。设想一下博弈是这样的。十几年前，苹果第一次推出智能手机。当时苹果是世界上第一家推出智能手机的厂商，它会把价格设定为垄断价格。我们知道，独家垄断的情况下，其产量不会很大，这样才能维持垄断高价。但处于垄断地位的厂商能获得暴利，所以其他企业也跃跃欲试，也想进入智能手机市场。

比如我们设想B是三星，它也想进入智能手机市场。那么现在苹果A和三星B之间面临一个博弈局势。就是苹果可以率先决定是不是扩建生产线来增加智能手机的发货量。他可以不扩建，也可以选择扩建。苹果做了决定之后，三星观测到了苹果的行动。三星要决定进不进入智能手机行业，如果进入就建厂，如果不进入就不建。三星在行动的时候是观察到了苹果的行动之后再做出了选择。这是一个完全信息的动态博弈。而且具体来说，是一个完全且完美信息的动态博弈，因为博弈树中的每个节点都不是单节点信息集。

这样一个博弈，我们前面刚刚讲过，可以把这样一个用博弈树表示的博弈，把它用矩阵的形式来表述。这就是我们熟悉的策略式表述。苹果先行动，它只有一个信息集，所以它的两种行动就是它的两种策略。可是三星是后行动的，我们刚才在博弈树上看到三星有左右两个信息集，所以三星在博弈开始前制定的策略应该是一个完备的行动计划。那就是如果观察到苹果没有扩建生产线，三星是选择不建还是建？如果观察到苹果扩建了生产线，他选择什么？这才能构成三星的一个策略，对吧？所以三星有 $2 \times 2 = 4$ 种纯策略。逗号前面的表示在三星左边的节点观察到苹果选择不扩建的情况下他选择什么。逗号后面表示他观察到苹果选择了扩建的情况下，他选择什么。根据那个博弈树，我们可以就每个单元格对应的策略组合，把每个参与者的收益找出来填进去，就得到了这个策略式表述。

下面我们引入多代理人表述。多代理人表述就是对博弈树上的每一个信息集，我们都引进一个独立的代理人。这样，苹果（作为参与者A）只有一个信息集，所以苹果还是一个参与者。可是三星，它有左右两个信息集，我们分别给它引进一个代理人。左边的这个信息集，比如命名为三星的代理人B1，右边的信息集对应于三星的代理人B2。把这样一个本来是苹果和三星两个参与者的博弈，变换成一个三个参与者的博弈，即苹果、三星的代理人B1，以及三星的代理人B2。这意味着B1和B2是独立做决策，独立行动的。他们之间的内在联系在于：他们是三星的代理人。在博弈的每一个终结点，根据博弈树，三星获得多少收益，就是相应的代理人获得多少收益，对吧？把它变成一个三个参与者的博弈之后，这个多代理人表述就是这种形式，一个三维矩阵。

例2 进入与遏制博弈#

策略式表述

		企业B
		(不建,不建)	(不建,建厂)	(建厂,不建)	(建厂,建厂)
企业A	不扩	40,0	40,0	10,10	10,10
	扩建	20,0	-20,-10	20,0	-20,-10

多代理人表述

		B2: 不建				B2: 建厂
		B1				B1
		不建	建厂			不建	建厂
A	不扩	40,0,0	10,10,10	A	不扩	40,0,0	10,10,10
	扩建	20,0,0	20,0,0		扩建	-20,-10,-10	-20,-10,-10

三维矩阵中，A选择不扩建或者扩建，那么左边的那个代理人B1也可以选择不建或者建。右边的代理人B2也可以选择不建或者建，对吧？可以看到在每个单元格的后两个数字都是相等的。因为后两个数字分别对应于B1和B2的收益。B1和B2本来就是B的代理人，所以B获得多少收益，就是B1、B2获得多少收益。

为什么要引进这个多代理人表述呢？因为多代理人表述中，混合策略就是行为策略，行为策略就是混合策略，对吧？因为多代理人表述对博弈树的每一个信息集都引进了一个独立的代理人，所以行为等价于行动，行为策略等价于混合策略。

那这样有什么好处呢？这样我们如果基于这个多代理人表述，是不是可以求这个博弈的混合策略纳什均衡呢？求这个多代理人表述这个三方博弈的混合策略纳什均衡，对吧？例如，A采取这样一个混合策略，A以 $\alpha$ 的概率选择不扩建，以 $1-\alpha$ 的概率选择扩建，这是A的策略。那么三星的代理人B1，他的一个混合策略是什么呢？类似地，以 $\beta$ 的概率选择不建，以 $1-\beta$ 的概率选择建。建和不建都是指他在他所对应的这个信息集，以什么概率分布来选择。进一步，B2也是这样，他可以以 $\gamma$ 的概率选择不建，以 $1-\gamma$ 的概率选择建，对吧？这样我们就可以求出这样一个混合策略的组合。后面这个组合，由于这样的多代理人表述中，每一个参与者的混合策略其实就是他的行为策略。

求出来之后，这个混合策略组是三个参与者的博弈的一个纳什均衡。那么我们把参与者B的两个代理人B1和B2的策略组合在一起。组合在一起之后，再把这两个代理人的策略与参与者A的策略组合在一起。这样再重新来看，就回到了原来的苹果和三星两个参与者的博弈的一个行为策略组合，对吧？前面这是苹果（参与者A）的一个行为策略。后面这一个部分是参与者B（三星）的一个行为策略。对于多代理人表述的一个纳什均衡，我们可以把这个纳什均衡的策略组合稍微改写一下，就是变成原来的那个博弈树表示的两个参与者的博弈的一个行为策略组合。

那么这样一个行为策略组合，是否能够符合纳什均衡的定义呢？是不是苹果和三星两个参与者的博弈的一个纳什均衡？纳什均衡要求双方的策略互为最优反应。大家想一想，这样一个策略组合，是不是一定是原来的两参与者博弈的一个纳什均衡？或者说在原来的博弈中，他们是不是一定是互为最优反应？是不是？不一定，为什么呢？因为我们求这个策略组合的时候，是假定三个参与者互相独立的。特别是B1和B2，他们是互相独立做选择的，没有考虑到B1和B2之间，他们本来就代表参与者B，他们是可以协调行动，对吧？我们没有考虑他们协调行动的可能性来求出来的均衡。

所以回到原来的博弈时，如果参与者B能够在这两个信息集，让他的两个代理人协调行动，能够获得更好的收益的话，那参与者B就有动机偏离这个策略组合，对吧？偏离这样一个行为策略。所以由此，将多代理人表述的一个纳什均衡改写为原来的两个参与者的博弈的这样一个行为策略组合之后，这个行为策略组合不一定是互为最优反应的，不一定能构成原来的双人博弈的纳什均衡。所以我们就发现有问题了，就是说如果基于混合策略来定义均衡，存在多重性，而且很多均衡是重复的。

如果基于行为策略来定义均衡，怎么来求行为策略呢？怎么来求这样的行为策略组合构成的均衡呢？最简单的方式就是基于多代理人表述求纳什均衡，对吧？把它改成行为策略组合。但是，这样改变的行为策略组合，可能是所谓的无意义的均衡，就是根本就不能构成均衡。因为没有考虑到参与者B的不同代理人之间协调行动的可能性。所以我们发现这两条简单的路都不科学，都不好。

那么我们到底应该怎么来定义均衡呢？定义的思路是这样定的：基于这样的多代理人表述，求出这样一个多代理人表述的纳什均衡。然后把参与者B的两个代理人的策略组合在一起，构成参与者B的一个行为策略。但刚才说了，这个行为策略组合不一定是原来的两人博弈的纳什均衡。所以我们要追加一个条件：我们要求把这个行为策略组合中的每个策略，回到原来的两人博弈，改写成混合策略，将这个行为策略组合转化为混合策略组合之后，如果这个混合策略组合能够构成原博弈的纳什均衡，那么，我们就把这个行为策略组合称为原来的博弈的行为策略均衡。

所以行为策略均衡是这样定义的：基于多代理人表述求出纳什均衡。然后把这个均衡的策略组合改写成原博弈的行为策略组合。但进一步还要求这个行为策略组合转化为混合策略组合之后，要求能够构成原博弈的纳什均衡。如果还满足这个要求，我们就把这个行为策略组合称为这个博弈的行为策略均衡。是这样定义的。

这样的定义思路比较清晰，但有问题，就是按照这样的方式来求很麻烦。因为先求多代理人表述的混合策略纳什均衡，然后写成行为策略组合，再转化为混合策略组合，还要来验证这个混合策略组合能否构成均衡。如果不能构成均衡，那就白求了，对吧？所以很麻烦。现在我们要介绍一种直接了当的求法。采用这样的求法，就能够直接求出行为策略均衡，符合这个定义。

但是为什么采用这样的求法，求出的这个策略组合就是原博弈的行为策略均衡呢？我们要讲清背后的道理，需要提前交代几个定理和命题。我们要用这几个定理和命题，才能证明我们这个求法是正确的。所以我们先看一下结论的定义，然后有几个命题，再说明为什么这个求法的结果是正确的。

行为策略均衡的定义：行为策略均衡被定义为博弈的多代理人表述的任意纳什均衡 $\sigma$ ，并要求这个 $\sigma$ 的混合表示同时也是原博弈的策略式表述的一个纳什均衡。所以，基于多代理人表述，我们求出一个纳什均衡。这个纳什均衡可以把它重新写为原博弈的行为策略组合，对吧？我们要求把这个行为策略组合转化为混合策略之后，也就是其混合表示。要求转化混合策略组合之后，这个混合策略组合仍是原博弈的策略式表述的纳什均衡。如果这样，那么这个行为策略组合就称之为博弈的行为策略均衡，这是定义。

为了讲解求法，我们要先交代几个命题。首先，回顾一下我们在导论中讲的库恩定理。大家有没有印象？我们讲过库恩定理，库恩定理的思想是这样的：对于任何具有完美回忆的博弈，两个行为上等价的混合策略一定是收益等价的。如果两个混合策略转化为行为策略之后，转化成了相同的行为策略，那么我们说这两个混合策略是行为上等价的。这样的两个混合策略，一定也是收益等价的。

收益等价我们在导论中定义过：不管其他参与者采取什么样的策略，我采用A或B这两个收益等价的策略，对每个人来说都是无差异的。我采用A或B，不影响我的收益，也不影响其中任何一个参与者的收益，对吧？我们就说我的两个策略A和B是收益等价的。那么库恩定理说，对于具有完美回忆的博弈，任何行为上等价的混合策略一定是收益等价的。

命题一#

对于具有完美回忆的动态博弈，将其转化为策略式表述之后，后者的任一（混合策略）均衡的任一行为表示都是原动态博弈的多代理人表述的一个均衡。什么意思呢？简单地说，就是要我们把一个博弈树表示的博弈，用矩阵的形式表述。然后求出来这个博弈的一个混合策略均衡。我们把这个混合策略均衡的策略组合把它转化为行为策略组合。那么转化行为策略组合之后，我们把这个行为策略组合视为多代理人表述的一个策略组合。那么这个策略组合一定是这个博弈的多代理人表述的一个纳什均衡。这是命题一，我们不证明了。

命题二#

将一个行为策略表示为混合策略，则后者的行为表示就是前者。将一个行为策略 $\kappa$ 表示为混合策略 $\sigma$ ，如果我们再把这个混合策略 $\sigma$ 转化为行为策略，那么转化来的行为策略一定就是 $\kappa$ 。

交代了这两个命题之后，下面我们来讲行为策略均衡的求法。对于一个具有完美回忆的动态博弈，我们的求法是：首先将其用策略式重新表述。也就是说，用矩阵的形式重新表述，求出这个策略式表述的纳什均衡。因为我们现在关注的是随机策略的均衡，所以我们关注的是这个策略式表述的混合策略纳什均衡。接下来，把这个混合策略组合转化为相应的行为策略组合。我们可以断定，转化后的行为策略组合就是原博弈的行为策略均衡。所以这个求法是不是直截了当？把博弈转化为策略式表述，求混合策略纳什均衡，再把这个混合策略均衡的策略组合转化为行为策略组合，那么得到的行为策略组合就是行为策略均衡。

为什么采用这样一个求法，求出的这个策略组合就是原博弈的行为策略均衡呢？我们要证明它一定符合行为策略均衡的标准定义。我们来看一下这个思路。按照命题一，将这个混合策略均衡转化为行为策略组合之后，这个行为策略组合一定是原博弈的多代理人表述的一个纳什均衡，这就是命题一的结论，对吧？

接下来，还需要什么条件呢？还需要我们把这个行为策略组合再转化为混合策略组合之后，要求得到的混合策略组合能够在原博弈中构成纳什均衡。我们看能不能满足。

我们把这个行为策略组合再转化为混合策略组合。如果再把这个混合策略组合转化为行为策略组合，那么转化后的行为策略组合一定会回到原来的这个行为策略组合，对吧？这是根据命题二得来的。我们将这个行为策略组合转化为混合策略组合，再把这个转化来的混合策略组合再转化为行为策略组合，一定会回到原来的那个行为策略组合，对吧？

这就说明，在混合策略纳什均衡中的每个参与者的混合策略，与用行为策略转化来的混合策略组合中的相应混合策略，一定是行为等价的，对吧？它们对应着相同的行为策略。既然行为上等价，那么依据库恩定理，一定是收益等价的。那既然是收益等价，在给定其他参与者策略保持不变的情况下，我采用混合策略纳什均衡中的这个混合策略，与采用由行为策略转化来的混合策略组合中的混合策略，得到的收益是相等的，对吧？但是，我采用原混合策略纳什均衡中的混合策略是最优反应。所以我采用行为策略组合转化来的混合策略，一定也是最优反应，对吧？这样就论证了，转化来的这个混合策略组合，一定是原博弈的纳什均衡。所以就说明了，这一步得到的行为策略组合是符合行为策略均衡的定义。这就是这样一个论证的逻辑。所以我这一页把这个逻辑讲得比较细致，说明我们采用这样一个简便的方法，就能够求出一个博弈的行为策略均衡。所以不需要按照那个定义来求，那样太繁琐。而且很多时候，我们直接按照这样的方式来做：把一个动态博弈用策略式重新表述，求出其混合策略纳什均衡。把这个混合策略组合转化为行为策略组合。那么这个行为策略组合就是这个博弈的行为策略均衡。

例3#

下面我们来看一个例子。这个例子有两个参与者。参与者一行动，可以选择A1或者B1。他行动之后，参与者二行动。参与者二选择W2或者X2。如果参与者一选择了B1，博弈就结束了。如果参与者一选择了A1，参与者二行动之后，又轮到参与者一行动。参与者一要选Y1或者Z1。这是一个两人博弈。点前面的符号表示参与者的编号，点后面的符号表示信息集的编号。那么我们现在要要求这个博弈的行为策略均衡，就按照我刚才讲的步骤来求。

这正好把我们在导论中学的一些预备知识都用到了。第一步，我们把这个博弈用矩阵的形式重新表述。就和这里配合，参与者一在根节点上出现的，所以我们把参与者一放在行的位置。参与者一有前后两个信息集，每个信息集里有两种行动可供选择。所以参与者一有 $2 \times 2 = 4$ 种纯策略，我们把它一一列举出来。参与者一的策略是 A1Y1, A1Z1, B1Y1, B1Z1。参与者二只有一个信息集，只有W2和X2两种纯策略。这样我们就可以得到一个四行两列的矩阵。

现在需要填空，对于每一个单元格，把各方的收益填进去。我们来看一下，比如A1Y1W2。根据博弈树，参与者一的策略是A1Y1，参与者二的策略是W2。所以按照这个策略组合，我们会这样发展：A1-W2-Y1，到这结束，双方的收益分别是3、2。所以我们把这个收益填进去，这边是3。那么右边的这个单元格A1Y1X2，对应的路径是A1-X2-Y1，收益分别是2、3。所以我们也把它填进去，这边是2、3。

再看一下第二行，A1Z1W2。A1Z1W2的路径是A1-W2-Z1，收益是0、5，所以我们把它填进去，这边是0、5。那么A1Z1X2，路径是A1-X2-Z1，收益组合是4、1，这边是4、1。我们再看第三行，参与者一选择B1Y1。如果参与者一选了B1，他后面选Y1还是Z1都不影响结果。参与者二选W2。所以这个策略组合对应的结果是B1-W2，到这里结束，收益是2、3。这边是2、3。这边也是2、3。那么右边B1Y1X2，路径是B1-X2，收益是3、2，所以这边都是3、2。

只要得到这个博弈的矩阵形式表述，我们现在采用划线法求纯策略纳什均衡。先分析参与者一的收益，这边是4，这边是2，这边是4，这边是4。再分析参与者二的收益，这边是5，这边是3，这边是3，这边是3。所以没有一个单元格都画上横线，对吧？这个博弈不存在纯策略纳什均衡，对吧？所以我们现在求混合策略纳什均衡。

求混合策略纳什均衡，按照我们讲的求法，是不是应当是分情况讨论？要讨论的情况还不少，但我知道什么情况下有均衡，为了节约时间，我就只讨论有均衡存在的那种情况，别的情况就不讨论。那么什么情况下存在均衡呢？参与者一对他第一种和第三种策略赋予正的概率，对第二种策略赋予零的概率。比如他以 $P$ 的概率选A1Y1，以 $1-P$ 的概率选B1Y1，以零的概率选A1Z1。参与者二以 $Q$ 的概率选W2，以 $1-Q$ 的概率选X2。那么这样的一种策略组合，能够构成混合策略纳什均衡。

我们来验证一下。对参与者一来说，他对两个策略（A1Y1和B1Y1）都赋予了正的概率，要求这两个纯策略带来相等的收益。我们看一下，参与者一如果选择A1Y1纯策略，那么它的收益是多少？他选A1Y1，有可能获得3的收益，有可能获得2的收益，取决于对方选择W2或X2的概率。那么它的期望收益是多少？是 $3 \times Q + 2 \times (1-Q)$ ，等于 $3Q + 2(1-Q)$ 。参与者一如果选择另外一种赋予正概率的策略（B1Y1），获得的收益是多少呢？这个收益是 $2 \times Q + 3 \times (1-Q)$ ，所以是 $2Q + 3(1-Q)$ 。如果选择A1Z1策略，获得的收益是 $0 \times Q + 4 \times (1-Q) = 4(1-Q)$ 。如果参与者一满足混合策略均衡的充分必要条件，那么就要求对他赋予正概率的两种策略带来相等的收益，对吧？就要求这两个相等。这两个相等很简单，可以求出 $Q = \frac{1}{2}$ 。

没有赋予正概率的策略（A1Z1）带来的收益会不会超过赋予正概率的策略带来的收益？把它带进去算，如果 $Q = \frac{1}{2}$ ，那么那两种赋予正概率的策略带来的收益都是 $\frac{5}{2}$ 。但是A1Z1这个策略，其收益是 $\frac{4}{2}$ 。确实是小于 $\frac{5}{2}$ 的，说明参与者一满足这个充分必要条件。

那么接下来我们还要求参与者二的满足条件。对参与者二来说，他选择W2获得的期望收益是多少？有可能获得2、5、3。所以选择W2的期望收益是 $2P + 0 \times 5 + 3(1-P) = 2P + 3(1-P)$ 。那么参与者二选择X2的期望收益是多少呢？是 $3P + 1 \times 0 + 2(1-P) = 3P + 2(1-P)$ 。这两个策略都被他赋予正的概率，要求期望收益相等，我们求出来 $P = \frac{1}{2}$ 。所以我们求出了这个博弈的策略式表述，它对应的混合策略纳什均衡是这样的一个策略组合：参与者一分别以 $\frac{1}{2}$ , $0$ , $\frac{1}{2}$ 的概率选择这三种纯策略。参与者二以 $\frac{1}{2}$ 的概率选择这两种纯策略。这是我们求出的唯一的混合策略纳什均衡。

但是问题在于说，我们需要求这个动态博弈的行为策略均衡，不是求混合策略纳什均衡，对吧？所以我们现在要把求出来的这个混合策略组合转化为行为策略。我先把混合策略组合写在这里。

混合策略组合是：参与者一的策略是 $\frac{1}{2} A1Y1 + \frac{1}{2} B1Y1$ 。参与者二的策略是 $\frac{1}{2} W2 + \frac{1}{2} X2$ 。这是我们求出的这个博弈的混合策略组合。现在要把这个混合策略组合转化为行为策略。要转化为行为策略，还是要回到导论里面我们讲的转化方法。

我现在把博弈树画在黑板上，还是按照横着画的这种形式。因为现在我们的目的只是要把这个混合策略转化为行为策略，所以终结点上的收益我就不标了，我把相应的行动和符号带进去。博弈树的结构是这样的：A1/B1，然后W2/X2，然后Y1/Z1。现在，我们在这个博弈树上，要把这个混合策略组合转化为行为策略组合。按照我们前面导论中讲的方法，我们是根据这个混合策略组合写出每一个终结点抵达的概率。

我们来看一下这上面的终结点。要抵达这个终结点，需要参与者一选择A1，在第二阶段选Y1，参与者二选择W2。两个参与者的选择互相独立。那么按照这个方式来组合，参与者一选A1Y1的概率是 $\frac{1}{2}$ ，参与者二选W2的概率是 $\frac{1}{2}$ 。所以抵达第一个终结点的概率是 $\frac{1}{2} \times \frac{1}{2} = \frac{1}{4}$ ，对吧？那么这个终结点的概率是 $\frac{1}{4}$ 。这个终结点的概率是什么呢？参与者一选A1Z1的概率乘以参与者二选W2的概率。参与者一选A1Z1的概率是0，对吧？所以这个抵达的概率是0。类似地，我们可以求出来这个终结点抵达的概率也是 $\frac{1}{4}$ ，这边也是0。

那么下面这两个终结点。这个终结点，参与者一要选B1，参与者二要选W2。我们来看一下，参与者一选B1的概率是 $\frac{1}{2}$ ，参与者二选W2的概率是 $\frac{1}{2}$ 。所以 $\frac{1}{2} \times \frac{1}{2} = \frac{1}{4}$ 。这边是 $\frac{1}{4}$ 。类似地，这个也是 $\frac{1}{4}$ 。

那么，我们先验证一下概率的总和是不是等于1。这边 $\frac{1}{4} + 0 + \frac{1}{4} + 0 + \frac{1}{4} + \frac{1}{4}$ 确实等于1，初步表明我们没有计算错。然后我们现在往前倒推，这个节点（指A1Y1之后的P1节点）抵达的概率是 $\frac{1}{4} + 0 = \frac{1}{4}$ 。所以这个节点抵达的概率是 $\frac{1}{4}$ 。这个节点（指A1Z1之后的P1节点）抵达的概率也是 $\frac{1}{4} + 0 = \frac{1}{4}$ 。那么这个节点（指P1选择A1后的信息集）的概率是 $\frac{1}{4} + \frac{1}{4} = \frac{1}{2}$ 。这个节点（指P1选择B1后的信息集）的概率也是 $\frac{1}{4} + \frac{1}{4} = \frac{1}{2}$ 。那么 $\frac{1}{2} + \frac{1}{2}$ 等于1，根节点的概率当然是1，对吧？这样我们就求出了从根节点出发抵达每个节点的概率。

求出来之后，现在就可以来写这个行为策略组合了。对于参与者一来说，在他初始的信息集，选择A1的概率是 $\frac{1}{2}$ 除以1，选择B1的概率是 $\frac{1}{2}$ 除以1，对吧？所以参与者一的行为策略是：在他的初始信息集，以 $\frac{1}{2}$ 的概率选择A1，以 $\frac{1}{2}$ 的概率选择B1。

那么再看一下在他右边的信息集（指P1在第二阶段的信息集），参与者一选Y1的概率是多少？我们可以用任何一个节点来算，结论一定是一致的。比如从上面的节点来算，他选Y1的概率是 $\frac{1}{4}$ 除以 $\frac{1}{4}$ ，等于1。选Z1的概率是0除以 $\frac{1}{4}$ ，等于0。所以他在这个信息集一定选择Y1，而不会选择Z1。所以参与者一在右边的信息集是选择Y1。这样你就得到了参与者一的行为策略组合。

参与者二因为他只有一个信息集，他的混合策略就是行为策略，所以我们把它抄下来，就是 $\frac{1}{2} W2 + \frac{1}{2} X2$ 。由此可以写出双方的行为策略组合。这个行为策略组合是由这个混合策略组合转化而来的，对吧？所以我们可以断定这个行为策略组合就是这个博弈的行为策略均衡。就是这样一个求法。所以通过这样一个例子，是不是把我们在导论中学的一些知识都复习了一遍，对吧？到这你可以理解为什么我在导论中需要讲那么多东西了，对吧？行为策略转化为混合策略，或混合策略转化为行为策略，对吧？这些转化方法都要用到。

最后提醒大家注意一下，你把这个混合策略与它转化后的行为策略加以对照，你会发现。如果不是经过这样的转化，你可能很难想象参与者一的行为策略是这样的。参与者一在他的右边信息集，他是百分之百选择Y1，根本就不会选择Z1。但是如果你光看参与者一的混合策略，不加思索地理解，你可能会认为根据这个混合策略，参与者一在他的每个信息集都通过抛硬币的方式来选择，对吧？但实际上不是的。你从参与者一的混合策略中看不出来，参与者一在右边的信息集根本不选Z1。并不是直接能看得出来，对吧？所以你很容易犯错误。只有按照我们说的方式，把它转化为行为策略之后，才能够看清楚这个混合策略到底要你如何做出反应。

这就是我们讲的一个如何来求行为策略均衡的这样一个例子。我刚才讲得比较快，为了抓紧时间确保我们今天能够把这个例子讲完。刚才讲得比较快，还有几分钟的时间，大家看一看有没有什么问题，我就不讲新的内容了。

关键点和注意事项#

有没有什么问题？

我们下一讲就要开始讲动态博弈中一个比纳什均衡更强的均衡概念。那个比较容易理解的一个叫子博弈完美均衡，那是动态博弈中的一个最基本的均衡概念。我们还会讲这个之后，还会再回过头来讲颤抖手完美均衡。但大家可能会觉得颤抖手完美均衡不是在第一讲中已经讲过了吗？对吧？但是在动态博弈中，颤抖手完美均衡的定义与在静态博弈中的定义是不一样的。

在动态博弈中，一个博弈的颤抖手完美均衡是基于这个博弈的多代理人表述来定义。比如，原来一个两人博弈，我们要把它视为一个三参与者的博弈，把他们视为三个独立的参与者，以此来定义颤抖手完美均衡，而不是基于两个参与者的博弈来定义。为什么要这样定义呢？后面我们通过具体的例子来讲。因为如果你不这样定义，仿照静态博弈的定义，那么会出现一些比较荒唐、明显不合理的所谓均衡结果。但基于多代理人表述来定义，那个概念才是合理的。

如果没有什么特别的问题，那我们今天的课就上到这，好不好？下个礼拜再见。别忘了做作业，交作业。提醒大家一下。好，下课了。