范文网 合同范本 博弈论课程总结(精选)

博弈论课程总结(精选)

博弈论课程总结 第一篇我们现在已经基本了解同步竞价和序贯博弈两种不同的情况了,接下来开始了解的是两者相结合的情况。来看一个玩家一、二的博弈树状图,玩家一的策略有UMD三种,玩家二有ud两种。用我们已经。

博弈论课程总结

博弈论课程总结 第一篇

我们现在已经基本了解同步竞价和序贯博弈两种不同的情况了,接下来开始了解的是两者相结合的情况。

来看一个玩家一、二的博弈树状图,玩家一的策略有UMD三种,玩家二有ud两种。

用我们已经了解的逆向归纳法,我们可以判定玩家二在玩家一选U时会选d,玩家一选M时玩家二选u,玩家一选D时,玩家二选二,玩家一基于玩家二的选择,会选D,所以NE=(D, u)=(一, 二)。

之所以会出现这种情况,一个重要的假设就是双方都有完美信息,基于完美信息和决策顺序,玩家二掌握着后动优势。

假如,一方不知道另一方做了什么选择呢?比如玩家二不知道玩家一是怎么选的呢?

在树状图中,我们用节点之间的虚线来表示“信息集 information set”的概念,在上图中的这个虚线表示玩家一的U和M两个决策形成了一个信息集,既玩家二此时不知道玩家一在U和M之间选了哪个,但玩家一的D策略不在虚线范围内,所以玩家二只能判断玩家一要么选了D策略,要么选了U和M中的某一个。

在这个新的树状图中,双方的博弈发生了一些变化。

玩家二在原有博弈中的后动优势消失了,他现在无法基于玩家一在U和M中的选择去最优化自己的选择,只能猜测对方可能有多大概率选某一个,然后制定混合策略。

对于玩家一来说,情况大不相同,假定他认为玩家二选u和d的概率是丢骰子,各五零%,于是玩家一无论选U还是M,自己的期望回报都变成了二,高于选D时的一,所以玩家一此时选择U或M才是合理的决策。

不过有一些情况是规则所不允许出现的,比如上图中,玩家二在第一个节点有两个选择,第二个节点有三个选择,这样的话,信息集就是失去了意义,因为玩家二可以通过自己可选择项目的数量来判断玩家一先前的选择。

这种情况也是规则所不允许的,因为玩家二面对的信息集虽然没有问题,可是玩家一面对的信息集有问题。玩家一是明确知道自己第一次的选择结果的,这意味着,当玩家一第二次选择时,他可以通过回顾自己第一次选择的结果来判断自己所处的具体节点。

此处有一个假设条件,完美记忆 perfect recall。

意为博弈者可以完美的回忆起或者说了解自己先前所作的所有决策,但在现实世界里这是未必的,从个人角度来说,记忆是容易受到多种干扰的,可能由于博弈者年纪较长而易于遗忘。从组织的角度来讲,博弈可能是由多个人、多个部门共同进行的,比如一家公司的总经理和财务总监之间并不一定信息完美互通。

这里我们就需要提出完美信息的定义了。

来看一个含有信息集的新例子。

在上图的博弈中,玩家二不知道玩家一的选择,所以实际上只需要做一次选择,l或r,相比较下,在完美信息时,玩家二需要分别针对玩家一选u和d的两种不同情况针对性调整自己的策略。通过比较,我们发现,玩家二无论在哪种情况下,选r的收益总是高于选l,所以r是优势策略。玩家一此时也知道玩家二的考虑,所以玩家一会选择d而非u,获得相对高的收益。于是双方达成的均衡为(d, r)=(零, 零)。

将这个树状图转化为矩阵。

这正是我们一开篇所接触的囚徒困境。

也就是说,树状图在加入了信息集的概念后,不仅可以表达序贯博弈,现在也可以表达同步竞价的博弈了。

所以,序贯博弈中真正重要的并非不同玩家的决策时间顺序,而是信息到达的顺序。在上面这个例子里,由于信息集的存在,玩家一和玩家二虽然先后决策时间有差异,但是两个玩家在决策时都不知道对方是如何决策的,这就等价于一个同步竞价的博弈。

之前我们定义过完美信息下的策略,现在我们可以给出一个更宽泛的策略的定义了。

我们再来看一个时间和信息的例子。

图中的树状图里,玩家二面对信息集,无法知晓玩家一的决策,我们将这个树状图转化成矩阵来看看。

然后依据这个矩阵,我们又可以反向做出一个新的树状图。

虽然两个树状图看起来是完全不同的博弈,但是由于信息集的存在,使得以上的两个树状图和一个矩阵,三者互相等价。

这就很好的说明了,信息比时间更重要的问题。

再来看一个新的例子。

在这个树状图中玩家一有四个策略:Uu,Ud,Du,Dd。

玩家二有两个策略:l,r。

据此,我们画出矩阵。

按照我们熟悉的用最优反应(BR)找纳什均衡(NE)的思路,我们得出三组NE。

NE = (Uu, l), (Du, r), (Dd, r)

但是,当我们用逆向归纳法(BI)来检验的时候,发现了问题。

当玩家一第二次做决策时候,在u和d之间,一>零,玩家一是必然选择d的。

倒推回玩家二的决策,因为信息集的存在,玩家二不知道自己的具体位置,但是没关系,因为玩家二知道玩家一如果有第二次决策,必然选d,所以,假定玩家一是随机选U和D的,那么玩家二选l的期望收益是(二+零)/二=一,而选r的期望收益是(四+四)/二=四,所以玩家二必然选r。

基于以上信息,玩家一在第一次决策时,由于二>一,会选D。

所以BI推出来的是(Dd, r)。

这与我们在;时看到的垄断者与挑战者的单次博弈案例是几乎一样的。

(Uu, l), (Du, r)这两个NE与我们的实际逻辑不符合。

纳什均衡这个概念在序贯博弈中产生了不合逻辑的结果,那么我们就必须要改进均衡的定义,使得纳什均衡能在同步竞价和序贯均衡两种情况下都适用。

在我们改进之前,再多看一个例子。

这是一个三个玩家的博弈,树状图如上所示。

我们可以玩家二和玩家三的部分视作一个单独的子博弈,然后画出矩阵。

三个人的矩阵在二维平面的展示大概是这样,当然,我们也可以画一个立体的带xyz轴的空间坐标图.......但我就不为难自己了。

这个矩阵里面可以找到很多NE,比如(A, U, l) = (一, 零, 零)就是其中之一。

但是如果我们把树状图中的子博弈单独拉出来一个矩阵,会得到下面这个。

既,在这个子博弈中,(D, r)是NE。

这里(A, U, l)和(D, r)就产生了矛盾,因为在(A, U, l)中,我们预测不到子博弈会达成(D, r)这个均衡,换而言之(A, U, l)预测我们在子博弈中会采用策略(U, l),这是不合理的,一个均衡必须要在所有的地方都达成均衡。

我们首先给出子博弈的定义。

看几个反例。

按照定义,我们会发现上图中三个反例的问题。

X_{一} 不源于同一个节点的;

X_{二} 打破了信息集;

X_{三} 也打破了信息集。

最后,我们引出完美子博弈均衡的定义。

Don't Screw Up

我们先来看一个名为Don't Screw Up的案例。

Ben声称,虽然这个树状图转化矩阵多少有点问题,因为没有信息集,所以玩家一和玩家二确实存在先后顺序,但是我们就暂时忽略它。

根据矩阵,我们可以看到三个NE,(Uu, l),(Du, r),(Dd, r),然而只有(Uu, l)符合BI。

这个博弈的名字也很有意思,因为(Dd, r)这个NE暗示着二号玩家担心一号玩家第二轮选择不理智,选了于双方都不利的d,而(Dd, r)这个NE则暗示了一号玩家担心二号玩家不理智,选了于双方都不利的r。

我们一个一个子博弈来分析谁是SPE。

树状图中用 X_{一} 这个符号代表的是最小的一个子博弈,可以看到,这个博弈中,只有玩家一行动,所以NE=(u)。

这样的话,我们就排除了(Dd, r)。

X_{二} 所代表的子博弈中有两个NE,分别是(u, l),(d, r),这样的话,我们就排除了(Du, r)。

所以SPE为(Uu, l)。

Matchmaker Game

Nina和David这一对耶鲁同学是真的惨,Ben在性别大战拿他们俩开涮,又来一次,现在了,还没有放过他们,可谓闻者伤心见者流泪。

Ben的故事如下,假定有一个媒人(玩家一)想要撮合Nina和David(玩家二&玩家三,两人的玩家身份可以对调,无所谓)。

首先,玩家一需要判定要不要撮合他们,因为撮合行为本身有成本,玩家一是试图通过让两人参加同样的耶鲁课程来制造相处机会,而课程本身需要学费,所以,若是撮合成功,玩家一收益为一,撮合了但是失败,玩家一收益为-一,玩家一若是放弃撮合,所有人的收益就都为零。

当玩家一选择撮合后,这对小情侣又陷入性别大战中的困境,双方都不知道对方选了什么课。

Ben给出的两个课程分别是Cold War和China,由Gaddis和Spence分别教授,讲道理,我很想听这两门课!

按照先前的思路,我们很容易观察到这里有两个NE,(S, G, G)和(S, S, S),而且也符合子博弈均衡(G, G)和(S, S),所以SPE = (S, G, G), (S, S, S)。

然而,这里还有一个子博弈均衡,混合策略下的NE。

回顾性别大战的模型,我们很快就能找到这个NE为[(二/三, 一/三), (一/三, 二/三)]。

在这个混合策略的NE中,Nina和David见面的概率是

(二/三)*(一/三)+(一/三)*(二/三)=四/九

见不到面的概率是一-四/九=五/九,所以媒人的预期收益为:

(四/九)*一+(五/九)*(-一)=-一/九

所以媒人应该选择not send,于是最后一个SPE为(ns, mix, mix)。

Strategic Investment

据说这是美国投行的经典面试考题。

背景条件:

两家化肥公司在一个市场上形成古诺双寡头的局面。

p = 二 - (一/三) * ( q_{一} + q_{二} )

q_{一} q_{二}的单位为millions of tons

MC: c = 一 $ per ton

q^{*} = ( a - c ) / 三b = ( 二 - 一 ) / 三* ( 一/三 ) = 一 million tons each firm

p^{*} = 二 - (一/三) * ( 一 + 一 ) = 四/三 $ per ton

profit : ( 四/三 - 一 )* 一 = 一/三 million per firm

假定现在有新的设备被引入市场了:

这个设备仅能适应A公司的生产线,既B公司无法使用;

设备每年需要花费七十万美元租金;

使用该设备可以使A公司的成本下降到$per ton。

问:A公司是否应该租用该新设备?

Ben在这里给出三种思路的回答。

一)会计师式的回答:

首先吧,我觉得Ben对于会计行业的从业者真是饱含着深深的恶意,尽管我也不觉得他的刻板印象有什么问题,但总觉得这哥们很有可能交过会计师职业的前女友。

每年生产一百万吨,用了新设备后,每吨成本下降美元,所以减少了一*美元的开销,但是设备租用需要美元,所以不应该租用。

这个思路毫无疑问是错误的,因为它假定了每年生产一百万吨的产量是不变的。

二)初级经济学式的回答:

我们在价格和产量构成的XY轴上,画出自己的需求曲线,再画出边际收益MR和边际成本呢MC。

可以看到,由于MC从一降到了,所以我们的产量其实是会上升的,会计式回答实际只考虑了蓝色长方形的部分,而忽略了三角形那部分由于产量上升带来的收益。

根据简单的几何计算,我们知道三角形部分面积为三/一六,约为。

所以还是不应该租用。

这个思路也不对,因为它假定了对手只是个背景板,双方没有任何互动。

三)博弈论式的回答:

当双方形成古诺均衡产量后,A的成本下降,意味着A的曲线会向右平移,AB形成新的古诺均衡(战略替代)。

在新的均衡上,我们很容易观察到A公司的产量上升了,同时,B公司的产量下降了。

根据计算,结果A公司增加的收益为;,所以应该租用该设备。

计算过程Ben并没有给出来,我也偷懒就没有自己算了。

结论一:先解决子博弈中的问题,然后再逆向归纳。如战略投资案例中,先解决古诺模型中的问题,再决定要不要租用设备。

结论二:牢记战略效应,博弈的对手方是会根据你的策略而调整自己的策略的(所谓算到对手的下一步么)。

假定:

一场博弈有两个玩家参与,每一阶段两位博弈玩家都可以选择战斗(F)或者逃跑(Q),一旦有玩家选择逃跑则游戏结束。

当有一方首先选择Q之后,另一方选择F的就可以获得奖励(v=一$)。

若双方都选择F,则双方都要承担损耗(-c=$)。

若双方都选择Q,则没有任何收益和损失。

在这种博弈中,我们很容易观察到一种情况,既双方进行多轮的对F。由于每一轮博弈开始时,上一轮博弈的损耗都已经成为了沉没成本(Sunk Cost),所以每一轮的计算都可以被理解为重新开始的。

历史上我们能看到不少类似的案例,如第一次世界大战的西线战场,如Sky Television和British Satellite Broadcasting Company之间欧洲卫星广播主控权的商业竞争。在这些案例中,都出现了“赢家最后的所得远不及自己在竞争中的投入”这一现象。

来看一个两阶段的博弈案例。

这里我们假设v>c。

按照子博弈完美均衡的思路,我们首先分析一下虚线框中间的子博弈。

为了表达的简洁,我们将子博弈中存在的沉没成本-c提取出来,但实际上提不提取出-c对推演没有任何影响。

我们可以在矩阵中提取出两个纯策略NE:

(F(二), q(二)) = (v, 零)

(Q(二), f(二)) = (零, v)

现在倒推回第一阶段的博弈。

这里的stage two NE payoffs就是后续章节中出现的连续收益(Continuation Payoffs)。

现在我们需要按照阶段二的两个不同的NE情况,分别写出阶段一的博弈矩阵。

第一个矩阵是预判在阶段二的子博弈中,双方会达到(F(二), q(二))这个均衡下的情况,此时的NE是(F(一), q(一))。

第二个矩阵是预判在阶段二的子博弈中,双方会达到(Q(二), f(二))这个均衡下的情况,此时的NE是(Q(一), f(一))。

纯策略SPE = [(F(一), F(二)), (q(一), q(二))]

[(Q(一), Q(二)), (f(一), f(二))]

这个结果就很有意思了,用自然语言表达即“如果预判自己未来会获胜,那么现在自己就可以取得胜利。”

比如一战,如果两大集团明确知道协约国未来一定能耗赢,那么协约国应该毫不犹豫开战,同盟国应该毫不犹豫认输投降。然而,现实世界里的纷繁复杂,谁能算这么准呢。

再来看看混合策略的情况。

我们直接切入混合策略时阶段二的子博弈矩阵看一看。

假定玩家B选f(二)的概率为p,选q(二)的概率为一-p。

如果玩家A选F(二),收益为: -c*p+v*(一-p)

如果玩家A选Q(二),收益为: 零*p+零*(一-p)

令二者相等: v(一-p)=pc \Rightarrow p = v/(v+c) 一-p = c/(v+c)

由于矩阵是对称的,所以A选F(二)的概率也为p。

所以混合策略下的NE为[(v/(v+c),c/(v+c)), (v/(v+c),c/(v+c))], 该NE下双方的预期收益皆为零。

这里就和鹰鸽博弈很接近了。

倒推回阶段一,由于预期收益为零,所以我们得到如下矩阵。

稍加观察,发现和阶段二的矩阵数值是一样的。

所以设p*=v/(v+c)

混合策略下的SPE=[(p*, p*),(p*, p*)]

预期收益为零。

双方选择F的可能性随着v增大而增大,随着c增大而减小。

这里虽然意思懂了,但我对于多阶段混合策略的NE和SPE的书面写法的确是感到了很大的困惑......

那么,如果有一个无限阶段延续的博弈,会是什么样的呢?

当我们观察无限阶段的消耗战博弈,我们会发现,其中任何一段的切片看起来都是和上图一个样子的。

而我们又知道,Sunk Cost可以不计入考虑范围,下一阶段的收益即连续收益,在混合策略下,预期的连续收益为零。

所以,每一阶段,双方都选择战斗的概率是 [v/(v+c)]^{二} 。

所以在第n阶段继续战斗下去的概率是[v/(v+c)]^{二n} 。

如果用图来表示的话,大概长这样子。

在课程一开始讨论囚徒困境时,我们就提到过重复博弈可以部分解决囚徒困境的难解之处。在我们日常生活中,很多时候都面对囚徒困境相似的场景,下到个人交友,上到国家外交,皆是如此,但多数场景下我们并没有用契约或引入黑社会等外在强制力去执行,那么为何会如此呢?这就需要被解释。

在进行囚徒困境的多次博弈时,如两轮三轮四轮,我们发现一个问题。按照连锁店博弈中的原理,我们可以明白在一个重复三轮的囚徒困境博弈中,第三轮时双方实际上就回到了单轮囚徒困境的状态中,因此,背叛是最优决策。而如果第三轮无论如何大家都会相互背叛,那么倒推回去第二轮的时候,也应该如此,再倒推回第一轮也应该互相背叛。如果按照整个思路的话,我们会发现无论囚徒困境进行多少轮,博弈双方都会持续选择互相背叛。

这里就引出了终结效应End Effect这个概念,既博弈双方由于明确知道合作会在某一刻终结而引发的问题。现实生活中我们能看到跛脚鸭效应Lame Dcuk Effect、退休问题Retirement还有Ben老师说的经济学学生人际关系问题Economics major's relationship。

结论:在长期关系中,确定的未来收益或未来损失的存在,有时候会为今天的“善”行提供激励。但若要让此结论生效,必须要有一个明确的未来。

那么,是不是所有有限的博弈都会指向互相背叛式的结局呢?未必如此,我们来看一个例子。

在上图矩阵所示的博弈中,(A, A)是总效用最高的组合,然而在单次博弈中,(A, A)并非NE,本局的单次博弈纯策略NE为(B, B), (C, C)。

那么,在一个两阶段的博弈中,我们可以用(A, A)么?也不行,因为第二阶段时,双方都会选择背叛性的策略B,倒推回去,在明知第二阶段会背叛的前提下,第一阶段也会选择背叛策略B。

有一种意思的组合策略如下:

第一回合选A,若对方在第一回合也选了A,那么第二回合选C,否则第二回合选B。

这个组合策略会符合子博弈完美均衡SPE的条件么?

先看阶段二:

如果第一阶段形成(A, A),那么第二阶段形成(C, C)。(C, C)是NE,所以符合SPE要求。

如果第一阶段未形成(A, A),那么第二阶段形成(B, B)。(B, B)是NE,所以符合SPE要求。

这里简单解释一下为什么只要一方选B或者选C就一定会形成(B, B)或(C, C),这是因为对于另一方来说,明知对方第二轮选B或C只能跟着选一样的,否则收益下降。

回到第一阶段:

如果博弈的对手方在知道”我“选A的情况下选了A,那么他的第一阶段收益为四,并且因为“我”在阶段二的策略是在一阶段形成(A, A)的情况下选C,所以对手方在二阶段收益最大化的选择也是C,既连续收益为三,所以总收益是四+三=七。

如果博弈的对手方在知道”我“选A的情况下选了B(利益最大化的背叛策略),那么他的第一阶段收益为五,并且因为“我”在阶段二的策略是在一阶段未形成(A, A)的情况下选B,所以对手方在二阶段收益最大化的选择也是B,既连续收益为一,所以总收益是五+一=六。

所以在阶段一或者说整局博弈的角度观察,由于七>六,所以对方不背叛的情况下收益是更大的。

换一种表达方式。

一阶段背叛的收益=背叛的收益-合作的收益=五-四=一

未来阶段合作的收益=选择合作的未来收益-选择背叛的未来惩罚=三-一=二

二>一

未来阶段合作的收益 > 一阶段背叛的收益

所以选择合作是理性的。

结论:如果一个分阶段的博弈有多个纳什均衡,那么我们可以通过在下一阶段选择不同的均衡这一方式来为当前阶段的合作提供激励。

但这里会有一个重新谈判的问题。假设上一个例子中博弈一方使用了我们描述的AC组合策略,而另一方第一回合选择B策略,然后第一回合结束后,使用了B的一方找到使用A的一方,说服使用A的一方在第二回合使用C而非原定的B策略。

这里会有两个问题,第一,这个说服是有可能成功的,因为第二阶段博弈时第一阶段的收益和损失都是沉没成本了,理性人不应该继续考虑沉没成本,而的确第二阶段和对手达成(C, C)的收益比第一阶段高;

第二,如果一阶段使用A策略的一方真的被说服了,那么他原本的AC策略就破产了,因为此时

未来阶段合作的收益=选择合作的未来收益-选择背叛的未来惩罚=三-三=零

未来阶段合作的收益=零 < 一=一阶段背叛的收益

在现实世界里我们能看到类似的问题,如破产问题。当借款人&公司实质上破产之后,债务重组乃至免除变成了很多案例中不得不为之的方法,但这又反向激励了其他借款人走向破产之路。这里涉及到了一个事前和事后的权衡效率考虑(ex ante efficiency vs ex post efficiency),后者指如何解决问题,前者指如何避免问题。

Ben提到十九世纪英国,借钱不还的人要被抓去坐牢,但是坐牢的费用需要债权人的付,这......

Ben在这堂课还提到了现在美国很多人都在担心次级贷款的抵押问题,我查了一下,这节课上课时间是零七年一一月二六日,此时次贷危机的恶劣影响已经在美国迅速蔓延了,距离零八年九月一五日大高潮雷曼兄弟倒闭只有不到十个月了,希望听他的课的学生没有人去应聘了雷曼兄弟。

现在,我们继续玩囚徒困境的多阶段博弈,但是假定每一阶段结束后用丢硬币的方式决定是否结束,二五%的概率博弈直接结束,七五%的概率进入下一阶段的重复博弈。

这种情况下什么策略最合适呢?

恐怖扳机策略 Grim Trigger Strategy:

只要对方不选择背叛(D),那么就一直选择合作(C),一旦对方选择背叛(D),接下来就一直选背叛(D)。

我们来检验一下这个策略,比较一下今天背叛的收益和选择合作后的未来收益哪个更大。

一阶段背叛的收益=三-二=一

此时,我们假定δ为每一单位二阶段收益折算到一阶段的价值,等于博弈结束的概率七五%,既每一单位第二阶段的收益价值第一阶段的。

未来阶段合作的收益=选择合作的未来收益-选择背叛的未来惩罚

选择合作的未来收益=δ*(二+δ^{二}*二 +δ^{三}*二+δ^{四}*二+......)

选择背叛的未来惩罚=-δ*零

未来阶段合作的收益=δ*(二+δ^{二}*二 +δ^{三}*二+δ^{四}*二+......)-δ*零

等比数列求和公式: S_{n}=a_{一}(一-q^{n})/(一-q)

\Rightarrow 未来阶段合作的收益=二δ/(一-δ)

那么,此时今天背叛的收益和未来阶段合作的收益谁大谁小呢?

由于我们设了δ=,所以二δ/(一-δ)=六>一

\Rightarrow 未来阶段合作的收益=六 > 一=今天背叛的收益

我们也可以根据上述信息得出,令二δ/(一-δ)=一时,知δ的临界值为一/三。

若进入下一阶段重复博弈的概率大于或等于三分之一,在本局博弈中,恐怖扳机策略生效,理性人应该选择互相合作。

现在来设想一种奇怪的战术去面对恐怖扳机策略,先选D,然后C,再然后一直DDDDD......

其实,不用算也知道,这种搞法还不如永远选D,因为第二回合由于对手采取恐怖扳机策略,所以会选D,那我们选C的收益是-一,所以总收益为第一回合的三减去第二回合的δ*一,如果一直选D的话,至少没有第二回合这个负数了。

这里就说明了一个问题,为什么选D是有效的惩罚措施,因为(D, D)在这个矩阵中也是一个NE。

结论一:当采取扳机策略,并且继续重复博弈的概率大于等于三分之一时,我们可以在囚徒困境中达成合作。

结论二:未来关系的可持续性概率提高会在一段长期关系中为今天的“善行”提供激励。

这里用严谨的推理过程揭示了生活中的一个常见情景,为什么同样的人在居民小区开小卖部时采用诚信策略而到了旅游景点开小卖部就变成了无奸不商之徒?利益使然。

我倒是多了一点点联想,进一步推论,在一段长期关系中,先确定要背叛的一方可以获得更大的好处。比如在职场上,当一家公司确定了要解雇某个员工之后,就可以采取相应的手段攫取更多利益,反之亦然,当一个员工因为某些原因要突然离职后,也会如此。

回过头来继续看恐怖扳机策略,不难意识到它有一个存在于现实中的缺陷——对于任何的背叛行为绝不手软。

可是,人是会犯错误的,我今天去楼下粉店吃早餐,老板一时疏忽给我放了太多的盐,于是我就一辈子都不去这家粉店了?

柏林墙边苏联士兵背着的步枪不小心走火了,于是美国在全球所有的_统统升空开炸?

这不合适吧。

那我们基于囚徒困境的矩阵来设计一个单回合的惩罚策略。

开局选C。然后,若上一局出现的是(C, C)或(D, D),选C;若上一局出现的是(C, D)或(D, C),选D。

我们来算一算这是不是SPE。

一阶段背叛的收益=三-二=一

未来阶段合作的收益=选择合作的未来收益-选择背叛的未来惩罚

选择合作的未来收益=δ*(二+δ^{二}*二 +δ^{三}*二+δ^{四}*二+......)=二δ/(一-δ)

选择背叛的未来惩罚=零+ δ^{二} *(二+δ^{二}*二 +δ^{三}*二+δ^{四}*二+......)=二δ^{二}/(一-δ)

未来阶段合作的收益=二δ/(一-δ)-二δ^{二}/(一-δ)=二δ

当二δ \geq 一时,合作收益大于背叛收益。

δ的临界值为一/二。

这里稍有点绕的是计算合作与背叛的未来收益&惩罚,按照本策略的描述,当一方选择D后,下一回合双方都会选D,但下下回合,双方又会继续选C,所以惩罚只持续一个回合,理解清楚这里就好办了。当本回合选择背叛时,实际上牺牲掉的是下一回合的收益,但下下个回合开始的收益又会恢复到未背叛前。

对比恐怖扳机策略下δ \geq 一/三,单回合惩罚策略δ \geq 一/二即可,所以我们很容易得到一个权衡之术的思路:若想要策略中有更宽松的惩罚,那么未来的预期必须更确定。

假设某集团正在考虑投资一个新兴市场,由于此处劳动力相对廉价,将部分生产业务外包给当地显得有利可图,但当地不完善的法制等条件构成了较高的交易成本。集团决定在当地扶持一个代理人,支付其工资W,设此时新兴市场的工资市场价格为一,同时为了能让当地的生意运转起来,设集团会给到代理人价值为一的设备&材料等物资,这也意味着代理人有可能变卖物资然后跑路,反正他在市场上可以重新找到一工资的工作。

若生意成功了,那么总收入会是四,净利润为四-一-W。

根据树状图,我们用逆向归纳法很容易发现,若要让代理人采取诚信策略,必须满足条件W \geq 二。

所以可以认为这个新兴市场的工资溢价为一零零%。

接下来我们引入重复博弈的情况进行考虑,既如果投资顺利,集团会继续下一轮的投资。由于新兴市场可能存在各种情况,所以我们设下一轮投资可能的概率为δ。

那么,此时集团要支付多少W呢?

求子博弈完美均衡SPE:

代理人今天背叛的收益为二-W。

未来阶段合作的收益=选择合作的未来收益-选择背叛的未来惩罚

代理人选择合作的未来收益为永远可以拿W的工资,等于δ*W/(一+δ)。

代理人选择背叛的未来惩罚为永远只能拿一的工资,等于δ*一/(一+δ)。

若今天背叛的收益 \leq 未来阶段合作的收益,则代理人会选择继续合作。

二-W \leq δ*W/(一+δ)-δ*一/(一+δ)

W \geq 二 - δ

假如δ=零,也就是说,集团不会有下一轮投资了,那么W=二为临界工资。

假如δ=一,也就意味着这家国际集团会永远常驻本地市场,那么W=一为临界工资。

假如δ=一/二,也就是说集团撤退的概率一半一半,那么W=三/二为临界工资。

所以,我们可以认为,“善行”是靠激励出来的,而激励的力度又取决于长期合作的可能性。

这里又让我联想了一下,所以发达国家的公司在新兴市场投资时,为当地员工开出远高于本地市场水平的薪资,部分原因在于,这些公司在新兴市场拥有一个不确定的未来。

原来这就是外企工资高的原因么?

博弈论课程总结 第二篇

这场博弈中有两个玩家,Player 一&二。

玩家一可以选择在帽子中放进零元、一元或三元,然后将帽子递给玩家二。

玩家二可以选择跟——既放入和玩家一同样的金额,或者拿走帽子里已有的钱结束博弈。

博弈的净收益情况如下:

玩家一:放入零元,净收益为零元;

放入一元,若玩家二选择跟,则净收益与放入金额等值,若玩家二拿走钱,则放入金额成为净损失;

放入三元,同放入一元情况。

玩家二:若玩家一放入一元,玩家二选择跟,则净收益为元;

若玩家一放入三元,玩家二选择跟,则净收益为二元;

若玩家二选择不跟,则净收益为玩家一放入的钱数。

帽子游戏实际上是借贷博弈(Lender and Borrower)的简化版本,我们可以把玩家一视为银行或者说风投方,而玩家二则是借款人或独角兽公司,玩家二的不跟在现实世界里,大抵就是借到钱以后跑路,或者初创公司融到资以后消极怠工、花天酒地云云。

这一类博弈和我们前面所了解的博弈有一个至关重要的区别,既出现了博弈者行动的先后,而不再是同时决策。

玩家二在做决定前知道玩家一的决定,玩家一知道玩家二会知道自己做了什么决定。

当然,这里不一定有时间差,重要的是出现了先后顺序。

在这种博弈中,我们就要用一种新的工具——树状图,并引入一种新的思考方式——逆向归纳法(Backward Induction)。

在树状图中,直线交叉的点叫做节点(Nodes),标注了收益的节点叫终点(End Nodes),树枝状的直线叫连线(Edges),非终点的节点也叫决策节点(Decision Nodes),从起点到终点的路线被称为路径(Path)。

①和②代表博弈者。+一、+三等符号代表资金的投入,最下方的-三代表玩家二拿走了帽子里全部的钱。(一, )则代表博弈走到尽头后双方的收益。

我们用逆向归纳法来看树状图,第一个结局(零, 零)不用看了,玩家二没得选。

当玩家一选了+一后,玩家二的两个选择,一个收益为+,另一个为+一,那么应该选择(一, )。

当玩家一选了+三后,玩家二的两个选择,一个收益为+二,另一个为+三,那么应该选(-三, 三)。

现在再倒回来看玩家一该怎么选,直观来看,玩家一最高收益的结局是(三, 二),可是,刚才我们已经得出结论了,如果玩家一第一步选+三,由于玩家二会选-三,所以玩家一拿不到自己的理论最高收益,那玩家一就只能退而求其次,选+一,因为玩家二在玩家一选了+一的情况下也会选+一,所以玩家一的最优结局是(一, )。

* 道德风险 Moral Hazard

这里揭示了一个在现实商业世界中广泛存在的问题,道德风险,既合作双方利益不一致导致整体利益受损的问题。

在帽子游戏中,我们很容易发现,利益受损的不止有某一方,玩家二只拿到了而不是理论最高的二,玩家一也只拿到了一而不是理论最高的三,双方都在猜忌和防备中走向了一个似乎不是最好的结局。

现实中,如果我给自己的车买保险,那么可能导致我对自己的车的安全问题不上心,导致出安全事故的概率上升,保险公司可能会预判我这种行为,从而在买保险那一步就直接拉高保费或者设定免赔额上限,以反制我的行为(再往下推就是劣币驱逐良币定律了)。

我们来总结一下解决道德风险的可行性方案:

一)像帽子游戏中一样,将大额贷款项目改成小额贷款,减少对欺诈行为的激励(现实世界里的多样化选择原因应是均摊风险吧......);

二)立法规范市场;

三)限制&约束资金的使用,改变博弈中行动的顺序,也就是让玩家二先行动,玩家一后行动。但这么做缺乏灵活性,若是房贷或者是特定项目的贷款还好说,但若是风投、商业贷等,会使得借款人受到极大的限制从而损害整体利益;

四)分阶段发放贷款,将单次博弈变成多次博弈;

五)改变博弈中的收益:

在帽子游戏中,之所以我们走向了一个不太好的结局,有一个很重要的节点在于,当玩家一选择+三后,玩家二选择-三(背叛)的收益为+三,大于选择+三(合作)的收益+二。

如果我们是玩家一,可以主动让渡一部分收益,原本双方都选+三的整体收益为(三, 二),玩家一拿出来直接给对方,把收益改为(, ),这样由于;三,玩家二选择合作的收益就大于了背叛,而玩家一得到了的收益,也好于原本(一, )结局中的一,双方的收益都得到了改善。

放到现实世界里,大概就是投资方让渡未来的权力、收益等等,来换取被投资方的努力吧。

最后需要指出的是,这里还存在一个投资回报率的问题,按照五)改变收益的做法,我们投入了三元,净收益,投资回报率约为六三%,可是如果按照初始博弈的结局,投入一元,净收益一元,回报率是一零零%。所以,在现实中还是要结合具体情况来分析。

还有一种方法也可以改变博弈中的收益,既引入抵押品(承诺),抵押品的存在会大大降低玩家二背叛时的收益,从而促使双方走向共同合作的结局。

** 代理人问题 Agent Problem

从帽子游戏到道德风险,再往下探讨其实就是代理人问题了。

企业管理者的薪资设计问题;

计件工资问题;

农民和地主间的收益分成问题。

不过在这节课里,Ben并没有展开讲代理人问题,作为听众甚感遗憾。

接下来我们看看承诺在博弈中的重要性。

我们来设想一下一零六六年诺曼征服时的问题,现在诺曼人(Norman)要来打萨克森人(Saxon),双方可以选择的策略有战斗(fight)或(run)。

看看矩阵的收益:

如果双方都血战到底,那么就同归于尽了,得(零, 零);

如果萨克森人选择反抗,而诺曼人在战场选择逃跑,那么萨克森人胜利,诺曼人输了但是活下来了,得(一, 二);

如果萨克森人选择逃跑,而诺曼人选择战斗,那么诺曼人胜利,萨克森人活下来了,得(二, 一);

如果双方都选择逃跑......萨克森人毕竟是防守方,还是算萨克森人胜利,得(一, 二)。

用逆向归纳法来看看怎么选:

当萨克森人已经确定反抗时,诺曼人逃跑收益为一,大于战斗收益零,所以应该选逃跑,得(一, 二);

当萨克森人已经确定逃跑时,诺曼人战斗收益为二,大于逃跑收益一,所以应该选择战斗,得(二, 一)。

那对于萨克森人来说,局面就很明朗了,战斗得(一, 二),逃跑得(二, 一),二>一,_丫的。

这个时候,诺曼底公爵威廉就很尴尬了,那我还入侵什么英国,赶紧跑路吧。

不一定要跑路,威廉还有一个选择,烧掉他们用来登陆英国的船只,灭掉全军撤退的可能性。

我们来看一下新的树状图,当威廉选择了烧船之后,诺曼人撤退的选项就没有了,只能选战斗,当然,放弃反抗直接被杀也是一种结局,但这个和战死没区别,都是零收益。

于是此时只有萨克森人能做选择,是战斗获得零收益,还是逃跑获得一收益?一>零,跑吧,最终走向(二, 一)结局。

所以,威廉通过烧船这个看似减少了自己选择的行为改变了对方的决策,最终改善了己方收益。

然而,在真实的历史上,萨克森人还是选择了血战到底。

冷战期间,苏联开发的死手系统也具备有“承诺”的效果。

另外,一个很重要的节点在于,无论是威廉烧船还是苏联开发死手系统,他们都必须要告诉对手自己这么做了,否则“承诺”的效果将不复存在。

这么来看的话,破釜沉舟的故事就不一定适用于阐述“承诺”这个概念,因为项羽当年这么干的时候,重点不是放在告诉对手我这么干了,而是放在告诉自己人我这么干了,他改变的是我方的决策,而非对方的决策。

* 饥饿的狮子 Hungry Lions

现在有一群狮子和一只羊,狮子可以吃掉这只羊。狮子内部是一个严格的等级社会,只有最强壮的狮子才能去吃这只羊。可如果最强壮的狮子吃了羊,他就会困,想要睡觉,于是第二强壮的狮子就会趁机吃掉他。同样,第二强壮的狮子吃掉最强的狮子后,自己也会困,也要睡觉,然后第三强壮的狮子就会吃掉第二强壮的狮子.......以此类推。

所以解这个问题要倒过来看,从最弱小的狮子那里推导起。最弱的狮子后面已经没有别的狮子了,所以如果他有机会吃倒数第二弱的狮子,他必然会吃。所以倒数第二弱的狮子就算有机会吃倒数第三弱的狮子,他为了活命,也必然不会吃,因为最弱的狮子吃他的概率是一零零%。此时倒数第三弱的狮子就有意思了,有机会的话他要不要吃倒数第四弱的狮子呢?要吃,因为倒数第二弱的狮子吃倒数第三弱的狮子的概率为零%。接下来就是同理递推了。

这就是逆向归纳法的一次具体应用。

在时我们研究了古诺模型,两个寡头以产量的多寡为不同策略进行竞争。

我们来回顾一些古诺模型的基本情况:

p = a - b * ( q_{一} + q_{二} )

U_{一} ( q_{一} , q_{二} ) = [p]*q_{一} - c*q_{一}

BR_{一} ( q_{二} ) = ( a - c )/二b - q_{二}/二

BR_{二} ( q_{一} ) = ( a - c )/二b - q_{一}/二

NE状态下总产量q=(a-c)/三b

现在,我们改变一个条件,两家公司不再是同时行动,而是有了先后顺序,也就是说,我们把古诺模型放到序贯博弈中来看一看。

假定公司一先动,公司二后动。

由于这个博弈是一个连续的过程,而且太复杂,我们没法画出树状图,但是依然可以采用逆向归纳法。

我们从后动的公司二的视角来看这个问题,现在已知q_{一},我们要推出最有利的q_{二}。

这个听起来就很熟悉了,这不正是我们在古诺模型中推演过了的步骤么?

BR_{二} ( q_{一} ) = ( a - c )/二b - q_{一}/二

根据定义,在知道 q_{一} 的情况下的最优反应BR_{二} ( q_{一} )就是为公司二带来最高利润的产量。

明白了公司二的反应之后,接下来我们看看公司一应该怎么做,尤其是公司一此时也是知道公司二的公式的,也就是说公司一的任何举措,都会带来公司二有规律性的反应。

在古诺模型中,两家公司的产量会相同,因为大家是同时出招的,无论哪一方选择偏离二分之一的古诺产出,都不如均衡状态下的利润。

可现在,公司一很明确的知道,公司二会依据公司一的产量调整自己的产量,很明显的,公司一应该多生产一些,压迫公司二的产量。

进一步考虑,公司一既然选择多生产一些,那必然是因为提高产量后的利润高于原本的利润。

再进一步,此时市场上的总产量会怎么变呢?从BR_{二} ( q_{一} )的斜率我们可以观察到,q_{一}每一单位的增加带来q_{二}减少是小于一单位的,所以市场总产量会上升。

既然市场总产量上升了,需求没有变化,那么价格自然会下降,消费者剩余上升。

公司二的成本不变,产量下降,成交价格下降,公司二的利润自然也会下降了。

以上就是不带数学的过程,挺棒的,但让我困惑的地方在于,Ben在推导公司一应该多生产一点以及多生产一点后利润高于原古诺均衡点时,并没有给出理由。

无所谓了,反正数学推导会出手的。

接下来是数学推导的过程。

p = a - b * ( q_{一} + q_{二} )

Profit_{i} = p*q_{i} - c*q_{i}

逆向归纳法先推导firm二,所以假定q_{一}是已知的,结合上两式

Profit_{二} = [a - b * ( q_{一} + q_{二} )]*q_{二} - c*q_{二}

= a*q_{二}-b*q_{一}q_{二}-b* q_{二}^{二} -c*q_{二}

现在求Profit_{二}的极值,则对q_{二}求导,并令等式为零

\Rightarrow a - b*q_{一} - 二b*q_{二} - c = 零

q_{二} = (a-c)/二b - q_{一}/二

验证一下二阶导数

-二b<零 \Rightarrow q_{二}等于[(a-c)/二b - q_{一}/二]时Profit_{二}为极大值。

现在再来看firm一

Profit_{一} = [a - b * ( q_{一} + q_{二} )]*q_{一} - c* q_{一}

用我们已求出的 q_{二} 代入

Profit_{一} = [a - b * ( q_{一} + (a-c)/二b - q_{一}/二)]*q_{一} - c* q_{一}

= (a-c)*q_{一}/二 - b*q_{一}^{二}/二

对q_{一}求导,并令等式为零

\Rightarrow (a-c)/二 - b*q_{一} = 零

q_{一} = (a-c)/二b

验证二阶求导

-b < 零 \Rightarrow q_{一} = (a-c)/二b时Profit_{一}为极大值

\Rightarrow q_{二} = (a-c)/四b

我们现在来验证一下之前的推测:

q_{一} = (a-c)/二b > (a-c)/三b = 古诺均衡下的产出 \Rightarrow 公司一产量扩大 ✔

q_{二} = (a-c)/四b < (a-c)/三b = 古诺均衡下的产出 \Rightarrow 公司二产量收缩 ✔

q_{一} + q_{二} = 三*(a-c)/四b > 二*(a-c)/三b = 古诺均衡下的总产量 \Rightarrow 总产量扩大 ✔

先发优势会引发我们接下来的一系列思考

一)承诺:

假设现在两家公司竞争一个新的市场,一家公司要如何让另一家公司相信自己一定会生产自己所声称数量的产品呢?

这就又回到了诺曼征服例子中的一个点:承诺

如果先行的公司进入新市场后投入了大量的沉没成本,如建特定类型的产房、生产线,那么他对于后来者而言,就无异于一个“我要大干一场”的坚定承诺了。

二)信息劣势:

假如这两家公司现在不再享有假设中的双向信息透明,如同现实中的商场,他们不知道对方正在谋划些什么,于是公司一在公司二收买了一个内鬼,出于某些原因,公司二发现了有内鬼,但不知道具体是谁。

于是,诡异的一幕出现了,现在对于公司二来说,最优决策是赶紧去投资扩大产量,因为现在公司一可以单向了解公司二的信息,所以公司一必然会对公司二的决策做出反应,也正是因此,公司一由于掌握了信息而变成了后手,公司二倒是有了先手优势。

所以序贯博弈的关键不在于时间先后,而在于信息抵达的顺序,以及谁知道什么,谁又知道对方知道什么。

此外,有时候,掌握更多的信息(选择权)反而会伤害你的利益,诺曼征服中的烧船则是另一面,减少选择权有时候会增加你的利益。

三)先行者优势 First-Mover Advantage

先发优势不是必然的,在很多案例里面它是成立的,但也有很多时候不成立,如石头剪刀布的博弈。

在现实的商业世界里,我们也会看到往往第一个吃螃蟹的人未必能笑到最后,反倒是其他后发者可以吸取先行者的教训从而走得更远。

* 尼姆博弈 NIM game

现在有两堆石头,每一堆石头里面石子数量随机,两个玩家依次行动,行动时可以决定在某一堆石头里面挪走自己指定的数量,挪走最后一块石头的人既为赢家。

这个游戏的关键是任何一个玩家在己方行动时都需要让面前的两堆石头数量相等,也就是说,如果初始设置里,石头数量是不相等的,第一个行动的玩家有优势,如果相等,那么第二个行动的玩家有优势。

这个游戏引出了三个点:

一)初始设置可以决定输赢

二)逆向归纳法可以告诉我们解法

三)先发或后发优势是取决于初始设置的

NIM这个游戏让我回想起了_四这款游戏中的金币游戏,为了招募费南德,需要去到墨西哥委拉克路斯港的酒馆陪这哥们玩一个游戏。

游戏规则如下:桌上有任意数量的金币,两个玩家每轮行动可以挪走一到三枚金币,也就是一、二、三三种策略,谁拿到最后一枚金币视为输家。

用逆向归纳法思考,最后一轮只剩一枚金币,而每个玩家每轮可以挪走一-三枚金币,也就是说倒数第二轮场上的金币数量只要在二-四之间即可,如何确保倒数第二轮场上的金币为二-四之间呢?确保倒数第三轮时,场上的金币为一+四=五即可,一是留给最后一轮的,四则是无论对手怎么行动,我都可以让两轮行动后的金币减少数量为四,当然,这个能力对方也有。

换而言之,假定双方都精通规则,只要一方行动时,场上的金币数量为四*n+一,那么他就必输,反过来,只要一方行动时,场上金币数量不等于四*n+一,那么他就必胜,因为第一轮的行动他一定可以让金币数量变成四*n+一,从而使对手走入必败的局面。

那么假定场上金币数量为G,于是可以被挪走的数量为G-一,计算(G-一)/四 ,余数为几就取几个,如果余数为零,则必败。

德国数学家Ernst Friedrich Ferdinand Zermelo在一九一三年发表的一篇论文中提出了以他的名字命名的策梅洛(Zermelo)定理。该定理表示在二人的有限游戏中,如果双方皆拥有完全的信息,并且运气因素并不牵涉在游戏中,那先行或后行者当中必有一方有必胜/必不败的策略。若运用至国际象棋,则策梅洛定理表示“要么黑方有必胜之策略、要么白方有必胜之策略、要么双方也有必不败之策略”。

数学论文我是不打算自取其辱了,那就跟着Ben的思路来理解一下。

假定条件:

两个博弈者;

博弈者掌握完全信息;

博弈的节点是有限的(游戏总会结束,不能无限循环下去);

博弈有输、赢、平三种结局。

结论:

无论对手做什么,一号玩家都能获胜;

或,无论对手做什么,一号玩家都能达成平局;

或,无论对手做什么,二号玩家都能获胜。

乍一看策梅洛定理很像是说废话。回头细想一下,在尼姆游戏和金币游戏里,我们证明了,开局的状态可以直接决定胜负,与两名玩家具体的行为无关,这就是策梅洛定理的应用。

复杂一点的游戏,如国际象棋,同样适用该定理,即是说,国际象棋必然存在先手必胜、后手必胜或平局的强制达成条件,只是,策梅洛定理没有告诉我们,怎么做到。不知道九七年战胜当时国际象棋第一人卡斯帕罗夫的IBM深蓝和策梅洛定理有没有关系。

Ben在课堂上说,国际象棋应该是这里最复杂的例子了——老师,你听说过围棋么。

策梅洛定理的归纳证明(在博弈最大长度N上的证明):

if N = 一

假定我们有如下三种一个节点的博弈,对于玩家一而言有图中所示的这些结局,那么我们可以观察到,在①中,玩家一必然可以获胜,在②中,玩家一必然可以平局,而在③中,玩家一必输。

猜想:策梅洛定理在所有长度小于等于N的博弈中成立,那么,我们断定该定理对于所有大于等于N的博弈也会成立。

如果取N=三,那么我们就来看一个长度为N+一=四的博弈:

在这个最大长度为四的博弈中间,我们可以将黄圈和红圈中的内容单独拿出来,是为两个子博弈,黄圈中的子博弈最大长度为三,红圈中的子博弈最大长度为二,假定黄圈中的解为玩家一获胜,红圈中的为玩家一失败。

此时,原本最大长度为四的博弈就可以被视作下图中长度为一的博弈:

此时,我们知道这个长度为一的博弈是有解的。

证明完毕。

作为一个业余人士来复述数学证明,的确是压力山大,我试着再用自己的语言说说自己的理解。

以逆向归纳法的思路来看待这个问题,当一个博弈长度为一时,很容易得出此局博弈有胜、负或平的必然解的结论。当博弈长度为二时,把最后一步的博弈视作已有结果的子博弈,那么这个长度为二的博弈又变成了长度为一时直接选结果的博弈。长度为三时,把最后两步视为已有结果的子博弈,而后续所有长度大于等于二的博弈推演过程都是如此。

如果放到尼姆游戏或者金币游戏中,就非常好理解了,除了最后一步决出胜负,前面无论增加多少步,其实都是在重复。

进行到这里时,Ben将完全信息和纯策略的正式定义强调了一下,并进行了举例说明。

如图,①和②进行博弈,U、D,l、r,u、d分别代表第一到第三轮的策略,收益如图所示。

②可以选择策略:[l], [r]

①可以选的策略:[Uu], [Ud], [D].......对么?

不对,①可以选的策略应表述为[Uu], [Ud], [Du], [Dd]。

为什么?①选了D以后哪里还需要在u和d之间做选择呢?

当我们用逆向归纳法时,我们是这么思考这个博弈的:在u和d之间,因为三大于二,所以①会选d;在l和r之间,由于知道①会选d,所以②只需要比较一和二谁大,而二大于一,因此②会选r;在U和D之间,由于②会选r,所以,①只需要判定零和一谁打,而一大于零,所以①选D。

也就是说,如果我们不知道①在最远的节点做了什么,我们是无法推出①在第一个节点选D的决策的。

所以这个博弈的结果是([D, d], r)。

现在,我们把树状图转化为矩阵再来看一看。

当我们用最优反应(BR)去推纳什均衡(NE)时,会发现,这里有两个NE

NE = ([D, d], r), ([D, u], r)

这是为什么呢?因为当①选择了U之后,实际上u和d之间的选择就失去了意义。可我们知道,([D, u], r)这个组合是愚蠢的,因为如果①号在第二轮博弈会选u,那②就不会选r而是l,①在第一轮中也就不会选D而是选U了,所以这个陷阱是我们需要去避免的。

为了更深入的理解这种情况,我们来看一个现实案例。

现在有一家垄断公司(Inc),面对着一个可能侵入他市场的挑战者(Entrant),双方的博弈树状图如上。

从逆向归纳法来看,我们很容易发现,(in, not fight)是NE。

将树状图转化为矩阵再来看看。

矩阵图中,通过用BR找NE的套路,我们发现有两个NE。

NE = (in, not fight), (out, fight)

(in, not fight)在两个过程中都是NE,无需多言。

(out, fight)是什么情况?也就是说,现存的垄断企业威胁挑战者自己会反击,然后挑战者采信了这一威胁。可是,我们无论是从树状图还是矩阵来看,这一决策都不明智,为什么呢?因为在我们虚构的博弈中,垄断企业的威胁是“不可信”的。

我们现在为垄断公司与挑战者的例子增加一些条件,假设这家垄断公司在十个不同的城市里都有业务,也都有挑战者试图进入这十个不同的子市场,然而他们是按照顺序进入,而非同时开始挑战垄断者。比如,一月份上海市场的挑战者需要决定是否进入市场挑战,二月份天津市场的挑战者需要决定,三月份南昌,四月份呼和浩特这样的顺序。

换而言之,每个挑战者在做决定时都知道了上一个挑战者和垄断者之间博弈的结局。

按照常理度之,此时垄断者拥有很强的动机去fight,因为他需要恐吓这些挑战者们不要进入,而挑战者们也清楚这一点,所以他们的最优决策应该是不要进入避免损失,所以从第一个挑战者往后双方的博弈应该都是fight vs stay out.

但当第十个挑战者开始博弈时,局面不一样了,因为此时,垄断者没有需要恐吓的第十一个挑战者,而第十个挑战者也很清楚这一点,所以他们的博弈又回到了我们之前的分析,结果就是双方在市场_存。

我们再换个思路,用逆向归纳法思考一下。

先看第十个挑战者和垄断者的博弈,没变化,博弈过程和前文中单个市场的思路是一样的,双方的最优解应该是(in, not fight)。

第九个挑战者和垄断者之间的博弈,按照上文我们的分析,由于垄断者需要恐吓后面的人,所以应该是(out, fight).......是么?出现问题了。第十个挑战者和垄断者之间无论如何都不会打起来,那垄断者对第九个挑战者的恐吓是为了干什么?换而言之,一旦第十个挑战者的博弈成为定局,那么第九个挑战者应该也很清楚,垄断者此时采用not fight才是上策,所以(in, not fight)才是最优解。

好了,第八个挑战者会发现,自己也不需要避战了,因为十和九的博弈都已成定局。

按照这个逻辑一路逆推,结果就是连第一个挑战者都会选择进入市场,和我们正序推演时的结果大相径庭。

再次增加一个条件。

如果这个垄断公司的老总是个疯子呢?

我们刚得出了结论,按照逆向归纳法,垄断者应该和十个挑战者都达成和平共处的结局。但,如果第一个挑战者按照理性的推演,选择了进入市场,然后他发现垄断者选择了fight,估计要骂一句“这TM是疯子么?”

第二个挑战者看到了第一个挑战者的情况,考虑了一下,认为也许垄断公司的老总一月份家里出事了,小概率做出了不理性的选择,所以大概率,我应该是可以达到理性的博弈结局,所以选择了进入市场,然后他也发现垄断者选择了fight,估计也要骂一句”真TM是个疯批!“

第三个挑战者看到一二的情况,觉得垄断公司的老总铁定是疯了,为了避免损失,我还是不进入市场了。

第四个第五个第六个直到第十个可能都有同感,于是垄断者获得比上文中逆向归纳法推演出来的更高的总收益。

如果这个垄断公司的老总是装疯呢?

没关系,推演过程差不多,由于垄断者在”疯“这个策略下可以获得比”理性“更高的总收益,这就意味着即便是一个理智的博弈者也会选择在此刻装疯,表现出凶狠好斗的一面。

这就体现了声誉的重要性。

这种策略在现实中就有很多的对照了,如包括美国在内的部分国家,在面对绑架人质的犯罪分子时,都会选择”拒绝谈判“,这样很有可能导致现场人质出现伤亡,但理论上会喝止后续的人质绑架行为。

此外,各行各业中有很多依靠建立良好声誉来获得收益的例子,如医生、会计这种非常依赖信任的职业。

Ben在这里吐槽说当年因为安然事件倒闭的安达信家族的人也听过他的课。

总结两个要点:

一)小概率的疯狂会大大改变博弈结果;

二)声誉非常重要。

假定现在有两个决斗者,各自枪里都只有一发子弹,他们起初相隔一段距离,然后相向而行,自行决定开枪时机,可一旦开枪未命中,相向而行不会停止,那么尚未开枪的一方就可以径直走到已开枪一方的脸上然后”砰~“。

为了方便建模,也可以理解为回合制下的一人走一步,步幅固定,每走完一步决定一次开不开枪,既是A走一步,决定是否开枪,然后B走一步,决定是否开枪,而后循环往复。

在经济世界里,这个模型反映了如下的一种现实,两家公司都在研发一款新产品,率先推出的一方有可能拿到先发优势,让客户都接收自己的标准,形成路径依赖,但太早的推出产品有可能会因为各方面准备不充分导致市场恶评,从而彻底失败,所以和决斗一样,什么时候出手就变得至关重要。

假定 P_{i} (d)是i在d这个距离上命中对方的概率。

然后,我们用Y轴来表达命中率,X轴来表达双方的距离,作图。

这里我们还假定了双方的射击能力是有区别的,玩家一的命中率在各个距离上都高于玩家二。

并且,我们还假定了双方都很清楚这些信息。

根据以上的假设,我们使用优势理论和逆向归纳法来做一下推演。

认知A:如果目前还没有人开枪,假如玩家i在d距离认为玩家j在下一回合(距离d-一)时不会开枪,那么i本回合不应该开枪。

认知B:如果目前还没有人开枪,假如玩家i在d距离认为玩家j在下一回合(距离d-一)时会开枪,此时i需要进行判断,若此刻i开枪的命中率P_{i} (d)大于等于j下一回合开枪的失误率一-P_{j} (d-一),i需要开枪,反之,i不应该开枪。

P_{i} (d) \geq 一 - P_{j} (d-一) \Leftrightarrow P_{i} (d) + P_{j} (d-一) \geq 一

A很好理解,若对方下回合行动不开枪,我在自己下一轮行动前是绝对安全的,那么多等一回合,减少一些距离,命中率更高,胜算更大。

B稍微费点脑子,在我的行动回合里,我的胜率等于命中率,那么在对方行动的回合里,我的胜率等于什么呢?等于对方的失误率,既(一-命中率),所以,若是我此刻的胜率高于下一刻的胜率,当然应该开枪。

那么,什么情况下,我如何预判对方下回合会不会开枪呢?

设:在d*这个点时P_{i} (d*) + P_{j} (d*-一) = 一

那么在所有d>d*的距离上,P_{i} (d) + P_{j} (d-一) > 一,于是我们通过认知B可以断定,就算认为对方会开枪,自己也不应该开枪,这对于双方都是成立的,所以我们可以断定在d>d*的距离上双方都不应该开枪。

那么在d

直到d*这个点,认知B的判定达到临界点 P_{i} (d*) + P_{j} (d*-一) = 一,双方才会由开枪而转化为不开枪。

由此,我们得出结论,d*既是开枪的临界点,无论谁第一个到达d*都一定会开枪,而d*具体在哪里则是由双方的命中率共同决定的。

如果博弈对方不懂得这些门门道道,是个白丁,直接上来就开枪,那么我们需要调整自己的策略么?

Ben在此处对哈佛学生进行了惨无人道的鞭挞,说如果我们受过教育的聪明耶鲁学生对上了啥都不知道的哈佛学生,那么我们还是应该采用既定策略,因为这是优势策略。假如哈佛学生在距离大于d*时开枪,那正好,我们大概率直接获胜了,如果哈佛学生选择距离小于d*时才开枪,无所谓,我们反正到d*就开枪好了。

但这里我想提出一个疑问,如果我知道对方有多傻,比如,我预判到了对方在d*/二处开枪,那么我在(d*/二)+一处开枪,优势岂不是更大?但转过头一想,预判傻子的行为可能更不容易吧。

最后,Ben提到,在现实中,很多人都会在类似的博弈里选在提前开枪,一方面是由于心理方面的过度自信,另一方面则是由于美式教育中先下手为强的理念。这个挺有意思的,想起当初上金融课,也学到过一个理念,相当多的投资者在市场上都属于过度自信的,然而根据统计数据,平均来讲,主动投资的投资者表现还不如被动投资的指数型股指。

在整个决斗的章节,我脑子里想的都是这样一副图景。

这个章节很好的诠释了,为什么线列步兵时代大名鼎鼎的英国红衫军会有诸如不第一个开枪、要看到对方眼白再动手的规则,这里就不费笔墨写自己不擅长的内容了,贴一个我很喜欢的答案吧,除了移动速度和装弹速度这一块儿没有提到,这篇回答堪称我心目中的完美。

假定一场由两名玩家(玩家一、玩家二)构成的博弈,玩家们将分一笔钱,设钱数为一元。

玩家一提供一个“take it or leave it”(不要就拉倒)的条件给玩家二,自己留下S,给对方一-S,(S, 一-S)。

玩家二可以选择接受一-S,这样玩家一也拿到S,或者玩家二可以选择拒绝,这样双方都拿零,(零, 零)。

这种情况下,大家会怎么抉择呢?

从Ben与同学们的课堂博弈来以及大量的研究实验数据来看,大部分扮演玩家二的人能接受的分成是一-S接近五零%的份额,离五零%越远,玩家二接受的概率越低(玩家一一般不会提出S小于五零%,一-S大于五零%的方案)。

由于这个博弈是一次性的,所以也就不存在重复博弈或声誉问题,这说明,也许人们心中是存在一个对于公平的诉求的,也就是说,收益并非博弈者唯一追求的内容。

否则,按照逆向归纳法,S应该无限接近一,玩家二只要有哪怕一丁点儿的好处,都应该接受。

现在,我们把游戏规则改变一下,让它成为一个分为两个阶段的博弈。

假定一场由两名玩家(玩家一、玩家二)构成的博弈,玩家们将分一笔钱,设钱数为一元。

假定博弈每过一个阶段,钱都会随着时间贬值,第二阶段的一元在第一阶段只值δ元(设贴现率为r,既δ=一/(一+r)),且δ<一(贴现率r>零)。

第一阶段:

玩家一提供一个条件给玩家二,自己留下S,给对方一-S,(S, 一-S)。

玩家二可以选择接受一-S,这样玩家一也拿到S,或者玩家二可以选择拒绝,这样双方进入第二阶段。

第二阶段:

玩家二提供一个条件给玩家一,自己留下S*,给对方一-S*,(S*, 一-S*)。

玩家一可以选择接受一-S*,这样玩家二也拿到S*,或者玩家一可以选择拒绝,这样双方都拿零,(零, 零)。

此时,游戏发生了很大的变化。

我们用逆向归纳法思考,玩家二在第二阶段时,可以选择留下所有钱,一分不给玩家一,但是由于贬值的问题,所以即便玩家二留下全部的一元,折回第一阶段也不过是等于拿到了δ元。

换成现实生活中的案例思考,不严谨的说,我们可以认为,老板许诺一年后发一零零零零零元的奖金等价于今天立刻给我一零零零零零/(一+一年通胀率)的奖金。

所以,如果有人跟我说,愿意拿一个大于一零零零零零/(一+一年通胀率)的现金,跟我换一年后一零零零零零的奖金,我应该选择接受。当然,这里假定老板肯定是会发钱的,也假定通胀率的预判是完全准确的。

回到二阶段博弈中,此时玩家一在第一阶段如果给玩家二分了δ元,自己拿一-δ元,那么玩家二就正好踩在了无所谓接不接受的临界点上了。

如果是三阶段的博弈呢?

一给二提分法,二给一提分法,一再给二提分法。

这里有点复杂了,一第二次提出分法了,但是这个时候,玩家一必须要满足玩家二在二阶段分法里的最低所得,自己的分法才能被接受。

换而言之,二阶段游戏时,玩家一在第一阶段提的分法必须满足玩家二的收益不小于玩家二在第二阶段将所有好处都分给自己的值的贴现值,也就是第二阶段的一元在今天的价值δ元。

三阶段游戏时候,玩家二在第二阶段提的分法必须满足玩家一在第三阶段将所有好处都给自己的值的贴现值,所以玩家二在第二阶段提的分法应该是玩家一拿第三阶段的一元在第二阶段的价值δ元,而自己在第二阶段拿一-δ元。同理,玩家一在第一阶段必须保障玩家二在第二阶段时的利益,所以第一阶段分给玩家二的钱的临界值是δ*(一-δ),玩家一自己拿的钱是一-δ*(一-δ)。

用图来表示:

我们会发现,一旦用表格形式标注出来后,就有一个很明确的规律性,每增加一个阶段,下一阶段的最后一轮被动方的初始收益,都等于上一阶段最后一轮主动方的初始收益乘以δ,或者表达为除以一+r。

如果用几何图形来表达,假定玩家一永远是第一个提offer的,那么 U_{一} 和 U_{二} 分别表示玩家一和玩家二的收益,做出来的图如上,虚线是垂直或水平的,所以我们也可以把图中这几条线的方程写出来,然后求解。

继续往下推,如果是第n阶段呢?

我们先看第四阶段在上表中的表达式:

U_{offerer四} = 一-&*[一-δ*(一-δ)] = 一-&+ δ^{二} - δ^{三}

U_{receiver四} = &*[一-δ*(一-δ)] = & - δ^{二} + δ^{三}

再来看看第十阶段

U_{offerer一零} = 一-&+ δ^{二} - δ^{三}+ ...... +δ^{八} - δ^{九}

两边同乘δ得:

U_{offerer一零}*δ = &- δ^{二} + δ^{三}+ ...... -δ^{八} + δ^{九} - δ^{一零}

把U_{offerer一零}简写成 S^{一零} ,再将上两式相加,得:

一 - δ^{一零} = (一+δ)* S^{一零}

S^{一零} = (一 - δ^{一零})/(一+δ)

\Rightarrow 一 - S^{一零} = (δ + δ^{一零})/(一+δ)

所以,第n阶段得表达式也可以写作:

S^{n} = (一 - δ^{n})/(一+δ)

若 n = ∞

S^{∞} = (一 - δ^{∞})/(一+δ) = 一/(一+δ)

一 - S^{∞} = (δ + δ^{∞})/(一+δ) = δ/(一+δ)

进一步思考,若是双方谈判的速度太快,比如两台计算机不断给对方报价,每回合以微秒计时,这样就意味着贴现率无限接近于零,δ无限接近于一,得出结论,此时:

S = 一/二

一-S = 一/二

结论:

一)在满足潜在无限多轮议价、贴现率无限接近零(δ无限接近一)、博弈双方的贴现率相等的三个条件下,博弈双方会实现利益均分;

此处Ben对于贴现率相等的问题进行了进一步的讲解,如若博弈某一方更着急用钱,或一方心理上更不耐烦,则他的贴现率会更高,δ会更小。

所以说,在小摊小贩面前砍价的时候,一定要表现得不着急啊。

二)第一个被提出的offer会被接受,不会有议价环节。

在模型中,双方都掌握了完美信息,所以议价环节只需要在脑海中演练一遍就可以了。但在现实世界里,信息是不充分、不透明的,所以会衍生出很多议价的技巧,如表现得更有耐心、假装自己很了解行情等。

所以,在现实世界里,较为贫穷的一方会在议价环节处于劣势,因为贫穷迫使他们急于达成协议。

最后Ben还推销了一下一五六课程,说在这个课程上,会教授大家,在不知道物品对于双方价值的情况下,为什么很难进行高效的议价。这就不开心了,你们也没有把一五六课程放到网上给我白piao啊......

博弈论课程总结 第三篇

为什么要用博弈论来分析进化问题呢?主要有两个原因:

一)过去数十年间,博弈论对生物学产生了重大影响,尤其是动物行为学方面。

我们可以把基因看作策略,把遗传适应看作收益,那么好的策略就会让种群不断壮大。

但在这个领域,“动物们所采用的策略”是天生的基因,而不是他们自主选择的。

二)进化生物学对社会科学产生了重大影响:

我们可以把市场上的竞争理解为丛林里的竞争,公司的倒闭和基因的灭绝道理近似

我们首先给出一些限定条件或者说假定:

一)种群内部竞争;

二)博弈者之间的各类情况互为镜像;

三)博弈者们身处一个大数量的种群中,随机配对博弈;

四)相对成功的策略会增长;

五)无性繁殖——不存在基因重组。

我们现在用囚徒困境的模型来思考一个情况,假设有一群狮子,他们需要共同去捕猎,C代表合作型策略,D代表背叛型策略,选C意为尽心尽力干活,选D就是偷懒磨洋工。

博弈中的数字代表收益,具体来说就是一轮博弈结束之后,博弈者的数量变化,如收益为二,代表博弈者完成了自我复制,变成了两个,收益为三,代表变成了三个,收益为零,代表这个博弈者灭绝了。

这里还要引入一个新概念,进化稳定(Evolutionarily Stable):若一个策略是ES的,那么其他突变的策略就无法在采用这个策略的群体里扩大,只会灭亡。

那么,在这个简单模型中,合作策略是进化稳定的么?

假定一个群体全部都是C策略个体,现在出现了ε(无穷小)数量的突变个体采用D策略。

C vs [(一-ε)*C+ε*D] \Rightarrow EU_{C} = (一-ε)*二+ε*零=二*(一-ε)

D vs [(一-ε)*C+ε*D] \Rightarrow EU_{D} = (一-ε)*三+ε*一=三*(一-ε)+ε

三*(一-ε)+ε > 二*(一-ε)

EU_{D} > EU_{C}

经过简单计算,我们会发现,当D策略群体数量极小而C策略群体数量极大时,D策略的预期收益是大于C策略的。于是,得出结论,本模型中,合作策略不是进化稳定的。

那么,本模型中,背叛策略是进化稳定的么?

D vs [(一-ε)*D+ε*C] \Rightarrow EU_{D} = (一-ε)*一+ε*三 = 一+二ε

C vs [(一-ε)*D+ε*D] \Rightarrow EU_{C} = (一-ε)*零+ε*二 = 二ε

EU_{D} > EU_{C}

得出结论,背叛策略是进化稳定的,换而言之,突变的C策略群体会走向灭亡。

由上述简单模型,我们得出两个结论:

Lesson 一 :自然选择的结果可以是很糟的(若改变假设条件中的无性繁殖,会有不同)。

Lesson 二 :严格劣势的策略不可能达到进化稳定。

再来看一个简单模型,其他条件不变,仅改变收益矩阵。

这个模型中,c是ES的么?我们来看看b入侵c的情况。

c vs [(一-ε)*c+ε*b] \Rightarrow EU_{c} = (一-ε)*零+ε*一 = ε

b vs [(一-ε)*c+ε*b] \Rightarrow EU_{b} = (一-ε)*一+ε*零 = 一-ε

由于ε为无穷小:一-ε > ε

EU_{b} > EU_{c}

有趣的地方来了,那么b是ES的么?也不是,b会被c入侵,入侵过程一模一样,如果本矩阵中截掉a的部分,我们会发现b和c是一个左下对右上的镜像。

所以,我们可以直接预判,b和c两种策略的个体应该会形成一个对半开的群体。

那么(c, c)的策略是纳什均衡么?

当然不是,我们通过之前的学习可以判断,NE有三个,(a, a), (b, c), (c, b)。

当一个策略并非NE的时候,是因为可以出现其他有利的变动,那么这个策略就无法形成的进化稳定,因为其他有利变动所代表的策略会入侵该策略的环境。所以,我们可以得出结论:

Lesson S策略是进化稳定的与(S, S)是严格纳什均衡互为充要条件。

我们来简单证明一下:

规定一个策略S,并假定(S, S)是NE,既U(S, S) \geq U(S, S*) for all S*。

(a) U(S, S) > U(S, S*) for all S*

那么S*这个突变策略会灭亡,因为S*在多数情况下都会遇到S策略。

(b) U(S, S) = U(S, S*) but U(S, S*) > U(S*, S*)

这种情况下,S*面对S时不吃亏,但是当S*面对S*时,表现很差,这样也会逐渐灭亡。

那为什么Lesson里有个“严格”?看下面这个例子。

当前矩阵中存在两个NE,(a, a), (b, b),那么b策略是ES的么?

不是,当极小量的a策略入侵b策略环境后,虽然 (a, b), (b, a)收益都是零,与(b, b)无异,但(a, a)的收益不是零,也就是说,只要a策略大于一,理论上它就存在翻盘的可能性,所以b不是ES的。

不过这里我很好奇,这个极小量应该是有限制的,但我们这种数学渣是想不出来这个限制在哪里了。

这里之所以b是NE却不是ES,就是因为,(b, b)是弱优势纳什均衡,不符合严格纳什均衡的条件。

这是Maynard Smith在一九七二年提出的生物学上的进化稳定的定义,简化一下就是说对于任何微小的突变来说,进化稳定策略的收益都要大于突变策略的收益。

再来看一个经济学领域的进化稳定策略定义(二十世纪五十年代出现)。

以上两个定义是等价的。

Ben最后指出,这两个概念,是在两个不同的学科领域各自独立发展起来的,这让人很兴奋。

我们用一个例子来理解一下上述的两个Def。

这个矩阵中的纳什均衡是?(a, a)

(a, a)是严格纳什均衡么?不是,因为U(a, a)=U(b, a)=一

那我们检验一下U(a, b)是否大于U(b, b),U(a, b)=一>U(b, b)=零

所以,策略a是进化稳定的。

这个世界上不同国家有不同的交规,如英日澳等国车行驶在路左侧,其他大部分国家车行驶在右侧。

Ben假定开车行驶在道路左右侧的收益矩阵(这个英国人夹带私货,哈哈哈)。

我们可以看到,这个案例中(L, L)和(R, R)都是NE,而且还都是严格NE,所以L和R都是ES。

Lesson:一个博弈中可以有多个进化稳定的策略,这些进化稳定的状况不一定同样的好。

这个博弈矩阵其实是性别大战Ⅱ的一八零度翻转。

我们把a理解成侵略性策略,b理解成非侵略性策略。假设现在有两辆车相向而行,但道路不够宽,无法使他们一起通过,所以必然要有一方先行让路,这就构成了懦夫博弈的基本情况。在自然界中,懦夫博弈更是常见。

回到矩阵,很容易发现这里是没有对称的纯策略NE的。

但是,这里是有对称的混合策略NE的。

照搬性别大战Ⅱ中的计算,我们得到NE=[(二/三,一/三), (二/三, 一/三)]。

在生物学中,我们把使用纯策略的称为单形态(monomorphic),混合策略的称为多形态(polymorphic)。

结合这个状况,我们可以进一步拓展前文中出现的定义到混合策略的状态中。

在混合策略中的NE是不可能为严格NE的,因为构建混合策略时,我们就假定了无论对方选什么,我们的概率都会使其收益无差别,所以自然没有严格NE了,自然大部分情况下我们都要用定义中的(b)情况来判定是否为ES。

对于生物学领域而言,单形态(monomorphic)和多形态(polymorphic)有两种解释,第一种解释是,基因本身是随机的,同样的基因可以表现出不同的策略;第二种解释是,多形态进化稳定中实际上包含了同一个物种内部的不同种类的基因。

Ben说了一个北极海象的故事(作为一个非生物学专业的人,他坦白自己不确定真实性......)。

北极海象中的雄性有两种交配策略,一种是成为一个群体的首领,这样群体里所有的雌海豹就都是首领的后宫了,但这需要雄海豹非常高大强壮,打败所有竞争对手;第二种是外观上进化的跟雌海豹非常接近,然后就可以伪装成雌海豹混入其他雄性首领的_后宫_中跟少量雌海豹完成交配。

学术界把第二种策略叫做SLF(Sneaky Little Fucker).......

这个模型中的鹰(H)和鸽(D)代表的是同一物种中的鹰派和鸽派,而非不同物种。

v代表赢家的收益,c代表争斗付出的代价,两者都大于零。

鸽派策略是进化稳定策略(ESS)么?

那首先要检验(D, D)是不是NE,这里很容易看出来(D, D)状态下选H是有利偏离,所以(D, D)不是NE,D不是ESS。

鹰派策略是ESS么?

同理检验(H, H)是不是NE:

(一) 如果v大于c,那么(v-c)/二 > 零,也就是(H, H)状态下不存在有利偏离,(H, H)为严格纳什均衡;

(二) 如果v等于c,那么(v-c)/二 = 零,(H, H)为普通纳什均衡,此时按照定义,需要检验U(H, D)与U(D, D)的大小

U(H, D) = v > U(D, D) = v/二

结合(一)(二)我们得出结论: H is ESS if v \geq c

(三) 如果v小于c,此时发现纯策略H和D都不是ESS,那我们试着找出混合策略下的NE(p, 一-p)

由于博弈是镜像的,所以设p是双方选H的概率,由此我们可以得出一方选其中一个特定策略时的预期收益:

U(H, p) = p*((v-c)/二) + (一-p)*v

U(D, p) = p*零 + (一-p)*(v/二)

令二者相等,得: p = v/c, NE(v/c, 一-v/c)

由于混合均衡中不存在严格纳什均衡,所以我们要检验U(p, p*)是否大于U(p*, p*),这里的p*代表的是突变的混合策略。Ben表示这里证明太花时间了,你们相信我这个是大于的就好......我.....

不过前面的案例其实有提到逻辑上的证明,这里的p*其实可以代表混杂更多一点鹰派策略或更多一点鸽派策略,就像我们在网球比赛模型中看到的,如果我混杂更多的某一派策略,在动态比较分析中,对手的期望回报就会失衡,从而改变混合策略为纯策略,导致我不得不回调策略。

所以在(三)的情况下,p=(v/c,一-v/c) is ESS if v < c

Lessons : If v < c, 那么进化稳定中会有v/c比例的鹰派

a) 当v上升时,进化稳定策略中出现更多鹰派;

当c上升时,进化稳定策略中出现更多鸽派。

b) 收益 = (一-v/c)*(v/二)

若c上升,收益上升

c) 验证:我们在现实中可以通过观察、数据收集来验证v/c的具体数值

这里的结论非常有意思,a)的结论算是理所当然的,奖励越高,鹰派越多,成本越高,鸽派越多,符合我们现实中的经验。

但是b)就不一样了,当一场争斗的成本上升时,由于混合策略下鹰鸽两派收益相同,既所有人的收益都在上升?换而言之,当我预判一场斗争的损失越惨重,于是这场斗争的平均收益就越高?

换一个角度来看,其实b)指出了这样一种情况,当斗争的损失越大时,各方越不可能采用鹰派策略,这样就提升了博弈各方的整体收益水平。

这里有两个思考,第一个是在动物界,有不少争斗是采取接近人类体育竞赛的方式进行的,并非生死搏杀,如雄鹿之间的争斗,不见得你死我活,只是拿鹿角干一架,遵循默认规则,赢家为王,输家跑路。这种情况的博弈,不知道该如何理解,是当作c下降了呢?还是大家意识到了c太高,所以采取了鸽派的斗争策略?

另一个是想起自己快十年前写的一篇总结。在观察工业革命前人类社会的整体变化状况来看,一个显著的事实是,无论在民间还是国家层面,社会的暴力程度都随着时间的推移在不断下降,结合本文来看,民间暴力程度下降的很大一部分原因恐怕就是暴力的成本在不断上升,一方面来自采用暴力可能出现的损失,另一方面则是社会治理进步带来的暴力机构的干涉。

而从国家暴力层面来看,一是随着社会制度和技术水平的进步,战争开销变得越来越昂贵,另一方面则是各种内部矛盾(革命的潜在可能性)和新式武器(导弹、_、生化武器)的出现,导致就算打得过,统治阶级也不一定能平平安安的品尝战果。

而谈到c)时,Ben说,进化论为人诟病的一点就在于,很多人认为它是对着箭落下的地方画靶子,一个科学的理论不光要能总结现存的事物,还要能够预测没有被发现过的事物,预测未知。

那来试一下。

假定:一

这个模型就是生物学中的石头剪刀布,抓咬踩三种策略互相克制。

纯策略下的NE是肯定不存在的,那我们来看看混合策略p=(一/三, 一/三, 一/三)能不能形成ESS。

跳过前面复杂的步骤,直接看关键位置,U(p, p*)会大于U(p*, p*)么?

取一个极端情况,假定p*为纯策略S

那么 U(p, S) = (一+V+零)*(一/三) = (一+V)/三

由于假定中 V<二 \Rightarrow U(p, S) = (一+V)/三 < 一 = U(S, S)

所以这一局博弈中不存在ESS。

这意味着抓踩咬三种策略,会像三条互相吞噬的蛇一样,形成一个不断此消彼长的循环。

九零年代中期,Nature发表了一篇研究特定类型蜥蜴的文章。

上一篇
下一篇
返回顶部