在这样一种法治环境中,法律必然可以改善囚徒困境。我们来看这样一个例子。如所前述,我们假定执法人员独立于博弈之外,有公司A与公司B是商业上的合作伙伴,公司A经常向公司B购买原材料,由于两家公司在不同的城市,于是两个公司经过谈判之后签订买卖合同,一般在一周最后的那一天,公司A将现金打入公司B的银行账户,公司B则发货到公司A,若违约则处以2~5倍罚款。
实际上,如果公司A与公司B都是理性人,那么他们的合作就是一个有限次数重复博弈,在社会不存在法律的情况下,在两个公司任何一次交易中都有可能存在其中一家公司不遵守合同,逃款或逃货,即使公司A现金充裕,而公司B货源充足。所谓的熟人欺诈也是这个道理。
然而,在我们理想的法律环境下,公司A和B最佳策略都是合作。不妨假设公司A与公司B每年的交易都有十几次,平均每笔生意为100万,若违约则罚款200万。
见上图,在这个博弈中:
1.在矩阵的左上角,公司A和B都选择合作,双方收益均为20万(指公司A与公司B的利润);
2.在矩阵的左下角,在公司A付款,而公司B不发货,A损失100万,B收益100万;
3.在矩阵的右上角,公司A不付款,公司B发货,公司A收益120万(其中包含20万的利润),公司B损失80万(指公司B货物的成本,也就是收入减去利润);
4.在矩阵的右下角,公司A不付款,公司B不发货,双方收益为零。
当然,这里还要说明的是这个博弈中没有考虑商业信誉的问题,商誉是社会道德中的问题,后面笔者会详细讨论。
很显然这是一个有限次重复博弈的囚徒困境,注意到前文所介绍的模型都是对称的,这个博弈则是非对称博弈,这更加贴切于日常生活的真相。
在没有法律背景的条件下,双方选择不合作是自然的纳什均衡点。然而引入强制性的法律则不同,这时他们所签合同具有法律效应,一旦有一方违约,另一方有权罚款其200万元,并且法院可以强制执行。在这种情况下,两个“囚徒”,也就是公司自然都会采取合作策略,完成合同对各方所要求的行动。简单说来,就是法律改变了两个公司博弈的均衡结果。
霍布斯认为,国家以法律形式规定对某种行为如“违约”采取惩罚措施,但是如果惩罚措施不力,即使扣除惩罚的成本,行动者从“违约”策略中获取的好处大于他采取“守信”策略所带来的好处,那么国家的法律措施是无效率的或者说是低效率的。因此国家法律的制定应以抑制对他人的危害行动为原则。
这就是法律制定的第一条原则:效率原则。效率原则是从对社会的整体考虑分析得出的,从这个意义上讲,法律越严格越好,越严格越有效率。
强制性有效法律是非常重要的。在冷战时期,美苏两个超级大国40多年的军备竞赛反证出这一点。尽管他们双方签订一些制止军备竞赛的协议,但因缺乏一个世界性的公平合理又具有强制性的法律环境,其结果仍然是陷入无法解脱的囚徒困境。
类似的还有各国的贸易保护主义的永恒倾向也很能说明这个问题,除非某一天出现全世界的国家都得到统一,建立一个全球性政府才可以彻底解决这些国与国之间的囚徒困境问题。
法律制定的第二条原则是,法律对犯法者的惩罚应以与犯法者给社会或他人造成的危害相等为原则,这就是公平原则。用简单的一句话说,法律惩罚太重对犯法者不公平,惩罚太轻则对社会或他人不公平。
因此在不同的国家以及在同一个国家的不同时期,对这两个原则的态度是不同的。法律制定的这两条原则要根据不同时代,不同社会的具体状况而各有侧重。
就目前我国的社会现状来说,国家法律与立法执法的重要性日益凸现。我们从法律制定的第一条原则来看,违反契约的惩罚越是严厉并可信,则博弈者违约的可能性越小,这是路人皆知的道理。
再从法律制定的第二条原则来看,权力对法律公平性的侵害有损法律的权威性与公正性,这也是众所周知的。“乱世用重典”,通过上述分析,读者您认为目前的中国社会应采用什么方式,才能适宜于治理、整顿、重构目前的社会系统运行状态呢?
《生活中的博弈论》第二部分爱克斯罗德试验中的针锋相对策略
如果没有外部强制力,囚徒困境中的参与者怎样才可以维持合作呢?
这是一个非常实际的问题。比如在国际事务上,国家与国家之间经常就某些问题达成一定的协议,这种协议我们在前面解释过,由于不存在一个世界性的政府,约束力往往很小。
对于这个问题,有这样一种答案。如果一方采取不合作的策略,另一方随即也采取不合作策略并且永远采取不合作策略,在博弈论里面称之为触发策略(Trigger strategy),或称冷酷策略。
如果对方知道你的策略是触发策略,那么对方将不敢采取不合作策略,因为一旦他采取了不合作策略,双方便永远进入不合作的困境。因此,只要有人采取触发策略,那么双方均愿意采取合作策略。
但是这个策略面临着这样一个问题:如果双方存在误解,或者由于一方发生选择性的错误,这个错误是无意的,那么结果将是双方均采取不合作的策略。也就是说,这种策略不给对方一个改正错误或解释错误的机会。
美国密西根大学罗伯特•;爱克斯罗德教授那个著名试验,给出了这个问题更好的答案。爱克斯罗德邀的这些人都是政治学家、数学家、经济学家、社会学家。获胜者是加拿大多伦多大学的拉波波特写出的针锋相对(tit…for…tat)策略。说穿了,所谓针锋相对策略,就是胡萝卜加大棒的原则。
爱克斯罗德在开始研究合作之前,设定了两个前提:一、每个人都是自私的;二、没有任何权威干预每个人的决策。也就是说,个人可以完全按照自己利益最大化的企图进行决策。在此前提下,合作要研究的问题是:第一、人为什么要合作;第二、人什么时候是合作的,什么时候又是不合作的;第三、如何使别人与你合作。
这个游戏共进行了两轮。在第一轮游戏中,共有14个程序参加竞赛,并附加上爱克斯罗德自己的一个随机程序(即以50%的概率选取合作或不合作),总共运转了200次。结果得分最高的程序是加拿大学者罗伯布编写的针锋相对策略程序。
这个程序的特点是:第一次对局采用合作的策略,以后每一步都紧紧跟随对方上一步的策略,你上一次合作,我这一次就合作,你上一次不合作,我这一次就不合作。爱克斯罗德还发现,得分排在前面的程序有三个特点:第一,从不首先背叛,即“善良的”;第二,对于对方的背叛行为一定要报复,不能总是合作,即“可激怒的”;第三,不能人家一次背叛,你就没完没了地报复,以后人家只要改为合作,你也要合作,即“宽容性”。
为了进一步验证第一轮游戏得到的结论,爱克斯罗德邀请了更多的人再做一次游戏。这时游戏进入了第二轮。第二次爱克斯罗德征集到了62个程序,同样也附加上他自己的随机程序,又进行了一次竞赛。结果,第一名的仍是针锋相对策略。
爱克斯罗德总结这次游戏的结论是:第一,针锋相对方法仍是最优策略。第二,前面提到的三个特点仍然有效,因为63人中的前15名里,只有第8名的哈灵顿程序是“不善良的”,后15名中,只有1个总是合作的是“善良的”。可激怒性和宽容性也得到了证明。此外,好的策略还必须具有的一个特点是“清晰性”,能让对方在三、五步对局内辨识出来,太复杂的对策不见得好。针锋相对策略就有很好的清晰性,让对方很快发现规律,从而不得不采取合作的态度。
针锋相对策略的优越性向我们充分展示了一个纯粹自利的人何以会选择“善行”,只因为合作是自我利益最大化的一种必要手段。
比如在爱情中的博弈原则应该是:善意而不是恶意地对待恋人;宽容而不是尖刻地对待恋人,关键是能够彼此宽容,既宽容对方的缺点;强硬而不是软弱地对待恋人,就是要在我永远爱你的善意的前提下,做到有爱必报,有恨也必报,以眼还眼,以牙还牙,以其人之道,还治其人之身。
比如对于恋人与其他异性的亲热行为,要有极其强烈的敏感与斩钉截铁的回报。简单明了而不是山环水绕地对待恋人,在博弈中过分复杂的策略使得对手难于理解,无所适从,因而难以建立稳定的合作关系,明晰的个性、简练的作风和坦诚的态度倒是制胜的要诀。
在生活中一样可以运用这种方法。当一个人伤害了你的时候,你知道即便报复了他也并不能消除已对你形成的伤害。如果你还希望两个人的关系能够继续,那么最好是宽恕他。但是,若他知道即便伤害了你也会获得宽恕的时候,他就可能一直有意无意地不停伤害你。
就像我们在一些影片中看到某些心地善良却遇人不淑的女子。那些女子一次又一次原谅胡作非为的丈夫,希望用真情感动他回心转意;但结果丈夫反而得寸进尺,因为他知道无论如何只要一些花言巧语扮可怜就会获得宽恕。
所以有时候,人们会对伤害选择报复。当别人打你一拳,你若打回一拳,这本身并不能减轻你已挨那一拳的疼痛,而且用力打回一拳通常也得不到快感。那为什么还会回击呢?原因在于,你知道打不还手只会让对手更加猖狂,而选择回击是遏制对方进一步侵犯的方式。
所以,有些时候宽大为怀不一定好,有些时候毫无回旋余地也不见佳。这就是奇妙的人类互动世界。
《生活中的博弈论》第二部分利他主义与爱克斯罗德试验的局限
在爱克斯罗德试验中,选手策略有一定的演化趋向。就像物种遗传一样,对策者所组成的策略群体也是一代一代进化下去的。这种进化的规则包括:
1.试错。人们在对待周围环境时,起初不知道该怎么做,于是就试试这个,试试那个,哪个结果好就照哪个去做。这就是试错法;
2.遗传。一个人如果合作性好,他的后代的合作基因就多;
3.学习。比赛过程就是对策者相互学习的过程,针锋相对策略好,有的人就愿意学。
在爱克斯罗德的试验中,第一轮比赛中的63个对策者,谁在第一轮中的得分高,他在第二轮的群体中所占比例就越高。这样,群体的结构就会在进化过程中改变,由此可以看出群体是向什么方向进化的。
试验结果很有趣。针锋相对策略原来在群体中占1/63,经过1000代的进化,结构稳定下来时,它占了24%。另外,有一些程序在进化过程中消失了。其中有一个值得研究的程序,即原来前15名中唯一的那个不善良的“哈灵顿”程序,它的对策方案是:首先合