青帝小说

青帝小说>博弈的智慧是什么意思 > 第六章 困局博弈 唯有合作才能双赢(第1页)

第六章 困局博弈 唯有合作才能双赢(第1页)

人的一生总要面对很多选择,而且在很多时候你都会面临那种让你进退两难的抉择。到底何去何从,囚徒困境的博弈虽不能给你带来一个明确的答复,但是却能使你通过这种两难的抉择,引发一种深深的思考。因为,背叛与合作并不只是道德与良知的核心,更是利益的化身。

囚徒困境中的选择

如果你对博弈论有所了解就会知道,“囚徒困境”是其中最为著名的案例模型之一。甚至可以说,“囚徒困境”是博弈论中必须谈及的一个题目。

这个经典的模型是由美国数学家塔克最先提出的。1950年,原本出任普林斯顿大学教授的塔克应邀来到斯坦福大学数学系担任客座教授,其间一些心理学家对于塔克研究的博弈论很感兴趣,并要求他以此为主题作一次演讲。塔克教授用了两个囚犯的故事,将博弈论的问题作了形象化的解释,从此以后类似的博弈问题也便有了一个专门的名称——囚徒困境。下面就让我们来看看“囚徒困境”的故事。

有两个惯犯A和B,他们在一次作案中双双被捕,并且被分别关押在两个独立的房间里进行审讯,客观条件使得他们之间不可能互通信息。警方了解到,此二人为惯犯,但是没有足够的证据对他们的犯罪过程进行指正,于是就向他们宣布了“坦白从宽,抗拒从严”的政策:如果A和B对过去的罪行都坦白交代,二人将被各判十年刑期;如果其中一人坦白而另一人抵赖,那么坦白的人将被无罪释放,而抵赖的人将被判罚十五年徒刑;如果两人都抵赖,两人将被判罚服刑一年。

AB

抵赖

坦白

抵赖

1年1年

15年无罪释放

坦白

无罪释放15年

10年10年

从表面上看,A和B应该互相合作,共同保持沉默,因为这样他们就都能获得最好的结果——被判一年徒刑。但事实却并非如此,因为他们不得不考虑对方可能采取的选择。问题就这样出现了。

以A为例,他知道如果自己拒绝与警方合作,而B主动向警方坦白他们过去的罪行,结果就是B会全身而退,而A自己将承担所有罪责,自己留在监狱十五年;而如果B不招供,A自己招供,结果就是A自己可以马上获得自由;即使是B与A同时招供,结果也要比十五年要好很多。所以,对于A来说,招供就是最佳选择。

同样的逻辑也适用于B。结果,整个博弈的结果就是,两人都从利于自身的角度出发,选择了招供,最终两人都被判罚两年徒刑。

从旁观者的角度,我们可以发现两人都坦白的这个结果并非最好。如果A和B都选择隐瞒真相,则结果就是两人被判入狱一年,显然这个结果要比各自判刑十年好得多。其实,也就是为什么将这个现场称之为“囚徒困境”的原因。所谓的困境就在于,A和B都从各自的角度出发,考虑自身利益的最大化,因而采取各自的最优策略,但这个基于个人理性选择的结果往往适得其反,也就是说,个体利益最优的总和未必就是整体利益的最优。

在囚徒困境中存在唯一的纳什均衡点,即两个囚犯均选择“招认”,这是唯一稳定的结果。需要强调的是:均衡不一定是博弈的最优结果。在“囚徒困境”中,唯一的均衡是一起招认,站在群体的角度,这是最坏的结果。均衡只是博弈的最“稳定”结果,或者说是最可能出现的结果。那么,这就需要我们思考一个问题:如果这个“稳定”的效果不佳,我们能否找到合理的策略打破这个“均衡”?

在囚徒困境中寻求合作

“囚徒困境”是否宣判了合作可能性的死刑?如果是这样,现实生活中人们的相互合作又如何解释?人们在现实中的博弈,与在游戏模型中有何不同?在前文中,我们谈到了社会人与“理性人”是有区别的,那么区别又在哪里呢?换言之,为什么可以在逻辑上得到完美证明的“囚徒困境”,并不能成为人们普遍遵循的选择。

于是,问题变成了去发现合作出现的充分和必要条件了。显然,生活中的人们打交道通常不是一次性的,那么,增加博弈次数又会怎样?如果两位自私者玩一次这个游戏,他们的选择会是背叛。这样,每一方所得到的将少于双方合作所能得到的。

设想这个游戏要进行多次,而且双方知道具体次数,但是双方仍然没有合作的动机,为什么呢?首先,最后一次大家显然是不合作。在倒数第二次时,双方还是没有合作的动机,因为他预知对方在最后一次将会背叛。如此推理下去,对两位自私者任何已知次数的游戏来说,从第一步开始就是双方的背叛。

然而,这个推理并不适用于游戏要进行无限多次的情况。在大多数实际情况下,对策者不能肯定什么时候是他们的最后一次对局。当游戏次数无限多时,合作有出现的可能。

对未来的预期,是影响我们行为的重要因素。一种是预期收益:我们这样做,将来会有什么好处;一种是预期风险:这样做可能面临的问题。这两种预期会影响个人选择的策略,如学生读书,为了将来考上好的大学。在公共汽车上,两个陌生人会为一个座位争吵,可如果他们认识,则会互相谦让。在相互联系紧密的人际关系中,人们普遍比较注意礼仪道德,因为都需要这个环境。

道德、法律、权力、利益的划分,都与“还要见面”有关。从消极一面看,我们互不侵犯,是为了避免没完没了、两败俱伤的循环报应。如果两个原始人见面,一个拿着兽皮,一个拿着野果,他们都想把对方的东西据为己有。如果他们的见面是偶然的,可能相互抢劫。可是如果他们都生活在附近,考虑到对方家族的报复,抢劫的风险就大了,所以不去打对方的生意——所有权就这样产生了。如果他们确实想得到对方的东西,他们可以选择合作——以物易物,交易就这样产生了。

还有一点不同的是,在生活中,人与人的博弈不是孤立的,你可能一直都把另一个人踩在脚下,但是如果这导致你们都生活得很糟的话,那么,把他踩在脚下就不是什么明智的选择了。

两个相邻的国家,如果相互敌对是一件非常不幸的事。它们不可能各自“搬家”,又不可能消灭对方(这是现代国际关系准则所不允许的关系),这个死结就可能困扰它们许多年。遗憾的是,当今的国际政治关系中像这样的邻国关系还不少,如巴勒斯坦与以色列、印度与巴基斯坦、伊朗与伊拉克等,这样的相互纠缠对于双方来说都是沉重的负担。

为了验证在“囚徒困境”时人们可选择的策略以及这些策略的有效程度,美国的国际关系学者罗伯特·爱克斯罗德组织了一次以此为主题的计算机竞赛。竞赛要求参加者根据这一“困境”设计程序,并将程序输入计算机,通过各种程序的相互对局的最后得分评判优劣。

在这次游戏中,游戏双方都在不知对方将如何选择的情况下,选择合作或背叛。这些选择放在一起就产生了四个可能的结果,即:合作,合作;合作,背叛;背叛,合作;背叛,背叛。在这个游戏中,如果双方选择合作,双方都能得到较好的结果R,即“对双方合作的奖励”。在这个例子中R为3分,3也可以代表参赛者得到的奖金数。如果一方合作而另一方背叛,那么背叛者得到“对背叛的诱惑”T=5。而合作者则得到“给笨蛋的报酬”S=0。如果双方都背叛,那么双方都得到P=1,即对双方背叛的惩罚”。当然,最后以得分多少判定名次。

你可能忍不住要问:“什么是最好的策略?”事实上,在“囚徒困境”中表现最好的策略直接取决于对方采用的策略,特别是取决于这个策略为发展双方的合作留出多大的余地。总的来说,如果你认为今后将难以与对方相遇,如果你不太关心自己未来的利益,那么,你现在最好是背叛,而不用担心未来的后果。

已完结热门小说推荐

最新标签