如果我們都對(duì)金發(fā)女士下手,并且互相妨礙,那么結(jié)果是誰都無法得到她。接下來我們?cè)偃フ宜呐笥褌儯齻儠?huì)不屑一顧,因?yàn)闆]有人愿意當(dāng)備胎。然而假如我們都不找金發(fā)女士呢?我們不會(huì)相互影響,也不會(huì)冒犯其他幾位女士。這就是我們成功的唯一方式。
如果看過電影的話你會(huì)發(fā)現(xiàn),這就是電影《美麗心靈》(2001)中的角色約翰·納什首次向他的朋友們解釋有關(guān)他天才般的有關(guān)“博弈論”(governing dynamics)的新發(fā)現(xiàn)。當(dāng)然,事實(shí)上,這并不是真實(shí)的約翰·福布斯·納什想到的,他也不是這樣描述“博弈論”概念的。這篇文章的目的是更加準(zhǔn)確和全面地描述納什均衡提出的過程和其價(jià)值。
納什均衡是是非合作博弈的概念,涉及兩個(gè)或兩個(gè)以上的博弈者,假設(shè)其中每個(gè)博弈者都知道其他博弈者的均衡策略,單個(gè)博弈者都無法通過單方面改變自己的策略來獲取利益(Osborne et al, 1994)。
定理可以被非正式地描述為:
如果沒有一方博弈者能通過單方面改變自身策略來獲取更大收益,那么這個(gè)策略就是納什均衡。
也就是說,在一個(gè)二人游戲中,如果已知玩家B選擇的情況下,玩家 A 的策略是最優(yōu)的,同時(shí)已知玩家A策略的情況下,玩家 B 策略也是最優(yōu)的,那么這一對(duì)策略構(gòu)成納什均衡。沒有一個(gè)玩家可以通過單方面改變自己的策略獲得更優(yōu)的結(jié)果。關(guān)鍵的是,玩家都不知道對(duì)方的策略,僅根據(jù)自身的利益選擇最優(yōu)策略(也知曉其他玩家的利益)。
推廣到 n 個(gè)玩家的情況,可定義為:
納什均衡的定義
用(S,f)代表 u 個(gè)玩家的游戲,Si是 i 玩家的策略,S=S1×S2×S3×…×Su 是所有策略的集合,f(x)=(f1(x),…,fu(x)) 是 x∈S 情況下的收益函數(shù)。xi是玩家 i 的策略,x-i是其他所有玩家(除了 i )的策略集合。
當(dāng)每個(gè)玩家 i∈{1,…,u} 選擇策略 xi 后,策略配置為 x = (x?,...,x?),玩家i則獲得收益 f?(x)。收益取決于所有人的策略,包括玩家 i 和其他玩家的。
如果沒有任何一個(gè)玩家可通過單方面改變策略獲取更多收益,則這個(gè)策略集x*∈S 就是納什均衡,即:
?i,x? ∈ S? : f?(x*?, x*??) ≥ f?(x?,x*??)
納什的論文證明(1950c)使用了布勞威爾定點(diǎn)定理。由于戴維·蓋爾的功勞,納什利用更簡(jiǎn)單的方式(角谷定點(diǎn)定理)給出了相同的證明。
利用角谷定理證明納什均衡
為證明納什均衡(NE)的存在,假設(shè)r?(σ??)是玩家i在其他玩家的策略下的最優(yōu)策略。
r?(σ??) = arg max u?(σ?, σ??)
在這里,σ ∈ Σ 其中Σ? x Σ?? 是所有參與者的策略,u? 是玩家 i 的收益函數(shù)。定義一個(gè)值函數(shù) r: Σ → 2^Σ,其中 r = (r?(σ??), r??(σ??))。證明納什均衡的存在等價(jià)于證明 r 有一個(gè)不動(dòng)點(diǎn)。
角谷不動(dòng)點(diǎn)定理表明,如果滿足以下四點(diǎn),則有不動(dòng)點(diǎn)的存在:
- Σ 是緊湊,凸且非空; 
- r(σ) 是非空的; 
- r(σ) 是上半連續(xù)的; 
- r(σ) 是凸的。 
條件 1 的前提是Σ是單純形,因此其為緊湊的?!巴埂痹从谕婕夷軌蚧旌喜呗?。玩家必須選擇策略因此Σ為非空的。
條件 2 和 3 可通過Berge 最大值定理(Berge's maximum theorem)證明。因?yàn)?u? 是連續(xù)且緊湊的,所以 r(σ) 是非空的且上半連續(xù)的。
條件 4 也是由于混合策略的原因。假設(shè) σ?, σ?' ∈ r(σ??),然后 λσ? + (1 - λ)σ?' ∈ r(σ??)。即如果兩個(gè)策略產(chǎn)生最大收益,則兩個(gè)策略混合也會(huì)產(chǎn)生同等收益。
因此,r 和納什均衡中存在一個(gè)不動(dòng)點(diǎn)。
正式的游戲通常包含三個(gè)元素:玩家,策略和每個(gè)玩家的收益。收益函數(shù)代表每個(gè)玩家對(duì)于策略的偏好,策略集是玩家在游戲中的策略列表。可以在示意圖中解釋三種元素,并稱其為收益矩陣,來表明兩玩家的策略(兩個(gè)玩家各有兩種策略):
 左:游戲1的收益矩陣,為一個(gè)“協(xié)調(diào)博弈”。右:游戲2的收益矩陣,“錢幣配對(duì)”游戲(猜拳)
 左:游戲1的收益矩陣,為一個(gè)“協(xié)調(diào)博弈”。右:游戲2的收益矩陣,“錢幣配對(duì)”游戲(猜拳)在每個(gè)游戲中,兩個(gè)玩家都可以從A和B兩種策略中任選一種。
純策略的納什均衡指的是:沒有任何一個(gè)參與者可以通過單方面偏離和輪換策略來獲得更高的預(yù)期收益。
在游戲1中,如果他們選擇不同的策略(A,B)或(B,A),則兩者的收益均為0。如果他們都選擇策略A,則兩者都會(huì)得到收益2。如果他們都選擇策略B,則兩者都會(huì)得到收益1。策略集(A,A)和(B,B)因此產(chǎn)生納什均衡,因?yàn)閱蝹€(gè)玩家策略的改變會(huì)導(dǎo)致該玩家的收益更低。
在游戲2中,如果他們選擇不同的策略(A,B)或(B,A),則玩家1的回報(bào)為-1,玩家2的回報(bào)為1。如果他們都選擇A或B,則玩家1會(huì)得到 1的收益,玩家2得到-1。該游戲中沒有純粹的納什均衡策略,因?yàn)樵诿糠N策略集中,其中一名玩家都會(huì)從策略的偏離中獲利。
納什的結(jié)果表明,在所有有限對(duì)策中至少存在一個(gè)納什均衡點(diǎn)。由于游戲2不存在純策略的納什均衡,所以在混合策略中必然存在納什均衡:
混合策略納什均衡是一種策略集,其特征是至少有一個(gè)參與者在玩隨機(jī)策略,并且沒有一個(gè)參與者可以通過單方面改變和輪換策略來獲得更高的期望收益。
在游戲2中,玩家不選擇單一的策略,而是按照一定的概率分布來選擇策略。在均衡中,每個(gè)參與者的概率分布選擇使得所有其他參與者對(duì)他們的純策略不感興趣。
例如,作為玩家1,我們可以一半時(shí)使用A,一半時(shí)間選擇B,根據(jù)拋硬幣決定策略。玩家2唯一的理性反應(yīng)就是做同樣的事情。比如,在“硬幣配對(duì)”博弈中,當(dāng)選擇A和B的策略概率相等時(shí),就是一種混合策略的納什均衡。
納什在他的論文中提出了兩種關(guān)于均衡的想法:一種基于理性,一種基于統(tǒng)計(jì)人群。
在理性解釋下,玩家們被認(rèn)定為理性的,而且知曉游戲的全部信息,包含其他玩家的選擇偏好,而且這些消息都是眾所周知的。由于所有的玩家都了解彼此的選擇策略和偏好,所以也能為所有的策略計(jì)算其收益,得到最佳策略。如果游戲只玩一次且所有的玩家都期望相同的納什均衡(高收益),那么沒有人會(huì)想要改變自己的策略。
基于統(tǒng)計(jì)人群的假設(shè)中,納什指出:不必假設(shè)玩家完全了解游戲的信息,或者有能力和意愿進(jìn)行復(fù)雜的推理過程。這是由于“假設(shè)在游戲的每個(gè)位置都有一群玩家,隨著時(shí)間變化,會(huì)有隨機(jī)玩家參與游戲。如果有玩家用一個(gè)穩(wěn)定的平均頻率來選用純策略,那么這個(gè)穩(wěn)定的平均頻率就是混合策略納什均衡。”(納什,1950c)。
正如哈羅德·庫恩后來寫道:
顯然諾貝爾評(píng)獎(jiǎng)委員會(huì)認(rèn)真考慮了這兩種解釋。古諾特可能會(huì)提出理性的解釋,但是對(duì)于生物學(xué)博弈來說很重要的統(tǒng)計(jì)解釋是完全原創(chuàng)的。雖然這三篇論文都對(duì)非合作博弈進(jìn)行了解釋,但只有這篇文章對(duì)這兩種解釋進(jìn)行了闡述。當(dāng)在諾貝爾研討會(huì)上被問及為什么這些解釋沒有被收錄到年報(bào)中,納什回應(yīng)道:“我不知道是不是為了《數(shù)學(xué)年鑒》而特意剪掉的。”
——摘自庫恩等人的《約翰·納什傳》(The Essential John Nash,2002)
不同于電影中的描述,傳記作者西爾維亞·納薩爾寫道:納什在普林斯頓大學(xué)讀研究生時(shí)想到了這個(gè)想法,并研究了游戲策略和經(jīng)濟(jì)學(xué)談判的數(shù)學(xué)模型。正如納薩爾所寫:
“經(jīng)過與馮·諾伊曼會(huì)晤之后,納什在與大衛(wèi)·蓋爾的談話中說道:‘我想我已經(jīng)找到了可以概括馮·諾伊曼的最小-最大定理的一種方法,基本思想是在兩人的零和博弈中,最好的策略是…整個(gè)理論都基于此。它適用于任何數(shù)量的人,并不局限于零和博弈’?!?/span>
——引自西爾維亞·納薩爾的《美麗的心靈》(A Beautiful Mind)(1998年)
納什和大衛(wèi)·蓋爾的對(duì)話在1995年由蓋爾轉(zhuǎn)述給納薩爾。納什當(dāng)時(shí)在研究所謂的“談判問題”(bargaining problem),其中兩個(gè)人都有機(jī)會(huì)互惠互利,但是任何單方面(未經(jīng)同意)采取的行為都不會(huì)影響另一方的利益。想想經(jīng)典的“切蛋糕和選擇協(xié)議”,一方切蛋糕,另一方優(yōu)先選擇自己想要的部分,這種模式提供了所謂的無嫉妒的切蛋糕模式。
就像納薩爾所寫的那樣,相比于納什新結(jié)論的應(yīng)用價(jià)值,蓋爾對(duì)更對(duì)其數(shù)學(xué)價(jià)值著迷,他在1995年寫道:“數(shù)學(xué)是如此之美?!边@在數(shù)學(xué)上是正確的。
“蓋爾意識(shí)到,相對(duì)于馮·諾依曼的零和博弈,納什的想法更適用于更廣泛的現(xiàn)實(shí)世界。”他有一個(gè)可以推廣到談判的概念。
——摘錄,西爾維亞·納薩爾的《美麗的心靈》(A Beautiful Mind,1998)
蓋爾還起草給美國國家科學(xué)院,幫助納什獲得其結(jié)果的榮譽(yù)。所羅門·萊夫謝茨代表他們提交了這份報(bào)告。1950年1月,《美國國家科學(xué)院院刊》的第36卷刊登了這份不到一頁的內(nèi)容,題為《N人博弈中的均衡點(diǎn)》(Equilibrium points in N-person games)。
 納什(1950b)。N人博弈中的均衡點(diǎn)。美國國家科學(xué)院院刊36(1)。
納什(1950b)。N人博弈中的均衡點(diǎn)。美國國家科學(xué)院院刊36(1)。
納什的論文最終催生了三篇期刊論文和一項(xiàng)諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)(1994年)。
這三篇文章包含了納什均衡存在的三種不同證明。第一個(gè)題為“N人博弈中的均衡點(diǎn)”(1950b)的是納什和蓋爾為美國國家科學(xué)院院刊編寫的筆記。第二篇叫做《非合作博弈》(1951年),發(fā)表在《數(shù)學(xué)年鑒》 54卷第2期上。在《計(jì)量經(jīng)濟(jì)學(xué)》第21期上發(fā)表的《兩人合作游戲》(1953年)中,納什將其關(guān)于談判問題的工作(Nash, 1950a)擴(kuò)展到了“威脅”可以發(fā)揮作用的更廣泛的情況中(Kuhn et al, 2002)。
就在1994年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)于10月11日公布的幾周前,兩位數(shù)學(xué)家——哈羅德·W·庫恩和小約翰·福布斯·納什——在梅多湖附近的療養(yǎng)院看望了他們的老師——將近90歲,臥病不起的阿爾伯特·W·塔克。納什先生已經(jīng)好幾年沒有和他的導(dǎo)師說過話了。從庫恩離席的一個(gè)小時(shí)中,他們就數(shù)論展開了討論。
當(dāng)納什先生走出房間后,庫恩先生回來告訴塔克先生一個(gè)驚人的秘密:納什先生不知道,瑞典皇家科學(xué)院打算對(duì)納什在1949年于塔克先生門下做出的對(duì)經(jīng)濟(jì)學(xué)巨大的革命性貢獻(xiàn),授予他諾貝爾獎(jiǎng)。這個(gè)獎(jiǎng)是個(gè)奇跡。
——納薩爾 1994
1994年10月11日,諾貝爾頒獎(jiǎng)委員會(huì)宣布,將把1994年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)授予約翰·福布斯·納什博士,以表彰他在非合作博弈理論中對(duì)均衡的開創(chuàng)性分析:
約翰·福布斯·納什介紹了合作博弈(可以達(dá)成有約束力的協(xié)議)和非合作博弈(不可能達(dá)成有約束力的協(xié)議)之間的區(qū)別。納什提出了非合作博弈的均衡概念,后來被稱為納什均衡。

哈羅德·庫恩(左)和納什(右)