|
原文作者:陶哲軒,加州大學(xué)洛杉磯分校數(shù)學(xué)教授,2006年菲爾茲獎(jiǎng)得主。 譯文作者:念琦,哆嗒數(shù)學(xué)網(wǎng)翻譯組成員,就讀于東北師大附中。
微信、手機(jī)QQ搜索關(guān)注 DuoDaaMath 每獲得更多數(shù)學(xué)趣文
注:以下是對我做了一些評分工作之后產(chǎn)生的新想法和有關(guān)計(jì)算的記錄。這個(gè)類型的問題可能已經(jīng)在某些文獻(xiàn)中被研究過了;我很樂意了解任何相關(guān)的資料。
假設(shè)一次考試中有N道判斷對錯(cuò)題,每道題的答案是隨機(jī)的,即答案是“對”和“錯(cuò)”的概率相等,并且不同的問題之間沒有關(guān)聯(lián)。假設(shè)參加考試的學(xué)生必須用“對”或“錯(cuò)”回答每一道題(不允許跳過任何一道題)。
那么我們很容易知道如何評分:只要數(shù)一數(shù)每個(gè)同學(xué)正確回答了多少道題(也就是每道題回答正確得一分,回答錯(cuò)誤不得分),并將這個(gè)數(shù)字k作為考試成績即可。
更普遍的情況是,我們將每道回答正確的題的得分記為A,每道回答錯(cuò)誤的題的得分記為B(通常是一個(gè)負(fù)數(shù)),那么總分將是 Ak+B(N-k)。只要A>B,這種評分方案就相當(dāng)于對前一種直接把k作為總分的模式進(jìn)行了改變比例的變換,并且同樣可以達(dá)到評價(jià)學(xué)生和鼓勵(lì)學(xué)生盡可能多地正確回答問題的目的。
然而事實(shí)上,學(xué)生很可能不能絕對確定每個(gè)問題的答案。
我們可以采取一個(gè)概率模型,即對于一個(gè)給定的學(xué)生S和一個(gè)給定的問題n,學(xué)生S認(rèn)為問題n的答案為“對”的概率是p(S,n),而答案為“錯(cuò)”的概率是1-p(S,n),其中0≤p(S,n)≤1,p(S,n)可以被看作一個(gè)衡量學(xué)生S對這個(gè)問題的答案的自信程度的量(若p(S,n)趨近于1,則S對于答案是“對”有信心,反之若p(S,n)趨近于0,則S對于答案是“錯(cuò)”有信心);為了簡化問題我們假定在這個(gè)概率模型中,每個(gè)問題的答案都是相互獨(dú)立的隨機(jī)量。
考慮這個(gè)模型,并且假設(shè)學(xué)生S希望最大化自己的得分,我們很容易發(fā)現(xiàn)S回答問題的最優(yōu)策略是當(dāng)p(S,n)>1/2時(shí)回答“對”,當(dāng)p(S,n)<1/2時(shí)回答“錯(cuò)”。(如果p(S,n)=1/2,S可以任意選擇答案。)
[注意:這里的“自信程度”不是統(tǒng)計(jì)學(xué)中的術(shù)語“置信度”,而是一個(gè)描述主觀概率的非正式用語。]
就現(xiàn)狀來說這樣還不錯(cuò),但是對于評估學(xué)生究竟掌握知識(shí)到何種程度的目的,它只提供了一些有限的信息,尤其是我們不能直接看到學(xué)生對每道題的自信程度p(S,n)。
舉例來說,假設(shè)S在10道題中回答正確了7道,那是因?yàn)樗蛩_實(shí)知道這七道題的答案,還是因?yàn)樗蛩龑@十道題作出了合理推測,使得最終的正確率略高于隨機(jī)猜測的正確率而達(dá)到70%呢?看起來如果學(xué)生只被允許回答“對”和“錯(cuò)”,我們沒有辦法辨別這兩種情況。
但如果學(xué)生可以給出概率性的答案呢?也就是說,對于給定的問題n,學(xué)生不是只能回答“對”或“錯(cuò)”,而是可以給出一個(gè)如“答案是‘對’的可能性為60%”(因此答案是“錯(cuò)”的可能性為40%)的回答。這樣的回答使我們更加了解學(xué)生掌握知識(shí)的程度;更重要的是,理論上我們將可以確切地知道學(xué)生對每道題的自信程度p(S,n)。
但是現(xiàn)在,如何評分變得難以確定了。假設(shè)100%確信正確答案的回答得一分,60%確信正確答案的回答應(yīng)該得多少分?60%確信錯(cuò)誤答案(等同于40%確信正確答案)又應(yīng)該得多少分?
數(shù)學(xué)上,我們可以選擇評分函數(shù)f:[0,1]→R,當(dāng)學(xué)生對正確答案給出的可能性為p時(shí),得分為f(p)。例如,如果學(xué)生認(rèn)為“對”的可能性為60%(因此“錯(cuò)”的可能性為40%),在這個(gè)評分方案下,如果正確答案是“對”,學(xué)生的得分為f(0.6),如果正確答案是“錯(cuò)”,得分為f(0.4)。我們的問題是:在這種情況下最合適的函數(shù)f是什么?
直觀地,我們認(rèn)為f應(yīng)該單調(diào)遞增——對于正確答案有較高自信的學(xué)生應(yīng)該得到比對正確答案自信較低學(xué)生更高的分?jǐn)?shù)。另一方面,后一種學(xué)生也應(yīng)該得到一部分分?jǐn)?shù)。一種想法是采用線性的函數(shù)f(p)=p,即對正確答案給出60%自信的學(xué)生將得到0.6分。但這是最好的選擇嗎?
為了使這個(gè)問題在數(shù)學(xué)上更明確,我們需要一個(gè)客觀的標(biāo)準(zhǔn)來評價(jià)評分方案。這里可以采用的一種標(biāo)準(zhǔn)是是否避免了不正當(dāng)獎(jiǎng)勵(lì)。
如果一個(gè)評分方案設(shè)計(jì)得不好,學(xué)生最終可能會(huì)夸大或故意少說自己對答案的自信程度,以此提高自己的(期望)成績:對于一個(gè)學(xué)生,一道題的最優(yōu)回答q(S,n)可能與其主觀的自信程度p(S,n)不同。因此我們可以設(shè)計(jì)一個(gè)總能使得q(S,n)=p(S,n)的評分方案,從而激勵(lì)學(xué)生真實(shí)地寫下他或她對此題的自信程度。
這是對評分函數(shù)f的一個(gè)明確約束。如果學(xué)生S認(rèn)為問題n的答案為“對”的可能性為p(S,n),答案為“錯(cuò)”的可能性為1-p(S,n),而作答時(shí)回答答案是“對”的可能性為q(S,n)(因此“錯(cuò)”的可能性為1-q(S,n)),學(xué)生對這道題得分的期望為
為了使這個(gè)期望最大化(假設(shè)函數(shù)f可導(dǎo):在一個(gè)部分給分的評分方案中這是一個(gè)合理的假設(shè)),學(xué)生會(huì)執(zhí)行對獨(dú)立變量q(S,n)求導(dǎo)并使結(jié)果為零的策略,得到
為了避免不正當(dāng)獎(jiǎng)勵(lì),期望的最大值應(yīng)在q(S,n)=p(S,n)時(shí)取到,因此我們有
對于所有0≤p(S,n)≤1成立。這要求函數(shù)p→pf'(p)為一常量。(嚴(yán)格地說,應(yīng)是要求函數(shù)p→f'(p)關(guān)于p=1/2對稱;但是如果將問題推廣到不止兩個(gè)選項(xiàng)的多選題的情況,對于只與正確選項(xiàng)的自信程度有關(guān)的評分方案,同樣的分析將得出pf'(p)必為一與p無關(guān)的常量的結(jié)論;這個(gè)計(jì)算留給感興趣的讀者完成。)
也就是說,f(p)應(yīng)為Alogp+B的形式,其中A,B為常數(shù);根據(jù)單調(diào)性,A為正數(shù)。如果我們規(guī)定f(1/2)=0(即“對”和“錯(cuò)”的自信程度各占50%時(shí)不得分)以及f(1)=1,我們就得到了評分方案
因此,如果一個(gè)學(xué)生認(rèn)為答案是“對”的可能性為p,答案是“錯(cuò)”的可能性為1-p,如果正確答案是“對”,他或她將得到
的分?jǐn)?shù),如果正確答案是“錯(cuò)”,他或她將得到
的分?jǐn)?shù)。下表中的值可用于說明這種評分方案:
我們注意到對于錯(cuò)誤答案自信程度很高時(shí)懲罰會(huì)很嚴(yán)重;尤其是,學(xué)生會(huì)避免回答對某個(gè)答案有100%的自信,除非他或她真的絕對確信自己的答案。
在這個(gè)評分方案下,若學(xué)生S對每個(gè)問題n的回答是答案為“對”的可能性為p(S,n),答案為“錯(cuò)”的可能性為1-p(S,n),則總分為
這個(gè)分?jǐn)?shù)也可以被寫作
其中,
是給定正確答案的情況下學(xué)生S的主觀概率模型(即學(xué)生S的答案)的似然函數(shù)。因此這里的評分系統(tǒng)還有一種對數(shù)似然函數(shù)的解釋。它激勵(lì)學(xué)生使自己的主觀概率的正確可能性最大化,這與統(tǒng)計(jì)學(xué)中的標(biāo)準(zhǔn)做法(最大似然法)一致。
根據(jù)貝葉斯概率的觀點(diǎn),學(xué)生的分?jǐn)?shù)可以被看作對學(xué)生的主觀概率模型為正確(接近正確答案)的后驗(yàn)概率比先驗(yàn)概率高出多少的(對數(shù)尺度下的)量度。
我們可以用上述的評分方案評估對二元事件的預(yù)測,例如對于即將到來的只有兩名候選人的選舉,就可以在事后看看各預(yù)測者的預(yù)言起了多大作用。
這樣做會(huì)遇到的一個(gè)困難是很多預(yù)測都不會(huì)給出一個(gè)明確的概率,而如果對任何并非完全確定的預(yù)測給出了默認(rèn)100%的主觀概率,只要其中任意一個(gè)預(yù)測錯(cuò)誤,就必然產(chǎn)生-∞的得分。
但是如果預(yù)測者拒絕給出明確的概率,或許我們可以設(shè)計(jì)一個(gè)默認(rèn)的主觀概率p,并且(選擇一些合適的該預(yù)測者做出的預(yù)測作為“訓(xùn)練樣本”)找到使該預(yù)測者得分最高的p值。這個(gè)值作為默認(rèn)概率可以被用于該預(yù)測者此后做出的任何預(yù)測。
以上的評分方案很容易推廣到多選題的情況。但是我遇到的一個(gè)困難是如何處理不確定性,也就是學(xué)生甚至無法給出一道題的答案為“對”或“錯(cuò)”的可能性的情況。
這時(shí),允許學(xué)生空題(也就是回答“我不知道”)是很自然的;更加高級(jí)的選項(xiàng)是允許學(xué)生以一個(gè)自信程度的區(qū)間作答(例如“我認(rèn)為答案為‘對’的可能性在50%到70%之間”)。
但是對此我還沒有一個(gè)很好的評分方案;一旦學(xué)生的主觀概率模型中出現(xiàn)不確定性,由于“不確定的不確定概率”,最大化學(xué)生分?jǐn)?shù)的期望的問題就會(huì)是不適定的,因此之前使用的判斷是否避免了不正當(dāng)獎(jiǎng)勵(lì)的標(biāo)準(zhǔn)也不再適用了。
|
|
|