|
摘要:任何一組考試題目或考試任務(wù),都可以得到一個“正確回答數(shù)”或“正確回答比例”,都可以得到一個“分?jǐn)?shù)”。但是,并不是任何一個分?jǐn)?shù)都可以根據(jù)考試的目的做出解釋,都可以被賦予“意義”,都可以成為決策的合理依據(jù)。本文探討了與分?jǐn)?shù)解釋有關(guān)的一些問題,指出分?jǐn)?shù)解釋的依據(jù)是工作分析和效度研究,指出分?jǐn)?shù)等值的重要性。
關(guān)鍵詞:測驗(yàn) 分?jǐn)?shù) 分?jǐn)?shù)解釋
任何一組考試題目或考試任務(wù),都可以得到一個“正確回答數(shù)”或“正確回答比例”,都可以得到一個“分?jǐn)?shù)”。但是,并不是任何一個分?jǐn)?shù)都可以根據(jù)考試的目的做出解釋,都可以被賦予“意義”,都可以成為決策的合理依據(jù)。
對于一個高信度的考試來說,80分的意義是“我們有95%的把握說該考生的真分?jǐn)?shù)在75—85分之間”。對于一個信度不高的考試來說,80分的意義則可能是“我們有95%的把握說該考生的真分?jǐn)?shù)在60—100分之間”。
對于一個高效度的考試來說,我們可以很有把握地說“高分者必高能”。對于一個效度不高的考試來說,則可能像今天的許多考試那樣遭到“高分低能”的批評。中國歷史上的“八股考試”就曾經(jīng)遭到近代許多進(jìn)步思想家們“高分低能”的猛烈攻擊。
考試的信度和效度是對分?jǐn)?shù)進(jìn)行解釋的基礎(chǔ),是賦予分?jǐn)?shù)以意義的前提。即使是一個高信度、高效度的考試,也不一定具有意義。例如,在一個大學(xué)畢業(yè)生求職簡歷中的學(xué)習(xí)成績單上寫著“現(xiàn)代漢語80分”。即使他所參加的“現(xiàn)代漢語”考試具有很高的信度和效度,根據(jù)他的這個成績,我們也很難判斷他的“現(xiàn)代漢語”課程學(xué)得究竟如何,更不用說據(jù)此去推測他的現(xiàn)代漢語水平的高低。如果任課老師評分政策比較嚴(yán)格,他這門課程可能學(xué)得很好;如果任課老師評分政策比較寬松,他這門課程可能學(xué)得并不好。或者說,我們從這個分?jǐn)?shù)中的到的有關(guān)該求職者的評價信息很有限。分?jǐn)?shù)中包含信息很少的原因是缺乏必要的參照系。
HSK(商務(wù))、HSK(旅游)、HSK(文秘)、HSK(少兒)等HSK專項(xiàng)考試的開發(fā)工作已經(jīng)啟動。建立合理的、豐富的分?jǐn)?shù)解釋系統(tǒng)是專項(xiàng)考試開發(fā)的重要內(nèi)容之一。為了對考試分?jǐn)?shù)做出合理的解釋,提高考試的信度、效度是基礎(chǔ)。同時,還需要為分?jǐn)?shù)解釋提供一個合理的參照系。本文將討論幾個與分?jǐn)?shù)參照系有關(guān)的問題。
一、常模參照與標(biāo)準(zhǔn)參照
根據(jù)評價參照系的不同,可以將考試劃分為常模參照性(norm
referenced)考試和標(biāo)準(zhǔn)參照性(criterion
referenced)考試。常模參照性考試的評價參照系是一組人的平均水平。這組人通常是考試的目標(biāo)團(tuán)體的一個具有代表性的樣本。常模參照性考試關(guān)注的問題是“他在哪兒”,關(guān)注考生在一組人中的相對位置,通常用于對考生的排隊(duì)和擇優(yōu)。常模參照性評價通過將某一考生與一組考生相比較而對考生的水平做出評價,是一種相對評價。智力測驗(yàn)、高等學(xué)校入學(xué)考試等屬于典型的常模參照性考試。
1963年R.Glaser首先提出了標(biāo)準(zhǔn)性參照考試的概念。標(biāo)準(zhǔn)參照性考試的評價參照系是一組知識和技能,是一組需要完成的任務(wù),因此,標(biāo)準(zhǔn)參照性考試也可以被視為“基于任務(wù)(task
based)”的考試。標(biāo)準(zhǔn)參照性考試關(guān)注的問題是“他能做什么(can
do)”,關(guān)注考生所具有的知識和技能,關(guān)注考生所能夠完成的任務(wù)。標(biāo)準(zhǔn)參照性考試通過將考生所具有的知識技能水平與考試目的所要求的知識技能水平相比較,對考生的水平做出評價,是一種絕對評價。畢業(yè)考試、任職資格考試、執(zhí)照考試等屬于標(biāo)準(zhǔn)參照性考試。在這些考試中,如果全體考生都達(dá)到了標(biāo)準(zhǔn),則可以全部予以接受,如果全體考生都未達(dá)到標(biāo)準(zhǔn),則可以全部予以拒絕。
一般說來,當(dāng)考試對象總體的范圍比較清楚時,適于采用常模參照性考試,例如,智力測驗(yàn)的對象是某一年齡階段的兒童,總體比較容易界定;當(dāng)考試所包含的知識、能力范圍比較清楚時,適于采用標(biāo)準(zhǔn)參照性考試,例如,掃盲測驗(yàn)所包含的知識范圍是一定數(shù)量的漢字,范圍比較容易界定。
在由美國教育研究協(xié)會(AERA)、美國心理學(xué)會(APA)和美國國家教育測量學(xué)會(NCME)等三個機(jī)構(gòu)聯(lián)合頒布的《教育與心理測驗(yàn)標(biāo)準(zhǔn)》1999年最新版中說:“一些量表分?jǐn)?shù)主要用于解釋常模參照性測驗(yàn),另一些量表分?jǐn)?shù)主要用于解釋標(biāo)準(zhǔn)參照性測驗(yàn)成績。在實(shí)踐中,二者并非總是截然分開的。一個測驗(yàn)分?jǐn)?shù)可以同時產(chǎn)生標(biāo)準(zhǔn)參照性和常模參照性的量表。例如,最初可能通過刻畫某人在團(tuán)體中的位置而建立起一個常模參照性的分?jǐn)?shù)量表,一段時間以后,隨著研究的深入和經(jīng)驗(yàn)的增加,人們對不同的量表分?jǐn)?shù)等級所反映的能力有了進(jìn)一步的理解。這時,對分?jǐn)?shù)量表也可以做出標(biāo)準(zhǔn)參照的解釋。另一方面,一個教育評估的結(jié)果可以按順序排列的熟練程度等級量表進(jìn)行報告,不同等級可以通過描述不同水平的學(xué)生可以完成的任務(wù)來定義,這是一個標(biāo)準(zhǔn)參照性量表。一旦以這種標(biāo)準(zhǔn)參照的等級分?jǐn)?shù)報告了一個州中某一年級(如八年級)的全體學(xué)生的評估結(jié)果后,這一等級分?jǐn)?shù)也傳達(dá)了有關(guān)考生在群體中相對位置的信息?!保ǖ?0頁)
筆者認(rèn)為,“常模參照——標(biāo)準(zhǔn)參照”僅僅是刻畫考試特征的一個維度(如下圖),在實(shí)際的考試實(shí)踐中,幾乎不存在純粹的常模參照性考試或標(biāo)準(zhǔn)參照性考試,每個考試都處在這一維度上的一點(diǎn),有的靠近“常模參照”一端,有的靠近“標(biāo)準(zhǔn)參照”一端。即使是典型的常模參照性考試如高考,也需要確定考試計劃,確定一定的考試內(nèi)
容,也包含一定的“標(biāo)準(zhǔn)參照”,否則,就不必請專家命題,只要靠統(tǒng)計選題就行了;即使是典型的標(biāo)準(zhǔn)參照性考試如掃盲測驗(yàn),“脫盲標(biāo)準(zhǔn)”的判定也離不開對人口文化背景這一“常?!钡膮⒄?。
許多考試的分?jǐn)?shù)都可以從多方面進(jìn)行解釋,都不一定只有一種參照系。筆者認(rèn)為,HSK主要是一種標(biāo)準(zhǔn)參照考試,原則上講,它的合格標(biāo)準(zhǔn)應(yīng)是能夠使用漢語完成交際任務(wù),能夠適應(yīng)漢語社會中的工作、學(xué)習(xí)和生活。在理想狀態(tài)下,合格標(biāo)準(zhǔn)的確定方式可以是:首先界定語言交際能力所包含的知識、技能范圍,界定這一范圍所包含的字、詞、語法、語言功能、文化等。之后,對總體做代表性抽樣,試卷應(yīng)是總體的一個具有代表性的樣本。根據(jù)考生在這一試卷上的表現(xiàn)可以推知他的語言交際能力。但是,
由于語言現(xiàn)象的復(fù)雜性,
準(zhǔn)確界定漢語知識能力范圍是一件很困難的事情。因此,
當(dāng)我們對考生的漢語水平進(jìn)行評價時,不僅需要以今天尚不夠清晰的、尚未能明確界定的“標(biāo)準(zhǔn)”作為參照系,還需要借助常模來建立參照系。不僅需要與“知識技能”比,而且需要與“人”比。
HSK目前采用的常模樣組是北京語言大學(xué)1988年的1、2年級學(xué)年結(jié)業(yè)時的留學(xué)生。在這個常模樣組中,
體現(xiàn)了當(dāng)時北京語言大學(xué)的教師們關(guān)于“具有初級和中級漢語水平”的看法,體現(xiàn)了教師們認(rèn)為“具有初級和中級漢語水平”的學(xué)生所應(yīng)該具有的語言知識和技能。
HSK專項(xiàng)考試的分?jǐn)?shù),也可以考慮從“常模”和“標(biāo)準(zhǔn)”兩個方面提供解釋信息,建立分?jǐn)?shù)解釋的參照系。從標(biāo)準(zhǔn)方面,可以在工作分析的基礎(chǔ)之上,界定從事商務(wù)、旅游、文秘等工作所需要的漢語方面的知識技能,從“能做什么”的角度對分?jǐn)?shù)進(jìn)行解釋。從常模方面,可以通過收集常模資料,建立從事商務(wù)、旅游、文秘工作的人的漢語水平的“常模”,從“處于何處”的角度對分?jǐn)?shù)進(jìn)行解釋。
二、基于工作分析之上的“能做”解釋
與HSK普通考試相比,HSK專項(xiàng)考試的分?jǐn)?shù)更需要回答“能做什么”的問題。為了對考試分?jǐn)?shù)做出“能做什么”的解釋,就需要進(jìn)行工作分析。
工作分析是對某一種職業(yè)活動進(jìn)行調(diào)查研究的過程。工作分析通常所要回答的主要問題包括:這項(xiàng)工作包含哪些活動(如腦力或體力,執(zhí)行或決策)?這些活動的復(fù)雜程度如何(如事務(wù)性或管理性,重復(fù)性或創(chuàng)造性)?這項(xiàng)工作的環(huán)境條件怎樣?工作中使用哪些技術(shù)手段(如算盤、計算機(jī)或局域網(wǎng))?這項(xiàng)工作的影響面多大(如影響全鄉(xiāng)、全縣、全省或全國)?工作活動對人的能力有哪些要求(如言語、數(shù)量或邏輯推理)?這項(xiàng)工作對人在教育程度方面有哪些要求(如中學(xué)、大專、本科或碩士)?這項(xiàng)工作對人的知識有哪些要求?這項(xiàng)工作對人的個性特征有哪些要求?不稱職的工作人員可能造成多大的損害?等等。
在工作分析的基礎(chǔ)之上,我們才可以操作化地界定商務(wù)、旅游、文秘等職業(yè)工作需要哪些漢語方面的知識和技能,才能據(jù)此確定HSK專項(xiàng)考試的內(nèi)容,才能對考試分?jǐn)?shù)做出“能作什么”的解釋。這方面,我們可以從美國教育測驗(yàn)服務(wù)中心(ETS)編制的“國際交流英語考試(Test
of English for International
Communication,簡稱TOEIC或托業(yè))”考試中得到一些借鑒?!巴袠I(yè)”是一個面向母語非英語者的英語水平考試,主要用于職業(yè)領(lǐng)域。在“托業(yè)”的開發(fā)和完善過程中,ETS進(jìn)行了大量的工作分析研究。例如,ETS向8601名在日本參加“托業(yè)”考試的人進(jìn)行了一項(xiàng)包含75個問題的調(diào)查問卷。問卷中包含了一系列“你能做什么”的問題,例如:你能聽懂售貨員對商品的價格介紹嗎?你能聽懂火車站內(nèi)關(guān)于火車乘坐站臺和出發(fā)時間的通知嗎?你能在餐廳點(diǎn)菜嗎?你能向醫(yī)生解釋自己的癥狀嗎?你能讀懂流行的小說嗎?你能給上司寫一份便函解釋請假的理由嗎?等等。在這份調(diào)查中,被調(diào)查者可以在每個問題的5種回答中選一種。這5種回答是:1.完全不能;2.能,但有很大困難;3.能,但有一些困難;4.能,但有一點(diǎn)困難;5.能。
經(jīng)過統(tǒng)計分析,ETS從這項(xiàng)調(diào)查中得到關(guān)于在“托業(yè)”中達(dá)到不同分?jǐn)?shù)水平的人“能做什么”的豐富信息,為“托業(yè)”增加了更多的分?jǐn)?shù)解釋信息。在“托業(yè)”的分?jǐn)?shù)解釋手冊中,詳細(xì)描述了各個分?jǐn)?shù)段的考生“能做什么”和“不能做什么”。例如,在關(guān)于聽力考試成績在355-425之間(滿分495分)的考生“能做什么”方面,列出了“理解簡單問題”、“理解社會情景”、“理解慢語速指示”等項(xiàng)目,在“能作但有一定困難”方面,列出了“理解同事關(guān)于工作的討論”、“在社交環(huán)境中自我介紹”、“談?wù)撟约旱穆殬I(yè)目標(biāo)”等項(xiàng)目,在“不能做”方面,列出了“不能對求職者進(jìn)行面試”等。
“托業(yè)”的主要使用者是全球的4000多家跨國企業(yè)。由于提供了豐富的分?jǐn)?shù)解釋信息,一些企業(yè)制定了自己的“托業(yè)”成績應(yīng)用標(biāo)準(zhǔn)。例如,一家企業(yè)自己規(guī)定,達(dá)到220分者可以擔(dān)任技術(shù)員,檔案管理員,送貨、收貨員,實(shí)驗(yàn)室技術(shù)員,電工等;達(dá)到470分者可以擔(dān)任接線員,簿記員,電腦操作員,訂單處理員,秘書等;達(dá)到730分者可以擔(dān)任工程師,客戶服務(wù)經(jīng)理,金融分析師,會計師,部門經(jīng)理,秘書主管,質(zhì)量監(jiān)督部門經(jīng)理等;達(dá)到860分者可以任職人事主管經(jīng)理,項(xiàng)目主管,研發(fā)工程師,經(jīng)理主管人員,高級會計師,高級投資經(jīng)理,市場拓展經(jīng)理等。
在專項(xiàng)HSK考試中,需要在工作分析的基礎(chǔ)之上,為測驗(yàn)分?jǐn)?shù)的使用者提供更豐富的關(guān)于考生“能做什么”的分?jǐn)?shù)解釋信息。
三、分?jǐn)?shù)等值
在任何證書考試中,保持試卷難度的穩(wěn)定性和保證分?jǐn)?shù)的公平性,都是考試編制者所需要考慮的問題。與普通HSK一樣,專項(xiàng)HSK也是水平考試和證書考試,必須保證在不同時間、使用不同試卷的考生可以得到公平的對待,必須保證證書的授予標(biāo)準(zhǔn)不隨試卷難度而起伏,必須保證不同試卷得分之間具有可比性。如果今年一個標(biāo)準(zhǔn),明年又一個標(biāo)準(zhǔn),如果對使用這一份試卷的人一個標(biāo)準(zhǔn),對使用另一份試卷的人又一個標(biāo)準(zhǔn),那么,不僅會大大影響HSK專項(xiàng)考試的信度和效度,而且會對測驗(yàn)分?jǐn)?shù)使用者的決策產(chǎn)生誤導(dǎo),會使考生受到不公平的對待。將測驗(yàn)不同版本的分?jǐn)?shù)統(tǒng)一在一個量表上的過程即等值(equating)。等值是測驗(yàn)公平性的保證。盡管我們在命題過程中總是盡量保持考試難度的穩(wěn)定性,但不同試卷之間在難度、信度、分?jǐn)?shù)分布方面的差別很難完全避免,這種差別會使考生受到不公平的對待。同時,實(shí)現(xiàn)題目等值是題庫建設(shè)的需要,是實(shí)現(xiàn)計算機(jī)化適應(yīng)性測驗(yàn)的前提。
HSK從1990年正式開考以來,一直堅持了統(tǒng)計等值。HSK所有的正式試卷都被等值到1989年曾經(jīng)在北京語言大學(xué)學(xué)生中施測過的一份標(biāo)準(zhǔn)試卷。
等值可以“共同組”的方式進(jìn)行,也可以“共同題”的方式進(jìn)行。所謂共同組方式,就是在很短時間距離內(nèi)向同一組考生施測兩份不同的試卷。由于考生是同一組人,兩份試卷的分?jǐn)?shù)差異就是試卷難度的差異。經(jīng)過換算,可以實(shí)現(xiàn)分?jǐn)?shù)等值。所謂共同題方式,就是在分別施測于兩組不同考生的兩份試卷中包含一些共同題。兩份試卷的成績之間總會有差距,由于考生不同,我們無法判斷造成成績差異的原因是考生水平的差異還是試卷難度的差異。由于有共同題,我們可以借助共同題來估計出兩組考生水平之間的差距,并進(jìn)而估計出兩份試卷難度之間的差距。
HSK所采用的是共同題設(shè)計,新試卷中都會包含約占試卷總題量六分之一的共同題。在1998年以前,我們采用Tucker觀察分?jǐn)?shù)線性等值模型對等值數(shù)據(jù)進(jìn)行處理。由于基于經(jīng)典測驗(yàn)理論的線性等值只能實(shí)現(xiàn)試卷之間的等值,不能實(shí)現(xiàn)不同題目之間的難度等值,不能滿足題庫建設(shè)的需要,從1998年開始,我們開始同時采用線性等值和基于項(xiàng)目反應(yīng)理論(IRT)的單參數(shù)Logictic模型進(jìn)行等值。
當(dāng)兩份不同試卷的實(shí)際難度差別較大時,好的等值方法一般都可以改進(jìn)分?jǐn)?shù)的可比性,可以減少測量誤差,可以保證考試的公平性。但是,由于等值中包含一系列很強(qiáng)的假設(shè),由于存在等值誤差,在兩份試卷的實(shí)際難度差異很小的時候,有可能統(tǒng)計等值處理不僅不能改進(jìn)分?jǐn)?shù)的可比性,而且會引入更大的測量誤差。在考試實(shí)踐中,我們并不知道不同試卷之間真實(shí)的難度差距,我們必須進(jìn)行等值處理,我們別無選擇。等值的意義類似于為測驗(yàn)“買保險”。在不發(fā)生交通事故的情況下,每年不菲的車輛保險就似乎得不償失。但一旦發(fā)生交通事故,車輛保險可以幫助我們避免大的損失。我們購買保險是為了預(yù)防發(fā)生交通事故,同樣,我們進(jìn)行統(tǒng)計等值處理是為了避免由于試卷難度相差過大而導(dǎo)致嚴(yán)重的不公平現(xiàn)象。(謝小慶,2000)
實(shí)現(xiàn)計算機(jī)化適應(yīng)性考試是大勢所趨。這一過程中,主要的難點(diǎn)就是等值。在計算機(jī)化適應(yīng)性考試中,由于根據(jù)考生的回答情況隨機(jī)向考生提供測試題目,不同考生回答一組相同題目的可能性很小。怎樣保證回答不同題目的考生可以得到公平的對待、可以得到具有可比性的分?jǐn)?shù)?這是實(shí)現(xiàn)計算機(jī)化適應(yīng)性考試的難點(diǎn)。
為了使HSK專項(xiàng)考試更好地滿足社會上不同的需要,將來可以考慮在“正式版”之外開發(fā)價格較低的“精簡版”?!熬啺妗痹谛哦确矫孢_(dá)不到“正式版”的水準(zhǔn),但簡便易行,價格便宜。一些關(guān)系到公司利益和人員命運(yùn)的重要決策,可以采用“正式版”。在一些考試成績對公司利益和個人命運(yùn)影響不是很大的時候,可以采用“精簡版”。例如,分?jǐn)?shù)僅僅是一個語言培訓(xùn)項(xiàng)目的分班依據(jù)時,可以采用“精簡版”。在“正式版”和“精簡版”之間,也存在一個分?jǐn)?shù)等值的問題。
解決好分?jǐn)?shù)等值問題,是開發(fā)HSK專項(xiàng)考試的一個難點(diǎn),也是對考試開發(fā)者的一個挑戰(zhàn)。
四、分?jǐn)?shù)及格線的合理設(shè)定
及格線(cut-off score或 cut
score)設(shè)定問題也是標(biāo)準(zhǔn)設(shè)定(standard
setting)問題。如果劃分等級和頒發(fā)證書,就需要決定將多少分確定為及格線。在許多職業(yè)領(lǐng)域的證書、執(zhí)照、資格考試中設(shè)立了及格分?jǐn)?shù)線,如醫(yī)生、護(hù)士、律師、建筑師、會計、電工等許多職業(yè)資格考試和執(zhí)照考試。設(shè)立及格線是為了保護(hù)病人、顧客、住戶和用戶們的利益,不具有相應(yīng)資格的從業(yè)人員可能對服務(wù)對象造成損害。及格線常??梢詾闇y驗(yàn)的使用者提供更豐富的分?jǐn)?shù)解釋信息,幫助他們做出更明智的人事決策。
在專項(xiàng)HSK開發(fā)過程中可能面臨的另一個挑戰(zhàn)是如何合理地設(shè)定及格分?jǐn)?shù)線。在通用HSK中,需要為發(fā)放不同等級的證書確立及格線。今天看來,這一及格線的設(shè)定不是很合理。根據(jù)教育部的有關(guān)規(guī)定,達(dá)到HSK3級才能進(jìn)入中國大學(xué)學(xué)習(xí)漢語授課的理工科專業(yè)課程。許多學(xué)校的經(jīng)驗(yàn)顯示,這一及格線設(shè)定偏低。
在托福、托業(yè)考試中,沒有在分?jǐn)?shù)之外設(shè)定等級,不頒發(fā)證書,也就不存在設(shè)定及格線的問題。如果HSK專項(xiàng)考試不準(zhǔn)備劃分級別,不準(zhǔn)備頒發(fā)證書,也就不存在這個問題。相反,則需要認(rèn)真研究及格線的合理設(shè)定問題。
關(guān)于及格線設(shè)定的研究已經(jīng)長達(dá)幾十年,提出的設(shè)定方法已經(jīng)多達(dá)幾十種。這些方法大致可以分為兩類,一類是基于實(shí)證研究數(shù)據(jù)的方法,一類是基于專家經(jīng)驗(yàn)判斷的方法。
及格線可以根據(jù)收集的實(shí)證數(shù)據(jù)來確定。例如,導(dǎo)游人員漢語水平合格的及格線,可以根據(jù)一組具有代表性的在崗導(dǎo)游人員的漢語考試的平均分?jǐn)?shù)來確定,也可以根據(jù)一組導(dǎo)游培訓(xùn)課程中在讀學(xué)生的漢語考試的平均分?jǐn)?shù)來確定??梢钥吹?,在這些以實(shí)證數(shù)據(jù)確定及格線的過程中,也離不開專家的判斷,需要專家做出“哪些人可以算具備了導(dǎo)游需要的漢語水平”的判斷。
通常,及格線的確定基于專家的經(jīng)驗(yàn)判斷。這種判斷不能靠一、兩個專家“拍腦袋”產(chǎn)生,不能靠一、兩個專家“眉頭一皺、計上心來”,而需要通過一定的方式將眾多專家的判斷最終凝聚為一個及格分?jǐn)?shù)。
在及格線設(shè)定的過程中有兩個要素。第一是試卷。及格線是針對一份特定的試卷而言。脫離一份特定的試卷,談不到及格線。第二是專家經(jīng)驗(yàn)。及格線設(shè)定的依據(jù)是專家的經(jīng)驗(yàn)。
今天,在及格線設(shè)定中使用最廣泛的方法,是長期工作于ETS的心理測量學(xué)家安哥夫(W.H.
Angoff)于1971年提出的方法及其改進(jìn)方式。30年來,安哥夫本人和其他研究者對這一方法進(jìn)行了許多改進(jìn)。安哥夫方法要求專家們首先在心中形成一個假想的最低能力組,之后對考試的每一道題目進(jìn)行評估,估計最低能力組可以正確回答這道題的概率。經(jīng)過統(tǒng)計匯總,這些概率最后的總和就是我們需要的及格線。
安哥夫方法主要依賴專家評判。因此,實(shí)施這種方法的一個重要環(huán)節(jié)是專家的挑選和培訓(xùn)。只有保證參加評判者是真正的專家,保證專家領(lǐng)會了研究者的意圖,才能獲得預(yù)期的結(jié)果。
此外,及格線的設(shè)定還可以采用埃伯(Ebel)方法、吉杰(Jaeger)方法、萊德爾斯基(Nedelsky)方法等。(武曉宇等)
在及格線的設(shè)定中,我們可能犯兩種錯誤。一種是標(biāo)準(zhǔn)過高,導(dǎo)致“錯拒”;一種是標(biāo)準(zhǔn)過低,導(dǎo)致“誤取”。任何一種錯誤幾率的降低都會增加另一種錯誤幾率的提高。對此,需要有清楚地認(rèn)識。
及格線的設(shè)定是有代價的。對于分?jǐn)?shù)臨近及格線的考生,出現(xiàn)錯誤決策的可能性是較大的。那些剛剛在分?jǐn)?shù)線以上的考生和那些剛剛在分線以下的考生之間可能僅僅有一、二分之差,很難說他們之間存在實(shí)質(zhì)的差別。對于這部分考生,可能造成不公平。對此,也需要有所考慮。
|