|
行政院國家科學(xué)委員會專題研究計(jì)畫 成果報(bào)告
大型教育測驗(yàn)等化設(shè)計(jì)及效果之研究 計(jì)畫類別: 個(gè)別型計(jì)畫 計(jì)畫編號: NSC94-2413-H-142-001- 執(zhí)行期間: 94 年08 月01 日至95 年07 月31 日 執(zhí)行單位: 國立臺中教育大學(xué)教育測驗(yàn)統(tǒng)計(jì)研究所 計(jì)畫主持人: 許天維 共同主持人: 劉湘川,郭伯臣 計(jì)畫參與人員: 王暄博、張鈺卿、張雅媛、楊智為 報(bào)告類型: 精簡報(bào)告 處理方式: 本計(jì)畫可公開查詢 中 華 民 國 95 年10 月30 日 1 壹、研究動機(jī)與計(jì)畫概述 國內(nèi)缺乏長期量化指標(biāo)和標(biāo)準(zhǔn)測量工具來檢視學(xué)生學(xué)習(xí)成就的表現(xiàn)與差 異,以致無法確實(shí)瞭解課程實(shí)施之成效,亦不利於課程發(fā)展之進(jìn)行與相關(guān)教育政 策之研擬。隨著國際互動日益密切,國內(nèi)急需建置一套完整且客觀的學(xué)生學(xué)習(xí)成 就資料庫,以利客觀且量化的比較。因此,教育資料庫的建立普遍受到重視,而 目前國內(nèi)正建置中的教育資料庫主要有「臺灣教育長期追蹤資料庫(TEPS)」與 「臺灣高等教育資料庫之建置及相關(guān)議題之探討」兩類,卻無針對全國國民小學(xué) 學(xué)生學(xué)習(xí)成效資料庫之建置。因此,教育部於2004 年推動「臺灣學(xué)生學(xué)習(xí)成就 評量資料庫之建置計(jì)畫」,欲建置完善的長期追蹤資料庫,以追蹤學(xué)生學(xué)習(xí)的成 果並分析其變遷趨勢,進(jìn)而檢視目前國家教育體制與政策實(shí)施是否完善。 TASA 計(jì)畫中針對目前國內(nèi)國小四年級、六年級、國中二年級、高中二年級 以及高職二年級學(xué)生,進(jìn)行跨年級、跨學(xué)科之學(xué)生學(xué)習(xí)成就長期性資料庫的建 置,以便透過資料所衍生的訊息,提供教育政策參考以及國內(nèi)專家學(xué)者或?qū)W術(shù)單 位進(jìn)行基礎(chǔ)性的研究。計(jì)畫中以能力指標(biāo)為基準(zhǔn),欲建立同年級不同測驗(yàn)及不同 年級不同測驗(yàn)之量尺,然而,在進(jìn)行測驗(yàn)等化及題庫建製時(shí),容易遭遇到的困難 有: 1. 受試者人數(shù)有限,受測時(shí)間有限; 2. 同年級與不同年級測驗(yàn)間之能力量尺連結(jié); 3. 命題範(fàn)圍廣大,必須施測大量的試題,方可涵蓋欲測量之範(fàn)圍。 此外,為了滿足此一目標(biāo)所建立之題庫,需涵蓋不同認(rèn)知層次及不同難度, 試題數(shù)量將無法由單一受試學(xué)生於短時(shí)間內(nèi)完成。在此限制下,若希望能滿足測 驗(yàn)之目標(biāo)、減輕受試學(xué)生之負(fù)擔(dān)、比較不同年級及不同年度之變化與擔(dān)保所有評 量內(nèi)容都能測驗(yàn)到,建立共同量尺,乃是不得不研究的課題。而共同量尺的建立, 必須藉助於測驗(yàn)等化(test equating)技術(shù)之配合,若等化之技術(shù)不被採用,則大型 測驗(yàn)將無法順利進(jìn)行。 測驗(yàn)等化的目的就是允許相同的測驗(yàn)在不同的形式下,測驗(yàn)分?jǐn)?shù)是可以被使 用與解釋的。由於不同受試者能力與不同試題難度控制不易,所以等化方法更為 重要。測驗(yàn)等化屬於ㄧ種統(tǒng)計(jì)和心理測量的方法及技術(shù),在相同的測量結(jié)構(gòu)下, 去調(diào)整並連結(jié)不同測驗(yàn)的測驗(yàn)分?jǐn)?shù),使得這些測驗(yàn)是可互相比較的。因此,透過 2 多重矩陣抽樣程序(multiple matrix sampling procedures),使得每位受試者僅需要 施測題庫中的部分試題,卻能達(dá)到作答不同測驗(yàn)學(xué)生之分?jǐn)?shù)可量尺化。 為了達(dá)到上述目的必須考慮不同測驗(yàn)間之連結(jié)與量尺之等化,而一般在進(jìn)行 測驗(yàn)等化時(shí),國內(nèi)外較常使用的兩種等化設(shè)計(jì)為:平衡不完全區(qū)塊設(shè)計(jì)(balanced incomplete block design, BIB)與定錨不等組設(shè)計(jì)(non-equivalent groups with anchor test design, NEAT)。此外,在建構(gòu)測驗(yàn)題庫時(shí),能力指標(biāo)個(gè)數(shù)的多寡會影響測驗(yàn) 試題總數(shù),而試題總數(shù)又會牽動BIB 與NEAT 等化設(shè)計(jì)的試題區(qū)塊數(shù),以致產(chǎn) 生不同BIB 與NEAT 設(shè)計(jì)的問題。其次,由於施測人數(shù)的多寡通常會影響測驗(yàn) 成本與等化品質(zhì)的兩難取捨,解決之道唯有透過模擬試驗(yàn)之結(jié)果來作決定,然而 在母群體未知的狀況下,本研究假設(shè)學(xué)生之能力分布為常態(tài)分布。職是之故,本 研究就能力分布與施測人數(shù)的不同以及為進(jìn)行垂直等化而牽動的不同定錨試題 數(shù)來進(jìn)行模擬試驗(yàn),以了解等化後所估計(jì)的能力值與試題參數(shù)誤差效果,期能了 解在最少人數(shù)下,估計(jì)誤差達(dá)到尚能接受的程度,並保持等化的效果,以提供決 策者決斷的訊息。 因此,計(jì)畫的主要目的為利用BIB 與NEAT 等化設(shè)計(jì),以測驗(yàn)資料模擬之 方式,比較等化後估計(jì)的能力值誤差與試題參數(shù)誤差效果。此外,為了建立同年 級不同測驗(yàn)及不同年級不同測驗(yàn)之量尺,計(jì)畫中將進(jìn)行水平及垂直測驗(yàn)之等化設(shè) 計(jì)。基本上,設(shè)定研究目的為: 1. BIB 及NEAT 設(shè)計(jì)於不同施測人數(shù)下水平等化效果; 2. BIB 及NEAT 設(shè)計(jì)於不同試題區(qū)塊數(shù)下水平等化效果; 3. BIB 及NEAT 設(shè)計(jì)於不同施測人數(shù)下垂直等化效果; 4. BIB 及NEAT 設(shè)計(jì)於不同試題區(qū)塊數(shù)下垂直等化效果; 5. BIB 及NEAT 設(shè)計(jì)於不同定錨試題數(shù)下垂直等化效果; 貳、文獻(xiàn)探討 本研究的目的在於探討不同的測驗(yàn)等化設(shè)計(jì),進(jìn)行測驗(yàn)等化所產(chǎn)生之等 化效果。因此,本章節(jié)將探討「測驗(yàn)等化的意義與種類」、「測驗(yàn)等化設(shè)計(jì)」、與 「試題反應(yīng)理論等化方法」之相關(guān)文獻(xiàn)。 3 一、測驗(yàn)等化的意義與種類 測驗(yàn)等化是利用統(tǒng)計(jì)方法,將受試者在某一測驗(yàn)的分?jǐn)?shù)轉(zhuǎn)換至另一測驗(yàn)分?jǐn)?shù) 量尺,以比較兩測驗(yàn)分?jǐn)?shù)關(guān)係的過程。這些測驗(yàn)的內(nèi)容及難度都極為相似,為了 用來測量相同的特質(zhì)或能力,因此,測驗(yàn)等化的目的在調(diào)整測驗(yàn)難度之差異而非 測驗(yàn)內(nèi)容之差異(Kolen & Brennan, 1995;吳裕益,民80)。而且,測驗(yàn)分?jǐn)?shù)等化 不受試題內(nèi)容和受試者能力分布的影響,但必須滿足:對稱性(symmetry)、相等 性(equity)、團(tuán)體不變性(group invariance property)、測驗(yàn)必須是單一向度 (unidimensionality of the tests)四項(xiàng)特性,等化才能進(jìn)行(Lord, 1980;Hambleton & Swaminathan, 1985;Kolen & Brennan, 1995)。 測驗(yàn)等化的種類可分為水平等化與垂直等化兩種,茲介紹如下: (一)水平等化 水平等化係指利用測驗(yàn)分?jǐn)?shù)等化之技術(shù),將兩個(gè)或兩個(gè)以上測量相同特質(zhì)、 相同能力的測驗(yàn),其原始分?jǐn)?shù)轉(zhuǎn)換之過程。這些測驗(yàn)是利用題庫分成數(shù)個(gè)類似平 行測驗(yàn)(parallel test)的題本,其目的是為了保護(hù)試題的安全性(test security)及減低 練習(xí)因素(practice effect)。然而,為了確定這些測驗(yàn)的結(jié)果能夠比較,必須利用 量尺等化(scale equating)的方法,將其轉(zhuǎn)換至同一量尺上,此一過程即稱為水平 等化。 水平等化的實(shí)施是當(dāng)某一種測驗(yàn)有數(shù)種不同形式的題本,而這些題本都是用 來測量某一特質(zhì),且受試者的能力分布與試題難度又相似時(shí),為了要比較不同題 本的分?jǐn)?shù),將透過等化程序建立題本之間的等化分?jǐn)?shù)(equating scores)。這些題本 經(jīng)由等化的過程,其測驗(yàn)成績即可在相同的量尺上進(jìn)行比較。水平等化也常應(yīng)用 在許多測驗(yàn)方面,例如:托福、GRE的考試就有多種複本測驗(yàn),可以進(jìn)行一年多 次的考試機(jī)會。 (二)垂直等化 垂直等化係指利用測驗(yàn)分?jǐn)?shù)等化之技術(shù),將兩個(gè)或兩個(gè)以上測量相同特質(zhì)、 相同能力的測驗(yàn),其原始分?jǐn)?shù)轉(zhuǎn)換之過程。垂直等化的實(shí)施是當(dāng)某一種測驗(yàn)有數(shù) 種不同形式的題本,而這些題本都是用來測量某一特質(zhì),但受試者的能力分布與 試題難度卻不相同時(shí),為了要比較不同題本的分?jǐn)?shù),透過等化程序而建立題本之 間的等化分?jǐn)?shù)(equating scores)。此一測驗(yàn),受試者的能力是屬於不同年齡或年級 的分配情形,如美國的加州成就測驗(yàn)(California Achievement Tests , CAT)、愛奧 4 華基本技能測驗(yàn)(Iowa Test of Basic Skills)等,即利用垂直等化進(jìn)行測驗(yàn)分?jǐn)?shù)間之 連結(jié)。 此外,若某一計(jì)畫之目的為長時(shí)間研究受試者的某種能力成長情形時(shí),等化 的議題將受到矚目,且水平及垂直等化是必須同時(shí)進(jìn)行的。而較著名的NAEP 大型測驗(yàn),藉由等化連結(jié)的成果,將受試者測驗(yàn)之分?jǐn)?shù)轉(zhuǎn)換到一個(gè)共同的量尺 上,以期作為教育者比較各州、各地區(qū)、各學(xué)校、甚至個(gè)人表現(xiàn)的評比依據(jù) (National Research Council, 1999;Kolen, 2000;陳煥文,民93)。目前國內(nèi)TASA 計(jì)畫,也是藉由等化連結(jié)的方法,將受試者測驗(yàn)的分?jǐn)?shù)轉(zhuǎn)換到同一上,以提供國 內(nèi)專家學(xué)者或?qū)W術(shù)單位進(jìn)行跨年級、跨學(xué)科、甚至跨年度的比較。因此,可知長 期追蹤之大型測驗(yàn),除了有助於建立相同年級及不同年級之量尺外,並可藉此量 尺分析來探究學(xué)生在各學(xué)科及不同年級之學(xué)習(xí)差異。 二、測驗(yàn)等化設(shè)計(jì) 測驗(yàn)等化設(shè)計(jì)指的是施測者收集等化資料的方法,依目的使用符合的設(shè)計(jì)。 常見的等化設(shè)計(jì)有單組設(shè)計(jì)、平衡對抗隨機(jī)組設(shè)計(jì)、等群組設(shè)計(jì)、試題預(yù)先等化 設(shè)計(jì)、平衡不完全區(qū)塊設(shè)計(jì)、定錨不等組設(shè)計(jì)等(王寶墉,民84;Kolen & Brennan, 1995)。以下茲介紹本研究所採用的BIB 與NEAT 等化設(shè)計(jì): (一) BIB 設(shè)計(jì) BIB 設(shè)計(jì)是將試題分成若干試題區(qū)塊,區(qū)塊間與區(qū)塊內(nèi)的試題皆不重複,受 試者只需接受若干試題區(qū)塊的試題,且不同受試者可能接受部分相同、完全相 同、或完全不同的試題區(qū)塊。最後,將所有受試者的作答反應(yīng)資料堆疊進(jìn)行等化 分析,以達(dá)到能力估計(jì)的目的。BIB 設(shè)計(jì)如表2-1(曾玉琳、王暄博、郭伯臣、許 天維,民95)。 表2-1 BIB 設(shè)計(jì) 題本序號 區(qū)塊(k1) 區(qū)塊(k2) 區(qū)塊(k3) S1 M1 M2 M4 S2 M2 M3 M5 S3 M3 M4 M6 S4 M4 M5 M7 S5 M5 M6 M1 S6 M6 M7 M2 S7 M7 M1 M3 表2-1為BIB設(shè)計(jì)的一個(gè)範(fàn)例,在此設(shè)計(jì)中,有7個(gè)題本(S1~S7);7個(gè)試題區(qū) 5 塊(M1~M7)。BIB設(shè)計(jì)中試題區(qū)塊序號的組合不重複,如:S1題本是由試題區(qū)塊 M1、M2、M4組合而成,則S2~S7題本就不會再出現(xiàn)試題區(qū)塊M1、M2、M4的組 合。 BIB 設(shè)計(jì)的優(yōu)點(diǎn)為試題區(qū)塊與題本(booklet)的配置方式,使用螺旋(spiral)式 排列方式,可使每一個(gè)試題區(qū)塊的施測次數(shù)相同(van der Linden, Veldkamp & Carlson, 2004;Nemhauser & Wolsey, 1999)。此設(shè)計(jì)在無作答時(shí)間(response time) 的限制情形下,必須滿足以下限制式: ∑= = t i is k x 1 , S s ,..., 1 = (2.1) ∑= ≤ S s is r x 1 , t i ,..., 1 = (2.2) ∑= ≥ S s ijs z 1 λ, t j i ,..., 1 = < (2.3) ijs js is z x x 2 ≥ + , t j i ,..., 1 = < , S s ,..., 1 = (2.4) 其中:t 指試題區(qū)塊數(shù); s 指題本代號, S s ,..., 1 = ; k 指每個(gè)題本配置的試題區(qū)塊數(shù),即區(qū)塊數(shù)目(number of blocks); r 指試題區(qū)塊在題本中出現(xiàn)的次數(shù); i 指題庫中個(gè)別區(qū)塊代號, t i ,..., 1 = ; j 指題庫中成對區(qū)塊中第二個(gè)區(qū)塊代號, N j ,..., 1 = ; λ指成對試題區(qū)塊出現(xiàn)在相同區(qū)塊位置的次數(shù); is x 指試題區(qū)塊與題本的配置組型,其中: { } 1 , 0 ∈ is x , t i ,..., 1 = , S s ,..., 1 = ; ijs z 指成對試題區(qū)塊與題本的配置組型, { } 1 , 0 ∈ ijs z , t j i ,..., 1 = < , S s ,..., 1 = 。 式子(2.1)代表每一個(gè)題本配置的試題區(qū)塊數(shù)目;式子(2.2)代表每一個(gè)試題區(qū) 塊在所有題本中出現(xiàn)的次數(shù);式子(2.3)代表成對試題區(qū)塊在所有題本中出現(xiàn)的次 數(shù);式子(2.4)代表成對試題區(qū)塊與組型的一致性。BIB 設(shè)計(jì)須符合式子(2.1)至(2.4) 的要求,求出符合的最佳解。 美國的NAEP 和荷蘭的PPON(Periodiek Peilingsonderzoek van het Onderwijs) 即依據(jù)BIB 設(shè)計(jì)的原則。這個(gè)設(shè)計(jì)假設(shè)題庫中的試題被區(qū)分為數(shù)個(gè)區(qū)塊,並利 用這些試題區(qū)塊編製成題本。在區(qū)分試題區(qū)塊的過程不為隨機(jī),但必須考量受試 6 者可以有足夠的時(shí)間完成所有的題目,且試題區(qū)塊數(shù)也要事先確定。最後題本根 據(jù)最小單位,經(jīng)由螺旋排序並束在一起(spiraled and bundled)的方式確保每一試題 區(qū)塊出現(xiàn)的次數(shù)均等,以減低順序因素。所以施測時(shí),必須依據(jù)排好的順序?qū)㈩} 本循序發(fā)給考生。另外,根據(jù)NAEP 1998 年的技術(shù)性報(bào)告中指出,每一試題在 施測時(shí),大約需要500 個(gè)測試樣本(Allen, Donoghue & Schoeps, 2001)。 BIB 設(shè)計(jì)有三項(xiàng)基本限制: 1. 每一個(gè)題本內(nèi)的試題區(qū)塊數(shù)要相同; 2. 試題區(qū)塊作結(jié)合以求出最小題本數(shù); 3. 每一個(gè)試題區(qū)塊在所有題本中出現(xiàn)的次數(shù)要相同。 然而,這只是BIB 設(shè)計(jì)必須符合的三項(xiàng)基本限制,但在實(shí)際設(shè)計(jì)時(shí),還需 考慮試題的內(nèi)容、形式及作答時(shí)間。 (二) NEAT 設(shè)計(jì) NEAT 設(shè)計(jì)內(nèi)包含兩個(gè)獨(dú)立的單組設(shè)計(jì),其設(shè)計(jì)方式為在兩組受試者的母群 體中,隨機(jī)抽取兩組受試者樣本(P 和Q)。其中,P 組受試者接受X 測驗(yàn),Q 組 受試者接受Y 測驗(yàn),且兩組受試者施測的時(shí)間不同。P 和Q 兩組受試樣本另 外須接受定錨試題A 測驗(yàn),通常定錨試題在兩樣本的測驗(yàn)順序是一樣的,以避 免順序因素的影響,而測驗(yàn)內(nèi)容和難度必須與X、Y 測驗(yàn)十分類似,其測驗(yàn)長度 相當(dāng)於一個(gè)分測驗(yàn)(von Davier, Holland, & Thayer, 2004;Dorans & Holland, 2000;Tianyou, 2005)。NEAT 設(shè)計(jì)如表2-1 (Kolen & Brennan,1995;von Davier, Holland, & Thayer, 2004)。 表2-1 NEAT 設(shè)計(jì) 受試者群 X測驗(yàn) Y測驗(yàn) 定錨測驗(yàn)A P V V Q V V “V”為受試者必須受測之測驗(yàn) NEAT 設(shè)計(jì)為常見的測驗(yàn)等化設(shè)計(jì),MCAS(Massachusetts comprehensive assessment system)即使用NEAT 設(shè)計(jì)進(jìn)行不同年度間學(xué)生之測驗(yàn)等化,因?yàn)樗?br>需要假設(shè)受試群體是隨機(jī)抽取,不必假設(shè)兩受試群體有相同的能力值。NEAT 設(shè) 計(jì)定錨試題內(nèi)容要盡可能相似且試題難度要相同,因?yàn)槎ㄥ^試題是用來調(diào)整兩個(gè) 不同能力之群體所造成的等化誤差(Petersen, Kolen & Hoover,1993)。 7 本研究測驗(yàn)等化設(shè)計(jì)即採用BIB 與NEAT 設(shè)計(jì)進(jìn)行模擬研究,此兩設(shè)計(jì)均 將試題分成若干試題區(qū)塊,使用每個(gè)題本配置若干個(gè)試題區(qū)塊來進(jìn)行施測。而最 大的差異在於,BIB 設(shè)計(jì)的每個(gè)試題區(qū)塊施測次數(shù)皆相同,且題本與試題區(qū)塊使 用螺旋式排列來進(jìn)行等化分析,使得部份題本無共同試題,依然可進(jìn)行等化分 析;NEAT 設(shè)計(jì)的每個(gè)試題區(qū)塊施測次數(shù)並不相同,且以每個(gè)題本中之共同試 題,作為等化分析之連結(jié)。 綜合上述,可知NEAT設(shè)計(jì)為一般常用的等化設(shè)計(jì),此設(shè)計(jì)每個(gè)題本必須有 共同試題才能進(jìn)行等化連結(jié);BIB設(shè)計(jì)則可利用無共同試題之題本進(jìn)行連結(jié)等 化。因此,本研究擬利用BIB設(shè)計(jì)以補(bǔ)NEAT設(shè)計(jì)不足,進(jìn)行BIB與NEAT設(shè)計(jì)等 化效果之比較。 三、試題反應(yīng)理論等化方法 試題反應(yīng)理論等化方法是利用不同組群受試者的反應(yīng)資料,推估試題參數(shù)值 和能力參數(shù)值,在經(jīng)過連結(jié)的過程,將參數(shù)值轉(zhuǎn)化到同一量尺上。其中較常用使 用的等化估計(jì)方法有同時(shí)估計(jì)法(concurrent estimation)及分離估計(jì)法(separate estimation),在分離估計(jì)法中,包含平均數(shù)法(mean method)、平均數(shù)與標(biāo)準(zhǔn)差法 (mean and sigma method)、特徵曲線法(characteristic curve method) (Hanson & Beguin, 2002;Haebara, 1980;Kolen & Brennan, 1995;Stocking & Lord, 1983)。 (一)同時(shí)估計(jì)法 同時(shí)估計(jì)法是藉由測驗(yàn)等化設(shè)計(jì)與IRT電腦軟體所提供之功能作連結(jié),將所 有測驗(yàn)之測驗(yàn)資料同時(shí)進(jìn)行試題校準(zhǔn),經(jīng)由校準(zhǔn)後,即能將所有測驗(yàn)之受試者能 力值與試題參數(shù)放置在相同量尺上。其主要的原理為:將測驗(yàn)等化設(shè)計(jì)測驗(yàn)題本 中之試題參數(shù)估計(jì)值同時(shí)對應(yīng)於相同能力量尺上。此方法比其他的等化方法利用 更多的試題參數(shù)訊息,包括了定錨試題之參數(shù)估計(jì)值(如鑑別度、難度、及猜測 度參數(shù)),與此定錨試題參數(shù)估計(jì)值之變異數(shù)共變數(shù)矩陣(variance-covariance matrix)(Mislevy & Bock, 1982)。 在等化的過程中,利用等化係數(shù)將不同測驗(yàn)題本之試題參數(shù)估計(jì)值轉(zhuǎn)化於相 同的量尺上時(shí),若所使用之等化係數(shù)估計(jì)值不甚正確,將產(chǎn)生等化誤差。然而, 使用同時(shí)估計(jì)法則可避免此種缺點(diǎn),並且能應(yīng)用最多試題訊息來完成等化。因 此,採用此方法將優(yōu)於以線性技術(shù)為基礎(chǔ)之等化方法,例如:特徵曲線法等 8 (Stocking & Lord, 1983;李源煌、楊玉女,民89)。本研究之BIB設(shè)計(jì)在試題參數(shù) 估計(jì)時(shí)也較適合使用同時(shí)估計(jì)法,且國內(nèi)外許多文獻(xiàn)亦證實(shí),採用同時(shí)估計(jì)法能 獲得較佳的精準(zhǔn)度(Hanson & Beguin, 2002;Kim & Cohen, 1998;陳煥文,民93)。 因此,在本研究之等化估計(jì)即採用同時(shí)估計(jì)法。 (二)分離估計(jì)法 分離估計(jì)法在進(jìn)行測驗(yàn)等化時(shí),是先分別估計(jì)不同測驗(yàn)之試題參數(shù),再利用 各測驗(yàn)間之定錨試題及試題參數(shù)量尺化的方法,將各測驗(yàn)量尺轉(zhuǎn)換在同ㄧ量尺上 進(jìn)行比較。以下茲介紹三種常見之試題參數(shù)量尺化方法: (一)平均數(shù)法 若有兩測驗(yàn)(X測驗(yàn)和Y測驗(yàn))需要等化,在平均數(shù)法中,利用兩測驗(yàn)定錨試 題之鑑別度參數(shù)及難度參數(shù)的平均數(shù),計(jì)算出量尺線性轉(zhuǎn)換的斜率α與截距β, 再將X測驗(yàn)分?jǐn)?shù)利用線性轉(zhuǎn)換至Y測驗(yàn)分?jǐn)?shù)對應(yīng)的分?jǐn)?shù)。其計(jì)算模式如下(Kolen & Brennan, 1995): ) ( ) ( Y X a a μ μ α= (2.5) ) ( ) ( X Y b b αμ μ β − = (2.6) 其中, a 參數(shù)指鑑別度參數(shù); b 參數(shù)指難度參數(shù); ) ( X a μ 、) ( Y a μ 為X及Y定錨測驗(yàn)參數(shù)a 之平均數(shù); ) ( X b μ 、) ( Y b μ 為X及Y定錨測驗(yàn)參數(shù)b 之平均數(shù)。 (二)平均數(shù)與標(biāo)準(zhǔn)差法 若有兩測驗(yàn)(X測驗(yàn)和Y測驗(yàn))需要等化,在平均數(shù)與標(biāo)準(zhǔn)差法中,利用兩測 驗(yàn)定錨試題之難度參數(shù)的標(biāo)準(zhǔn)差和平均數(shù),計(jì)算出量尺線性轉(zhuǎn)換的斜率α與截距 β,再將X測驗(yàn)分?jǐn)?shù)利用線性轉(zhuǎn)換至Y測驗(yàn)分?jǐn)?shù)對應(yīng)的分?jǐn)?shù)。其計(jì)算模式如下 (Kolen & Brennan, 1995): ) ( ) ( X Y b b σ σ α= (2.7) ) ( ) ( X Y b b αμ μ β − = (2.8) 其中,b 參數(shù)指難度參數(shù); ) ( X b μ 、) ( Y b μ 為X及Y定錨測驗(yàn)參數(shù)b 之平均數(shù); 9 ) ( X b σ 、) ( X b σ 為X及Y定錨測驗(yàn)參數(shù)b 之標(biāo)準(zhǔn)差。 (三)特徵曲線法 特徵曲線法是Haebara(1980)及Stocking & Lord(1983)提出,假設(shè)xk ξ 與yk ξ 為 受試者k 在X測驗(yàn)及Y測驗(yàn)的真分?jǐn)?shù),並求出兩真分?jǐn)?shù)差異之最小值,其計(jì)算模 式如下: ∑= = n i xi xi xi k xk c b a P 1 ) , , , ( θ ξ (2.9) ∑= = n i yi yi yi k yk c b a P 1 ) , , , ( θ ξ (2.10) ∑= − = N a yk xk N F 1 2 ) ( 1 ξ ξ (2.11) 其中,試題參數(shù)設(shè)定為: α xi yi a a = 、β α + = xi yi b b 及xi yi c c = , F 為兩真 分?jǐn)?shù)差異之最小值。 接著,利用Newton-Raphson 求出偏導(dǎo)數(shù)方程式,即可得兩真分?jǐn)?shù)的最小值。 0 = = β α d dF d dF (2.12) 特徵曲線法是利用三個(gè)試題參數(shù),因此,等化效果應(yīng)較佳(李文忠,民84)。 參、研究方法 一、共同變項(xiàng)設(shè)定 本研究利用電腦模擬建置題庫資料,探討B(tài)IB 與NEAT 設(shè)計(jì)進(jìn)行兩種不同 情況下之測驗(yàn)等化模擬。在共同變項(xiàng)設(shè)定為: 1. 每個(gè)題本施測題數(shù)為36 題; 2. 每個(gè)題本配置的試題區(qū)塊數(shù)為3 個(gè); 3. 每個(gè)年級施測人數(shù)為5460 人、7500 人及10000 人; 4. 每一個(gè)不同條件中,均重覆進(jìn)行50 次的資料模擬。 不同情況下之測驗(yàn)等化模擬變項(xiàng)之受試者能力值及試題參數(shù)分布會分布如 下: (一)水平等化之共同變項(xiàng)設(shè)定 10 1. 受試者群能力分布 能力分佈設(shè)定為截尾常態(tài)分布(truncated normal distribution),平均數(shù)為0,標(biāo) 準(zhǔn)差為1,將範(fàn)圍界定於3 ~ 3 − ,記為) 1 , 0 ( N 。 2. 試題參數(shù)分佈 (1) 鑑別度(discrimination)參數(shù):為截尾常態(tài)分佈,平均數(shù)為1,標(biāo)準(zhǔn)差為 0.25,將範(fàn)圍界定於5 . 1 ~ 5 . 0 ,記為) 25 . 0 , 1 ( N ; (2) 難度(difficulty)參數(shù):為截尾常態(tài)分佈,平均數(shù)為0,標(biāo)準(zhǔn)差為1,將範(fàn) 圍界定於3 ~ 3 − ,記為) 1 , 0 ( N ; (3) 猜測度(pseudochance)參數(shù):為截尾常態(tài)分佈,平均數(shù)為0.125,標(biāo)準(zhǔn)差 為0.0625,將範(fàn)圍界定於25 . 0 ~ 0 ,記為N(0.125,0.0625)。 (二)垂直等化之共同變項(xiàng)設(shè)定 1. 受試者群能力分布 垂直等化之受試者群能力分布,將其設(shè)定為H 年級與L 年級兩群,H 年級 代表年級較高之受試者,L 年級代表年級較低之受試者,進(jìn)行不同年級間量尺之 垂直等化。受試者群能力分布為: (1) H 年級:為截尾常態(tài)分布,平均數(shù)為1,標(biāo)準(zhǔn)差為3 / 2 ,將範(fàn)圍界定於 3 ~ 1 − ,記為) 3 / 2 , 1 ( N ; (2) L 年級:為截尾常態(tài)分布,平均數(shù)為1 − ,標(biāo)準(zhǔn)差為3 / 2 ,將範(fàn)圍界定於 1 ~ 3 − ,記為) 3 / 2 , 1 (− N 。 2. 試題參數(shù)分佈 (1) 鑑別度參數(shù):為截尾常態(tài)分布,平均數(shù)為1,標(biāo)準(zhǔn)差為0.25,將範(fàn)圍界 定於5 . 1 ~ 5 . 0 ,記為) 25 . 0 , 1 ( N ; (2) 難度參數(shù):為截尾常態(tài)分布,依不同年級而區(qū)分成,H 年級的) 3 / 2 , 1 ( N , 範(fàn)圍3 ~ 1 − 、L 年級的) 3 / 2 , 1 (− N ,範(fàn)圍1 ~ 3 − ; (3) 猜測度參數(shù):為截尾常態(tài)分布,平均數(shù)為0.125,標(biāo)準(zhǔn)差為0.0625,將範(fàn) 圍界定於25 . 0 ~ 0 ,記為) 0625 . 0 , 125 . 0 ( N 。 此外,本研究在不同年級中設(shè)定3題、6題及9題之定錨試題數(shù),以比較不同 定錨試題數(shù)對於不同等化設(shè)計(jì)之影響。 11 二、BIB 設(shè)計(jì) (一)水平等化之BIB 設(shè)計(jì) BIB設(shè)計(jì)必須符合下列條件: = ≤ − × × = − × = − × × = × 3 36 ) 1 ( 12 ) 1 ( ) 1 ( k k r k t k r t r k b λ 求出符合上式BIB設(shè)計(jì)參數(shù)如下表: 表3-1 BIB 模式之參數(shù)設(shè)定 等化設(shè)計(jì) b t k r λ BIB 26 13 3 6 1 此參數(shù)設(shè)定係依據(jù)van der Linden & Veldkamp & Carlson,於2004年發(fā)表的 「Optimizing Balanced Incomplete Block Designs for Educational Assessments」 中,26個(gè)題本、13個(gè)試題區(qū)塊的最佳BIB設(shè)計(jì),其設(shè)計(jì)的配置如下: 表3-2 BIB 設(shè)計(jì)表 區(qū)塊位置 區(qū)塊位置 題本序號 k1 k2 k3 題本序號k1 k2 k3 S1 M1 M10 M11 S14 M1 M4 M12 S2 M6 M8 M11 S15 M6 M10 M13 S3 M2 M6 M12 S16 M3 M7 M13 S4 M7 M9 M10 S17 M8 M9 M12 S5 M2 M7 M11 S18 M2 M4 M10 S6 M4 M6 M7 S19 M3 M5 M6 S7 M1 M7 M8 S20 M5 M8 M10 S8 M1 M6 M9 S21 M2 M5 M9 S9 M11 M12 M13 S22 M4 M9 M13 S10 M5 M7 M12 S23 M1 M5 M13 S11 M3 M9 M11 S24 M2 M8 M13 S12 M3 M10 M12 S25 M4 M5 M11 S13 M1 M2 M3 S26 M3 M4 M8 資料來源:van der Linden & Veldkamp & Carlson,2004 「BIB的設(shè)計(jì)表」中,包含26個(gè)題本(S1~S26);13個(gè)試題區(qū)塊(M1~M13)。 12 每個(gè)題本包含3個(gè)試題區(qū)塊,成對試題區(qū)塊在每個(gè)題本出現(xiàn)的次數(shù)只有1次(λ = 1),且每個(gè)題本中試題區(qū)塊的組合不重複。例如:S1的試題區(qū)塊為M1、M10、 M11,則S2至S26中不會出現(xiàn)試題區(qū)塊M1、M10、M11的組合。此外,每一個(gè)試 題區(qū)塊在所有題本中出現(xiàn)的次數(shù)為6次(r=6),如:試題區(qū)塊M1出現(xiàn)在題本S1、S7、 S8、S13、S14、S23,依此類推。 (二)垂直等化之BIB 設(shè)計(jì) 本研究在垂直等化之BIB 設(shè)計(jì),利用不同年級間之定錨試題做等化連結(jié), 等化設(shè)計(jì)排列的格式如下: 表3-3 不同年級間BIB 等化設(shè)計(jì)(垂直等化)模式 L 年級 H年級 1 M L − 1 M H − 包含1 1 − −M L ~ g M L − − 1 2 M L − 2 M H − 包含1 2 − − M L ~ g M L − − 2 3 M L − 3 M H − 包含1 3 − − M L ~ g M L − − 3 4 M L − 4 M H − 包含1 4 − − M L ~ g M L − − 4 ... ... 13 M L − → 13 M H − 包含1 13 − − M L ~ g M L − − 13 每個(gè)試題區(qū)塊(M)各抽取g 題為定錨試題,本研究探討g=1、2、3 之效果。 表3-3 為不同年級不同測驗(yàn)之BIB 垂直等化設(shè)計(jì)模式,其中: j M 代表試題 區(qū)塊代號, 13 , , 1 K = j ; 1 M H − ~ 13 M H − 代表H 年級所包含之試題區(qū)塊數(shù)、 1 M L − ~ 13 M L − 代表L 年級所包含之試題區(qū)塊數(shù)、1 1 − − M L 代表L 年級試題區(qū) 塊1 的第1 題。 BIB 垂直等化設(shè)計(jì)中,不同兩年級的試題排列均依照BIB 設(shè)計(jì)排列,在定錨 試題部分是將H 年級中每個(gè)試題區(qū)塊中,放入L 年級對應(yīng)試題區(qū)塊中難度較難 的試題。如表3-3,H 年級的試題區(qū)塊1( 1 M H − )中,包含L 年級試題區(qū)塊1 內(nèi) 試題難度較難的g 題( 1 1 − − M L ~ g M L − − 1 )定錨試題。本研究只討論每個(gè)試 題區(qū)塊中定錨試題為1 題、2 題及3 題之效果,即探討不同年級間每個(gè)題本定錨 試題數(shù)為3 題、6 題及9 題之等化效果。 (三)題數(shù)設(shè)定 本研究模擬每個(gè)題本施測試題數(shù)為36 題,試題區(qū)塊數(shù)為3,因此,每個(gè)試 題區(qū)塊之試題數(shù)為12 題。在BIB 設(shè)計(jì)中,同年級不同測驗(yàn)之總試題數(shù),為試題 13 區(qū)塊數(shù)之設(shè)定;不同年級不同測驗(yàn)之總試題數(shù),隨著定錨試題數(shù)的多寡而不同, 定錨試題數(shù)與總試題數(shù)之對照如下表: 表3-4 BIB 設(shè)計(jì)之定錨試題數(shù)與總試題數(shù)對照表 等化設(shè)計(jì) 試題區(qū)塊數(shù) 不同年級間 定錨試題數(shù) 各年級施測 總試題數(shù) 兩年級間施測 總試題數(shù) 3 156 299 6 156 286 BIB 13 9 156 273 (四)人數(shù)設(shè)定 本研究模擬三種施測人數(shù)(5460 人、7500 人及10000 人),因此,不同年級 之受測人數(shù)為10920、15000 人及20000 人。人數(shù)的設(shè)定考量如下: 1. 每一份題本人數(shù)必須相同; 2. 兩年級的受測人數(shù)必須相同; 3. 每一試題受測人數(shù)至少500 人以上; 4. 每年級受測人數(shù)為5460 人、7500 人及10000 人; 依上列4 個(gè)條件整理如表3-5。 表3-5 BIB 設(shè)計(jì)中題本、試題及定錨試題受測人數(shù) 等化設(shè)計(jì) 受測人數(shù) 每年級 受測人數(shù) 每個(gè)題本 受測人數(shù) 每個(gè)試題 受測人數(shù) 不同年級間定錨 試題受測人數(shù) 10920 5460 210 1260 2520 15028 7514 289 1734 3468 BIB 20020 10010 385 2310 4620 三、NEAT 設(shè)計(jì) (一)水平等化之NEAT 設(shè)計(jì) NEAT設(shè)計(jì)為一般測驗(yàn)等化常用的設(shè)計(jì),本研究為了利用NEAT設(shè)計(jì)之等化 效果與BIB設(shè)計(jì)之等化效果進(jìn)行比較。因此,NEAT設(shè)計(jì)的試題區(qū)塊數(shù)是根據(jù)BIB 設(shè)計(jì)而來,13個(gè)試題區(qū)塊及總試題數(shù)為156題。NEAT設(shè)計(jì)模式如下表: 表3-6 NEAT 模式之參數(shù)設(shè)定 等化設(shè)計(jì) 題本數(shù) 試題區(qū)塊數(shù)每個(gè)題本配置的試題區(qū)塊數(shù) NEAT 6 13 3 將NEAT設(shè)計(jì)模式依NEAT設(shè)計(jì)整理成表3-7。 14 表3-7 NEAT設(shè)計(jì)表 區(qū)塊位置 題本序號k1 k2 k3 S1 M1 M2 M3 S2 M1 M4 M5 S3 M1 M6 M7 S4 M1 M8 M9 S5 M1 M10 M11 S6 M1 M12 M13 表3-7為NEAT設(shè)計(jì)表,包含6個(gè)題本(S1~S6);13個(gè)試題區(qū)塊(M1~M13)。 題本的配置如下:S1的試題區(qū)塊為M1、M2、M3;S2的試題區(qū)塊為M1、M4、 M5;S3的試題區(qū)塊為M1、M6、M7;S4的試題區(qū)塊為M1、M8、M9;S5的試題 區(qū)塊為M1、M10、M11;S6的試題區(qū)塊為M1、M12、M13。 (二)垂直等化之NEAT 設(shè)計(jì) NEAT 設(shè)計(jì)不同年級間之等化垂直等化設(shè)計(jì)排列格式如下: 表3-8 不同年級間NEAT 等化設(shè)計(jì)(垂直等化) L 年級 H年級 1 M L − 1 M H − 包含1 1 − − M L ~ h M L − − 1 2 M L − 2 M H − 3 M L − 3 M H − 4 M L − 4 M H − .. . .. . 13 M L − → 13 M H − 每個(gè)區(qū)塊(M)各抽取h 題為定錨試題,本研究探討h=3、6、9 之效果。 表3-8 為不同年級不同測驗(yàn)之NEAT 垂直等化設(shè)計(jì)模式, j M 為試題區(qū)塊代 號, 13 , , 1 K = j 。在NEAT 垂直等化設(shè)計(jì)中,不同年級的試題排列均依照NEAT 設(shè)計(jì)排列,為了比較在不同定錨試題下兩種等化設(shè)計(jì)的效果,NEAT 設(shè)計(jì)根據(jù) BIB 設(shè)計(jì),將不同年級之每個(gè)題本總定錨試題數(shù)設(shè)定為3、6、9 題。 本研究將NEAT 設(shè)計(jì)之試題區(qū)塊1 M 設(shè)定為定錨試題區(qū)塊,因此,垂直等化 之定錨試題必須為試題區(qū)塊1 M 內(nèi)選出,如表3-8,H 年級試題區(qū)塊1( 1 M H − ) 中,包含L 年級試題區(qū)塊1 內(nèi)試題難度較難的h 題( 1 1 − − M L ~ h M L − − 1 )定錨 試題,而本研究只討論試題區(qū)塊1 中定錨試題為3、6、9 題之效果。 15 (三)題數(shù)設(shè)定 本研究NEAT設(shè)計(jì)是根據(jù)BIB設(shè)計(jì),每個(gè)題本施測試題數(shù)亦為36題,試題區(qū) 塊數(shù)為3,每個(gè)試題區(qū)塊之試題數(shù)為12題。NEAT設(shè)計(jì)中,同年級不同測驗(yàn)之總 試題數(shù),為試題區(qū)塊數(shù);不同年級不同測驗(yàn)之總試題數(shù),隨著定錨試題數(shù)的多寡 而不同。題數(shù)變化情形如下表: 表3-9 不同年級間NEAT 設(shè)計(jì)之定錨試題數(shù)與總試題數(shù)對照表 等化設(shè)計(jì) 試題區(qū)塊數(shù) 不同年級間 定錨試題數(shù) 各年級施測 總試題數(shù) 兩年級間施測 總試題數(shù) 3 156 309 6 156 306 NEAT 13 9 156 303 (四)人數(shù)設(shè)定 NEAT 設(shè)計(jì)亦根據(jù)BIB 設(shè)計(jì)之設(shè)定,模擬三種施測人數(shù)(5460 人、7500 人及 10000 人) ,因此,不同年級之受測人數(shù)為10920、15000 人及20000 人。人數(shù)的 設(shè)定考量如下: 1. 每一份題本人數(shù)必須相同; 2. 兩年級的受測人數(shù)必須相同; 3. 每一試題受測人數(shù)至少500 人以上; 4. 每年級受測人數(shù)為5460 人、7500 人及10000 人; 依上列4 個(gè)條件整理如表3-10。 表3-10 NEAT 設(shè)計(jì)中題本、試題及定錨試題受測人數(shù) 等化設(shè)計(jì) 總受測 人數(shù) 每年級 受測人 數(shù) 每個(gè)題 本受測 人數(shù) 各年級定 錨試題受 測人數(shù) 各年級非 定錨試題 受測人數(shù) 不同年級間 定錨試題受 測人數(shù) 10920 5460 910 5460 910 10920 15000 7500 1250 7500 1250 15000 NEAT 20004 10002 1667 10002 1667 20004 四、估計(jì)精準(zhǔn)度 本研究使用BILOG-MG(Zimowski & Muraki & Mislevy & Bock, 2003)進(jìn)行等 化,並估計(jì)受試者能力值與試題參數(shù)值。估計(jì)精準(zhǔn)度指估計(jì)誤差值的大小,估計(jì) 誤差值愈小,表示估計(jì)愈精準(zhǔn)。本研究使用能力真值與能力估計(jì)值,及試題參數(shù) 真值與試題參數(shù)估計(jì)值的根均方差(root mean square error, RMSE)作為估計(jì)的精 16 準(zhǔn)度,其估計(jì)精準(zhǔn)度的公式計(jì)算如下: N RMSE N i i i ∑= − = 1 2 ) ˆ ( ) ˆ , ( η η η η 其中,N:表示受試者人數(shù); ( ) N η η η η η ,..., , , 3 2 1 = :表示受試者能力真值或試題參數(shù)真值; ( ) N η η η η η ˆ ,..., ˆ , ˆ , ˆ ˆ 3 2 1 = :表示受試者能力估計(jì)值或試題參數(shù)估計(jì)值。 肆、研究結(jié)果 一、BIB 與NEAT 設(shè)計(jì)等化後估計(jì)結(jié)果 (一)水平等化測驗(yàn)之等化結(jié)果 根據(jù)模擬研究的結(jié)果,將BIB 與NEAT 設(shè)計(jì)在水平等化測驗(yàn)中,等化後之 RMSE 整理成表4-1: 表4-1 BIB 及NEAT 等化設(shè)計(jì)在水平等化測驗(yàn)中之誤差結(jié)果表 誤差值(RMSE) 等化設(shè)計(jì) 各年級總?cè)藬?shù) 能力值 鑑別度 難度 猜測度 0.3221 0.1359* 0.1434* 0.0460* 5460 (0.0033) (0.0100) (0.0136) (0.0031) 0.3207 0.1204* 0.1312* 0.0440* 7514 (0.0030) (0.0098) (0.0113) (0.0033) 0.3205 0.1068* 0.1228* 0.0423* BIB 10010 (0.0020) (0.0062) (0.0092) (0.0025) 0.3180* 0.1386 0.1449 0.0464 5460 (0.0036) (0.0092) (0.0120) (0.0029) 0.3179* 0.1233 0.1320 0.0442 7500 (0.0026) (0.0095) (0.0114) (0.0035) 0.3178* 0.1135 0.1281 0.0432 NEAT 10002 (0.0024) (0.0081) (0.0109) (0.0028) “*”表不同設(shè)計(jì)中,受試者能力值與試題參數(shù)之最小誤差值 由表4-1等化誤差結(jié)果,可以得到以下的結(jié)論: 1. 在三種施測總?cè)藬?shù)中,不論是受試者能力值或試題參數(shù),誤差值均隨著 受試者人數(shù)增加而減少,即人數(shù)越多估計(jì)越精準(zhǔn)。因此,BIB與NEAT設(shè)計(jì)在水 平等化測驗(yàn)中,能力誤差值與試題參數(shù)誤差值,在施測人數(shù)10000人時(shí)有最佳等 化效果。亦即BIB與NEAT設(shè)計(jì),受試人數(shù)為10000人之等化誤差最小、受試人數(shù) 為7500人之等化誤差次之、受試人數(shù)為5460人之等化誤差最大。此外,隨著受試 17 人數(shù)增加,BIB與NEAT設(shè)計(jì)對於估計(jì)受試者能力誤差值影響較小,對於估計(jì)試 題參數(shù)誤差值影響較大。 2. 不論受試人數(shù)為何,BIB設(shè)計(jì)在試題鑑別度參數(shù)、試題難度參數(shù)與試題猜 測度參數(shù)的誤差值較NEAT設(shè)計(jì)等化效果好;NEAT設(shè)計(jì)在受試者能力的誤差值 較BIB設(shè)計(jì)等化效果好。 3. 在相同的受試者人數(shù)下,BIB與NEAT設(shè)計(jì)之間的受試者能力誤差值介於 0.0027~0.0041間、試題鑑別度參數(shù)誤差值介於0.0027~0.0067間、試題難度參數(shù)誤 差值介於0.0008~0.0058間、試題猜測度參數(shù)誤差值介於0.0002~0.0009間。因此, 可知在不同等化設(shè)計(jì)中,對於估計(jì)試題猜測度參數(shù)之誤差值變異較小,估計(jì)受試 者能力值、試題鑑別度參數(shù)與試題難度參數(shù)之誤差值變異較大,但彼此間差異並 不大。 (二)垂直等化測驗(yàn)之等化結(jié)果 根據(jù)模擬研究的結(jié)果,將BIB 與NEAT 設(shè)計(jì)在垂直等化測驗(yàn)中,等化後之 RMSE 整理成表4-2: 表4-2 BIB 與NEAT 等化設(shè)計(jì)在不同定錨試題數(shù)下之誤差結(jié)果表 誤差值(RMSE) 等化設(shè)計(jì) 各年級 總?cè)藬?shù) 各題本內(nèi) 定錨試題 數(shù) 能力值鑑別度 難度 猜測度 3 0.3633 0.1676* 0.2629 0.0544 6 0.3427 0.1663* 0.2615 0.0538 5460 9 0.3373 0.1641* 0.2760 0.0537 3 0.3596 0.1413* 0.2475 0.0539 6 0.3418 0.1399* 0.2404 0.0542 7514 9 0.3356* 0.1419* 0.2488 0.0531 3 0.3574 0.1274* 0.2431 0.0536 6 0.3393 0.1304* 0.2253 0.0522 BIB3 10010 9 0.3351* 0.1240* 0.2278 0.0530 3 0.3472* 0.1746 0.2334* 0.0517* 6 0.3377* 0.1751 0.2294* 0.0518* 5460 9 0.3371* 0.1761 0.2438* 0.0518* 3 0.3464* 0.1557 0.2192* 0.0516* 6 0.3369* 0.1578 0.2157* 0.0510* 7500 9 0.3364 0.1593 0.2200* 0.0513* 3 0.3462* 0.1375 0.2141* 0.0509* 6 0.3365* 0.1404 0.2149* 0.0510* NEAT3 10002 9 0.3361 0.1430 0.2183* 0.0509* “*”表不同設(shè)計(jì)中,受試者能力值與試題參數(shù)之最小誤差值 18 由表4-2等化誤差結(jié)果,可以得到以下的結(jié)論: 1. 在垂直等化測驗(yàn)中,不論受試人數(shù)及定錨試題數(shù)為何,NEAT設(shè)計(jì)在受試 者能力值、試題難度參數(shù)與試題猜測度參數(shù)的誤差值較BIB設(shè)計(jì)等化效果好,除 了受試者能力值在受測人數(shù)為7500人及10002人、定錨試題數(shù)為9題時(shí)例外;BIB 設(shè)計(jì)在試題參數(shù)鑑別度的誤差值較NEAT設(shè)計(jì)等化效果好。 2. 在相同的受試者人數(shù)及相同定錨試題數(shù)下,BIB與NEAT設(shè)計(jì)之間的受試 者能力誤差值介於0.0002~0.0161間、試題鑑別度參數(shù)誤差值介於0.0070~0.0190 間、試題難度參數(shù)誤差值介於0.0095~0.0322間、試題猜測度參數(shù)誤差值介於 0.0012~0.0032間。因此,可知在不同等化設(shè)計(jì)中,對於估計(jì)試題猜測度參數(shù)之誤 差值變異較小,估計(jì)受試者能力值、試題鑑別度參數(shù)與試題難度參數(shù)之誤差值變 異較大。 3. 在相同的受試者人數(shù)及相同定錨試題數(shù)下,隨著試題區(qū)塊數(shù)增加,受試 者能力值亦跟著增加;在不同定錨試題數(shù)中,定錨試題數(shù)為3 題至6 題時(shí)變異較 大;定錨試題數(shù)為6 題至9 題時(shí)變異較小。 二、BIB 與NEAT 設(shè)計(jì)的優(yōu)缺點(diǎn) 本模擬研究之BIB 與NEAT 等化設(shè)計(jì),應(yīng)用於實(shí)際施測資料時(shí),可依施測 所需的定錨題數(shù)與施測人數(shù)來選擇較適用之等化設(shè)計(jì)。在此,研究者列出BIB 與NEAT 等化設(shè)計(jì)的優(yōu)缺點(diǎn),作為採用時(shí)的參考依據(jù): (一)BIB 設(shè)計(jì)的優(yōu)點(diǎn) 1. 對於有非共同試題的試題卷,依然可進(jìn)行等化連結(jié); 2. 每題試題作答人數(shù)均等(除兩年級的定錨試題外),試題平均分配施測。 (二)NEAT 設(shè)計(jì)的優(yōu)點(diǎn) 1. 試題區(qū)塊配置方式容易找尋; 2. NEAT 設(shè)計(jì)在估計(jì)受試者能力誤差值的等化效果較BIB 設(shè)計(jì)好。 (三)BIB 設(shè)計(jì)的缺點(diǎn) 1. 題本與試題區(qū)塊的配置方式不易找尋; 2. BIB 設(shè)計(jì)等化效果須在施測人數(shù)及定錨試題數(shù)夠多時(shí),才有最好的等化效 果。 (四)NEAT 設(shè)計(jì)的缺點(diǎn) 1. 進(jìn)行等化的題本,必須有共同的定錨試題,才能進(jìn)行等化; 19 2. 進(jìn)行垂直等化時(shí),NEAT等化設(shè)計(jì)試題區(qū)塊內(nèi)所包含的試題數(shù),將限制不 同年級間之定錨試題數(shù)。 伍、結(jié)論與建議 一、結(jié)論 本研究欲了解進(jìn)行測驗(yàn)等化時(shí),不同施測樣本數(shù)與不同定錨試題數(shù),在水平 及垂直等化測驗(yàn)中,使用BIB與NEAT設(shè)計(jì)下等化連結(jié)之效果。 本研究比較三種施測人數(shù)(5460 人、7500、10000人)與垂直等化之三種定錨 試題數(shù)(3題、6題、9題)之等化情形。得到下列結(jié)論: 1. 在水平等化測驗(yàn)中,不論受試人數(shù)為何,BIB設(shè)計(jì)在試題鑑別度參數(shù)、試 題難度參數(shù)與試題猜測度參數(shù)的誤差值較NEAT設(shè)計(jì)等化效果好;NEAT設(shè)計(jì)在 受試者能力的誤差值較BIB設(shè)計(jì)等化效果好。 2. 在垂直等化測驗(yàn)中,不論受試人數(shù)與定錨試題數(shù)為何,BIB設(shè)計(jì)在試題鑑 別度參數(shù)的誤差值較NEAT設(shè)計(jì)等化效果好;NEAT設(shè)計(jì)在受試者能力值、試題 難度參數(shù)與試題猜測度參數(shù)的誤差值較BIB設(shè)計(jì)等化效果好。 3. 施測人數(shù)越多,各種參數(shù)估計(jì)越精準(zhǔn),對於受試者能力值影響較小、對 於試題參數(shù)值影響較大。但受試人數(shù)在7500及10000人時(shí),各種參數(shù)估計(jì)差距不 大,則若考慮施測成本,採用7500人的受測人數(shù)即可達(dá)10000人的效果。 4. 不同年級之定錨試題數(shù)越多,各種參數(shù)估計(jì)越精準(zhǔn),但定錨試題數(shù)為6題 或9題的估計(jì)精準(zhǔn)度差異不大。因此,在進(jìn)行測驗(yàn)時(shí)可選擇6題的定錨試題數(shù),減 少年級間定錨試題量,以增加測驗(yàn)的題庫量。 二、改進(jìn)建議 本模擬研究在水平及垂直等化測驗(yàn)中,共同變項(xiàng)僅設(shè)定三種施測人數(shù),分別 為5460人、7500人及10000人:三種試題區(qū)塊數(shù),分別為7個(gè)、9個(gè)及13個(gè);受試 者能力分布為常態(tài)分布;與垂直等化測驗(yàn)中,三種定錨試題數(shù),分別為3題、6 題及9題,來進(jìn)行BIB與NEAT設(shè)計(jì)等化設(shè)計(jì)之模擬比較。茲就本研究未盡完備之 處,提出一些研究建議,供後續(xù)研究者參考。 (一)本研究僅考慮一種受試者能力與試題參數(shù)分布,未來研究可考量進(jìn)行不 同參數(shù)分布之等化效果比較。 20 (二)本研究僅考慮三種試題區(qū)塊數(shù)、三種定錨試題數(shù)與三種施測人數(shù),未來 研究可考量不同的試題區(qū)塊數(shù)、定錨試題數(shù)與施測人數(shù)作為等化效果之研究。 (三)本研究僅討論一種試題區(qū)塊數(shù)及一種試題區(qū)塊的配置方式,未來研究可 就不同試題區(qū)塊數(shù)及配置方式探討其等化效果。 (四)本研究BIB與NEAT等化設(shè)計(jì),僅模擬產(chǎn)生二元計(jì)分之作答反應(yīng)組型,未 來研究可考量多元計(jì)分對於BIB與NEAT設(shè)計(jì)之等化效果比較。 (五)本研究只探討進(jìn)行測驗(yàn)等化時(shí),水平等化與垂直等化兩種情況,並無針 對不同年度之等化效果研究,因此,未來研究可針對同年級不同年度測驗(yàn)與不同 年級不同年度測驗(yàn)之等化效果比較。 陸、本研究目前所出版相關(guān)論文 1. 曾玉琳、王暄博、郭伯臣、許天維(2006)。不同BIB 設(shè)計(jì)對測驗(yàn)等化的影響。 測驗(yàn)統(tǒng)計(jì)年刊,第十三輯下期,頁209-229。臺中市:國立臺中教育大學(xué)。 2. 郭伯臣、王暄博、許天維、張雅媛(2005)。大型測驗(yàn)不同等化設(shè)計(jì)效果之模 擬研究。2005 年教育與心理測驗(yàn)學(xué)術(shù)研討會,2005 年11 月12 日,國立政 治大學(xué)。 柒、參考文獻(xiàn) 一、中文部份 王寶墉(民84)?,F(xiàn)代測驗(yàn)理論。臺北市:心理出版社。 李文忠(民84)。以無參數(shù)反應(yīng)理論之等化模式探討測驗(yàn)等化與能力成長曲線。國 立臺中師範(fàn)學(xué)院國民教育研究所碩士論文,未出版。 吳裕益(民80)。IRT等化法在題庫建立之應(yīng)用。初等教育學(xué)報(bào),第四輯,pp.319-365。 國立臺南師範(fàn)學(xué)院初等教育學(xué)系。 陳煥文(民93)。垂直等化連結(jié)特性之研究-四種連結(jié)方法的比較。國科會專題研 究計(jì)畫。 曾玉琳、王暄博、郭伯臣、許天維(民95)。不同BIB 設(shè)計(jì)對測驗(yàn)等化的影響。 測驗(yàn)統(tǒng)計(jì)年刊,第十三輯下期,頁209-229。臺中市:國立臺中教育大學(xué)。 21 二、英文部份 Allen, N.L., Donoghue, J.R., & Schoeps, T.L. (2001). The NAEP 1998 technical report. Washington, DC: National Center for Educational Statistics. Dorans, N. J. & Holland, P. W. (2000). Linking Scores from Multiple Instruments.Evaluation of National and State Assessments of Evaluation. Board on Educational Testing and Assessment. Washington, DC: National Academy Press. Hanson, B.A. & Beguin, A.A. (2002). Obtaining a Common Scale for Item Response Theory Item Parameters Using Separate Versus Concurrent estimation in the Common-Item Equating Design. Applied Psychological Measurement, 26, 3-24. Hambleton, R.K., & Swaminathan, H. (1985). Item Response Theory: Principles and Application. Boston, MA:Kivwer-Nijhoff. Haebara, T. (1980). Equating Logistic Ability Scales by a Weighted Least Squares Method. Japanese Psychological Research, 22, 144-149. Kolen, M. J. (2000). Issues in Combing State NAEP and Main NAEP. In J. W. Pellegrino, L. R. Jones, & K. J. Mitchell, (Eds.), Grading the Nation’s Reportcard: Research from the Evaluation of NAEP. Committee on the Kolen, M.J. & Brennan, R.J. (1995). Test Equating: Methods and Practices. New York: Springer-Verlag. Lord, F. M. (1980). Applications of Item Response Theory to Practical Testing Problems. Hillsdale, NJ: Lawrence Erlbaum. Mislevy, R. J. & Bock R. D. (1982). Implementation of the EM algorithm in the estimation of item parameters: The BILOG computer program. In: Item Response Theory and Computerized Adaptive Testing Conference Proceedings (Wayzata, MN). Nattional Research Council. (1999). Uncommon Measures: Equivalency and Linkage of Educational Tests. Washington, DC: Author. Nemhauser, G. L., & Wolsey, L. A. (1999). Integer and Combinatorial Optimization. New York: John Wiley. Petersen, Nancy S., Kolen, Michael J., Hoover, H.D. (1993). Scaling, Norming, and Equating. In R.L. Linn (Ed.), Educational Measurement (3rd ed., pp221-262). New York: Macmillan. Stocking, ML. & Lord, F.M. (1983). Developing a Common Metric in Item Response 22 Theory. Applied Psychological Measurement, 7(2).201-211. Tianyou, W. (2005). An Alternative Continuization Method to the Kernel Method in von Davier, Holland and Thayer's (2004) Test Equating Framework. van der Linden, W.J., & Veldkamp, B.P.,& Carlson, J.E. (2004).Optimizing Balanced Incomplete Block Designs for Educational Assessments. Applied Psychological Measurement, 28, 317-331. von Davier, A. A., Holland, P. W., & Thayer, D. T. (2004). The kernel method of test equating. New York: Springer. |
|
|