|
第二節(jié) 有效測驗的必備條件
一個有效的測驗,不管它是客觀的、標準的測驗,還是非正式的、教師自編的測驗,都需要有效度、信度、代表性和可行性。它還應(yīng)當對好、中、差學生或?qū)W生集體有充分的辨別力。
一 效 度
何謂效度(validity)?一個測驗的效度是指該測驗測量其所要測量的東西達到了多么好的程度。一個測驗要是沒有效度,那么即使具有其他任何優(yōu)點,都不可能真正發(fā)揮功能。因此,選用某種測驗或自行編制測驗,必須首先鑒定它的效度。 測驗的效度是相對的。任何一種測驗只是對一定的目的來說才是有效的。例如,一種能“甄別”嚴重違反社會常規(guī)者的測驗,不能正確評價人的認知結(jié)構(gòu),或預測其獨特的成就。所以,對所有的目的都有效的測驗是沒有的。我們不能籠統(tǒng)地說某測驗是否有效,而應(yīng)當說它對測量什么是否有效。此外,測驗的效度通常以相關(guān)系數(shù)來表示,它只有程度上的不同而沒有全或無的差別。 在心理與教育測量中,之所以有效度問題,主要由于許多測量對象不是物質(zhì)實體而是假設(shè)的結(jié)構(gòu)概念,因而這種測量是間接的、推論的,它不是以要測量的特性或能力的直接的行為樣本為根據(jù),而是從測量同結(jié)構(gòu)概念有關(guān)的或是反映該概念的另一種可測的因素著手進行的間接測量。例如,學習能力、智力、性格等的測量,常常是借助反應(yīng)時間、正誤次數(shù)之類的測量所得的結(jié)果來推斷的。一個測驗的測分與它所要測量的特性或能力的關(guān)系越是間接,越是憑借推斷的話,那么效度問題越是重要。因此,一個測驗的分數(shù)與掌握某門學科的程度雖不是一回事,但它與智力測驗的分數(shù)相比,其間接性和推論性少得多。 測驗的效度有若干不同的類型。一個好的測驗可以用一種或一種以上的效度來表示。 (一)內(nèi)容效度(content validity) 內(nèi)容效度是指測驗的題目在多大程度上代表了所想測量的結(jié)構(gòu)概念的整個內(nèi)容。為此,必須考慮從總體中抽取樣本,并對取樣是否合適作出估計。例如從課程的某單元的內(nèi)容中進行取樣的課堂測驗,在這個題目樣本上所得的分數(shù)將用以推測學生在測驗所包括的整個范圍內(nèi)的知識、技能與能力。 (二)預測效度(predictive validity) 預測效度是指測驗分數(shù)對于未來的行為或作業(yè)測量能夠預測得多么好。例如,用學習能力測驗去預測大學生的平均成績,用一個機械能力測驗去預測一個人從事汽車機械工作的成功率等等。這種預測的準確性的指標就是測驗的效度。在這里,存在找尋適當標準的問題。 我們看到,與預測效度有關(guān)的最重要方面是標準,因而又稱為與標準關(guān)聯(lián)(criterion-related)的效度。 (三)結(jié)構(gòu)效度(construct validity) 結(jié)構(gòu)效度涉及的是一個測驗所測量的心理特質(zhì)或?qū)傩?。了解到一個測驗是測量什么特質(zhì),就可用這個測驗研究個別差異以及構(gòu)思心理學的理論,例如有關(guān)解釋智力或創(chuàng)造性的測驗。結(jié)構(gòu)效度通過論據(jù)的積累表明,論據(jù)證明測量的是什么品質(zhì)。論據(jù)可以通過各種方式從各種不同的來源去積累,包括對內(nèi)容和與標準關(guān)聯(lián)的效度的研究。隨著論據(jù)的積累,品質(zhì)與測驗的關(guān)系清楚了。
二 信 度
何謂信度(reliability)?一個測驗的信度,是指該測驗測量其所要測量的東西前后一致的程度。信度涉及到測驗是否準確可靠的問題。這就是說,一個人在多次進行某一種測驗時,如果得到近乎相同的分數(shù),那么,可以認為該測驗的信度是高的。當然,信度是進行測驗的一個必要條件,但它并不是充分條件。高度可靠的測驗也許完全不能測量到心理或教育上任何重要的東西。 測驗的信度指標通常也以相關(guān)系數(shù)表示,所以稱為信度系數(shù)(coefficient of reliability)。信度系數(shù)乃是同一樣本所得的兩組資料間的相關(guān),用來作為測量一致性的指標。 表示心理與教育測驗的信度,可用三類系數(shù)。 (一)等值性系數(shù)(coefficient of equivalence) 一個測驗通常只是所有可能的題目中的一份取樣,即一個樣本,所以可以編制也必須編制平行測驗。平行型測驗與原測驗有同樣的內(nèi)容、同類的題目,難度也一樣,因而是等值的。有了等值型測驗時,信度就表明同一測驗的兩型得分的一致性。我們先測量該測驗中的一型(甲型),然后在最短時距內(nèi)測量另一型(乙型),再求出這兩型得分之間的相關(guān),就可得到等值性系數(shù)。因此,等值性系數(shù)是某測驗的兩個平行型測驗(或稱替代性測驗)在最短時距內(nèi)施測所得成績的相關(guān)系數(shù)。 在有些情況下,沒有或無法利用另一等值測驗,但需估計兩種測分的相關(guān)系數(shù)時,可將測驗分成前半與后半,或是按照奇數(shù)題與偶數(shù)題,平分成兩型,求出它們的測驗成績,再求其相關(guān)系數(shù)。這就是所謂的“分半信度”(split-h(huán)alf consistency)。當然,它還反映測驗題目的內(nèi)部一致性,因此也常被稱為“內(nèi)部一致性系數(shù)”(coeffi-cient of internal consistency)。 (二)穩(wěn)定性系數(shù)(coefficient of stability) 一般說來,可用測驗來測量的品質(zhì)或?qū)傩裕技俣ň哂幸欢ǖ姆€(wěn)定性,因此,要求取得一些有關(guān)穩(wěn)定性的證據(jù)。此外,當測分用作長期計劃的決策時,其穩(wěn)定性尤為重要。即使是隨時間而變化的品質(zhì)或?qū)傩?,能知道其測分在短時期內(nèi)的穩(wěn)定性也是好的。我們先用一個測驗測量,過一段時間后,再用這個測驗測量,計算測量與再測量得分之間的相關(guān),即可求得穩(wěn)定性系數(shù)。因此,穩(wěn)定性系數(shù)可定義為同一測驗施測兩次的相關(guān)系數(shù)。兩次試驗的時距可長可短,根據(jù)兩次測量間隔時間的長短,可得不同數(shù)值的信度系數(shù)。 (三)普遍性系數(shù)(coefficient of generality) 普遍性系數(shù)也是對一個測驗的測量有多大一致性的估計,但這個測驗是由測量同一品質(zhì)或?qū)傩缘漠愘|(zhì)的、但有關(guān)聯(lián)的分測驗組成的。異質(zhì)(heterogeneity)與同質(zhì)(homogeneity)相對。后者意指測驗中不同題目的一致性。上述分半信度即內(nèi)部一致性的測量,把它作為等值的特例。前者則相反,構(gòu)成測驗的各分測驗是不一致的。例如智力測驗常由若干分測驗編成,每個分測驗只是測量所要測量的品質(zhì)或?qū)傩缘囊粋€方面。當這些分測驗的測分互相有關(guān)的時候,平均的相關(guān)就可作為普遍性系數(shù)。普遍性系數(shù)是一個測驗中許多分測驗的測分的平均相關(guān)系數(shù)。
三 代表性
幾乎所有的心理與教育測量都是以取樣的原理為根據(jù)的。實際上,要測驗一名學生對某一門學科中的全部事實、概念和原理原則是否掌握是不可能的。因此,典型的做法是,選擇關(guān)于這些內(nèi)容的一個樣本作為估計該樣本所屬的總體(或稱全域)的基礎(chǔ)。這個方法要在邏輯上站得住腳,至少必須符合如下兩個條件:(1)樣本必須具有代表性(representative),即適當?shù)卮砜傮w;(2)在符合代表性和意義性要求的這個限度內(nèi),樣本必須是隨機抽取的。例如,如果考試題目僅僅局限于一本指定教科書中一章的知識,如果每章的試題僅僅是其中的一段或一節(jié)的內(nèi)容,那就很難說這個成績測驗的分數(shù)反映了所要測試的這本教科書的知識。這樣一個成績測驗,不但缺乏內(nèi)容效度,而且還不可避免地會在偶然性基礎(chǔ)上對某些學生的知識估計過高,而對另一些學生的知識估計過低。現(xiàn)實情況是,許多成績測驗,特別是教師自編的那些成績測驗,往往仍未能符合上述代表性和隨機性兩個條件。 此外,由于不能認清一個測驗是一個具有代表性的樣本,也造成了實踐中的兩種錯誤情況。一種錯誤是教師對考試題目的“暗示”,或年復一年地重復相同的題目,這就使測分難以保證是學生所掌握知識的真實表現(xiàn)。另一種更為嚴重的錯誤則是,有些人認為與其說測分是一定歲月中直接行為的證據(jù),毋寧說特性或能力的有效度量的測驗所依據(jù)的是題目的一個代表性樣本,而這些題目在推理上與某種特性或能力密切有關(guān)。于是,在一些國家特別是西方國家,測分、學位和證書被視為地位的象征,而不是能力的推論性的測量。
四 辨別力
有效測驗的一個顯著特征,是最大限度地區(qū)分所測量的品質(zhì)或?qū)傩杂兴煌膫€體的能力。這個特征主要取決于測驗項目的辨別力(discrimining power),同時,還反映與說明這個工具的信度和效度??墒?,在一定程度上,這一特征也要看測驗總分的分布,以及該測驗是否為集體內(nèi)的優(yōu)良者提供了適當?shù)纳蓿╟eiling)情況而定。 比如說,測驗分數(shù)如若呈正態(tài)分布(圖13·1),那么在量表的兩端(即伸展出的分數(shù)不多的部分)辨別力最大,而在量表的中間(即許多分數(shù)集中在一起的部分)辨別力較小。測驗分數(shù)若呈長方形分布(量表各點上分數(shù)的次數(shù)相等,如圖13·2),那么這個量表全距的辨別力就相等。此外,若呈偏態(tài)分布(即分數(shù)的分布很不均勻,堆積在量表的一端,如圖13·3),那么,在分數(shù)不多的一端辨別力最大,另一端則辨別力最小。
良好的測驗,還需有足夠的上升限度,使一個集體里的優(yōu)良者得以顯露出來。很明顯,如果成績測驗非常容易,該集體里中等程度的人也能得到90分,就不能將知識多的學生與知識少的學生區(qū)別開來。流行的看法是,測驗所得平均分數(shù)大約在50%時,該測驗辨別能力最大。然而,應(yīng)當借助范圍廣泛的題目規(guī)定適當?shù)纳仙薅?,這些題目是仔細地根據(jù)難度標準而不是根據(jù)速度標準來分等的,因為迅速回答問題的能力所表現(xiàn)出的因素同優(yōu)秀的能力或能力傾向基本無關(guān)。難度水平可以通過改變這些因素如抽象性、復雜性、熟悉性和理解程度進行處理。
五 可行性
除了從理論上考慮,如效度、信度、代表性和辨別力以外,還必須考慮各種實際問題,才能決定測驗的可行性(feasibility)。這里,應(yīng)當考慮四點。(1)測驗提供的信息有多大意義。換句話說,要看它在解釋學生的能力、知識與人格特性以及在作出教育與職業(yè)方面的決定時有多大用處。瑣碎的測驗資料,不論多么可靠、有效或有辨別力,是沒有價值可言的。可行性的成績測驗,應(yīng)當給學生和教師在學習和教學的相對強弱上提供分化性反饋,并為之指明理由,否則,就不能起到診斷和補救作用。(2)可行性測驗應(yīng)當在形式與內(nèi)容上適合于它所要測量的年齡范圍內(nèi)的學生。(3)要考慮到測驗的費用以及進行測試、記分和解釋所需的時間量。(4)評分是否客觀,結(jié)果的解釋是不是直截了當,記分和解釋要不要特殊訓練,測驗手冊是否提供了試測和記分指導語、常模表以及解釋分數(shù),凡此種種問題,均應(yīng)認真考慮。 |
|
|