|
信度和效度是優(yōu)良的測(cè)量工具所必具備的條件,如果對(duì)測(cè)量工具的信度和效度一無(wú)所知,則無(wú)法判斷其獲得的資料的可信性與有效程度。“工欲善其事,必先利其器”,在教育測(cè)量中要認(rèn)真檢查所使用的測(cè)量工具,考驗(yàn)其信度、效度以及難度和區(qū)分度,才能期望獲得可靠與正確的資料。
一、教育測(cè)量的要素
(一) 單位
(二) 參照點(diǎn)
(三) 量表
二、教育測(cè)量的種類(lèi)
以測(cè)量的對(duì)象來(lái)分類(lèi),教育測(cè)量有
(一) 學(xué)業(yè)成績(jī)測(cè)驗(yàn)
(二) 智力測(cè)驗(yàn)
(三) 人格測(cè)驗(yàn)
(四) 特殊能力測(cè)驗(yàn)
以測(cè)量的目的來(lái)分類(lèi),教育測(cè)量有
(一) 安置測(cè)驗(yàn)
(二) 形成性測(cè)驗(yàn)
(三) 總結(jié)性測(cè)驗(yàn)
(四) 診斷性測(cè)驗(yàn)
(五) 難度測(cè)驗(yàn)
(六) 速度測(cè)驗(yàn)
以測(cè)量的方式來(lái)分類(lèi),教育測(cè)量有
(一) 個(gè)人測(cè)驗(yàn)
(二) 團(tuán)體測(cè)驗(yàn)
以試題的形式來(lái)分類(lèi),教育測(cè)量有
(一) 客觀性測(cè)驗(yàn)
(二) 論文式測(cè)驗(yàn)
(三) 投射測(cè)驗(yàn)
(四) 情景測(cè)驗(yàn)
三、教育測(cè)量的功能
(一) 教育測(cè)量是改進(jìn)教學(xué)的良好工具
(二) 教育測(cè)量是教育管理的重要手段
(三) 教育測(cè)量是教育研究的重要方法
四、測(cè)量的評(píng)價(jià)
良好的測(cè)驗(yàn)應(yīng)符合以下要求:
1、 試題的類(lèi)型應(yīng)與測(cè)量的目的相適應(yīng)。
2、 試題應(yīng)具有代表性
3、 試題應(yīng)有適當(dāng)?shù)碾y度和區(qū)分度
4、 試題的表述要明晰、準(zhǔn)確,不會(huì)引起被試者對(duì)試題的誤解
5、 測(cè)驗(yàn)的結(jié)果要具有可靠性和有效性
6、 測(cè)驗(yàn)要宜于實(shí)施,易于評(píng)分,便于統(tǒng)計(jì)檢驗(yàn),在人力、物力和時(shí)間方面,符合經(jīng)濟(jì)性原則。
測(cè)驗(yàn)的質(zhì)量評(píng)定
一、預(yù)備性知識(shí):
1、標(biāo)準(zhǔn)差及其意義
計(jì)算公式是:
s=sqr(∑(x-X)2/N)
意義:標(biāo)準(zhǔn)差越大,表明數(shù)據(jù)的離散程度越大,即數(shù)據(jù)越參差不齊,分布范圍越廣;標(biāo)準(zhǔn)差越小,表明這組數(shù)據(jù)的;離散程度越小,即數(shù)據(jù)越集中,分布范圍越小。問(wèn)題:在教育研究中,標(biāo)準(zhǔn)差越大越好,還是越小越好?看情況、問(wèn)題而定。成績(jī)的標(biāo)準(zhǔn)差越大,就教學(xué)活動(dòng)而言,難度越大;對(duì)選拔性測(cè)驗(yàn)而言,則表明測(cè)驗(yàn)質(zhì)量很差。
例:計(jì)算原始數(shù)據(jù)83,87,86,81,88的標(biāo)準(zhǔn)差。
結(jié)果:s=sqr6.80=2.61
當(dāng)兩種單位不同或單位相同但平均數(shù)差異很大的資料,如何比較資料的差異?
相對(duì)差異系數(shù)CV!
計(jì)算公式:
CV=s/X*100%
CV就是以平均數(shù)為單位,以標(biāo)準(zhǔn)差占平均數(shù)的百分比的大小來(lái)衡量差異的程度.差異系數(shù)越大,表明離散程度越大;差異系數(shù)越小,表明離散程度越小.
例:比較1999年蘭州市安寧區(qū)6歲男童體重與身高的離散程度.
|
|
平均數(shù)
|
標(biāo)準(zhǔn)差
|
|
體重
|
19.39kg
|
2.16kg
|
|
身高
|
115.87cm
|
4.86cm
|
體重CV=2.16/19.39*100%=11.14%
身高CV=4.86/115.87*100%=4.19%
根據(jù)經(jīng)驗(yàn), CV值一般在5%-35%之間。如果CV大于35%時(shí),可懷疑平均數(shù)是否失去了意義;如果CV小于5%,可懷疑平均數(shù)與標(biāo)準(zhǔn)差的計(jì)算有誤。
2、相關(guān)系數(shù):
積差相關(guān)系數(shù)
r=∑(x-X)(y-Y)/nsxsy
其中,x(y)表示x(y)變量觀測(cè)值,X表示x(y)變量觀測(cè)值的算術(shù)平均數(shù)。sx和sy分別等于x變量和y變量的標(biāo)準(zhǔn)差。
例:計(jì)算并比較10個(gè)學(xué)生的語(yǔ)文、數(shù)學(xué)、化學(xué)成績(jī)之間的相關(guān)系數(shù)。
|
序號(hào)
|
1
|
2
|
3
|
4
|
5
|
6
|
7
|
8
|
9
|
10
|
|
語(yǔ)文
|
74
|
71
|
72
|
68
|
76
|
73
|
67
|
70
|
65
|
74
|
|
化學(xué)
|
76
|
75
|
71
|
70
|
76
|
79
|
65
|
77
|
62
|
72
|
|
數(shù)學(xué)
|
62
|
58
|
79
|
80
|
64
|
77
|
50
|
69
|
55
|
56
|
計(jì)算可得語(yǔ)文標(biāo)準(zhǔn)差為3.317,平均數(shù)為71;化學(xué)標(biāo)準(zhǔn)差為5.178,平均數(shù)為72.3,語(yǔ)文和化學(xué)的相關(guān)系數(shù)r=.780
等級(jí)相關(guān)
斯皮爾曼等級(jí)相關(guān):計(jì)算公式:rR=1-6∑D2/N(N2-1)
例:10名高中生學(xué)習(xí)潛在能力測(cè)驗(yàn)與自學(xué)能力測(cè)驗(yàn)成績(jī)的相關(guān)程度如何?
|
序號(hào)
|
1
|
2
|
3
|
4
|
5
|
6
|
7
|
8
|
9
|
10
|
|
學(xué)能
|
1
|
2
|
3
|
5
|
5
|
5
|
7
|
8
|
9
|
10
|
|
自能
|
2
|
1
|
3
|
5
|
7
|
4
|
8
|
6
|
10
|
9
|
計(jì)算得rR=.891
肯德?tīng)柡椭C系數(shù)rw=SSR/1/12k2(n3-n)
(k表示評(píng)定者的人數(shù)或同一評(píng)定者對(duì)同一組被評(píng)事物先后評(píng)定次數(shù);n表示被評(píng)定事物的個(gè)數(shù);R表示k個(gè)評(píng)定者對(duì)同一被評(píng)事物所給予的等級(jí)之和;SSR表示R的離差平方和,即SSR=∑R2-(∑R)2/n)
例:4位教師對(duì)6個(gè)學(xué)生的作文競(jìng)賽的名次排列如下,問(wèn)評(píng)定的一致性如何?
|
學(xué)生
n=6
|
評(píng)定者 k=4
|
R
|
R2
|
|
1
|
2
|
3
|
4
|
|
1
|
3
|
4
|
2
|
1
|
10
|
102
|
|
2
|
4
|
3
|
1
|
3
|
11
|
112
|
|
3
|
2
|
1
|
3
|
4
|
10
|
102
|
|
4
|
6
|
5
|
6
|
5
|
22
|
222
|
|
5
|
1
|
2
|
4
|
2
|
9
|
92
|
|
6
|
5
|
6
|
5
|
6
|
22
|
222
|
|
總和
|
|
|
|
|
84
|
1370
|
SSR=194
Rw=.693
點(diǎn)二列相關(guān)
計(jì)算公式:rpb=(Xp-Xq)/S*sqr(pq)
例:18個(gè)5歲男女幼兒擲砂袋(150克)成績(jī)?nèi)缦卤?,?wèn)性別與投擲成績(jī)相關(guān)情況如何?
|
|
1
|
2
|
3
|
4
|
5
|
6
|
7
|
8
|
9
|
10
|
11
|
12
|
13
|
14
|
15
|
16
|
17
|
18
|
|
成績(jī)
|
4.0
|
3.6
|
3.5
|
3.2
|
4.4
|
4.8
|
3.8
|
5.2
|
4.7
|
3.4
|
4.9
|
3.7
|
3.3
|
4.7
|
4.8
|
3.1
|
2.9
|
3.4
|
|
性別
|
1
|
0
|
0
|
0
|
1
|
1
|
0
|
1
|
1
|
0
|
1
|
0
|
0
|
1
|
1
|
0
|
0
|
0
|
rpb=.910
二、信度(reliability)
(一) 意義:測(cè)驗(yàn)的可靠性或可靠的程度
一個(gè)人站在測(cè)量體重的磅秤上,前后幾次稱(chēng)出幾個(gè)明顯不同的重量,那么磅秤本身必定有問(wèn)題,說(shuō)明這架磅秤是不可靠的。在教育調(diào)查中,我們常采用問(wèn)卷作為測(cè)量工具,如果我們所采用的問(wèn)卷中的問(wèn)題,原來(lái)打算測(cè)量某一概念,但由于設(shè)計(jì)不周密,問(wèn)題或答案的范疇摸棱兩可或有多種解釋?zhuān)灾卤粏?wèn)者不能確定如何回答,從而使回答達(dá)不到一致性的要求,這就降低了測(cè)量的可靠性程度,那么它的信度就會(huì)成問(wèn)題。
1.信度指實(shí)測(cè)值和真值相差的程度 X=T+E 絕對(duì)誤差:E=X-T 相對(duì)誤差=E/T*100%
2.信度是指一種測(cè)驗(yàn)對(duì)相同被試再次測(cè)驗(yàn)時(shí)引起同樣反映的程度
(二)信度系數(shù)的計(jì)算
常用的信度系數(shù)有穩(wěn)定性系數(shù)(coefficient of stability)、等值性系數(shù)(coefficient of equivalence)、內(nèi)部一致性系數(shù)(coefficient of internal constancy)等。
使用穩(wěn)定性系數(shù)時(shí)要注意的問(wèn)題:(1)兩次測(cè)驗(yàn)的時(shí)間間隔要適宜;(2)重測(cè)法適用于速度測(cè)驗(yàn)而不適用于難度測(cè)驗(yàn)。(3)要注意提高被試的積極性。
使用等值性系數(shù)時(shí)要注意的問(wèn)題:(1)復(fù)份法的關(guān)鍵是兩個(gè)量表必須等值。(2)兩次測(cè)驗(yàn)的時(shí)間間隔要盡可能短。(3)如果兩次測(cè)驗(yàn)緊接,應(yīng)注意被試厭倦態(tài)度。(4)標(biāo)準(zhǔn)化測(cè)驗(yàn)一般有復(fù)份,若沒(méi)有說(shuō)明等值信度,或等值性系數(shù)較低,則使用復(fù)本時(shí)應(yīng)慎重。
計(jì)算內(nèi)部一致性系數(shù)的方法:(1)分半法(Split-half method)(2)Cronbach系數(shù)
(三)提高測(cè)驗(yàn)信度的方法(1)延長(zhǎng)測(cè)驗(yàn)長(zhǎng)度——新增加的題目與原有測(cè)驗(yàn)題目應(yīng)有相同的統(tǒng)計(jì)性質(zhì),同時(shí),不影響被試回答問(wèn)題的方法。(2)難度要適當(dāng):r=1-SE2/SX2
經(jīng)驗(yàn)表明,難度在.40-.70之間是合適的,也有人認(rèn)為.25-075都有利于提高測(cè)驗(yàn)信度。(3)測(cè)驗(yàn)的內(nèi)容應(yīng)盡量同質(zhì);(4)測(cè)量時(shí)間要充分;(5)測(cè)量的程序應(yīng)統(tǒng)一;(6)評(píng)分要客觀。(7)加大應(yīng)試者之間的差異
三、效度
所謂效度就是測(cè)驗(yàn)分?jǐn)?shù)的正確性,意即“有多正確的程度”。在選擇測(cè)量工具和設(shè)計(jì)問(wèn)卷時(shí),首先要考慮其效度。也就是說(shuō),要考慮“測(cè)量出來(lái)的東西是否真是研究者想要得到的東西”、“所測(cè)的結(jié)果是否能正確、有效的說(shuō)明所要研究的現(xiàn)象”。
鑒別效度,必須確定測(cè)量的目的與范圍,考慮所要測(cè)量的內(nèi)容是什么,分析其性質(zhì)和表現(xiàn)特征,進(jìn)而核查測(cè)量的內(nèi)容是否與測(cè)量的目的相符合,以此判斷測(cè)量結(jié)果反映所要測(cè)量特征的程度。
假設(shè)某種測(cè)量的目的是衡量個(gè)體在某項(xiàng)屬性(如工資收入)上的差異情況,則一群被調(diào)查者在該測(cè)量中得分的總變異量包括三個(gè)部分:一為個(gè)體在與該屬性有關(guān)的共同屬性上所造成的變異量,一為與該屬性無(wú)關(guān)的其他個(gè)別特征(如獎(jiǎng)金、補(bǔ)貼、親友贈(zèng)款等)所造成的變異量,其余為隨機(jī)誤差變異量。由此可以看出,效度就是在測(cè)量得分的總變異中,由所要測(cè)量的特質(zhì)所造成的變異量所占的百分比。
|