|
測驗的效度
林陳涌 國立臺灣師範(fàn)大學(xué) 生物學(xué)系 信度…... 信度所關(guān)心的是測驗分?jǐn)?shù)的一致性或穩(wěn)定性。 一個具有良好信度的測驗,使用在不同的主試者 評分者 時間 情境或使用類似的問題,其所得的分?jǐn)?shù)應(yīng)該接近相同或一致。 一般而言分?jǐn)?shù)愈一致,受誤差的影響愈小。所以信度主要在說明測驗分?jǐn)?shù)中測量誤差所佔的成分。 效度…... 測驗有種種不同的目的, 這些目的是否能達(dá)到需視測驗效度高低而定。 測驗的效度高,則測驗?zāi)軐崿F(xiàn)所欲測量的目的。如果效度低,不僅無法達(dá)成目標(biāo),甚至?xí)峁┎徽_的資料而作成錯誤的決定。 效度的意義
傳統(tǒng)定義 指測驗分?jǐn)?shù)的正確性。指一個測驗?zāi)軌驕y量到他所想要測量的特質(zhì)的程度。 數(shù)學(xué)測驗的分?jǐn)?shù)若主要是由語文能力來決定,這樣的測驗就無效(效度低)。 以上的定義說明一個測驗只有一個效度,事實不然,效度可依不同的方法得到不同效度。 較滿意的定義 一個測驗在使用目的上的有效性。更具體的是指測驗?zāi)軌蜻_(dá)到某種目的的程度。 效度的特性 效度無法直接測量,但可從其他資料推論。因此使用者必須審慎判斷效度的證據(jù)是否適當(dāng)或令人滿意。 效度的判斷,主要依據(jù)測驗分?jǐn)?shù)的使用目的,或測驗結(jié)果的解釋。因此,效度是屬於測驗的結(jié)果,而非測驗工具本身。因此,效度稱為測驗結(jié)果的效度或測驗結(jié)果解釋的效度,更為適當(dāng)。 效度的特性 效度是程度上的差別,而非全有或全無的問題。因此選擇測驗時,應(yīng)考慮測驗是否適合使用的需要?如果是,其效度有多高?在甚麼情境下有效? 效度在使用的目的和情境方面具有特殊性,不宜視為普遍性的特質(zhì)。對某個目的可能有很高的效度,對另一個目的可能很低。因此選擇測驗時,應(yīng)依據(jù)使用的獨特目的而選用具有適當(dāng)效度資料的測驗。 效度的理論
一個測驗的總變異量包含三個部分 Sx ²=Sco ² +Ssp ² +Se ² Sx ² 總變異量 Sco ² 共同因素變異量 Ssp² 獨特變異量 Se ² 誤差變異量 效度的理論
共同因素 指某個測驗的變異量和其他測驗的變異量所共同分享的部分。易言之,就是指兩個或兩個以上的測驗所有的共同因素。 獨特因素 指某測驗的系統(tǒng)變異量,義及非由其他測驗所分享的部分。 效度的理論
Sx ²/Sx ² =Sco ² /Sx ² +Ssp ² /Sx ² +Se ² /Sx ² 效度可界定為由共同因素所造成的變異量比率。
Val.=Sco ² /Sx ² =1-Ssp ² /Sx ² -Se ² /Sx ² 效度的種類 測驗效度既然要視測驗達(dá)到其使用目的的程度而定,評估一個測驗的效度因而不能只看效度的高低,尚需考慮資料是否適合使用的目的。 美國心理學(xué)會依目的分為 內(nèi)容效度 效標(biāo)關(guān)聯(lián)效度 構(gòu)念效度 內(nèi)容效度的意義 指測驗內(nèi)容的代表性或取樣的適切性。 考量成就測驗的內(nèi)容效度,需考慮題目能否代表以下因素
教學(xué)目標(biāo) 教材內(nèi)容 判斷內(nèi)容效度的方法
內(nèi)容效度沒有一個數(shù)量的表示方法,他的確定主要是採用邏輯的分析方法,仔細(xì)判斷每一個題目是否符合教材內(nèi)容與教學(xué)目標(biāo)。 如果測驗的題目很能代表教材內(nèi)容的樣本,及所預(yù)期的行為改變,而沒有其他無關(guān)因素(如閱讀能力或指導(dǎo)語不清楚)的影響,則表示測驗有良好的內(nèi)容效度。 所以又稱合理或邏輯的效度 。 判斷內(nèi)容效度的方法
雙向細(xì)目表 教材的內(nèi)容與教學(xué)的目標(biāo) 專家判斷 複本的編制 兩組人編制兩套試題,如果兩份內(nèi)容大致符合,則表示測驗內(nèi)容適當(dāng)。 內(nèi)容效度的應(yīng)用 內(nèi)容效度最適合於成就測驗的效度考驗。 因為內(nèi)容效度可以解答成就測驗效度的基本問題: 測驗是否涵蓋特定的技能與知識的代表性樣本? 測驗成績是否不受無關(guān)因素的影響? 此外,成就測驗具有獨特的教材內(nèi)容與學(xué)習(xí)經(jīng)驗,測驗內(nèi)容從中選擇出來,較易從事邏輯的分析和合理的判斷 。 表面效度
表面效度缺乏系統(tǒng)的邏輯分析,他只是指測驗給人的第一個印象好像測量甚麼東西,而不是指測驗事實上能測量到甚麼東西。 一般而言,具有內(nèi)容效度的測驗,通常也具有表面效度,反之卻不盡然。 但表面效度對一個測驗來說,仍然是很重要的,因為具有表面效度,可使受試者感到親切感,並願意合作。 效標(biāo)關(guān)聯(lián)效度
以經(jīng)驗性的方法,研究測驗分?jǐn)?shù)與一些外在效標(biāo)間的關(guān)係,故又可稱為經(jīng)驗效度或統(tǒng)計效度。 如果測驗分?jǐn)?shù)和外在效標(biāo)的相關(guān)愈高,表示測驗愈能有效預(yù)測外在效標(biāo)。 外在效標(biāo)指測驗所要預(yù)測的某些行為或量數(shù)。學(xué)業(yè)性向測驗以學(xué)校的學(xué)業(yè)成績作為效標(biāo)。 同時效度與預(yù)測效度 同時效度 指測驗分?jǐn)?shù)與實施測驗同一個時間所取得的效標(biāo)之間的相關(guān),旨在使用測驗分?jǐn)?shù)估計個人在效標(biāo)方面的目前實際表現(xiàn)。 新編職業(yè)測驗 目前工作成績 新編生物成就測驗 在校生物月考成績 易於取得,故較易於考驗。此種效度可用來取代收集資料的複雜方法。 預(yù)測效度
指測驗分?jǐn)?shù)與實施測驗後一段時間所取得的效標(biāo)之間的相關(guān),旨在使用測驗分?jǐn)?shù)預(yù)測個人在效標(biāo)方面的未來表現(xiàn)。 新編職業(yè)測驗 錄取後一段時間後的工作成績 預(yù)測效度對於人員選擇與分類的測驗最為適當(dāng)。 性向測驗 智力測驗 成就測驗 同時效度與預(yù)測效度的不同
效標(biāo)取得的時間不同。 同時 隔一段時間 測驗的目的不同。 估計目前的情形 預(yù)測未來的行為 效標(biāo)的特性
適切性 能反映測驗所欲測量的重要特徵,這沒有經(jīng)驗的證據(jù),只有依賴價值的判斷。 可靠性
效標(biāo)資料具有可靠性,否則如何被預(yù)測。 效標(biāo)的特性
客觀性 能避免偏差: 系統(tǒng)性的偏差 避免效標(biāo)混淆: 使參與效標(biāo)評定的人不知受試者的測驗成績 可用性
時間 經(jīng)費 效標(biāo)的種類
學(xué)業(yè)成就 智力測驗 特殊化的訓(xùn)練成績 性向測驗 實際的工作成績 性向測驗 對照團(tuán)體 性向測驗 精神病學(xué)的診斷 人格測驗 評定成績(Rating) 人格測驗 先前有效的測驗 新編測驗 預(yù)期表
效標(biāo)關(guān)聯(lián)效度的一種表示方法,比相關(guān)係數(shù)更容易瞭解測驗分?jǐn)?shù)與效標(biāo)之間的關(guān)係。 構(gòu)念效度的意義 構(gòu)念效度指測驗?zāi)軌驕y量到理論上的構(gòu)念或特質(zhì)的程度。易言之就是指測驗分?jǐn)?shù)能夠依據(jù)某種心理學(xué)的理論構(gòu)念加以解釋的程度。因此凡是根據(jù)心理學(xué)的構(gòu)念,對測驗分?jǐn)?shù)的意義所做的分析和解試,即為構(gòu)念效度。 構(gòu)念效度的意義 構(gòu)念(construct)是心理學(xué)上的一種理論構(gòu)想或特質(zhì),他是觀察不到的,但心理學(xué)假設(shè)他是存在的,以便解釋一些個人的行為。像智力 性向 動機(jī) 焦慮 批判思考 社會性 內(nèi)向性 或 機(jī)械性向等均為心理學(xué)上的理論構(gòu)念或假設(shè)性的概念。 這些構(gòu)念都有其心理學(xué)上的理論基礎(chǔ),依據(jù)其理論可以預(yù)測人類的行為,而提出行為上的假設(shè),然後加以驗證。 構(gòu)念效度一般發(fā)展步驟
1. 根據(jù)構(gòu)念的理論分析,發(fā)展一套測量的題目。構(gòu)念 行為 題目 2. 提出可考驗構(gòu)念與其他變項間關(guān)係的預(yù)測。 3. 從事實證性的研究以驗證上述的預(yù)測。 4. 淘汰和理論的構(gòu)念相反的題目,或重新從預(yù)測開始修正。若再得負(fù)向支持,則可能測驗真的缺乏效度或理論有問題。 新編智力測驗的構(gòu)念效度之考驗方法 從智力這個夠念的有關(guān)理論可預(yù)測 1. 測驗分?jǐn)?shù)在發(fā)展成熟之前,隨年齡增長。 2. 測驗分?jǐn)?shù)可預(yù)測學(xué)業(yè)成就。 3. 測驗分?jǐn)?shù)和教師評定的智力等級有鄭相關(guān)。 4. 測驗分?jǐn)?shù)可以鑑別不同能力的團(tuán)體,如資優(yōu)或智能不足者。 5. 測驗分?jǐn)?shù)受直接教學(xué)影響不大。 新編智力測驗的構(gòu)念效度之考驗方法
以上五個預(yù)測可以採用實證的方法收集證據(jù),逐一予以驗證。 正向支持則智力測驗所測得的東西和理論的構(gòu)念符合一致。 負(fù)向支持則需重新從預(yù)測開始修正,再得負(fù)向支持,則可能測驗缺乏效度或理論有問題。 獲得構(gòu)念效度證據(jù)的方法 構(gòu)念效度是一個範(fàn)圍很廣的概念,涵蓋內(nèi)容效度與效標(biāo)關(guān)聯(lián)效度,故有關(guān)內(nèi)容效度的資料,均可用來作為分析構(gòu)念效度的證據(jù)。 構(gòu)念效度的考驗需要從許多不同的資料來源中,逐步累積兼顧邏輯分析與經(jīng)驗分析的方法。 相關(guān)研究--獲得構(gòu)念效度證據(jù)的方法一 新編測驗和已經(jīng)公認(rèn)有效的類似測驗的相關(guān),常用來作為新編測驗也能測量相關(guān)特質(zhì)的依據(jù)。 新智力測驗----就智力測驗 計算新編測驗和測驗不同特質(zhì)的其他測驗的(沒有)相關(guān),以說明新測驗沒有受到無關(guān)因素的影響。 智力測驗----閱讀能力測驗 團(tuán)體差異分析--獲得構(gòu)念效度證據(jù)的方法二 測驗分?jǐn)?shù)因團(tuán)體的特性不同而異。 生物成就測驗 研究生分?jǐn)?shù)>大三學(xué)生>大一學(xué)生 實驗研究--獲得構(gòu)念效度證據(jù)的方法三
比較實驗處理前後的分?jǐn)?shù)差異。 內(nèi)部一致性分析--獲得構(gòu)念效度證據(jù)的方法四
此法的特徵是以測驗本身的總分為效標(biāo)。 對照團(tuán)體法 分析高低分組在每題題目的通過比例 相關(guān)方法 計算每一題目通過-失敗和總分的系列相關(guān) 計算分測驗與總分的相關(guān) 相關(guān)高則內(nèi)部一致性好 分測驗的相關(guān)高好?還是低好? 因素分析--獲得構(gòu)念效度證據(jù)的方法五
藉著共同因素的發(fā)現(xiàn)而確定觀念的結(jié)構(gòu)成分,以認(rèn)定心理學(xué)上的特質(zhì)。 40個題目的量表最多可抽出40個因素,但也可以只抽一個因素。由統(tǒng)計來決定。 因素負(fù)荷 每個題目和共同因素的相關(guān) 共同性 將各題在所有共同因素上的負(fù)荷量平方和。 因素分析摘要表 題目 共同因素 共同性(h2) A B 1 .83 .01 0.6890 2 .79 .10 0.6341 3 .70 .10 0.5000 4 .10 .70 0.5000 5 .10 .79 0.6341 6 .01 .83 0.6890 平方和 1.8231 1.8231 3.6462 因素分析摘要表 題1 0.832 +0.012 =0.6890 表示第一題的總變異量中,有68.9%由A與B兩個共同因素所造成的。其中A較重要而B較不重要。 在從A和B因素的平方何來看,均為1.8231,表示這兩個因素對測驗總分具有同樣的重要性。 多項特質(zhì)--多項方法分析--獲得構(gòu)念效度證據(jù)的方法六 Multitrait-multimethod approach 主要是用來建立區(qū)別性效度(discriminant validity)和輻合性效度(convergent validity)的主要方法。 區(qū)別性效度:測驗分?jǐn)?shù)要與測量相同構(gòu)念或特質(zhì)的其他測驗的分?jǐn)?shù)有高的相關(guān) 輻合性效度:測驗分?jǐn)?shù)要與測量不同構(gòu)念或特質(zhì)的其他測驗的分?jǐn)?shù)有低的相關(guān) 多項特質(zhì)--多項方法分析--獲得構(gòu)念效度證據(jù)的方法六 採用多項特質(zhì)--多項方法分析的基本條件 必須有兩種以上的測量方法測量兩種以上的特質(zhì),其所測量的特質(zhì)均一樣。 方法:M1. 人格量表 M2. 教師評定 特質(zhì):A. 成就性 B. 社會性 C. 獨立性 多項特質(zhì)--多項方法分析--獲得構(gòu)念效度證據(jù)的方法六 相同方法相同特質(zhì): 信度 高 相同方法不同特質(zhì): 區(qū)別性效度 低 不同方法相同特質(zhì): 輻合性效度 高 不同方法不同特質(zhì): 區(qū)別性效度 低 課本小錯誤 p.109 方法難 因素分析 多項特質(zhì)--多項方法分析 量化的觀念,較難,但較具有說服力
影響效度的因素 測驗品質(zhì) 指導(dǎo)語 用字 題目難度 暗示 測驗實施 物理條件 心理條件 受試者的因素 身心狀況 反應(yīng)(答題)模式 影響效度的因素
效標(biāo)的品質(zhì) 效標(biāo)與測驗分?jǐn)?shù)的關(guān)係 效標(biāo)的可靠性(信度) 團(tuán)體的性質(zhì) 同質(zhì)性太高 The end!
效度與信度的關(guān)係 信度是效度的必要條件而非充分條件 效度--->信度
信度 穩(wěn)定度
效度 準(zhǔn)確性 效度與信度的關(guān)係 效度與信度的變異數(shù)關(guān)係 效度係數(shù)的絕對值不會大於信度係數(shù)的平方根 效度的解釋與應(yīng)用 效度與效標(biāo)分?jǐn)?shù)的預(yù)測 效度與人員的選擇 效度與效標(biāo)分?jǐn)?shù)的預(yù)測 迴歸公式 Y= aX+b 估計標(biāo)準(zhǔn)誤
Sest.y=Sy 根號(1- rxy2) 範(fàn)圍=M±Z x Sest.y 效度與人員的選擇 錯誤的接受與拒絕 效度與人員的選擇 基準(zhǔn)比率 效度與人員的選擇
選擇比率
效度與人員的選擇
效度 選擇比率與正確選擇的關(guān)係 |
|
|