1.本課題國(guó)內(nèi)外研究現(xiàn)狀述評(píng),選題的價(jià)值和意義。2.本課題研究的主要內(nèi)容、基本觀點(diǎn)、研究思路、研究方法、創(chuàng)新之處。3.前期相關(guān)研究成果,開(kāi)展本課題研究的主要參考文獻(xiàn)。限4000字以內(nèi)。 1.1 本課題國(guó)內(nèi)外研究現(xiàn)狀述評(píng) ·效度理論 效度(validity)是測(cè)試評(píng)價(jià)中最重要的考慮因素(APA/AERA/NCME 1985)。較早的效度定義為“一項(xiàng)測(cè)試是否測(cè)量了它所要測(cè)量的東西”(Kelly 1927:14)。自20世紀(jì)60年代以來(lái),語(yǔ)言測(cè)試與評(píng)價(jià)的研究一直圍繞效度展開(kāi)(Kunnan 1998),效度理論取得了從“分類效度觀”到“整體效度觀”的重大發(fā)展。分類效度觀(Lado 1961)認(rèn)為效度可分為效標(biāo)關(guān)聯(lián)效度、內(nèi)容效度、構(gòu)念效度等多種類型(APA/AERA/NCME 1966, 1974)。其驗(yàn)證操作性強(qiáng),但比較零散,且未考慮收集分?jǐn)?shù)使用等方面的證據(jù)。整體效度觀給出了具有突破意義的效度定義,即“對(duì)經(jīng)驗(yàn)證據(jù)和理論依據(jù)在多大程度上支持分?jǐn)?shù)的解釋與使用進(jìn)行的綜合評(píng)價(jià)就是效度”(Messick 1989:13)。這種“一元多維”的效度觀確定了構(gòu)念的核心地位(Alderson & Banerjee 2001),明確了效度驗(yàn)證的對(duì)象是測(cè)試結(jié)果的解釋和使用(Davies 2003)。 ·效度驗(yàn)證模式 整體效度觀給語(yǔ)言測(cè)試的開(kāi)發(fā)與研究帶來(lái)了重大變革,但該理論高度概括、過(guò)于抽象,使效度驗(yàn)證缺乏可操作性。近年來(lái)更多的語(yǔ)言測(cè)試學(xué)家根據(jù)該理論提出了一些具體的效度驗(yàn)證框架:(1)“交際語(yǔ)言能力模型”和“測(cè)試方法層面框架”(Bachman 1990)為效度驗(yàn)證開(kāi)啟了新視角,Bachman et al.(1995)運(yùn)用該框架對(duì)CPE、FCE、TOEFL三項(xiàng)考試所考查的能力和測(cè)試任務(wù)特征做了分析,并對(duì)框架進(jìn)行了完善。(2)“測(cè)試有用性框架”(Bachman & Palmer 1996)涵蓋信度、構(gòu)念效度、真實(shí)性、交互性、考試影響和可行性六個(gè)質(zhì)量屬性,進(jìn)一步闡釋了Messick的效度理論。該框架可操作性強(qiáng),但質(zhì)量屬性之間的關(guān)聯(lián)不甚明確(韓寶成、羅凱洲 2013)。(3)“基于論證的效驗(yàn)?zāi)J健?/span>(Kane 1992)與整體效度觀一脈相承,包括兩個(gè)步驟:提出效驗(yàn)觀點(diǎn)、收集有關(guān)證據(jù)。Chapelle et al.(2008)運(yùn)用該模式論證了TOEFL iBT的效度。(4)“測(cè)試使用論證框架”(Bachman 2003)發(fā)展了Kane的效度論證觀。該框架遵循“事實(shí)à主張”的推理機(jī)制,包含構(gòu)建與評(píng)價(jià)兩個(gè)過(guò)程(Bachman & Palmer 2010)。不過(guò)其架構(gòu)(后果、決策、解釋、測(cè)試記錄)比較抽象,能否成為指導(dǎo)測(cè)試開(kāi)發(fā)與使用的新范式有待檢驗(yàn)。(5)“基于證據(jù)的效驗(yàn)框架”(Weir 2005)從社會(huì)認(rèn)知視角出發(fā),涵蓋五個(gè)方面的效驗(yàn)證據(jù):基于理論的效度、環(huán)境效度、評(píng)分效度、效標(biāo)關(guān)聯(lián)效度和后果效度,可操作性較強(qiáng),并在劍橋主體證書(shū)考試(KET、PET、FCE、CAE、CPE)的效度對(duì)比研究中得到豐富和完善,將基于理論的效度更名為認(rèn)知效度,受試特征也成為效驗(yàn)證據(jù)很重要的方面(Shaw & Weir 2007;Khalifa & Weir 2009;Taylor 2011;Geranpayeh & Taylor 2013)。 目前關(guān)于效度理論和驗(yàn)證模式的研究主要集中在國(guó)外,國(guó)內(nèi)類似的研究還處于起步階段,主要是對(duì)國(guó)外相關(guān)領(lǐng)域的發(fā)展進(jìn)行引介和評(píng)述(李清華 2006;韓寶成、羅凱洲 2013)。 ·三項(xiàng)考試的研究及存在的不足 本研究所涉及的大學(xué)英語(yǔ)四六級(jí)(以下簡(jiǎn)稱四六級(jí))、雅思、托福是全球極具代表性的語(yǔ)言考試。三項(xiàng)考試規(guī)模大、風(fēng)險(xiǎn)高、影響廣,相關(guān)研究比較豐富,主要涵蓋以下方面(括號(hào)中的文獻(xiàn)僅為部分舉例):(1)四六級(jí)的整體效度研究(楊惠中 & Weir 1998;Jin & Yang 2006)、各單項(xiàng)技能及題型研究(金艷、吳江1997, 1998;He & Dai 2006)、評(píng)分與網(wǎng)考研究(朱正才2005;王躍武等2006;金艷2012)、反撥效應(yīng)及考試影響研究(Chen 2007;辜向東 2007, 2013)。(2)雅思的開(kāi)發(fā)及效度驗(yàn)證(Clapham 1996;Davies 2008;Taylor & Weir 2012)、考官與評(píng)分(Furneaux & Rignall 2007;Huang 2013)、反撥效應(yīng)及考試影響(Roger 2006;Saville 2014)。(3)托福的效度論證(Chapelle et al. 2008;Stricker & Attali 2010;Biber & Gray 2013)、網(wǎng)考設(shè)計(jì)(Roever & Powers 2006;Sawaki et al. 2009;Zhao 2013)、公平性與可及性(Wolfe & Manalo 2005;Lee et al. 2014)、評(píng)分與技術(shù)應(yīng)用(Weigle 2011;Xi et al. 2012)、信度與可推廣性(Lee 2005;Zhang 2008)、分?jǐn)?shù)解釋(Tannenbaum & Wylie 2008;Jamieson & Poonpon 2013)。 盡管關(guān)于三項(xiàng)考試研究的文獻(xiàn)比較豐富,但將這些研究組織起來(lái)、形成有關(guān)聯(lián)和強(qiáng)有力的論證的文獻(xiàn)還很缺乏。涉及三項(xiàng)考試中任何一項(xiàng)的考試效度對(duì)比研究,尤其是實(shí)證研究也相當(dāng)少?,F(xiàn)有的對(duì)比研究多集中在分?jǐn)?shù)等值方面(Taylor 2004),但事實(shí)上還有其他很多方面需要對(duì)比,如考試內(nèi)容與測(cè)試表現(xiàn)的關(guān)系、受試特征與測(cè)試表現(xiàn)的關(guān)系、受試報(bào)告的考試策略與測(cè)試表現(xiàn)的關(guān)系等(Bachman et al. 1995)。此外,幾乎沒(méi)有將我國(guó)的考試與國(guó)際權(quán)威考試進(jìn)行較全面的效度對(duì)比研究文獻(xiàn),現(xiàn)有的文獻(xiàn)只是就兩項(xiàng)或三項(xiàng)考試的某一技能、題型或考試媒介等做初步探討(王麗2007;李鑫、修旭東2009;仇茵晴、張艷莉2011;金艷、張曉藝2013),全面系統(tǒng)的考試效度對(duì)比研究亟待開(kāi)展。 1.2選題的價(jià)值和意義 ·學(xué)科理論與實(shí)踐價(jià)值 理論上,驗(yàn)證基于證據(jù)的效度驗(yàn)證框架在考試效度對(duì)比研究中的可行性,并進(jìn)一步構(gòu)建更加科學(xué)合理的語(yǔ)言測(cè)試效度對(duì)比研究模型。實(shí)踐上,通過(guò)對(duì)比三項(xiàng)考試的效度,形成將三項(xiàng)考試關(guān)聯(lián)起來(lái)的論證。這不僅可以豐富考試對(duì)比研究領(lǐng)域的文獻(xiàn),而且能為類似的研究提供思路和方法上的借鑒。 ·社會(huì)和現(xiàn)實(shí)意義 一方面,本研究有助于推動(dòng)我國(guó)語(yǔ)言測(cè)試開(kāi)發(fā)與研究的國(guó)際化,有望提升我國(guó)自行開(kāi)發(fā)的英語(yǔ)考試在國(guó)際上的認(rèn)可度,為教育、人事部門(mén)及廣大利益相關(guān)者提供入學(xué)、就業(yè)、流動(dòng)等決策依據(jù);另一方面,由于我國(guó)英語(yǔ)教學(xué)層次復(fù)雜、考試種類繁多,近年來(lái)關(guān)于制定我國(guó)統(tǒng)一的語(yǔ)言能力等級(jí)量表(韓寶成 2006;楊惠中等 2012)和語(yǔ)言測(cè)試標(biāo)準(zhǔn)(范勁松、金艷2010)的呼聲越來(lái)越高,而本研究中的雅思和托福均已實(shí)現(xiàn)與國(guó)際公認(rèn)的語(yǔ)言能力標(biāo)準(zhǔn)(ACTFL1986;CEFR 2001)對(duì)接,其開(kāi)發(fā)與使用也遵循了國(guó)際公認(rèn)的語(yǔ)言測(cè)試標(biāo)準(zhǔn)(ETS 2002;UCLES 2013),因此三項(xiàng)考試的效度對(duì)比研究有望為制定我國(guó)統(tǒng)一的語(yǔ)言能力等級(jí)量表和語(yǔ)言測(cè)試標(biāo)準(zhǔn)提供參考數(shù)據(jù)。 2.1本課題研究的主要內(nèi)容 本課題擬從Weir(2005)“基于證據(jù)的效度驗(yàn)證框架”出發(fā),從六個(gè)方面對(duì)四六級(jí)、雅思、托福進(jìn)行較全面深入的考試效度對(duì)比研究。具體內(nèi)容和研究問(wèn)題如下: 受試特征:三項(xiàng)考試涉及受試的哪些生理、心理和體驗(yàn)特征? 環(huán)境效度:三項(xiàng)考試測(cè)試任務(wù)的環(huán)境和操作對(duì)所有受試是否公平? 認(rèn)知效度:受試完成三項(xiàng)考試測(cè)試任務(wù)的認(rèn)知過(guò)程和交互活動(dòng)是否真實(shí)? 評(píng)分效度:三項(xiàng)考試的評(píng)分及考試分?jǐn)?shù)在多大程度上是可靠的? 后果效度:三項(xiàng)考試對(duì)受試的心理狀態(tài)和學(xué)習(xí)過(guò)程產(chǎn)生了什么影響? 效標(biāo)關(guān)聯(lián)效度:三項(xiàng)考試的分?jǐn)?shù)是否一致性較高?是否可以進(jìn)行等值?
這些具體內(nèi)容和研究問(wèn)題最終指向并回答一個(gè)總的問(wèn)題:三項(xiàng)考試的效度有何異同? 2.2 基本觀點(diǎn) 盡管四六級(jí)、雅思、托福這三項(xiàng)考試的目的、性質(zhì)、構(gòu)念、分?jǐn)?shù)解釋和結(jié)果使用等諸多方面存在不同,但三項(xiàng)考試都是以英語(yǔ)為外語(yǔ)或二語(yǔ)的大規(guī)模、高風(fēng)險(xiǎn)語(yǔ)言考試,受試將接受或正在接受高等教育,三項(xiàng)考試應(yīng)該具有可比性,三者的效度應(yīng)該既有較大的相似性,也存在一定的差異。而實(shí)際情況是否如此,有待進(jìn)行全面深入的實(shí)證研究。 2.3研究思路和方法 本課題擬分五個(gè)階段,采用七種方法收集三項(xiàng)考試六個(gè)方面的效度證據(jù)(見(jiàn)圖1)。

圖1 四六級(jí)、雅思、托??荚囆Ф葘?duì)比研究總體設(shè)計(jì)
具體方法和思路描述如下: 文獻(xiàn)法:通過(guò)研讀與研討大量文獻(xiàn),對(duì)現(xiàn)有理論和框架進(jìn)行梳理,進(jìn)一步構(gòu)建科學(xué)合理的考試效度對(duì)比框架和細(xì)目,并在實(shí)際操作中不斷完善。 專家判斷:專家組運(yùn)用構(gòu)建的框架和細(xì)目評(píng)測(cè)三項(xiàng)考試的任務(wù)與構(gòu)念的對(duì)應(yīng)關(guān)系。為確保專家評(píng)定的內(nèi)外部一致性,采用多人交叉和多次評(píng)定相結(jié)合的方法。 測(cè)試法:用三項(xiàng)考試的真題或樣題對(duì)同一組受試(200-300人)進(jìn)行測(cè)試,用項(xiàng)目反應(yīng)理論、結(jié)構(gòu)方程模型等方法分析數(shù)據(jù)。 有聲思維:用一組受試(3-9人)做有聲思維的實(shí)驗(yàn),報(bào)告他們完成三項(xiàng)考試同一項(xiàng)技能(閱讀、聽(tīng)力)任務(wù)的答題過(guò)程,研究他們的認(rèn)知過(guò)程和策略使用。 眼動(dòng)實(shí)驗(yàn):采用眼動(dòng)實(shí)驗(yàn)法記錄一組受試(3-9人)在考試中的眼球注視位置、時(shí)間和眼動(dòng)軌跡等數(shù)據(jù),進(jìn)而探測(cè)其認(rèn)知過(guò)程。 問(wèn)卷調(diào)查:在三項(xiàng)考試的考點(diǎn)對(duì)實(shí)際參加考試的受試(200-300人)進(jìn)行問(wèn)卷調(diào)查,了解這些受試的特征及考試對(duì)他們的影響。 深度訪談:對(duì)受試(20-30人)、考官(10-20人)、考試培訓(xùn)機(jī)構(gòu)的相關(guān)人員(10-20人)進(jìn)行半結(jié)構(gòu)式深度訪談,了解考試對(duì)個(gè)體、機(jī)構(gòu)乃至社會(huì)的宏觀與微觀影響。
2.4 創(chuàng)新之處 1) 選題新穎:在我國(guó),將國(guó)內(nèi)極具影響的考試與國(guó)際權(quán)威考試進(jìn)行較全面系統(tǒng)深入的效度對(duì)比研究尚屬首例。 2)內(nèi)容全面:研究?jī)?nèi)容不僅包括效度對(duì)比框架的理論建構(gòu),而且涉及三項(xiàng)考試效度的實(shí)證對(duì)比,具體內(nèi)容涵蓋受試特征、測(cè)試任務(wù)、環(huán)境與操作、完成測(cè)試任務(wù)的認(rèn)知過(guò)程、交互活動(dòng)、分?jǐn)?shù)解釋、考試影響等。 3)方法多樣:除效度對(duì)比研究中常用的測(cè)試法和專家判斷,本課題還將采用文獻(xiàn)法、問(wèn)卷調(diào)查、深度訪談、有聲思維和眼動(dòng)實(shí)驗(yàn),特別是有聲思維和眼動(dòng)實(shí)驗(yàn)被首度用于測(cè)試效度對(duì)比研究。 3.1 前期相關(guān)研究成果 ·課題負(fù)責(zé)人前期相關(guān)研究成果:四六級(jí)專著2部、論文42篇,其中效度研究25篇、第一作者33篇、CSSCI 8篇、核心10篇;其他考試文集1部、論文40篇,其中效度研究22篇、第一作者33篇、CSSCI 4篇、核心3篇。代表性成果有: 1) 辜向東。(2002)。懷疑與誤解——評(píng)《文匯報(bào)》文章“要素質(zhì)還是應(yīng)試?《外語(yǔ)界》第六期:66-70。(CSSCI) 2) 辜向東。 (2003)。在大學(xué)英語(yǔ)四六級(jí)考試中增加快速閱讀的必要性?!吨袊?guó)英語(yǔ)教學(xué)》第二期:2-4, 8。(CET改革采納) 3) 辜向東。(2007)?!?/span>正面的還是負(fù)面的—大學(xué)英語(yǔ)四六級(jí)考試反撥效應(yīng)實(shí)證研究》。重慶:重慶大學(xué)出版社。(博士論文專著) 4) 辜向東。(2008)。《高考英語(yǔ)全國(guó)卷與各省市自主命題卷共時(shí)與歷時(shí)研究》。成都:四川大學(xué)出版社。(學(xué)術(shù)文集) 5) 辜向東。(2013)。劍橋商務(wù)英語(yǔ)在中國(guó)的影響。(研究報(bào)告,劍橋大學(xué)外語(yǔ)考試部采納) 6)辜向東等。(2013)?!洞髮W(xué)英語(yǔ)四六級(jí)考試反撥效應(yīng)歷時(shí)研究》(上、下卷)。成都:四川大學(xué)出版社。(國(guó)家社科項(xiàng)目結(jié)題專著) 7)辜向東,李亞果。(2010)。改革后CET聽(tīng)力測(cè)試語(yǔ)篇輸入與預(yù)期回答任務(wù)特征分析。《西安外國(guó)語(yǔ)大學(xué)學(xué)報(bào)》第六期:71-74。(核心) 8)辜向東,李志芳,張書(shū)奎。(2009)。大學(xué)英語(yǔ)四級(jí)考試快速閱讀部分內(nèi)容效度研究。《西南民族大學(xué)學(xué)報(bào)》第一期:258-263。(CSSCI) 9)辜向東,彭瑩瑩。(2010)。大學(xué)英語(yǔ)教師對(duì)CET認(rèn)識(shí)的反撥效應(yīng)歷時(shí)研究?!?/span>外語(yǔ)與外語(yǔ)教學(xué)》第六期:37-41。(CSSCI) 10) 辜向東,楊志強(qiáng)。(2009)。CET二十年寫(xiě)作試題分析與研究?!?/span>外語(yǔ)與外語(yǔ)教學(xué)》第六期:21-26。(CSSCI) ·課題組前期相關(guān)研究成果:雅思和托??荚囌撐?/span>64篇、研究報(bào)告28分,其中效度研究78篇、第一作者48篇、SSCI 8篇;其他考試專著1部、論文62篇、研究報(bào)告3份,其中效度研究42篇、第一作者47篇、SSCI 6篇、CSSCI 5篇、核心5篇。代表性成果有: Fan, J. & Jin, Y. (2011). Test for English Majors (TEM) in China. Language Testing, 28(4), 589-596. (SSCI) Xi, X. (2007). Evaluating analytic scoring for the TOEFL? Academic Speaking Test (TAST) for operational use. Language Testing, 24(2), 251-286. (SSCI) Xi, X. (2007). Validating TOEFL? iBT speaking and setting score requirements for ITA screening. Language Assessment Quarterly, 4(4), 318-351. (SSCI) Xi, X. (2010). How do we go about investigating test fairness? Language Testing, 27(2), 147-170. (SSCI) Yu, G. (2010). Lexical diversity in writing and speaking task performances. Applied Linguistics, 31(2), 236-259. (SSCI) Yu, G. (2012) The cognitive processes of taking IELTS academic writing task one. Funded by IELTS partners - British Council. (研究報(bào)告) 范勁松,金艷。(2010)。語(yǔ)言測(cè)試的標(biāo)準(zhǔn)研究:回顧、反思與啟迪。《外語(yǔ)界》第一期:82-91。(CSSCI) 黃萍。(2001)。大學(xué)專業(yè)英語(yǔ)的測(cè)試信度與效度研究?!?/span>外語(yǔ)與外語(yǔ)教學(xué)》第十一期:6-8。(CSSCI) 汪順玉。(2009)。《語(yǔ)言測(cè)試構(gòu)念效度研究》。成都:四川大學(xué)出版社。(專著) 汪順玉,席仲恩。(2008)。復(fù)雜結(jié)構(gòu)語(yǔ)言測(cè)試信度的多元概化分析—以CET-6數(shù)據(jù)分析為例?!吨貞c大學(xué)學(xué)報(bào)》第六期:130-135。(核心) 開(kāi)展本課題研究的主要參考文獻(xiàn)
[1] AERA, APA, & NCME. (1985, 1999). Standards for Educational and Psychological Testing. Washington, DC: APA. [2] Bachman, L.F., & Palmer, A. (2010). Language Assessment in Practice: Developing language assessments and justifying their use in the real world. Oxford: Oxford University Press. [3] Cho, Y. et al. (2013). Investigating the effects of prompt characteristics on the comparability of TOEFL iBT? integrated writing tasks. Language Testing, 30(4), 513-534. [4] IELTS Research Reports & Online Series (1998-2014), retrieved from http://www./researchers/research.aspx [5] Messick, S. (1989). Validity. In R. L. Linn (ed.). Educational Measurement (3rd edition). New York: Macmillan. [6]TOEFL iBT? Reserach Insight Series. Vol.1-Vol.6 Retrieved from http://www./toefl/research/ibt_insight_series/ [7] Weir, J. C. (2005). Language Testing and Validation: An Evidence-Based Approach. Basingstoke: Palgrave Macmillan. [8] Weir, J. C. et al. (2013). Measured Constructs. Cambridge: Cambridge University Press. [9] Xi, X. (2007). Validating TOEFL? iBT speaking and setting score requirements for ITA screening. Language Assessment Quarterly, 4(4), 318-351. [10]Allami, H., & Aghajari, J. (2014). Pragmatic knowledge assessment in listening sections of IELTS tests. Theory and Practice in Language Studies, 4(2), 332-340. [11]范勁松,金艷。(2010)。語(yǔ)言測(cè)試標(biāo)準(zhǔn)研究:回顧、反思和啟迪?!锻庹Z(yǔ)界》第一期:82-91。 [12]韓寶成,羅凱洲。(2013)。語(yǔ)言測(cè)試效度及其驗(yàn)證模式的嬗變。《外語(yǔ)教學(xué)與研究》第三期: 411-425。 [13]金艷,張曉藝。(2013)。技能綜合對(duì)語(yǔ)言測(cè)試構(gòu)念效度的影響—培生英語(yǔ)考試與大學(xué)英語(yǔ)六級(jí)網(wǎng)考的對(duì)比研究?!?/span>外語(yǔ)電化教學(xué)》第六期:3-10。 [14]李清華。(2007)。《語(yǔ)言測(cè)試與效度驗(yàn)證—基于證據(jù)的研究方法》述介?!冬F(xiàn)代外語(yǔ)》第二期:214-217。 [15]楊惠中& Weir, J. C. (1998)?!洞髮W(xué)英語(yǔ)四六級(jí)考試效度研究》。上海:上海外語(yǔ)教育出版社。 |