期刊好文 | 中国语言测试理论与实践发展40年——回顾与展望（文/金艳、孙航）

外研社外语学术科研

中国语言测试理论与实践发展40年——回顾与展望

金艳、孙杭

上海交通大学外国语学院

金艳（上海交通大学教授，博士生导师）

自2004年起由教育部高等教育司任命，担任全国大学英语四、六级考试委员会主任，参与并主持了四、六级考试（包括英语、日语、俄语、德语、法语）的开发、试点、实施、改进的整个过程。同时，本人于2013年至2018年，由教育部任命担任全国大学外语教学指导委员会副主任，2019年起继续担任本届教指委的副主任，负责教学评估和测试部分的工作。教指委的任职帮助我更好地了解大学生英语学习的需求，更多地思考考试改革如何更好地服务教学。目前，四、六级考试已经成功运行了32年，每年两次笔试和两次口试，考生规模超过2000多万，成为具有国内和国际影响力、全球规模最大的外语考试项目。

摘要：本文回顾我国改革开放40年来语言测试的发展历程，总结具有中国特色的语言测试理论和实践经验，并展望我国语言测试理论和实践的发展方向。本文分为三个主要部分：首先，作者界定了语言测试的研究范畴，提出了语言测试所包含的主要维度；其次，作者依据语言测试研究范畴的分析框架，分析了我国语言测试领域的主要发展阶段以及各个阶段的特征；最后，作者阐述了我国语言测试有待解决的重大问题，并对我国语言测试理论与实践的进一步发展提出了建议。

关键词：中国语言测试；理论与实践；40年；回顾与展望

文献来源：金艳，孙杭. 中国语言测试理论与实践发展40年——回顾与展望[J]. 中国外语, 2020（4）：4-11.

1. 引言

自20世纪70年代末我国实行改革开放政策以来，国家对人才培养提出了明确的外语能力要求，外语教育随之不断改革和发展（戴炜栋，2019；文秋芳，2019）。语言测试作为外语教育的一个重要组成部分，跟随着我国外语教育改革的步伐不断发展，取得了实质性的突破和令人瞩目的成绩（杨惠中，2019）。近40年来，我国“建立了一套行之有效的外语教育评价制度，各级各类外语考试制度不断完善。中高考外语科目考试逐渐由知识导向的评价转向语言运用能力的评价；大学公共英语等级考试历经多次改革，为高校提升英语教学质量和人事部门选人用人提供重要参考”（曾天山、王定华，2018：125）。

具体来看，我国自主开发了服务于不同目的的外语考试，建立了标准化的考试流程和体系，开展了考试的效度研究，摸索出了有中国特色的考试运行和管理机制（金艳、杨惠中，2018）。与此同时，语言测试成为独立的二级学科，培养了一批测试实践工作人员、研究人员和管理人员，这对我国语言测试的进一步发展至关重要。在理论研究方面，在教育测量领域发展的推动下，语言测试领域对效度的概念及论证框架的认识和探索不断深化。我国学者已经关注并引介了国际语言测试领域有关效度理论的发展（如韩宝成、罗凯洲，2013；李清华，2006；李清华、孔文，2009；刘晓燕，2017），并将效度论证理论特别是Bachman & Palmer（2010）的测试使用论证框架运用于本土考试的效度研究之中。但是，作为测量工具，语言测试在服务教育和社会的同时，也会产生过度使用或误用等问题。而且，语言测试的效度论证依然面临着理论体系和研究方法上的挑战。本文将在回顾我国语言测试40年发展历程的基础上，分析有待解决的一些关键问题，并指出语言测试理论和实践进一步改革和发展的方向。

2. 语言测试的研究范畴和发展阶段

2.1 语言测试的研究范畴

在世纪之交，Bachman（2000）对语言测试的发展历程作了全面的回顾。在20世纪六七十年代，语言测试者关注语言能力的本质，基于实证研究提出了语言能力不可分的假设，之后，又通过进一步的数据分析否定了该假设。20世纪80年代，在交际语言能力理论的推动下，语言测试领域开始更多地关注测试实践，提出了测试真实性的理论，以更好地测量和评价语言交际能力；同时，研究者开始探索影响考生表现的认知因素、心理因素和社会环境因素，并不断丰富语言测试的研究方法。至20世纪80年代末，语言测试已经发展为应用语言学的重要分支。自20世纪90年代以来，随着教育测量领域对效度概念的拓展（Messick，1989），语言测试者开始深入地思考考试的伦理问题，关注语言测试的教育、社会和政治层面的基础及其所产生的后果，并强调从业者测试素养的培养和职业道德的提高。

由此可见，语言测试领域的改革和发展始终围绕着考试构念、测量方法和考试的社会学三个维度。在《语言与教育百科全书》的《语言测试与评价》分册的框架结构中，这三个维度也清晰可见，即考什么、如何考和为何考（Shohamy et al.，2017）。该书分四个部分介绍了语言测试领域的研究方向：（1）语言测试考核的内容范围（assessing language domains），如对意义的测试、多语能力的测试和英语为通用语的测试等；（2）语言测试的方法（methods of assessment），如档案袋在新型测试中的运用和测量技术的运用等；（3）语言测试与教育的关系（assessment in education），如考试后效和评价素养等；（4）语言测试与社会的关系（assessment in society），如高风险考试与语言教育政策的关系及语言测试领域的职业道德和行为规范等。

综上所述，语言测试领域的研究范畴可以从三个重要维度来概括（见图1）。首先，语言测试的核心问题是语言能力理论，测试研究者根据对语言能力的理解和考试目的来设计考试，包括定义考试构念并描述完成交际所需的语言知识、技能和策略等；其次，语言测试是一个实践性和操作性特别强的领域，需要采用恰当的测试方法来实现考试的设计，包括命题、评分、等值设计、计分、分数报告和信息反馈等，并通过考试细则的制定来指导考试设计和开发；最后，语言测试是在一定的社会环境中为实现某些特定的目的而设计的，因此语言测试的开发和使用必将包含社会学研究，如考试的预期目的和实际使用、教学后效和社会影响、公平公正性、从业者的道德规范和行为准则、语言评价素养等。

2.2 语言测试的发展阶段

半个多世纪以来，语言测试的发展始终围绕着语言能力构念、语言测试的方法以及语言测试所产生的教育和社会影响这几个方面。但是，在不同发展阶段，语言测试体现了不同的语言能力观，采用了不尽相同的测试方法。虽然这些阶段之间并没有明确的时间节点，但是对构念的理解和测试方法的运用各有特点。Shohamy et al.（2017）区分了以下几个主要的发展阶段：离散测试（discrete-point testing）、综合测试（integrative testing）、交际测试（communicative testing）、做事测试（performance-based testing）以及新型测试（alternative assessment）。早期的语言测试以离散测试或综合测试为主，侧重对语言知识的考核，较多采用选择性作答题型（如多项选择、完型填空）。20世纪80年代之后，语言测试开始重视对语言交际能力的测试，采用建构作答题型（如记笔记、回答问题、短文写作），强调测试任务的真实性。自21世纪初以来，国际语言测试逐步走向计算机化测试，考试题型更加丰富，技能综合的考试任务（如听后说、读后写）受到青睐，测试材料更加多样化，对测试结果的解释和报告也越来越细致和清晰。

语言测试的社会问题研究起步相对晚一些，但其研究内容比较广泛，对教育和社会影响深刻。以社会学研究的一些代表作为例，《测试的力量》（Shohamy，2001）一书开启了语言测试领域对社会问题的思考，《语言测试的社会学维度》（McNamara & Roever，2006）阐释了语言测试社会学的理论基础和研究方法。与此同时，国内的学者也愈加重视语言测试的社会属性并进行了一系列的探索，代表作有教育部考试中心前主任杨学为于2003年出版的《考试社会学问题研究》、杨惠中和桂诗春于2007年发表的《语言测试的社会学思考》和2015年出版的《语言测试社会学》。

3. 中国语言测试40年的发展历程

3.1 发展历程概述

从国际语言测试的发展历程来看，基于教育统计和心理测量等学科的现代语言测试是一个年轻的学科领域，经历了近60年的发展历程。在我国，由于历史的原因，语言测试的起步晚了近20年时间，至今经历了40年的发展历程。本文基于以上对语言测试研究范畴的分析，将我国40年来的语言测试发展大致分为三个主要阶段（见图2）。

20世纪70年代后期至80年代末是我国现代语言测试的初创时期。这一阶段对语言能力的理解受到结构主义的影响，在测试方式上借鉴了心理测量理论，因此可以称之为心理测量-结构主义阶段（Spolsky，1978）。第二阶段是20世纪90年代至21世纪初，这是我国语言测试改革和发展阶段，这一时期受交际语言能力理论的影响，语言测试领域重视考试任务的真实性，体现了交际语言测试的主要特征。而且，大规模考试开展了效度论证，探索影响考生表现的各种因素，并开始关注考试对教学的反拨作用。近10多年来，我国语言测试朝着更加专业化的方向发展，重视语言测试的社会学问题，体现了社会学的转向。下文将详细阐述每个发展阶段的主要特点。

3.2 第一阶段：初创时期

在我国实行改革开放政策之后，外语教育受到前所未有的重视。为适应外语教育发展的需要，语言测试学者在相关管理部门的支持下开发了多项大规模考试，建立了标准化考试的流程和体系（国家教育委员会学生管理司，1983；桂诗春，1986）。1977年恢复高考，当时仅有报考外语专业的考生需参加外语考试；自1983年起，外语被百分之百地计入总分并被列为高考必考科目。1980年6月，国家教委组织英语教学专家赴香港考试局考察，之后成立了命题组，根据标准化考试流程，开发了用于评价出国留学人员英语水平的考试（EPT）；经过若干年发展，EPT考试日趋成熟，引起国外考试机构的重视。在大学教育方面，为推动《大学英语教学大纲》的贯彻，大学英语四、六级标准考试设计组于1987年推出了大学英语四级考试，于1989年开始实施大学英语六级考试。此外，北京语言学院（现北京语言大学）于1984年开始研制针对母语为非汉语者的汉语水平考试（HSK），并于1990年开始实施考试。这些考试的开发为我国语言测试理论与实践的发展提供了动力和方向。

从考试构念和测试方法来看，这一阶段以离散测试和综合测试为主，同时也有一定比例的建构作答题，出现了向交际语言测试过渡的趋势。李筱菊教授（Li，1990：396）在《论语言测试的力量：以中国英语高考为例》一文中指出，“高考采用了两类似乎并不怎么合拍的测试：一是心理测量-结构主义测试，考核语法、词汇和语音等语言知识，此类测试与教学现状较好地接轨；二是体现心理语言学-社会语言学新理念的测试，尽可能直接地考核听、说、读、写等语言运用能力”。当时的大学英语四、六级考试亦是如此：85%为选择题，考核听力理解、阅读理解及语法和词汇知识，其余15%为写能测试，采用短文写作的题型，口语表达能力未纳入考核范围（大学英语四、六级标准考试设计组，1987，1989）。

3.3 第二阶段：改革发展期

在20世纪90年代，随着语言测试领域对效度概念的理解不断加深，大规模考试开展了实证性的效度研究，为考试改革提供依据。例如，大学英语四、六级考试委员会和英语专业四、八级考试委员会与英国文化委员会合作开展了四、六级考试和四、八级考试的效度研究（杨惠中、Weir，1998；邹申，1997）。基于效度研究的发现，这些考试对测试内容和方法进行了改革。20世纪90年代后期至21世纪初，我国学者开始关注考试对课程设计和实施、教学内容、教学方法和进度、学习态度、学习动机和效果等方面的影响，开展了高考英语，大学英语四、六级考试等大规模考试的反拨作用研究（如辜向东，2005；亓鲁霞，2004）。

在语言能力和测试方法上，这一阶段的考试主要体现了交际语言测试的特征。交际语言测试是随着交际教学法的发展而发展的，其理论基础是交际能力理论，要求采用做事测试，通过观察学习者在真实语言交际场景中的行为表现进行判断，“任务完成度”是一个重要的评价标准。做事测试对教学有正面的导向，但是对评分、分数解释和分数的外推性有一定挑战（Brennan，2000；Weir，Vidaković & Galaczi，2013）。而且，大规模考试无法直接观察真实环境中的语言交际，而是模拟真实交际语境，借此评价考生的语言综合运用能力。例如，大学英语四、六级考试在20世纪90年代中后期推出了复合式听写（compound dictation）、简答题（short-answer questions）等测试任务，并在1999年开始实施面试型的大学英语口语考试（CET-SET），测试任务包含了问答、陈述和小组讨论。

3.4 第三阶段：社会学转向期

近10多年来，由考试使用引发的社会问题受到越来越多的关注。因此，在这一阶段，我国语言测试领域开始更加深入、系统地探索考试的社会学问题。公平公正是我国考试设计的初衷，恢复高考的重要目标之一就是实现“分数面前人人平等”。近年来，学者们开展了测量公平和程序公平性的研究,如题目偏差研究、试题难度等值研究（Jin & Wu，2017）、考试的标准化流程研究（范劲松，2014）等。在专业标准研究方面，我国学者对国际语言测试领域的道德规范进行了深入思考，对行为准则的制定进行了初步的探索，并尝试建立适合我国国情的语言测试标准（如金艳、范劲松，2015；范劲松，2018）。语言评价素养也是社会学研究的一个方面。我国在此领域已经开始了较全面的探索，研究范围包括理论框架和体系构建（如许悦婷，2013；林敦来、武尊民，2014；Xu & Brown，2017）、现状分析和需求调查（如Jin，2010；Lam，2015；Xu & Brown，2017；Xu & Liu，2009；Zhang & Yan，2018），并出版了许多关于语言测试知识介绍的著作（如王佶旻，2011；武尊民，2002；邹申，2005）。

在考试构念和测试方法方面，近年来，随着信息技术的推广应用，研究者开始探索计算机自适应考试的效度（如何莲珍、闵尚超，2016）、机考与纸笔考试在构念和分数上的对等性（如陈慧麟，2009；金艳、吴江，2009，2010；Jin & Yan，2017）、计算机化口语考试中的交际策略运用（如Jin & Zhang，2016）、写作和翻译测试的自动评分（如Jin，Zhu & Wang，2017）等。在这一阶段中，商业化运行的语言考试、诊断性语言测试、专门用途外语测试等逐渐问世，以更好地满足多样化的社会需求。此外，为推动我国外语教育和测试尽快走向国际舞台，并与国际标准接轨，教育部考试中心牵头研制了《中国英语能力等级量表》（中华人民共和国教育部、国家语言文字工作委员会，2018），在此过程中，学者们基于交际语言能力理论，界定了听、说、读、写、译等语言能力，并描述了各个等级的主要特征。

4. 中国语言测试的发展方向

4.1 有待解决的主要问题

尽管我国在语言测试领域成绩显著，但是国际语言测试发展迅速，要赶超国际水平，我们必须对现状和存在的问题有清醒的认识。基于前文的分析和回顾，我们依然从构念定义、测试方法和社会学研究三个维度阐述我国语言测试领域有待解决的主要问题。

首先，语言测试的构念有待拓展。我国语言测试对构念的理解在较大程度上仍停留在Chapelle（1998）所提出的“特质观”（trait perspective）上，把构念定义为考生的个体特质，即语言能力由考生潜在的特质决定，包括考生所掌握的语言知识和完成测试任务的过程。尽管有些测试任务在设计时已经融入了语境因素，如口语测试中的交互语境或写作测试中的写作对象和写作目的，但是，在实际评分中，语境因素对考生表现的影响并未纳入评分标准，评分关注的仍是考生的语言表现而非交际有效性。而且，构念定义还需考虑宏观层面的交际语境。随着经济全球化进程的不断推进，英语已经成为世界通用语（English as a Lingua Franca，ELF）。在我国，英语也是国际交流活动中使用最广泛的外语。但是，ELF领域的研究成果并未充分体现在考试设计者对语言能力的理解和定义中。例如，测试任务仍以母语者的材料为输入语料，评分仍以母语者的表现为参照标准。

其次，语言测试的方法和手段有待丰富。语言测试是一个交叉学科领域，测试内容来自语言学领域对语言能力的认识，而测试方法则需要综合运用教育学、心理学、统计学、信息技术等领域的成果，这样才能保证构念的代表性，同时降低测量误差，全面、准确地反映所测的构念。目前我国的语言测试已经较好地运用了教育统计和测量理论，但是由于考试规模超大，利害程度极高，出于对测量信度、考试安全以及运行效率的考虑，考试较多采用纸笔方式，试题设计以单技能题型为主，且选择作答题比例较高，评分多采用整体评分，未能充分考核真实语境下的交际能力，如技能综合的交际（如听后说、读后写）、多模态的交际（如语音、视频、图片等模态的结合）、互动的交际（如小组讨论），也未能提供细致的、个性化的考试报告或更有意义的分数解释。

最后，语言测试的社会学研究有待深入。从前文的回顾可以看出，我国语言测试领域已经开展了考试的后效研究。然而，大规模考试的影响远不止课堂教学或外语教育。一方面，考试影响着人才培养的方方面面，包括文化传承、价值导向、国际交流等；另一方面，考试对社会的人员流动、资源分配、语言政策、经济发展等都会产生深远影响。目前，我国大规模考试的从业者、管理者、使用者、研究者等各司其职，保证了考试的安全和高效。但是，这些人员或部门之间交流不够通畅，合作不够协调。为了更深入地探索考试产生的社会影响，语言测试领域需要加强利益相关者之间的沟通与合作。我们以考试的预期目的和实际使用为例来说明。考试设计者根据管理者的部署，在考试框架中明确了考试目的，并根据考试目的设计考试的内容和形式。但是，一旦考试正式投入使用，就产生了自己的“生命周期”。当考试经过一段时间运行并得到社会认可之后，考试的使用就有可能会超出预期的目的。那么，确保考试的合理使用究竟是谁的职责？谁又应该对考试的误用负责？只有当我们厘清了利益相关者的职责和权利，加强沟通与合作，才能使各方承担相应的职责，共同保证考试的健康发展。

4.2 对发展方向的思考

基于以上分析，我们认为，我国语言测试的发展方向是：拓展考试构念，提高考试效度；探索测试方法，实现技术创新；思考社会问题，研究社会影响；加强评价素养研究，提高利益相关者的评价素养。

第一，我们需要进一步引介和运用科学的效度理论，不断拓展语言测试构念。根据Chapelle（1998）提出的交互观（interactionalist perspective），构念定义应该包含考生个人特质、交际语境以及两者之间的交互作用，这样才能反映语言交际能力的本质和全貌。在技术飞速发展的今天，交际活动经常是基于计算机和网络，计算机化考试也逐步推广，因此有必要界定新的交际环境中的语言交际能力和测试构念（金艳，2012；张琳、金艳，2016；Jin & Yan，2017）。同时，ELF领域研究成果的运用也将帮助我们更全面地定义语境中的语言交际能力，推动测试构念的拓展，提高考试的效度（席小明、李清华，2015）。

第二，我们需要开展语言测试方法和技术的研究，实现技术创新。在大规模考试运行需求的推动下，我国在信息技术运用方面已经有了很多有益的探索，积累了一些经验。未来的研发应更加充分地运用人工智能技术和测量技术，推行计算机化语言测试，改进测试任务设计，为测试提供更真实的语境。我们还应开展人工智能技术支持下的命题、预测、自动评分、诊断和反馈等研究，提高考试效率，同时为考生提供更加个性化的服务。此外，未来研究还应探索语言能力量表在考试设计、评分和分数解释中的运用，包括量表与考试的对接技术，量表在题型设计、命题和评分中的运用，使考试分数更有解释力，更好地与国际标准对接。

第三，探索具有中国特色的社会学问题。首先，我们应更深入地探索考试对社会和教育的影响，探索应试教育问题的根源和出路，尝试建立考试利益相关者之间的交流和沟通渠道，对考试的误用进行有效的干预。其次，社会学研究还包括考试标准的建设。语言测试领域有三大类标准。一是道德标准，这是语言测试领域的最高标准，如国际语言测试协会（ILTA）于2000年颁布实施的ILTA道德规范；二是行为准则，这是对语言测试从业者的最低要求，国际语言测试领域已经有欧洲标准、日本标准、考试机构（如ETS）标准等，我国教育部考试中心也正在建立我国教育考试的质量标准；三是能力标准，如《中国英语能力等级量表》《欧洲语言共同参考框架》等。标准的建立将推动我国语言测试对接国际标准,加强合作交流，走向国际舞台。在建立和实施考试标准时，我们需要考虑如何使标准更好地服务于我国的语言测试，如何保障标准的执行力度。

第四，我国语言测试的整体发展还依赖于各相关群体的评价素养。我国的语言测试管理者需要更好地理解和贯彻国家语言政策、分析外语学习环境、思考考试的社会属性；从业者和使用者需要懂得考试的设计原则、公平原则、效度概念等；设计者需要掌握基本的技能来开发和制定考试细则，参与命题和评分等实践性很强的工作。随着语言测试用途的拓展、语言测试专业化进程的加快和教育问责制的推行，语言评价素养被纳入语言测试的研究范畴，受到越来越多的关注。Fulcher（2012）建立了一个立体三维的语言评价素养理论框架，可以作为发展我国外语教师评价素养研究与实践的重要参考（金艳，2018）。

5. 结语

语言测试作为应用语言学的一个重要分支领域，近年来发展迅速，所涉及的研究范畴在不断拓展，研究方法和手段越来越丰富。从国际语言测试的发展趋势来看，以定量研究为主的实证主义研究范式和以定性分析为主的后实证主义研究范式已经被广泛接受和运用，同时，“作为对传统研究范式有益补充的批判理论和建构主义研究范式，必将在今后继续影响这一领域，并与传统研究范式以更多样的方式进行结合”（何莲珍、李航，2011：138）。我国的语言测试研究也需要密切关注相关学科领域的最新进展，运用新理论、新方法，不断探索，勇于创新，以构建具有中国特色的语言测试理论和实践体系。值得注意的是，研究手段的丰富性和多样性必须服务于最终的研究目的，即语言测试归根结底是研究如何更好地采集语言样本、评价语言交际的质量以及解释并报告评价结果。

金艳（2011：56）在回顾国际语言测试50年发展历程时指出，“在下一个50年中，语言测试的设计、开发和使用仍将受到不断发展的语言学理论的挑战，受到思辨、创新和开拓的教育理念的挑战，受到先进的统计测量技术和信息技术的挑战”。尽管如此，作为一种公平公正的测量手段，语言测试将不断发展并更好地服务于国家政策，推动社会进步，引导教育改革和促进个人发展。我们相信，作为外语学习者人数最多、考试规模最大的国家，中国将在国际语言测试的舞台上发出更响亮的声音，取得更加令人瞩目的成果。

* 注：本文摘自《中国外语》2020年第4期第4—11页。由于篇幅所限，参考文献及注释已省略。

继续滑动看下一个