张民选:基础教育评价改革的六大趋势
2020年,国务院印发的《深化新时代教育评价改革总体方案》明确提出,到2035年,基本形成富有时代特征、彰显中国特色、体现世界水平的教育评价体系。党的二十大报告也强调,“完善学校治理和教育评价体系”。
在评价改革过程中,遇到“改革高原”的时候,怎么办?有一个思路是,坚持“教育要面向现代化、面向世界、面向未来”,“坚持对外开放的基本国策”,坚持“高水平对外开放”,“拓展世界眼光,深刻洞察人类发展进步的潮流……以海纳百川的宽阔胸襟,借鉴吸收人类一切优秀文明成果”,在此基础上形成中国式现代化,实现中华民族伟大复兴,推动建设更加美好的世界。
在这样的思想指引下,我研究了全球关于基础教育评价的前沿研究,包括来自联合国、世界银行、经济合作发展组织以及欧盟、东盟等发达国家的文献报告。
这些报告呈现了基础教育评价改革的六大趋势,我们可以从中汲取营养,以促进中国式教育评价体系的建立,牵引基础教育的高质量发展。
从一次性、单向性的评价
转变为持续性、综合性的监测
过去,我们对学生、教师和学校的评价,往往是单项评价。现在,迎来了大的转向。转向的标志性成果是,2002年联合国教科文组织开始聘请第三方监测各国教育发展概况,每年发布监测评价报告。而且,检测与评价不是分开的两个词,而是合成的一个新词叫M&E(monitor & evaluation)。
评价具有滞后性,总是事后去检查。但对教育来说,滞后性往往是致命的。生命只有一次,滞后不仅意味着浪费金钱和人力,也可能导致浪费孩子们的生命;对国家和社会来说,也可能导致浪费潜在的人才。比如,一个玩沙子的孩子组织能力很强,将来可能当将军,结果老师说孩子太皮了,也许就抹杀了孩子的天性,未来也少了一位将军。因此,人们开始考虑另外一种方向。
那么,什么是监测呢?有学者在2001年指出,监测是一种具有内在动机且精心设计的评价活动,旨在对一个项目持续提供多侧面的信息反馈,从而发现实施过程中的问题和实施的效率效益。
什么又是教育监测?它是一种教育评估,但监测的是教育事业或教育项目,在其实施过程中进行。它通过在第一时间向决策者和实施者提供早期、具体、多维的操作和信息,不断修正偏差,以完善教育目标与方案、调整过程与配置、选择适恰的教学方法技术,从而确保既定教育目标的实现。我觉得,这是教育评价应该有的方向。
正因如此,联合国教科文组织从2002年起,每年既有总体性的评价,又有重点项的监测内容。比如2003年,基于数字化盛行的时代背景,将“数字化转型监测”定为报告主题,并监测各个国家的实施情况。OECD的PISA三年一次,可以监测每个国家在完成义务教育阶段时的学生发展水平和政策导向。
英国教育质量标准局对学校的评估和监测,分为“优秀、比较好、一般、需改进”四个层次。越优秀的学校,监测的间隔时间越长,可能四年到校监测一次,每年学校仅提供自评报告给质量标准局;有问题、需改善的学校,则每年参与两次评审,不断监控学校发展过程。
因为上海参加了PISA,同时结合本地需求,我们设计了《上海市义务教育阶段学生学业质量绿色指标体系》。评估每两三年举行一次,包含学业成绩、学习动力、学生负担、教学方式、体质健康、师生关系等。
下图是一所学校2014年和2015年的两次评估结果,呈现了10个向度的指数情况。评估结果反馈给校长,就能帮助学校不断调整发展方向,越办越好。2018年,我们对方案进行了修改,让评估更完善。
从对学校和教师的评价,
转向同时关注对地方政府的评价
我们当然希望一个好校长带出一所好学校,但公立教育,特别是义务教育的均衡与质量水平,不但有赖于教师和校长,更取决于地方政府的教育政策、经费资源、人力资源和生源配置。
OECD的PISA测评中,上海成绩第一。成绩背后,与学生认知发展、投入方法、投入多少有关,也与学校差异有关。那么,学校间的差异由什么造成?学校内部哪些是更重要的因素?高水平家庭的孩子进了好学校,农民工子女进了差的学校,原因是什么……于是,政策和资源配置的问题就出来了。
综合来看,政府的四大配置决定了学校发展水平——
管理资源配置:包括校长配备、财政经费、自主空间,比如,财政经费好的学校可能自由权大,差一点的学校反而钱不足;
物质资源配置:包括校舍场地、信息资源、实验设施;
环境资源配置:包括学生来源、专业合作、社会支持,比如优秀学校可以全省招生,普通学校可能只在本街道招生;
人力资源配置:包括师生比例、优秀师资、进修机会。
没有种种资源,一个好校长有时候也办不了一所好学校。所以,教育评价包含对政府的督导,是好的转向。
联合国教科文组织2017和2018全球教育监测报告的主题是“教育问责”,指向“政府到底怎么做”。中国的《评价改革方案》也强调“各级党委和政府要坚持正确政绩观”,符合国际趋势;同时,以学生评价、政府评价、学校评价、用人评价、教师评价构成系统,与OECD的评价系统完全一样。可见,我们已经走到世界的前列。
但是,实际办学过程当中,我们还是可以看到学校间的差异。关于学校差异对学生成绩的影响力水平,OECD统计显示,学校与学生数学成绩之间的方差占比平均值是37%。芬兰的学校高度均衡,只有8%;上海的初中是29%,高中是58%,折算后上海整体变成47%,差异惊人。过去几年上海为什么坚持“均衡优质”,原因就在这里。
从“对教师的评价”,
到“为教师的评价”和“教师自己的评价”
在教育评价中,对教师的评价起步较晚。美国从1957年开始做教师评价,由于当时主要评价是课程评价,但直到80年代评价工作仍未完成,教育质量仍然不好。于是,美国开始把教师单拎出来进行评价,但那时主要是问责式评价,“看看老师在哪些地方还没做好,以提高教育质量”。
因此,目前对教师的评价,是以行政管理的方式推进,按照绩效奖惩教师,对教师教育质量的推动作用非常有限。学者们认为,教师评价更应该转变为“为了教师专业发展的评价”,因为教师专业水平提升,教育质量就会随之而提升。
此外,没有两个教育情景完全相同,忽视了教师个体差异而进行评价,一定会引起内卷,让老师身心疲劳;反过来,“躺平”也会降低教师的幸福感。
那教师评价到底怎么评?
对教师的评价
以教师为对象,检验他们的履职程度当然很重要。它本质上是一个由外向内的问责,包含遵纪守法、履约敬业、达成目标、检验绩效高低等方面,以此奖优惩懒,提升教师效率。但是,它容易进入精致主义层面,而且是无意义的精致。
当然,对教师的评价还要兼顾多层次、多工具的评价,其核心是保障公平。但它的弱点是有“反驳效应”。比如设立“五唯”指标,那就可能出现只围绕指标做事而忽略其他事项的情况,同样会影响孩子的健康成长。本来目的是监测,结果变成“你评什么我就干什么”。久而久之,它会产生竞争内卷和躺平。因此,要追求“去反驳效应”。
为教师的评价
促进教师专业发展的评价,则是一种协作互信、讲究反馈和改进、内外结合的专业指导。它重视教师的发展过程,重视发现教师间的差异,并据此完善教师的行动,提供反馈建议。
这种评价的条件是要看轻利害,不以奖惩为主,力求真实,分析教师的行为,进行建议指导。
教师自己的评价
所谓教师自己的评价,强调内在主体需求的升华。教师愿意自己测评,愿意参与评价的设定,进行反思研究,凸显教师自己的专业特色,提升能力。
这种评价的条件是提供参照,提供最佳案例,以及通过技术支持进行自诊自评,发现优势弱点,提高自我效能。
上海奉贤中学,在教师评价中专门设立了“教师自设性挑战项目评估”。教师自己提出来明年想做的两件事,个人申报,立项审核,过程中学校给予指导,最后总结评价,实现了教师自主立项、学校评估。
上海一师附小搭建“教师发展评价系统”,让教师个人和集体都明白:自己在哪里(起点);可以到哪里去(方向);如何达到(措施);如何知晓有没有到达(评价)。由此,形成了这样的教师成长框架:我现在的状况是什么?(自我分析、自我定位)→ 我努力的方向(锁定目标、细化步骤)→我采取的措施(投入研修、学习实践)→ 我的目标达成(互评总结、持续发展)。这一过程可以通过自我评价、合作评价、发展评价来推动实施。
上海闵行实验小学将“基础性评价”和“发展性评价”并举(70%-30%),努力保障教师有自己选择的权利和发展空间。学校在设计评价方案时适度“留白”,邀请教师参与、鼓励教师首创;建立个性发展平台,提供专业成长的选择性路径;激活教师的内在发展自觉,扬其长、成其能,让每个人的优势真正表现出来。
从“基础知识测评”,
转向“基础知识”与“核心素养”并举
以PISA为例,上海从2009年开始一直领先于全世界,大家都觉得上海是最好的了,其实不然。将所学的基础学科知识和技能运用到不同场景中去,主要是基础素养。而完整的素养框架,还包含计算机问题解决、财经素养、协作问题解决、全球胜任力、创新能力,这些才是核心素养胜任力。在这些胜任力中,我们一个第一也没有。
在PISA2012以计算机为工具进行的一项学生评价中,中国的成绩是全世界第六(536分),看上去还不错。但当我假设“阅读、数学、科学知识学习越好,成绩越高,就越能够解决问题”这样一个命题,重新排名,上海就垫底了。
可以看到,韩国(561分)、美国(508分)、新加坡(562分)等地分数是正相关的,即“阅读、数学、科学学得越好,解决问题的能力也越强”,但中国是负相关的,而且是全世界最厉害的。我们原来阅读、数学、科学是全世界第一,但是负相关50分,问题解决的能力就排到18位了,真的成了“高分低能”。
问题在哪?PISA描述得很清楚——对老师培养学生解决问题的能力没有进行深入研究。
什么叫提升学生解决问题的能力?首先,学生有没有意愿参与这样的认知过程,是不是有利于学生个人潜能的发挥?问题有没有不同的情景?问题解决过程是什么样的?配置与解决过程应该有哪些思维能力?……这些问题不搞清楚,怎么能提高学生解决问题的能力?我们目前的问题就在这里。
教学评价仍是核心,走向多维评价
教学仍是重要的评价方式,而且评价维度在不断精细化。原来我们只讲教学,但其实教学可以分成课堂管理、教学质量和情感支持三个维度。
我们参加了一项全球性的教学视频研究,每个国家85位数学教师,每人上两堂课(“一元二次方程”),录制上课教学行为的视频,进行同课异构,观察其中差异。下图是对比情况。
可以看到,我们的课堂管理(图中灰色线段)是最强的,教师管理很厉害,高于日本、英国、德国三个典型国家。但是,我们的教学质量(图中蓝色线条)就差了,相当集中但是水平较低,在及格左右。看来,这么多国家都在搞教学改革,课堂却还是比较传统。在社情支持(图中灰色虚线)中,我们也较差。
进一步细看,教学可以分成学科内容质量、学生认知参与、基于学生理解的评价与回应、课堂对话。我们只有教师的学科知识掌握第一,学生认知参与跌下来了,理解学生方面稍微好点,课堂对话较差。这些教学行为本身值得我们思考。
上图是关于教学的情感支持,图中越向右偏,说明对学生的支持越大。8个国家和地区中,情感支持我们最差。分析视频发现,我们的课堂里,教师经常问大家“懂了没有”。可德国教师从来不问“懂了没有”,而是经常问“哪几位不懂”。学生回答“我不懂”,这时就是教学中的情感支持。所有的学生都愿意,也敢于在课堂上说“我不懂”。但是,我们的学生不敢说、不轻易说。
细分下来,对学生的情感支持又可分四个指标,我们的指标大部分都处于中间层次,有支持但不强烈。
信息技术运用
成为教育变革和教育评价的新杠杆
最后一个趋势是运用信息技术,它正在成为一个新的杠杆。
首先,大家都把信息技术作为老师应该掌握的内容,但这方面我们不占优势。疫情之下,我们通过远程教育,通过信息化,解决了所有同学不失学的情况。但是,数字化更应该是对每个学生因材施教,这个方面我们做得还不够好。
目前,世界各国已经在向着上图的方向发展,即学生有助学系统,教师有助教系统,这些系统都在大数据支持下不断反馈。2021年,欧盟在“数字能力框架指南”的基础上,研发了一套名为SELFIE的数字教育自我评价工具(分学校、职教、教师和学前版),可以供学校、教师和学生自测自评使用。
其中,对老师的评价分成“专业投入(9)、数字资源使用(5)、教与学(5)、学生测评(3)、赋能学习者(4)、提升学生数字素养(6)”等六个方面(括号中数字为指标数量),共设32项测评指标,每个指标又分成1~6的熟练水平。
比如,数字资源使用1指标,包含6个熟练度:水平1—我意识到;水平2—我试用过;水平3—我已使用;水平4—我可以在丰富的工具中挑选使用;水平5—我反思并重新设计与改进给孩子的东西;水平6—我可以自创并自设。
借助现代信息技术和数据分析,欧盟不仅给老师进行测评,还可以基于几十万教师数据提供指导:哪些方面你更强,哪些方面你还弱;并且给出提升的建议,帮助教师成长。
作者 | 张民选,联合国教科文组织教师教育研究中心主任
来源 | 据作者在第二届中国基础教育论坛的报告整理,转自新校长传媒
微信扫码关注该文公众号作者