谢维和 | 结果评价及其改进思路

作者：编辑：审核：发布时间：2022-06-09浏览次数：2599

谢维和 | 结果评价及其改进思路

教育部评估中心 2022-05-26 15:14

引言

2021年12月19日，由中国教育发展战略学会主办，清华大学、北京大学、国家教育行政学院、北京师范大学、中国教育科学研究院支持，教育评价专业委员会、清华大学附属中学承办，成功举办了中国教育发展战略学会教育评价专业委员会第一次全国会员代表大会、第一届理事会成立大会、2021年学术年会暨中国教育评价改革与发展论坛。本文为中国教育发展战略学会教育评价专业委员会学术委员会主任委员、清华大学文科资深教授、清华大学校务委员会副主任谢维和在论坛上的讲演内容摘要（根据录音整理）。

谢维和

中国教育发展战略学会教育评价专业委员会学术委员会主任委员、清华大学文科资深教授、清华大学校务委员会副主任

什么是结果评价呢？在教育上也可以称为终结性的评价，是指在学习任务或者教育活动结束以后，对学生学习结果的一种评价活动，包括对分数和作品评议。结果评价，英文称呼里面叫AOL，就是（Assessment Of Learning）。

请大家注意，在讲到国际上对结果评价说法的时候，有时候叫“关于学习的评价”。这个“关于”就很讲究了，对此，英文叫about，意味着这个评价不仅仅是一个单一的东西，不像“五唯”里面讲的唯分数评价，它已经超越了单纯对分数或者学习成绩的客观记录，而是更加强调对学生分数、学习成绩、各种变化形态，包括主观、客观各种原因的价值判断。所以结果评价不是简单地看结果，而且是要对结果进行分析，去找出它背后的原因，做出一种价值判断。这是结果评价非常关键的一个认识，不要简单地认为结果评价就是一个分数，一个分数就是结果评价，这样的话就稍微有点简单化了。

结果评价，确实是一个挺值得关注的问题。我之所以选择研究这个问题，是因为在我们的学校，特别是我们的教育，尤其是中小学里面，结果评价可能是四类评价中最普遍的一种评价了。

我个人觉得，在结果评价中，首先要有一种思想观念的解放。换句话说，结果评价的改革如同中国教育评价的改革一样，并不简单地就是一种体制，或者说技术，或者说方法的改进，而需要进一步解放思想，要不断地探索与发展新的评价观念。思想解放很重要，这个结果评价的改进思路，首先是观念要改进。

有一次我到青岛去开会，讨论了教师的角色问题，你是当伯乐还是当园丁？当伯乐就是要相马，看看它的牙口、看看它的腿，看看它各个相关部位，质言之，就是要挑选，要发现不同的特性；园丁呢，就要精心地呵护每一棵幼苗，换句话说，我们怎么理解全面发展？我们要不要在基础教育中也强调人才？我觉得这是一个非常重要的理论问题。实际上马克思在讲到人的全面发展时候，实际上他讲得是个人的全面自由的发展。我们虽然讲学生的全面发展，但和学生个性的发展并不矛盾，不能把这种全面发展与学生的个性发展对立起来。我觉得，参看傅任敢先生的一个观点，应该讲是学生个性的全面发展比较好。

思想解放的问题，还需要突破一种成见。我们自己在平时都有一个很习惯性的想法，一提到优秀，包括我们刚才说到三好学生、特长生、尖子生，就会不加思索地认为，这肯定是一个少数人的事情，是一个小的量词，认为优秀就是少数。那我们就要问一下，优秀能不能成为多数？这就和素质教育面向全体学生、促进学生全面发展不矛盾了，对不对？有没有可能优秀也能成为多数人呢？这个就和我们原来心里想当然的，或者已经习惯成自然的那些想法就不一样了，优秀如何才能够成为大多数人可以获得的权利呢？

当然，我在讲这个问题的时候，就要来回答了。

具体来说，这样的结果评价怎么改进？除了作为一种想法，一种思想观念需要不断完善之外，有没有一些可以操作性的方法呢？我觉得我们在实际工作中好的理论，一定是能够落地的，好的理论一定是绿色的。那种抽象的、晦涩的，我觉得不一定，也许是好理论，但是有的时候大家接受起来就不那么容易。这样的一种结果评价的改进，我们怎么样能够像上面思想解放说得那样个性的发展，把优秀也变成大多数人的权利，这样的一些目标能够落实下来呢？我觉得这样至少有这么三个变量在我的研究中。

第一个变量，这个“结果”我们把它看成是一个复数。我们大家学数学，或者学外文都知道，加不加这个s，是单数还是复数这个很重要。如果你就是把这个结果看成是一个单数，你这个结果评价我想就很糟糕了，或者说你这个评价就是一个标准，也是单数。那么当然了，优秀就自然只能是少数人了，只能占3%、5%，以至于我们在学术界都在讨论到底要不要评三好学生。三好学生肯定是要评的，这是激励学生很重要的方法。所以我觉得第一个操作的方式，就是要把结果评价的结果看成是复数，可以有各种各样的结果，分数也好、作品也好、他自己表现也好、他在各种探索方面取得的成绩也好，等等都可以。我们可以说没有一片相同的树叶，我们为什么不说世界上没有一个相同的学生？同样的道理，包括不同类型的结果，不同科目的结果，不同形态的结果，个别性的结果，综合性的结果，包括不同时间的结果。当然，不同结果的评价形式也就是多样化，所以改进结果这个评价，首先要改进对结果的从单数到复数的变化，这个非常重要。

比如说我们用一个例子：从时间上看，一周下来的学习是一个结果，一个学期学下来也是一个结果，一个学年学下来也是一个结果。整个学段，或者小学、中学、高中学下来也是一个结果。过程短的结果，一个科目的结果，一周的结果，我们可能很好评价，可是一个学期呢？一个学年呢？或者整个学段呢？毕业的结果呢？我们怎么去评价他？这样的评价是不容易的，特别是在这个评价过程中，如果你不仅仅是单纯对分数做这样一种直观的简单的打分的话，或者判断他这样一种优劣高低的话，而且能够写出评语来的话，我觉得对我们老师是一个相当大的挑战，对老师素质和能力是一个相当大的提升。

我曾经在一个学校给他们校长出了一个“歪主意”，我说如果说我们老师们能够给学生在毕业时候，或者在这个学年结束时候写一个文字评语，这个评语可以复制三份，老师自己留一份，学校留一份存档，给孩子家长留一份。过个若干年再看看你写的评语，到底和孩子后来发展怎么样，这可不是一件容易的事。你这份评语对老师来说，将来孩子的成长，意味着检验你当时对学生的评语和评价到底怎么样，这难道不是一种非常好的提升老师素质的方式吗？当然也是对老师的挑战。这是我们说的第一个，不同的结果。

第二个变量当然是评价标准的多样化。不同的评价标准可以形成不同的优秀，更能够极大地拓宽学生成为优秀的道路和空间。这种不同的评价标准并非是某种分层的标准，而更多是分类的标准。多一条标准就多一批优秀的学生，一条标准只能是少数学生，你能不能真正提出多条标准出来？能够使学生有更多奋斗、去发展，让自己成为优秀的道路？这是一个我觉得改进结果评价非常重要的。

比如说，从个体学生差异的角度，我们可以从他的智商角度来考察或者评价他，答多少分，智商当然是一个评价结果；还有一个EQ，我们也可以通过他的情商的各种指标去评价这个学生的发展；可以从人格，从不同的类型上CPI、MMPI、MBTI这种不同的类型去评价学生；可以从学生思维风格去评价他；可以从学生性别差异评价他，这都是评价学生个体差异的一些指向。其实你们不知道，这个学生自己都在评价自己，你知道他们怎么评价吗？你是什么星座的？他用星座的方式来评价，你说有没有道理？还有点客观性，星座也是一个哪年哪月，这个日期不也是一个客观的吗？当然过去我们还有什么气质评价的方式，但是今天，随着科学发展，随着对人的认识，随着我们对教育理论，包括我们评价理论的发展，我希望能够有更多不同的标准去认识与评价学生。

第三个变量是作业与考试题的设计。知识跟结果有直接相关的变量，在一种非常重要的内生变量。不同的设计、不同的试题模式就会直接影响结果的差异，包括导致评价方式多样化，因而这也是改进结果评价的重要途径。

当然，关于作业的问题可以有很多的内容，这里主要谈一谈作业与考试题难度的控制问题。现在中小学作业难度太大，教材难度太大，有一部分专家做了这个研究。在研究过程中大家有一个相当普遍的认识，认为难度的大小好像跟作业中的知识点有关系。增加一个新的知识点，这个难度就上去了。实际上我觉得这种看法不一定那么全面，其实难度跟知识点关系不是太密切，同样一个知识点，可以很容易，也可以很难。就像1+1=2，一年级学生也会做，可是你要证明为什么“1+1=2”，是哥德巴赫猜想，是陈景润这样高水平的数学家做的事情。再如，勾股定律是一个非常普遍和基础性的数学问题，你们可以看到，它可以同时成为小学、中学，甚至是大学作业的知识点。问题是小学时候提问方式怎么样，在初中提问方式怎么样，在高中提问方式怎么样，甚至在大学，包括重点大学在考试时候也考勾股定律，它的提问方式是什么样。在某种意义上来讲，作业里面难度控制并不是对知识点控制，而是对提问方式的控制，这是非常重要的。而且，这种从提问方式的角度控制学习与作业的难度，也是素质教育的内在要求，对提升学生思维能力的训练是非常有益的。

所以从这些意义上讲，我们怎么样通过作业设计，包括试卷的设计来改进我们评价，使得学生对问题回答，包括他的思维有更加开放、更加解放、更加创新，我觉得都是影响结果评价的变量。

结果评价是教育评价的主要形式之一，甚至是应用最广泛的一种形式之一，但是结果评价的改进也是一项非常重要的任务，需要解放思想和现实办法，包括多方面的探索与实践。

来源 |中国教育发展战略学会教育评价专业委员会新媒体“中国教育评价”（微信号：zgjypj)（声明：“教育部评估中心”微信公众号刊载此文，是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益，请及时与我们联系，我们将及时更正、删除或依法处理）