【教育评价改革专题】杜瑞军 | 什么是好的教育评估——对我国高校公司产品评估的理性审视-bwin必赢唯一(中国)官方网站

本科教育

教学研究

当前位置: 首页 >> 本科教育 >> 教学研究 >> 正文

【教育评价改革专题】杜瑞军 | 什么是好的教育评估——对我国高校公司产品评估的理性审视

发布日期：2021-09-22 点击：

摘要

教育评估事关教育事业发展的方向，有什么样的评估指挥棒，就有什么样的办学导向。因此，“好的教育评估”成为审视高等教育评估实践的价值尺度，从目的和手段两方面的合理性对什么是“好的教育评估”进行价值判断是我们所应秉持的基本准则。一种“好的教育评估”在评估目的和定位上应超越监管和问责，遵循教育发展的基本规律，激发被评价者的主动性和发展性，助推质量文化，从而走向自主性与质量建设;评估主体应超越权力与利益冲突，走向开放与透明，承认不同评估活动的价值，构建彼此尊重和信任的关系，建立开放、包容、透明、有效的评估体系和质量发布制度是高校质量文化建设的基本责任和义务；评估手段应超越技术主义，走向理解与交流，因为教育评估既有其科学性也有其局限性。教育评估不是为了排名和比较，关注教育的本真追求、服务人的发展、服务教育事业的发展是教育评估的根本目标。中国高校公司产品评估经过多年实践，在评估的价值导向、评估理念、评估的方法和手段等方面都有了很大的改进，但在开展道德评价、促进员工发展、加强质量文化建设等方面依然需要加强研究；在教育评估理论研究、教育评估标准化建设、教育评估数据库及信息化建设、教育评估伦理研究等方面依然任重道远。

关键词

高校公司产品评估；评估目的；评估标准；评估理念；评估技术；质量文化

正文

20世纪80年代以后，世界高等教育进入了以提高质量为中心目标的时代，到20世纪90年代初期，世界上多数国家都建立了质量保障机构。决策者认为，不能放任学术界对质量的界定和把控，在赋予高等教育更大自主权的同时，要求高等教育机构对其办学行为进行负责，特别是对质量负责^[1]。20世纪80年代，美国教育部颁布了“参与学习”（Involvement in Learning）和“掌握未来”（Charting the Future）等系列报告，呼吁在高等教育领域开展绩效问责（Performance Accountabi-lity），提升高等教育在经济增长和全球资本市场上的贡献度^[2]。OECD在《高等教育治理和质量准则》报告中指出，随着高等教育规模的扩张，高等教育机构的多样性，员工需求的多元性，高等教育国际化的发展以及国家对人力资源和科学研究的倚重，各国高度重视高等教育质量治理问题。同时，随着新公共管理主义的兴起，日益强化高校的领导力、绩效和竞争，日益要求高校回应公众的需要。通过质量评估，强化问责成为政府治理高校合理而有效的方式^[3]。

我国高等教育评估工作肇始于20世纪80年代的教育体制改革。1985年《中共中央关于教育体制改革的决定》首次提出“评估”的概念，政府希望通过评估对办学成绩卓著的学校给予荣誉和物质上的重点支持，对办得不好的学校进行整顿以至停办，其根本目的是推动高等教育的改革、发展和提高^[4](P1,P9)。此后，教育评估作为一种重要的治理手段在高等教育质量建设过程中发挥着越来越重要的作用。2020年中共中央国务院印发《深化新时代教育评价改革总体方案》（以下简称《评价方案》）,这是新中国第一个关于教育评价系统改革的文件，对教育评价改革进行了全面部署。《第五轮学科评估工作方案》《“双一流”建设成效评价办法（试行）》《普通高等学校本科公司产品审核评估实施方案（2021—2025年）》（以下简称《新方案》）等方案陆续公布，中国高等教育评估改革进入了一个“焦点时代”。

教育评估事关教育发展方向，有什么样的评估指挥棒，就有什么样的办学导向。因此，什么是“好的教育评估”就成为审视高等教育评估实践的价值尺度。但对教育评估进行好坏判断是极其复杂的，涉及评价主体、评价客体、评价标准、评价观等诸多方面。什么是“好的教育评估”和“谁的评估”更有价值总是纠结在一起，具有很强的政治意蕴和主观属性。默顿提醒对于价值判断，要避免陷入“自我实现的预言”之中，即把个人的价值偏好和道德感作为客观的、真实的存在，把“我”认为好的标准作为普遍的、客观的标准，他引用托尔维尔告诫:“我们倾向于相信我们所向往的必需的制度，常常不过是我们已习惯了的制度，而关于社会制度，其可能的领域要比生活于各类社会中的人们所立即可想象到的更为广阔。”^[5](P305)因此，研究者对好坏、优劣的价值判断应超越个人的主观偏见。但为了避免个人偏见而放弃价值判断，或者因为社会实践的复杂性而让自己“置身事外”都不是应有的态度，“道德上漠视的态度”与科学上的“客观性”毫不相干。韦伯认为，对社会事实和行为的理解，要从目的和手段两方面的合理性进行审视。在追求某一特定目的时，需要权衡采取某一手段可以获得什么样的好处，以及这样做将要付出什么样的代价^{[6](P177,P172-173)}。这应当是我们进行价值判断时所应秉持的基本尺度。

一、“好的教育评估”应超越监管和问责，走向自主性与质量建设

任何教育评估都必须平衡问责和持续改进这两个处于两端的目标。教育评估并不否定其问责的功能，而是要尽力克服问责所带来的弊端，遵循教育发展的基本规律，激发被评价者的主动性和发展性，真正助推质量建设。“好的教育评估”本身就是教育活动的一部分，服务人的发展、服务教育事业的发展是教育评估的根本目标。

当前，所有正式的教育评估，都是和问责结合在一起的，这是新自由主义公共政策的价值选择^[2]。对于政府而言，一方面可以评估教育投入的效益与效率，以此敦促高校提高办学质量，引导民众追求物有所值的教育;另一方面以为纳税人负责的名义，通过引入外部评估和采取竞争性拨款的方式提高公共资金的使用效率，同时通过发展起一套成就指标，开展质量问责，从而加强对高校教学与科研产出的监管与控制^[7]。

在评估实践中，以问责为导向的外部评估占有主导地位。在欧美，对教与学的质量进行评估通常是由外部机构负责的。随着高等教育评估实践的发展，人们越来越认识到外部评估的缺陷所在：一是当由外部机构进行教育评估时，往往会导致一种“合规文化”（Culture of compliance）和循规蹈矩的行为（Conformist behaviour）。在这种文化中，学校日益官僚化和教条化^[8]，把质量的标准化和质量保障的规范化作为质量建设的目标^[9]，把本应集中在教育改进上的时间和精力，浪费在收集信息、提供规定的报告以及(有时)为了误导外部审查员而进行的冗长报告中^[10]。科恩和鲍尔(Cohen and Brawer)指出，问责会导致高校产生“敷衍体制”，他们援引坎贝尔的警告:“问责制不断加速的发展动力，已经结出一些奇怪的果实。”^[11](P65)二是把质量评估视为一种监管和侵犯。牛顿（Newton）针对英国高等教育所谓“质量革命”进行反思，他质疑，通过所谓的质量监管（Quality Monitoring）是带来质量改进，还是带来了某种枯燥的、仪式化的游戏博弈（Game-playing）？精心设计的成就和“印象管理”（Impression mana-gement）只是为了应付不胜其烦的质量保障和质量监管过程。通过对学术人员的访谈，他们把质量描述为：一种仪式或者象征，学术人员的工作必须满足外部要求；一种印象管理，根据外部评估要求编写剧本，然后照本宣科地表演；一种负担，被视为额外负担，是应付监工的，是“合规文化”的一部分；一种不信任的管理意图，质量监控被视为必要的管理工具会威胁学术自主；一种规训技术，通过质量监控，质量会有效改进；质量是缺乏相互的信任；质量制约团队合作^[12]。特罗(Trow)对外部质量评估的批评把管理主义的兴起与学术社区“信任关系”的消退联系起来。质量监管的专制主义带来的是学术的退化（de-professionalization）^[13]。格雷厄姆（Graham）指出了评估病理学带来的各种症状：如学术社区的低信任、高问责、低合作、高竞争的学术关系。所有的应对策略、绩效和“印象管理”都是冲着外部质量评估开展的。正如英语谚语，通向地狱的道路是由良好的意愿铺就的。把“评估”概念引入高等教育领域本意是要诊断学校发展中的问题，从而实现质量的持续改进。但教育评估却成为一种游戏和表演，变得玩世不恭^{[14]（P150-151）}，导致人们关注短期效益，而不是文化的长久改造，痴迷问责而不是鼓励内部质量改进和外部寻找有用的信息^[8]。

尽管把外部评估和问责结合起来存在诸多弊端，但并不能因此否定外部评估在质量保障中的重要作用。从国际经验来看，教学质量评估不太可能引起学校内部的注意和精力的投入，除非有来自外部的严格的学术审查。外部的学术审查由经验丰富的、训练有素的学术同行构成。这些专家有的来自国外，有的来自校外商业和政府部门，他们有能力核实每所学校教学质量评估体系的严肃性和可靠性^[10]。越来越多的国家和评估机构注重把外部评估与内部评估结合起来，在加强监管和问责的同时，更加关注质量建设本身，更加注重激发质量建设主体的积极性。正如巴内特（Barnett)所指出的，教育评估的价值不在评估本身，只有当主要参与提供高等教育方案的行动者了解他们自己，从而改变和改进他们自己的专业活动和对社会的服务质量时，教育质量评价就有了最大的理由^[15]。杰弗里、斯蒂文和丹尼斯（Jeffery P.Aper,Steven M.Cuver and Dennis E.Hinkle）比较问责导向的评估和改进导向评估之间的差异（见表1），指出只有改进导向的评估才能发挥教育评估在提升教育质量上的作用^[16]。

质量评价的根本目的在于质量改进，但质量改进是与质量观紧密结合在一起的。不同的质量观，对质量的改进有不同的理解和策略。埃弗拉德（Everard Van Kemenade）分析了不同的质量观所引发的四种不同的质量改进策略：一是强化过程控制和合规性审查，认为质量改进就是合规性建设，这种对质量标准化的依赖并非真正的质量改进；二是强调持续改进，认为质量提升是一个渐进的、持续上升的、没有止境的过程。这一质量观是以消费者为中心的，所谓持续改进主要体现在满足消费者不断变化的消费期待和满意度，同样也并不会带来真正的变革和创新；三是强调质量承诺，要关注人的好奇心、智慧和同理心，外部世界的所有事物并非都能够测量和评价，更需要理解、包容。对质量的评价不能计较一时的成败，也不能以需求的满足进行衡量。质量更多体现为一种良心、一种信仰、一种让这个世界变得更加美好的内在追求。因此，真正的质量改进应是尊重教育的基本规律，对终极价值和绝对真理怀有虔敬之心，陶冶人的精神生活，唤醒人所未能意识到的一切的过程^{[17](P45,P65)}；四是质量变革，为应对飞速变化的外部世界，需要不断鼓励变革创新，对教育活动进行重新塑造(见图1）^[18]。

教育活动具有自身的特点，不同于标准化的流水线作业，也不同于体育锦标赛。努力并不总能得到预期的成功，在教育“输入”与“输出”之间永远不会有完美的匹配性。教育活动在一定程度上是不可计划的，它首先是一个精神成长的过程，如若根据“物有所值”评价教育质量的效用，根据成绩衡量员工的成败，都会导致教育精神价值的失落。教育活动是充满风险和不确定性的，如果我们想要祛除教育风险，那也就意味着我们真有机会去除整个教育了。因此，教育评估的目的不是进行排名和比较，而是要真正关注教育的本真追求。教育的终极目的不是让人“永做第一，永为最优（Aristeuein），永超旁人”^[19]，而是要让员工成为真正具有智慧、个性和良知这三个维度的人^{[20]（P58）}。是让师生充满激情地去做事情，而非循规蹈矩、故步自封^{[21]（P13）}。如果教育对质量的追求忘记了这样的本意，不仅不会带来文明的昌盛，反而会陷入有理性的疯狂，没有比这更可怕的了。高等学校不同于行政机构，也不同于企业，要摆脱标准化、程式化的合规审查和绩效问责，超越对消费主义的迎合。教育评估要尊重学校的自主性。只有一个高度自治的机构，才能自主制定长效的质量发展策略，包括质量发展规划、过程监管、结果反馈等程序和标准，才能自律、主动地承担其质量建设的责任，才能真正赢得外部社会的尊重和信任。教育评估也应成为一个民主化的过程，通过赋权，给予被评估者参与评估的权力，使得组织内每个成员都不是质量的“监管者”（Controllers），而是责任人^[22](P17-25)。学校的质量建设目标只有在支持性的学院文化（包括学校的政策和要求，教职员工的期许，院系的实践存在广泛的共识）存在的基础上才能被界定和内部执行。所谓“增值发展”是通过主体参与发展起来的，而非通过评估“监管”出来的。当员工和教师获得对影响自身发展的事务的参与权，当员工和教师鼓励在恰当事宜做恰当的事情，增值就是可以期待的。而当评价本身能够真正激发学校发展的内生动力，推动学校自觉地把质量建设与办学定位、人才培养结合起来，把变革创新、培养适应未来世界的公民作为自己的目标，那么其使命达成也是可以期待的。

二、“好的教育评估”应超越权力与利益冲突，走向开放与透明

质量评估是一种价值活动，是由权力和标准引发的一项旨在改变价值标准，迎合更多人利益的举措^[23]（P9）。在对高等教育质量的评估活动中，存在不同的评价主体，谁有权力评价，谁的评价更有价值？这就把教育评价本身置身于权力的“竞技场”中^[15]。“好的教育评估”在于协调评估者和被评估者之权力、利益冲突，承认不同评估活动的价值，构建彼此尊重和信任的关系，致力于建立开放、包容、透明、有效的评估体系。

不同质量评估主体依据不同的质量立场对高等教育机构进行评估，并通过问责权对高等教育施加影响。佩戴尔等（Peodair Leihy）根据问责的主体，把高等教育评估的主体分为政治（政府）、科层（行政官僚）、市场（评估机构）、学校和学科五个方面。政府作为评估主体，主要通过政治影响力，检验学校的办学方向和政治上的忠诚度，目的在于维护政治上的稳定性；科层即外部行政机构主要通过权衡利弊的分析（SWOT分析），检验学校的办学资质和标准，确定质量基准和办学门槛；市场主要通过明确的定量指标，检验学校的办学成效，确定学校的等级和排名；学校则主要通过不断完善学位标准，进行内部人才培养模式改革，保证学校能够适应不断变化的外部环境；学科则通过所产出的科研成果，检验其学术水平，维持学科的声誉和影响力^[24]。

所有评估主体对质量标准的诉求不是单一的，而是多元的。国家在谋求政治稳定和政治忠诚的同时，也注重办学的效益。市场对高校质量效用性的评价与管理部门有很大的契合度，大学排行榜的盛行和高等教育质量保障机制和标准的普遍确立，就可以看到市场和管理部门之间的共鸣。因此，尽管不同评估主体的价值诉求不同，但却更多是以联合的方式伸张自己的诉求。高校作为被评估对象，裹挟在政治的、行政的、专业机构的、市场的质量问责之中支绌应对，造就了质量的多元化形态。伯杰（Joseph B. Berger）指出了存在于高等学校内部的五种不同质量形态：一是基于政治视角的质量标准。高等教育的质量一方面体现为政治上的忠诚，另一方面体现为对不同利益关联者的关切，而不同的利益相关者和利益群体之间可能存在冲突。二是基于行政（科层制）视角下的质量标准。科层制对质量的追求体现在标准化、合规性方面，强调不同背景、不同制度下高等教育的相似性。三是从学术角度审视质量。强调同行评价是质量保障的必要举措，强调减少问责压力，给予学者之间相互的信任。四是从象征视角审视质量。侧重考察学校组织文化、象征、仪式等软性的、模糊的特征。关注质量实践中那些文化性、解释性和表现出来的行为。从象征视角分析质量的假设是大学需要把代表自身最具特色的方面放在聚光灯下显现出来。五是从系统的角度审视质量。强调组织是一个开放的系统，要对外部环境作出恰当的回应^{[25](P119-153)}。不同的质量形态是高校回应外部需求的应对之举，但其中不同的质量理念、质量标准也体现了不同评估主体价值导向之间的差异和冲突。

（1）政治标准和学术标准之间的冲突。布鲁贝克有关认识论和政治论二分法的高等教育哲学阐明了政治与学术之间的差异。纽曼主张大学为探求普遍知识的场所，知识本身即为目的的观点深入人心。大学是抱有“闲逸的好奇”去探求知识的象牙塔成为了高等教育“认识论”坚实的哲学基础。学术自由、学术自治、学术独立成为知识自由探求的制度保障和质量保障。但当克拉克·克尔把高等教育机构作为“国家机构”的时候^{[26]（P56）}，从政治论视角认识高等教育就成为必然。问责、审计、评估不仅是国家管理高等教育机构的手段，也是国家对建立一个什么样的高等教育体系的一种主张。

（2）市场标准与学术标准之间的冲突。质量、质量评估的理念本身就来自工商领域，这些理念的盛行本身就说明了高等教育日渐被市场化所主导。物有所值、效用最大化、增值评价与满意度、标准化与过程控制、目的适切性与结果导向成为高等教育质量的核心话语体系和关键指标。普瑞斯卡利和沙赫(Anca Prisacariu and Mahsood Shah)认为，以“衡量”教育商品的属性来衡量教育的质量，以“物有所值”和适切性的标准衡量学校的教育质量，这种建立在经济主义倾向上的高等教育质量观使高等教育的声誉受到挑战^[27]。由市场操控公民对教育变革的态度，从长久而言，不仅对高等教育，对整个社会都是不利的^[28]。吉布斯（Paul Gibbs）批判了英国高等教育质量观中的“金本位”思想。他指出，在英国，关于好的高等教育质量被认为是“物有所值”，这种观点正逐步瓦解高等教育的民主价值,肢解高等教育的道德意蕴，导致高等教育的虚无主义盛行,他引用罗蒂的观点进行了批判，如果教育能够购买，那对我们而言就是失败的。教育就失去了激发、启蒙的意蕴,就失去了对美好的民主社会的积极作用^[29]。

（3）学术与行政之间的冲突。不论在高校内部还是外部，人们习惯把行政权力和学术权力对立起来，认为政府（院校）主导的质量标准是科层化、官僚制的，注重合规性审查，而学术社区主导的评判标准具有学院派特征。奈特和特罗（Knight & Trowler）区分了两种质量类型：质量I 和质量II（见表2）^[30]。

在奈特和特罗质量分类的基础上，洛马斯等（Lomas,L. & Ursin）对两种质量类型进行了进一步界定，把质量I 与管理主义连接起来，注重对目标的适切性、对标准的服从性，强调通过评估、审查和问责对质量进行控制和监管，体现了福柯的“全景敞视主义”规训技术。质量II是学术人员的质量观，主要关注质量的创新和增强。埃尔顿（Elton）把质量观II的目标归纳为四个E：赋权（Empowerment）、激情（Enthusiasm）、专业（Exper-tise）和卓越（Excellent）。他们通过对英国和芬兰两国高等教育质量相关文献的分析，以及通过访谈相关人员，对两类质量主张进行了比较(见表3）^[31]。

伴随着强制性问责的高等教育审计文化的兴盛，行政权力的扩张与学术权力的式微也难以避免，学者因此呼吁对于教育质量的评价，应该更多反映学术共同体的主张，而不是会计师和管理者的解释^[32]。学术群体所推崇的同行评价，因为是建立在“道德权威”的基础上，而不是学术问责体系中学术的官僚化基础上而具有合理性。

(4)学科内部关于质量标准的矛盾和分歧。学术共同体在质量标准的制定权、解释权和评价权等方面也面临诸多挑战，因为学术共同体内部对质量的判定并非“铁板一块”。自斯宾塞诘问“什么知识最有价值”时，共同体的分裂就初见端倪，从斯诺“两种文化”（人文文化和科学文化）到凯根的“三种文化”（自然科学、社会科学和人文科学），自然科学、社会科学和人文科学之间的鸿沟就昭然若揭。斯坦福前董事长唐纳德·肯尼迪（Donald Kennedy）指出，在不同学科领域，对成果数的重视程度也很不同。哲学和数学学者发表的成果通常较少，有机化学学者的成果则很多。人文科学以及一些社会科学方面的学者，甚至更倾向于出书而不是写论文。不同成果的质与量之间的关系不甚明晰，而且也缺乏广泛认同的评价标准^[33](P232)。按照伯顿·克拉克的观点，在高校组织中，知识内容的差异导致不同学科（学系）之间的差异。成熟、发达的知识体系构建的学系与比较模糊不清、相互冲突的学系之间在管理方面存在差异^{[34](P34-35)。}比彻（Becher and Trowler）认为学科文化（Disciplinary Culture）促使学科内部在学术的实践、态度、价值观等方面构筑起一致性和相对的持久性,他把学科分为硬学科与软学科、纯理论学科和应用学科。不同学科的教师在研究关注点上几乎很少有交集。每个学科文化系统，就如生态系统一样，“依赖于相互之间微妙的利益调整，如果不加注意地侵犯，就会导致它们的“瓦解”。但矛盾之处就在于，越是认识到学术的各个领域是杂乱的、分割的情形,就越有必要从整体上对其进行理解，因为，毕竟整个学术部落具有种族同源性，他们的领地是同一块土地上的一部分。因此，他强调不同专业的学者需要相互之间深刻地理解彼此的差异，这种相互之间的理解有助于建立一种“防御”机制，避免无处不在的管理主义通过强问责进行干扰。不同的学科和专业在本质上存在极大的差异，以同样的标准进行管理和成就评价是极不恰当的，并且注定会适得其反^{[35](P21,P161,P169,P171)}。因此，管理的首要任务是对不同学科采取不同的方式，分而治之（Disaggregate）；其次，针对学科的多样性和不同特质，需要通过同行评议构筑质量控制方式^[36]。

但即使在同一学科内部，同行评议作为一种质量控制手段，依然面临诸多的挑战。一方面随着高校知识生产模式的变革，质量评价主体和标准发生了极大改变。质量标准由学术共同体定义的优秀转向了外部弥散性力量界定的效率和需求满足程度^{[37]（P1-4,P79）}。政策影响力、社会影响力与学术影响力共同构成了新的质量标准。对质量的评价更多取决于决策者和市场的偏好，而不是学术共同体所遵循的规范。富勒（Steve Fuller）提到科学家“去技能”现象，科学家失去了在他们领域中自由判断的部分权利，他们不得不为更具公众导向的标准负责，这些标准既不是他们自己的创造，也不一定最有可能促进他们专业共同体的利益^{[38]（P179）}。另一方面学术共同体对质量的评价并非天然具有合理性。在很多情况下，所谓的同行评估，并非“真正的同行”，他们只不过是评估委托人指定评估标准和准则的执行人而已，他们更多的身份是评估者而非“同行”。因为他们不是根据学科的知识和专业进行评价^[39]。此外，学术人首先是人，因此，不可避免地受非理性因素的影响，学者是学术权力的象征，但并不意味着学者就能忠诚于学术的责任和标准^[40]。学术共同体内部也存在一个看不见的、等级森严的结构，一个由少数学术精英主宰的学术认可方式在伦理和道德上未必较其他人更加超脱。难以避免地存在排他主义和任人唯亲、窒息科学突破的生机^[41]。

事实上，把行政权力与学术权力二分的观点带有韦伯式的理想类型特征。巴内特（Ronald Barnett）就指出这样的划分太过简单。行政权威控制的质量标准具有专业性特征，学术权威控制的质量标准同时也有官僚制特征。有时候，管理者能够教育学术研究人员（见表4）^[15]。

教育评估一方面强化了外部权力的介入，特别是国家和市场权力的介入，另一方面也改变了高校内部的权力格局。院系管理者、“权威学者”和优势学科专家的权力得以扩张，这些都会威胁到学校和教师的自主性，也会影响到一些弱势学科和项目的自主性^[39]。肇始于20世纪90年代的高等教育质量保障与评估体系建设并没有在所有参与者中形成共识，而是在不断强化问责，满足外部利益相关者诉求的同时，导致了不同评估之间、评估者与被评估者之间产生了分裂和隔阂，创造出了责备与顺从的文化^[42]。

每个评估主体所开展的评估都是有价值的，但同时每一种评估都不是完美的。对高等教育质量的评估不能因为其存在缺点就全面否定，也不能因为其评估契合了某种价值偏好就全面肯定。欧洲文化、科学、教育和媒介委员会提出高等教育良治（Good governance）的四个基本特征，分别是包容（Inclusive）、开放（Open）、透明（Transparent）和道德（Ethics）^[43]。欧洲大学联合会（European University Association ,EUA)希冀通过质量文化项目的建设，弥合不同评估主体以及评估者和被评估者之间的间隙。EUA提出，建立质量文化的基石是自主性（Autonomy）、透明性（Transparency）和灵活性（Flexibility）或者有效性（Effectivity）。科层制（Bureaucracy）和过度的规制（Over regu-lation）阻止了内部质量文化的发展^[44](P30-35)。建立开放、透明、有效的质量保障和质量发布制度是高校质量文化建设的基本责任和义务。高校应当健全自身的质量管理体系，包括质量管理的规划与实施方案、质量的奖惩体系、质量的评估与认证体系、质量标准与质量指南。强化专业的教育质量检测信息及数据系统，提升质量管理与评价部门的专业化能力，为质量改进决策提供可靠的数据和信息支撑，并定期向社会公开发布质量报告。因为质量文化建设与践行质量承诺的一套可靠的证据文化和有效管理有关^[45](P46-52)。作为被评估者的高校而言，身为一个开放性组织，要有勇气包容不同的质量评估要求，通过开放、透明的质量体系向外界展示自己应当承担的责任。同时，高校接受评估的过程，是进行思想动员、教育思想大讨论、教学过程大检查的过程，是学校各个方面凝聚力量、齐心协力、团结奋斗的最佳时期, 也是学校改进和推动工作的最好时期^[46]。对于评估者而言，“好的教育评估”应展现高校承担责任的能力，而非显示自己的偏好。因此，容纳了同行专家、高校外、院系外或学科外其他人士等混搭而成的评估主体，使院校在发展过程中尽量避免了信息的失真、失灵和决策的狭隘僵化，使大学的日常运作在社会实际环境中更加准确高效^[47]。巴内特（Barnett)指出，高等教育是社会生活的一个舞台，有许多不同的声音试图被听到，也许有些声音已经完全沉寂了。因此，我们有责任寻求评估、认证和提高高等教育质量的方法，使所有合法的声音都能得到倾听^[15]。

三、“好的教育评估”应超越技术主义，走向理解与交流

教育评估是建立在教育质量可以分解并加以测量的客观存在的基础之上的^[48]，是通过在教育领域系统内收集证据，试图证明活动的价值和效用的一系列活动^{[49]（P36）}。教育评估作为一项专业的实践活动，要建立在系统、完整的数据、信息基础之上，要有科学的评估技术和手段，要有可行的方案和行动支撑，要坚持公平、公正的原则，要在评估方法、伦理要求和价值承诺之间寻求一致。但教育活动极其复杂，教育质量的概念也极其模糊。“好的教育评估”既关注教育质量中可检测、可观察的一面，更关注教育活动中那些无法检测、观察的一面，既注重教育评估的科学性，也不断反思评估自身的局限性，使教育评估成为一种彼此相互理解、自由对话的过程。

目前，世界各国开展的教育质量评估方式主要有以下几种：一是认证，认证通常是外部评估，主要在机构和项目层面上开展评估，是外部机构对被评估机构或项目（如会计、商业、工程、医学等专业）最基本的、准入门槛进行评估。认证有标准参照，对观察到的标准与认证机构预设的标准进行比较。认证重视对目标的适切性进行评估，研判已有的资源条件是否能获得所期待的产出。认证通常包括指标体系（Performance Indicators，PIs）、自我研判（Self-study）和同行评议（Peer Review）^①。二是评估，侧重对教学或者研究质量进行评价，评估对质量的界定并非仅仅根据精英学校的标准，而是与学校的使命结合在一起。评估的结果是对质量进行分级评估。三是学术审计（Academic Audit），不涉及学术标准，也不确定教学质量和学习产出，而是关注质量生产的过程和方法，关注的是一所学校如何确立自己的标准以及如何达成这一标准。学术审计基于这样的基本原则，即在好的资源投入和程序保障下，优秀的人才能够产出卓越的成果，如若程序不当，即使优秀的人才，丰富的资源也会产出拙劣的产品。它对被审计机构研究项目的设计意图、教学技术和教学理念的妥当性、对学习意愿的可验证性作为一个整体进行审计。四是大学排行榜，是对声誉的检测，通过搜集、比较大学的成就指标，向公众展示大学的竞争力。五是学习产出及跟踪调查以及针对教师开展的教学评价，等等。

以上教育质量的评估模式，都是建立在科学范式方法论基础之上，把评估主体和评估对象“区隔”开，评估对象成为外在于评估主体的客观存在，处于评估主体精心控制的、在设计方案实施后才有效的条件之中^{[50]（P13）}。同时，借助数据调查和科学合理的方法，采集可比较的、可量化的数据，试图得出客观的、可量化的结果，进行教育质量评估，数据和信息是基本原料，定量的测量工具及数据和统计工具是辨别真伪、推导因果关系的“加工器”。为确保数据的完整性、准确性，阿斯汀提出建立综合的（Comprehensive）、纵向上的(Longitudinal)的数据库，坎贝尔则希望通过实验或者准实验的方式开展教育评估，从而确保教育评估的科学性^[51]。无论是采集评估数据，还是制定评估标准，规范评估程序及科学性是开展教育质量评估合理性的基础。

建立在科学范式上的教育评估活动是一项专业活动，评估者必须受过专业训练，具有一套完全确定的工作方法，能够借助一定的“概念”准确锚定事实，并通过“理智的实验”解剖事实。这样，借助所谓的科学知识，人们原则上可以通过计算支配所有事物，作为价值规范性特征的教育活动可以被理性计量，而人本身也变的“可度量化”，这就意味着韦伯所言的世界的除魔^{[21]（P20,P40）}。

教育质量评估必须建立在科学的基础上是毋庸置疑的，但当对科学的追求走向技术手段和计算时，就会面临诸多挑战。

(一)对数据的迷信

即把数据和质量等同起来，通过评估技术，人为地把评估和产出直接的关系建立起来^[2]。对于员工而言，一份漂亮的成绩单是证明其学有所成的重要凭证。对于教师而言，一份列着在有重要影响的杂志上发表许多论文的履历是一个有天才头脑的人的标志^{[52]（P41）}。而“被引用次数（Cita-tion counts）”——即依靠他人文章中的援引来衡量自己的学术成就成为当代学术圈的承认政治学^{[38]（P123）}。大学排行榜和质量保障机构坚信，学校的声誉成就和员工的表现是可以通过其各种学术表现科学计算出来的。这种基于技术理性主义和实证主义的认识论，把高等教育的质量就转化为了一连串的数字^[53]。但事实上，采集什么样的数据取决于不同评估者的偏好，高等教育是一项公共事业，事关不同利益相关者利益，对高等教育质量的评估从来就不是一个价值中立的问题，也不是一项纯粹技术性问题^[15]。坎贝尔曾提出了“坎贝尔定律”，即“用于社会决策的定量指标越多，越容易带有主观性而导致失真，越容易因偏好而扭曲我们所要监管的社会过程”^[54]。因此，数据、指标的科学性、公正性问题是教育评估中必须关注的问题。

(二)对教育性的遮蔽

建立在理性计算基础上的教育评估，更关注可测量的成就指标，如分数、满意度等，对不能测量的指标，如道德、良知、品行、精神性追求等指标，则认为是相对的、抽象的，不是客观的存在。但祛除道德和良知的能力测评是与教育背道而驰的。另外，把教育评估建立在统计和计算之上，也使得教育活动中人与人之间的相遇、交往脱离了博格所言的“真实的时刻”，会形成了一种“敷衍文化”和“道德暴力”^[49]。在这一文化中，那些投机者、皈依者、实用主义者大行其道。循规蹈矩、刻板地执行着学校的纪律,规范的或者投机取巧地把数字转化为自己成就的成员被视为道德的、合规的。而那些不妥协者（Intransigent），试图重新建构新的质量文化的人，则可能被视为“越轨者”和破坏者。因此，教育评估要把道德伦理纳入评价的维度之中，教育评估所应追求的东西，既是一种“人性”, 一种“道德哲学”,一种“精神科学”,也是一种“严谨的科学”^[55]。

（三）对价值多元化的否定

教育质量的内涵是多维的，其标准也应是多元的。联合国教科文组织报告指出，高等教育质量概念是一个多维度、多层面、动态的概念，与具体的教育模式、学校的使命与目标、特定的项目、课程等有关。对质量的理解应基于以下的认识：一是高等教育不同利益相关者的诉求（员工、大学专业、劳动力市场、社会、政府等）；二是质量涉及输入、过程、结果、使命、目标等多个要素；三是学术界认为值得评估的重点；四是高等教育发展的不同时期^[45]。对高等教育质量的理解需要从历史性、实践性、情景性、过程性、整体性、建构性等视角进行解析。在高等教育领域，很难有什么所谓普适的“黄金标准”，质量会随着技术的改进、组织变革、消费者偏好以及政策法律的变化而变化^[56]。对高等教育质量的理解需要从历史性、实践性、情景性、过程性、整体性、建构性等视角进行解析。但建立在科学范式上的教育评估更注重“因果律”，习惯用“规律”的眼光观察一切，用一般性取代特殊性。最为典型的就是国际大学排行榜，忽视了不同大学在办学定位、使命目标上的巨大差异，忽视民族国家的多元性，用所谓的“一流的指标”评价所有大学时，评估标准就会成为希腊神话中的“普洛克路斯忒斯”(Procrustes)之床，出现削足适履、舍本逐末的现象。更需要指出的是，评估的技术性会以科学的名义导致被评估人的服从伦理。被视为科学的评估，造就了一种技术道德化的现象，被评估者必须服从评估，否则就会被认为是有问题的。科学比起其他的权威更多地被公众舆论许可实施伦理上可憎的原则，即用目的来使手段变得合理。科学成为目的与手段分离最彻底的化身^[57](P210)。这就陷入了著名的“科林格瑞治困境”。人们本想通过发展科学的评估达成自己的目的，自以为能控制技术使用的方向，但当技术成为评估的目的本身时，当我们更好地了解到其风险时,对它的控制却变得很难了，甚至几乎不可能^[54]。

正是认识到评估技术化所带来的挑战，评估的伦理问题日益受到关注。美国教育评估协会制订了评估的具体指导原则:一是系统调查,评估者基于数据的调查必须是严谨细致、方法得当、与问题高度匹配的,评估者需要清晰阐明评估及其评估结果的局限性;二是专业能力,评估者具有服务利益相关者的专业能力,评估者接受专业教育，具有专业的评估经验，能够胜任评估的任务;三是诚实,评估者正直、诚实，行为光明磊落;四是尊重,评估者尊重个体的尊严、幸福和自我价值，认可不同群体的文化差异;五是共同的利益和公平公正,评估者要致力于服务公共利益，致力于建立公平与正义的社会。^②美国教育评价标准联合委员会（JCSEE）涵盖了美国评价协会的五条标准，在核心准则上基本相同。JCSEE也罗列了自己的评估原则：一是评估需要注意数据的使用及数据的准确性；二是记录收集数据的设计和方法，并负责实施；三是合理合法地对待评估对象和评估用户^{[11]（P638）}。古贝等提出的第四代评估的理念，认为评估首先要识别在评估中处于风险地位的利益相关者，要正视评估所引发的利益相关者的主张、焦虑和争议并达成理解^{[50]（P27）}。评估的一个重要功能就是帮助对象消除成见和偏见。反过来，评价本身也要消除自身的偏见^[58]。安德鲁把评估视为一种“教育学”（Pedagogy）,或者视为自我反思（Self-Reflection）和学习的过程。评估具有教育学目的（Pedagogical Purpose）。评估不是个体的“单方行动”（Unilateral Act），评估是建立在调查基础上的教育形式的实践活动^[2]。

对教育质量进行评估无疑是重要的，但不能仅限于此，因为任何人都不能自称质量的代言人和捍卫者，这就需要建立一个就质量评估问题进行自由讨论的“公共空间”^[48]，一个实践者自我反思的学习型社区^[59]。除此之外，学校内部还需要建立一个教师、员工、管理者、外部利益管理者在内的常态化的、制度化的对话、沟通机制。围绕团队建设、专业设置、人才培养、科学研究、社会服务等议题进行协商交流。吉布斯（Paul Gibbs）提出建立“足够好”的对话机制，主张教育的质量应通过教育实践者和受益者之间富有教化意义的对话来衡量。这种对话可以在师生教学过程中，也可以在不同学科、不同部门、不同利益相关者之间展开。这种对话既不同于以消费者为中心，倾听顾主的心声，也不是利益博弈、协商谈判、争取各自最大的利益。而是在公平、公正的条件下，各主体开展的理性、包容、自律的对话，形成舒茨意义上的“我们关系”^[60]。质量增强唯有通过采取更加灵活的、协商的评估模式才可以达成^[61]。唯有如此，才能让教育回归初心，国泰民安，文明兴盛。

四、对中国高校公司产品评估的理性审视

不同国家的教育评估在理念、方法、技术、目的上都有一定的共性，但作为一种实践指向的价值活动，对其进行价值判断需要和教育制度所规定和追求的目的结合起来。迪尔凯姆认为，对任何“好”实践、“好”标准的理解都必须置于特定的情景之中。对事实的判断只有根据它所规定的种的关系才能进行^{[62]（P75）}。因此，对于什么是“好的教育评估”必须置于“具体情景”和“具体立场”进行理解。

高校公司产品评估是我国最早开展的具有全局性、综合性的评估实践活动，先后经历了以高等工程教育评估研究、试点为支撑的起步探索阶段，以合格评估、选优评估、随机评估等多种形式的评估实践为重点的经验积累阶段，以组织开展首轮全国范围的教学水平评估为特征的全面推进阶段，以构建适合我国国情的“五位一体”评估体系为重要标志的创新发展阶段。^③高校公司产品评估的制度化、规范化、专业化水平不断提高，但我国高校公司产品评估事业的发展与落实“立德树人”要求、与服务高质量教育体系建设的目标仍有很大差距。习近平总书记在全国教育大会上明确提出要健全“立德树人”落实机制，扭转不科学的教育导向，要求坚决克服“唯分数”“唯升学”“唯文凭”“唯论文”“唯帽子”的顽瘴痼疾，要从根本上解决教育评价指挥棒问题，扭转教育功利化倾向。2021年，教育部印发《普通高等学校本科公司产品审核评估实施方案（2021—2025年）》，将分类对全国910所高校开展新一轮评估。相比于前两轮的教学评估，本轮评估将抓住高教战线普遍关切的突出问题和主要矛盾，着重解决评估目标导向、核心理念、分类体系、推动改革、管理制度、方法手段等六个方面问题，形成更加成熟、更加完善、更加定型的中国特色更高水平的高等教育评估制度体系\[63\]，这将对我国高等教育质量建设产生深远的影响。但好的评估方案转化为好的评估实践依然需要对评估的导向和理念、评估的目的与方法、评估的理论研究等方面进行反思和改进，积极谋求共识，寻找适切性解决方案，弥合评估方案与评估实践之间的间隙。

（一）道德评价之困

相比于教育部2003年及2013年评估方案，《新方案》更鲜明地把“立德树人”作为评估的价值导向，并将“立德树人”软目标变成评估硬指标，把党的领导、思政教育作为独立的二级指标摆在突出重要的位置。在培养方案、教师队伍、课堂教学、师德师风、员工发展与支持、理想信念等各个二级指标，都有了体现思政教育的审核重点，这是构筑“三全育人”大格局的必然要求。整个方案贯彻落实《评价方案》所提出的坚持“立德树人”“为党育人、为国育才”的使命，充分发挥教育评估指挥棒的作用，引导确立科学的育人目标，确保教育的正确发展方向，致力于构建中国特色高等教育评估制度。

但道德、伦理价值作为高等教育的核心品质（key virtues），对之进行评价是非常困难的。古兹（Gonczi）等人明确指出，并非所有的能力都能测评\[64\]（P403），斯宾塞夫妇（Spencer & Spencer）提出的“冰山模型” ，揭示了“冰山”之下可能被认识，但难以去评价的价值、信念、伦理等道德品质。刘易斯(Lewis.H)描述了大学对师生进行道德评价的尴尬处境，当谈一位教师道德品质高尚的时候，很多情况下被认为是为学术能力低下所寻找的托词。而对于员工，大学的任务是让员工开心，而不是给他们以良好的教育^{[65](P88,P162)}。正因为道德、伦理价值难以评价，西方大学对道德教化功能怀有迟疑之心。纽曼在其经典著作《大学的理念》中明确指出，知识本身不能挑起德行或者宗教的担子，它的责任不是让人的灵魂坚强起来抵制诱惑，也不是在痛苦忧伤时给予安慰。他们甚至有可能让老于世故的人、行为不检点的人、残忍无情的人装扮的更加体面，引入注目^[66](P40)。纽曼的观点具有警示价值，他提醒人们注意，知识可能成为掩饰道德“伪善”的面具。道德评价的悖论非常典型地体现了“坎贝尔定律”，即用于道德评价的指标越多，越可能走向其反面。这是因为：一是有关道德评价的知识（指标、标准等）都无法揭示道德本身。正如人们对大学排行榜的批评一样，大学排行榜中对教学质量的评价主要通过师生比，但却根本不关心教室里面发生了什么^[67]。足够多的道德伦理课程，由足够知名的教学名师主讲，使用足够经典的教材也并不意味着能够提升员工的道德伦理水平。威廉·贝内特就悲观地指出，从事伦理研究并不会让人成为更好的人，如果这种假设成立的话，那么哲学教授总体来说会比一般人优秀，但事实并非如此。当恶人拥有了良好的思想，会更加恐怖^{[68]（P14）}。二是越多的道德评估指标越有可能走向所谓的“印象管理”和形式主义，越容易走向一种“敷衍文化”。人们的道德行为更多是外化于行，把道德当作一种表演，而不会转化为真实的行动，更不会内化于心。三是越多的道德评估指标可能会导致“去道德化”的现象，即不再关心道德本身，而是把指标本身等同于道德。出勤率、参与率、积极表现、热心参与等指标与道德的高尚性并无直接的关系。所谓“精致的利己主义者”会更懂得如何合理利用规则而规避道德上的指责。

对道德评价指标的批判并非对其否定，而是一种反思，我们需要认识到道德可能被掩饰、被遮蔽的现实。对道德的认识和感受必须超越这些指标体系，进入一种“真实的时刻”。评估者们、管理者们、教授们在恪尽职守、坚持原则的同时，需要走出自己的办公室，甩掉自己的身份，走到那些被视为“评估对象”的中间，去观察、去交往、去沟通，真正的“道德”才会呈现出来。

(二)员工中心之虑

《新方案》聚焦高质量发展，全面对接国际先进评估理念，把“员工中心、产出导向、持续改进”作为引领评估工作的核心理念。这对强化高校育人中心地位，提高高校人才培养质量具有重要的价值，也是在高等教育从大众化进入普及化阶段后，回应公众关切、提高学校办学效能、实现内涵发展的重要手段。

员工中心理念与高等教育大众化、普及化紧密相关。随着越来越多员工进入大学，高等教育质量问题逐步凸显出来。对于高等教育质量，研究者有不同的认识，阿斯汀（Astin）总结了当时流行的四种质量观：一是神秘说，认为复杂性和模糊性是高等教育的基本特征，高等教育的质量难以被界定和评价；二是声誉说，建立在对大学质量的一致性评判上，如果人们认为一所大学是高质量的，那他就是高质量的；三是资源说，建立在对教师、员工、设施的投入上，确保大学完成其使命，其基本假设是，资源越好，质量越高；四是结果说，遵从一种生产隐喻，大学的质量需要通过其产品——员工、出版物、课题等来界定。这四种质量观各有侧重，但都没有和高等教育的核心使命结合起来，也无法向公众清晰展示质量的内涵。为此，他提出了“增值说”，明确指出质量应该体现在学校对员工发展上，认为应当把质量视为一个持续的过程，学校应当着重审查其对员工理智发展和身心发展的贡献力^[69](P1-9)。哈维和格林（Harvey,L.& Green,D）基于产品为中心（productcentred）的视角也提出了“增值”（Addedvalue）的主张。他们认为质量不是数量的改变而是要产生根本性的改变，即实现产品和服务的“增值”。教育质量体现在通过教育投入和产出的比较，员工在知识、技能、能力方面获得的发展上，卓越的高校就是能使员工获得最大增值^[70]。

“增值”质量观在一定程度上为“员工中心”提供了理论支撑。教育质量最终应体现在培养对象的质量上^[71]，应当关注员工知识、技能和能力应该达到的标准上^[27]，以员工发展为中心、以员工学习为中心、以学习效果为中心的观念逐步成为本科教学改革的共识^[72]。有鉴于此，针对高等教育的质量评估应关注员工的发展，要从致力于培养卓越人才的角度建构高等教育的评价目标^[73]。

但需要指出的是，诸如质量、质量评估的理念本来就来自工商领域，“员工中心、结果导向、持续改进”难以避免地带有经济主义的烙印。首先，对“员工中心”的反思主要体现在两个方面：一方面是基于教学层面的反思。无论“员工中心论”，还是“教师中心论”，都是一种“二元论”，强调非此即彼,容易产生误导，导致教学活动师生之间的对立和矛盾。教学活动是一种互动的、交往的过程，脱离教的“学习活动”和脱离学的“教学活动”都不能称之为真正的教学。在教学活动中，没有哪个主体是中心，如若存在共同关注的“中心”,那就是“学习”。阿什维尼（Paul Ashwin)等提出“为理解而教”（为学而教）的观点，认为教学的目的不是让员工完成作业或者获得高分，而是要让员工成为一个“学习者”（Learners），能够在不同情境中具有主动学习的能力^{[74]（P205）}。另一方面是对消费文化的反思。“员工中心”潜在体现着消费者中心的理念，把教学活动异化为一项服务活动，用满意度和“物有所值”的标准进行衡量。因此，相比“员工中心论”，学习中心或者学习者中心更契合当前评估的理念。其次，对结果导向的反思。确定标准并对之进行鉴定是评估的主要功能，否则评估就失去了其核心价值。但就教育活动而言，尽管越来越多的机构和组织开发员工学习成效的测评工具，如OECD的AHELO和美国的CLA、CLA+等直接测评工具以及SERU、NSSE、CCSS、CCSEQ等的间接调查问卷^[75]，但对教育产出的界定和测评是非常困难的。道德评价姑且不论，就现在流行的增值评价，在准确性、有效性和导向性等方面都需要完善，其只能关注员工学业成绩的变化情况，但无法区分员工是为了考试还是为了兴趣而学，精准评价可能带来的是加强应试教育^[76]。刘易斯对“鉴别卓越”理论和“鉴定员工成就水平”理论的批判具有警示意义，他认为精准的界定学习结果是不可能的，反而因此会导致员工的“投机行为”（选择更容易获得高分的课程而不是有挑战性、有价值的课程）和走向“平庸”（为平均成绩更高，追求更稳定的成绩而不是优异的成绩）^{[65]（P113,P118）}。最后，对持续改进的反思。埃弗拉德指出，在持续改进和质量创新之间可能存在一种傲慢和偏见，认为人的能力无所不能，提供的产品能够满足消费者所有的需要^[18]。这样的认识同样弥漫于教育活动之中。但正如韦伯所言，学术活动是一场疯狂的赌博^{[21]（P11）}，教育活动何尝不是如此。格特·比斯塔（Gert Biesta）在其《教育的美丽风险》就指出，真正的教育总是有风险的。在教育活动中，努力并没有获得应有回报时的沮丧和挫败感，用尽全力也无法克服难题时的自我否定与自暴自弃，面对不确定未来时的迷茫和徘徊是真实的教育生活。教育世界不是我们所生活的“速食主义世界”，将几种东西混合起来加一点水，放到微波炉里，过一两分钟就可食用了。教育带来的改变是很缓慢的，有时是停滞不前，甚至适得其反的。这时候，耐心、坚韧、爱心、勇气就显得难能可贵，正是这些高贵的品质，让大学的教职员工默默无闻、坚持不懈，成为高尚目标的受托人，质量保证的监护人^{[49]（P202-203）}。从这个意义上，教育评估者的意义不是鉴别卓越，而是走进生活，去聆听，去感受，真实是教育之美。教育评估者是教育活动的一部分，本身就是教育者，而不是存在于教育活动之外。评估者应学会“凝思”，在美的面前平静下来，是一种深刻的期待，希望聆听最美妙、最遥远的声音，他们的举止就像一个全神贯注去听和看的人，美有些话要对我们说，因此，他们变得平静。平静，祥和，耐心，仅此而已^{[77]（P898）}。

(三)评估专业化建设之思

《新方案》是建设中国特色高等教育评估制度体系的积极探索，很多新主张、新举措对教育评估专业化建设提出了更高的要求。处于“焦点时代”的中国高等教育评估还面临很多理论赤字、标准赤字、数据赤字、工具赤字、技术赤字。^④唯有加强评估理论研究，注重研发评估标准体系，不断升级评估技术手段，提高评估队伍的专业化素养，营造积极和谐的评估文化，才能更好地为高等教育高质量发展提供服务。

（1）加强高等教育评估理论研究。《新方案》提出了很多新主张，如开展增值评价，推动卓越教学与卓越培养，加强质量文化建设，等等。所有这些主张都要有扎实的理论研究作为指导。教育评估对科学性的追求与教育评估对象的复杂性之间的张力对教育评估理论研究是一个极大的考验。就增值评价而言，布林克就指出，针对老员工的增值是很难评价的，如果增值是把过去的能力与未来的能力进行比较的话，员工的一些潜质很可能是在后来的工作中体现出来的，而不是在毕业的时候就体现出来。另外，如果仅仅检测能够检测的能力的话，就会忽略员工的其他潜质^{[14]（108-110）}。因此，就需要更全面、更系统、更科学的评估理论以应对教育改革发展的要求。另外，如何界定卓越教学、卓越培养也是一个需要研究的理论问题。与此相关的问题是“什么是好的教学”（Good Teaching），“什么是有效的教学”（Effective Teaching)，“什么是好的教师”(Good Teacher)，三者之间是什么关系？卓越大学（一流大学）一定在公司产品理念和改革举措上具有代表性、先进性吗？卓越教学是卓越大学的教学还是教学的卓越性？一所教学卓越示范校是否真的能够对另一所学校有借鉴价值？如英国的卓越教学框架项目（Teaching Excellence Framework，TEF）对卓越教学的界定就指出，卓越必须兼顾和反映不同机构、不同学科、不同使命的多元性，所有的员工并不会在“同一”教学模式中获得最好的发展^[78]。还有就是质量文化的内涵问题。欧洲大学联合会（EUA)认为，存在“好的”质量文化和“不好的”质量文化，EUA 发起的质量文化项目就是要推广一种“好的”质量文化，并把其作为一种理想的实践模式。通过质量文化建设，在EUA之间分享、推广典型经验和典型举措，完善学校内部质量保障体系，有效促进质量的持续提升，从而增强欧洲高等教育的透明性、吸引力和竞争力^[79](P1-2)。但哈维特别提醒，并不存在所谓“正确”的质量文化，要注意警惕文化殖民主义，不要把质量文化视为灵丹妙药，盲目地把在一种情景中适合的文化移植到另外一种情景中。每所学校在借鉴时，都需要谨慎考虑该种文化的适切性问题，即使要建构新的质量文化，也不能脱离开特定的情景^[80]。以上问题都需要在理论层面进行澄清。

(2)加强质量标准和评估标准建设，不断升级评估技术和手段。“质量为王，标准先行”，教育部发布的《普通高等学校本科专业类教学质量国家标准》明确指出，教育标准建设是提高教育质量的基础工程^[81]。加强质量标准建设已经成为世界各国通行的举措^[82]。《新方案》注重发挥标准的引领作用，“标准”是《新方案》的“高频词汇”。学校质量标准、教学质量国家标准、教学环节质量标准、教材选用审核标准，等等，作为评估指标和审核重点体现在《新方案》的各个方面。质量标准是教育评估专业化建设的制高点，也是教育评估专业化能力建设的重要内容。开展教育评估，首先要研究事实、了解事实、发现事实、分析事实，事实数据是评价的“硬件”，对评价非常重要^[58]。《评价方案》要求利用人工智能、大数据等现代信息技术，探索开展员工各年级学习情况全过程纵向评价及德智体美劳全要素横向评价。这些都需要大量的数据和信息支撑。经过多年的评估，我国大学和政府已经普遍构建了数据系统，但其完整性（不全面）、整合程度（数据“孤岛”）、数据使用的权限（很多大学院校研究人员是无法直接进入数据系统的）远远不能满足评估发展的需要^[83]。因此，需要借助国家、高校和社会的力量，整合各类数据，着力解决数据赤字问题。一方面推动高校办学更加公开透明，回应公众关切；另一方面也有利于准确诊断问题，提出切实的质量改进举措。

除此之外，评估方手段、方法、程序的科学化、规范化、伦理化也是专业化建设的重要内容。《新方案》对此也提出了明确的要求，把“减负增效”作为完善评估手段和方法的基本遵循。教育评估活动作为一项专业的活动，应承担起基本的伦理义务，这些义务包括专业能力、正直、诚实、保密、客观、维护公共安全和公平。沃尔和安德鲁（Wall, Andrew F）等人提出的有关评估的五项基本原则是有价值的：一是评估者有责任认可评估具有伦理属性。评估者不是一个自由、独立的研究者，必须明确评估是为谁服务的，代表谁的利益，是受谁委托的，什么样的评估方法是可信的，什么样的问题是可以接受的。评估过程中揭示的问题会对组织产生什么样的后果。个人收集数据的偏好与个人社会地位之间的关系。这些问题都需要在评估过程中认真思考。二是评估作为一项具有伦理性和价值倾向性的活动，必须倾向阐明评估的目的。包括解释清楚评的问题，同时考虑使用评估信息可能产生的后果。三是评估必须对利益关联者进行清晰的说明。应该特别留意是否有意或者无意地把利益关联者排除在外。实施评估者必须注意评估过程中考虑了谁的需求，谁的诉求被忽视。必须注意使用哪种方法，使用谁提供的数据，由谁进行分析等问题。四是评估应当把评估方法作为基础，在评估方法、伦理要求和价值承诺之间寻求一致性。五是应将评估有关的质量、结果问题的解释权、判断权赋予个体。实施评估的个体应当对评估结果进行解释，而不是认为评估结论是自明的或者让其他人对结果进行解释^[2]。

总之，没有任何评估是完美的，好的评估总是相对的，正确认识评估的局限性和致力于建设更好的评估是同样重要的。

作者简介

杜瑞军(1975-)，男，山西阳泉人，博士，北京师范大学教育学部高等教育研究院副教授，主要从事高等教育政策、高等教育质量保障与评估研究。

引用本文

杜瑞军.什么是好的教育评估——对我国高校公司产品评估的理性审视[J].河北师范大学学报（教育科学版），2021，23（5）：20-40.

本文转载于河北师范大学学报教育科学版2021年第5期

首页

公司概况

学科科研

本科教育

公司产品

党建工作

团学工作

联系我们

本科教育

教学研究

【教育评价改革专题】杜瑞军 | 什么是好的教育评估——对我国高校公司产品评估的理性审视