一个硅谷工程师发现自己八年级的孩子数学跟不上。他打开 Khanmigo,让孩子每天做半小时 AI 辅导:按孩子的节奏讲解、按孩子的错题出题、永远有耐心、随时可用。他觉得这个方案完美:如果每个孩子都能有一个这样的 AI 家教,教育的核心问题就解决了。
这不只是一个人的直觉。Sal Khan 在 2023 年 TED 演讲里明确说,AI 可以解决教育领域一个著名的老问题。Khan Academy 随后推出 Khanmigo,一年内用户从 6.8 万扩展到 超过 70 万学生。德克萨斯的 Alpha School 把每天的学术时间压到两小时,剩下时间做项目和兴趣。整个 ed-tech 行业在过去两年里形成了一个主流叙事:AI 让每个学生都能有一对一辅导,教育的圣杯终于可以实现了。
这个叙事之所以有吸引力,背后有几十年的学术研究在支撑。下面先介绍三条最核心的理论,它们被引用了几万次,在全世界的师范教育里都是必修内容。三条理论本身的研究结论是扎实的,没有被推翻过。但人们从这些结论里推出来的那个”所以 AI 应该做个性化辅导”的方向,可能恰恰建立在对这些理论的一种常见误读上。后面会展开讲为什么。先把理论本身说清楚。
第一条是 Bloom 的 Two Sigma。 Benjamin Bloom 在 1984 年发表了一篇影响深远的研究,报告了一个实验结果:接受一对一辅导并配合 mastery learning(掌握学习,指学生在掌握了当前概念之后才推进到下一个概念)的学生,成绩分布比传统班级教学的学生整体高出两个标准差。两个标准差意味着什么?意味着普通班里排中间的学生,在一对一辅导下可以达到班里前 2% 的水平。Bloom 把这叫做 Two Sigma Problem:一对一这么好,为什么大规模教育做不到?
第二条是 Vygotsky 的最近发展区。 Lev Vygotsky 在 1930 年代提出了一个概念叫 Zone of Proximal Development(最近发展区,简称 ZPD):每个学生都有一个”自己做不到但在帮助下能做到”的区间,教学应该发生在这个区间里。太简单学生不学,太难学生放弃,只有刚好在 ZPD 上才能产生真正的学习。配套的实践叫 scaffolding(脚手架),指老师提供的临时性帮助,随着学生能力增长逐步撤掉。问题在于:一个班 40 个学生,40 个 ZPD 都不一样,老师站在讲台上只能瞄准中位数讲一种版本。
第三条是 Black 和 Wiliam 的形成性评价。 Paul Black 和 Dylan Wiliam 在 1998 年发表了综述 Inside the Black Box,综合了 250 项研究,得出一个结论:老师在教学过程中持续对学生做诊断性反馈(formative assessment,形成性评价,区别于期末考试那种总结性评价),能产生 0.4 到 0.7 的效应量。这个效应量在教育研究里算很大了。但好的形成性评价要求反馈及时、个性化、有诊断性。40 人班里,老师对学生作业的反馈延迟通常是一到三天,课堂上能得到老师即时反馈的学生一节课不超过五个。
三条理论的共同特征一目了然:它们都假设教学要针对个体学生做事才有效。一对一辅导、每个人的 ZPD 不同、每个人需要不同的反馈。它们共同构建了过去几十年 ed-tech 的核心叙事:好教学 = 个性化教学,技术的使命 = 让个性化可以规模化。AI 是这条叙事的最新载体。
逻辑看起来天衣无缝:理论说个体化好,实践中因为 40:1 的师生比做不到,AI 来了可以做到了,问题解决。
但实验结果并不吻合。
过去两年积累了一批严肃的实证研究,结果出乎大多数人预期。
Stanford SCALE 2026 年发布的 AI in K-12 证据综述 引用了 Bastani 等人在土耳其做的一个对照实验。高中生被分成三组复习数学:一组用通用聊天机器人(可以问任何问题、得到完整解答),一组用专门设计的辅导型 AI(只给提示不给答案),一组用传统教科书练习。在有 AI 辅助的练习阶段,通用聊天机器人组表现最好,这很自然,因为 AI 在帮他们做题。但到了闭卷考试,通用聊天机器人组的成绩比教科书组差了一截。辅导型 AI 组的成绩和教科书组持平。持平,没有更好。
Khanmigo 是目前最接近”AI 一对一辅导”这个理想的产品。它基于 GPT-4,被明确设计为 Socratic tutor(不给答案,用提问引导学生自己思考),Khan Academy 自己的品牌和内容库做底座。到 2025 年已经在超过 350 个学区部署。但大规模落地后的反馈开始出现裂缝。Dallas ISD 取消了合同。Iowa 大学教学支持中心在试点后正式建议不推广。Michigan Virtual 的试点 覆盖了 1102 个学生,发现使用频率不到每周一次,最终建议转向教师端工具。
MIT Media Lab 2025 年的研究 Your Brain on ChatGPT 观察到长期依赖 AI 辅助写作的学生出现认知负债积累。Hechinger Report 的对照实验 里,有 AI 辅助的学生写出的文章质量更高,但对话题的理解、写作动机、后续写作能力都没有提升。没有 AI 只拿到一份检查表的对照组,反而最享受写作任务。
Alpha School 听起来是最激进的成功案例:学生每天只花两小时做学术,标准化测试排名全美前 1%。但 Scott Alexander 亲访后指出,Alpha 的核心不是大语言模型做个性化对话,而是加强版的间隔重复练习平台配 mastery learning 检查。AI 的贡献不在”个性化对话”,在”节奏控制”。
这些结果放在一起,指向一个跟主流预期相反的判断:AI 个性化辅导做到最好的时候,效果也只是跟传统手段持平,没有更好。做得不好的时候,反而让学生变差。 这跟 ed-tech 行业”AI 解决教育圣杯”的主流叙事严重矛盾。
矛盾迫使我们停下来想一个更根本的问题:如果个性化关注的效果被高估了,那么到底什么才是决定教育效果的关键变量?
回到前面介绍的三条核心理论。它们的研究结论是扎实的,几十年的实证没有被推翻。但对这些结论的解读方式出了问题。
先看 Bloom 的 Two Sigma。Education Next 在 2023 年做了一次重新评估,原文标题是 “Two-Sigma Tutoring: Separating Science Fiction from Science Fact”。评估的核心发现是:Bloom 当年把两个标准差的效果归因于”一对一辅导”,但实际起作用的主要机制是 mastery learning 和 formative feedback,而不是一对一的人情连接或个体化关注。也就是说,关键变量是”掌握了再往下走”这个节奏控制,不是”有人专门盯着你一个人”。ASSISTments 和 Carnegie Learning 的 MATHia 这些认知辅导软件,主要靠节奏控制(而非模拟人际关系)来部分复现 Bloom 的效果。
再看 Hattie 的 Visible Learning meta-analysis。John Hattie 综合了 1200 多项研究、195 个影响因素,这是教育研究里最大规模的效应量排序。里面有一个数字被大多数 AI 教育讨论忽略了:班级大小的效应量只有 0.21。0.21 是什么概念?Hattie 自己定义的”有意义”门槛是 0.4。也就是说,把一个 40 人的班缩到 20 人,让老师有更多精力照顾个体,对学习效果的提升几乎达不到有意义的水平。而教学方法本身(比如 Direct Instruction 效应量 0.59、Cooperative Learning 效应量 0.4-0.6、Feedback 效应量 0.7+)远比班级大小重要。
如果”个体化关注”是决定教育效果的关键变量,缩小班级应该有显著效果才对。数据说没有。
第三个证据来自上海和日本。上海在 2009 年和 2012 年的 PISA 测试中数学、阅读、科学三项都位列全球第一。上海的班级规模通常在 40-48 人,师生比比大多数 OECD 国家都高。上海的 PISA 表现不是因为学生被更多地个体化对待,恰恰相反,上海教学的核心机制是集体备课和课例研究。每所学校按学科分教研组,每周有固定时间集体备课,一组老师花几周打磨一节课的教案,轮流上课、互相观察、集体研讨、反复迭代。日本的 Lesson Study(授業研究)有超过一个世纪的传统,核心方法论 kyōzai kenkyū(教材研究)就是系统性地研究每一个知识点应该怎么讲、学生可能在哪里卡住、教法应该怎么调整。
这三个方向的证据汇聚到一个判断:真正决定教育效果的变量,可能不是每个学生是否被独立对待,而是这节课本身设计得好不好。好课的设计质量对 40 个学生同时起作用,不需要个体化就能拿到大部分效果。
一旦把注意力从”个体化关注”转到”课的设计质量”,就会发现教育学界其实有一整条研究传统专门在做这件事。这条传统长期被个体化叙事的光芒遮住,但它的证据基础一点都不弱。
最硬的实证来自美国教育史上规模最大的教学对比实验:Project Follow Through。这个项目从 1967 年持续到 1977 年,覆盖了超过 7 万名低收入家庭的学生,对比了九种不同的教学法。其中 Direct Instruction(DI,由 Siegfried Engelmann 设计)是一种高度结构化的集体教学方法:老师按照经过精心设计的脚本讲解,节奏快、提问密、即时纠错、全班同步应答。这个方法听起来跟”以学生为中心”的个体化教育完全相反。但在三个评估维度(基础技能、认知能力、情感发展)上,Direct Instruction 都位列九种方法中的第一。在情感发展这个维度上,开放式教育法被很多人预期会更好(因为它更尊重学生的自主性),但数据显示它并没有超过 DI。
这个结果在学界引发了持续几十年的争议。批评主要集中在方法论、样本选择和政治立场上(DI 被认为过于”传统”,不符合教育进步主义的哲学倾向)。但数据本身没有被翻盘。一个合理的理解是:Direct Instruction 胜出不是因为”老师独裁更好”,而是因为它的课是被极其精心设计的。每一步讲解的顺序、每一个提问的时机、每一种可能的学生错误和对应的纠正方式,都在教案里被预先想清楚了。这跟上海教研组集体打磨一节课的逻辑完全一致。
Barak Rosenshine 2012 年发表的 Principles of Instruction 从另一个角度做了类似的事。他综合了三类研究(认知科学、课堂效能教师研究、认知辅导系统研究),提炼出十条经验法则。比如每天从回顾上节课开始、小步骤讲解新内容、频繁向全班提问检查理解、在学生正确率达到 80% 之前不进入独立练习、每周和每月做系统性复习。这十条原则假设的就是一对多的教学场景。2019 年英国教育者 Tom Sherrington 把这十条写成 Rosenshine’s Principles in Action,迅速成为英国小学教师培训的标配。
Johnson 和 Johnson 从 1970 年代开始研究的 Cooperative Learning(合作学习)也属于集体化传统。Hattie 的 meta-analysis 里合作学习的效应量在 0.4-0.6 之间,跟个体化辅导几乎持平。Cooperative Learning 的关键不是”让学生分组讨论”(那经常退化为几个人干活、其他人搭便车),而是有严格的设计元素:小组荣辱与共(positive interdependence)和个人责任可识别(individual accountability)。Robert Slavin 的 Success for All 项目把这套方法在美国数百所低收入学校做了大规模部署。
把这些证据放在一起,一个反直觉的判断开始成型。Hattie 数据里 Direct Instruction 的效应量 0.59,一对一辅导的效应量 0.58-0.60,两者几乎一样。班级大小的效应量 0.21,远低于教学方法。教学方法的影响比”每个学生是否被独立照顾”这个变量大得多。 而集体教学方法的采纳率比个体化方法高出一个数量级(集体教学是所有公立学校的默认形态,个体化方法在真实课堂的落地率极低,前面提到的 differentiated instruction 只有约 33% 的教师真正实施)。如果把效应量乘以采纳率,集体教学的总效果可能远超个体化教学。
这条传统的核心逻辑可以用一句话总结:与其让一个老师尝试同时照顾 40 个不同的学生(几乎注定做不好),不如让一组老师把一节课设计到足够好,好到它对 40 个不同的学生都能起作用。 前者的瓶颈是老师的认知带宽,后者的瓶颈是课的设计质量。过去几十年 ed-tech 一直在试图突破前者,而实际上后者可能是更大的杠杆。
如果课的设计质量比个体化关注更能决定教育效果,AI 在教育里的用武之地就需要重新想。
过去三十年 ed-tech 的核心叙事是”用技术实现学生端的个性化”。1990 年代的电脑辅助教学给学生不同的练习题,2010 年代的自适应学习平台给学生不同的学习路径,2020 年代的 AI tutor 给学生不同的讲解和对话。每一代技术都在学生端用力,假设的都是”如果我能更精确地照顾每个学生,教育就变好”。前面的分析显示,这个假设的独立贡献可能被高估了。
如果把 AI 的焦点从学生端转到课的设计端,具体能做什么?
第一件事是帮教研组加速课的迭代。 上海教研组一组老师花几周打磨一节课,这个过程的主要成本是信息收集和对比分析:这节课上完之后学生在哪里卡住了?换一种提问顺序效果会不会不同?别的学校教同一个知识点用了什么方法、效果如何?这些问题目前靠人力回答,一组老师在一个学期里能打磨的课数量有限。AI 能做的是大幅压缩信息收集环节:分析录课数据找出学生卡住的具体位置、对比不同提问策略在相似班级上的效果差异、从大量课例里提取在特定知识点上最有效的教学序列。日本 Lesson Study 里的 kyōzai kenkyū(教材研究)环节目前完全靠人力,AI 可以把几个月的信息搜集压缩到几天。
第二件事是给老师提供实时的课堂品控信号。 这里说的不是给学生个体化反馈,而是给老师关于全班的集体状态信号。EPFL 的 Pierre Dillenbourg 和 Luis Prieto 研究了 15 年的 orchestration load(编排负荷)概念指的就是这件事:老师在上课时同时要讲解、观察、决策,认知带宽已经饱和。Rosenshine 的第三条原则说”频繁检查全班理解”,但在 40 人班里老师只能通过零星的举手和提问来判断。AI 可以在后台监控全班的练习进度和错误模式,在合适的时刻给老师一个集体层面的信号:全班 30% 没跟上这一步,现在是个好时机停下来重讲。这个信号是给老师的,不是给学生的。它让 Rosenshine 十条原则里最难执行的那几条(频繁检查全班理解、确保 80% 正确率再推进)变得可以落地。
第三件事是降低新老师达到好课水平的门槛。 名师之所以能上好课,一个重要原因是他在同一个知识点上已经积累了大量试错经验。他知道学生在二次方程配方法这一步最容易犯的三类错误,知道遇到第一类错误应该怎么追问、遇到第二类错误应该回到哪个前置概念。这些经验目前通过名师工作室的跟岗、赛课、师徒带教来传递,传递带宽很低,一个名师一辈子带出几十个徒弟已经是极限。如果 AI 能从大量录课和学情数据里提取出这类经验模式,比如”在这个知识点的第三步讲解后,如果超过 20% 学生出现某类错误,最有效的下一步是回到前置概念 X 做一次两分钟的复习”,新老师就可以在自己的课堂上即时获得辅助,不需要花十年积累才能做出类似判断。
第四件事是把个性化放到辅助位,做精准补位。 前面的分析并不是说学生端个性化完全没有价值,而是说它作为主角的效果被高估了。在集体教学为主体的框架里,AI 可以做一件非常具体的事:在老师讲完主干之后的练习环节,给跟不上的学生回补前置概念,给跑在前面的学生出扩展题。这类个性化做的是”兜底和拓展”,不是替代课堂主体。Bastani 的土耳其实验给出了一个重要的设计约束:即使做学生端补位,也必须是辅导型的(只给提示不给答案、强制重做),通用对话型的 AI 反而让学生变差。
这四件事有一个共同的方向:AI 的杠杆点从学生端转到了课的设计端和教师端。不是给每个学生一个 AI 老师,而是帮老师把课上得更好、帮教研组把课设计得更好、帮新老师更快达到好课水平。学生端的个性化仍然存在,但退到辅助位。
要诚实地交代这个方向的边界。课的设计质量提升依赖足够丰富的课堂数据(录课、学情、提问记录),这些数据的结构化和积累需要时间。更硬的约束来自考核体系:如果高考继续按知识覆盖面评估,AI 帮老师省出来的时间大概率会被导回多刷题、多覆盖边缘知识点,而不是用来做更深度的教学设计。制度是比技术更硬的约束。
那个给孩子开 Khanmigo 的工程师,他的直觉不算错,只是他抓的可能不是最大的杠杆。
他孩子每天在学校上六节课,每节课的质量对学习效果的影响远大于课后半小时的 AI 辅导。如果那六节课本身就是被一组老师精心设计、反复迭代、用数据验证过的,孩子在课上的学习效率可能比任何课后补救都高。上海 48 人班的学生之所以数学好,不是因为他们有更多的个体化关注(他们有更少的),是因为他们的每节课都是一组老师花几周打磨出来的产品。
AI 最大的价值可能不是给每个学生配一个 AI 老师。可能是帮人把课变好。
这个判断目前还是一个假说,不是定论。支持它的证据链包括 Bloom 2σ 的机制重评、Hattie 的班级大小效应量、Project Follow Through 的结果、上海和日本的实践、以及 AI 个性化辅导在大规模落地时的 mixed 结果。反对它的人会指出:上海模式有其独特的制度土壤(集体备课是行政要求、高考是统一指挥棒),不能简单复制;Project Follow Through 的结果有方法论争议;Bastani 的实验样本有限、场景单一。这些反对意见都成立,但它们挑战的是证据的强度,不是方向的合理性。
教育领域在过去几十年里积累了大量关于”好教学”的研究,个体化传统和集体化传统各自给出了不同的答案。AI 的到来让我们有机会重新审视这两条传统的假设。如果我们不停下来问”个性化关注的独立贡献到底有多大”这个问题,AI 在教育里的应用就会沿着过去三十年 ed-tech 的老路走:每一代新技术都在学生端做个性化,每一代都声称要解决 Bloom 的 Two Sigma Problem,每一代在落地时都遇到 adoption 和效果的双重困境。
也许这一次可以走一条不同的路。从课的设计质量出发,而不是从学生的个体差异出发。让 AI 帮老师和教研组做他们最需要帮助的事情,而不是试图用 AI 替代老师对学生的那份关注。那份关注是人做的事,AI 做不了也不需要做。AI 能做的,是让每节课好到 40 个不同的学生都能从中获益。