Nature｜LLM正在重塑教育，所有学生都需要学习AI，RAG是解决幻觉的关键

公众号新闻

2023-11-29 05:11

新智元报道

编辑：润

【新智元导读】Nature刊文，从学生、老师、学要、教育平台、教育工具提供商等角度详细剖析了LLM如何重塑教育事业，变革的时刻也许已经到来了。

LLM已经在重塑人类教育事业了！

Nature今天刊文，探讨了教育行业的不同参与者，如何抓住LLM这个变革性的工具带来的机会，重新改造这项自人类文明诞生以来就存在的行业。

文章链接：https://www.nature.com/articles/d41586-023-03507-3

在作者看来，现在已经不是讨论以LLM为代表的AI技术是否应该进入课堂的时候了。

没有人能够再调拨时钟，假装回到那个没有大语言模型的时代，对AI技术在教育领域的应用不闻不问。

不论是学生，老师，还是教育机构，乃至教育工具提供商，都应该积极地把握LLM带来的机会，彻底地改变学习和教学的方式，才能应对教育行业即将发生的改变。

LLM已经进入了教育的方方面面

上个月，教育心理学家Ronald Beghetto要求一群研究生和教学专家以一种不同寻常的方式讨论他们的工作。

除了相互交谈，他们还与Beghetto设计的一系列以创造力为主题的聊天机器人进行了对话，这些聊天机器人不久将托管在Beghetto所在的亚利桑那州立大学（ASU）的一个平台上。

这些机器人背后的技术与ChatGPT所采用的技术相同。

Beghetto让机器人扮演各种角色，以鼓励创造力，例如，故意挑战别人的假设。

一位学生与聊天机器人讨论了各种论文题目。讲师们讨论了如何设计课堂。

反馈非常积极。一位参与者说，他们以前曾尝试使用ChatGPT来辅助学习，但发现它并不实用，这与Beghetto的聊天机器人不同。

另一位与会者问道「这些东西什么时候能用？」这些机器人帮助参与者创造了更多的可能性，而这些可能性是他们在其他情况下感受不到的。

许多教育工作者担心，ChatGPT的兴起会让学生更容易作弊。

然而，Beghetto和其他人正在探索大语言模型（LLM）（如ChatGPT）的潜力，并将其作为加强教育的工具。

使用LLM阅读和总结大量文本可以节省学生和教师的时间，帮助他们专注于讨论和学习。

ChatGPT能够清晰地讨论几乎任何话题，这为使用LLM创造个性化的对话式教育体验带来了光明的前景。一些教育工作者将他们视为潜在的「思想伙伴」，其成本可能低于人类辅导员，而且与人不同，他们几乎随时随地都可以提供服务。

伊利诺伊州香槟市的科技公司Wolfram Research的联合创始人Theodore Gray说：「一对一辅导是最有效的教学干预措施，但它非常昂贵，而且无法大规模应用。」

人们已经尝试过软件，但效果一般都不好。现在，人们确实有可能制作出行之有效的教育软件。格雷告诉《自然》杂志，Wolfram Research司目前正在开发一种基于LLM的辅导软件，但没有提供太多细节。

这种人工智能合作伙伴可以用来引导学生一步一步地解决问题，激发批判性思维，或者像Beghetto的实验那样，提高用户的创造力，扩展思维的边界。

田纳西州纳什维尔Vanderbilt大学未来学习与生成式人工智能计划主任Jules White称ChatGPT为「思想的外骨骼」。

风险是真实存在的

自OpenAI于2022年11月推出ChatGPT以来，有关其在教育领域应用的大部分关注都是负面的。

LLM的工作原理是从包含数十亿实例的训练数据中学习单词和短语之间的关系。根据用户的提示，它们可以生成句子，包括作业题的答案，甚至整篇文章。

与以往的人工智能系统不同，ChatGPT的答案通常都写得很好，而且似乎经过了精心研究。

这不禁让人担心，学生们会不会简单地让ChatGPT帮他们做作业，或者至少他们可能会依赖聊天机器人来快速获取答案，而不明白其中的道理。

ChatGPT还可能输出错误的信息，把学生引入歧途。

尽管聊天机器人在大量商业、法律和学术考试中表现出色，但它的不靠谱也是出了名的，如果问题的措辞稍有不同，它就会出错，甚至会胡编乱造，这种问题被称为幻觉。

加州大学洛杉矶分校的计算机科学家Wei Wang发现，GPT-3.5（免费版ChatGPT背后的技术）及其后续版本GPT-4在测试从大学教科书和考试中选取的物理、化学、计算机科学和数学问题时错误百出。

Wang和她的同事尝试了不同的方法来检测这两个GPT机器人的输出内容。

他们发现，GPT-4是表现得最好的产品，可以回答约三分之一的大学教科书中提出的问题。而它在一次考试中的得分率为80%。

拥抱LLM

尽管挑战重重，一些研究人员、教育工作者和公司还是看到了ChatGPT及其底层LLM技术的巨大潜力。

与Beghetto和Wolfram Research一样，他们正在尝试如何在教育中更好地使用LLM。

有些公司使用ChatGPT的替代品，有些公司想方设法减少不准确性和幻觉，有些公司则在改进LLM的特定学科知识。

位于Raleigh的北卡罗来纳州立大学专门研究教育系统的计算机科学家Collin Lynch认为，LLM在教育领域有非常大的作用。虽然风险同样很高，但是可以用各种方法减轻。

位于巴黎的联合国教科文组织（UNESCO）教育机构未来学习与创新主任Sobhi Tawil说，社会需要帮助学生了解LLM的优势和风险，而不是一味地禁止他们使用这项技术。

今年9月，联合国教科文组织发布了一份题为《教育与研究领域生成式人工智能指南》的报告。其中一项重要建议是，教育机构在使用ChatGPT等工具辅助学习之前，应对其进行验证。

一些公司正在销售基于OpenAI的LLM技术的商用辅助工具，如MagicSchool和Eduaide，帮助学校教师规划课程活动和评估学生作业。

学术界也开发了其他工具，如宾夕法尼亚州立大学州立学院计算机科学家Rebecca Passonneau团队开发的PyrEval，用于阅读文章并提取关键要点。

在威斯康星大学麦迪逊分校教育心理学家Sadhana Puntambekar的帮助下，PyrEval在过去三年里每年为约2000名中学生在科学课上撰写的物理论文5进行评分。

项目地址：https://github.com/serenayj/PyrEval

Puntambekar说，虽然这些作文没有传统意义上的分数，但PyrEval使教师能够快速检查作业是否包含关键主题，并在课堂上提供反馈，否则这是不可能的。

Puntambekar说，PyrEval的评分还能帮助学生反思自己的作业：如果人工智能没有检测到学生认为他们已经包含的主题，这可能表明需要更清楚地解释这个想法，或者他们犯了小的概念或语法错误。

该团队现在要求ChatGPT和其他LLM完成同样的任务，并对结果进行比较。

引入人工智能导师

还有一些机构直接使用人工智能来辅导学生。除了ChatGPT，人工智能导师和助教——Khanmigo可能是使用最广泛的基于LLM的教育工具。

该工具是OpenAI与位于加州山景城的非营利教育组织Khan Academy合作的成果。

通过使用GPT-4提供AI能力，Khanmigo可以在学生完成练习时为他们提供提示和辅导，从而节省教师的时间。

Khanmigo的工作方式与ChatGPT不同。它以弹出聊天机器人的形式出现在学生的电脑屏幕上。

学生可以与它讨论正在解决的问题。

它的特殊之处在于，在将学生的问题发送到GPT-4之前，会自动添加一个提示，指示机器人不要给出答案，而是要提出很多问题，来引导学生自己得到答案。

该学院的首席学习官Kristen DiCerbo将这一过程称为「富有成效的斗争」。

但她也承认，Khanmigo目前仍处于试验阶段，在有助于学习的问题和难到让学生放弃的问题之间存在着微妙的界限。她说：「诀窍在于找出那条界线」。

据Khan Academy称，Khanmigo于今年3月首次推出，本学年有超过2.8万名美国教师和11至18岁的学生试用了这款人工智能助手。

用户来自30多个学区。个人用户每年支付99美元，学区每年为每个学生支付60美元，用于支付LLM的推理成本。

为保护学生隐私，OpenAI同意不将Khanmigo数据用于培训。

但Khanmigo能否真正彻底改变教育，目前还不清楚。

LLM接受的培训只包括句子中下一个最有可能出现的词，而不是检查事实。

因此，他们有时会出错，有时也会直接给出答案。

DiCerbo说，为了提高准确性，Khanmigo发送给GPT-4的提示现在包含了正确答案以作指导。不过，它仍然会出错，Khan Academy要求用户在它出错时告知平台。

Lynch说，Khanmigo似乎效果不错。但他提醒说「我还没有看到明确的验证效果。」

Lynch强调，任何用于教育领域的聊天机器人都必须仔细检查其语气和准确性，不能侮辱或贬低学生，也不能让他们感到迷茫。

「情感是学习的关键。」Lynch说：「如果你以一种不友好的方式辅导学生，他就会对学习失去兴趣。」

DiCerbo指出，Khanmigo会在各种情况下对每个学生做出不同的反应，她希望这能让机器人比以前的辅导系统更有吸引力。

Khan Academy预计在2024年底或2025年初分享有关Khanmigo效果的研究成果。

其他教育辅导公司也在提供LLM作为学生的助手，或正在进行试验。

位于加利福尼亚州圣克拉拉的教育技术公司Chegg在4月份推出了一款基于GPT-4的助手。

而位于北京的中国辅导公司TAL教育集团（学而思）则创建了一个名为MathGPT的LLM，并声称它在回答数学特定问题方面比GPT-4更准确。

检索增强（RAG）能治愈AI的幻觉？

另一种创建人工智能学习伙伴的方法是将LLM与经过严格验证的外部重点知识语料库（如教科书或科学论文集）整合在一起。

这种检索增强生成（RAG）方法的目标是避免无法验证数十亿文本来源中的错误信息，因为这些文本来源赋予了LLM会话的能力。

位于纽约的人工智能公司Merlyn Mind正在其开源Corpus-qa LLM中使用RAG，这个LLM面向教育领域。

与ChatGPT一样，Merlyn Mind的LLM最初也是在大量与教育无关的文本中进行训练的，这才能赋予了它对话能力。

但与ChatGPT不同的是，当LLM回答一个问题时，它并不仅仅依靠在训练中学到的知识。

该公司首席执行官萨Satya Nitta说，相反，它还会参考特定的信息语料库，从而最大限度地减少幻觉和其他错误。

Merlyn Mind还对其LLM进行了微调，如果他们没有高质量的回答，就会「坦白说自己不会」，并努力做出更好的回答，从而在很多情况下避免幻觉的产生，Nitta说。

ChatGPT能够通过图灵测试，所以寻找评估人工智能新方法的竞赛正在进行中。

纽约市教育技术公司投资人GSV风险投资公司副总裁Claire Zau说，美国亚利桑那大学也在使用RAG，该校是采用LLM最大胆的大学之一。

美国亚利桑那州立大学经过最初的小范围测试后，于10月份推出了一个工具箱，使其教职员工能够通过网络界面尝试在教育中使用LLM。

这包括访问六个LLM，包括GPT-3.5、GPT-4和谷歌的Bard，以及支持RAG功能。

像文章开头提到的那样，这些工具将使更多的研究人员（如Beghetto）能够构建聊天机器人，与学生进行互动。

在首次研讨会之后，Beghetto计划在他正在开发的一门课程中使用这些机器人。

亚利桑那州立大学人工智能加速执行主任Elizabeth Reilley说，亚利桑那州立大学在其私有云中托管安全版本的LLM，以最大限度地减少对隐私的担忧。

Reilley说，这些机器人已经对亚利桑那大学的教育产生了积极影响。

她举例说，一个为亚利桑那大学化学入门课程创建的机器人使用RAG将GPT-3.5与PDF和PowerPoint课件结合起来。

她举了一个测试用例：一个热爱棒球的学生要求LLM解释分子中偶极子-偶极子的相互作用。

学生的回答是一个准确的解释，其中加入了「棒球的隐喻，更能说明问题」。

位于坦佩的亚利桑那大学学习工程研究所执行主任Danielle McNamara说，使用通用LLM与RAG相结合的方法不同于以往的机器学习方法，以往的机器学习方法是训练人工智能系统来模拟科学专家。

但是以往方法的工具缺乏帮助学生的通用能力，比如将棒球融入化学概念的能力。

McNamara和她的同事们现在计划研究亚利桑那大学使用的聊天机器人和LLM工具的效果如何。

田纳西州纳什维尔的Vanderbilt大学等其他机构也在使用LLM。

该大学为某些课程的学生提供了付费版ChatGPT，包括专门的插件工具。

上海华东师范大学的研究人员创建了一个名为「EduChat 」的专用教育LLM，将论文评估、对话式辅导和情感支持结合在一个聊天机器人中。

论文链接：https://arxiv.org/abs/2308.02773

该团队以开放源代码的形式分享了这一工具。尽管EduChat仍处于早期阶段，但它是一个专用的教育LLM，而不是对现有通用模式（如ChatGPT或Bard）的套壳工具，这一点值得注意。

AI真的能改变教育吗？

在教育领域使用人工智能的一个重要问题是，谁将有机会使用人工智能，Khanmigo等付费服务是否会加剧现有的教育资源不平等。

DiCerbo说，Khan Academy目前正在寻找慈善家和赠款，以帮助支付算力成本，并为资源不足的学校提供使用机会，在试点阶段已将这些学校列为优先考虑对象。她说：「我们正在努力确保数字鸿沟不会出现。」

另一个挑战是如何确保LLM提供的信息不带偏见，并确保模型考虑到代表性不足群体的知识和观点。

在LLM接受培训的大部分文本中都没有这类信息。位于坦佩的亚利桑那大学负责研究技术的副校长Sean Dudley说，RAG允许亚利桑那大学的LLM平台向用户提供答案的来源。

但这并不能消除偏见问题，但他希望这至少能提供透明度，让学生们有机会批判性地思考信息的来源。Dudley说：「我们的使命之一就是关注谁被遗漏了。」

LLM对教育的好处最终是否会大于风险，目前还不清楚。

Lynch承认，LLM是一种强大的工具，但同时也需要关注其不足之处。他说：「我们并不是一夜之间就学会了飞行。」

他把这些工具所吸引的注意力比作以前人们对大规模在线开放课程和被称为「元宇宙」的三维虚拟世界的教育用途的关注。

两者都不具备某些人曾经预测的变革力量，但都有其用途。「从某种意义上说，这将是一样的。它还不错。它并不完美。它不是万能的。这是一个新事物，」他说。

在联合国教科文组织从事教育工作二十多年的Tawil说，了解人工智能的局限性至关重要。

LLM现在与人类的努力紧密相连，因此他说必须重新思考如何教学和评估学习。

「这是在重新定义是什么让我们成为人类，是什么让我们的智能独一无二。」

参考资料：

https://www.nature.com/articles/d41586-023-03507-3#ref-CR3

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章