多邻国的人工智能如何知道我们需要学习什么公众号新闻2024-06-19 09:06午餐时间,你的手机发来绿色猫头鹰的提示,兴高采烈地提醒你“小多等着和你一起学习呢!”这是来自多邻国(Duolingo)的提醒,这款受欢迎的语言学习应用程序能通过算法知道你最有可能在这个时间做5分钟的西班牙语练习。这款应用会根据过去对你最有效的口吻和你最近取得的具体成就来选择通知表达方式,并加入一些引人注目的新奇元素。当你打开应用,课程已经根据你的技能水平进行了排序调整,并包括了你在上次课程中犯过错的一些单词和概念的复习。多邻国以其游戏化的方式和活力四射的卡通角色,为学习者提供了简洁的用户界面,引导他们完成课程,达到语言熟练甚至流利的程度。而在幕后,发挥作用的是复杂的人工智能(AI)系统。特别是一个名为Birdbrain的系统,它会不断改进学习者的体验,采用的算法以几十年的教育心理学研究以及最近的机器学习进步为基础。从学习者的角度来看,多邻国似乎在课程个性化方面做得越来越好。我们三个人一直在密切参与Birdbrain的创建和改进,最近多邻国推出了它的第二个版本。我们认为,我们在多邻国的工作是在推动公司“为全世界提供并普及优质的教育”这一整体使命的实现。我们不断完善的人工智能系统是提高学习体验的必要条件,目前已有超过5000万活跃学习者每天在这个平台上完成大约10亿次练习。虽然多邻国是作为语言学习应用而闻名的,但公司的抱负更为远大。我们最近推出了几款涵盖儿童识字和三年级数学的应用,而这些扩展只是开始。我们希望有一天,任何需要学术学习帮助的人都能向口袋里友好的绿色猫头鹰寻求帮助,他们会听到它的呼唤:“准备好学习你的每日课程了吗?”早在1984年,教育心理学家本杰明•布鲁姆(Benjamin Bloom)就发现了所谓的“布卢姆二西格玛问题”。布卢姆发现,接受个别辅导的普通学生的表现比在课堂上的表现要好两个标准差。这足以将一个人的测试成绩从50分位提高到98分位。2012年,路易斯•冯•安(Luis von Ahn)和塞弗林•哈克(Severin Hacker)通过卡内基•梅隆大学的一个研究项目推出了多邻国,当时他们的目标是开发一个易于使用、可以达到超强效果的在线语言辅导程序。创始人并不想取代优秀的老师。但是作为移民(分别来自危地马拉和瑞士),他们意识到并不是每个人都能接触到优秀的老师。在随后的几年中,不断壮大的多邻国团队继续思考如何将优秀辅导老师的以下3个关键属性实现自动化:非常了解材料;让学生保持参与度;能够跟踪每个学生目前所掌握的内容,因此可以提供难度适当的材料。多邻国利用了机器学习和其他前沿技术来模拟优秀辅导老师的这3个品质。首先,为了确保专业性,我们利用了自然语言处理工具来协助内容开发人员审查和改进超过40种不同语言的100多门课程。这些工具可以分析课程的词汇和语法内容,并帮助创建一系列可能的翻译(当有多种正确说法时,应用程序将接受学习者的回复)。其次,为了保持学习者的参与度,我们会通过分数和级别将体验游戏化,使用文本转语音技术为多邻国世界中的每个角色量身创建了语音,并会微调我们的通知系统。至于了解学习者的想法并向其提供恰当的课程,那就是Birdbrain的任务了。Birdbrain非常重要,因为学习者的参与度和课程难度相关。如果学生拿到的材料太难,他们通常会感到沮丧并会放弃。感觉简单的材料可能会保持他们的参与度,但不会给他们带来太多挑战。多邻国则利用人工智能使学习者始终能保持参与,又能在他们能力的上限学习。在公司成立仅6个月后,我们其中一位(赛特斯)就加入了团队,帮助建立了各种研究功能,然后领导了多邻国的人工智能和机器学习工作直至去年。早期,做大规模在线互动学习的组织并不多见。最接近多邻国尝试的是采用了“掌握学习”方法的程序,特别是数学辅导方面。这些程序会围绕一个相似的概念(通常称为“知识组件”)提出问题,直到学习者展现出足够的掌握能力,然后才进入下一个单元、章节或概念。不过,这种方法不一定适合语言,因为一个单一的练习可能涉及许多不同的概念,它们以复杂的方式交互在一起(例如词汇、时态和语法性),而且学习者可以通过不同的方式作出回应(例如翻译句子、转录音频片段和填写缺失的单词)。多邻国早期的机器学习工作处理的是相当简单的问题,比如多长时间返回一个特定的词汇单词或概念(这有赖于关于间隔重复的教育研究)。我们还分析了学习者的错误以确定课程中的痛点,然后重新组织内容的呈现顺序。随后,多邻国加倍投资,开始构建个性化系统。大约在2017年,公司开始在机器学习方面进行更集中的投资,也就是那时,布鲁斯特和比克内尔加入了这个团队。2020年,我们推出了Birdbrain的第一个版本。在Birdbrain之前,为了保持学习者参与合适水平的学习,多邻国已经进行了一些非人工智能的尝试,包括根据启发式教学法(如句子中的单词或角色)估算练习的难度。但公司经常发现,它处理的是权衡人们实际学到了多少知识和他们的参与程度。Birdbrain的目标是取得恰当的平衡。我们的出发点是:对于任何学习者和任何给定的练习,我们是否能预测学习者成功完成该练习的概率?这种预测需要Birdbrain估计练习的难度和学习者当前的熟练程度。每当一位学习者完成一个练习时,系统就会更新这两个估值。多邻国会利用得出的预测结果在其会话生成算法中动态选择下一个课程的新练习。在构建Birdbrain的第一个版本时,我们就知道它要简单且可扩展,因为我们将把它应用到数亿个练习中。它需要快速且计算量少。我们决定使用一种逻辑回归方法,它受到了心理测量学文献中的项目反应理论的启发。这种方法将人给出正确答案的概率建模为具有两个变量的函数,这两个变量可以解释为练习的难度和学习者的能力。我们会通过总结练习类型、词汇等组成部分的难度来评估每个练习的难度。对这些难度和能力参数进行简单计算更新的能力,是第一版Birdbrain的第二个要素。学习者每完成一个练习时,我们会通过在相关参数上执行一步随机梯度下降来实现这一点。这是埃洛等级分系统(用于国际象棋和其他比赛中的选手评级)的一种泛化。在国际象棋中,当一位选手赢得一场比赛时,他的能力估值就会上升,而其对手的能力估值就会下降。在多邻国中,当学习者回答错误时,系统会降低其能力估值并提高练习的难度估值。就像在国际象棋中一样,这些变化的大小取决于配对情况:如果一位初学者击败了一位专家级选手,专家的艾洛评分将大幅降低,而对手的评分将大幅上升。同样在这里,如果初学者能够正确地完成一个困难的练习,那么能力和难度参数可能会发生显著变化,但是如果模型已经预期学习者会正确作答,那么这两个参数都不会有太大的变化。为了测试Birdbrain的表现,我们首先让它在“影子模式”下运行,这意味着它作出的预测只是为了进行记录并用于分析,尚未被会话生成器用来个性化课程。随着时间的推移,学习者完成练习并答对或答错,我们会看到Birdbrain的预测是否与现实相符,如果不符,我们就会进行改进。对Birdbrain的表现感到满意后,我们开始了对照试验:我们为部分学习者(实验组)启用了基于Birdbrain的个性化学习,然后将他们的学习成果与仍使用旧启发式系统的学习者(对照组)进行了比较。我们想看看Birdbrain会如何影响学习者的参与度(以花在应用程序任务上的时间来衡量)和学习情况(以学习者进入更难的材料的速度来衡量)。我们想知道是否会有折中情况,因为我们之前尝试使用更传统的产品开发或软件工程技术进行改进时,经常会遇到这种情况。令我们高兴的是,Birdbrain持续提高了参与度和学习能力。从一开始,我们就受到了需要处理的数据规模的挑战。每天处理约10亿个练习需要大量的创造性工程。早期,Birdbrain初版遇到的一个问题是让模型适应内存。在夜间训练期间,我们需要访问每位学习者的几个变量,包括他们当前的能力估值。由于每天都有新的学习者注册,也有不活跃的学习者随时回归,我们不想放弃任何评估,所以内存使用量每晚都在增加。几个月后,这种情况变得不可持续:我们无法将所有变量一次性放入内存中。我们需要每晚更新参数,而不是一次将所有内容都放入内存。我们的解决方案是改变存储每天课程数据和模型的方式。最初,我们将给定课程模型的所有参数存储在一个单独的文件中,并将该文件加载到内存中,然后按顺序处理当天的数据以更新课程参数。我们的新策略是将模型分解开来:一份代表所有练习难度的参数(这些参数不会非常大),另外几份代表对学习者能力的估计。我们还根据参与的学习者将每天的学习数据分成了单独的文件,而且重要的是,针对课程模型和学习者数据,在学习者之间使用相同的分块函数。这样,在我们处理有关这些学习者的相应数据时,只需加载与给定学习者组块相关的课程参数即可。Birdbrain的初版有一个缺点,它要等到学习者完成一节课后才会向服务器报告用户做对了哪些练习、犯了什么错误。这种方法的问题在于,大约有20%的多邻国课程是没有完成的,可能是因为用户放下了手机或切换到了另一个应用程序。每次这种情况发生时,Birdbrain就会丢失相关数据,而这些数据可能是非常有趣的信息!我们非常确定人们不是随意放弃的,在很多情况下,他们可能在遇到特别具有挑战性或令人生畏的材料时才会放弃。因此,升级到Birdbrain V2时,我们也开始在整个课程中以组块的形式传输数据。这为我们提供了关于哪些概念或练习类型存在问题的关键信息。初版Birdbrain还有一个问题,即它每24小时才更新一次模型(在全球应用程序使用量低谷期间,正好是多邻国总部所在地匹兹堡的晚上)。在Birdbrain V2中,我们希望实时处理所有的练习。这种改变是可取的,因为学习需要通过短期和长期的尺度去衡量。如果现在学习一个概念,你可能会在5分钟后还记得它,幸运的话,到了下周依然会记得一些。为了实现体验的个性化,我们需要非常快速地为每位学习者更新模型。因此,在学习者完成练习的几分钟内,Birdbrain V2将更新他们的知识状态“心智模型”。这些更新近乎实时进行,也因为Birdbrain V2的架构不同且用不同的方式来表示学习者的知识状态而有了不同的效果。以前,这个属性仅仅被简单地表示为一个标量值,因为我们需要保持Birdbrain初版尽可能简单。有了Birdbrain V2,我们获得了公司的支持,可以使用更多的计算资源,这意味着我们可以建立一个更丰富的模型,了解每位学习者所掌握的内容。特别是,Birdbrain V2是由一个循环神经网络模型,具体来说,是一个长短期记忆模型(LSTM)支持的,它把学习者与多邻国练习的互动历史压缩成一组40个数字(用数学家的话来说就是一个40维向量),并进行学习。学习者每完成一项练习,Birdbrain都会根据其先前的状态、完成的练习和正确与否来更新这个向量。现在,代表学习者能力的是这个向量而不是单一的值,模型会使用它来预测学习者在未来练习中的表现。这种表征的丰富性使得系统能够捕捉到一些信息,例如,某位学习者在过去时态练习中非常出色,但在将来时态方面却遇到了困难。V2可以开始分辨每个人的学习轨迹(这可能与传统的轨迹有很大不同),从而允许多邻国为每个人准备更加个性化的课程。确信Birdbrain V2准确且稳定后,我们进行了对照试验,将它的个性化学习体验与初版Birdbrain进行了比较。我们希望确保软件不仅拥有更好的机器学习模型,而且能够提供更好的用户体验。令人高兴的是,这些测试表明,Birdbrain V2持续提高了学习者的参与度和学习效果。2022年5月,我们关闭了初版Birdbrain,并完全切换到改进后的新系统。我们用Birdbrain和相关技术做的很多事都适用于语言学习之外的其他学习领域。原则上,该模型的核心通用性非常强,也可以应用于我们公司新的数学和识字应用程序,或者多邻国接下来推出的任何一款应用程序。Birdbrain在优化学习以及使课程更具适应性和高效方面开了一个好头。我们在个性化方面能走多远还是一个未知数。我们希望创建适应性系统,使其不仅能根据学习者掌握的知识,还能根据最适合的教学方法来对他们做出响应。学习者真正关注哪种类型的练习?哪些练习能帮助他们更清晰地了解概念?这些都是优秀的教师在考虑班上不同学习水平的学生时可能会思考的问题。我们不认为可以用一款应用程序来取代优秀的教师,但我们确实希望更好地模仿他们的某些特质,通过技术让世界上更多的潜在学习者受益。作者:Klinton Bicknell、Claire Brust、Burr Settles微信扫码关注该文公众号作者戳这里提交新闻线索和高质量文章给我们。来源: qq点击查看作者最近其他文章