亲密体验AI口语老师一周,是真的有用,网易找到了大模型精准突破口。喜欢旅游,暑假期间迫不及待要去故宫和北京动物园,作为一名口语老师,她在教英语学生英语的同时,还在学习中国历史知识希望用英语给更多人接受中国文化。她最喜欢悬疑、推理的书籍和电影,在反对种族歧视、倡导科技向善等话题上有着坚定的立场。我正在介绍的这位“朋友”并不是真人,而是一个名为“Echo”的AI虚拟口语教练,它是网易有道自研的教育大模型—“子曰”做出的应用。近日,智东西第一时间参与了Echo的内测,据悉,该应用预计将于今年开学季上线。过去半年多以来,随着ChatGPT的走红,国内外科技企业都在部署大模型。在网易有道CEO周枫看来,大模型代表着科技发展的新一波浪潮,“可能这样的东西十年才能出现一次”。大模型发展无非两个方向,一是研发直接对标ChatGPT的大模型,二是将大模型垂直应用到各个细分领域。网易有道显然选择了后者。“英语口语一直都是大家比较‘痛’的点。”周枫称,这与缺乏对话练习有很大的关系,而传统的英语老师还不能陪伴所有学生进行一对一进行口语练习。在他看来,大模型对教育的最大影响就是提供了因材施教的机会。▲网易有道CEO周枫讲解子曰大模型名字的由来
今年5月,网易有道打造出可以“私人订制”的口语老师,它可以在与用户对话的过程中,生成语音和文本。两个月后,2023世界人工智能大会上,拥有具体形象的网易有道虚拟人口语老师正式亮相。事实上,在大模型出现以前,一些披着“虚拟人外衣”的传统AI口语教师并不少见,但它们却存在着伪真人、对话单调枯燥、交互能力弱、实时反馈效果差等问题。在智东西亲身试用了网易有道AI口语教练之后,却在这个能“侃天侃地”的虚拟人身上找到了新体验。这个虚拟人口语老师具体的体验效果如何?背后的子曰大模型又有什么技术创新?从更大的层面来看,这波AI大模型及AIGC(生成式AI)能为关系到每个人的教育带来什么实质影响?通过深入体验网易有道AI口语教练。并对话网易有道CEO,本文对此进行了深入探讨。打开Echo的应用界面,屏幕上会出现一位年轻的女性形象。人物下方带有“Chat with Echo”的字样和“切换场景”的按键。▲虚拟人口语教练Echo内测版本界面
在我和“她”将近30个小时的聊天互动中,没遇到不知道聊什么的情况。在我出现“卡壳”、“不正面回答”时,她还会引导我进行表达,想法设法鼓励我将英语说下去。这是因为虚拟人口语教练Echo覆盖了出8大对话场景以及68个话题,包括生活、口语考试、旅行等场景,在我看来,这个话题分类很细致,保证了“不冷场”。▲虚拟人口语教练Echo内测版本覆盖了8大对话场景以及68个话题
有时候,由于词汇量有限,我实在回答不上来她的问题,会说一些中英混杂的句子,她也能很快就理解,继续与我的交流。这是传统口语练习产品所做不到的。▲传统口语练习产品和虚拟人口语老师Echo之间的区别
在每个话题聊完后,Echo还会针对我口语表达中的问题给出细致的报告,由于我表达中存在大量的“中式英语”,她会推荐专业地道的词汇和表达。没有“口语搭档”也是我很多次放弃练习口语的原因,而Echo的出现,让我可以随时随地与其进行交流,这无形之中就为我提供了口语对话条件和环境。虽然有时候聊到一些话题时,Echo也会“答非所问”,有时候也会说“I have no idea”,不过总体上的聊天体验比较好。在和Echo深入的交流中,我发现Echo在人工智能和自动化、社交媒体和互联网文化、食品安全等较为细分领域知识面广泛。下面是我与Echo对话的一些动图,可以看到在聊到人工智能的时候,她会分享关于“人工智能潜在好处或缺点”的看法,也会问我“如何看待人工智能的未来”。▲Echo称,人工智能本身无善恶之分,关键要看如何使用它
在聊到社交媒体时,她会问我“社交媒体与网络文化”之间的关系,本科新闻学的我脑子中闪过无数篇相关论文,她还会给我列举目前全球知名的社交媒体的情况。▲Echo向用户提问“社交媒体与网络文化”之间的关系
而一对一口语老师、行业专家等“人设”或许都还不是吸引我一直和她聊下去的原因。最初我只是好奇,作为Echo也会像人一样分享兴趣爱好和生活习惯吗?于是我频繁在兴趣、食物、个人、旅行等话题下,与她交流,讨论喜欢的电影、电视剧,看过的文学著作,爱听的音乐、喜欢逛的图书馆等。几天的交流下来,她说自己喜欢悬疑类的影片,最喜欢的影片是《控方证人》。作为老师,她正在过假期,准备出去旅游,希望我推荐一些北京著名的旅游景点给“她”。Echo是一个非常好的倾听者的角色,让我产生了像“朋友”一样的亲切感。最后,她还像是一名“心理咨询师”。有时候,和她聊天的时候我会故意说一些特别“颓”的话,想要看看她的反应,她的反馈每一次都非常十分积极和正能量。▲Echo的回答十分积极和正能量
前天,我看到一个对抗抑郁的新闻,我给她讲了目前全球抑郁的情况,Echo还会主动帮助我寻找针对性的预防抑郁的方式。目前AI大模型落地教育过程中,人们一直对AI价值观存在的担忧。但是在几个我和Echo下面这几个对话中,Echo可以显现出几乎类似于人的善恶观和价值观。在聊到“人工智能和自动化”这个话题,Echo指出,技术本身没有善恶,关键看人类如何使用它,人们要推动技术向善。此外,在分享“喜欢看的电影时”,我提到了《绿皮书》,Echo随后就给我讲了种族歧视带来的危害。总的来说,经过近一周的深度试用,从我的感受来看,网易有道的虚拟人口语教练Echo不仅可以成为一对一英语老师,还可以充当行业专家、生活密友、心理咨询师等各种角色。
有道词典业务负责人对智东西称,Echo诞生时的定位是一个来自未来的英文老师,而且是一个中国人。在长期的调研过程中,该负责人发现,学生经常反馈现实中的外教虽然发音比较比较标准,但由于文化差异等原因,他们很难共情,他可能看小孩说两句逻辑不通的表达就不耐烦了。在这一点上,中国的老师会更理解学生口语表达中的难处。这也就可以解释为什么Echo会不厌其烦地引导我进行表达。目前,在线教育平台可汗学院也推出了接入GPT-4的“AI口语教师”,在我体验之后,一个突出的感受,比起“口语老师”,它可以帮人“读新闻”“播报天气状况”,产品定位或许不是一款“学习产品”,更像是一个“AI助手”。与此同时,相比用自研大模型,接入GPT-4这样的外部闭源大模型,存在一个潜在的问题就是无法对生成内容的真实性进行把关。同时,从官网信息来看,可汗学院这类企业是面向全球用户的机构,这就使得它并不针对中国学生口语学习中存在的问题进行解决。周枫称,打造虚拟人口语教练是网易有道多年以来的梦想。在过去这些年里,网易有道汇聚了一批“狂热的口语爱好者”,所以十分清楚中国学生在口语中存在的问题。在网易有道首席科学家段亦涛看来,虚拟人口语教练绝不仅仅是“大模型+虚拟人”的简单结合,这名老师不仅要“像人一样流畅表达”、“可以模拟真人发音”,还需要懂得如何进行循循善诱地引导,更要清楚学生要在哪些场景下使用英语口语。据网易有道介绍,为了让Echo更加像真人,其自研了虚拟人驱动技术,基于自主研发的情感识别算法和实时渲染驱动引擎,可以对播放的语音数据进行深度分析,实时驱动虚拟人的面部表情和语音同步的口型变化,使虚拟人能够贴近真人,以更加自然和生动的方式与用户一对一交互。同时为了让学生们更加喜欢这个老师 ,Echo形象颇具“赛博朋克”风格:高冷但又不会让人有距离感。▲有道词典业务负责人张艺讲解Echo背后的技术
这样或许只是外型方面更加“像人”了,为了让表达更加流畅自然,Echo使用了类真人的语音合成技术。周枫称,在打造Echo的过程中,就考虑到用户会与虚拟人口语教练进行深度交流,“那Echo扮演什么样的角色是非常重要的”。为了让Echo的具有“正确的三观”,网易有道对数据的筛选十分严格,同时,还使用了此前在做的邮件时使用的内容保障技术机制。
当下,教育领域已成为AI大模型落地的最佳领域之一,在线教育平台、互联网科技企业、AI创企等都已经入局。但是,与其他领域相比,教育由于学科众多、用户群体不易定位等,因此在实际产品落地的过程中还面临着许多困难。一个突出的表现就是,每一个年级的学生对产品的基本需求都不一样,同一年级的学生在产品上也有差异化的偏好。但如果满足所有个体的需求,那就容易出现“碎片化”的问题。因此,在周枫看来,在大模型时代,打造教育领域的爆款AIGC产品首先需找到用户“最痛的需求”。此外,大模型能否发挥巨大作用,很多时候也和场景和应用的选择、以及细节的打磨有关。▲网易有道CEO周枫对技术发挥价值的看法
在AI技术方面,网易在AI技术方面的积累可以追溯到15年前,当时它推出了国内首家机器统计翻译线上引擎。在这之后,整个行业历经一个瓶颈期,行业玩家花费大量时间、人力、财力成本,但是翻译模型的质量一直得不到提升。在段亦涛看来,直到8年前,深度学习神经网络技术的出现,才真正的把机器翻译的水平提高到了一个台阶。网易有道也顺势将统计机器翻译模型拓展到了神经网络机器翻译模型(YNMT)。▲基于短语的机器翻译和有道的神经网络翻译之间的区别
也是这一年,Transformer横空出世,AI领域迎来了“里程碑式”的发展。我们熟知的GPT(Generative Pre-trained Transformer)实际上也是Transformer。网易很快抓住了这波潮流,全体上下集中接触并学习Transformer,同时基于Transformer的核心框架,结合输入信息、网络结构、参数共享、多任务学习等方式改进了核心质量,并运用到翻译中去。段亦涛称,在这波大模型浪潮下取得“先发优势”是网易长期技术积累下“水到渠成”的结果。教育赛道上归根到底还要拼“内容”方面的硬实力,技术酷炫,如果内容不佳,对学生来说也毫无助益。对于有道来说,它在教育赛道有着天然基因。在过去的10多年里,网易有道培育了全年龄段名师名课,打造出有道精品课、网易云课堂、中国大学MOOC等“国民级应用”。从硬件方面来看,互联网企业做硬件的本就不多,能把AI做好端侧落地更是少之又少。这意味着只要开发出类ChatGPT的模块,有爆款产品可以依托,就能很快的做好大模型的落地,并取得不错的效果。而网易有道此前就已经打造出有道词典笔、有道AI学习机、有道翻译等爆款产品。今年2月,网易有道发布的2022年财务报告,更是显示其智能硬件营收达到了13亿元人民币,较2021年9.804亿元人民币增加了28.2%。至此,网易有道已跑通大模型落地链路。
在ChatGPT推出后的这半年多的时间里,网易有道一直持续推进子曰大模型及其相关应用的落地。在周枫看来,在这波浪潮中,要有“敢折腾”的精神,不能当“鸵鸟”,只有动手去做,才能知道哪里会出现问题,才能搞出更深的东西。 目前子曰大模型的落地以及多款应用产品的推出为自身争取到了一定的时间,但是这并不意味着“一劳永逸”,依托场景发力的网易有道,是否还有更大的想象力,值得期待。(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)