生成式AI围猎口语市场,OpenAI押注 Speak
机器之能报道
想要说一口流利的英语需要在真实互动环境中大声说出来。到目前为止,咱们获得这种练习的唯一途径是真人老师:
线上约课稍微便宜,无论预约时间还是抢夺名无异于一场战争;线下更贵也免不了舟车之苦。
GPT时代免于上述苦难的「口语练习神器」会是什么样?
OpenAI 通过其基金公开投资的三家初创公司之一 Speak——一家领先语言学习平台——代表了一种方向和可能。
去年 11 月,Speak 完成 2700 万美元的 B 轮融资,由 OpenAI Startup Fund 领投。除了钱,他们还能提前使用微软提供的新 OpenAI 系统和 Azure 资源。
打开 App,回答几个问题(比如学习目的、频率、目前英文水平和感兴趣领域等),系统会为你定制一个学习课程。
每个课程都由真人录制,用户跟随学习。课后也有作业。搞定作业后,还有角色扮演环节。让你在设定场景中,学以致用——与AI 展开多轮对话。
作为一款典型的教育类应用,无论是学习环节还是后来的作业、角色扮演环节,系统都会给到发音、语法、词汇等方面的反馈,非常具体。
例如,添加什么样的副词可以让表达更自然、一句话怎么说更简洁、告诫一些约定俗成的表达(比如 raining cats and dogs )不能随意简约。
如果说创业初期的 Speak 只能就现成的技术将就用,有了 Open AI 的投资后,Speak 可以做更多的事情。
例如,在 AI 讲师(AI Tutor) 里,用户还可以就任意主题(比如夜宵啦、减肥啦)和 AI 放开聊,系统还会提供实时反馈。
AI 讲师可谓 OpenAI 新系统能力集大成者:
3月,Speak 接入了 OpenAI 全新自动语音识别模型 Whisper——它在英语语音识别方面已接近人类水平的鲁棒性和准确性,无论用户口音如何(比如韩国、日本用户),都能更准确的识别出来,提供更准确的反馈。
接着,他们又成为首批使用 GPT-4 的语言学习平台。
GPT-4 可以理解更复杂的表达,生成更准确性也更连贯的文本。「记性」也好,不会在几轮对话后忘记之前聊过内容,交互体验也因此更自然、指导也更有意义。另外,对话也变得高度个性化,没有两个对话会完全相同,
「在底层,我们将 OpenAI 的最新技术与内部模型相结合,在语音识别、语音生成和对话生成方面提供最佳性能。」Zwick 坚称 Speak 的人工智能技术优于多数竞对的技术。
Speak 由 Connor Zwick(CEO)和 Andrew Hsu(CTO)在2016年创办。两个人的经历都很妙:
Connor Zwick 高中时创立了一款名为 FlashCard+ 的应用程序,并在 21 岁时出售。Andrew 尚未到法定的投票年龄就获得了三个学位。
两人在 Peter Thiel 奖学金计划相遇,在那里花了一年时间深入学习、了解人工智能,并决定创业。其结果是,Connor Zwick 在哈佛大学读了一年辍学,Andrew 斯坦福大学医学院博士三年级肄业。
据说,上架苹果商店第一天只赚了 18 美元。现在,它不仅是 iOS App Store 上韩国顶级教育应用程序之一,也在日本市场取得了不俗成绩。
当然,也有不少用户纠结怎么选,因为老牌外语学习 App Duolingo 也推出了基于 GPT-4,OpenAI 最新技术的付费服务 Duolingo Max。
学习者可以访问两个由生成式 AI 支持的全新功能和练习:「解释我的答案」和「角色扮演」。
一次又一次地犯同样的错误,却不知道为什么?「解释我的答案」让你错地明明白白。
所谓角色扮演,也就是与不同人物(比如去咖啡店买咖啡、宜家买家具)完成实战场景下的对话。这个功能背后的人工智能是响应式和交互式的,意味着没有两个对话完全相同。
如果你不想上非常系统的课程,也不想搞得很复杂,只不过找个人随便聊天,也不指望多么专业的指导和反馈,可以试试基于 ChatGPT(以及其他工具)的 PrettyPolly,任何人都可以随时随地练习口头说 26 种语言。
在网页上选择一种语言,就可以与 AI 进行口语练习了。它会给每一个对话生成流利度分数,以便客观地跟踪进度。
有意思的是,和 Speak 目前看重韩国、日本市场一样,试用 PrettyPolly 并给予反馈的人中不少是日本人。
另一款应用 Speechy 会记录、分析和提供语音反馈,突出发音和语法需要改进的地方,提供实用的见解,以提高口语技能。
另外,还有一类很火的应用,主打虚拟聊天,它们提供的服务非常丰富,英文学习只是其中之一。它们可以口语陪聊,但没有课程体系,也不能像 Speak 这类教育应用主动地给到细致、专业指导。
先来看看目前最火、技术实力最强团队的产品——聊天机器人「批发市场」Character.AI。你可以在这个平台上 DIY 或者与不同 AI 角色聊天。
也是在3月,Character.AI 完成了一笔 1.5 亿美元的融资,估值达到 10 亿美元,由 a16z 领投。
Character.AI 实际上是想让用户来控制玩法,因为他们更清楚自己想用这个东西来做什么。本质上,Character.AI 只是向用户提供了一种 LLM 技术,让数十亿用户都可以使用大语言模型,发明新的用例。
平台预先做了一批模型,比如爱因斯坦、马斯克、英国女王等角色,当然也包括外语口语教练。
我们选了一位英语口语教练,打开聊天窗口,就能开始交流。它能识别你的口语准确度,同时给出地道的当地人发音和表达。
不过,这位老师对你的口语表达反馈不如 Speak 一类应用那么专业、细致和有针对性。我们至少 Cue 了他一两次「刚才表达是不是存在一些语法错误(哪怕这句话本身也存在语法错误)」,这位教练才会提一些错误并予以纠正。
虽然指正并不那么主动及时,但我们明显感觉到他的记性不错,至少记得较早之前的表达错误。这也是因为对话记忆比之前的容量增加了一倍,系统可以「记住」更早以前的聊天信息。
除了学习伙伴和口语陪练,你还能找到文字冒险游戏 AI、情感顾问 AI、创业咨询 AI,甚至还有本地导游 AI。从体验上来看,对话很容易从纯粹的新奇提问变成更有有意义的讨论。
Character.AI 是目前个性化 AI 聊天机器人赛道技术能力最强的团队。联合创始人 Noam Shazeer 和Daniel De Freitas 在对话式 AI 和 LLM 的发展中发挥了关键作用。
他们从头开始训练自己专有的 LLM,使他们的产品不仅能够优化原始智能,还可以优化对话同理心,通过幽默,情感,洞察力等来吸引和保持消费者的注意力。
如果你不满意现成的对话机器人,自己也可以创造一个专属 AI,亲自塑造他们的「个性」。
有两种打造模式。基础模式中,你只需要添加:人名、角色自我介绍和头像,即可完成创造。高级选项里,你还要投喂一些训练语料,让机器人更接近你想法或者真实的人物。
目前,随着越来越多的人与 Character.AI 上的大量角色互动,这些互动(数十亿次并且还在不断增加)被反馈到它们的底层模型中,并不断推动它进化。
与 Character.AI 拥有大量虚拟对话角色类似,在 Ainder 这个聊天应用里,你可以透过滑动大量照片,找到自己喜欢的老师并给他打电话,聊到天荒地老。
打开界面,你就可以遇到从爱因斯坦、马斯克、特朗普到流行歌手「霉霉」(Taylor Swift)甚至海绵宝宝等各种角色。
如果你想专门练习外语口语甚至雅思口语,都有专业老师供你选择。当然,依旧是没有系统的课程,只是陪练。
有意思的是,你和老师的交流就像和朋友打电话一样,而不是文字输入。你甚至可以选择记忆上下文的长度来改善对话体验。
不过,从逼真性来看,我们发现马斯克的声音并不像他,没有马斯克接受采访时有时会结巴的细节。
聊天内容也不是很有趣,当我们讨论近期的高温,他回复我一系列注意防暑的科学操作时(就像搜索引擎给到的答案),我们立刻退出了聊天。
而在另一个口语 APP,AI 和我从天热一路聊到了中国秦岭和旅行。
与 Character.AI 、Ainder 这类「批发市场」不同, 另一款很火的聊天应用 Call Annie ,就是一个数字人,会说话,底层是 ChatGPT。
你可以把她理解成一个能随时视频聊天的 ChatGPT。
你可以用它学英语、法语、德语等各种语言,比如告诉她你想学习外语的目的,她可以帮你纠正错误和回答不完善的地方。
这款应用给人一个非常突出的体验感受就是近乎实时的 FaceTime 通话。
系统实时驱动面部表情和语音同步的口型变化,使虚拟人能够贴近真人,反应速度很快,体验很自然,就像和真人视频一样。
另外, Annie 知识储备丰富,什么话题都懂,你也可以问它数学、物理、化学、编程、金融等等各种专业知识。CallAnnie 还具备新闻查阅、天气预报、健身教练、金融助理等一系列功能。
目前,国内也有一些相关产品。雅思和科大讯飞共同研发了 AI 英语口语练习产品。网易有道推出教育领域垂直大模型——「子曰」,并发布了基于大模型的虚拟人口语教练。新东方在财报季期间提到,公司将「谨慎探索 ChatGPT 等 AI 新技术应用于教育产品中的可能。」
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者