视觉语音交互毫无延迟,都成精了居然还不是GPT-5?
作者|王兆洋
邮箱|[email protected]
“如果你之前使用过我们的语音模式,你会注意到几个关键的区别。首先,你现在可以打断模型了。你不需要等它结束你的回合,你可以随时开始说话,随时插话。其次,模型的响应是实时的。这意味着你不需要再经历那种尴尬的两到三秒的延迟,等待模型回应。最后,当我刚才呼吸非常急促时,模型能够感知到情绪。它会提醒你,或许你需要放松一下,你的节奏快得有点过头了。所以你知道,它确实具有全面感知情绪的能力。不仅如此,这个模型还能以各种不同的情感风格生成声音,它真的具有非常广泛的动态范围。”
1 这些操作全程没有多余的点击操作的交互。
2 没有丝毫延迟的视觉和声音反馈。
3 不仅能感受到你的情感,ChatGPT也自带情绪和情感。
4 能对桌面等更数字化的世界有更全面的信息感知。
5 全部集成在一个产品里,而且可能是对所有人免费的。
目前有两种构建人工智能的策略:一种是假设模型不会改进,然后在现有的能力上建设一堆小东西;另一种是假设 OpenAI 将保持相同的增长轨迹(继续疯狂迭代)。我认为,95% 的人应该押注在第二种策略上。我们有改进模型的使命,不是我不喜欢你们,但我们将碾压你。 ——Sam Altman,2023年4月17日
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章