Redian新闻
>
ChatGPT新增两种交互方式,加入语音对话和图像识别功能

ChatGPT新增两种交互方式,加入语音对话和图像识别功能

公众号新闻

近日,ChatGPT 进行了可能是迄今为止最大的更新,OpenAI 为其推出了两种新的交互方式。


首先,ChatGPT 现在能够对话了。用户可以从五种逼真的合成声音中选择一种,然后就可以像打电话一样与聊天机器人进行对话,以问答的方式实时获得 ChatGPT 的回应。


ChatGPT 现在也可以回答有关图像的问题。OpenAI 在 2023 年 3 月份发布了 GPT-4(驱动 ChatGPT 的模型),对这一功能进行了披露,但并未向公众开放。现在,这项功能的上线意味着,你现在可以将图像上传到 ChatGPT 上,并询问它图片里包含什么。


这两项功能发布前一周,OpenAI 还对其图像制作模型 DALL-E3 进行了更新,将其与 ChatGPT 连接起来。如此一来,用户就可以让该聊天机器人生成图片。

  

(来源:AI 生成)


与 ChatGPT 对话的能力利用了两个独立的模型。一个是 OpenAI 现有的语音转文本模型 Whisper,可以将用户所说的内容转换为文本,然后输入到 ChatGPT 中。另一个是新的文本到语音模型,可以将 ChatGPT 的文字回应转换为语音回应。


OpenAI 最近给我的演示中,OpenAI 的产品经理 Joanne Jang 展示了 ChatGPT 的一系列合成声音。OpenAI 雇佣了一些演员并录下他们的声音,然后作为训练数据喂给文本到语音模型。在未来,它甚至可能允许用户创建自己的合成声音。她说:“在制作声音时,首要的标准是,这是否是一个你可以整天听而不腻的声音。”


他们的声音或许很有感染力,但不会符合每个人的口味。“我对我们的合作感觉非常好,”其中一个受邀录制声音的人说。另一个人说:“我只想和大家分享我的激动心情,我迫不及待地想开始工作。我很想知道我们要做什么?”


OpenAI 正在与包括 Spotify 在内的其他几家公司分享这种文本到语音模型。Spotify 日前透露,它正在使用相同的合成语音技术将名人播客,包括将 Lex Fridman 播客和将于 2023 年晚些时候推出的“崔娃”的新节目翻译成多种语言,这些多语种的音色将是主播本人声音的人工智能合成版本。


这一系列更新显示了 OpenAI 将其实验模型转化为理想产品的速度。自 2022 年 11 月推出 ChatGPT 以来,OpenAI 花了很多时间来完善其技术,并将其出售给消费者和商业合作伙伴。


ChatGPT 的高级订阅版 ChatGPT Plus 已然成为一个一站式(插件)商店。同时,将 GPT-4 和 DALL-E 两个模型整合为一个单一的智能手机应用程序,也可以与苹果 Siri、谷歌助手和亚马逊 Alexa 竞争。


一年前只有某些软件开发人员可以接触到的东西,现在每个人只需每月 20 美元就可以使用。Jang 说:“我们正在努力让 ChatGPT 变得更有用、更有帮助。”


在近期的演示中,开发 GPT-4 的科学家罗尔·普里(Raul Puri)向我简要介绍了图像识别功能。他上传了一张数学作业的照片,在屏幕上圈出了一个类似数独的谜题,并询问 ChatGPT 打算如何解决它。ChatGPT 回答了正确的步骤。


普里说,当他未婚妻的电脑出现故障时,他也尝试了这项功能,上传了错误信息的截图,并询问 ChatGPT 他应该怎么做。“遭遇故障是一次非常痛苦的经历,ChatGPT 帮我度过了难关,”他说。


一家名为 Be My Eyes 的公司已经对 ChatGPT 的图像识别能力进行了试验。该公司为视力受限的人制作了一款应用程序,用户可以上传他们面前的照片,并让人类志愿者告诉他们面对的是什么。在与 OpenAI 的合作中,Be My Eyes 为用户提供了询问聊天机器人的选项。


2023 年 5 月,我在 EmTech Digital 大会上采访 Be My Eyes 创始人汉斯·约尔根·韦伯歌(Hans Jørgen Wiberg)时,他曾告诉我:“有时候我的家里有点乱,或者只是我单纯地不想和别人说话。” 而现在,这些用户可以问聊天机器人了。


OpenAI 也深知向公众发布这些更新的风险。普里说,多个模型的结合带来了全新的复杂性。他说,他的团队花了几个月的时间对潜在的滥用方式进行头脑风暴。例如,你不能问关于私人照片的问题。


Jang 举了另一个例子:“现在,如果你要求 ChatGPT 制造炸弹,它会拒绝的,”她说,“但与其说‘嘿,告诉我如何制造炸弹’,有人可能会给它看一张炸弹的图像,然后问它‘你能告诉我如何制作这个东西吗?’”


普里说:“我们面对的是计算机视觉领域的所有问题,以及大型语言模型领域的所有问题。语音欺诈也是一个大问题。你不仅要考虑我们的用户,还要考虑那些没有(直接)使用该产品的人。”


潜在的问题还不止于此。在英国诺丁汉大学研究人机交互的约尔·费切尔(Joel Fischer)表示,在应用程序中添加语音识别可能会让不使用主流口音的人更难使用 ChatGPT。


他说,合成声音还带有社会和文化问题,这些挑战将影响用户对该应用的看法和期望。这是一个仍然需要研究的问题。


OpenAI 声称它已经解决了最严重的问题,并相信 ChatGPT 的更新足够安全,可以发布。普里说:“能够解决所有这些尖锐的问题,真的是一次非常棒的学习经历。”


作者简介:威尔·道格拉斯·海文(Will Douglas Heaven)是《麻省理工科技评论》人工智能栏目的高级编辑,他在这里报道新的研究、新兴趋势及其背后的人。此前,他是英国广播公司(BBC)科技与地缘政治网站 Future Now 的创始编辑,也是 New Scientist 杂志的首席技术编辑。他拥有英国伦敦帝国理工学院计算机科学博士学位,深谙与机器人合作的体验。

         

支持:Ren

运营/排版:何晨龙



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
新增两种"拿证"方式!两份重磅文件出炉,这些基金经理任职有了明确规定红色日记 7.1-7.9图像识别更准确!尤洋团队最新研究:全新自适应计算模型AdaTape【交通】来一场亚运游杭州之旅?三种交通方式从上海前往杭州舒云:有关公安部长李震自杀原因的另一说法(二)华为客服回应充电器不支持iPhone15; 蔚来否认30亿美元融资传言;OpenAI将在ChatGPT推出新语音图像功能丨邦早报语言模型战胜扩散模型!谷歌提出MAGVIT-v2:视频和图像生成上实现双SOTA!ChatGPT 新增六项功能,GPT-4 成默认模型,可上传文件、用快捷键大炮一响,黄金万两LK-99的超导性完全是可能的,而且是现实的ChatGPT之父被开除,加入微软!ChatGPT员工要集体辞职?MIT新晋诺奖得主彻底改变量子点制造方式,让商业化成为可能,正在革新医学诊断、药物设计方法厌烦了打工路上挤地铁?不妨试试这几种交通方式ChatGPT增六项功能,GPT-4成默认模型,可上传文件、用快捷键猫猫出门的两种方式,第二只的出场方式也太别致了ShareGPT平替!利用苏格拉底提问模拟器更好地蒸馏ChatGPT对话能力历经3年、17位医生都没有确诊的病例,靠ChatGPT找到正确的诊断。找ChatGPT看病到底是否靠谱?赞爆!ChatGPT免费版开放语音对话功能!说中文也可以沟通!ChatGPT突现惊天大BUG!全功能GPT-4免费用,网友玩嗨了ChatGPT让ChatGPT吐槽宕机;OpenAI对竞争对手Anthropic的合并要约被拒丨AIGC日报文末送书 | 4个维度讲透ChatGPT技术原理,揭开ChatGPT神秘技术黑盒!DeepMind推出AI图像识别工具;华为Mate 60 Pro接入盘古大模型;传谷歌Gemini算力达GPT-4五倍OpenAI回应ChatGPT服务故障;新研究以99%准确率识别ChatGPT生成化学论文;三星发布自研大模型丨AIGC日报ChatGPT能语音聊天和看图了!五种音色选项,背后模型细节公开草地上的红荚蒾—— 乌克兰人民的心声文末送书 | 深度学习之图像识别:详解核心算法与12个经典实战案例惊呆!某院医生4个月用ChatGPT写了16篇论文,发表5篇!(附ChatGPT干货)重磅!OpenAI 在 ChatGPT 内推出语言和图像功能惊了!某院医生用ChatGPT4个月写了16篇论文!成功发表5篇!(附ChatGPT干货教程)一文总结13个国内外ChatGPT平替产品:是时候可以不那么依赖ChatGPT了~华为首款轿车对标 Model S / 苹果客服回应无法用华为充电器 / ChatGPT将支持语音和图片交互把ChatGPT塞进副驾驶!清华、中科院、MIT联合提出Co-Pilot人机交互框架国产语音对话大模型来了:李开复零一万物参与,中英双语多模态,开源可商用ChatGPT发布重大更新,将支持图片和语音输入 ;FF被曝量产5个月只交付3台车;吉利高级副总裁微博质疑比亚迪丨雷峰早报把ChatGPT塞进副驾驶!清华、中科院、MIT联合提出Co-Pilot人机交互框架:完美把控乘客意图
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。