Redian新闻
>
AI搜索引擎来了!谷歌放大招,发布最强AI模型,语音功能正面刚OpenAI

AI搜索引擎来了!谷歌放大招,发布最强AI模型,语音功能正面刚OpenAI

公众号新闻

虽然被OpeAI抢在前面发布了重磅新品演示,但谷歌后发制人,做到了OpenAI还没能做到的事,率先发布人工智能(AI)搜索引擎,捍卫搜索领域的王者地位,同时对垒OpenAI新发布的旗舰模型GPT-4o,以升级版的最强大AI模型Gemini迎战。

美东时间5月24日周二举行的年度Google I/O开发者大会上,谷歌CEO Sundar Pichai表示,谷歌所有的工作都围绕生成式AI模型Gemini来做,“我们希望每个人都能从Gemini 所做的事中受益。”

将生成式AI引入搜索的AI搜索引擎正是Pichai提到的Gemini融入谷歌多种服务之一。

Pichai宣布,本周,AI技术生成摘要的功能将上线美国的谷歌搜索,它名为AI Overviews,并很快会在更多国家地区推出。

通过多步推理,Gemini可以代替用户研究,找到更好的搜索结果。比如谷歌搜索中的Gemini可以通过汇总一天中的所有膳食以及所有菜肴的食谱,为用户规划膳食。如果用户觉得做饭太麻烦,谷歌搜索还可以在Gemini的帮助下,为用户找到可以购买用户所需餐食的地方。

在Gemini的帮助下,用户的搜索结果页面也会发生变化,比如寻找有现场音乐的餐厅,它甚至可以根据不同的季节做推荐,比如显示有屋顶的餐厅。

Pichai现场演示,借助Gemini 的强大功能,在谷歌相册Google Photos可以进行更多的相关搜索,比如通过名为Ask Photos with Gemini的新功能让Gemini找到用户想要的车牌照号,Gemini将根据上下文响应在相册中搜索,并选出用户想要的照片,得到照片中拍到的车牌照号。

谷歌云计算生产力和协作平台Google Workspace的许多服务将结合Gemini,例如用Gemini 在Gmail中搜索特定发件人发出的电邮,在线上网络和视频会议Google Meeting中找到亮点。

Gemini可用于搜索用户的手机,帮用户查找收据、安排取货窗口。如果用户计划旅行,Gemini 可以用来搜索有趣的活动。Pichai表示,谷歌正在“让AI对每个人都有帮助”。

谷歌称,用户将可以直接在搜索中通过视频提问。谷歌高管演示了,如何借助视频搜索修复损坏的电唱机。具体做法是,先录制视频展示损坏的问题,然后询问,为什么电唱机无法正常工作。谷歌搜索就能够进行逐帧搜索,回答高管的问题。


Gemini 1.5 Pro上下文窗口200万token 全球最长

谷歌称,推出号称有史以来最强大AI模型Gemini Advanced三个月内,已有超过100用户注册。

从本周二起,谷歌在Gemini Advanced中加入新模型成员Gemini 1.5 Pro,称它拥有的上下文窗口在全球消费类聊天机器人中最长,窗口起始就有100万个token。Gemini 1.5 Pro将向150 多个国家地区的Gemini Advanced订阅者提供,支持超过35 种语言。

Pichai称,Gemini 1.5 Pro“提供了迄今为止所有基础模型中最长的上下文窗口。” 他介绍,Gemini 1.5 Pro将拥有200 万个token的上下文窗口,是当前模型100万个token窗口的两倍。


Gemini新语音对话功能Live 定制版Gemini

谷歌称,今年夏季将扩展 Gemini 的多模态功能,包括增加用语音进行深入双向对话的能力,该功能被称为 Live。通过 Gemini Live,用户可以与 Gemini 交谈,并可以从各种自然的声音中选择它回应的声音。用户甚至可以按照自己的节奏说话,或者在回答过程中打断并澄清问题,就像在任何人类对话中一样。

有网友评论称,想知道相比OpenAI周一发布的最新旗舰模型GPT-4o,Gemini的对话功能会有多好。

谷歌称,今年夏季,将在Gemini Advanced 中添加新的旅行规划功能。借助考虑时间和空间方面物流的先进推理,Gemini将能够创建个性化的行程,节省用户的工作时间。

未来几周,谷歌将在Gemini Advanced中添加新的数据分析功能。用户只需上传电子表格,Gemini 就可以分析数据、制作图表,并更快地发掘见解。

谷歌将推出被称为Gem的Gemini的定制版本。Gemini Advanced 订阅者将很快可以获得更个性化的体验,根据自己的需要创建Gemini,只需描述用户希望 Gem 做什么以及希望它如何响应,就可以让它化身健身伙伴、主厨帮手、编代码的拍档或者创意写作指南。

例如,用户可以要求Gemini:做我的跑步教练,给我一个每天跑步的计划,而且保持积极、乐观、激励我。Gemini将接收这些说明,用户只需单击一下,即可强化这方面的特质,创建一个满足特定需求的Gem。



Project Astra回答手机所拍物问题 安卓端侧Gemini增加多模态功能

谷歌官宣推出新的多模态AI项目Project Astra,它可以为用户解释智能手机拍到的东西。


在谷歌展示的视频中,只要将手机摄像头对准某个物体,Gemini就可以识别它,比如一个红苹果,还可以回答诸如镜头中什么东西是可以发声的这种问题。


谷歌称,将很快为模型Gemini Nano添加多模式功能。这意味着,用户的手机可以通过文本、图像、声音和口语,按照用户理解的方式理解世界。

谷歌称,端侧安卓系统手机版的Gemini Nano将更有帮助,更有上下文的意识。今年,安卓手机的用户将可以将生成的图像拖放到Google Messages 和 Gmail 中,并可以直接在手机上提出有关YouTube视频和 PDF文件的问题,得到解答。

谷歌称,今年晚些时候,Gemini Nano的辅助功能TalkBack将增强。图像描述将更加清晰和丰富,帮助弱视用户和盲人用户通过语音反馈,更好地指示他们的手机。

对周二谷歌开发者大会的所有发布和演示内容,谷歌Health AI产品经理Charlene Wang在社交媒体X评论称,除了AI代理和AI Teammates之外,她从中得到的主要收获实际上是 Gmail、搜索、Workspace 甚至 Chat 未来几个月会变得更有用。目前有大量具有杀手级用户体验的产品引人注目,而将所有内容组织并同步在一个空间中的想法将是使用谷歌产品最令人信服的理由。

有网友则认为,谷歌的整场活动没有达到苹果的水准,呼吁谷歌的高管向苹果学一学,称喜欢Project Astra项目的东西,但并没有觉得很兴奋,因为OpenAI周一已经发布类似的了。

还有网友称,周二的活动中没有听到任何和安卓15系统或相关硬件有关的东西,不知谷歌是不是要把它们保留到今年10月的发布会再亮相。



GPT-4o和Astra对比

从OpenAI和谷歌的发布会来看,GPT-4o目前只能处理静止图像,但Astra可以处理视频,这是一个显著的优势。

并且,谷歌在发布会上还对Gemini 1.5 Pro大模型进行了诸多更新,使其可以拥有更自然的声音、更长的对话、对音频和图像的更好理解、更多的逻辑推理和规划能力,以及更好的代码生成。

不过,GPT-4o背后的技术创新同样令人深刻。据悉,该原生多模态模型能够直接接收/生成语音,而无需经过语音-文字的转化过程,大大缩短了运行周期;并且在执行任务所需的参数量也大幅降低,从而提高运行速度、缩减成本。

就当前进展而言,很难判断OpenAI和谷歌的AI助手中谁更胜一筹,但二者对该领域的重视程度是无疑的。

据媒体此前报道,苹果也在考虑在其手机语音助手Siri中引入GPT技术,以支持AI功能。

科技巨头们相继发力,是否意味着AI助手会成为下一个AI“杀手级应用”?

答案尚不肯定。
有分析指出,虽然目前GPT-4o和Astra展示出的用例都很有趣,但“几乎没有一个”是帮助人们完成工作的。也就是说,这两款AI助手看似功能强大,但实际效用仍是未知。
分析称,如果AI助手后续能够更理解用户的个人偏好,可能其“代理”属性能够有所增强,帮助用户真正完成日常工作,比如网购、预订、填表……

虽然OpenAI和谷歌的AI助手可以直接通过语音、视频等形式运行,但有观点认为,二者仍不能被称作是一个AI助手。

原因在于,GPT-4o和Astra虽然都可以回答问题并执行搜索工作,但它们不能真正执行任务。

华尔街见闻此前提及,OpenAI的在发展边缘AI方面的痛点即为:端侧应用权限、系统级权限。这可能也是它寻求与苹果合作的原因之一。

就目前而言,只要AI助手产品还没有真正接入到手机系统中去,Siri之类的语音助手的地位就无法被撼动。

有观点指出,确定性要比AGI(通用人工智能)更重要,靠谱才是第一的。

该观点认为,即使是目前最好的AI系统,也没有做足准备真正实现个人助手的功能;而手机自带的语音助手虽然没那么“有趣”,但至少不会出错。

GPT-4o和Astra,你更看好谁?

关于GPT-4o的更多内容,可以预约以下直播观看

⭐星标华尔街见闻,好内容不错过

本文不构成个人投资建议,不代表平台观点,市场有风险,投资需谨慎,请独立判断和决策。

觉得好看,请点“在看”

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
这家世界模型公司发布中国版Sora级视频生成大模型,走向世界模型打造新一代数据引擎Google 发布「AI 全家桶」反击 GPT-4o !搜索引擎罕见大更新, 121 句「AI 」道尽焦虑美国的房产经纪人会都失业吗?《美丽家园》&《谁来剪月光》茶百道、华莱士就空包事件回应/库克:Vision Pro 在企业中大受欢迎/​OpenAI下周或发布ChatGPT版搜索引擎OpenAI的搜索引擎要来了!GPT搜索引擎原型曝光!新模型GPT4-Lite驱动,虽然鸽了发布会但代码已上传OpenAI小规模开放语音生成模型,上海发放电脑家电补贴,搜狗发布硬件产品服务下线公告,这就是今天的其他大新闻!OpenAI大招要来了!AI语音助手狙击谷歌苹果,官宣下周二上新,GPT-5年前见OpenAI下周要有大动作,奥特曼在线剧透:不是GPT-5,不是搜索引擎AI早知道|Anthropic推出Claude移动端App;OpenAI或将发布 ChatGPT 版搜索引擎财经早参|谷歌放大招,AI搜索引擎来了;中国公民被英方逮捕,外交部回应;深圳楼市或再出招:减少公摊,提高得房率TikTok周受资正面刚:我们哪儿也不去,准备起诉;雷军:小米汽车 3 年后启动国际市场丨Going Global杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!5 款好用的 AI 知识搜索引擎,揭开智能搜索新篇章丨AI 情报局吕洪来:欺世盗名的“人民政府”OpenAI或将在5月9日发布ChatGPT版搜索引擎;中文大模型最新排名出炉,腾讯混元位居前三丨AIGC日报OpenAI 或将推搜索引擎,挑战谷歌;李飞飞 AI公司获融资,主打「空间智能」;嫦娥六号发射成功,开启月球之旅 | 极客早知道换掉ES? Redis官方搜索引擎,效率大幅提升OpenAI再放大招,还是免费的发布会对比惨烈,奥特曼发文暗讽谷歌!谷歌被曝疯狂重组迎击OpenAI谷歌放大招,AI搜索引擎来了,发布最强AI模型!发布会现场:总共提了120次AI、视频模型登场......OpenAI 下周或发布 ChatGPT 版搜索引擎/茶百道、华莱士就「空包白水」事件回应/全新 iPad 发布会内容曝光这个团队做了OpenAI没Open的技术,开源OpenRLHF让对齐大模型超简单「弃暗投萤」正面刚,“迟到”的网易哪来的底气?谷歌硬刚OpenAI,硅谷大战继续升级OpenAI的搜索引擎真要来了:开启灰度测试,微软Bing加持Claude iOS版本突然推出!11MB大小,体验丝滑,网友呼吁语音功能快上线谷歌硬刚OpenAI,但缺王炸巴菲特称芒格拍桌子让他买比亚迪/ ​OpenAI下周或发布ChatGPT搜索引擎,挑战谷歌丨36氪出海·要闻回顾《歌德堡变奏曲1548》报道:OpenAI计划下周一宣布人工智能搜索引擎【五律】聽陳敏《昨日重現》OpenAI再压谷歌一头,最强模型GPT-4o免费发布,语言对话媲美人类反应OpenAI 推出语音引擎,只需15秒样本,即能重建任何人的声音
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。