国际科技财经博客移民网络热点娱乐民生时事公众号

>

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

公众号新闻

2024-08-02 05:08

机器之心报道

编辑：陈陈、小舟

这么强的模型，谷歌给大家免费试用。

近两日，谷歌在不断发布最新研究。继昨日放出最强端侧 Gemma 2 2B 小模型后，刚刚，Gemini 1.5 Pro 实验版本 (0801) 已经推出。

用户可以通过 Google AI Studio 和 Gemini API 进行测试和反馈。

既然免费，那我们帮大家测试一下最近比较火的比大小问题。当我们问 Gemini 1.5 Pro (0801) 9.9 和 9.11 哪个数大时，模型一次就能回答正确，并给出了理由。

当我们继续追问「Strawberry 单词里面有多少个 r」时，然而 Gemini 1.5 Pro (0801) 却翻车了。在提示语中施加「咒语」一步一步来，模型分析到第四步就出错了。

Google AI Studio 测试地址：https://aistudio.google.com/app/prompts/new_chat

不过，从官方评测来看，Gemini 1.5 Pro (0801) 各项指标还是很能打的。新模型迅速夺得著名的 LMSYS Chatbot Arena 排行榜榜首，并拥有令人印象深刻的 ELO 分数，得分为 1300。

这一成就使 Gemini 1.5 Pro (0801) 领先于 OpenAI 的 GPT-4o（ELO：1286）和 Anthropic 的 Claude-3.5 Sonnet（ELO：1271）等强大竞争对手，这或许预示着人工智能格局的转变。

Gemini 团队关键成员 Simon Tokumine 称 Gemini 1.5 Pro (0801) 是谷歌迄今为止制造的最强大、最智能的 Gemini （模型）。

除了拿到 Chatbot Arena 榜首，Gemini 1.5 Pro (0801) 在多语言任务、数学、Hard Prompt 和编码等领域也表现相当出色。

具体而言，Gemini 1.5 Pro (0801) 在中文、日语、德语、俄语方面均表现第一。

但在编码、Hard Prompt 领域，Claude 3.5 Sonnet、GPT-4o、Llama 405B 仍然处于领先地位。

在 win-rate 热图上：Gemini 1.5 Pro (0801) 对阵 GPT-4o 的胜率为 54%，对阵 Claude-3.5-Sonnet 的胜率为 59%。

Gemini 1.5 Pro (0801) 在 Vision 排行榜上也第一！

网友纷纷表示，谷歌这次真是出乎所有人的预料，没有提前官宣就突然开放测试最强模型，这次压力给到了 OpenAI。

虽然 Gemini 1.5 Pro (0801) 取得了很高的成绩，但它仍处于实验阶段。这意味着该模型在广泛使用之前可能会进行进一步的修改。

网友评测

有网友对 Gemini 1.5 Pro (0801) 的内容提取能力、代码生成能力、推理能力等进行了测试，我们来看下他的测试结果。

来源：https://x.com/omarsar0/status/1819162249593840110

首先，Gemini 1.5 Pro (0801) 的图像信息提取功能很强，例如输入一张发票图像，将发票细节用 JSON 格式编写出来：

再来看下 Gemini 1.5 Pro (0801) 的 PDF 文档内容提取功能，以经典论文《Attention Is All You Need》为例，提取论文章节目录：

让 Gemini 1.5 Pro (0801) 生成一个帮助学习大型语言模型（LLM）知识的 Python 游戏，该模型直接生成了一整段代码：

值得一提的是，Gemini 1.5 Pro (0801) 还给出了详细的代码解释，包括代码中函数的作用、该 Python 游戏的玩法等等。

这段程序可以直接在 Google AI Studio 中运行，并且可以试玩，例如做道关于 Tokenization 定义的选择题：

如果觉得选择题太简单无聊，可以进一步让 Gemini 1.5 Pro (0801) 生成一个更复杂的游戏：

得到一个 LLM 专业知识句子填空游戏：

为了测试 Gemini 1.5 Pro (0801) 的推理能力，网友提问了一个「吹蜡烛」问题，但模型回答错误：

尽管有一些瑕疵，但 Gemini 1.5 Pro (0801) 的确表现出接近 GPT-4o 的视觉能力，以及接近 Claude 3.5 Sonnet 的代码生成和 PDF 理解、推理能力，值得期待。

参考链接：

https://www.youtube.com/watch?v=lUA9elNdpoY

https://x.com/lmsysorg/status/1819048821294547441

© THE END

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

仅8B，全面超越GPT-4V！单图、多图、视频理解端侧三冠王！史上最强端侧多模态诞生开源Llama 3.1一夜成最强大模型！超越闭源GPT-4o，OpenAI坐不住了 OpenAI 断供中国大陆市场，零一万物 Yi API 二折平替 GPT-4o 面对质疑，奥特曼终于公开了OpenAI 前沿大模型安全架构 Llama 8B搜索100次超越GPT-4o！推理+搜索即可提升性能，新「Scaling Law」诞生？谷歌发布新一代AI手机，5700 元起；星巴克换帅，股价大涨 20%；OpenAI 官宣 GPT-4o 更新 | 极客早知道可信度超越GPT-4V，清华&面壁揭秘「小钢炮」模型背后的高效对齐技术安省警方头一回：有人在高速旁倾倒了一大堆龙虾！阿里发布大模型发布图结构长文本处理智能体，超越GPT-4-128k 用GPT-4纠错GPT-4！OpenAI推出CriticGPT模型；谷歌Gemma 2发布，与第一代相比性能更高丨AIGC日报字节跳动豆包大模型支持实时语音通话；阿里发布Qwen2-Math：数学推理全球第一，超越GPT-4o丨AIGC日报多模态模型学会打扑克：表现超越GPT-4v，全新强化学习框架是关键首个多模态视频竞技场Video-MME来了！Gemini全面超越GPT-4o，Jeff Dean连转三次新王登基，Gemini 1.5 Pro 再度更新，超越 GPT 4o 和 Claude-3.5 北京大学：利用好不确定性，8B小模型也能超越GPT-4 Prompt工程师要下岗了！北大发布Prompt自动增强系统PAS，超越SOTA 苹果 WWDC 超全总结：GPT-4o 加入 iOS 18，Vision Pro 国行确定，29999 起！｜亮马桥小纪严选 OpenAI“草莓”落地了？ChatGPT惊现神秘GPT-4o模型，网友热议：新版本提升不多，但逻辑推理有改进重磅惊喜！OpenAI突然上线GPT-4o超长输出模型！「Her」高级语音模式已开放测试！OpenAI 突然发布 GPT-4o mini ！更快更便宜，人人免费可用，GPT-3.5 成为历史 GLM-4开源版本终于来了：超越Llama3，多模态比肩GPT4V，MaaS平台也大升级 AI早知道｜腾讯元宝上线3D角色梦工厂；Claude 3.5 Sonnet数据可视化超越GPT-4o GPT4o又被超越，首席科学家出走！OpenAI为啥不争气了？这个团队做了OpenAI没Open的技术，开源OpenRLHF让对齐大模型超简单 GPT-4o新版本突然上线：丝滑解决9.11和9.9谁大，更强也更便宜了 NVIDIA把Llama-3的上下文长度扩展16倍，长上下文理解能力超越GPT-4 Spring 全家桶版本更新：Spring Boot、Spring Security 和 Spring Modulith RAG微调Llama 3竟超越GPT-4！英伟达GaTech华人学者提出RankRAG框架 OpenAI 发布 GPT-4o mini，GPT-3.5 退役/曝娃哈哈总经理宗馥莉请辞/香港消委会致歉农夫山泉 Gemini终于赢了GPT-4o！Video-MME首个视频多模态基准来了！

热点事件追踪