国际科技财经博客移民网络热点娱乐民生时事公众号

>

视觉错觉也能识别？被忽略的 Gemini 1.5 Flash 有哪些神奇表现？｜AI 鲜测

视觉错觉也能识别？被忽略的 Gemini 1.5 Flash 有哪些神奇表现？｜AI 鲜测

公众号新闻

2024-05-30 02:05

作者｜椒盐玉兔

编辑｜椰子

在前段时间的谷歌 I/O 2024大会上，谷歌推出了最新的AI模型——Gemini 1.5 Flash。这款模型不仅轻量高效，还具备强大的多模态处理能力，能够同时处理文本、图像、音频和视频。

Gemini 1.5 Flash 具有以下几个显著特点：

高速响应：优化后的架构使其在处理大量数据时能迅速响应。
长上下文窗口：支持长达两百万标记的上下文处理，使其能够应对复杂的任务，如长视频分析和多章节文档生成。
多模态处理：不仅能处理文本，还能对图像、音频和视频进行深入分析和理解。

接下来，让我们通过具体场景测评来看看 Gemini 1.5 Flash 的实际表现如何。

1

场景1：科普撒切尔效应

最近无意中看到一个有趣的图像实验，看看 Gemini 1.5 Flash 怎么说。

Gemini 1.5 Flash 不仅识别出了“撒切尔效应”，而且详细说明了效应的机制和历史背景，并给出了具体的观察指导。

但它没有提供实际图像示例，可能不太直观。

（撒切尔效应：这是一个视觉错觉。当图像颠倒时，脸看起来正常，但正过来时，脸会显得怪异。这个效应展示了大脑处理面部信息的方式。）

当我再问它“能否反向输出图像”时，它回答：No！

也就是说 Gemini 1.5 Flash 目前不具备多模态输出能力。

撒切尔效应揭秘时刻：

再用视频版输入分析一下，看它能读出什么内容：

在第二次视频分析的回答中，Gemini 1.5 Flash 依旧能够清晰地识别出撒切尔效应，通过科学原理解释了为何颠倒的脸看起来正常，而正过来后显得奇怪，尤其是眼睛和嘴巴。

撒切尔效应揭秘时刻：

体验网址：https://optical.toys/thatcher-effect/

小结一下，Gemini 1.5 Flash 在没有文字提示的情况下，只是通过图片和视频输入来分析，便能做到回答科学详尽、逻辑清晰，这一点上不得不说做的很不错。

但是回答中没有提供具体的图片示例，这一点对于多模态模型是一个硬伤！

1

场景2：教我玩游戏！

既然 Gemini 1.5 Flash 视频分析能力比较强，把这个游戏的视频发给它，看它能否带我们成功通关。

游戏地址：https://clicking.toys/flip-grid/neat-nine/3-holes/

我按照它的方式疯狂“点击”一分钟，没啥结果。

然后我再把刚刚玩的过程录制的视频传给它，看看它怎么接招。

按照它教的我玩了两次，但还是失败了（感觉它开始出错了）。我姑且再信它一次，接着再问它说怎么玩。

果不其然，Gemini 1.5 Flash 承认自己的步骤有错误，让我多多尝试。

到这里会发现 Gemini 1.5 Flash 能够通过视频教会我玩这个游戏，它能够处理视频输入，生成详细且准确的指示和解释。

虽然它能提供详尽的回答，但在初次给出错误步骤后未及时修正，需更好地校验信息准确性。但对于一些复杂问题的解答，可能需要进一步简化说明，使其更加易于理解。

1

场景3：看图讲故事

讲真，Gemini 1.5 Flash 的响应速度极快，它能够快速生成内容和处理多模态输入，很大程度上保证了用户体验的流畅性，这是最直观的一个感受。

让它看图讲故事。它直接根据图片内容在5秒钟之内就生成了一个完整的故事（故事还带有哲理性和反转性），这理解能力也是极强了，而且还是中文故事。

图片来源于网络

故事1：儿童绘本

让它继续写一个，生成的故事风格都不带重样的，现代都市风、未来科技风啥啥都有，关键是效果还不错。

故事2：现代都市风

故事3：未来科技风

我们知道 Gemini 1.5 Flash 的长上下文窗口是其特征之一，允许模型在较长的对话和故事创作中保持连贯性和一致性。那我们再来让它一口气写一万字的故事效果怎么样。

对话图片太长，附上完整对话测试地址：https://poe.com/s/LpECJTyvIQJqlo3FFf8q

例如，让 Gemini 1.5 Flash 生成一个“关于人类探险队发现新星球并与原住民互动的复杂故事”，

它能在10s左右生1万字故事的内容大纲，并分好章节，有每一章的简单介绍，很有条理。
它能在3～5分钟内生成1万字故事每一章的详细内容（手动输入不友好），同时能够有效保持前后文的一致性，确保故事情节流畅，细节丰富。

这些特性对于需要处理大量背景信息的任务，如技术文档编写、深入对话、故事创作灵感激发都非常有用。

但美中不足的是，它不能自动连续生成输出所有的5章故事，需要手动速入指令才会进行下一步，这一点跟 ChatGPT-4o 比起来在用户体验上还是差点意思。

这么来看，Gemini 1.5 Flash 还是有点东西的！根据图像生成相关的故事情节，比如一口气连续生成故事情节连贯的故事，而且生成文本内容质量相对较高，对于中文的理解也很不错。看来是有真本事的！

1

场景4：这个视频讲了什么？

我们上传一个短视频，视频详细演示了在 Midjourney --cw 这一参数的用法及其对图像效果的影响。

视频源于网络

我们看看 Gemini 1.5 Flash 怎么说。

Gemini 1.5 Flash 不仅可以识别出视频的主要是讲啥的，而且分析出视频中上下左右每个图片的具体内容，比如通过旋转参数的调整，可以看到图像中卡通老人的姿态发生变化，分析效果直观明了。

但同样的问题问 ChatGPT，视频针对于视频的分析并不能直接分析，反而回答提取一帧一帧的画面进行分析，我们还是期待一下 GPT-4o 的更新吧。

问到背景音乐是什么，基本歇菜了，只能是

1

场景5：这本书值不值得买？

把《这就是 ChatGPT》的实拍图丢给 Gemini 1.5 Flash，问它好不好，值不值得读，看它怎么推荐。

它回答的速度倒是挺快，识别出了书籍作者，但说原作者是 sam altman，这就开始妥妥的幻觉了，同时也缺少具体价格信息。

再问它具体讲了什么内容：

在第二问中 Gemini 1.5 Flash 开始一本正经胡说八道了。

这本书到底讲了啥内容，目录在这儿了。

书籍《这就是ChatGPT》目录

单凭一张图让 Gemini 1.5 Flash给出一本书的详细内容是不现实的。因为它在图片信息过多的时候，非常容易产生幻觉，混淆信息，产生误导，总之对于AI，依旧要持批判态度，不可轻信。

1

最后

在这个“什么都快”的时代，Flash 真是名不虚传，生成的内容又快又好。

无论是识别和解释撒切尔效应的图像，还是通过视频教学指导游戏，Gemini 1.5 Flash 都展现了强大的分析能力和高效的处理速度。对于文字、图片、视频的分析理解能力又上了一层楼。

但同时 Gemini 1.5 Flash 也有自己的局限，多模态输出能力欠佳。

在图片测试中，Gemini 1.5 Flash 不能直接生成图片，这一点得向 ChatGPT-4o 学习学习。
在视频测试中，Gemini 1.5 Flash 虽然能识别视频中的主要内容和画面细节，但在处理音频输入时还有些不足，这在多模态输出方面也体现出来。

话说回来，Gemini 1.5 Flash 本就是是一款轻量级且高效的多模态 AI 模型，它不仅能处理复杂的多模态输入，还能在多种应用场景中快速、准确地响应。能有这样的水准已经超乎我的意料了！

未来，随着技术的进步，期待 Gemini 系列模型在更多领域大展身手，甚至成为我们日常生活中的得力助手。想象一下，有一天它可能会帮你完成所有的作业呢！

点个“在看”，再走吧

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

再看一遍《我的阿勒泰》，那些你忽略的视听设计细节《文化大国》巴郞官宣免签！1k+直飞，不是迪拜，富得流油的魔幻小国！丝路遗迹、群山森林、蔚蓝海滨，原来它才是被忽略的小众秘境！人类都看不懂的甲骨文，AI 能猜到啥意思？｜AI 鲜测吃越南粉偶遇身价千亿大佬，网友：感觉错过了一个亿！Nature：被忽略百年的发现 - 脑细胞脂肪滴堆积竟是阿尔茨海默病“元凶”[电脑] <Moon Flame 月焰> 爱国者星璨·大岚 X 七彩虹 Z790D5 Flow V20 装机SHOW 阿里开源语音处理模型 FunAudioLLM ：50 种语言无缝翻译，还能识别语音情绪 2h直飞的“世界厨房”！经常被忽略的大都会！出行最便利的酒店，我们都帮你找好啦用国考题来测试“百小应”和 GPT-4o，到底谁能成功上岸？｜AI鲜测你拥有哪些被忽视的闪光点？被忽略的大新闻 “种地先交钱”事件中，被忽略的“农村土地三过”问题除了英伟达，下半年这些被忽略的股票或大放异彩 Costco礼品卡很超值！但有四大缺陷易被忽略，你知道吗？CVPR 2024 | OmniParser：统一图文解析模型：文字检测识别、视觉信息抽取和表格识别 Costco礼品卡很超值，但有四大缺陷易被忽略有视觉记忆的Agent、大变身的搜索、更强的AI全家桶和大一统的Gemini丨Google I/O的绝地反击标注受限也能识别多标签图像！中山大学等发布异构语义转移HST框架 | IJCV 2024 假期被“Remini”硬控五天，这就是古希腊掌管粘土人的神？｜AI 鲜测有视觉记忆的Agent、大变身的搜索、更强的AI全家桶和大一统的Gemini｜现场围观Google I/O的绝地反击水洗和日晒处理法的咖啡豆风味有哪些差别？原来 ChatGPT Search 已经出了？｜AI鲜测一个被忽略的美国金融风险，正达到08年金融危机的峰值！《功成身退》巴郞《疫苗之忧》巴郞熵泱——第五十八章太丰富！加拿大网红小哥被中国Tims餐厅折服，中国特色的贝果很惊艳！还有这些神奇的搭配...只知道纽约和洛杉矶？这个被你忽略的美国小城才是留学生心中Top1 2024全美最佳STEM高中！哪些中学在STEM表现出色？太神奇！加拿大这只鸡能识别各种物体，甚至还创造吉尼斯世界纪录！千里走单骑 [围观]吃越南粉偶遇身价千亿大佬，网友：感觉错过了一个亿！谷歌Gemini 1.5技术报告：轻松证明奥数题，Flash版比GPT-4 Turbo快5倍 OpenAI将推出新工具，能识别由DALL-E 3创建的图像；软银正在洽谈收购英国AI芯片公司Graphcore丨AIGC日报

热点事件追踪