在前段时间的谷歌 I/O 2024大会上,谷歌推出了最新的AI模型——Gemini 1.5 Flash。这款模型不仅轻量高效,还具备强大的多模态处理能力,能够同时处理文本、图像、音频和视频。 Gemini 1.5 Flash 具有以下几个显著特点:高速响应:优化后的架构使其在处理大量数据时能迅速响应。
长上下文窗口:支持长达两百万标记的上下文处理,使其能够应对复杂的任务,如长视频分析和多章节文档生成。
多模态处理:不仅能处理文本,还能对图像、音频和视频进行深入分析和理解。
接下来,让我们通过具体场景测评来看看 Gemini 1.5 Flash 的实际表现如何。
场景1:科普撒切尔效应
最近无意中看到一个有趣的图像实验,看看 Gemini 1.5 Flash 怎么说。
Gemini 1.5 Flash 不仅识别出了“撒切尔效应”,而且详细说明了效应的机制和历史背景,并给出了具体的观察指导。(撒切尔效应:这是一个视觉错觉。当图像颠倒时,脸看起来正常,但正过来时,脸会显得怪异。这个效应展示了大脑处理面部信息的方式。)也就是说 Gemini 1.5 Flash 目前不具备多模态输出能力。在第二次视频分析的回答中,Gemini 1.5 Flash 依旧能够清晰地识别出撒切尔效应,通过科学原理解释了为何颠倒的脸看起来正常,而正过来后显得奇怪,尤其是眼睛和嘴巴。体验网址:https://optical.toys/thatcher-effect/小结一下,Gemini 1.5 Flash 在没有文字提示的情况下,只是通过图片和视频输入来分析,便能做到回答科学详尽、逻辑清晰,这一点上不得不说做的很不错。但是回答中没有提供具体的图片示例,这一点对于多模态模型是一个硬伤!场景2:教我玩游戏!
既然 Gemini 1.5 Flash 视频分析能力比较强,把这个游戏的视频发给它,看它能否带我们成功通关。
游戏地址:https://clicking.toys/flip-grid/neat-nine/3-holes/然后我再把刚刚玩的过程录制的视频传给它,看看它怎么接招。
按照它教的我玩了两次,但还是失败了(感觉它开始出错了)。我姑且再信它一次,接着再问它说怎么玩。果不其然,Gemini 1.5 Flash 承认自己的步骤有错误,让我多多尝试。到这里会发现 Gemini 1.5 Flash 能够通过视频教会我玩这个游戏,它能够处理视频输入,生成详细且准确的指示和解释。虽然它能提供详尽的回答,但在初次给出错误步骤后未及时修正,需更好地校验信息准确性。但对于一些复杂问题的解答,可能需要进一步简化说明,使其更加易于理解。场景3:看图讲故事
讲真,Gemini 1.5 Flash 的响应速度极快,它能够快速生成内容和处理多模态输入,很大程度上保证了用户体验的流畅性,这是最直观的一个感受。让它看图讲故事。它直接根据图片内容在5秒钟之内就生成了一个完整的故事(故事还带有哲理性和反转性),这理解能力也是极强了,而且还是中文故事。让它继续写一个,生成的故事风格都不带重样的,现代都市风、未来科技风啥啥都有,关键是效果还不错。我们知道 Gemini 1.5 Flash 的长上下文窗口是其特征之一,允许模型在较长的对话和故事创作中保持连贯性和一致性。那我们再来让它一口气写一万字的故事效果怎么样。对话图片太长,附上完整对话测试地址:https://poe.com/s/LpECJTyvIQJqlo3FFf8q例如,让 Gemini 1.5 Flash 生成一个“关于人类探险队发现新星球并与原住民互动的复杂故事”,这些特性对于需要处理大量背景信息的任务,如技术文档编写、深入对话、故事创作灵感激发都非常有用。但美中不足的是,它不能自动连续生成输出所有的5章故事,需要手动速入指令才会进行下一步,这一点跟 ChatGPT-4o 比起来在用户体验上还是差点意思。这么来看,Gemini 1.5 Flash 还是有点东西的!根据图像生成相关的故事情节,比如一口气连续生成故事情节连贯的故事,而且生成文本内容质量相对较高,对于中文的理解也很不错。看来是有真本事的!场景4:这个视频讲了什么?
我们上传一个短视频,视频详细演示了在 Midjourney --cw 这一参数的用法及其对图像效果的影响。我们看看 Gemini 1.5 Flash 怎么说。Gemini 1.5 Flash 不仅可以识别出视频的主要是讲啥的,而且分析出视频中上下左右每个图片的具体内容,比如通过旋转参数的调整,可以看到图像中卡通老人的姿态发生变化,分析效果直观明了。
但同样的问题问 ChatGPT,视频针对于视频的分析并不能直接分析,反而回答提取一帧一帧的画面进行分析,我们还是期待一下 GPT-4o 的更新吧。
场景5:这本书值不值得买?
把《这就是 ChatGPT》的实拍图丢给 Gemini 1.5 Flash,问它好不好,值不值得读,看它怎么推荐。
它回答的速度倒是挺快,识别出了书籍作者,但说原作者是 sam altman,这就开始妥妥的幻觉了,同时也缺少具体价格信息。在第二问中 Gemini 1.5 Flash 开始一本正经胡说八道了。单凭一张图让 Gemini 1.5 Flash给出一本书的详细内容是不现实的。因为它在图片信息过多的时候,非常容易产生幻觉,混淆信息,产生误导,总之对于AI,依旧要持批判态度,不可轻信。最后
在这个“什么都快”的时代,Flash 真是名不虚传,生成的内容又快又好。无论是识别和解释撒切尔效应的图像,还是通过视频教学指导游戏,Gemini 1.5 Flash 都展现了强大的分析能力和高效的处理速度。对于文字、图片、视频的分析理解能力又上了一层楼。
但同时 Gemini 1.5 Flash 也有自己的局限,多模态输出能力欠佳。话说回来,Gemini 1.5 Flash 本就是是一款轻量级且高效的多模态 AI 模型,它不仅能处理复杂的多模态输入,还能在多种应用场景中快速、准确地响应。能有这样的水准已经超乎我的意料了!
未来,随着技术的进步,期待 Gemini 系列模型在更多领域大展身手,甚至成为我们日常生活中的得力助手。想象一下,有一天它可能会帮你完成所有的作业呢!