一个火爆外网的国产AI项目，已开源！

公众号新闻

2024-08-08 09:08

大家好，我是 Jack。

今天继续分享几个开源项目！

一、MiniCPM-V 2.6

8 月 6 日，MiniCPM-V 开源项目重磅更新了「小钢炮」 MiniCPM-V 2.6。

仅 8B 参数，单图、多图、视频理解全面超越GPT-4V，稳坐端侧最强多模态铁王座。

8B 参数的模型很有意义，这种小模型可以在手机端侧落地。

MiniCPM-V 2.6 的能力，让外国网友们眼前一亮，火出圈了！

1、在线测试

我找来了一张火车票测试一下：

输入一张图片，外加问题：请逐步详细分析，谁（姓名）几点出发，从哪儿到哪儿，并且花了多少钱？

回答完全正确。我又找了稍微模糊一点的图片又测试了下：

然后又提问：两张车票，加起来多少钱？

54.5元 + 295.0元 = 349.5元，这种上下文多次输入的，也能算对。

我又测试了它对于梗图的解读：

MiniCPM-V 2.6 的回答，这波你打几分？

再张抽象一点的：

MiniCPM-V 2.6 的回答：

2、官方 Demo

MiniCPM-V 2.6 刷新了端侧多模态复杂推理能力。

比如这道 GPT-4V 官方演示经典命题：调整自行车车座。这个对人很简单的问题对模型却非常困难，它非常考验多模态模型的复杂推理能力和对物理常识的掌握能力。

仅 8B 的 MiniCPM-V 2.6 展现出顺利完成这项挑战的潜力，通过和模型进行多图多轮对话，它清晰地告知完成调低自行车车座的每一个详细步骤，还能根据说明书和工具箱帮你找到合适的工具。

甚至还能根据截图的报错信息，帮你改 bug：

根据表格的截图信息，做数据分析、统计：

3、MiniCPM-V 2.6 细节

MiniCPM-V 2.6 是基于 SigLip-400M 和 Qwen2-7B 构建，共 8B 参数。

支持图片和视频的理解，官方提供的在线 demo 也提供了接口，不仅能处理图文、还是处理视频。

MiniCPM-V 2.6 在最新版本 OpenCompass 榜单上（综合 8 个主流多模态评测基准）平均得分 65.2，以 8B 量级的大小在单图理解方面超越了 GPT-4o mini、GPT-4V、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等主流商用闭源多模态大模型。