新的多模态盲测榜单来了,一眼望过去全是国产模型 | AI鲜测
邮箱|[email protected]
让两个随机的匿名模型运行同一个 Prompt,可以在排除人为因素的干扰下,很直观的看到模型能力的不同。
通过给结果投票最终得出一个排名,得票最多的模型自然就是生成结果最让人满意的模型,这就是AI领域的1V1决斗场。
之前LMSYS org推出的 Chatbot Arena 已经成了模型能力的一个标杆,目前已经涵盖了102个模型,收集了1,149,962次投票。不过这个项目比的还是逻辑、长文本、复杂Prompt、编码等基础能力。没有涉及图片、视频的模型。
最近,由滑铁卢大学的TIGER实验室做的GenAI-Arena更新了新的功能,在之前文生图的基础上,新增了文生视频模型和图片编辑模型的榜单。
体验地址:
https://huggingface.co/spaces/TIGER-Lab/GenAI-Arena。
我们挨个看看这三个榜单现在都有谁上榜了。首先是文生图模型榜单,共涵盖了11个模型,收集了4196次投票。
前三是PlayGround V2.5、PlayGround V2和字节跳动的SDXLLightning模型。字节在其中一枝独秀,剩下前十主要是PixArt和Stability AI的模型。
在图片编辑的榜单里,收集了9个模型1074次投票,一个国产模型都没有,基本都是国外大学主导做的一些项目。
文生视频这个榜单就格外有意思了,一眼望过去,全是国产模型:上海人工智能实验室、腾讯、潞晨科技、阿里直接霸榜。
在具体使用上跟Lmsys的Chat Arena差不多,可以进行盲测,也可以手动选择进行比较。
如果不想自己想Prompt还可以随机生成
比如做一个:A donkey and an octopus are playing a game. The donkey is holding a rope on one end, the octopus is holding onto the other. The donkey holds the rope in its mouth. A cat is jumping over the rope.(一头驴和一只章鱼正在玩游戏。驴子抓住绳子的一端,章鱼抓住另一端。驴子把绳子叼在嘴里。一只猫从绳子上跳过。)
🐰 图像生成以后会发现有4个按钮,分别是:
👈 A is better - 👈 A更好
👉 B is better - 👉 B更好
🤝 Tie - 🤝 平手
👎 Both are bad - 👎 两者都不好
这轮生成的,显然都不对,甚至章鱼这个关键词直接被忽略掉了。
而在图像编辑这个板块,需要source prompt、target prompt 和 instruct prompt 三种Prompt,前两个都比较好理解, instruct prompt一般用法是指导模型该如何处理source prompt和target prompt的命令,可以增加生成的准确性。
比如在下面的例子中,要让电视播放猫片, instruct prompt可以是Put a show cats on the TV .
这个结果很明显是左边胜利了,右边给桌子上都放上了猫的模型。左边是InfEdit,右边是 MagicBrush。而文生视频跟文生图一样,输入Prompt即可。
滑铁卢大学的这个TIGER实验室本身其实也很有意思,主导人是陈文虎,目前是滑铁卢大学计算机科学助理教授。团队成员有很多浙大的学生。
这个榜单目前整体投票数量还是比较少,都在“千”这个级别,期待他后续的更新,支持更多的模型。欢迎大家关注GenAI,我们后续也会持续关注这个榜单。
微信扫码关注该文公众号作者