参数减半、与CLIP一样好,视觉Transformer从像素入手实现图像文本统一
机器之心编译
CLIPPO 是一种统一的模型,用单个编码器和对比损失来执行图像、文本和多模态任务,优于传统的 NLP 基线和之前基于像素的掩码语言模型。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章机器之心编译
CLIPPO 是一种统一的模型,用单个编码器和对比损失来执行图像、文本和多模态任务,优于传统的 NLP 基线和之前基于像素的掩码语言模型。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者