Redian新闻
>
腾讯研发了快一年的混元文生图模型,说开源就开源了?

腾讯研发了快一年的混元文生图模型,说开源就开源了?

公众号新闻
作者周一笑
邮箱[email protected]

文生图模型成熟之后,有多少人苦练Midjourney咒语,还是调不出可用的图像?

设计界的专业名词、不太准确的英文翻译、理解不了的中国古代建筑充斥在目前文生图工具中。

本质上是源于国内很多团队基于翻译+英文开源Stable Diffusion模型,或者基于少量的中文数据在一些特殊的场景做了finetune,而这两种方式都存在对中文理解不足和不通用的问题。

针对这些痛点,腾讯带着中文原生的文生图大模型来了。

5月14日,腾讯宣布开源混元文生图大模型,是国内首个中文原生的DiT架构模型,具备中英文双语理解及生成能力,在古诗词、俚语、传统建筑、中华美食等中国元素的生成上表现出色。

比如同样是含有“昆曲”、“狗不理包子”关键词的Prompt,对比不同对文生图模型,混元生成了最匹配对图片:

为了进一步降低了用户的使用门槛,解决几个Prompt搞不定一张图的难题,对比此前大多数文生图模型77个字符的输入,混元支持最多256个字符的输入,简直是文生图界的“Kimi”了。

我们简单的尝试了一下腾讯混元文生图模型的长文本能力,发现当给了用户足够的输入空间对图像细节进行描述,生成结果的可控性就变得高了很多。

比如把一个长达253字符的Prompt丢给混元模型:一张细致的照片捕捉到了一尊雕像的形象,这尊雕像酷似一位古代法老,头上出人意料地戴着一副青铜蒸汽朋克护目镜。这座雕像穿着复古时髦,清爽的白色T恤和合身的黑色皮夹克,与传统的头饰形成鲜明对比。背景是简单的纯色,突出了雕像的非传统服装和蒸汽朋克眼镜的复杂细节。

这是生成效果:

这个特性尤其对专业用户来说是一个显著的进步,通过更丰富和详细的描述,增强图像的相关性和准确性。在长文本输入的基础能力之上,混元文生图大模型基于用户的使用场景,还支持用户文本改写以及多轮(十轮以上)绘画,确保生成结果的可用。

此次也是腾讯首次对大模型进行开源,或许是为后续主模型开源的一次铺垫。

1

文生图也要DiT?

混元文生图大模型差异性源于底层技术架构。在架构方面,混元文生图大模型采用了DiT架构,支持中英文双语输入及理解,参数量15亿。

由Sora带火的DiT架构融合了扩散模型和Transformer架构的优势,提供了强大的视觉生成能力,这种架构不仅可以用于文生图,还能用作视频和其他多模态视觉内容的生成基础。

硅星人了解,腾讯混元团队认为基于Transformer架构的扩散模型(如DiT)具有更大的可扩展性,很可能成为下一代主流视觉生成架构,很可能会成为文生图、生视频、生3D等多模态视觉生成的统一架构。

“Transformer有非常强大的扩展能力,目前我们还不知道它的天花板在哪,这也是我们为什么坚定地往Transformer去走。”腾讯文生图负责人芦清林解释说。

混元文生图从2023年7月起明确了基于Transformer架构的文生图模型,并启动了长达半年时间的研发、优化和打磨。在2024年2月初,将模型基础架构从U-Net升级为Transformer。

在这一过程中,腾讯混元主要从三个方面进行了改进和优化:

模型算法是一个模型的灵魂。混元通过在模型中加入了LLM的组件,让DiT架构具备了长文本理解能力,同时利用多模态大语言模型,对简单/抽象的用户指令文本进行强化,转写成更丰富/具象的画面文本描述,最终提升文生图的生成效果;通过自主训练中文原生文本编码器,增加了中文原生的理解能力,同时也支持英文;此外还通过技术手段控制同一话题与主体下图片主体的一致性,增加了多轮对话的能力。

而数据,则是决定了一个模型质量的养料。为了解决文生图模型训练数据量不足和质量不高的问题,腾讯混元团队采取了一些系统化的方法来提高数据的数量和质量。包括语言模型数据质量优化和图片训练数据处理流程(数据管道)优化。

语言模型数据质量提升主要从改善图片文字描述和建立多维度的数据集入手,首先,腾讯混元团队构建出可以描述图片详细内容的结构化文字,这些描述不仅准确还包括了丰富的知识点,比如结合专家的意见和专门设计的文本模型来提升描述的质量,使得模型学习到的数据更加有意义和具体。其次,他们创建了一个包括多个方面和主题的数据集,这样不管训练数据多么多样化,模型都能够根据不同的指示调整和生成内容,使它能够更好地适应各种情况。

图片训练数据的处理(数据管道)优化上,使用高效且精确的自动标签系统,一边获取图片一边给图片内容做标记分层,根据图片的质量好坏来为不同水平的模型服务。

此外,为了提供优质且种类平衡的数据样本,并降低由于数据变化导致的风险,腾讯混元团队设计了一种“数据班车”机制。通过比较线上模型和改变后样本分布的模型表现,来评估不同类型的训练样本对模型带来的影响,并且形成了一个可循环优化的训练样本调整流程。

在这之外,工程化的流程拥有最大的提效空间。为了更好地提升模型训练与运行效率,提升算力资源利用率,腾讯混元文生图团队为该模型构建专属工程加速工具库。同时,针对大模型训练和推理场景,使用了腾讯自研了Angel机器学习平台,主要包含负责训练的AngelPTM和负责推理的AngelHCF两大部分,从而提升训练效率。

正是在这一系列努力之下,腾讯混元文生图模型的效果得到了提升和优化。根据腾讯技术报告中的评测结果显示,最新的腾讯混元文生图模型效果远超开源的Stable Diffusion模型,是目前效果最好的开源文生图模型。

芦清林也表示,目前混元文生图大模型跟闭源相比,也各有优劣。“希望通过我们的开源能把这个差距变小。”

同时,他也明确了混元未来会主要通过两个方面进一步缩小差距:数据方面,图文对从去年的5-6亿,今年已经扩充到20亿,未来会持续扩充,包括更高质量的筛选;模型方面,目前是15亿的参数量,已经在尝试参数量更大的模型。

1

腾讯拥抱大模型开源路线?

据硅星人了解到,开源后的混元文生图大模型,目前已在Hugging Face平台及Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。这次开源可以被视为一个相对完整的开源行为,不仅提供了必要的技术文档和代码,还允许商业使用,这对于推动技术发展和应用具有积极作用。

值得一提的是,这次开源的混元文生图大模型与腾讯混元文生图产品(包括微信小程序、Web端、云API等)最新版本完全一致。“我们希望能够把最好的东西拿出来,跟社区和业界的小伙伴们一起去应用。”

显然,此次混元文生图大模型的开源,被视为他要加入开源阵营的一个重要信号。

混元之前,整个大模型行业关于开源还是闭源的话题充满争议。做闭源的人吐槽“开源大模型没有竞争力”,搞开源的人起诉“OpenAI 不Open”。

OpenAI是坚定的闭源阵营坚持者,押注在更强通用模型的打造上;开源阵营Meta、Google以及国内的阿里等也在不断迭代。当然,也有其他大模型公司更多选择中间路线:模型“低配版”开源,更高参数量的模型闭源。比如,谷歌Gemini多模态模型闭源,单模态Gemma语言模型开源;Mistral最新发布的旗舰级大模型Mistral Large也是闭源。

即便如此,在去年年底到今年的趋势下,还是有越来越多的后来者选择了开放的模式。同时,开源作为推动创新的重要力量有目共睹,整个大模型行业如今得以高速发展也是建立在开源技术之上。

谷歌不开源Transformer,就没有GPT,没有TensorFlow和PyTorch这样的开源机器学习库,就没有今天大规模模型训练与部署的简化,Meta的Llama也让我们看到高质量的开源项目可以为企业带来长远的利益。

大模型企业采取开源策略,一方面是为了在市场上抢占先机,吸引那些没有充分财务和资源支持的用户免费使用他们的开源模型;另一方面,开源能够促进良好的用户互动,企业通过收集用户的反馈和了解他们的使用难点,可以快速优化和改进模型。这种做法不仅增加了用户基础,还加速了产品的技术创新和版本迭代,最终引领规则设计以及搭建生态。

腾讯此次开源混元文生图大模型,或许更侧重于展示了腾讯的技术实力和开放合作意愿。“开源社区能让大家都参与进来,共建能走得更快,这就是为什么我们现在要做开源。”芦清林表示。

在这个节点选择尝试开源,不止是行业选择,与腾讯自身而言,更具现实意义。

从2023年3月开始,腾讯在大模型领域长期以来一直是闭源且低调的姿态。马化腾在腾讯2023年股东大会上讲道:“并不急于早早做完,把半成品拿出来展示。”在全员加速的AI时代,Pony仍然是个“慢性子”。

在这种背景下,腾讯的大模型更聚焦于加强内部商业化路径。芦清林表示,“腾讯内部的业务场景非常丰富,能给他们带来价值就非常好。”

5月14日,在腾讯最新的财报中,广告业务和AI结合成为亮点。财报中显示:网络广告业务收入增长受益于用户参与度的提升以及集团不断升级的AI驱动的广告技术平台;升级了广告技术平台,帮助广告主更有效地进行广告投放,并向所有广告主推出了生成式AI驱动的广告素材创意工具。

腾讯是否会推动大模型的进一步开源还未可知,但混元文生图大模型的开源至少是一个积极的信号,接下来就看腾讯是否会放出更多的“成品”了。

点个在看,再走吧

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
腾讯混元大模型产品品鉴会邀约 | 7月3日16:00 一起来体验混元大模型的全新产品方案腾讯混元文生图大模型开源:Sora 同架构,更懂中文,已支持 16s 视频生成快手上线自研文生图大模型“可图”,参数规模达十亿级苹果一次性开源了8个大模型! 包含模型权重、训练日志和设置,OpenELM全面开源WWW 2024 | 阿里等提出GraphTranslator,将图模型对齐大语言模型打磨三年、支持万亿 MoE,腾讯混元模型团队的真实推理实力到底如何?CAA公布2024年度安省10大最差道路!多伦多占了快一半腾讯混元大模型全面降价!混元-lite 即日起免费1分钟生成高质量3D素材!Meta甩出文生3D模型,效果演示惊艳保管好绿卡!现在补办等很久 有人申请了快一年都没音讯AI早知道|OpenAI发布GPT-4o;混元文生图大模型宣布全面开源深圳/北京内推 |​ 腾讯混元AIGC团队招聘文生3D方向算法研究员/实习生妈妈的野心CVPR'24:文生图提示词自动优化,还发现三个小窍门,人大度小满等机构出品揭秘腾讯混元大模型:400+场景落地,协作SaaS产品全面接入腾讯研究院发布业界首份行业大模型调研报告;被曝2025年量产AI芯片并获软银支持,Arm回应丨AIGC日报AI早知道|360安全大模型3.0发布;通义听悟上线音视频问答助手;腾讯混元大模型参数规模扩展至万亿腾讯混元文生图大模型全面开源!Sora同架构,更懂中文,免费商用AI早知道|腾讯混元文生图大模型开源训练代码;知网推出AI学术研究助手4.0华为现场演示AI文生图时出现sleep代码,请问time.sleep(6)起到了什么作用?OpenAI或将在5月9日发布ChatGPT版搜索引擎;中文大模型最新排名出炉,腾讯混元位居前三丨AIGC日报腾讯混元大模型升级:部分中文能力已追平GPT-4,支持16s视频生成;索尼音乐禁止人工智能开发商使用其音乐内容丨AIGC日报天安门城楼的记忆从零开始,用英伟达T4、A10训练小型文生视频模型,几小时搞定苹果开源了!首次公开手机端侧大模型,AI iPhone 的细节就藏在里面首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用金庸百年,百年金庸AI早知道|商汤发布日日新5.0大模型;微软推出小语言模型Phi-3;腾讯旗下协作SaaS产品全面接入混元大模型腾讯研究院:2024行业大模型调研报告-向AI而行共筑新质生产力美股基本面 - 2024_03_20 * 晨报 * 腾讯第四季度本土游戏收入270亿元 国际游戏收入139亿元。腾讯第四季度社加州人:快来一起保护我们的后代!AI早知道|Stability AI 资金危机或考虑出售;腾讯混元大模型支持 16s 视频生成演示文生图时出现sleep代码,华为回应造假嫌疑;微软将中国AI团队集体打包到美国;百度ECharts创始人“下海”养鱼|Q资讯“AI文生图”争议,王迁教授的这个观点,至少听两遍!超越扩散模型!度小满、中科大等联合提出全新自回归通用文生图模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。