周二,腾讯宣布旗下的混元文生图大模型全面升级并对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。腾讯混元采用 DiT 架构|图片来源:腾讯作为业内首个中文原生的 DiT 架构文生图开源模型,混元文生图大模型支持中英文双语输入及理解,参数量 15 亿。升级后的混元文生图大模型采用了与 sora 一致的 DiT 架构,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。腾讯已经将其混元 AI 模型整合到公司的一些企业产品中。同时,腾讯一直在推动在包括汽车在内的各个行业采用其自主开发的混元 AI 大语言模型(LLM),并帮助提高整个行业供应链的效率。腾讯总裁刘炽平表示,随着混元技术逐步成熟,当它能够真正支持多模态交互,尤其是能够制作出真正高品质、高清晰度的视频内容时,其应用潜力将得到显著提升。然而,在达到这一阶段之前,混元技术虽然可以被应用于游戏中的 NPC,为玩家提供一些互动体验,但它还未能完全满足游戏内容创造中的高要求,尚未能够在游戏制作过程中的内容创作方面发挥重要作用,他补充说:「(混元)可能还需要几代技术的时间才能被用于游戏制作。」刘炽平还提到,微信和腾讯的其他应用程序将是人工智能产品的良好分销渠道,但目前仍处于探索如何在不同产品上应用人工智能的早期阶段。
*头图来源:视觉中国本文为极客公园原创文章,转载请联系极客君微信 geekparkGO 直播预告 本周,OpenAI 和谷歌接连发布了「GPT-4o」和「Project Astra」,我们看到人机交互方式开始从文本过渡到语音——具备「真实世界感知 Input」+「低延迟语音 Output」的超级智能助手,已经成为下一阶段 AI 公司军备竞赛的关键,而科幻电影「Her」的故事也在慢慢成为现实。 5月16日(周四)20:30,极客公园特别邀请到MiniMax创始人、CEO闫俊杰,来和大家聊聊关于 AI 语音助手的二三事以及大模型竞争的新赛点。 欢迎预约,敬请期待~