DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩
基于 Diffusion Transformer(DiT)又迎来一大力作「Flag-DiT」,这次要将图像、视频、音频和 3D「一网打尽」。
论文地址:https://arxiv.org/pdf/2405.05945 GitHub 地址:https://github.com/Alpha-VLLM/Lumina-T2X 模型下载地址:https://huggingface.co/Alpha-VLLM/Lumina-T2I/tree/main 论文标题:Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers
试用地址 1:http://106.14.2.150:10021/ 试用地址 2:http://106.14.2.150:10022/
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章